词海拾珠，智识典故——基于深度学习的典故识别与应用研究

北京大学

三等奖

省赛

人工智能专项赛

基础信息

比赛名称

第十九届“挑战杯”全国大学生课外学术科技作品竞赛

参赛年份

2025

比赛级别

省赛

参赛类别

人工智能专项赛

获奖情况

三等奖

项目发展信息

项目转化情况

未转化

是否创业

否

项目简介

我们提出并实现了一个基于BERT-BiLSTM-CRF框架，引入字典特征的典故识别模型。典故识别是古籍数字化与语义理解的关键任务，对古诗文阅读、文学研究和文化传承具有重要意义。然而，现有方法面临典故表达灵活、数据稀缺和模型泛化能力不足等挑战。本文提出一种知识增强的混合识别框架Allusion-BERT-CRF，通过多模态特征融合与动态字典特征增强，显著提升典故识别性能。模型结合BERT的语义编码能力与BiLSTM-CRF的序列建模优势，创新性地引入滑动窗口最大相似度匹配算法（SW-MSM），动态生成稀疏字典特征并转化为稠密向量表示，有效解决异形词和字符换序问题。实验表明，模型在古诗典故数据集上的位置识别F1值达82.98%，类别识别Top-1准确率达91.32%；在古汉语典故资源库上的F1值达86.39%，超越基于余弦相似度的方法（27.89%）和现有大语言模型（如GPT-4+RAG的47%）。我们的模型具有较高的应用价值：目前，本模型已成功应用于《全唐诗》的典故自动化标注的工作当中，已完成数卷的标注工作。但无后续转化

其他补充介绍

无

联系方式

暂未公开

热门项目