第十九届“挑战杯”全国大学生课外学术科技作品竞赛
2025
省赛
人工智能专项赛
三等奖
未转化
否
我们提出并实现了一个基于BERT-BiLSTM-CRF框架,引入字典特征的典故识别模型。 典故识别是古籍数字化与语义理解的关键任务,对古诗文阅读、文学研究和文化传承具有重要意义。然而,现有方法面临典故表达灵活、数据稀缺和模型泛化能力不足等挑战。本文提出一种知识增强的混合识别框架Allusion-BERT-CRF,通过多模态特征融合与动态字典特征增强,显著提升典故识别性能。模型结合BERT的语义编码能力与BiLSTM-CRF的序列建模优势,创新性地引入滑动窗口最大相似度匹配算法(SW-MSM),动态生成稀疏字典特征并转化为稠密向量表示,有效解决异形词和字符换序问题。实验表明,模型在古诗典故数据集上的位置识别F1值达82.98%,类别识别Top-1准确率达91.32%;在古汉语典故资源库上的F1值达86.39%,超越基于余弦相似度的方法(27.89%)和现有大语言模型(如GPT-4+RAG的47%)。 我们的模型具有较高的应用价值:目前,本模型已成功应用于《全唐诗》的典故自动化标注的工作当中,已完成数卷的标注工作。但无后续转化
无
暂未公开
暂未公开
暂未公开