基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点

WANG Yao,GU Lei

Software Guide(2022)

引用 0|浏览0
暂无评分
摘要
古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义.采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解.为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法.该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右.同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右.实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要