基于小句复合体的句子边界自动识别研究

王瑞琦,罗智勇, 胡紫娟, 何晓文

Journal of Chinese Information Processing(2021)

引用 0|浏览0
暂无评分
摘要
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定.该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型.实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要