政府公文领域细粒度命名实体识别的实用化研究与设计

Micro/Nano Electronics and Intelligent Manufacturing(2020)

引用 0|浏览2
暂无评分
摘要
命名实体识别是自然语言处理中重要而基础的任务.中国政府公文是一类影响深远的数据资源,其中蕴含的命名实体也与通用领域的实体有所不同.深度学习为这一特定领域的实体识别提供了技术支持,但是它们都需要大规模、高成本的标注语料,而且大都止于粗粒度的识别.本文重新界定了信息处理用公文实体的类别,做了细粒度的语料标注.然后分别使用主动学习和远程监督方法优化了实体识别模型.实验证明此方法识别的公文实体不仅粒度更细,识别F1值在87%以上,而且降低了语料需求,减小了约60%的语料标注工作量.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要