基于主动学习与众包的农业知识标注体系及语料库构建

JIANG Jingchi, GUAN Changhe,LIU Jie,GUAN Yi, KE Shanfeng

Journal of Chinese Information Processing(2023)

引用 0|浏览0
暂无评分
摘要
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点.为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系.在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系.在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要