基于词性标注规则的马铃薯文献信息抽取方法

WANG Teng-yang, ZHAO Xiao-dan,HU Lin

Science Technology and Engineering(2023)

Cited 0|Views15
No score
Abstract
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,文献格式为PDF文档,人工整理文献内的种质资源数据费时费力.为了快速、准确地从育种文献中提取种质资源数据,使用基于词性标注规则和预设词的方法抽取文献数据.对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(optical character recognition,OCR)获取文本内容.采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用 自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据.对115篇文献的1 490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础.
More
Key words
potato,part-of-speech tagging,information extraction,natural language processing
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined