挖掘专利知识实现关键词自动抽取

Journal of Computer Research and Development(2016)

引用 15|浏览1
暂无评分
摘要
关键词是人们快速判断是否要详细阅读文件内容的重要线索,关键词自动抽取在信息检索、自然语言处理等研究领域均有重要应用。设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本进行学习和理解,最终自动抽取出关键词。专利数据因其数据量庞大、内容丰富、表达准确、专业权威而被选中作为知识库来源。详细讨论了专利数据的特性,挖掘不同专利间的知识关联,针对某一知识领域构造背景知识库,在此基础上进行目标文本的关键词自动抽取。与目标文本相关的专利文集中每个专利的专利发明人、权利人、专利引用和分类信息都被用于在不同的专利文档之间发现关联性,利用关联信息扩充背景知识库,获得目标文档在各个相关知识领域的背景知识库。基于背景知识库设计了词知识特征值,以反映词在目标文本背景知识中的重要程度。最后,把关键词抽取问题转化为分类问题,利用支持向量机(support vector machine ,SVM )抽取出目标文本的关键词。在专利数据集和开放数据集的实验结果证明明显优于现有算法。
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要