Chrome Extension
WeChat Mini Program
Use on ChatGLM

基于改进的隐马尔科夫模型的网页新闻关键信息抽取

Data Analysis and Knowledge Discovery(2019)

Cited 4|Views3
No score
Abstract
[目的]通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果.[方法]将网页文档转为D0M树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进.[结果]使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%.[局限]抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取.[结论]该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点.
More
Key words
improved hidden markov model,web news,key information,extraction
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined