基于正文特征的网页正文信息提取方法
Modern Computer(2008)
Abstract
利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法。该方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息。实验结果证明该方法是有效的、通用的。
MoreTranslated text
Key words
Block Identification,Information Extraction,Topical Text Feature
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined