Chrome Extension
WeChat Mini Program
Use on ChatGLM

基于正文特征的网页正文信息提取方法

Modern Computer(2008)

Cited 6|Views2
No score
Abstract
利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法。该方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息。实验结果证明该方法是有效的、通用的。
More
Translated text
Key words
Block Identification,Information Extraction,Topical Text Feature
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined