热点词汇的最长时间区间查询算法

计算机应用与软件(2019)

Cited 1|Views79
No score
Abstract
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF~*PDF算法加以改进,在空间复杂度不变的情况下,降低TF~*PDF算法的时间复杂度。实验表明,与传统的TF~*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。
More
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined