统计流形学习中的文本度量方法

小型微型计算机系统(2018)

Cited 0|Views5
No score
Abstract
传统的文本分类方法如核方法、TF-IDF等等,忽略了文本和词的语义信息以及主题分布的多样性.本文在高斯分布主题模型假设和统计流形学习框架的基础上,提出一种基于统计流形的文本距离度量方法(Text Metric on Statistical Manifold,TM SM).该算法是对主题模型的扩展,通过使用高斯混合模型来描述词在主题中的分布,得到了不同文本基于不同主题分布的概率模型表示.然后在统计流形学习框架下,通过度量概率模型来度量文本之间的距离,并使用在分类器算法上.多种数据集上进行的分类实验结果表明:和经典的文本分类方法相比,TMSM在所有测试数据集上均取得较好的分类准确率.
More
Translated text
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined