基于词汇语义信息的文本相似度计算

Application Research of Computers(2018)

引用 5|浏览8
暂无评分
摘要
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率.虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况.针对以上问题,提出了一种新的计算方法.该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示.因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法.实验表明该方法在F1值和准确度评价标准上优于其他方法.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要