基于语义的短文本消重算法研究

Journal of Network New Media(2017)

引用 0|浏览1
暂无评分
摘要
传统的文本消重技术局限于消除字面完全相同或者高度相似的信息,无法满足特定领域,比如新闻消重的要求.为了去除“话题重复”的新闻报导,提出一种两层短文本消重技术,在字面消重层的基础上,添加语义消重层,结合多个词向量空间模型捕获文本语义特征,试图检测属于同一话题的重复新闻.实验表明,本算法较单纯的基于字面的文本消重算法,在保证不降低检测准确率的条件下,能较大提高检测召回率.其应用于“科技视界”新闻服务系统中,取得良好效果.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要