基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法

Data Analysis and Knowledge Discovery(2022)

引用 0|浏览9
暂无评分
摘要
[目的]针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测.[方法]通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图,并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果.[结果]在两个网络新闻数据集上的实验结果表明,所提方法得到的ARI值更高,分别达到0.86和0.97.参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90.[局限]未在其他领域数据集以及多语言数据集上进一步验证.[结论]所提方法可以有效提升网络新闻话题检测性能,为话题检测关键技术研究提供有价值的参考.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要