并行分布式的Web访问模式双层聚类

Xiaoli JIA,Rui WU, Siying WU

Computer Engineering and Applications(2019)

引用 0|浏览2
暂无评分
摘要
Web日志挖掘可以通过对用户访问模式进行分析,以获取用户的访问兴趣程度.目前,大多数的web日志挖掘是基于频率的,其挖掘的信息没有太大的价值.而提出的聚类技术是基于访问时间的,使用模糊向量表示用户浏览模式,记录用户是否浏览过该页面以及停留的时间.通过不同的聚类方法对用户的访问序列进行聚类分析.将模糊粗糙k-均值和夹角余弦相结合,提出了一种双层聚类技术,减少了对初始聚类中心的敏感性,并且通过一系列实验,论证了该聚类方法的可行性.而且,实验通过使用Davies-Bouldin指标来验证不同聚类方法的效果并进行比较.由于数据量大时,仍然存在算法效率低的问题,因此,使用MapReduce实现双层聚类的并行化,提高了聚类的效率.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要