一种频繁模式决策树处理可变数据流

计算机学报(2016)

引用 1|浏览23
暂无评分
摘要
数据流中可能包含大量的无用信息或者噪声,频繁模式挖掘可以去除这些无用信息,且频繁模式比单个属性包含了更多的信息.因此,挖掘频繁的、有区分力的模式,可以用于有效的分类.该文提出一个两步骤算法PatHT(Pattern-based Hoeffding Tree)生成决策树用于可变数据流分类.第一步,设计增量更新算法CCFPM(Constraintsbased and Closed Frequent Pattern Mining),用于生成闭合约束频繁模式集合CFPSet(Closed Frequent Pattern Set).CCFPM中采用滑动窗口模型和时间衰减模型处理实例,设计一种均值衰减因子设置方法得到高完整性和准确性的模式集合.第二步,增量更新方法 HTreeGrow(Hoeffding Tree Growing)生成基于CFPSet的概念漂移决策树.该方法使用概念漂移检测器监督概念改变,自动调整分类模型.针对高密度和低密度的数据流,设计了不同使用模式集合的方法.在真实和模拟数据流上的实验分析表明,与其他同类算法相比,提出的方法对稳态数据流处理时可以明显提高正确率或可以明显降低训练时间,在处理不同概念漂移特性的可变数据流时也具有很好的分类效果.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要