谷歌Chrome浏览器插件
订阅小程序
在清言上使用

基于贝叶斯算法的中文垃圾邮件过滤系统研究

通信学报(2019)

引用 3|浏览21
暂无评分
摘要
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。
更多
查看译文
关键词
Bayesian network,short text classification,Genetic Algorithm,TF-IDF,Chinese spam filtering
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要