基于多卷积核字词特征的中文短文本分类方法

Journal of University of Science & Engineering(Natural Science Edition)(2023)

引用 0|浏览6
暂无评分
摘要
中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达.目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳.为此,提出了一种基于多卷积核字词特征的短文本分类模型(Multi-CNN Fusion of Characters and Words,MCFCW).首先采用预训练ERNIE、Word2vec模型丰富文本字词嵌入表示;然后分别采用多卷积核TextCNN、DPCNN充分提取不同角度的文本语义信息,同时有效降低网络参数随机初始化的影响;最后拼接两个通道提取到的字词高层特征向量作为最终的文本分类特征.在THUCNews新闻标题数据集上进行了模型评估.结果表明,模型在精准率、召回率和F1值3种评价指标上均优于目前的主流模型,具有较好的短文本分类效果.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要