基于BERT的长文本分类方法

Journal of Sichuan University(Natural Science Edition)(2023)

引用 0|浏览8
暂无评分
摘要
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了 90.82%的准确率,高出 目前最优方法4.37%.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要