基于XGBoost和文本聚焦模型的招标文件自动分类

Engineering Journal of Wuhan University(2022)

引用 0|浏览0
暂无评分
摘要
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法.聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-Gram分词,结合词性级词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)的方法,实现招标文件文本特征向量表示;基于XGBoost的招标文件分类预测模型部分将提取到的特征送入XGBoost模型,实现了将招标文件按照行业分类和按照项目类型分类.结果表明:聚焦表示模型与计数向量和TF-IDF文本表示模型相比,其特征提取的效果更好;同时,通过人工标注语料的验证表明,8种行业分类准确率高达95.3%,按照项目类型的分类准确率达到96.6%左右.与其他分类算法比较,XGBoost分类算法表现更优.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要