基于文本数据增强的生活满意度预测模型优化

陈佳婧, 胡丁鼎, 宋蕊, 谭诗奇, 李雨晴, 张胜楠,朱廷劭, 赵楠

chinaxiv(2024)

引用 0|浏览0
暂无评分
摘要
目的 随着网络大数据以及机器学习的方法的发展,越来越多研究结合文本分析与机器学习来预测满意度。在建立生活满意度预测模型的研究中,针对获取大量有效的有标注数据困难的问题,本研究提出基于文本数据增强以优化生活满意度预测模型。 方法 改编大连理工词典后,以357份生活现状描述为原始文本、生活满意度量表自评分为标注,经过EDA和回译进行文本数据增强,利用传统机器学习算法建立预测模型。 结果 结果显示,大连理工词典改编后,各模型预测能力大大提高;数据增强后,仅在线性回归模型上观察到回译和EDA的提升作用。使用原始数据进行训练的岭回归模型预测值与实际值的皮尔逊相关系数最高,达0.4131。 结论 特征提取精度的提升可优化目前的生活满意度预测模型,但对于以词频为特征建立的生活满意度预测模型,基于回译和EDA进行的文本数据增强可能并不十分适用。
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要