集成学习和决策树在2型糖尿病前瞻性风险评估中的应用

Chinese Journal of Prevention and Control of Chronic Diseases（2023）

Cited 0|Views25

No score

Abstract

目的比较多种集成学习算法和决策树(DT)在构建中国45岁及以上中老年人2型糖尿病(T2DM)前瞻性风险评估模型中的性能差异,为集成学习算法在中老年人T2DM预防与控制中的应用提供理论依据.方法数据来源于2011-2015年中国健康与养老追踪调查项目,选取其中7 979名45岁及以上中老年人为研究对象.收集研究对象基线社会人口学特征、生活方式与健康行为、疾病史、体格检查和实验室检查结果.采用Python 3.7.6和R 4.1.2软件构建DT、随机森林(RF)、自适应提升算法(AdaBoost)、轻量级梯度提升机(LightGBM)和极端梯度提升(XGBoost)模型.在训练集中处理不平衡数据并优化超参数,采用5折交叉验证评估模型效能.根据默认阈值、平均灵敏度高于80％时阈值,计算受试者工作特征曲线下面积(AUC)、灵敏度和特异度;计算默认阈值下净重新分类改善指数(NRI)和综合判别改善指数(IDI).结果 7 979名研究对象中,T2DM患者为1061例(13.3％).默认阈值下,RF、AdaBoost、LightGBM和XGBoost4种集成学习算法平均AUC分别为0.640±0.023、0.634±0.014、0.647±0.013和0.645±0.011,均优于DT算法(平均AUC为0.601±0.027).调整阈值后,5种机器学习算法的平均灵敏度分别为0.833±0.097、0.863±0.039、0.870±0.044、0.826±0.033和0.852±0.067.NRI评价结果显示,LightGBM模型效果好于DT、RF、AdaBoost和XGBoost模型,差异均有统计学意义(NRI值分别为0.149、0.243、0.258 和 0.232,P＜0.05,P＜0.01).IDI 评价结果显示,相对于 DT、RF、AdaBoost 和 XGBoost模型,LightGBM模型的效能分别提高了 5.3％、8.7％、7.4％和7.4％,差异均有统计学意义(P＜0.01).LightGBM模型特征重要度前10位依次为糖化血红蛋白、空腹血糖、尿酸、肌酐、中心性肥胖、血尿素氮、体质指数、脉搏、高血压史和年龄.结论 LightGBM算法在中国中老年人2型糖尿病前瞻性风险评估中的效能优于DT、RF、AdaBoost和XGBoost算法.

Translated text

Key words

Diabetes mellitus,type 2,Risk assessment,Machine learning

AI Read Science

Must-Reading Tree

Example

Generate MRT to find the research sequence of this paper

Chat Paper

Summary is being generated by the instructions you defined