基于缺失森林的医疗大数据缺失值插补

Journal of Jilin University(Information Science Edition)(2022)

引用 0|浏览0
暂无评分
摘要
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补.该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全.在两个医学数据集上进行测试,结果表明,根据 NRMSE(Normalized Root Mean Squared Error)和 PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法.同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要