不同SNPs阈值下机器学习与多基因风险评分的阿尔茨海默症遗传风险预测研究

Modern Preventive Medicine(2023)

引用 0|浏览10
暂无评分
摘要
目的 基于全基因组汇总数据的不同单核苷酸多态性(single nucleotide polymorphisms,SNPs)阈值,探索机器学习(machine learning,ML)与多基因风险评分(polygenic risk score,PRS)在阿尔茨海默症(Alzheimer's disease,AD)遗传风险统计建模上的预测效果,为全基因组高维数据下的AD遗传风险预测提供更为快速有效的统计建模策略.方法 将SNPs 按照不同阈值(1×10-8、1×10-7、1×10-6、1×10-5、1×10-4、1×10-3)进行划分,并基于 PRS、least absolute shrinkage and selection operator(LASSO)、elastic net(EN)、ridge、random forest(RF)、extreme gradient bosting(XGBoost)模型对 AD 遗传风险预测进行统计建模.采用十折交叉验证,以AUC、敏感度、特异度和准确度作为模型预测精度的衡量指标.结果 共纳入阿尔茨海默症神经成像计划(Alzheimer's disease neuroimaging initiative,ADNI)数据集中的369名研究对象,其中159人为AD患者,210人为认知正常个体.在1×10-8~1×10-3阈值范围内,EN、LASSO表现最为稳健,当P<1×10-4时,EN预测精度最高,AUC为0.774;RF、Ridge和PRS显示出AUC降低.结论 从SNPs阈值角度,PRS、Ridge和RF,建议在1×10-8~1×10-5的SNPs阈值范围内进行选择,EN、LASSO和XGBoost,可以将SNPs阈值适当放宽至1 x 10-4.从统计建模角度,EN与LASSO相较于其他方法有相对明显的性能优势.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要