机器学习揭示代谢物谱如何预测衰老与健康
作者:Chinta Sidharthan 审校:Susha Cheriyedath, M.Sc. 发表时间:2025年1月1日
代谢物数据与AI结合重新定义我们如何衡量衰老并预测健康寿命
研究:代谢组年龄(MileAge)预测健康和寿命:多种机器学习算法的比较。图片来源:Sergey Tarasov / Shutterstock
近期发表于《科学进展》(Science Advances)的一项研究表明,伦敦国王学院的研究人员通过机器学习模型,基于英国生物样本库(UK Biobank)的血浆代谢物数据,探索了代谢组学衰老时钟的应用。该研究旨在评估代谢组学衰老时钟在预测健康结果和寿命方面的潜力,通过对其准确性、稳健性和与生物学衰老指标的相关性进行基准测试,超越了单纯的时间年龄。
生物学衰老不同于时间年龄,反映了分子和细胞损伤对健康和疾病易感性的影响。单纯的时间年龄无法捕捉个体之间衰老相关生理状态的差异。然而,近年来组学技术,特别是代谢组学的进步,通过分子谱型提供了对生物学衰老的见解。
代谢物,即来自代谢途径的小分子,可以评估生理健康状况,并与衰老相关的结局(如慢性疾病和死亡率)相关联。早期研究已将代谢组学数据与衰老联系起来,但由于样本量和标记物有限而受到限制。
最近尝试从组学数据中使用机器学习衍生“衰老时钟”在健康结果预测方面表现出显著的预测能力。然而,在优化这些模型的准确性和可解释性方面仍然存在挑战,特别是在使用代谢组学时。
本研究利用核磁共振(NMR)光谱分析了来自英国生物样本库的225,212名37至73岁参与者的血浆代谢物数据。排除标准包括怀孕、数据不一致和极端代谢物值。数据集涵盖了168种代谢物,代表脂质谱型、氨基酸和糖酵解产物。
研究人员应用了17种机器学习算法,包括线性回归、基于树的模型和集成技术,对数据集进行了代谢组学衰老时钟的开发。他们还采用严格的嵌套交叉验证方法以确保模型评估的稳健性。
主要预处理步骤包括处理异常代谢物值和纠正模型固有的年龄预测偏差。预测模型旨在使用代谢物谱估计时间年龄,预测年龄与实际年龄之间的差异被定义为“MileAge delta”。统计校正广泛应用于去除系统偏差并提高预测准确性,特别是对于年轻和老年范围。
模型使用平均绝对误差(MAE)、均方根误差(RMSE)和相关系数等指标评估预测准确性。例如,Cubist回归模型实现了5.31年的MAE,优于其他模型,如多变量自适应回归样条(MAE = 6.36年)。进一步分析调整了预测以去除系统偏差并改善其与时间年龄的一致性。
研究结果表明,基于血浆代谢物谱开发的代谢组学衰老时钟可以有效区分生物学衰老与时间衰老。在研究中测试的各种模型中,Cubist规则基回归模型与健康标志物和死亡率的关联最强,并在准确性和稳健性方面优于其他算法。
此外,MileAge delta正值(表示加速衰老)与虚弱、较短的端粒、更高的发病率和增加的死亡风险相关。具体而言,MileAge delta每增加1年,全因死亡风险增加4%,极端情况下风险比(HR)超过1.5。
此外,研究显示加速衰老的个体更可能报告较差的自我健康评价并经历慢性疾病。与虚弱和端粒缩短的关联尤为明显,某些差异相当于脆弱指数评分相差18年。有趣的是,女性在大多数模型中的MileAge delta略高于男性。
研究还确认了代谢物-年龄关系的非线性特征,并强调了统计校正在提高预测准确性方面的效用。此外,与其他现有衰老标志物的比较表明,代谢组学衰老时钟捕获了独特的健康相关信号,并经常优于简单的预测因子。然而,结果也指出,减速衰老(负MileAge delta)并不一定转化为更好的健康结果,突显了生物学衰老度量的复杂性。
总体而言,该研究表明代谢组学衰老时钟在预测生物学衰老及其相关健康结果方面具有实用性。通过基准测试多种机器学习算法,研究结果还显示了Cubist规则基模型在将代谢物衍生年龄与健康标志物和死亡率联系起来方面的优越性能。
研究结果表明,代谢组学衰老时钟在主动健康管理与风险分层方面具有潜力,并强调了在不同人群和纵向数据中进一步验证以实现更广泛的临床应用的必要性。这项研究为算法开发设定了新基准,展示了代谢组学谱型如何提供有关衰老和健康的可行见解。
(全文结束)