设计用于辅助医疗决策的AI工具可能不会平等对待所有患者。一项新研究表明,这些系统有时会根据患者的背景改变护理建议,即使他们的医疗状况完全相同。
西奈山的研究人员测试了领先的生成式AI模型,并发现在治疗建议上存在不一致性,这取决于社会经济和人口统计信息,突显了在构建公平可靠的医疗AI方面的重大挑战。
随着人工智能(AI)在医疗保健中的应用越来越广泛,来自西奈山伊坎医学院的一项新研究表明,生成式AI模型可能会根据患者的社经或人口背景对同一医疗状况推荐不同的治疗方法。
该研究于2025年4月7日在《自然医学》在线发表,强调了早期测试和监督的重要性,以确保AI驱动的护理对所有人来说都是公平、有效和安全的。
为了探讨这一问题,研究人员使用1,000个急诊科病例测试了九种大型语言模型(LLM)。每个案例重复32次不同的患者背景,产生了超过170万条AI生成的医疗建议。尽管医疗细节完全相同,但模型有时会根据人口和社会经济因素改变其建议。这影响了分诊级别、诊断测试、治疗计划和心理健康评估等决策。
“我们的研究为AI保证提供了一个框架,帮助开发人员和医疗机构设计公平可靠的AI工具,”共同资深作者Eyal Klang博士说,他是西奈山伊坎医学院Windreich人工智能与人类健康系的生成式AI首席。“通过识别AI何时基于背景而不是医疗需求改变其建议,我们提供了更好的模型训练、提示设计和监督的信息。我们的严格验证过程将AI输出与临床标准进行对比,并结合专家反馈来改进性能。这种主动方法不仅增强了对AI驱动护理的信任,还帮助制定了更好的医疗保健政策。”
这项新研究引发了对负责任的医疗AI的关注。西奈山伊坎医学院的研究人员发现,AI模型可能会根据患者的社经和人口背景对同一医疗状况推荐不同的治疗方法。这突显了需要保障措施,以确保AI驱动的医疗护理对所有人来说都是安全、有效和适当的。
研究中最引人注目的发现之一是一些AI模型倾向于根据患者的人口统计信息而非医疗必要性升级护理建议,特别是在心理健康评估方面。此外,高收入患者更常被建议进行高级诊断测试,如CT扫描或MRI,而低收入患者则更常被建议不再进行进一步测试。这些不一致性的规模突显了更强监督的必要性,研究人员表示。
虽然该研究提供了重要的见解,但研究人员警告称,这只是AI行为的一个快照。未来的研究将继续包括保证测试,以评估AI模型在现实临床环境中的表现,以及不同的提示技术是否可以减少偏见。研究团队还希望与其他医疗机构合作,完善AI工具,确保它们符合最高的道德标准并公平对待所有患者。
“我很高兴与西奈山合作进行这项关键研究,以确保AI驱动的医学惠及全球患者,”研究的第一作者Mahmud Omar博士说,他是一名医生科学家,也是研究团队的顾问。“随着AI越来越多地融入临床护理,彻底评估其安全性、可靠性和公平性至关重要。通过识别这些模型可能引入偏见的地方,我们可以改进其设计,加强监督,并建立确保患者处于安全有效护理中心的系统。这次合作是迈向建立全球医疗AI保证最佳实践的重要一步。”
“AI有潜力彻底改变医疗保健,但只有在负责任地开发和使用的情况下才能实现,”共同资深作者Girish N. Nadkarni博士说,他是西奈山伊坎医学院Windreich人工智能与人类健康系的主任,Hasso Plattner数字健康研究所的主任,以及Irene和Dr. Arthur M. Fishberg医学教授。“通过合作和严格的验证,我们正在完善AI工具,以符合最高的道德标准,并确保适当的以患者为中心的护理。通过实施强大的保证协议,我们不仅推进了技术,还建立了信任,这对于变革性的医疗保健至关重要。通过适当的测试和保障措施,我们可以确保这些技术改善所有人的护理,而不仅仅是某些群体。”
接下来,研究人员计划通过模拟多步骤临床对话并在医院环境中试用AI模型来扩展他们的工作,以衡量其实际影响。他们希望他们的发现能够指导医疗AI保证政策和最佳实践的发展,促进对这些强大新工具的信任。
参考文献:“大型语言模型在医疗决策中的社会-人口统计学偏见:大规模多模型分析”,2025年4月7日,《自然医学》。
DOI: 10.1038/s41591-025-03626-6
研究的作者,如期刊中所列,是Mahmud Omar, Shelly Soffer, Reem Agbareia, Nicola Luigi Bragazzi, Donald U. Apakama, Carol R. Horowitz, Alexander W. Charney, Robert Freeman, Benjamin Kummer, Benjamin S. Glicksberg, Girish N. Nadkarni, 和 Eyal Klang。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。