医疗AI系统在对话诊断中存在严重缺陷,哈佛-斯坦福研究揭示

2025年01月03日
来源:studyfinds
语言:英语,所在国:美国
分类:科技与健康,字数:1226

根据哈佛大学和斯坦福大学的一项新研究,尽管人工智能AI)在医疗保健领域展现了巨大的潜力,例如读取X光片和建议治疗方案,但在与患者对话并进行准确诊断方面,AI仍存在显著的局限性。这项发表于《自然医学》杂志上的研究引入了一个创新的测试框架——CRAFT-MD(医学对话推理评估框架),用于评估大型语言模型(LLM)在模拟医患互动中的表现。

随着越来越多的患者开始依赖如ChatGPT这样的AI工具来解读症状和医疗检测结果,了解这些系统的实际能力变得至关重要。研究的主要作者之一、哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示:“我们的研究表明了一个明显的悖论——虽然这些AI模型在医学考试中表现出色,但在医生就诊的基本对话中却遇到了困难。医疗对话的动态性质——在适当的时间问正确的问题,拼凑分散的信息,并通过症状进行推理——提出了远超选择题的独特挑战。”

研究团队由Rajpurkar和斯坦福大学的Roxana Daneshjou领导,评估了四个主要的AI模型,在2000个涵盖12个专科的医疗案例中进行了测试。目前的评估方法通常依赖于结构化的多选题医学考试,但共同第一作者Shreya Johri指出,“在现实世界中,这个过程要混乱得多”。

通过CRAFT-MD进行的测试揭示了传统评估和更真实场景之间的显著性能差异。对于四选项的选择题,GPT-4在阅读准备好的病例摘要时的诊断准确性为82%,而在通过对话收集信息时降至63%。在没有选择题选项的开放式场景中,准确性进一步下降至49%(书面摘要)和26%(模拟患者访谈)。AI模型在从多个对话交流中综合信息方面尤其困难,常见的问题包括在病史采集时遗漏关键细节、未能提出适当的后续问题,以及难以整合不同类型的信息,如结合医学图像的视觉数据和患者报告的症状。

CRAFT-MD的效率还突显了该框架的另一优势:它可以在48到72小时内处理10,000次对话,加上15到16小时的专家评估。传统的基于人类的评估则需要大量招募人员,并花费约500小时进行患者模拟和650小时进行专家评估。

作为医学科学家,Daneshjou表示:“我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。CRAFT-MD创建了一个更接近现实世界互动的框架,从而有助于推动AI模型在医疗保健领域的性能测试。”

基于这些发现,研究人员提供了全面的AI开发和监管建议。这些建议包括创建能够处理非结构化对话的模型、更好地整合各种数据类型(文本、图像和临床测量),以及解释非言语沟通线索的能力。他们还强调了将基于AI的评估与人类专家评估相结合的重要性,以确保彻底测试,同时避免过早让真实患者接触未经验证的系统。

研究显示,尽管AI在医疗保健领域显示出潜力,但现有系统需要显著改进,才能可靠地参与真实医患互动的复杂动态。目前,这些工具可能最适合作为人类医疗专业知识的补充,而不是替代品。


(全文结束)

7日热榜
连续咳嗽不知是否就医看这些判断因素
咖啡过量饮用危害多,你还敢贪杯吗
自助餐饱腹剂传闻?饱腹感真相是什么
甲流高发期,48小时内用药为何如此重要
冬季洗澡有讲究,这些健康原则你get到了吗
《中国科学家CAR-T疗法突破,自身免疫病治疗迎新希望》
二手烟比一手烟更毒,这些危害你必须知道!
超80%直肠癌最初被当痔疮,这些区别要知道
白桦树汁被吹上天,购买是智商税吗
别让高度近视“偷走”你的光明,定期检查很重要!
世界新闻
科学家发现常见病毒可能引发某种类型的阿茨海默症
关于跑步者腹泻的6个事实将改变你的锻炼计划
纯肉食饮食能满足所有营养需求吗?
阿司匹林对癌症风险的惊人影响
咖啡可能保护心房颤动患者认知功能
你的睡眠姿势可能如何影响大脑健康
康奈尔大学研究揭示睡眠期间瞳孔大小信号与记忆形成的关系
印度洪灾区民众处于日益严重的心理健康危机前线