根据哈佛大学和斯坦福大学的一项新研究,尽管人工智能(AI)在医疗保健领域展现了巨大的潜力,例如读取X光片和建议治疗方案,但在与患者对话并进行准确诊断方面,AI仍存在显著的局限性。这项发表于《自然医学》杂志上的研究引入了一个创新的测试框架——CRAFT-MD(医学对话推理评估框架),用于评估大型语言模型(LLM)在模拟医患互动中的表现。
随着越来越多的患者开始依赖如ChatGPT这样的AI工具来解读症状和医疗检测结果,了解这些系统的实际能力变得至关重要。研究的主要作者之一、哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示:“我们的研究表明了一个明显的悖论——虽然这些AI模型在医学考试中表现出色,但在医生就诊的基本对话中却遇到了困难。医疗对话的动态性质——在适当的时间问正确的问题,拼凑分散的信息,并通过症状进行推理——提出了远超选择题的独特挑战。”
研究团队由Rajpurkar和斯坦福大学的Roxana Daneshjou领导,评估了四个主要的AI模型,在2000个涵盖12个专科的医疗案例中进行了测试。目前的评估方法通常依赖于结构化的多选题医学考试,但共同第一作者Shreya Johri指出,“在现实世界中,这个过程要混乱得多”。
通过CRAFT-MD进行的测试揭示了传统评估和更真实场景之间的显著性能差异。对于四选项的选择题,GPT-4在阅读准备好的病例摘要时的诊断准确性为82%,而在通过对话收集信息时降至63%。在没有选择题选项的开放式场景中,准确性进一步下降至49%(书面摘要)和26%(模拟患者访谈)。AI模型在从多个对话交流中综合信息方面尤其困难,常见的问题包括在病史采集时遗漏关键细节、未能提出适当的后续问题,以及难以整合不同类型的信息,如结合医学图像的视觉数据和患者报告的症状。
CRAFT-MD的效率还突显了该框架的另一优势:它可以在48到72小时内处理10,000次对话,加上15到16小时的专家评估。传统的基于人类的评估则需要大量招募人员,并花费约500小时进行患者模拟和650小时进行专家评估。
作为医学科学家,Daneshjou表示:“我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。CRAFT-MD创建了一个更接近现实世界互动的框架,从而有助于推动AI模型在医疗保健领域的性能测试。”
基于这些发现,研究人员提供了全面的AI开发和监管建议。这些建议包括创建能够处理非结构化对话的模型、更好地整合各种数据类型(文本、图像和临床测量),以及解释非言语沟通线索的能力。他们还强调了将基于AI的评估与人类专家评估相结合的重要性,以确保彻底测试,同时避免过早让真实患者接触未经验证的系统。
研究显示,尽管AI在医疗保健领域显示出潜力,但现有系统需要显著改进,才能可靠地参与真实医患互动的复杂动态。目前,这些工具可能最适合作为人类医疗专业知识的补充,而不是替代品。
(全文结束)