医疗AI系统在对话诊断中存在严重缺陷，哈佛-斯坦福研究揭示

2025-01-07 00:33:10

来源：studyfinds

语言：英语，所在国：美国

分类：科技与健康，字数：1226

根据哈佛大学和斯坦福大学的一项新研究，尽管人工智能（AI）在医疗保健领域展现了巨大的潜力，例如读取X光片和建议治疗方案，但在与患者对话并进行准确诊断方面，AI仍存在显著的局限性。这项发表于《自然医学》杂志上的研究引入了一个创新的测试框架——CRAFT-MD（医学对话推理评估框架），用于评估大型语言模型（LLM）在模拟医患互动中的表现。

随着越来越多的患者开始依赖如ChatGPT这样的AI工具来解读症状和医疗检测结果，了解这些系统的实际能力变得至关重要。研究的主要作者之一、哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示：“我们的研究表明了一个明显的悖论——虽然这些AI模型在医学考试中表现出色，但在医生就诊的基本对话中却遇到了困难。医疗对话的动态性质——在适当的时间问正确的问题，拼凑分散的信息，并通过症状进行推理——提出了远超选择题的独特挑战。”

研究团队由Rajpurkar和斯坦福大学的Roxana Daneshjou领导，评估了四个主要的AI模型，在2000个涵盖12个专科的医疗案例中进行了测试。目前的评估方法通常依赖于结构化的多选题医学考试，但共同第一作者Shreya Johri指出，“在现实世界中，这个过程要混乱得多”。

通过CRAFT-MD进行的测试揭示了传统评估和更真实场景之间的显著性能差异。对于四选项的选择题，GPT-4在阅读准备好的病例摘要时的诊断准确性为82%，而在通过对话收集信息时降至63%。在没有选择题选项的开放式场景中，准确性进一步下降至49%（书面摘要）和26%（模拟患者访谈）。AI模型在从多个对话交流中综合信息方面尤其困难，常见的问题包括在病史采集时遗漏关键细节、未能提出适当的后续问题，以及难以整合不同类型的信息，如结合医学图像的视觉数据和患者报告的症状。

CRAFT-MD的效率还突显了该框架的另一优势：它可以在48到72小时内处理10,000次对话，加上15到16小时的专家评估。传统的基于人类的评估则需要大量招募人员，并花费约500小时进行患者模拟和650小时进行专家评估。

作为医学科学家，Daneshjou表示：“我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。CRAFT-MD创建了一个更接近现实世界互动的框架，从而有助于推动AI模型在医疗保健领域的性能测试。”

基于这些发现，研究人员提供了全面的AI开发和监管建议。这些建议包括创建能够处理非结构化对话的模型、更好地整合各种数据类型（文本、图像和临床测量），以及解释非言语沟通线索的能力。他们还强调了将基于AI的评估与人类专家评估相结合的重要性，以确保彻底测试，同时避免过早让真实患者接触未经验证的系统。

研究显示，尽管AI在医疗保健领域显示出潜力，但现有系统需要显著改进，才能可靠地参与真实医患互动的复杂动态。目前，这些工具可能最适合作为人类医疗专业知识的补充，而不是替代品。

(全文结束)

声明：本文仅代表作者观点，不代表本站立场，全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。

7日热榜: 各年龄段最佳睡眠时长，你睡对了吗？; 想提高睡眠质量？试试这些综合方法！; 心源性猝死保命指南：识别征兆、预防及急救要点！; 国家卫健委发布减肥指南，各地区专属食谱大揭秘！; 甘氨酸镁的最佳服用时间以获得最大益处，据科学所说; 35种易消化的食物（以及应限制或避免的难消化食物）; 9种世界最抗炎食物，开启健康抗炎饮食之旅！; 新报告发现41种婴儿配方奶粉中有34种含有毒素——你需要知道的信息; 黄金12秒地震保命指南，学会这些方法关键时刻能救命！; 40岁女性生育别怕！做好这些要点实现健康生育

世界新闻: 全球最常用止痛药可能诱发冒险行为，研究发现; 远程非洲缺少外科医生，3D新技术可能将他们与患者拉近; 为什么讨论疫苗的风险和益处如此困难; 新移动应用临床证明可治疗耳鸣; 都柏林2024年氯胺酮使用量达到与MDMA相同水平; 简单的基因测试或可预防药物副作用; 比尔·盖茨谈人工智能在心理健康领域的潜力; 洛登马里地区的皮肤癌诊断试验将提升全科医生技能并使用人工智能