国内新闻世界新闻科学探索

AI在医疗对话中的现实挑战:哈佛和斯坦福大学的研究

AI’s Real-World Struggles in Medical Conversations: Harvard and Stanford Study

美国英语科技
新闻源:TUN - The University Network
2025-01-03 03:00:00阅读时长3分钟1183字
AI医疗对话哈佛医学院斯坦福大学CRAFT-MD评估框架现实挑战医生与患者互动医学考试诊断准确性自然对话临床案例非语言线索开放式问题多项选择题患者护理临床结果

内容摘要

哈佛医学院和斯坦福大学的一项研究表明,尽管像ChatGPT这样的AI模型在医学考试中表现出色,但在现实世界的医患互动中却面临困难,这突显了需要更现实的评估框架和改进AI能力。

哈佛医学院和斯坦福大学的一项研究显示,虽然像ChatGPT这样的AI模型在医学考试中表现出色,但它们在现实世界的医生与患者互动中却遇到了困难,这突显了需要更现实的评估框架和改进AI能力。

这项研究由哈佛医学院和斯坦福大学的研究人员领导,发表在《Nature Medicine》上,揭示了尽管这些AI模型在标准化医学测试中表现出色,但在现实世界中的医疗对话中却表现不佳。

为了探索这一问题,研究人员开发了一个名为CRAFT-MD(医学对话推理评估框架)的评估框架,以评估AI在模拟实际患者互动条件下的表现。结果显示,当这些AI模型面对更灵活、来回的对话场景时,其性能显著下降,而这些场景在现实世界医疗环境中非常典型。

“我们的工作揭示了一个显著的悖论——虽然这些AI模型在医学考试中表现出色,但在医生访问的基本来回对话中却遇到困难。”哈佛医学院生物医学信息学助理教授Pranav Rajpurkar在新闻发布会上表示,“医疗对话的动态性质——需要在适当的时间问正确的问题,整理分散的信息并通过症状进行推理——提出了远远超出选择题的独特挑战。当我们从标准化测试转向自然对话时,即使是最先进的AI模型也显示出显著的诊断准确性下降。”

目前,AI模型通常通过来自全国考试或住院医师认证测试的多项选择题进行测试。这些问题假设所有相关信息都清晰呈现,往往简化了诊断过程。相比之下,现实世界的互动更为混乱,患者提供的信息分散且不完整。

哈佛医学院Rajpurkar实验室的博士生Shreya Johri强调了需要更现实的测试过程。“我们需要一个更能反映现实的测试框架,因此可以更好地预测模型的表现。”她在新闻发布会上说。

CRAFT-MD旨在通过模拟现实世界互动来满足这一需求,在这些互动中,AI模型必须收集有关症状、药物和家族病史的信息,然后才能做出诊断。评估还包括人类专家对结果的分析,评估AI收集相关患者信息的能力、面对分散信息时的诊断准确性以及对提示的遵守情况。

该研究测试了四个AI模型,涵盖了2,000个代表初级护理和12个医学专科常见病症的临床案例。研究发现,这些模型在进行临床对话和基于患者提供信息的推理方面尤其困难。当面对开放式信息而不是多项选择题时,其准确性下降。

研究团队建议采取若干措施来提高AI模型在现实世界环境中的表现。这包括设计AI以处理对话式、开放式问题,评估其提取关键信息的能力,以及整合非文本数据如图像和心电图。此外,还需要开发能够解释非语言线索(如面部表情和肢体语言)的复杂AI代理。

“作为一位医师科学家,我对能够有效和合乎伦理地增强临床实践的AI模型感兴趣。”斯坦福大学生物医学数据科学和皮肤科助理教授Roxana Daneshjou补充道,“CRAFT-MD创建了一个更接近真实互动的框架,从而有助于推动在医疗保健领域测试AI模型性能的进步。”

未来,预计对CRAFT-MD框架的优化和定期更新将进一步改善患者与AI模型之间的互动。这些进步有望更好地准备AI以服务于临床环境,最终旨在改善患者护理和临床结果。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜