研究发现像GPT-4这样的AI工具在与患者“对话”方面表现不佳

2025年01月03日 20:39

来源：Deccan Herald

语言：英语，所在国：印度

分类：科技，字数：982

随着聊天机器人越来越多地被用于解读症状或检测结果，一项研究表明，尽管这些AI工具在医学考试类测试中表现出色，但在更接近真实世界的对话中，它们的表现可能并不那么理想。这项研究发表在《Nature Medicine》杂志上，并提出了在临床环境中使用之前评估大型语言模型（LLM）的建议。LLM是像ChatGPT这样的聊天机器人的核心技术，它通过大量的文本数据集训练，可以以自然语言响应用户的请求。

哈佛医学院和斯坦福大学的研究人员设计了一个名为'CRAFT-MD'的框架，用来评估四个大型语言模型（LLM），其中包括GPT-4和Mistral，在模拟实际患者互动环境中的表现。该框架分析了LLM收集症状、药物和家族病史信息的能力，然后进行诊断。研究人员在2000个临床描述中测试了AI工具的性能，涵盖了初级护理中常见的条件和跨12个医学专科的情况。

在测试中，LLM扮演患者角色，以对话的方式回答问题。另一个AI代理负责评估最终诊断的准确性。人类专家随后评估每个患者互动的结果，包括LLM收集相关信息的能力、面对分散信息时的诊断准确性以及对提示的遵守情况。

所有LLM都显示出一定的局限性，特别是在基于患者提供的信息进行推理和开展临床对话方面，这反过来又影响了AI工具采集病史和做出适当诊断的能力。研究人员指出，例如，AI工具常常难以提出正确的问题以收集相关的病史信息，在病史采集过程中遗漏关键信息，并且难以综合分散的信息。

这些AI工具在来回交流中表现更差——而大多数现实世界中的对话都是如此——而不是在总结性的对话中。哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示：“我们的工作揭示了一个显著的悖论——虽然这些AI模型在医学考试中表现出色，但它们在医生访问的基本来回对话中却显得力不从心。”

“医疗对话的动态性质——需要在正确的时间问正确的问题，拼凑分散的信息，并通过症状进行推理——带来了远超回答多项选择题的独特挑战。当我们从标准化测试转向这些自然对话时，即使是最先进的AI模型也显示出显著的诊断准确性下降。”Rajpurkar补充道。

研究人员建议，LLM在临床环境中的表现应评估其提出正确问题和提取最重要信息的能力。他们还建议在设计、训练和测试AI工具时，使用更贴近现实医生-患者互动的对话式开放式问题。

(全文结束)

7日热榜: 连续咳嗽不知是否就医看这些判断因素; 咖啡过量饮用危害多，你还敢贪杯吗; 自助餐饱腹剂传闻？饱腹感真相是什么; 甲流高发期，48小时内用药为何如此重要; 冬季洗澡有讲究，这些健康原则你get到了吗; 《中国科学家CAR-T疗法突破，自身免疫病治疗迎新希望》; 二手烟比一手烟更毒，这些危害你必须知道！; 超80%直肠癌最初被当痔疮，这些区别要知道; 白桦树汁被吹上天，购买是智商税吗; 别让高度近视“偷走”你的光明，定期检查很重要！

世界新闻: 科学家发现常见病毒可能引发某种类型的阿茨海默症; 关于跑步者腹泻的6个事实将改变你的锻炼计划; 纯肉食饮食能满足所有营养需求吗？; 阿司匹林对癌症风险的惊人影响; 咖啡可能保护心房颤动患者认知功能; 你的睡眠姿势可能如何影响大脑健康; 康奈尔大学研究揭示睡眠期间瞳孔大小信号与记忆形成的关系; 印度洪灾区民众处于日益严重的心理健康危机前线