随着聊天机器人越来越多地被用于解读症状或检测结果,一项研究表明,尽管这些AI工具在医学考试类测试中表现出色,但在更接近真实世界的对话中,它们的表现可能并不那么理想。这项研究发表在《Nature Medicine》杂志上,并提出了在临床环境中使用之前评估大型语言模型(LLM)的建议。LLM是像ChatGPT这样的聊天机器人的核心技术,它通过大量的文本数据集训练,可以以自然语言响应用户的请求。
哈佛医学院和斯坦福大学的研究人员设计了一个名为'CRAFT-MD'的框架,用来评估四个大型语言模型(LLM),其中包括GPT-4和Mistral,在模拟实际患者互动环境中的表现。该框架分析了LLM收集症状、药物和家族病史信息的能力,然后进行诊断。研究人员在2000个临床描述中测试了AI工具的性能,涵盖了初级护理中常见的条件和跨12个医学专科的情况。
在测试中,LLM扮演患者角色,以对话的方式回答问题。另一个AI代理负责评估最终诊断的准确性。人类专家随后评估每个患者互动的结果,包括LLM收集相关信息的能力、面对分散信息时的诊断准确性以及对提示的遵守情况。
所有LLM都显示出一定的局限性,特别是在基于患者提供的信息进行推理和开展临床对话方面,这反过来又影响了AI工具采集病史和做出适当诊断的能力。研究人员指出,例如,AI工具常常难以提出正确的问题以收集相关的病史信息,在病史采集过程中遗漏关键信息,并且难以综合分散的信息。
这些AI工具在来回交流中表现更差——而大多数现实世界中的对话都是如此——而不是在总结性的对话中。哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示:“我们的工作揭示了一个显著的悖论——虽然这些AI模型在医学考试中表现出色,但它们在医生访问的基本来回对话中却显得力不从心。”
“医疗对话的动态性质——需要在正确的时间问正确的问题,拼凑分散的信息,并通过症状进行推理——带来了远超回答多项选择题的独特挑战。当我们从标准化测试转向这些自然对话时,即使是最先进的AI模型也显示出显著的诊断准确性下降。”Rajpurkar补充道。
研究人员建议,LLM在临床环境中的表现应评估其提出正确问题和提取最重要信息的能力。他们还建议在设计、训练和测试AI工具时,使用更贴近现实医生-患者互动的对话式开放式问题。
(全文结束)