大型语言模型(LLMs)如GPT-4和Gemini-1.0-Pro正在革新临床推理,展现出专家级的诊断能力。然而,这些工具并非毫无瑕疵,它们反映了挑战人类决策的认知偏差。最近的研究既揭示了其潜力也指出了其在临床实践中的局限性。
一项研究通过向50位医生展示复杂病例,评估了GPT-4对医生诊断准确性的影响,这些医生被随机分配使用标准工具或标准工具加GPT-4(JAMA Netw Open 2024; 7:e2440969)。结果显示,当独立使用时,GPT-4的表现优于人类组,但与标准工具结合使用时并未提升医生的表现。这强调了培训的重要性,以最大化AI在现实世界中的有效性,因为实际情况比书面案例更为复杂。
另一项研究评估了LLMs是否存在认知偏差,测试了GPT-4和Gemini-1.0-Pro在设计用于暴露缺陷的临床情景中的表现(NEJM AI 2024; 1:AIcs2400639)。结果表明,AI存在诸如“框架效应”的偏差,即治疗建议因生存率或死亡率的表述方式不同而变化。类似的,“首因效应”影响了AI的诊断优先级,而“后见之明偏差”则影响了对过去护理的判断。
有趣的是,有时AI的偏差甚至大于人类医生。专家建议医生应采用批判性提问策略来质疑AI生成的结论,例如要求提供替代假设或反对诊断的证据。
随着LLMs成为医疗保健的重要组成部分,严格的评估和深思熟虑的整合对于减轻风险并利用其潜力改善患者预后至关重要。
(全文结束)