根据最新研究,人工智能(AI)在诊断推理方面已经超越了人类医生,而这是临床推理和患者护理的关键第一步。现在,《自然医学》(Nature Medicine)上的一项研究表明,有权限使用大型语言模型(LLM),即聊天机器人(chatbots)的医生,在多个患者护理任务上的表现优于没有权限使用LLM的医生。
“AI早期在医疗保健领域的应用主要集中在文书工作流程,如门户消息,”Beth Israel Deaconess Medical Center(BIDMC)的AI项目主任Adam Rodman博士说,“但聊天机器人的一个理论优势在于它们可以作为合作伙伴,增强人类的认知能力。我们的研究结果表明,即使在开放式决策这种复杂的任务中,提升医生的表现也代表了一个有希望的应用方向。然而,要实现LLM在改善患者护理方面的潜力,仍需严格的验证。”
Rodman及其同事评估了92名执业医生在处理五个假设患者病例时的决策过程,这些病例基于真实的、匿名的患者案例。研究人员重点关注的是医生的管理推理,这是临床推理的一部分,涉及围绕测试和治疗的决策,同时考虑到患者的偏好、社会因素、成本和风险。
“与通常只有一个正确答案的诊断推理不同,管理推理可能没有唯一正确的答案,需要权衡具有内在风险的不同行动方案,”Rodman解释道。
当对这些假设患者病例的回答进行评分时,使用聊天机器人的医生得分显著高于仅使用传统资源的医生。聊天机器人用户每个病例平均多花了近两分钟。此外,使用LLM的医生提供的回答导致轻度至中度伤害的可能性较低;在LLM辅助的回答中有3.7%存在轻度至中度伤害的风险,而在仅使用传统资源的组别中这一比例为5.3%。然而,严重伤害的风险在这两个医生组之间几乎相同。
“与仅使用传统资源相比,使用LLM可以提高医生的管理推理能力,其得分与随机分配使用AI和AI本身的结果相当。这表明LLM未来可以用作临床判断的有益辅助工具,”Rodman说。“进一步探索LLM是否只是鼓励用户放慢速度、深入思考,还是积极增强了推理过程,将是很有价值的。”
共同作者包括Beth Israel Deaconess Medical Center的Hannah Kerman、Jason A. Freed、Josephine A. Cool和Zahir Kanjee;斯坦福大学的Ethan Goh、Eric Strong、Yingjie Weng、Neera Ahuja、Arnold Millstein、Jason Hom和Jonathan H. Chen;VA Palo Alto Health Care System的Robert Gallo;明尼苏达大学医学院的Kathleen P. Lane和Andrew P.J. Olsen;弗吉尼亚大学医学院的Andrew S. Parsons;微软的Eric Horvitz;以及Kaiser Permanente的Daniel Yang。
Rodman、Cool和Kanjee承认得到了Gordon和Betty Moore基金会的资金支持。有关完整的披露和资助者名单,请参阅出版物。
(全文结束)