研究显示聊天机器人存在认知局限性

2024年12月19日
来源:News-Medical
语言:英语,所在国:英国
分类:科技与健康,字数:918

巨大的人工智能领域进步引发了人们对于聊天机器人是否能超越人类医生的兴奋和担忧。几项研究表明,大型语言模型(LLMs)在多种医学诊断任务中表现得非常出色,但它们是否像人类一样容易受到认知衰退的影响尚未得到研究。

为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的大型语言模型的认知能力。这些模型包括OpenAI开发的ChatGPT版本4和4o、Anthropic开发的Claude 3.5 “Sonnet”以及Alphabet开发的Gemini版本1和1.5。MoCA测试广泛用于检测认知障碍和早期痴呆症迹象,通常针对老年人。通过一系列简短的任务和问题,该测试评估了注意力、记忆、语言、视空间技能和执行功能等能力。最高分为30分,26分及以上通常被视为正常。

研究人员给予每个任务的指示与给予人类患者的指示相同。评分遵循官方指南,并由执业神经学家进行评估。ChatGPT 4o在MoCA测试中得分最高(30分中的26分),其次是ChatGPT 4和Claude(均为30分中的25分),Gemini 1.0得分最低(30分中的16分)。

所有聊天机器人都在视空间技能和执行任务方面表现不佳,例如连线任务(按升序连接圆圈内的数字和字母)和钟表绘制测试(绘制显示特定时间的钟面)。Gemini模型未能完成延迟回忆任务(记住五个单词的序列)。大多数其他任务,如命名、注意力、语言和抽象思维,聊天机器人都表现良好。

然而,在进一步的视空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有ChatGPT 4o成功完成了斯特鲁普测试的不一致阶段,该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。

这些是观察性发现,作者承认人类大脑和大型语言模型之间的本质差异。然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中普遍失败,突显了一个显著的弱点,这可能阻碍其在临床环境中的应用。因此,他们得出结论:“不仅神经学家短期内不太可能被大型语言模型取代,而且我们的发现表明,他们可能很快会发现自己治疗新的虚拟患者——表现出认知障碍的人工智能模型。”


(全文结束)

7日热榜
咖啡过量饮用危害多,你还敢贪杯吗
连续咳嗽不知是否就医看这些判断因素
自助餐饱腹剂传闻?饱腹感真相是什么
《中国科学家CAR-T疗法突破,自身免疫病治疗迎新希望》
二手烟比一手烟更毒,这些危害你必须知道!
白桦树汁被吹上天,购买是智商税吗
微塑料已深入人体各器官 科学家呼吁减少暴露
脑瘫患者并非都是智力低下,需正确对待
感冒了,到底该吃药还是硬抗?
冬季头部易受寒,保暖方式及重要性你得知道
世界新闻
4种简单方法将有益肠道健康的发酵食品加入饮食中
制药营销人员如何在2025年破解AI密码?
一些医生越来越多地使用人工智能在就诊期间做笔记
医疗AI系统在对话诊断中存在严重缺陷,哈佛-斯坦福研究揭示
门诊电子病历卓越:2025年Black Book用户调查中创新和用户满意度最高的顶级供应商
通过genAI试点,CDAO揭示“可能影响军队医疗系统的偏见”
数字共情可能超越人类
47岁女性花费10万美元进行整容手术,计划接受23岁儿子的血液输注