数学和编程迅速被AI超越,现在看来医学也可能是下一个被颠覆的领域。据一篇研究报告显示,OpenAI的o1-preview模型在疾病诊断方面大幅超越了人类医生。这篇题为“大型语言模型在医师推理任务中的超人表现”的论文比较了人类医生和OpenAI的o-1模型在临床病例诊断准确性方面的差异,该模型采用链式思维推理。在特定测试中,o1-preview模型成功诊断了大约80%的病例,而GPT-4的准确率为约60%,人类医生的准确率仅为30%。
论文表示:“我们评估了o1-preview模型在五项不同实验中的医学推理能力,并将其与人类基线和GPT-4的历史对照进行了比较。”论文补充道:“正如在非医学研究中所见,o1-preview在大多数任务上表现出显著的性能提升。对于鉴别诊断生成,o1-preview不仅超过了GPT-4和以前的非LLM鉴别诊断生成器,还超越了人类基线。”
该研究使用了多种不同的医疗案例来测试模型的表现。这些病例输入到模型中,模型随后给出诊断结果。诊断结果由人类医生评分,以确定模型的诊断是否准确。研究人员在查看结果后,称AI模型的表现为“超人”。
医学领域似乎很容易受到AI的冲击。现代医生通常通过查看实验室报告和听取患者的症状来进行诊断和治疗方案的选择。所有这些数据都可以输入到大型语言模型(LLM)中,而现代LLM似乎已经能够正确解析这些数据,并利用其丰富的数据库进行诊断。此外,AI系统在解读X光和其他影像报告方面也变得极其熟练,可以兼任放射科医生。目前的结果表明,在不久的将来,大多数医生可能会配备一个LLM来辅助他们的诊断工作。如果这些LLM能够产生良好的结果,它们可能会逐渐取代许多医生的工作。
(全文结束)