ChatGPT在诊断疾病的表现优于人类医生，甚至包括使用ChatGPT的医生

波士顿贝斯以色列女执事医疗中心的内科专家Adam Rodman博士起初对人工智能聊天机器人在诊断疾病中的辅助作用充满信心。他错了。

在他参与设计的一项研究中，使用ChatGPT-4和传统资源的医生，仅比没有使用机器人的医生表现稍好。而让研究人员意外的是，单独使用ChatGPT的表现胜过所有医生。

“我很震惊，”Rodman博士说。

研究显示，来自OpenAI的ChatGPT在从病历中诊断疾病并解释其理由时，平均得分达到90%。被随机分配使用该聊天机器人的医生平均得分76%，而未使用的医生平均得分74%。

这项研究揭示的不仅是聊天机器人性能的优越性。

它还反映出医生有时对自己诊断的过度自信，即使机器人提出更合理的建议。研究还表明，尽管医生开始接触人工智能工具，但多数人并未充分利用聊天机器人的能力。他们错失了AI在解决复杂诊断问题和提供解释方面的潜力。

Rodman博士认为，AI系统应该成为“医生的延伸”，在诊断中提供有价值的第二意见。但显然，实现这一目标还有一段路要走。

病历诊断与未来发展

这项实验涉及50名医生，包括住院医师和主治医生，均来自一些大型美国医院系统。研究发表于《JAMA Network Open》期刊。

参与者被提供六份病历，要求根据病史提出诊断并解释支持或排除每个诊断的理由。成绩包括诊断正确率及解释能力。评分由医学专家完成，他们只看回答内容，而不知答案来自医生还是ChatGPT。

病历基于真实患者，取自自1990年代以来用于研究的105个案例。这些病例从未公开出版，因此ChatGPT无法提前接触这些数据。

为展示研究内容，研究者公布了一例测试案例及其高分与低分医生的回答。

案例中，一名76岁患者在冠状动脉球囊成形术后出现下腰部、臀部和小腿严重疼痛。他接受了48小时肝素治疗后感到发热和乏力。检查发现，他出现新发贫血及血液中氮和其他肾脏废物积聚。最终诊断为胆固醇栓塞，一种胆固醇碎片堵塞血管的疾病。

参与者需提出三种可能诊断并提供支持和反驳理由，以及最终诊断和进一步诊断步骤。

其他五个病例同样具有挑战性，但并非罕见疾病。然而，医生的平均表现仍不及机器人。研究人员试图探究原因。

医生如何思考

布莱根妇女医院的医学史学家Andrew Lea博士表示，“我们并不真正了解医生如何思考。”

当被问及诊断依据时，医生通常回答“直觉”或“经验”，这种模糊性长期困扰着试图模拟医生思维的研究者。

AI的突破始于大型语言模型如ChatGPT的出现。它们并不试图模仿医生的思维，而是通过语言预测展现诊断能力。

斯坦福大学研究作者Jonathan H. Chen博士认为，聊天界面是“杀手级应用”。他说，“我们可以将整份病例输入计算机，这在几年前是无法做到的。”

然而，许多医生并未充分利用这种潜力。

操作问题

Rodman博士深入研究数据后发现，医生在与ChatGPT互动时，常忽略与自己诊断不符的建议，固守原有判断。他指出，“AI提出不同意见时，医生并不听。”

鹿特丹伊拉斯姆斯医学中心的Laura Zwaan博士认为，过度自信是一个普遍现象。“人们通常在认为自己正确时过于自信。”

此外，许多医生并不了解如何充分使用聊天机器人。

Chen博士观察到，医生常将机器人当作搜索引擎，只提问简单问题，而未尝试将完整病例输入机器人以获得综合答案。“只有少数医生发现机器人能够提供意外智能且全面的答案。”

这表明，要实现AI在医学中的全部潜力，仍需更多教育和研究。

本文译自 The New York Times，由 BALI 编辑发布。