AI医生靠谱吗？Nature深度评估

Nature采访多位医学AI研究者，梳理AI在医疗诊断中的最新进展：一些系统已能匹敌医生诊断水平，但真实医疗环境的复杂性仍是最大挑战。

"AI在急诊室任务中超越医生""谷歌AI的临床态度比真人医生更好"，这类标题正变得越来越常见。但一个先进大语言模型在单一任务上击败医生，并不一定意味着AI已经准备好在现实世界中接管医疗。

Nature采访了研究医疗AI应用的研究人员，以了解目前哪些"AI医生"最有前景，以及这些工具何时可能接手医疗诊断。一些科学家指出，各种AI系统已经在处理简单的医疗任务，如记录笔记甚至续开处方，但他们认为医生永远不可能被机器完全取代。

"医学是混乱的，患者的故事并不总是教科书式的，"哈佛医学院研究AI的住院医师David Wu说，"我不认为我们已经证明这些系统能处理那种混乱。"

仍有一些演示令研究人员兴奋。今年4月发表在Science杂志上的一项研究得出结论，一个先进LLM在评估波士顿一家医院急诊科患者状况时表现优于医生。当OpenAI开发的模型o1审查医院工作人员记录的信息时，"在67%的病例中诊断正确或几乎正确"，而参与实验的两位真人医生的准确率约为50%到55%。

另一项由Google Research团队主导的研究调查了AI系统与患者对话进行诊断的表现。他们开发的AMIE系统通过短信与真实患者聊天，收集病史并讨论可能的诊断。在75%的病例中正确诊断位列AMIE的前三项建议，在56%的病例中为第一建议。这一表现与患者最终见到的主治医生相当。

加州大学旧金山分校医生Robert Wachter解释说，在过去三年中，LLM已经从通过多选题医学考试等简单任务，发展到在输入必要信息后能在复杂病例中匹敌医生的诊断水平。"这相当令人兴奋。"

尽管如此，从受控实验到真正临床部署还面临诸多挑战。知情同意、责任归属、数据隐私和监管审批等问题尚未解决。AI医生更可能的未来是辅助而非取代真人医生。

本文译自 nature，由 BALI 编辑发布。