人工智能

BALI @ 2024.11.19 , 07:06

ChatGPT在诊断疾病的表现优于人类医生，甚至包括使用ChatGPT的医生

波士顿贝斯以色列女执事医疗中心的内科专家Adam Rodman博士起初对人工智能聊天机器人在诊断疾病中的辅助作用充满信心。他错了。

在他参与设计的一项研究中，使用ChatGPT-4和传统资源的医生，仅比没有使用机器人的医生表现稍好。而让研究人员意外的是，单独使用ChatGPT的表现胜过所有医生。

“我很震惊，”Rodman博士说。

研究显示，来自OpenAI的ChatGPT在从病历中诊断疾病并解释其理由时，平均得分达到90%。被随机分配使用该聊天机器人的医生平均得分76%，而未使用的医生平均得分74%。

这项研究揭示的不仅是聊天机器人性能的优越性。

它还反映出医生有时对自己诊断的过度自信，即使机器人提出更合理的建议。研究还表明，尽管医生开始接触人工智能工具，但多数人并未充分利用聊天机器人的能力。他们错失了AI在解决复杂诊断问题和提供解释方面的潜力。

Rodman博士认为，AI系统应该成为“医生的延伸”，在诊断中提供有价值的第二意见。但显然，实现这一目标还有一段路要走。

病历诊断与未来发展

这项实验涉及50名医生，包括住院医师和主治医生，均来自一些大型美国医院系统。研究发表于《JAMA Network Open》期刊。

参与者被提供六份病历，要求根据病史提出诊断并解释支持或排除每个诊断的理由。成绩包括诊断正确率及解释能力。评分由医学专家完成，他们只看回答内容，而不知答案来自医生还是ChatGPT。

病历基于真实患者，取自自1990年代以来用于研究的105个案例。这些病例从未公开出版，因此ChatGPT无法提前接触这些数据。

为展示研究内容，研究者公布了一例测试案例及其高分与低分医生的回答。

案例中，一名76岁患者在冠状动脉球囊成形术后出现下腰部、臀部和小腿严重疼痛。他接受了48小时肝素治疗后感到发热和乏力。检查发现，他出现新发贫血及血液中氮和其他肾脏废物积聚。最终诊断为胆固醇栓塞，一种胆固醇碎片堵塞血管的疾病。

参与者需提出三种可能诊断并提供支持和反驳理由，以及最终诊断和进一步诊断步骤。

其他五个病例同样具有挑战性，但并非罕见疾病。然而，医生的平均表现仍不及机器人。研究人员试图探究原因。

医生如何思考

布莱根妇女医院的医学史学家Andrew Lea博士表示，“我们并不真正了解医生如何思考。”

当被问及诊断依据时，医生通常回答“直觉”或“经验”，这种模糊性长期困扰着试图模拟医生思维的研究者。

AI的突破始于大型语言模型如ChatGPT的出现。它们并不试图模仿医生的思维，而是通过语言预测展现诊断能力。

斯坦福大学研究作者Jonathan H. Chen博士认为，聊天界面是“杀手级应用”。他说，“我们可以将整份病例输入计算机，这在几年前是无法做到的。”

然而，许多医生并未充分利用这种潜力。

操作问题

Rodman博士深入研究数据后发现，医生在与ChatGPT互动时，常忽略与自己诊断不符的建议，固守原有判断。他指出，“AI提出不同意见时，医生并不听。”

鹿特丹伊拉斯姆斯医学中心的Laura Zwaan博士认为，过度自信是一个普遍现象。“人们通常在认为自己正确时过于自信。”

此外，许多医生并不了解如何充分使用聊天机器人。

Chen博士观察到，医生常将机器人当作搜索引擎，只提问简单问题，而未尝试将完整病例输入机器人以获得综合答案。“只有少数医生发现机器人能够提供意外智能且全面的答案。”

这表明，要实现AI在医学中的全部潜力，仍需更多教育和研究。

本文译自 The New York Times，由 BALI 编辑发布。

赞一个 (3)

← 美男子因比特币洗钱被没收4亿美元资产今日好价 1119 →

pony 2024年11月19日 08:29 / 重庆市1楼

拿中文数据训练一下是不是就全是癌症了

#12698676 / 举报 / OO [87] / XX [3]

巨山超力霸 2024年11月19日 09:22 / 河北省保定市2楼

你是说的文心一言吧，百度亲自训练的

#12698798 / 举报 / OO [3] / XX [3]

ponlab 2024年11月19日 10:43 / 安徽省宣城市3楼

医生实际上依旧是一个高度依赖知识量而较少依赖逻辑解析的职业。并不是说逻辑和推理不重要，而是医学太复杂了，反逻辑没搞清原理的例子太多了。

#12699078 / 举报 / OO [22] / XX [1]

傻风牌烧仙草 2024年11月19日 11:21 / 江苏省南通市4楼

这才是我想象中的ai用法，医学诊断太依赖数据量了，豪斯那样的灵感型医生只存在于文艺作品里

#12699260 / 举报 / OO [17] / XX [3]

Savior 2024年11月19日 11:37 / 上海市5楼

所以它不会跟百度一样直接让我订火葬场么？

#12699327 / 举报 / OO [3] / XX [3]

啊放 2024年11月19日 14:16 / 河北省邢台市6楼

数据还是太片面了，比如一个人来看病的神情和精神状态，对于病情的轻重很重要，完全靠数值是不正确的，比如一个有钱人和穷人就算他们各种检查数据差不多，但是他们的心态会完全影响到治疗效果，应该叫求生欲

#12699733 / 举报 / OO [3] / XX [10]

茶苯海明 2024年11月19日 14:36 / 河北省保定市7楼

从医学发展的角度来看，不能过分依赖AI，AI没有创造性是根本的硬伤

#12699797 / 举报 / OO [8] / XX [0]

主任 2024年11月19日 14:38 / 山东省青岛市8楼

不奇怪，就连医生也是经验越丰富越有能力，何况这种叫做人工智能的大数据软件

#12699805 / 举报 / OO [3] / XX [0]

哈哈儿 2024年11月19日 17:30 / 重庆市9楼

早就说过了，医生是最容易被ai替代的行业

#12700296 / 举报 / OO [0] / XX [5]

生猛海鲜追猎者 2024年11月19日 23:07 / 局域网10楼

首先读图，影像医学和各类化验应该引入AI，可以大大增加效率，减少欠发达地区医院的人才及经验不足带来的误诊漏诊

#12700844 / 举报 / OO [1] / XX [0]

xianii 2024年11月20日 06:19 / 广东省深圳市11楼

说明人类医生对于AI工具的使用技巧还有很大的提升空间。

#12701117 / 举报 / OO [0] / XX [0]

煎蛋

人工智能

ChatGPT在诊断疾病的表现优于人类医生，甚至包括使用ChatGPT的医生

← 美男子因比特币洗钱被没收4亿美元资产今日好价 1119 →

公告栏

广告

广告

煎蛋

人工智能

ChatGPT在诊断疾病的表现优于人类医生，甚至包括使用ChatGPT的医生

微信扫一扫：分享

← 美男子因比特币洗钱被没收4亿美元资产今日好价 1119 →

公告栏

广告

广告