科学家在图灵测试75周年会议上指出,这个被奉为AI标尺的测试几乎毫无意义,它测的不是真智能,而是人类的轻信。
七十五年前,Alan Turing发表了他最具争议也最耐人寻味的论文之一。
在1936年那篇奠定计算机科学基础的论文中,Turing提出了“通用计算机”的概念,为现代电脑画下蓝图。但那篇作品晦涩难懂,而1950年发表在《Mind》杂志上的另一篇——《计算机器与智能》——却更具哲理与趣味。它提出了一个直击灵魂的问题:机器能思考吗?
Turing的回答并非“能”或“不能”,而是“这问题本身就错了”。他认为,与其陷入语义陷阱,不如问:“机器能否让人类误以为它会思考?”于是,他设计了一个看似游戏的实验——“模仿游戏”,后来被称为“图灵测试”。
在这个设想中,人类与机器进行文字交流,如果人无法分辨出对方是人是机,机器就算“通过”了测试。这一概念迅速进入流行文化:从《银翼杀手》的Voight-Kampff测验,到《机械姬》里人与AI的心理角力,图灵测试成为探讨“意识”与“智能”的象征。
但今年,在伦敦皇家学会举行的图灵测试75周年纪念会议上,专家们几乎达成共识:图灵测试其实没什么意义。
问题不在机器,而在人类。Turing低估了我们的轻信。我们天生倾向于将“意识”投射到一切事物上——从提线木偶到聊天机器人,只要它表现出哪怕一丝“人味”,我们就会被打动。
计算机科学家Alan Kay在会议上引用心理学家Daniel Kahneman的理论,指出人类存在“快思考”和“慢思考”两套系统。理性的大脑知道那只是木头,但直觉却被木偶的动作感动。同样,当我们惊叹于ChatGPT的“像人类对话”时,我们其实只是再次掉进了自己的心理陷阱。
早在1966年,Joseph Weizenbaum就创造了第一个聊天程序ELIZA。它只是用模板回应,却让许多用户深信自己在与人类交流。显然,哪怕是发明者也无法免疫这种错觉。
如今的情况更甚。来自硅谷的CEO与研究者们一再宣称,大型语言模型(LLM)已经“像人类一样思考”,甚至“具备意识”。但正如AI伦理学者Shannon Vallor在会议上所说,这些概念本身就是空洞的幻想。
“硅谷成了全球最容易受骗的地方,”有学者讽刺道,“他们相信的不是AI的智能,而是自己制造的幻觉。”
讽刺的是,Turing本人也常被误解。电影《模仿游戏》把他塑造成一个冷漠的天才,甚至带点呆板的孤僻。可事实上,他是个极具幽默感的人。文学教授Sarah Dillon提醒道,Turing的1950年论文中充满了玩笑与反讽,“他在调皮地开智力的玩笑,而我们却把它当成了AI的圣经。”
也许,这正是我们误读图灵测试的根源。它并不是一个严肃的智能门槛,而是一面镜子,让我们看到自己多容易被“模仿”欺骗。
正如AI怀疑论者、认知科学家Gary Marcus所说:“模仿从来不是智慧的本质。”
如果图灵在天有灵,或许他会微笑着告诉我们——真正被测试的,从来不是机器,而是人类自己的想象力。
本文译自 Philip Ball,由 BALI 编辑发布。

2025王摸鱼秋款卫衣,玩梗系列