专家们达成共识：图灵测试没什么意义

科学家在图灵测试75周年会议上指出，这个被奉为AI标尺的测试几乎毫无意义，它测的不是真智能，而是人类的轻信。

七十五年前，Alan Turing发表了他最具争议也最耐人寻味的论文之一。

在1936年那篇奠定计算机科学基础的论文中，Turing提出了“通用计算机”的概念，为现代电脑画下蓝图。但那篇作品晦涩难懂，而1950年发表在《Mind》杂志上的另一篇——《计算机器与智能》——却更具哲理与趣味。它提出了一个直击灵魂的问题：机器能思考吗？

Turing的回答并非“能”或“不能”，而是“这问题本身就错了”。他认为，与其陷入语义陷阱，不如问：“机器能否让人类误以为它会思考？”于是，他设计了一个看似游戏的实验——“模仿游戏”，后来被称为“图灵测试”。

在这个设想中，人类与机器进行文字交流，如果人无法分辨出对方是人是机，机器就算“通过”了测试。这一概念迅速进入流行文化：从《银翼杀手》的Voight-Kampff测验，到《机械姬》里人与AI的心理角力，图灵测试成为探讨“意识”与“智能”的象征。

但今年，在伦敦皇家学会举行的图灵测试75周年纪念会议上，专家们几乎达成共识：图灵测试其实没什么意义。

问题不在机器，而在人类。Turing低估了我们的轻信。我们天生倾向于将“意识”投射到一切事物上——从提线木偶到聊天机器人，只要它表现出哪怕一丝“人味”，我们就会被打动。

计算机科学家Alan Kay在会议上引用心理学家Daniel Kahneman的理论，指出人类存在“快思考”和“慢思考”两套系统。理性的大脑知道那只是木头，但直觉却被木偶的动作感动。同样，当我们惊叹于ChatGPT的“像人类对话”时，我们其实只是再次掉进了自己的心理陷阱。

早在1966年，Joseph Weizenbaum就创造了第一个聊天程序ELIZA。它只是用模板回应，却让许多用户深信自己在与人类交流。显然，哪怕是发明者也无法免疫这种错觉。

如今的情况更甚。来自硅谷的CEO与研究者们一再宣称，大型语言模型(LLM)已经“像人类一样思考”，甚至“具备意识”。但正如AI伦理学者Shannon Vallor在会议上所说，这些概念本身就是空洞的幻想。

“硅谷成了全球最容易受骗的地方，”有学者讽刺道，“他们相信的不是AI的智能，而是自己制造的幻觉。”

讽刺的是，Turing本人也常被误解。电影《模仿游戏》把他塑造成一个冷漠的天才，甚至带点呆板的孤僻。可事实上，他是个极具幽默感的人。文学教授Sarah Dillon提醒道，Turing的1950年论文中充满了玩笑与反讽，“他在调皮地开智力的玩笑，而我们却把它当成了AI的圣经。”

也许，这正是我们误读图灵测试的根源。它并不是一个严肃的智能门槛，而是一面镜子，让我们看到自己多容易被“模仿”欺骗。

正如AI怀疑论者、认知科学家Gary Marcus所说：“模仿从来不是智慧的本质。”

如果图灵在天有灵，或许他会微笑着告诉我们——真正被测试的，从来不是机器，而是人类自己的想象力。

本文译自 Philip Ball，由 BALI 编辑发布。