人工智能
从智能假象到复制真相:揭开AI模仿的真相
AI并非真正智能,而是通过模仿人类行为运作,面临偏见与误判等挑战。
关于AI的困境在于:我们是否找到了通往救赎的道路,进入一个前所未有的便利与奢华时代?还是我们遇到了自己的毁灭,一个将摧毁我们所知社会的反乌托邦?这些矛盾至少部分源于另一个——某种潜在的——矛盾。我们在表面上为AI的输出(即“是什么”)所着迷,但当我们深入探究或试图理解AI的过程(即“如何”)时,往往感到失望。这种困境在生成式AI的时代从未如此明显。我们为大型语言模型(LLM)如ChatGPT生成的优秀形式所倾倒,同时又担心它们输出的偏见和不现实的叙述。同样,我们发现AI艺术很吸引人,但又担忧其中缺乏更深层的意义,更不用说关于抄袭前人天才作品的担忧了。
这些担忧在生成式AI领域最为明显,而这种技术促使我们直接与之互动,这绝非巧合。人际对话充满了多层次和多种意义。即使是简单的问题“我们喝杯咖啡吧?”也包含了许多隐含的意义,涉及对一天中时间的共同理解,放松对话的潜在意图,对饮品偏好的猜测,附近商店的可用性,等等。当我们看到一幅名为《1970年代的越南》的艺术作品时,我们可能会期待艺术家传达一些关于那个国家在战争结束和战后时期生活的内容——在与人类和人类作品互动时,许多东西无需言明。相比之下,LLM用类人回应面对我们,但这些回应缺乏任何更深层的意义。人类般的表现与机器般的本质之间的不协调也是AI困境的核心。
然而,认为AI对表面模仿的痴迷是最近的现象,这种看法是错误的。模仿范式从AI学科诞生之初就已经深植其中。要解开并理解当代文化如何会赞赏以模仿为核心的技术,我们必须回溯到AI历史的早期,并追溯其几十年的演变过程。
被广泛认为是AI之父的艾伦·图灵(Alan Turing,1912-1954)提出了这一学科的基本思想。尽管自图灵去世以来的70年中,AI发生了相当大的变化,但他遗产中的一部分依然坚定地处于当代AI讨论的核心。这就是图灵测试,这是一种概念性的测试,询问一项技术是否能够将其输出伪装成人类的产物。
想象一种技术与人类进行在线聊天——如果这项技术能让对方相信他们是在与人类聊天,它就通过了图灵测试。如今LLM使用的聊天界面使得图灵测试在大众文化中重新引起了兴趣。此外,图灵测试在当代AI学术界中被视为智能的终极考验,以至于说它与判断智能只有间接关系可能会引起争议。然而,图灵在他首次引入这一测试的开创性论文中,确实有这样的意图。
图灵显然并不认为模仿游戏是智能测试
值得注意的是,图灵将其称为“模仿游戏”。后来,AI社区才将其命名为“图灵测试”。我们无需超越图灵1950年发表的论文《计算机器与智能》的第一段,就能理解“模仿游戏”与判断机器是否智能之间的差异。在论文的开头段落,图灵让我们思考一个问题:“机器能思考吗?”他承认自己对此问题感到困惑。
在一些零散的思考后,他在论文的第一段结束时明确表示:“我将用另一个问题来替代这个问题,这个问题与它密切相关,并用相对明确的词语表达。”然后他继续描述模仿游戏,称之为“问题的新形式”。换句话说,图灵明确指出“模仿游戏”并不是“机器能否思考”这一问题的答案,而是这个被替代问题的形式。
AI社区——至少可以说是非常遗憾的——显然(误)解读了模仿游戏,认为它是回答机器是否智能(或它们是否能思考或运用智能)的问题的机制。“模仿游戏”被命名为“图灵测试”无疑为其提供了权威感,并可能使得几代AI研究人员在批判性地审视它时犹豫不决,因为图灵在计算机领域享有极高的声望。就在2023年,各国领导人齐聚英国的布莱切利公园——图灵曾在此工作——商讨AI安全。在这种背景下,图灵显然并不认为模仿游戏是智能测试这一事实,应该为我们提供一些安慰和勇气,去批判性地审视它。
在图灵于1950年代初在英国提出模仿游戏的背景下,大西洋彼岸对于“思考机器”这一理念的兴趣也在不断增加。约翰·麦卡锡(John McCarthy),当时在新罕布什尔州达特茅斯学院担任数学助理教授,获得了资助,组织了一场为期八周的研讨会,将于1956年夏天举行。这个研讨会后来被称为AI的“创立事件”,记录显示“人工智能”这一术语的首次实质性使用出现在麦卡锡提交给洛克菲勒基金会的研讨会资助提案中。
暂时忘记当今的“人工智能”,想一想:哪些学科自然会参与到开发智能机器的追求中?看起来很自然的想法是,这种探索应该以理解和描述我们所知智能的学科为中心——认知科学、哲学、神经科学等。其他学科可以作为实施的载体,但整体努力需要以处理心智的学科的知识为基础。实际上,图灵选择在《心灵》(Mind)杂志上发表他的开创性论文,这本杂志的内容涉及哲学与认知科学的重大交叉,这绝非巧合。达特茅斯研讨会由洛克菲勒基金会的生物与医学研究部门资助,这也反映了上述推测可能并非无稽之谈。然而,麦卡锡的研讨会在结构上却截然不同。
数学研究人员不再需要在将思考机器作为计算来讨论时感到孤独
达特茅斯研讨会以数学家和工程师为主,包括技术公司(如IBM)的实质性参与,几乎没有来自其他学科的学者。Ray Solomonoff的妻子Grace Solomonoff编写的传记历史,其中包括参与者Ray Solomonoff的笔记,提供了充足的证据表明“人工智能”项目被积极引导到工程方向,而远离神经认知哲学方向。特别是Solomonoff的笔记记录了核心组织者之一、后来成为AI关键人物的Marvin Minsky在准备研讨会时写的一封信中的观点:
“到项目开始时,我敢打赌,我们所有人将对哲学和语言问题达成前所未有的一致,这样我们就不会在这些琐事上浪费时间。”
其他参与者可能与Minsky一样认为哲学和语言问题是浪费时间的琐事,但没有像他那样明确表达(或直言不讳)。
科学史学家Ronald Kline在描述研讨会前的讨论时指出,这一活动最初的设想包含了大规模的脑模型研究,但后来逐渐转向数学模型项目。从Solomonoff和Kline的记述中可以看出,这个项目的主要科学成果是确立了数学符号操作——后来被称为符号AI——作为AI发展进程的途径。这一点很明显,特别是两年后,在1958年题为“思维过程的机械化”的会议上(这个名字让任何读者都认为这是一次神经认知哲学研讨会),许多达特茅斯研讨会的参与者发表了关于数学建模的论文。
研讨会论文的题目从“启发式编程”到“条件概率计算机”不等。事后看来,可以判断,达特茅斯研讨会推动了思考机器的发展成为工程和数学科学领域的一项事业,而不是由旨在理解我们所知智能的学科主导的项目。随着达特茅斯学者们的支持,数学研究人员不再
需要在将思考机器作为计算来讨论时感到孤独。
“人工智能”从此迅速成为计算机科学的一个核心研究领域,数学成为唯一与之相关的学科。即使在Minsky和其他人拒绝将哲学和语言问题视为“浪费时间”后的十年间,其他的AI研究者如Herbert Simon和Allen Newell等人选择与心理学家合作(有时他们是心理学家,但更常见的是计算机科学家)在开发智能系统的工作中。但早在20世纪60年代,大多数AI研究人员的目标已经很明确。Kline指出,1965年之后,符号操作和符号处理的过程成为AI研究的绝对重点。与之形成鲜明对比的是,哲学和认知科学几乎完全淡出了AI研究的核心领域。
现在让我们将一个简单的决策机制连接到温度计上:如果温度超过预设阈值,它就会开启空调(反之亦然)。这些小型的调节机制,通常称为恒温器,在当今的电子设备中随处可见,无论是烤箱、热水器、空调,甚至是电脑中用于防止过热的装置。控制论(Cybernetics),一个涉及反馈机制设备的领域,如恒温器及其更复杂的“亲属”,曾被广泛认为是通向机器智能的途径。Grace Solomonoff记载,McCarthy曾将“控制论”作为Dartmouth研讨会的潜在名称(最终选择了“人工智能”),另一个备选名称是“自动机理论”(automata theory)。这里的关键点是,像恒温器这样通过自我调节的感应—响应机制可能被看作是一种形式的智能。我们只能猜测为什么我们会这样认为;或许是因为我们认为感应与人类本质上紧密相连(感官能力的丧失——即便只是味觉的丧失,对于我们大多数人在新冠疫情期间的体验而言,都是非常令人沮丧的),或者是因为身体维持的体内平衡(homoeostasis)是生命维持中最复杂的自我调节形式之一。
McCarthy可以被视为在讨论恒温器的“信念”,甚至将这种逻辑扩展到自动柜员机。
然而,我们不太可能将简单的恒温器误认为是思考机器,对吧?嗯,除非我们像McCarthy那样思考。在Dartmouth研讨会后的二十多年里,这位开创性的组织者在1979年的文章《将心理特质归于机器》中写道,恒温器有信念。
他写道:“当恒温器认为房间太冷或太热时,它会发送一条信息告知炉子。” 在文章的某些部分,McCarthy似乎意识到会有批评者自然地将“将信念归于机器”视为“仅仅是智力上的马虎”,但他继续说道,“我们坚持……这种归因是正当的。”
McCarthy承认,恒温器没有更深层次的信念,比如内省信念,即“它并不认为自己认为房间太热”——这确实是一个巨大的让步!在学术界,一些具有挑衅性的文章往往只是出于热情和方便而写的,尤其是在措手不及时。读者若曾见过那些因不当热情而导致的文章,可能会认为有理由敦促不要过度解读McCarthy的文章——或许,这只是一次性辩论。
然而,历史记录告诉我们情况并非如此;四年后,McCarthy撰写了《思考机器的小想法》一文(1983年)。在那篇文章中,他可以被视为在讨论恒温器的信念,甚至将这种逻辑扩展到自动柜员机,这可能在当时已经开始成为一种有趣的自动化设备。他写道:“自动柜员机是另一个例子。它有诸如‘账户里有足够的钱’和‘我不给那么多钱’的信念。”
如今,感应—响应机制在机器人领域得到了广泛应用,尤其是在流行图像中,类人机器人主导了人工智能的表现。可以通过快速的Google图片搜索看到。用“智能”这个形容词来指代AI系统可以看作与感应—响应机制的大量存在有关:智能可穿戴设备涉及在个体层面部署传感器,智能家居是有多个相互连接的传感器的家庭,而智能城市则是拥有大量基于传感器的监控系统的城市。以“物联网”常被称为的这一新一波传感器驱动的AI正是由传感器驱动的。
不透明的符号AI和传感器驱动的控制论是设计被认为具有智能行为的系统的有用途径,但我们仍然需要付出努力来设计这些系统。这一设计需求是否会带来障碍?这个问题将我们引向AI研究中的下一个时代。
20世纪80年代左右,AI的快速扩展在某些任务中开始遇到一些强劲的阻力。这最好在Hans Moravec的著作《心灵的孩子》(1988年)中体现,这本书引出了后来被称为Moravec悖论的概念:
“与使计算机在智力测试或下棋中表现出成人水平相比,使它们在感知和移动能力上拥有一岁孩子的技能则相对困难或不可能。”
通过符号方法在跳棋和国际象棋中表现出色的AI在识别手写字符或辨认人脸方面却无法取得进展。这类任务或许属于一种与生俱来的、仅人类(或者说动物)才具备的活动——这些是我们瞬间和本能完成的,但我们无法解释如何完成的。我们大多数人可以立即从人们的面部识别出情感,且准确度很高——但不太愿意接手一个项目,去制定一套规则来从人的图像中识别情感。这与现在被称为波兰尼悖论(Polanyi’s paradox)的理论有关:“我们知道的比我们能表达的要多”——我们依赖于常常无法用语言表达的默会知识,更不用说将其编码成程序了。AI热潮撞上了障碍。
为了理解AI研究如何摆脱这一困境,一种相当直率(且故意挑衅)的类比可能会有所帮助。在学校里,我们每个人都必须尝试并通过考试,以证明自己对该主题的理解和学习成果的实现。然而,有些学生懒得做艰苦的工作;他们只是在考场里从邻座的答案纸上抄袭。
我们称之为作弊,或者用更温和、更复杂的术语来说,学术不端行为。为了完成这个类比,我们的主角是图灵测试,而AI研究并不懒惰,但已经无力扩展以解决基于默会知识的任务。它只是不胜任。如果读者能原谅这种暗示性的语气,我在这里观察到,AI走上了与懒惰学生相同的道路:从别人那里复制——在这种情况下,是从我们人类那里复制。
粗糙的模型是懒惰的学习者;深度学习模型是积极的学习者。
要真正看到这种复制范式,请考虑一个简单的任务,即识别图像中的人脸。对于人类来说,这是一个简单的感知任务。我们看到一张图片,立即识别出其中的人脸(如果有的话)——我们几乎无法在每次看到图片时不执行这个任务。眨眼可能需要更多时间。
如果你今天让一名AI工程师来做这个任务,他们会毫不犹豫地采用数据驱动或机器学习的方法。首先是收集大量图片并让人类标注者给它们贴标签——每张图片是否包含人脸?这会导致两个图像堆积,一个有脸,一个没有。这些标记的图片将被用于训练机器,而机器就是这样学习进行匹配的。
这种标记的图像数据集称为训练数据。机器学习模型越复杂,它就会使用越多的图像、规则和操作来决定另一张面前的图片是否包含人脸。但基本的范式是从标记数据中复制,这些数据通过一个统计模型来中介,其中统计模型可以简单到只是一个相似性,也可以是非常复杂和精心策划的一组“参数”(如当前流行的深度学习模型)。
粗糙的模型是懒惰的学习者,因为它们在被要求做出决定之前不会咨询训练数据,而深度学习模型则是积极的学习者,因为它们事先将训练数据提炼成统计模型,以便快速做出决策。
尽管任务类型和决策模型存在巨大的复杂性和多样性,基本原则仍然相同:相似的数据对象对相似的目的有用。如果机器学习有一座教堂,那么教堂的外墙上可能会写着这样的格言(用拉丁文,就像他们在教堂上那样):Similia objectum, similia proposita. 如果你想知道这是什么意思,请咨询一个专门用于语言翻译的数据驱动AI。
自2022年底ChatGPT推出以来,LLMs的普及引发了全球AI热潮,至今依然持续。虽然在大众文化中被视为分水岭,但从技术上看,LLMs的核心是机器学习,技术上产生了一种新的模仿形式——数据的模仿;这与传统的人类决策模仿不同。
通过LLMs,模仿呈现出一种新形式——一个无所不知的人,总能解答各种问题。然而,这仍然遵循机器学习核心的复制路径。正如著名AI研究员Emily Bender和其他AI伦理学家所说,LLMs是“随机鹦鹉”;虽然鹦鹉简单重复听到的内容已经很厉害,随机化的、依赖查询的选择性再现训练数据的方法被发现是一种创造自主意识和智能假象的新范式。读者可能记得,不透明的符号操作和传感器驱动的控制论在20世纪60年代和70年代曾风靡一时——现在轮到随机数据复制了。
显然,偏见和幻觉是特性,不是漏洞。
LLMs的价值在于生成完美输出:悦目且文笔优美的文本。人们可能会好奇,LLMs如何在网上大量低质量文本中生成结构良好的文本,并将此视为技术的内在优点。关键在于理解LLMs如何依赖各种形式的人类输入。据报道,最受欢迎的商业LLM,ChatGPT,雇用了成千上万的低薪肯尼亚注释员来评估人类文本的质量,特别是排除被认为有害的内容。因此,LLM文本的高质量也是模仿范式的产物。
一旦理解了这一点,就容易理解为什么LLMs会产生明显的偏见输出,包括性别和种族方面的偏见。随机数据复制范式涉及将训练数据不同部分的模式混合搭配,这些模式形成不协调的叙述,导致尴尬的荒谬和不合逻辑的文本,通常被称为“幻觉”。将LLMs理解为强化版的模仿,显然偏见和幻觉是特性,而非漏洞。如今,LLMs的成功扩展到其他数据类型,催生了包含图像和视频生成的生成式AI,所有这些都存在偏见和幻觉问题。
持反对立场看待这一叙述。如今的人工智能可能被设计用来模仿以假装智能。然而,如果它能完成任务,为什么要纠结于挑剔呢?
这就复杂但有趣了。考虑一个接受过训练的放射科医师在X光片上诊断疾病。他们的决定主要基于对人体生物学的了解。我们可以让很多这样的专家放射科医生为X光片标注诊断。一旦有足够的X光诊断配对数据,这些可以输入数据驱动的AI,然后用于诊断新的X光片。很好。一些放射科医生可能会收到冗余信。
多年过去。
不幸的是,世界遭遇COVID-27,一场如其前身般规模庞大的呼吸道大流行。AI对此一无所知,因此无法诊断疾病。由于许多放射科医生被推到其他行业,我们不再有足够的专家来进行诊断。AI对人体生物学一无所知,其“知识”无法转用于COVID-27——但有大量标注COVID-27的X光片,包括其所有变体,用于重新训练统计模型。
同一个AI将放射科医生推离岗位,现在需要他们来“教”它模仿关于COVID-27的决策。即使没有COVID-27,病毒也会变异,疾病会变化,世界从不静止。AI模型总有过时的风险。因此,持续的人类标注数据供应是数据驱动AI保持与时俱进的生命线。这种对数据的复杂依赖是AI的潜在方面,我们往往低估它,最终可能会招致风险。
AI的统计模型将我们的偏见编码,并以计算客观性的外衣再现
将放射学替换为警务、大学评估、招聘,甚至对天气预测等环境因素的决策,或生成式AI应用如视频生成和自动写作,基本逻辑保持不变。AI范式——正如著名AI批评家Cathy O’Neil在《数学毁灭武器》(2016)中所言的“将过去投射到未来”——对于那些变化或演变的领域来说根本行不通。在这一点上,我们可以想起25世纪前的希腊哲学家赫拉克利特——他会说“变化是唯一不变的”。
历史学家Yuval Noah Harari会说,认为AI无所不知、真正智能并能拯救我们的信念,推动了“数据主义”意识形态,即赋予信息流至高价值的理念。此外,考虑到人类标注——尤其是在社会决策领域如警务和招聘中——带有各种偏见和刻板印象(性别歧视、种族歧视、年龄歧视等),AI的统计模型将这些偏见编码并以计算客观性的外衣再现。阐明模仿范式与AI偏见问题之间更细致的关系是另一个故事。
如果模仿问题多多,那它有什么用呢?为了解这一点,我们不妨借鉴Karl Marx关于政治经济学批判的学术研究,资本被理解为我们所知的剥削经济体系的支撑伦理。Marx说,资本关心物品的效用仅在于它们具有商品的通用形式,可以在市场上交易以推动货币动机。简单来说,为了增加利润,改善展示——通过各种方式如包装、广告等——比改善商品的功能(或使用价值)要重要得多。
内容服从展示因此不幸成为资本主义世界的趋势。将Marx的论点扩展到AI,嵌入AI的模仿范式足以满足资本。基于这一理解,将模仿游戏——即图灵测试——视为AI的圣杯,与资本主义的经济体系密切相关。从这个角度来看,不难理解为什么AI与市场协同良好,以及为什么AI作为一个学科被硅谷科技巨头等大市场玩家主导。AI研究越来越公司化,尤其是随着深度学习的出现模仿范式兴起,这种市场亲和性在一篇论文中得到了说明。
生成式AI的浪潮引发了关于真正人工通用智能出现的巨大公众讨论。然而,将AI理解为模仿帮助我们看穿这一狂热。用一个过于简单但有启发性的类比来说,孩子们可能在模仿应用如My Talking Tom中看到自主性——然而,显然Talking Tom不可能成为真正会说话的猫,无论孩子多么努力。市场可能会给我们提供复杂且看似智能的模仿,但这些改进在结构上不可能实现从模仿到真正智能的质变。正如Hubert Dreyfus在《计算机无法做到的事情》(1972)中所写的,“第一个爬树的人可以声称在登月方面取得了切实进展”——然而,真正到达月球需要与爬树截然不同的方法。若要解决真正的问题并取得持久的技术进步,我们可能需要的不仅仅是对模仿的痴迷。
本文译自 Aeon Essays,由 BALI 编辑发布。