人工智能的动荡过去与不确定未来

1958年的感知器被誉为“第一台能像人脑一样思考的设备”。但它并没有完全达到预期效果。

1956年夏天，一群数学家和计算机科学家接管了达特茅斯学院数学系所在大楼的顶层。约八周时间，他们想象了一个新的研究领域的可能性。当时还是达特茅斯大学年轻教授的约翰·麦卡锡在写他的研讨会提案时创造了“人工智能”这个词，他说这个研讨会将探讨一个假设：“学习或智力的任何方面都可以被如此精确地描述，以至于可以制造出一台模拟它的机器。”

那次传奇会议上的研究人员大致勾勒出了我们今天所知道的AI。它催生了第一批调查员：符号主义者，他们的专家系统在20世纪80年代达到了顶峰。会议后的几年还见证了“连接主义者”的出现，他们在人工神经网络上劳作了几十年，直到最近才开始起飞。这两种方法长期被视为相互排斥，研究人员之间为争取资金而产生了敌意。每一方都认为自己走上了通向人工通用智能之路。

回顾自那次会议以来的几十年，AI研究人员的希望经常被粉碎，但这些挫折却很少能阻止他们。今天，即使AI正在革新产业并威胁颠覆全球劳动力市场，许多专家仍在思考今天的AI是否已经达到了极限。正如Charles Choi在“七种揭示AI失败的方式”中所描述的那样，当今深度学习系统的弱点变得越来越明显。然而，研究人员并没有感到绝望。是的，未来不久可能会再次进入AI冬季。但这可能是启发工程师最终将我们带入机器思维永恒夏天的时候。

开发符号AI的研究人员旨在明确地教计算机了解世界。他们的创始信条认为，知识可以用一组规则来表示，计算机程序可以使用逻辑来操作该知识。领先的符号主义者Allen Newell和Herbert Simon认为，如果符号系统具有足够的结构化事实和前提条件，则聚合最终将产生广泛的智能。

另一方面，受生物学启发的连接主义者致力于开发“人工神经网络”，这些网络可以接收信息并自行理解信息。开创性的例子是感知器，它是由康奈尔大学心理学家Frank Rosenblatt在美国海军资助下建造的实验机器。它有400个光传感器，共同充当视网膜，将信息馈送给约1000个“神经元”进行处理并产生单个输出。1958年，《纽约时报》援引Rosenblatt的话称，“这台机器将成为第一台能像人脑一样思考的设备。”

肆无忌惮的乐观主义鼓励美国和英国的政府机构将资金投入到投机性研究中。 1967年，麻省理工学院教授Marvin Minsky写道：“在一代人的时间内……创造‘人工智能’的问题将得到实质性解决。” 但此后不久，政府资金开始枯竭，原因是一种 AI研究没有达到其宣传的效果的感觉。 20世纪70年代见证了第一个 AI冬天。

然而，真正的信徒继续前进。到了20世纪80年代初，对符号AI研究人员的热情再次带来了高峰期，他们因“专家系统”而获得了赞誉和资金，这些系统对特定学科(如法律或医学)的知识进行编码。投资者希望这些系统能够迅速找到商业应用。最著名的符号AI风险投资始于1984年，当时研究员Douglas Lenat开始了一个名为Cyc的项目，旨在将常识编码到机器中。直到今天，Lenat和他的团队仍在向Cyc的本体论中添加术语(事实和概念)，并通过规则解释它们之间的关系。到2017年，该团队拥有150万个术语和2450万条规则。然而，Cyc仍远未达到通用智能。

20世纪80年代末，商业寒流带来了第二次AI冬季。专家系统市场崩溃，因为它们需要专门的硬件，并且无法与越来越普及的更便宜的台式电脑竞争。到了20世纪90年代，符号AI或神经网络都不再是学术上时尚的研究方向，因为这两种策略似乎都失败了。

然而，取代专家系统的廉价计算机对于连接主义者来说却是一件好事，他们突然拥有了足够的计算机能力来运行具有多层人工神经元的神经网络。这些系统被称为深度神经网络，它们所支持的方法被称为深度学习。多伦多大学的Geoffrey Hinton应用了一种称为反向传播的原理，使神经网络从错误中学习(参见“深度学习的工作原理”)。

Hinton的一位博士后Yann LeCun于1988年进入AT&T贝尔实验室，在那里他和一位名叫Yoshua Bengio的博士后使用神经网络进行光学字符识别；美国银行很快采用了这种技术来处理支票。Hinton、LeCun和Bengio最终赢得了2019年图灵奖，有时被称为深度学习之父。

但是，神经网络的支持者仍然有一个大问题：他们有一个理论框架和不断增长的计算机能力，但世界上没有足够的数字数据来训练他们的系统，至少对于大多数应用程序而言。春天还没有到来。

在过去的二十年中，一切都发生了变化。特别是，万维网蓬勃发展，突然之间到处都是数据。数码相机，然后是智能手机填满了互联网上的图像，如维基百科和Reddit等网站充满了自由获取的数字文本，而YouTube则有大量视频。最终，有足够的数据来训练神经网络以进行各种应用。

另一个重大的发展来自游戏行业。像Nvidia这样的公司为渲染视频游戏中的图像所需的重型处理开发了称为图形处理单元(GPU)的芯片。游戏开发人员使用GPU进行复杂的着色和几何变换。需要严肃计算能力的计算机科学家意识到，他们可以将GPU欺骗成执行其他任务，例如训练神经网络。Nvidia注意到了这一趋势，并创建了CUDA，这是一个使研究人员能够将GPU用于通用处理的平台。其中一位研究人员是Hinton实验室的博士后Alex Krizhevsky，他使用CUDA编写了一种神经网络代码，该代码在2012年让所有人都惊叹不已。

他为ImageNet竞赛编写了这个代码，该竞赛挑战AI研究人员构建计算机视觉系统，可以将100多万张图像分类为1000个物体类别。虽然Krizhevsky的AlexNet不是第一个用于图像识别的神经网络，但它在2012年比赛中的表现引起了世界的关注。AlexNet的错误率为15％，而第二名入围者的错误率为26％。神经网络归功于GPU功率和包含总共650,000个神经元的多层“深度”结构。在接下来的一年的ImageNet竞赛中，几乎每个人都使用了神经网络。到2017年，许多竞争者的错误率已降至5％，组织者结束了比赛。

深度学习起飞了。有了GPU的计算能力和大量数字数据来训练深度学习系统，自动驾驶汽车可以在道路上导航，语音助手可以识别用户的语音，Web浏览器可以在数十种语言之间进行翻译。AI还在几个以前被认为机器无法赢得的游戏中击败了人类冠军，包括古老的棋盘游戏围棋和视频游戏星际争霸II。AI目前的繁荣触及了每个行业，提供了识别模式和做出复杂决策的新方法。

回顾几十年来的历史，可以看出AI研究人员的希望经常被粉碎，而这些挫折对他们的影响很小。

但是，深度学习中越来越多的胜利依赖于增加神经网络中的层数并增加用于训练它们的GPU时间。 AI研究公司OpenAI的一项分析显示，直到2012年，训练最大AI系统所需的计算能力每两年翻一倍，之后每3.4个月翻一倍。正如Neil C. Thompson及其同事在“深度学习的递减回报”中所写，许多研究人员担心AI的计算需求处于不可持续的轨迹上。为避免超出地球能源预算，研究人员需要摆脱构建这些系统的既定方式。

虽然神经网络阵营似乎已经彻底击败了符号主义者，但事实上战斗结果并不那么简单。例如，来自OpenAI的机器人手臂因操纵和解决魔方而成为头条新闻。机器人使用了神经网络和符号AI。这是许多新神经符号系统之一，它们使用神经网络进行感知和符号AI进行推理，这种混合方法可能在效率和可解释性方面都提供收益。

尽管深度学习系统往往是黑盒子，以不透明和神秘的方式进行推理，但神经符号系统使用户能够查看内部并了解AI如何得出结论。正如Evan Ackerman在《美国陆军如何将机器人转变为团队成员》中所述，美国陆军特别警惕依赖黑盒子系统，因此陆军研究人员正在调查各种混合方法来驱动他们的机器人和自主车辆。

想象一下，如果您可以让美国陆军的清路机器人为您冲一杯咖啡。这在今天是可笑的，因为深度学习系统是为狭窄的目的而构建的，无法将其能力从一个任务推广到另一个任务。此外，学习新任务通常需要AI抹掉它了解如何解决先前任务的所有知识，这是一个称为灾难性遗忘的难题。在DeepMind，谷歌伦敦的AI实验室，著名机器人学家Raia Hadsell正在使用各种复杂技术解决这个问题。在“DeepMind如何重新发明机器人”中，Tom Chivers解释了为什么这个问题对于在不可预测的现实世界中行动的机器人非常重要。其他研究人员正在调查新型元学习类型，希望创建能够学习如何学习并将该技能应用于任何领域或任务的AI系统。

这篇文章发表在2021年10月的印刷版上，标题为“The Turbulent Past and Uncertain Future of AI”。

本文译自 IEEE Spectrum，由 BALI 编辑发布。