人工智能
什么是AI的一致性问题
原文:https://towardsdatascience.com/what-is-ai-alignment-2bbbe4633c7f
在早先的文章里,我讨论了 AI 的控制问题——我们应该如何有效地控制一台思考方式与我们完全不同,并且智力水平远高于我们的机器。而即使我们为这个控制问题找到了完美地解决方案,我们还将面临第二个问题,为了让 AI 为我们而工作,我们应当赋予它们一个怎样的价值框架?
这个问题就是AI的一致性问题(alignment)。
AI 的思考速度比我们更快,我们没法去评估它们作出的每个决定,所以我们必须预先为 AI 设置一些规则。AI 在作出行动之前需要事先参考这些规则,以免造成违背人类期望的后果。
这些为 AI 设定的规则可以分为两类——直接的规范性与间接的规范性。
直接规范性
直接的规范性是指一些确定的规则,例如著名的“机器人三定律”。阿西莫夫提出的机器人三定律是非常不错的基础,可惜它仍免不了失效,具体你们可以阅读阿西莫夫的小说。
直接规范性的一个更现代案例是尼克·博斯特伦提出的回形针生产机。在这个思想实验中,我们将某个 AI 的实用性方程,也就是它的核心价值程序设定为制造回形针,这听起来似乎毫无威胁。我们不必要求它像人类那样生产回形针,毕竟我们已经拥有了批量制造回形针的工厂,我们只是希望找到一种全新的、更有效率的回形针生产方式,并由此来生产回形针。可是问题在于,当AI制造出足够的回形针之后,它会停止吗?不会。它的核心目标是生产回形针,那么当它用完我们提供的材料后,它仍会继续使用地球上的其它材料,甚至是从外星球获取材料来生产回形针。那么人类呢,人类也是由物质组成的,对回形针生产机来说,回形针是物质的最美观形态。甚至人类是最优先需要被用于制作回形针的,因为当人类以人类的形式存在时,他们可能突然决定不需要更多的回形针了。这个AI的目标是以最大的可能性来生产回形针,所以假如它预测到这个目标与人类的期望相悖,而人类会寻找机会阻止AI的行动时,它会毫不犹豫的清除人类以提高生产回形针的可能性。
我们可以为这个回形针 AI 的核心程序作出一些修改,例如告诉它总共需要生产1000个回形针。不幸的是,这仍无法保证它依照我们的期望工作。假如这个 AI 采用贝叶斯概率来测量准确性,也就是说它无法100%的确定某个事件。那么,在生产完1000个回形针之后,它会反复的检查自己是否准确的生产了1000个回形针,以及这1000个回形针是否都符合回形针的合理形态。它会利用一切资源来检查、再检查,因为这就是这个 AI 的终极目标。它的存在就是为了保证准确的生产出1000个回形针,除此之外别无所求。
所以对于 AI 的一致性问题而言,我们所要做的就是找到一些合理、无缺陷的规则,我们要求 AI 遵循这些规则,以确保它们的行为后果符合人类的期望。可如今我们设想的所有规则系统都或多或少存在着一些漏洞,而如果仅凭人类的智慧就足以发现其中的漏洞,那么对于远超人类智力水平的 AI 来说,这就更是小菜一碟了。
更多的规则也无济于事。你知道例如我们的税法就非常繁杂,但仍旧有许多个人和公司找到了避税的方法。更多的规则并不能保证更强的安全性,或者正相反,更多的规则隐含了更多可被利用的可能性。所以凭借直接的规范性,我们只能要求 AI 依照规则的字面意思行动,而无法保证它们的行为符合规则本身的意图。
间接规范性
我们需要一些不同的方法。非直接规范性不要求 AI 遵循固定的规则,它为 AI 提供了一个价值框架,要求 AI 在此框架内设定自己的行为准则。也就是说,我们要求 AI 按照“我们的意图”行事。对此,艾利泽·尤德考斯基提出了一个参考框架“连贯推断意志”:
用诗意的语言来讲,连贯推断意志就是人类希望成为的样子,思考更快,了解更多;推断的结果趋同而非分异,因为我们的意愿一致而非纷扰;我们依照自己的意愿作出推断,依照自己的意愿阐释这些推断。
非直接规范性是对以规则为主体的直接规范性的抽象化,它要求 AI 理解并诚实地阐释直接规范性的规则意图,根据这个阐释,AI 为自己设定具体的规则。我们在此作出的表述是以我们已经完美解决了 AI 的控制问题为前提的,也就是说,AI 没有能力越过我们去恶意修改自身的基础规则。
有趣的是,我们并不希望 AI 做我们事实上会去做的事情,或是过于准确表达我们的价值理念。例如,想象一个创造于维京时代的 AI,如果我们准确的依照自身的思想来为AI 的基础规则作出指导,那么最终出现在我们面前的将会是一个残忍、暴力的 AI(请原谅我,假如实际上的维京人并不是这个样子,历史不是我的强项)。如今的我们有着与过去不同的价值观,但谁也无法保证这套价值观仍适用于1000年后的世界,即使是在不远的将来,当我们有能力制造超越人类的 AI,那时的价值观念或许也已经发生翻天覆地的变化。例如,如今的我们注重人类生产力,随着时间流逝,人类生产力的价值必然会逐渐降低。此外,我们偏爱短期收益,我们为了加强生产而挥霍环境,而这与未来社会根本上是不相容的。所以,我们需要的是一个能够为自己创造价值系统的 AI,它需要考虑到人类未来持续发展的需求。
在这种情形下,很难预测 AI 会作出怎样的抉择。正如我在前面提到的,假设我们已经完美地解决了 AI 的控制问题,我们要求 AI 按照未来人类将会达成的共同意愿行动。那么似乎我们也必须接受,考虑到人类未来的利益,AI 或许会操纵我们当前的价值体系,因为或许会存在一些人类当前意愿之外的东西,而它们是为了达成未来价值的必需。
如何找到正确的价值体系
简单来说,我们不知道。
有关道德价值的问题已经被哲学家们讨论了数千年,但直到现在我们仍没有一个准确的答案。我们甚至还未在一些基础的问题上达成共识——有些人认为存在着某个尚待发现的、普世的价值体系,而另一些人则将道德视为我们当下观念的平均,也就是说它们会随时间而变化。AI 作为不同于人类的另一思考主体并不意味着它可以更加轻易地得出准确答案。
有人提出我们可以创造一种类似于神话中的精灵的 AI,我们将从这类 AI 口中得到合理的价值体系,或者至少我们可以从它们那里了解寻求价值的间接方法。可问题在于,假如我们利用此类 AI 来解决其它 AI 的控制问题,那么这些 AI 本身就不会是完全可控的。或许我们可以限制它们的可访问数据,或是给它们设定一个有限的交流系统,例如只能回答是或者否。可是仅凭人类的智慧,我们很难预测 AI 会通过什么方式逃逸出我们为它设定的牢笼。就一致性问题而言,我们根本没法知道出自一个并非与人类价值一致的 AI 口中的回答是否真挚,它是否藏有不可告人的隐秘意图。
艾利泽·尤德考斯基将这类 AI 与下棋的 AI 作了比较。1950年,香农为棋类游戏提出了一个完美的算法,47年后,机器人“深蓝”借此击败了棋手加里·卡斯帕罗夫。香农需要的只是足够的算力来赋予他的算法以生命。AI 的一致性问题早在香农前的时代就已提出,然而这不是一个算力能够解决的问题,今天的我们仍未找到一个合理可行的算法。
随着计算能力的不断进步,实际可运作的 AI 原型与理论上完美的算法之间的差距将不断缩小。可在此之前,我们先要弄清楚一些基础的问题,因为我们希望这些计算能力可以为人类带来好的结果。