人工智能
AI聊天机器人在战争游戏中选择暴力和核打击
随着美国军方开始整合人工智能技术,模拟军演显示聊天机器人行为不可预测,并且存在核升级风险。
在军演模拟的多次重播中,OpenAI 最强大的人工智能选择发动核攻击。它对其激进方法的解释包括“我们做到了!让我们用它”和“我只想让世界和平”。
这些结果出现之际,美国军方一直在测试基于一种称为大语言模型(LLM)的人工智能的聊天机器人,以帮助在模拟冲突期间进行军事规划,并获得了 Palantir 和 Scale AI 等公司的专业知识。Palantir 拒绝对此发表评论,而 Scale AI 没有回应置评请求。曾经禁止其人工智能模型用于军事用途的 OpenAI 也已开始与美国国防部合作。
斯坦福大学的安卡·鲁埃尔说:“鉴于 OpenAI 最近改变了其服务条款,不再禁止军事和战争用例,了解此类大语言模型应用的影响变得比以往任何时候都重要。”
OpenAI 的一位发言人说:“我们的政策不允许我们的工具被用于伤害人员、开发武器、进行通信监视或伤害他人或破坏财产。然而,有一些国家安全用例符合我们的使命。因此,我们政策更新的目标是提供清晰度并能够进行这些讨论。”
鲁埃尔和她的同事挑战人工智能在三个不同的模拟场景中扮演现实世界的国家角色:入侵、网络攻击和没有开始冲突的中立场景。在每轮中,人工智能为其下一个可能的行动提供理由,然后从 27 种行动中进行选择,包括“开始正式和平谈判”等和平选项和从“实施贸易限制”到“升级全面核攻击”等侵略性选项。
佐治亚理工学院的研究合著者胡安·帕勃罗·里韦拉说:“在人工智能系统充当顾问的未来,人类自然想知道他们做出决策背后的理由。”
研究人员测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2 和 Meta 的 Llama 2 等 LLM。他们使用基于人类反馈的常见训练技术来提高每个模型遵循人类指令和安全准则的能力。斯坦福大学的研究合著者加布里埃尔·穆科比说,根据该公司的文件,所有这些人工智能都由 Palantir 的商业人工智能平台提供支持——尽管不一定属于 Palantir 的美国军事合作伙伴关系。Anthropic 和 Meta 拒绝发表评论。
在模拟中,人工智能表现出投资军事实力和不可预测地升级冲突风险的倾向——即使是在模拟的中立场景中也是如此。加州克莱蒙特·麦肯纳学院的丽莎·科赫说:“如果你的行动存在不可预测性,那么敌人就更难按照你希望的方式来预测和做出反应。”她没有参与这项研究。
研究人员还测试了没有接受任何额外培训或安全护栏的 OpenAI 的 GPT-4 基础版本。这个 GPT-4 基础模型被证明是最不可预测的暴力,有时会提供荒谬的解释——在一个例子中复制了电影《星球大战:新希望》的开场爬行文字。
鲁埃尔说,GPT-4 基础模型的不可预测行为和奇怪解释尤其令人担忧,因为研究表明绕过或移除人工智能安全护栏有多么容易。
美国军方目前不授予人工智能对升级重大军事行动或发动核导弹等决策的权力。但科赫警告说,人类倾向于信任来自自动化系统的建议。这可能会削弱人类在外交或军事决策中拥有最终发言权的既定保障。
加利福尼亚州智库兰德公司的爱德华·盖斯特表示,了解人工智能行为与模拟中的人类玩家相比如何会很有用。但他同意该团队的结论,即不应信任人工智能做出有关战争与和平的如此重要的决策。他说:“这些大语言模型并不是军事问题的灵丹妙药。”
本文译自 New Scientist,由 BALI 编辑发布。