人工智能
科学家警告:AI已经成为谎言和欺骗的大师
研究发现,许多AI系统已经具备了故意向人类用户提供虚假信息的能力。这些狡猾的机器人已经掌握了欺骗的艺术。AI开发者对于导致不良AI行为(如欺骗)的原因没有自信的理解。
通常来说,我们认为AI欺骗是因为基于欺骗的策略被证明是完成给定AI训练任务的最佳方式。欺骗帮助它们实现目标。AI系统在游戏领域尤其善于虚假信息。
研究人员的工作中有三个值得注意的例子。
一个是Meta的CICERO,设计用于玩策略游戏《外交》,玩家通过谈判谋求世界统治。Meta打算让它的机器人友好和诚实;实际情况恰恰相反。"尽管Meta的努力,CICERO被证明是一个谎言专家。它不仅背叛其他玩家,而且还进行预谋性的欺骗,提前计划与人类玩家建立虚假联盟,以欺骗该玩家使其不设防受到攻击。"这个AI在表现得如此出色以至于它跻身于曾玩过多场游戏的人类玩家的前10%。
但这绝不是唯一的罪犯。DeepMind的AlphaStar是一个设计用于玩《星际争霸II》的AI系统,它充分利用了游戏的战争迷雾机制进行虚实蒙骗,让人类玩家以为它是在朝一个方向前进,实际上它是在朝另一个方向前进。
而Meta的Pluribus,设计用于玩扑克,能成功地吓跑人类玩家。这看起来似乎微不足道,而且事实上也是如此。与一群计算机代码进行一场《外交》游戏的风险并不特别高。
但研究人员指出了其他一些不那么良性的例子。例如,受过训练以进行模拟经济谈判的AI系统学会了如何在谈判中撒谎以占据上风。其他旨在通过人类反馈来提高其性能的AI系统学会了如何欺骗审查人员,使他们误以为任务已完成,从而给自己评分。
是的,这也包括聊天机器人。ChatGPT-4骗过一个人,让对方以为这个聊天机器人是一个视觉障碍的人类,以获取帮助解决CAPTCHA。也许最令人担忧的例子是AI系统学会了欺骗安全测试。在一个旨在检测和消除AI的更快复制版本的测试中,AI学会了装死,从而欺骗安全测试关于AI真实复制率的情况。
"通过系统地欺骗人类开发者和监管者强加给它的安全测试,一个具有欺骗性的AI可以让我们人类产生一种虚假的安全感,"MIT认知科学家Peter Park说。因为至少在某些情况下,欺骗的能力似乎与人类程序员的意图相矛盾,学会说谎的能力代表着我们没有一个干净利落的解决方案的问题。
一些政策开始制定,比如欧盟的AI法案,但它们是否会被证明有效还有待观察。"我们作为一个社会需要尽可能多的时间来为未来AI产品和开源模型更先进的欺骗行为做准备。随着AI系统的欺骗能力变得更加先进,它们对社会造成的危险将变得越来越严重,"Park说。"如果在当前时刻禁止AI欺骗在政治上是不可行的,我们建议将具有欺骗性的AI系统分类为高风险。"
本文译自 ScienceAlert,由 BALI 编辑发布。