@ 2024.01.10 , 07:00

人工智能可能受益于与自己对话

来源:https://www.science.org/content/article/artificial-intelligence-may-benefit-talking-itself

新奥尔良——“好吧,我今天想写完这篇文章。但它应该怎么开始呢?嗯,也许就是这样。等等,《科学》用的是‘好’还是‘好’?”许多人说,他们的脑海中有一段内心独白,讲述着他们的生活。这一现象,加上大量的研究表明,人类使用语言不仅是为了交流,也是为了思考。

现在,人工智能似乎可以从模仿人类的内心独白中受益。上个月,研究人员在神经信息处理系统(NeurIPS)会议上报告称,在一项实验室实验中,将语言与动作联系起来提高了人工智能程序学习复杂任务的能力。这一进步可能使人工智能能够从YouTube的教学视频中学习。

“我真的很喜欢这个,”罗马萨皮恩扎大学的心理学家Anna Borghi说,她研究认知和语言,没有参与这个实验。“最有趣的是,语言的存在赋予了灵活性。即使是复杂的动作也可以更容易地完成。”

作为概念验证,不列颠哥伦比亚大学的计算机科学家胡胜然和Jeff Clune设计了一种人工智能代理,可以在由20乘20网格组成的虚拟2D世界中执行任务。在多次试验中,网格被分为九个房间,配置各异,并被有时上锁的门隔开。人工智能可能必须找到一个特定的物体,并将其放在另一个物体旁边,这可能需要数百步,如抓钥匙和开门。

该代理有两个组件,每个组件都包含一个神经网络——一种模拟大脑学习方式的软件架构。特工可以“看到”它所面对的方向上的部分网格,第一个组件使用“视觉”信息以及任务和特工以前的想法来创建一个新的想法,例如“打开蓝色的门进行探索”或“进入紫色的盒子”。第二个组件将想法与任务和观察相结合,以选择行动。一个想法可能需要几个到100多个步骤才能执行。

人工智能必须经过训练,为了做到这一点,研究人员依赖于一个专门为解决此类问题而设计的机器人完成的大量任务数据集,并生成描述其正在做什么的文本。相比之下,他们还使用一种名为“行为克隆”的现有技术训练了一名特工。它学会了根据任务和观察来预测行动,而没有明确的想法。

经过训练的特工随后被分配到新的迷宫中执行新任务。在最复杂的任务中,受过模仿动作和思想训练的特工约80%的时间成功,而受过只模仿动作训练的特工仅约30%的时间成功。胡解释说,语言帮助人们学习不同抽象层次的概念,然后以新的方式将它们结合起来。这位高级特工甚至可以在遇到意想不到的障碍后重新考虑计划,胡认为这很“酷”

除了提高性能外,使用胡和Clune所说的“思想克隆”训练的人工智能还为用户提供了神经网络世界中罕见的东西:一个了解智能体想法的机会。研究人员表示,这应该有助于调试系统,也有利于安全:如果人工智能正在计划危险的事情,操作员可以判断并进行干预。胡说,在现有的静音系统中,“当你看到你的代理人冲向银行时,你不知道他是想抢劫银行,还是只是想给你拿些现金。”

在这种“犯罪前干预”的测试中,研究人员表明,他们可以在特工执行禁止动作(如触摸红色物品)之前停止特工。他们只是添加了一条由其思想触发的规则,而不必重新训练模型。Clune对这种方法的效果感到惊讶。他说:“你可能一直在拿起刀,脑子里不会出现‘我要拿起刀’的字样。”。但特工一直有预谋,使安全措施得以发挥作用。

研究人员从头开始训练他们的系统。胡说,未来他们可能会尝试在预先训练的模型中添加一个内心独白组件,比如OpenAI的GPT-4 Vision,它已经包含了一般知识和推理的元素。最终,他们希望他们的思想克隆代理人能从YouTube视频等来源的大量信息中学习到有用的技能,在视频中,叙述者会描述每一步。Clune说:“每一段视频都有人说,‘我现在会教你如何做羊角面包’,或者烹饪saag paneer,或者更换这辆旧雪佛兰的化油器,或者修理爆胎,或者在Photoshop中编辑照片,或者在Expedia上预订航班,或者在Minecraft中建房子’,这些都是学习的素材。”。

普林斯顿大学的计算机科学家姚顺宇(Shunyu Yao)最近开发了另一种推理和表演系统ReAct,他说:“我认为YouTube视频的想法非常有趣。”。他说,如果研究人员“获得OpenAI级别的资源”,这种方法可能是可行的。然而,这也可能导致人们对人工智能开发者从他们没有创建的内容中获利的新担忧。

Clune说,在一个人工智能可以克隆我们的抽象和适应能力的世界里,“我们可以将人类的智慧及其清晰有力的思维过程注入人工智能主体。”。“这对人类来说是一项简单的任务,但对人工智能或类似的东西来说是一个巨大的飞跃,”他说,显然是在寻找正确的词语。

支付宝打赏 [x]
您的大名: 打赏金额:
赞一个 (4)