好奇的AI通过探索游戏世界和犯错来学习

好奇的AI通过探索游戏世界和犯错来学习
credit: 123RF

我好奇我按下这个按钮会发生什么？拥有好奇心的算法正在教会自己探索并解决它们从未见过的问题。

面对超级马里奥的第一关，一个好奇心驱动的AI学会了如何探索地图，避开深坑，以及躲开并消灭敌人。这可能听起来不那么厉害——算法在电子游戏领域把人类虐爆已经好几年了——但这个AI的技能都是借助于它内建的对游戏世界的探索欲望而学会的。

传统的AI是通过正面强化学习的。它们在完成某种外界目标时会得到奖励，比如把游戏总分提高一分时。这鼓励它们做出能提高分数的行为——例如在超级马里奥中踩扁敌人——并阻碍它们做出不能提高分数的行为，例如掉进深坑。

这种方法叫做增强学习，它曾被用来创造 AlphaGo，来自谷歌 DeepMind 的在去年以四比一的成绩击败韩国围棋大师李世石的围棋AI。在经历数千盘真实与模拟的棋局的过程中，AlphaGo 学会了追求能带来终极奖励——胜利——的策略。

然而，在现实世界中并非到处都有奖励，领导了加州大学伯克利分校的这项研究的 Deepak Pathak 如是说道。“作为替代，人类拥有内禀的好奇心来帮助他们学习。” 他说。这或许能解释为什么我们不需要刻意学习就能轻松地掌握领域广泛的各种技能。

因此，Pathak 给他自己的增强学习算法加入了好奇心，并观察这是否足以让它学会许多技能。当 Pathak 的算法加深了它对周边环境的理解，特别是对那些能直接影响环境的因素的理解时，它便会获得奖励。所以，这个算法会因探索和掌握那些使它更加理解游戏世界的技能而获得奖励，而非在游戏世界中直接寻找奖励。

这种方法能加快学习并提高算法的效率，来自谷歌的AI公司 DeepMind 的 Max Jaderberg 说道。这家公司在去年用了一种类似的技巧去训练一个AI去探索一个虚拟迷宫。它的算法学习的速度比起传统的增强学习算法快了很多。“我们的AI学习时快得多，并且训练时需要少得多的来自环境的经验，这使得它在利用数据方面效率更高。” 他说道。

高效学习者

凭借着好奇心，Pathak 自己的AI学会了在超级马里奥中踩扁敌人并跳过深坑，还学会了在另一个类似 Doom 的游戏中探索遥远的房间和穿越走廊。它还能够在更后面的马里奥关卡中应用它新得到的技能，即使它从未见过这些关卡。

但是好奇心只能让这个算法在超级马里奥中达到一定水平。平均来说，它只探索了第一关的百分之三十，因为他没能找到越过只能用一段超过十五次操作的连击穿过的一系列深坑的途径。当AI到达这一地点时，它并不会信仰之跃跳向死亡，而是学会了转身停下。

这个AI如此困惑的原因，可能是它不知道在这个深坑之后还有关卡的另一部分，Pathak 如是说道。它没有学会持续地利用游戏中的捷径，因为这会让它的探索范围减小，从而无法满足它的探索欲望。

Pathak 如今在研究机械臂是否能通过好奇心学会抓取新物体。“比起让它随机地行动，你可以利用这种方法让它更有价值地活动。” 他说。他还打算研究一个类似的算法是否能用在像 Roomba 吸尘器这样的家用机器人上。

但 Jaderberg 并不确定这种算法已经准备好被正式使用了。“现在谈实际应用还为时尚早。” 他说。

论文地址：arXiv:1705.05363

本文译自 New Scientist，由 Zeno 编辑发布。