@ 2019.11.29 , 12:00

MuZero:重新发明了围棋的AI

当初谷歌DeepMind的阿尔法狗横空出世,使人类领教到了现代AI的恐怖潜力。从那时起,每隔几个月DeepMind就会推出一篇重磅论文,从阿尔法狗到阿尔法零,进步之速令观者咋舌。

或许正是因为DeepMind的AI技术阶段性突破频繁,逐渐令大众产生了审美疲劳。几天前,谷歌又搞出了一个MuZero,而关心者人数就已不及当初。

症结或许在这里:在棋艺上,阿尔法狗已经完虐人类了,之后阿尔法零又完虐了狗,以后肯定又会出现新的AI完爆阿尔法零……如此以往,没啥新意啊。此外,超越人类是一个坎,至于之后又胜过人类上万倍还是百万倍,都难以对公众形成刺激。

好吧,说了这么多,MuZero到底有啥特殊之处呢,值得单独拿出来说一说?

简单梳理一下。

最开始的阿尔法狗向人类学习围棋,最终超越了人类。我们或许可以将它看做是人类围棋的顶峰。

随后,阿尔法零在仅仅知道规则的情况下,自己演化围棋棋理,最终超越了狗。它是第一位真正意义上的AI围棋大师,所取得的成就与人类围棋的历史毫无关系。

到MuZero,它压根不知道什么围棋!就是在棋盘上胡乱摆放棋子,工程师在几个节点稍微诱导一下,使它产生偏向性。最终,MuZero发明了围棋!

除了发明围棋外,它还以更快的速度发展出更加高明的棋理。它是AI世界中的围棋创造者。

直观上,MuZero具有内部驱动力——精确设计游戏规则的动力。

正如DeepMind研究人员所解释的那样,强化学习的一种形式——模型是MuZero和AlphaZero的核心技术,其中的奖励系统将AI带向目标。

通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模的情景计算中非常昂贵。从根本上说,MuZero会接收观察结果(即Go木板或Atari屏幕的图像)并将其转换为隐藏状态。 该隐藏状态通过接收先前状态和假定的下一个动作的过程进行迭代更新,并且在每个步骤中,模型都会给出对策(例如,下棋),价值函数(例如,预期的获胜者)和奖励(例如,通过打法得分)。

MuZero与阿尔法零对弈,前者的搜索步数更少却更加精妙,因为它对围棋的理解更深。它不仅比阿尔法零更强大,而且在架构上更简单,更高效。

DeepMind认为,现实生活中的许多问题(如股票,军事行动)都没有明确的规则,或者规则随时变动。所以,需要未来的决策AI自行摸索。这就是他们的研发方向。

本文译自 venturebeat,由 majer 编辑发布。

赞一个 (29)