@ 2017.10.19 , 22:05

零号机突破——AlphaGo围棋大师

零号机突破——AlphaGo围棋大师
视频截图

# 这费是法 投递(不是译稿)

人类在数千年年间累积了围棋的知识,总结提炼为定式,棋谚和书籍。在数天的时间内,阿法狗零号机能够从一张白纸开始重新发现大部分的围棋知识,以及对这一古老游戏有着深刻洞见的新策略。

DeepMind在自然上新文章——《无人类知识的情况下精通围棋》的最后一段,如同科幻小说的开篇。某种意义上说我们低估了人工智能特定领域的发展速度,毕竟在五年前,绝大部分人的预期是我们仍要一代人的努力才能够创造出能够接近人类水平的电脑围棋选手。

零号机突破——AlphaGo围棋大师
对战过程

零号机和樊号机(和樊辉下棋的第一代)以及李号机(和李世石下棋的第二代)的差别在于,后者是通过监督学习完成的。亦即通过人类已有的围棋棋谱训练策略网络和价值网络(两个深度卷积的神经网络),最后通过蒙特卡洛树搜索结合确定落子。这样的训练效果受制于已知的专家数据(之前的围棋棋谱)。零号机的网络训练是通过强化学习完成的。亦即通过随机的初始状态进行大量的情景模拟,并驱动网络朝着最优化的方向发展。原有的两个分离的价值网络和策略网络被整合成一个残差网络(这个应该是上年计算机视觉领域的一个大突破,微软研究院的成果),最后通过蒙特卡洛树搜索来完成对局的模拟并进行学习。

抛开细节不谈,我们看一张论文中的图片,对于一个经典的角部定式,零号机的学习和变化过程。真正让人觉得激动的是中间的时间轴。50多个小时的时候我们看到了常见的定式,70个小时的时候便已经是人类未知的领域了。

相关的强化学习微软研究院也有一篇《强化学习的混合奖励架构》的文章,提出的深度强化学习的做法,利用多个代理的混合决策玩吃豆人游戏。拿到了超过人类最强玩家的分数。

这一次零号机的突破可以说非常直观的展示一个AI在特定领域越过“奇点”后的状态。人类数千年累积的知识,在AI面前只需要数小时。

# 这费是法:作为一个蛋友,容我虚妄的做出一些建议。我们可能需要更加疯狂的运用我们的想象力,为即将到来的巨变做好更多的准备。毕竟塞内卡说过“折磨我们的往往是想象,而不是真实”。

# dodww 发在无聊图的对战图(GIF):
零号机突破——AlphaGo围棋大师

赞一个 (22)