@ 2016.01.29 , 22:00
61

AI时代:谷歌计算机5:0战胜欧洲围棋冠军

[-]

谷歌DeepMind团队的人工智能研究人员正在庆祝一项20多年来的重大突破:他们终于教会电脑程度玩围棋了,这一直被认为是人工智能最具挑战性的游戏。现在他们的程序不仅会玩,而且是个高手。

这个叫做AlphaGo的电脑程序是谷歌DeepMind团队专门为了战胜职业围棋选手而设计的。他们连续挑战了三届欧洲围棋冠军Fan Hui,而且首次做到了在全尺寸棋盘比赛中以5:0的比分战胜了他。团队在《自然》杂志上宣布他们的突破。

围棋的历史可以追溯到2500年前的中国。它是在19*19的棋盘上用黑白棋子进行的游戏。如果一方将对方的棋子包围,这些棋就被吃了。要想获胜就要控制棋盘的至少50%。这对计算机很难的原因在于,大约有10的700次方种变化,而国际象棋只有约10的60次方种变化。

谷歌DeepMind团队的突破有着多方面的重要意义:总的来说,这将影响计算机搜索动作序列的方式。这能帮助人工智能程序以逻辑的方式从一个地方到另一个地方。对平常人类而言,这意味着很多事情会发生变化,因为人们经常需要人工智能通过推理逻辑方程从一处到另一处。

更具体的说,像面部识别过程和预测性搜索是这项技术所能最快应用的地方。脸书和谷歌都想在数据分析上比其他家做得更好,而且要在分析的基础上创造和销售产品。数据,具体来说,就是你和你所做的一切。

在宣布消息之后,谷歌DeepMind团队已经向目前全球最优秀的棋手之一韩国的李世石发出挑战。比赛将于2016年3月进行。

李世石 vs. AlphaGod的比赛跟1996年国际象棋大师卡斯帕罗夫与IBM“深蓝”计算机之间的比赛有很多相同点。在那场比赛中,“深蓝”人工智能系统首次击败了职业国际象棋大师。在即将到来的李世石大战AlphaGo的比赛中,DeepMind人工智能面临的决策树将比“深蓝”当年处理的更加庞大,对棋子的步数计算要更多。这将是一场引人注目的比赛。

本文译自 gizmodo,由译者 许叔 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.7
赞一个 (15)

TOTAL COMMENTS: 61+1

[2] 1 »
  1. 气界虚空
    @2 years ago
    3053228

    这到底算会下还是不会下围棋呢,如果一套这样的程序能下赢同样的程序加一个人吗

  2. 3052591

    是时候该更新发展游戏里的笨蛋AI了。

    游戏画面已经快现实,AI还是老样子。

  3. 煎蛋
    @2 years ago
    3052589

    还不是AI,真AI如果出来,早上10点出生,晚上10点就审判日。

  4. 3052545

    狗就是放个炮仗,显得自己压脸书一头,股票应声大涨,细究起来这件事破绽太多了。而且搞科研的就知道若真是这种级别的成果,还发个屁的Nature,简直自降身价

  5. 大海的方向
    @2 years ago
    3052173

    以后新闻能不能及时点啊

  6. 123马驴脸猛鹿
    @2 years ago
    3052030

    江流儿表示不服

  7. jagdtiger
    @2 years ago
    3052006

    面对不同的对手,数据才更可靠些

  8. martixingwei
    @2 years ago
    3052000

    @wall-e: 我们说的模仿不太一样。。我的意思是这个AI是会学习下棋的策略的,而不是通过记录庞大的棋谱库来按图索骥。确实最后会怎么下还是要取决于训练用的棋谱库,不过已经比以前那种纯粹的查找强了很多了,至少有了思考的雏形了。机器学习的精髓也就是能够总结给定数据的关系并量化,实现最终脱离训练数据的自主决策,虽然还是在”模仿”给定的数据所代表的决策方法。

  9. wall-e
    @2 years ago
    3051982

    一天的话应该是自己跟自己下一百万局。。一百万局。。一百万局。。

  10. wall-e
    @2 years ago
    3051976

    @martixingwei:
    其实是有一些模仿棋谱的,问题是以前的方法连模仿都模仿不好。fb和google的两个ai共同有的两个部分是policy network和蒙特卡罗树搜索 (MCTS)。google的policy network是先用大量人类的棋谱进行监督学习,目的就是先快速学习人类在不同棋局下的走法,就是模仿。当然之后会用左右互博的方式用强化学习 (reinforcement learning) 训练,这个时候学习信号只是简单的最后的输赢,但是一天可以自己跟自己下上千盘,这一步就不全是模仿人了。google比fb多了一个value network,用来评估在任一局面下最终的胜算,纯用强化学习,学习信号来自用policy network给出的最推荐步骤把这一局下完得到的输赢结果,这个网络用来参与指导MCTS。

  11. 魔鬼筋肉王
    @2 years ago
    3051917

    哇 都是大神

[2] 1 »

发表评论


24H最赞