@ 2017.05.30 , 22:30
23

好奇的AI通过探索游戏世界和犯错来学习

好奇的AI通过探索游戏世界和犯错来学习
credit: 123RF

我好奇我按下这个按钮会发生什么?拥有好奇心的算法正在教会自己探索并解决它们从未见过的问题。

面对超级马里奥的第一关,一个好奇心驱动的AI学会了如何探索地图,避开深坑,以及躲开并消灭敌人。这可能听起来不那么厉害——算法在电子游戏领域把人类虐爆已经好几年了——但这个AI的技能都是借助于它内建的对游戏世界的探索欲望而学会的。

传统的AI是通过正面强化学习的。它们在完成某种外界目标时会得到奖励,比如把游戏总分提高一分时。这鼓励它们做出能提高分数的行为——例如在超级马里奥中踩扁敌人——并阻碍它们做出不能提高分数的行为,例如掉进深坑。

这种方法叫做增强学习,它曾被用来创造 AlphaGo,来自谷歌 DeepMind 的在去年以四比一的成绩击败韩国围棋大师李世石的围棋AI。在经历数千盘真实与模拟的棋局的过程中,AlphaGo 学会了追求能带来终极奖励——胜利——的策略。

然而,在现实世界中并非到处都有奖励,领导了加州大学伯克利分校的这项研究Deepak Pathak 如是说道。“作为替代,人类拥有内禀的好奇心来帮助他们学习。” 他说。这或许能解释为什么我们不需要刻意学习就能轻松地掌握领域广泛的各种技能。

因此,Pathak 给他自己的增强学习算法加入了好奇心,并观察这是否足以让它学会许多技能。当 Pathak 的算法加深了它对周边环境的理解,特别是对那些能直接影响环境的因素的理解时,它便会获得奖励。所以,这个算法会因探索和掌握那些使它更加理解游戏世界的技能而获得奖励,而非在游戏世界中直接寻找奖励。

这种方法能加快学习并提高算法的效率,来自谷歌的AI公司 DeepMind 的 Max Jaderberg 说道。这家公司在去年用了一种类似的技巧去训练一个AI去探索一个虚拟迷宫。它的算法学习的速度比起传统的增强学习算法快了很多。“我们的AI学习时快得多,并且训练时需要少得多的来自环境的经验,这使得它在利用数据方面效率更高。” 他说道。

高效学习者

凭借着好奇心,Pathak 自己的AI学会了在超级马里奥中踩扁敌人并跳过深坑,还学会了在另一个类似 Doom 的游戏中探索遥远的房间和穿越走廊。它还能够在更后面的马里奥关卡中应用它新得到的技能,即使它从未见过这些关卡。

但是好奇心只能让这个算法在超级马里奥中达到一定水平。平均来说,它只探索了第一关的百分之三十,因为他没能找到越过只能用一段超过十五次操作的连击穿过的一系列深坑的途径。当AI到达这一地点时,它并不会信仰之跃跳向死亡,而是学会了转身停下。

这个AI如此困惑的原因,可能是它不知道在这个深坑之后还有关卡的另一部分,Pathak 如是说道。它没有学会持续地利用游戏中的捷径,因为这会让它的探索范围减小,从而无法满足它的探索欲望。

Pathak 如今在研究机械臂是否能通过好奇心学会抓取新物体。“比起让它随机地行动,你可以利用这种方法让它更有价值地活动。” 他说。他还打算研究一个类似的算法是否能用在像 Roomba 吸尘器这样的家用机器人上。

但 Jaderberg 并不确定这种算法已经准备好被正式使用了。“现在谈实际应用还为时尚早。” 他说。

论文地址:arXiv:1705.05363

本文译自 New Scientist,由译者 Zeno 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.5
赞一个 (11)

TOTAL COMMENTS: 23+1

  1. 3464609

    有没有懂行的 讲讲现阶段的AI是否可以成长为人脑的样子?

    [3] XX [12] 回复 [1]
  2. 磷脂双分子层
    @3 months ago
    3464611

    有无数的小说,电影,电视描绘了这么做的后果……人类药丸

    [20] XX [6] 回复 [0]
  3. 3464616

    人所以是人,是因为它有人的肉体,人的欲望之类。
    AI没有这些,而假如真制作人的肉体和人的欲望,AI还不如人可靠。

    [3] XX [10] 回复 [0]
  4. 3464618

    以后负责核电站运转的ai也犯个错试试

  5. 3464629

    蛤?你们做Q-Learning的时候难道没有随机尝试么?

  6. 下马的麻生希
    @3 months ago
    3464630

    居然实现了么

  7. 进击GPU
    @3 months ago
    3464633

    看到“这个算法由探索欲驱动,而非得分的欲望”这句话点进来,但我作为搞机器学习的人表示完全没有道理:
    首先引用一下原文的句子,“当 Pathak 的算法加深了它对周边环境的理解,特别是对那些能直接影响环境的因素的理解时,它便会获得奖励”。所以,这个算法还是由得分的欲望驱使不是嘛?
    然后指出论文的原句,‘In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life. We formulate curiosity as the error in an agent’s ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model’,‘exploration with no extrinsic reward, where curiosity pushes the agent to explore more efficiently’,所以只是把外部的奖励换成了内部的,而并不是没有奖励。

    ======================================
    我所了解到的机器学习算法,就没有跳出这个框架的。所有的算法都是对外界的观测进行分析,然后得到分析结果,然后对结果的准确性进行评估,并且最小化评估和真实结果的差异,这个函数叫做loss function。所有的算法的目的都是最小化/最大化loss function。这个词没有维基的标准译名,故不做翻译。

    [19] XX [1] 回复 [0]
  8. 进击GPU
    @3 months ago
    3464635

    举个最简单的监督学习例子,苹果桃子分类。一个算法先读入每个水果的参数,比如说大小/圆度/香气/颜色,然后做出猜测“这个玩意到底是苹果还是桃子”,然后跟真实值比较,尽可能多猜对,最后对自己的参数进行调整。如果一开始只是根据大小判断苹果还是桃子,很可能会有大量猜错,loss function就很高;如果加入了颜色参数,准确率就会突然提高,那么算法本身就会更注重香气这个参数的变化。

    总结一下,机器学习的算法,本质是更加精确地判断物体的未知属性(包括聚类算法,也是找到事物内部的关系),而评估是否精确的方法,就是loss function。

    如果没有loss function,算法就会迷惑,不知道到底要干嘛。把你扔到一个空无一物的大屋子,你也会困惑的,因为没有任何的反馈告诉你该做什么,不该做什么。

    人类的行为又何尝不是呢?好奇心从进化的角度来讲,难道不是一种驱使我们的祖先探索更多的世界,以便获取更多的资源的动力嘛?好奇心的满足,本身也是一种得分的欲望啊。(当然这一点没有定论)

    [20] XX [2] 回复 [0]
  9. dadamon
    @3 months ago
    3464641

    以后玩游戏来个这个AI智能就爽爆了- =

  10. 高频交易
    @3 months ago
    3464685

    @进击GPU:

    各种神经网络丢在一起,按照进化论的原理,自行演化啊。

  11. 学习价值观
    @3 months ago
    3464687

    等al自己判断制定算法标准的时候就刺激了

  12. 非驴非马
    @3 months ago
    3464707

    听说有个个人创建的Ai在gta里学开车,并在Twitch直播,很火的样子。

  13. 3464708

    @进击GPU: 我翻这篇新闻的时候也有类似的疑惑,因为增强学习中exploration和exploitation的对立已经路人皆知了,一般的算法里也已经包含了探索环境的成分了。这个论文应该就是采用了一个把对环境了解程度作为直接变量的奖励函数,这和一般用的只包含环境中人为设定的奖励、把重心放在exploitation上的算法还是有区别的。文中的奖励指的是狭义的人为设定的奖励,并非算法的奖励函数,没了奖励函数增强学习还怎么搞啊是不是。直接把对环境理解程度当做奖励的一部分还是比较新颖的。嗯,机器学习我只是业余,水平低请见谅。

  14. 鸡腿煲
    @3 months ago
    3464726

    @进击GPU: genetic algorithms? http://rednuht.org/genetic_cars_2/

  15. 3464764

    @高频交易: 现实自然中的“进化论”或者说“演化论”其实就是自然环境对每个种群产生的后代数量、每个基因传递下去的数量进行评分,这评分就是loss function,分高自然就会越来越多

  16. 新框围观者
    @3 months ago
    3464815

    什么?避开深坑,你还好意思说自己有探索的欲望

  17. 二代鸟lx
    @3 months ago
    3464842

    总感觉我们这代人将来就是反抗军的中坚力量。

  18. 3464919

    哎 按一下核按钮 有什么后果?

  19. 3464939

    犯错学习人和动物都会,比如婴儿会尝着吃各种身边的东西,倒不如说这展现出ai学习模式与生物相近。但是目标的设定和规则很重要,高级生物的本能是不要死且活的开心,吃了有毒的东西会很痛苦因此以后会避免,吃了新鲜的肉很开心,但是不能轻易的同类相食,更高级的生物甚至食物也有归属不可轻易互相抢夺。
    总有人担心ai会统治世界消灭人类,我觉得这是赛博朋克看多了,好比铁器,本身是工具,坚固耐用冲击了原始石器人民的世界观,“这是恶魔的物质!一定会有人用它杀死部落所有人!”。
    ai的目的肯定不会是自己设定的,要么是人类邪恶的个体自己搞得,要么设定有误,但是别忘了ai是人造的,就算真的有人搞坏,升级补丁,改正错误就好了,更何况ai不是一个整体,门禁访客识别ai和汽车故障诊断ai肯定不是一个个体。

  20. 3465369

    看到好多同行,哈哈

  21. CodeXSK
    @3 months ago
    3465429

    我觉得更可怕的是ai会去想要提升自己..

  22. 3465591

    好奇心害死猫

  23. 上善若水JR
    @3 months ago
    3469479

    AI被创造的过程是这样的:我们想到一个目的(比如说为了探究人类的学习方式),我们创造了为了达成这个目的的AI(比如说AG)。不是我们创造了一个意识,然后教它达成我们的目的。FML

发表评论


24H最赞