@ 2016.09.14 , 14:00
23

MIT黑科技:通过静止照片「脑补」场景

当你看到一张里面有活动的照片时,比如一个在半空中的球或者一辆行驶在沙漠中部高速公路上的汽车,你的大脑会自动填补空白。即,你会毫不费力地知道这个球将落到地面或者这辆车将继续朝着它目前所在的方向行驶。但对于一个机器而言,预测下一步发生的事情非常困难。事实上,许多人工智能领域的专家认为这是制造思考机器中缺失的拼图之一。同我们如今被动的计算机器不同,真正会思考机器在许多方面和我们毫无差别。

MIT的研究人员们研发出一种新颖的算法,它能够利用静止的照片制作视频。

研究人员们写道:“这种方法背后的基本原理是让两种深度网络同彼此竞争。一种网络(发生器)试图产生合成视频,而另外一种网络(鉴别者)则试图区分合成视频与真正视频。发生器需要接受训练,以便愚弄鉴别者。”

[-]

这种神经网络由人造神经网络构成,研究人员们利用从Flickr上下载的两百万部视频对它们进行训练,这些视频分为四种场景:高尔夫、海滩、火车和婴儿。根据神经网络从这些视频中学到的东西,机器能够通过增加自行生成的视频(基本是在预测接下来发生的事情)来补完静止图片。这个机器也能够生成模仿静止图片场景的新视频。

[-]

这一壮举非常了不起。毕竟,这些均由一个机器产生。然而这并不能说神经网络的极限没有体现出来。MIT的研究人员们自己发现了以下四种限制:

新产生的视频与真正的视频相差很大。它们的分辨率也很低:在32帧中分辨率为64×64。

评估新生成的模型非常困难。我们通常利用心理物理学中的2AFC测试来检验土耳其机器人,询问工人们“哪一个视频更加仿真?”我们认为这样的评估可行,但这个社区先行选定强健的自动评价指标才是重中之重。

为了生成更好的视频,我们会根据场景分类过滤视频,并为每一种类别训练处独立的模型。在头几个视频中,我们采用了PlacesCNN来进行场景分类。

未来的推测并不总是与第一帧画面匹配良好,当阻碍太强的时候就会出现这种问题。

搭配着其它技术,比如MIT某个实验室研发的另外一款能预测是否会出现拥抱和击掌的机器,预测出来的动作似乎也十分精细。

本文译自 Zmescience,由译者 肌肉桃 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.2
赞一个 (5)

TOTAL COMMENTS: 23+1

  1. 大卵野人
    @1 year ago
    3256611

    好兴奋 输入一张AV封面 就可以看整个AV了吗

    [165] XX [0] 回复 [0]
  2. 雨雨
    @1 year ago
    3256612

    通过 妹子图 and 无聊图 脑补宇宙

    [15] XX [0] 回复 [0]
  3. 神的波纹
    @1 year ago
    3256618

    baby那个是恐怖片啊

    [32] XX [0] 回复 [0]
  4. 3256620

    @大卵野人: 我喜欢你这个思路

  5. 傻蛋
    @1 year ago
    3256624

    当看到那个“golf”标签我确实脑补出了某个人和场景。

  6. 弯仔
    @1 year ago
    3256634

    看到煎蛋就知道又要搞基了

  7. 琪露诺
    @1 year ago
    3256636

    @大卵野人: 还会自动补上澳门某赌场的水印

    [31] XX [0] 回复 [0]
  8. bestwood
    @1 year ago
    3256641

    @神的波纹: 火车那些也好灵异啊

  9. sandersyao
    @1 year ago
    3256645

    @大卵野人: 结果可能是《葫芦娃》真人版

  10. 3256698

    未来动画从业者或失业,AI可直接由漫画脑补出动画。

  11. 山神
    @1 year ago
    3256716

    baby第二张

  12. 3256739

    @大卵野人: 要这么说,放一部片,电视机里岂不能钻出几个大姐姐?

  13. 就是要射
    @1 year ago
    3256774

    看评论觉得思想好脏

  14. 绅士
    @1 year ago
    3256798

    精神污染

  15. 朝鲜央行行长
    @1 year ago
    3256845

    算法有用,但是现在的成果是除了写论文就没什么用了

  16. 水能载舟
    @1 year ago
    3256884

    那么我输入golf,它怎么知道我指的是一项运动还是一辆车呢?

  17. 郑郑郑郑
    @1 year ago
    3257012

    @大卵野人: 什么意思

  18. 普利奈尔
    @1 year ago
    3257158

    这个科技选项是红色的,属于危险科技。

  19. (#゚Д゚)
    @1 year ago
    3257239

    研究人員從coat購入了大量視頻以訓練他們

  20. 哼哼哈嘿
    @1 year ago
    3257302

    对抗神经网络不是Lecunn首先提出的么。。还是这家伙去MIT了?

  21. 艾铁
    @1 year ago
    3258179

    突然想起多啦A梦的一个道具,在一幅画上喷个药水,这幅画就变成接下来的剧情了

  22. 火星网友
    @1 year ago
    3258435

    @普利奈尔: 同意,这太人类了

发表评论


24H最赞