@ 2016.09.14 , 14:00

MIT黑科技:通过静止照片「脑补」场景

当你看到一张里面有活动的照片时,比如一个在半空中的球或者一辆行驶在沙漠中部高速公路上的汽车,你的大脑会自动填补空白。即,你会毫不费力地知道这个球将落到地面或者这辆车将继续朝着它目前所在的方向行驶。但对于一个机器而言,预测下一步发生的事情非常困难。事实上,许多人工智能领域的专家认为这是制造思考机器中缺失的拼图之一。同我们如今被动的计算机器不同,真正会思考机器在许多方面和我们毫无差别。

MIT的研究人员们研发出一种新颖的算法,它能够利用静止的照片制作视频。

研究人员们写道:“这种方法背后的基本原理是让两种深度网络同彼此竞争。一种网络(发生器)试图产生合成视频,而另外一种网络(鉴别者)则试图区分合成视频与真正视频。发生器需要接受训练,以便愚弄鉴别者。”

[-]

这种神经网络由人造神经网络构成,研究人员们利用从Flickr上下载的两百万部视频对它们进行训练,这些视频分为四种场景:高尔夫、海滩、火车和婴儿。根据神经网络从这些视频中学到的东西,机器能够通过增加自行生成的视频(基本是在预测接下来发生的事情)来补完静止图片。这个机器也能够生成模仿静止图片场景的新视频。

[-]

这一壮举非常了不起。毕竟,这些均由一个机器产生。然而这并不能说神经网络的极限没有体现出来。MIT的研究人员们自己发现了以下四种限制:

新产生的视频与真正的视频相差很大。它们的分辨率也很低:在32帧中分辨率为64×64。

评估新生成的模型非常困难。我们通常利用心理物理学中的2AFC测试来检验土耳其机器人,询问工人们“哪一个视频更加仿真?”我们认为这样的评估可行,但这个社区先行选定强健的自动评价指标才是重中之重。

为了生成更好的视频,我们会根据场景分类过滤视频,并为每一种类别训练处独立的模型。在头几个视频中,我们采用了PlacesCNN来进行场景分类。

未来的推测并不总是与第一帧画面匹配良好,当阻碍太强的时候就会出现这种问题。

搭配着其它技术,比如MIT某个实验室研发的另外一款能预测是否会出现拥抱和击掌的机器,预测出来的动作似乎也十分精细。

本文译自 Zmescience,由译者 肌肉桃 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力 !
支付宝打赏 [x]
您的大名: 打赏金额:

4.2
赞一个 (5)

24H最赞