@ 2014.05.19 , 09:43

你下一秒干什么,算法都知道

[-]

计算机在某些领域的表现还不足以令人满意——例如人脸识别(不要听媒体乱吹)和找出巨大数的质因子(目前绝大多数加密方法的基础)。面对海量的可能性和多如洪水般的细微差别:计算机必须穷举出所有可能才能得到正确答案。但是不管让计算机辨认鼻子还是找数字,本质上都是处理和运作。对于分析人类的动作,计算机显得力不从心,在这方面目前还是人脑处理地更好。

面部识别和行为识别是安全领域和社交网络的重点研究课题。目前遍布许多城市的闭路摄像头网络都离不开人眼。不难想象全球各个安全机构有多么渴望随时监控每个摄像头。伦敦多么希望每个角落都有一台监控设备(甚至两台,甚至三台)。

在今年六月份即将召开的计算机视觉和图像识别大会上,来自麻省理工学院和加利福尼亚大学的研究人员将展示一种全新的运动识别算法,而这种算法将秒杀以前的人眼监控。算法基于自然语言处理算法,并且在某些关键领域可以击败现有的技术。

比如说,算法使用内存的方法比较智能(会占用大量虚拟内存),可以保持内存使用量恒定,使得观看/处理大型文件和流媒体视频成为可能。

处理流媒体本身就是巨大的技术进步,新算法甚至有能力处理没有完全完成的动作。比如说,某位仁兄在街上突然将手伸向其他人的外衣口袋,这个时候算法就能预测他接下来将完成的动作。某种意义上说,新算法可以预测未来。不过相比起预防犯罪,它的主要功能还是动作识别。

[-]

研究人员提出一种名为“行为语法”的奇怪设想,他们认为既然词汇可以按照一定的规则组成句子,那么相应的,动作也应该有相应的规则,也应该有子动作。

来自麻省理工学院的博士后研究生Hamed Pirsiavash认为最难的部分在于将动作进行分类,找出哪些是主语,哪些是动词,哪些又是副词。Pirsiavash说例如倒茶或做咖啡这种动作是由若干个子动作连接而成,他的工作就是将这些子动作拆解并分类。

算法具有机器学习机制,电脑程序会从输入数据设备中学习,经过一定时间的“训练”,程序便更加聪明。程序会一边观察含有不同动作的视频,一边对各个子动作进行扫描。

通过观察某个特定动作的起始部分,程序可以给出所有该动作结束时的可能性,按照可能性高低排列出来。当视频继续进行时,新加入的信息会排除某些动作的可能,(即便人的动作没有变化,本身也是一种新信息,因为时间也属于信息。)程序会重新排出可能动作的发生概率。一旦程序扫描到了某个重要动作,就能非常准确地预判接下来发生的动作。

本文译自 Vice,由译者 王大发财 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力 !
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (4)

24H最赞