MIT研究人员用薯片包装袋还原声音

[-]

“我检查了两遍，音频文件并没有放错。”

当Abe Davis从一段无声视频中的蟹味薯片包装袋套出了一段清晰的对话音频，他简直不敢相信这一切。Davis 是麻省理工学院的一名博士研究生，他的研究团队开发的图形处理算法可以将任何常见物体变成可视麦克风——通过捕捉物体的微小振动还原音频。

定于下周举办的SIGGRAPH 2014计算机绘图大会上会展示这一研究成果，研究团队是麻省理工学院的计算机科学和人工智能实验室，他们能捕捉视频中远远小于1像素点的震动，从而还原出物体所在环境的声音。团队的算法以物体边界像素的色彩波动为基础，测量并计算出物体的细微运动(甚至可以放大葡萄酒瓶的震动，还原人的对话；或者通过观察人判断出皮肤下的心跳速度)

“很快我们就清楚意识到声音和可观测运动之间有很强的联系，”微软研究院的博士后，参与过该研究和早期CSAIL研究的Michael Rubinstein说，“我们想出一个疯狂的点子：能不能用视频还原声音？”

他们还原的第一段声音来自一袋蟹味薯片包装袋。

Davis说之前的声音还原方法需要的材料很多。这种方法通过向震动物体发射激光，测量出光散射或相位变化，研究人员就能从细微的数据中还原出当时的声音。

研究团队发现有许多因素会影响声音捕捉,比如低频音比高频音更容易捕捉，因为高拼音需要更高的视频帧率，而物体动作越小，需要捕捉到这些小动作就需要更大的放大倍率。普通数码相机记录的低帧视频记录信息过少，难以还原。不过由于某些数码相机采用滚动快门(也叫果冻效应)技术处理输入信息，视频高于原始帧率也是有可能的，这样就能收集到足够还原能够辨认声音的信息。

关于测试道具，Rubinstein说：“我们在思考什么样的物体才是最佳的材料。结果得出最好的物体是纸袋、薯片袋和铝箔这种非常轻又有一定刚性的材料。”团队测试了很多种材料，他们发现砖块的效果最差。

Davis 说很多人一听到这项技术马上联想到间谍活动，但是他认为最重要的应用领域还有待人们去思考。

本文译自 Ieee，由王大发财编辑发布。