“世上本无默片”——通过图像还原声音的神奇技术！

[-]

#对不住大家，貌似又撞车了，大家就先看看视频吧... :(

在我们周围的视觉世界中，即使听不见声音也包含着声音信息。就在我们看向一张场景再普通不过的照片时——忙碌的地铁站，或是喧哗的咖啡馆——我们能大概想象出那样的环境中的声音，算法也可以，只是精度更高。多亏了分别来自美国天主教大学和麻省理工学院的工程团队，这样的算法已经存在了！

他们的研究成果，简言之就是一种“简单快速的光学技术”，这种光学技术可以从高速的无声影像中提取声音信息。来自美国天主教大学的研究团队解释说：“它的基本原理就是，在声波传播的方向里，如果有障碍物，声波会引起障碍物振动”，该团队由研究员 Zhaoyang Wang 领头。“虽然物体的振幅通常小到肉眼不可见，但通过图像匹配程序还是能看出振幅。”

振幅的信息是通过图像对比物体相对位置后收集到的。一些韧性较强的材料，比如纸张，声音的还原度就更高，因为基本上这些材料的振动和声波是直接相关的，这样最原始的声音信息就能最大程度被还原。

不过算法仍然有一些限制，比如环境噪音。Wang 说：“算法的精度很高，能轻易识别到亚微米级(sub-micron-scale)和纳米级的振动，所以来自目标生源以外的生源会对结果产生影响。虽然大多环境噪音很容易被分离，但还是一些无法被分辨。长距离间空气密度的变化也会对采集到的图像产生影响，并让运算结果产生错误。”

他们希望这项技术日后能被运用于侦测和还原视频信息中的声音，例如监控视频中二人的对话等。

今年8月，麻省理工学院的一个研究团队取得了类似的成果，虽然根据 Wang 的说法，MIT 的还原算法精度没有他们的高，不过根据下面的视频看，也是十分厉害——研究人员通过一杯水或是铝箔纸等材料还原出了当时的环境音。

下面的视频中包含该研究团队所做的实验，第一个实验中，画面左侧为所拍摄的高速影响，右边则是根据叶片振动还原出的音频；第二个实验就牛逼了：他们根据地上的一个薯片袋就还原了房间里所发生的对话(“玛丽有只小绵羊...”)——为了让实验更具挑战性，他们甚至将摄像机放在了房间以外，影响是透过窗口所拍摄到的！

[YouTube/Youku]

MIT 的研究员 Abe Davis 对这种技术的设想可比天主教大学“用作刑事调查”的主义要大得多：“我们可是在通过物体来还原声音。这项技术的运用可以为我们提供一样物体的多种信息，比如物体周围的声音是什么样的——同时，不同的物体被声波影响的程度也不同，还原出的声音也会不一样”。所以它不仅仅只是从画面中找出隐藏的声音信息，它还能提供完整的环境情况。

[keep_beating via Motherboard]