@ 2014.08.28 , 16:58
47

MIT研究人员用薯片包装袋还原声音

[-]

“我检查了两遍,音频文件并没有放错。”

当Abe Davis从一段无声视频中的蟹味薯片包装袋套出了一段清晰的对话音频,他简直不敢相信这一切。Davis 是麻省理工学院的一名博士研究生,他的研究团队开发的图形处理算法可以将任何常见物体变成可视麦克风——通过捕捉物体的微小振动还原音频。

定于下周举办的SIGGRAPH 2014计算机绘图大会上会展示这一研究成果,研究团队是麻省理工学院的计算机科学和人工智能实验室,他们能捕捉视频中远远小于1像素点的震动,从而还原出物体所在环境的声音。团队的算法以物体边界像素的色彩波动为基础,测量并计算出物体的细微运动(甚至可以放大葡萄酒瓶的震动,还原人的对话;或者通过观察人判断出皮肤下的心跳速度)

“很快我们就清楚意识到声音和可观测运动之间有很强的联系,”微软研究院的博士后,参与过该研究和早期CSAIL研究的Michael Rubinstein说,“我们想出一个疯狂的点子:能不能用视频还原声音?”

他们还原的第一段声音来自一袋蟹味薯片包装袋。

Davis说之前的声音还原方法需要的材料很多。这种方法通过向震动物体发射激光,测量出光散射或相位变化,研究人员就能从细微的数据中还原出当时的声音。

研究团队发现有许多因素会影响声音捕捉,比如低频音比高频音更容易捕捉,因为高拼音需要更高的视频帧率,而物体动作越小,需要捕捉到这些小动作就需要更大的放大倍率。普通数码相机记录的低帧视频记录信息过少,难以还原。不过由于某些数码相机采用滚动快门(也叫果冻效应)技术处理输入信息,视频高于原始帧率也是有可能的,这样就能收集到足够还原能够辨认声音的信息。

关于测试道具,Rubinstein说:“我们在思考什么样的物体才是最佳的材料。结果得出最好的物体是纸袋、薯片袋和铝箔这种非常轻又有一定刚性的材料。”团队测试了很多种材料,他们发现砖块的效果最差。

Davis 说很多人一听到这项技术马上联想到间谍活动,但是他认为最重要的应用领域还有待人们去思考。

本文译自 Ieee,由译者 王大发财 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (1)

TOTAL COMMENTS: 47+1

  1. 闽c半掉杰
    @3 years ago
    2525468

    用套套可以还原声音吗?

    [123] XX [6] 回复 [0]
  2. 五文
    @3 years ago
    2525469

    这么说以后可以带着耳机看妹子图了。。

    [87] XX [2] 回复 [0]
  3. 大卵野人
    @3 years ago
    2525470

    其实我看AV早就可以关掉声音看了

    [49] XX [3] 回复 [0]
  4. 大裸体
    @3 years ago
    2525471

    以后不能吃薯片了

  5. 搅翔棍棍
    @3 years ago
    2525473

    为什么我第一个想还原的声音震动棒….

  6. ayi100
    @3 years ago
    2525477

    视频文件的分辨率得多大啊。

  7. 零下伊度
    @3 years ago
    2525478

    想识别一个人声最低的采样率也要8000Hz,这意味着1秒钟要有8000次采样。视频录制频率能有多少?每秒60帧?120帧? 这意味着间谍设备要能每秒至少录制8000帧的超高速录像机还得高清才有可能还原声音。不太现实。

    [50] XX [59] 回复 [0]
  8. 我叫氕氘氚
    @3 years ago
    2525481

    我居然在百度知道里看到了煎蛋!!!!

  9. 我爱喝酷儿
    @3 years ago
    2525485

    @零下伊度: 现阶段肯定不是民用阶段,但不可否认这项技术的前景,指不定以后手机可以高速拍摄。

  10. 2525487

    我能说我第一个想到的也是间谍活动吗,这项技术势必发展出一个更加高超的棱镜门事件

  11. rosses
    @3 years ago
    2525488

    间谍早就用上了呢

  12. 2525491

    《鹰眼》

    [26] XX [0] 回复 [0]
  13. 黑黑黑先生
    @3 years ago
    2525492

    就是高阶读唇术吧..

  14. rosses
    @3 years ago
    2525493

    参考激光窃听器,只要有窗户就能用

  15. 淋淋仔
    @3 years ago
    2525506

    蟹味薯片好吃吗

    [10] XX [0] 回复 [0]
  16. fsdffff
    @3 years ago
    2525510

    这不是飞出个未来里博士的那个望远镜吗

  17. 关羽
    @3 years ago
    2525513

    @零下伊度: 人家都做出来了你还说不现实?不知道你这种人是怎么想的。

    [56] XX [6] 回复 [0]
  18. 2525522

    前些天在cctv6看了个美国电影,AI通过咖啡杯里的咖啡震动来分析旁边对话者的谈话内容,还以为是装比技术,居然是现实。

    [13] XX [0] 回复 [0]
  19. 2525530

    这项技术苏联人冷战的时候就用在美国人身上了…. 具体可搜 金唇行动

  20. 2525533

    //ww2.sinaimg.cn/mw600/4068a1eegw1ejshvo3cohj20go09djsl.jpg(鹰眼,2008)可以感受下

  21. 2525534

    @gavin: 我也首先想到这个电影。。。然后游戏细胞分裂3也有用到。

  22. Snokye
    @3 years ago
    2525535

    那首先得整个超高速摄像机吧?

  23. 零下伊度
    @3 years ago
    2525555

    @关羽: 实验室做出来和实用性还差很远,实验室也可以做子弹摄影,每秒8000次的高速摄像机。 我觉得他这文章是不是翻译有误,应该重点不是视频里来获取震动还原声音,更主要应该是用激光器来采样薯片袋子的震动。这个比用视频录实用价值更高吧。文章的误导就在让大家以为随便一篇无声视频就能还原声音,这绝对不可能。

    [17] XX [7] 回复 [0]
  24. Edmundlyy
    @3 years ago
    2525561

    早就听说情报机关有一种设备,利用激光测量薄墙或者玻璃窗上的震动来还原屋内人的谈话。这个还是需要专门设备和人员的窃听技术,要是本文介绍的成果实用化了,那任何组织和个人都可以几乎零成本的监控所有人的谈话,太可怕了。

  25. 新手段
    @3 years ago
    2525585

    千里之外交配的新手段

  26. 2525687

    几十年前俄罗斯克格勃以及一些俄国黑社会就用激光照在玻璃上,远距离窃听房间内的谈话了,这根本不是什么新技术,只不过用改进的算法应该可以提高还原度而已,仅此而已。

  27. 2525690

    激光窃听百度一搜都一大把资料,煎蛋的小学生们,你们连百度都不会用么?

  28. 2525691

    煎蛋的水平似乎真的要比百度知道低一等。

    [0] XX [10] 回复 [0]
  29. 2525694

    远距离窃听,这个不是神马新鲜发明了

  30. winter
    @3 years ago
    2525705

    以后见卧底禁吃薯片

  31. 七月的烟火
    @3 years ago
    2525715

    @零下伊度: 仔细看看文章倒数第三段,有提到你说的帧率问题。另外,如果只是需要还原出人说的话(不考虑声音质量,只求能听懂内容),那么并不需要8k的采样,2k足矣。

  32. shinya
    @3 years ago
    2525722

    我记得《霹雳游侠2008》的某集, 就提到过用这个方式提取音频寻找线索

  33. 七月的烟火
    @3 years ago
    2525732

    其实说到采样频率的问题,我觉得可以这样理解:文中提到的滚动快门,其实可以采取跟CRT显像管显示原理类似的方式去理解,就是说从宏观上看假设视频是60帧每秒,那么实际上由于采用的是类似CRT逐行扫描的“滚动快门”处理方式,假设视频清晰度为480线(每帧有480行像素),那么这时的“行频”=帧率60Hz×480线=28.8kHz。这样的采样率用来还原人的对话绝对是绰绰有余的。当然,实际上由于每一行像素所记录的都不是目标物体的同一位置,对于目标物体震动的分析必须考虑到这一点,所以文章中才会说“最好的物体是纸袋、薯片袋和铝箔这种非常轻又有一定刚性的材料。”因为这些材料容易被声波影响而产生整体的震动,这样更便于从不同的像素行提取同样的震动采样信息。才疏学浅,欢迎指正。

    [29] XX [3] 回复 [0]
  34. 闷声作死
    @3 years ago
    2525736

    我发现用风扇可以还原风扇的声音。

  35. gundam
    @3 years ago
    2525753

    @零下伊度 你的担心很对:摄像机采样率4khz,分辨率400 × 480 http://people.csail.mit.edu/mrub/VisualMic/

  36. gundam
    @3 years ago
    2525774

    @零下伊度 刚又看了一下视频,此人用60fps的单反拍视频,还原出了300Hz的音乐,能听出调调但音质挺差。

  37. 2525881

    内行看门道外行看热闹,发言果然暴露出各个id 的理科知识水平。

  38. 2525905

    Person of interest最大的BUG解决了!

  39. 人为嘛不能飞
    @3 years ago
    2525910

    以后在谈话时是不是要找个大音响放HIGH歌

  40. 黑夜里的网子
    @3 years ago
    2525954

    @七月的烟火: 那个是全屏的吧,没有可比性吧。

  41. kim哥
    @3 years ago
    2526191

    恐怖!

  42. 2526389

    @王大发财 :
    “不过由于某些数码相机采用滚动快门(也叫果冻效应)技术”
    滚动快门和果冻效应不是一回事,原文里也没有提到果冻效应,滚动快门是一种平衡底片每行曝光量的快门结构,果冻效应是滚动快门的一个副作用,是在成像的照片上看到的一种现象而不是实体结构。

  43. 追马
    @3 years ago
    2526510

    路人以目

  44. 2526565

    以后做间谍就容易多了,扔一包薯片过去就完成任务

  45. 的身份
    @3 years ago
    2526652

    @我爱喝酷儿:

    说明了这人脑子有问题

  46. 2526692

    之前看一个DIY网址上就有人用激光灯照别人家玻璃,然后偷听别人家看电视的声音。

  47. 3095405

    http://www.geekfans.com/article-2719-1.html
    还在那讨论摄像帧数。。。不知道用激光啊

发表评论


24H最赞