百度刷新了语音克隆技术的记录

百度刷新了语音克隆技术的记录
图片为百度语音服务界面

最近，“中国的谷歌”*百度发布了一份AI白皮书，展示了其在人工智能领域的最新成果：借助神经网络技术，他们的AI可以在输入仅仅一秒钟时长的声音片段后，就模仿出说话者的声音。

该软件不仅可以模拟输入语音，还可以改变原有的风格、变换性别身份、附加不同的口音。

可以在此处GitHub收听生成的示例。

之前几次技术迭代升级中，该系统能够通过对较长的语音材料进行分析，实现声音复制。 2017年，百度Deep Voice研究团队开发出了可以用30分钟的输入材料，来实现声音克隆的技术。

Adobe旗下有一款名为VoCo的程序，它可以在听取一段20分钟音频后，复现出带有音源的特征的声音；而加拿大的一家名为Lyrebird的创业公司可以只用一分钟的音频输入克隆出一个声音。

现在，百度进一步将用作培训材料的原声音频时长缩短为几秒钟。

好吧，整个过程看起来似乎是90年代流行的技术竞赛和革新升级方式，不过想想那个年代里有名的电影《小鬼当家》或《尖声惊叫》，我们可以为这项技术想出一些很有价值的应用方向。

比如说，当你把孩子独自留在家中的时候，你的孩子可以用你的声音和屋外的人交谈，来打消暗处可能存在的不良窥伺；或者为丧失语言能力的人重建他们的声音斯蒂芬霍金。

这项技术也可用来个性化我们智能设备上的数字助理比如苹果siri和提供更自然的语音翻译服务。

但是，与许多技术一样，语音克隆技术也存在被滥用的风险。

《新科学家》报道说，该程序产生的克隆语音，足以骗过智能设备上的语音识别系统，实际上通过率达到95％以上。

对人类进行的测试就像柯南中的蝴蝶变声器，看看受测者是否能发现，对方是通过克隆软件模拟自己熟人的声音。结果受骗率高达4分之3.16。这就暗示了该款软件被用于欺诈的可能性。

去年，AI就已经能成功地替换或改变——甚至无中生有——视频中个人的面貌。目前，互联网上的大部分相关应用只是通过将尼古拉斯凯奇插入指环王系列来制造欢笑。

但现在再加上能够克隆声音的技术，我们很快就会受到更多“假新闻”的侵扰。眼见耳听不一定为实，以后我们可能会看到一段极其真实的虚假视频，真实世界的政客们在其中做出说出了非同寻常的事情。

仅仅使用文字或Photoshop来愚弄大众已经被证明并不需要多高的技术含量；如果这些更先进的技术落到错误的手里，人类社会的麻烦会变得更多。

本文译自 sciencealert，由 majer 编辑发布。

赞一个 (10)

煎蛋