谷歌黑科技：毫无违和感的虚拟人声

[-]

相比大家都用过谷歌翻译自带的发音，机器人僵硬的语调和不自然的断句听起来总给人毛骨悚然的感觉。

我们离《银河系漫游指南》和《月球》里模仿人类声音惟妙惟肖的机器人尚有很长一段距离，目前还没人能造出一台说话能够以假乱真的电脑来。

但是，谷歌DeepMind团队已经为我们带来一款极具竞争力的产品。他们近日宣布了一款由深度神经人工智能做后盾的全新语音合成系统：WaveNet。

虽然谷歌语音搜索这样的语音识别系统已经存在很久了，但是将这些语音样本毫无违和感地合成出来确实相当大的挑战。

目前最主流的方法就是连接型TTS(text-to-speech，文本转语音)。它是将提前录好的音频结合起来。

这种方法的主要缺点就是这些音频一旦连起来，就会形成「机器人声音」。另外一种方法是参数型TTS，它是通过声音合成器产生语音的，听起来更加不自然。

谷歌的WaveNet则使用了完全不同的方法。

[-]

这套系统不是机械的分析输入的音频，而是「倾听」它们，就像其他深度神经系统那样。WaveNet每秒可以处理16000分声音样本，从而可以制造它自己的原始音频样本。

这一过程不需要什么人工干预，它用统计数据自行预测需要哪些音频，以及要说什么。

[-]

那么它听起来到底是什么样呢？在官宣的帖子里有一些语音样本，分别是英语和汉语普通话，大家可以戳这里感受一下(页面里往下翻就看到了，无需翻墙，反正小编是惊到了，太特么像人类了)。建议大家可以先听一下前两种TTS合成的音频，再听下面的WaveNet音频，高下立判。

这套系统同样可以合成自己的音乐，因为它能够分析一切声音模式，而不仅仅是说话。此外，最炫酷的就是它还可以在没有输入的情况下自行合成语音。而TTS需要输入作为指示，WaveNet就算没有指示也能创造语音。

当然，这样出来的话基本都胡咧咧，但是却能听到自然的嘴部动作声音和呼吸声。

看来我们真的即将迎来完美虚拟人声的时代了。

本文译自 sciencealert，由许叔编辑发布。

赞一个 (32)

煎蛋