@ 2016.09.12 , 17:07
46

谷歌黑科技:毫无违和感的虚拟人声

[-]

相比大家都用过谷歌翻译自带的发音,机器人僵硬的语调和不自然的断句听起来总给人毛骨悚然的感觉。

我们离《银河系漫游指南》和《月球》里模仿人类声音惟妙惟肖的机器人尚有很长一段距离,目前还没人能造出一台说话能够以假乱真的电脑来。

但是,谷歌DeepMind团队已经为我们带来一款极具竞争力的产品。他们近日宣布了一款由深度神经人工智能做后盾的全新语音合成系统:WaveNet。

虽然谷歌语音搜索这样的语音识别系统已经存在很久了,但是将这些语音样本毫无违和感地合成出来确实相当大的挑战。

目前最主流的方法就是连接型TTS(text-to-speech,文本转语音)。它是将提前录好的音频结合起来。

这种方法的主要缺点就是这些音频一旦连起来,就会形成「机器人声音」。另外一种方法是参数型TTS,它是通过声音合成器产生语音的,听起来更加不自然。

谷歌的WaveNet则使用了完全不同的方法。

[-]

这套系统不是机械的分析输入的音频,而是「倾听」它们,就像其他深度神经系统那样。WaveNet每秒可以处理16000分声音样本,从而可以制造它自己的原始音频样本。

这一过程不需要什么人工干预,它用统计数据自行预测需要哪些音频,以及要说什么。

[-]

那么它听起来到底是什么样呢?在官宣的帖子里有一些语音样本,分别是英语和汉语普通话,大家可以戳这里感受一下(页面里往下翻就看到了,无需翻墙,反正小编是惊到了,太特么像人类了)。建议大家可以先听一下前两种TTS合成的音频,再听下面的WaveNet音频,高下立判。

这套系统同样可以合成自己的音乐,因为它能够分析一切声音模式,而不仅仅是说话。此外,最炫酷的就是它还可以在没有输入的情况下自行合成语音。而TTS需要输入作为指示,WaveNet就算没有指示也能创造语音。

当然,这样出来的话基本都胡咧咧,但是却能听到自然的嘴部动作声音和呼吸声。

看来我们真的即将迎来完美虚拟人声的时代了。

本文译自 sciencealert,由译者 许叔 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.7
赞一个 (31)

TOTAL COMMENTS: 46+1

  1. latiney
    @2 years ago
    3254872

    百毒马上变个名字推出所谓自主知识产权的中文版。lol

  2. 呼呼
    @2 years ago
    3254875

    可能是我英语差,所以感觉英语很像真人,汉语以前好一点但还是比较机械

  3. 3254878

    感觉收购deepmind真是明智

  4. 赫鲁
    @2 years ago
    3254879

    Vocaloid迎来最强对手?

  5. 3254881

    语气的顿挫还是差强人意,可能这个需要分析句子本身的含义。

  6. 3254882

    <>里面斯佳丽的声音让我觉得就算跟这么个AI谈恋爱也没啥不可的…

  7. 3254883

    Miku,Siri,Cortana 等人表示很赞
    死宅们表示被腰带扣砸到了脚

  8. bbciused
    @2 years ago
    3254884

    如果国内搞得出这个,那应该就是讯飞了

  9. 3254886

    我研究生正在做这个课题。

  10. 3254888

    中文还不是很流利,不过比之前的谷歌娘说的好听多了

  11. Vanessa
    @2 years ago
    3254903

    …洛天依 乐正绫 什么的

  12. 水能载舟
    @2 years ago
    3254905

    你们认为这像真人,难道不是你们没怎么听过真妹子说话么。

  13. 天降二哈
    @2 years ago
    3254906

    跑去听了一下 中文感觉还不够 不过英文相似度已经令人惊艳了

  14. 大菠萝
    @2 years ago
    3254907

    会不会出朝鲜阿婆主持人的声音呢!抑!!扬!!顿!!挫!!

  15. 3254909

    我觉得已经好棒了!

  16. 老司机
    @2 years ago
    3254911

    科技美学的100秒妹子不用来上班了,用这个吧

  17. lbSeevdo
    @2 years ago
    3254936

    又是deepmind,什么时候派去参加即兴歌唱比赛,让人类的能力再难堪一次⊙﹏⊙

  18. 3254942

    感觉像英语听力题……

  19. 3254950

    希望以后可以用来给国外的影视剧配音!

  20. 路人X
    @2 years ago
    3254951

    听了下,好多了。不太机器人了

  21. 3254952

    机器人会变得更像人,太好了

  22. 枭耀
    @2 years ago
    3254960

    这么强烈的既视感是肿么一回事…

  23. 3254967

    只能说。。。很叼。。。。。

  24. 心正
    @2 years ago
    3254986

    就看百度跟腾讯那个先仿出来了

  25. LoserAngel
    @2 years ago
    3254988

    仔细的听了,感觉英语的区别不大,而中文自然了很多,但是还是能感觉到这是机器人的,我考虑过如果不告诉我这个不是机器人的话我会不会先入为主,然后感觉可能真的不会觉得是机器人说的。

    感觉到这个程度已经相当不错了啊,除非说很久,不然真是毫无违和感

  26. wxd9321
    @2 years ago
    3254995

    WaveNet 这不是新浪么

  27. 3255008

    @呼呼: 英语词汇本身是独立的,词与词之间有明确的界限,中文是两个或以上的字组成词,除非理解意思,不然就会和读英语一样没停顿,肯定生硬

  28. 3255039

    等这玩意学会了说话,有了一定智能,会不会用来诈骗?我感觉我玩不过它……

  29. 磷脂双分子层
    @2 years ago
    3255044

    很厉害啊……谷歌果然改变世界……

  30. 磷脂双分子层
    @2 years ago
    3255046

    话说谷歌有的深度学习,人类语言,估计还有很多没公布……如果再和日本发达的机器人工业结合一下,究竟可以做出几成的人类?

  31. 鱼鱼
    @2 years ago
    3255066

    谷歌就是他妈的天网,我是看出来了

  32. 3255068

    即使中文的,第一句的语气明显柔和和许多,没有机械感了,可以

  33. 3255071

    这种玩意我早就会了。

  34. 3255073

    5秒太短,有没有长篇的?

  35. 迷之生物
    @2 years ago
    3255084

    中文听起来还是差了点

  36. 3255116

    断句就是个麻烦

  37. sr00rz
    @2 years ago
    3255178

    什么时候出粤语版?

  38. 临界点
    @2 years ago
    3255190

    这样就黑科技了?都没用过小娜吗

  39. 3255552

    @赫鲁:
    应该是CeVIO

  40. tomoyii
    @2 years ago
    3255631

    They did it!

  41. 别开枪,是我
    @2 years ago
    3255653

    一直想要个 真-变声器来着,就是可以瞬间通过录音克隆声线,然后完美变声

  42. 3256150

    在美留学生一枚,英语其实也好不到哪去…

  43. 你是不是傻
    @2 years ago
    3257289

    然而百度还在送外卖

  44. 高关
    @2 years ago
    3263098

    通过这个网站我体会到了微软翻译软件的厉害之处

发表评论


24H最赞