Tech
Meta(Facebook)发布了AI驱动的音频压缩算法
上周,Meta推出了名为“EnCodec”的、AI驱动的音频压缩算法。据报道,它可以以 64kbps 的速度把音频文件压缩到MP3格式1/10的大小,同时不降低音质。 Meta 表示,这种技术可以显著提高低带宽网络上的语音质量,例如在服务参差不齐的地区拨打电话。该技术也适用于音乐应用。
Meta 于 10 月 25 日在 Meta AI 研究人员 Alexandre Défossez、Jade Copet、Gabriel Synnaeve 和 Yossi Adi 撰写的题为《高保真神经网络音频压缩》的论文中首次向人们介绍了这项技术。
其方法由三部分组成,经过训练,可以将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧速率的“潜在空间”表示。然后,“量化器”将表示压缩到目标大小,同时跟踪最重要的信息,这些信息稍后将用于重建原始信号。 (此压缩信号通过网络发送或保存到磁盘。)最后,解码器使用单 CPU 上的神经网络将压缩数据实时转换回音频。
“有损压缩的关键是识别人类无法感知的变化,因为在低比特率下完美的重建是不可能的。为此,我们使用鉴别器来提高生成样本的感知质量。犹如一种猫鼠游戏。其中鉴别器的工作是区分真实样本和重建样本。压缩模型试图通过推动重建样本与原始样本在感知上相似度来欺骗鉴别器。”
值得注意的是,使用神经网络进行音频压缩和解压并不是什么新鲜事——尤其是语音压缩——但 Meta 的研究人员声称是他们最先将这项技术应用于 48 kHz 立体声音频(略好于 CD 的 44.1 kHz 采样率,Internet上典型的音乐文件特征)。
至于实际应用,Meta 表示,这种由人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快、质量更好的通话”。最终可以提供“丰富的元宇宙体验,而无需大幅提升带宽”。
https://arstechnica.com/information-technology/2022/11/metas-ai-powered-audio-codec-promises-10x-compression-over-mp3/