@ 2018.08.05 , 17:52

DSD vs PCM:迷思与真相

原文链接:https://www.mojo-audio.com/blog/dsd-vs-pcm-myth-vs-truth/
作者:Benjamin Zwickel
翻译:Aristrotle

导语

直接比特流数字(Direct Stream Digital,DSD)已经成了高端音频领域里举足轻重的东西。简化的编码与解码方式,以及超高采样频率,保证了它举世无双的表现。这是我们一直期待的产物,亦或只是市场炒作?这篇文章用技术事实为您一一破解那些营销噱头。我(指原作者,下同)将会解释什么时候DSD具有优势,什么时候又是PCM(pulse-code modulation,脉冲编码调制)更好。

如果你对文中的驳论心存怀疑,请任意检查文末给出的参考文献,它们是由众多诸如Dan Lavry的录音工程师,以及诸如Antelope Auduio的录音设备制造企业所创作的。

如果你不想接受一堂历史课,也不想啃一大堆技术资料,你可以直接跳到总结部分,我在那里列出了所有要点。

一段简史

在1857年,Édouard-Léon Scott de Martinville发明了可以逼真地记录声波的留声机。在1877年早期,Charles Cros设计了一种类似于逆照相蚀刻过程的方法,即造出可被唱针追踪的沟槽,唱针产生的振动将被传导到振膜上,从而制造出声波。

在1877年晚期,Thomas Edison参考Cros的理论发明了圆筒留声机,使得音乐爱好者们第一次能够在家中体验录好的音乐。你能够想象一个现代版的圆筒留声机吗?正切轨道…没有弧度问题…没有滑动问题。一个完美无瑕的设想!

在1887年,Emile Berliner发明了技术上稍逊的唱盘,但由于盘片的制造成本更低,更适于摆放在商店的展示柜里,并且可以容纳更大的封面和注释,唱盘成了工业标准。音乐录制工业一段长长的“使用便利性和利润最大化比音质最优更重要“历史就这样开始了。

数字革命也并没有什么不同。1979年,Philips和Sony在新的数字格式标准上展开合作,Philips想要直径20cm的碟片,但Sony坚决要求能够在更小的便携设备上播放的12cm碟片。在1980年,他们公布了数字音乐光盘规格标准红皮书(the Red Book CD-DA standard),面向大众市场的数字音乐从此诞生了。早期数字录音工业中有很多人开玩笑称CD的意思是“compromised disk“(妥协的碟片)。

在80年代初,当数字录音变得唾手可得时,众多录音工作室纷纷从模拟向数字转变以节省资金。对录音工作室来说,数字录音需求的设备更便宜,录制和存档所需的空间更小,并且使得后期处理中的混音和编辑曲目更容易。对顾客来说,反而并没有多少好处。大多数早期的数字录音都是以相对较低的解析度生产的, 听着很容易疲劳,甚至让你想把耳朵扯掉。

DSD vs PCM:迷思与真相

从PCM到DSD的转换也是一样的道理。在90年代初,索尼想要一种面向未来的且更便宜的媒介来储存他们的模拟母带。1995年,他们断定存储直接从模拟到数字的1位信号将允许他们输出到任何可以想见的消费级数字格式(哈哈,稍后我会解释Sony是怎么因为决定这个栽跟头的)。这种新的1位技术是通过从Crystal的1位2.8Mhz 比特流DAC(数字模拟转换器,Digital to analog converter)芯片上的监听接口输出实现的。

随后,关于DSD及Sony同Philips合作研发SACD(Super Audio Compact Disc)格式的风声传到了Sony顾客那里。当然,从SACD被构思出来到最终上市的时候,DAC芯片制造商已经能造出支持拥有比64fs更高的128fs采样率(又叫双倍率DSD),比1位解析度更高的5位位深的格式的芯片了。如果SACD的格式采用DSD128而不是DSD64,采用5位而不是1位,它的表现将有巨大飞跃。可惜了。

早在DVD、SACD或者DSD格式被开发出来之前,比特流DAC芯片就作为R-2R多位DAC芯片的低成本替代方案被推向消费市场了。比特流DAC芯片内置有能将PCM转码为DSD,再转换成模拟信号的算法,这样做的结果是牺牲保真度换来了很大的成本节约。

在某种程度上是比特流DAC技术使得7.1声道嵌入视频格式成为可能,同时还使得电子设备制造商能将装在小机箱里、配置廉价供电器的DVD播放器卖出低于$70的价格。音质至上主义者再一次完败了。

相比之下,R-2R DAC芯片不仅在成本上显著高于单比特DAC芯片,而且需要更大更复杂的供电器。如果你打算制造使用R-2R技术的7.1声道CD/DVD/SACD播放器,成本将是比特流技术的数倍,体积也将是它的数倍。这显然不是大众消费者想要的。

在这些因素的作用下,音乐录制工业一次又一次地决定抛弃音质至上主义者以追求利润最大化和吸引最广泛的顾客群。历史课到此结束。

DSD技术vs PCM技术

市售的PCM录音位深为16位或24位,采样率在44.1KHz到192KHz之间。最常见的格式是红皮书标准的CD,位深16,采样率44.1KHz。市售的DSD录音位深为1位,采样率为2.8224MHz。这种被用在SACD上的格式也叫DSD64。

还有一些像DSD128、DSD256和DSD512这样更现代的,解析度更高的DSD格式,我稍后会详细说明。这些格式主要被用在录音工作室里,只占到消费市场的很小一部分。

尽管DSD和PCM的解析度不能直接比较,仍然有很多专家尝试了。其中一种估算显示1位2.8224MHz的DSD64 SACD解析度约等于20位96KHz的PCM。另一种估算显示1位2.8224MHz的DSD64 SACD解析度等于20位141.12KHz PCM或者24位117.6KHz PCM。

换句话说DSD64 SACD的解析度比16位44.1KHz的红皮书标准CD更高,大致与24位96KHz的PCM录音相等,但没有24位192KHz PCM录音高。

DSD和PCM都是“量子化的”,这意味着模拟信号需要被近似为数值。DSD和PCM都有量化误差和线性误差,都有需要过滤的量化噪声。换句话说,它们都不是完美的。

PCM 以均匀的时间间隔 (类似于方格纸) 对模拟信号的振幅进行编码, 并且每个样本在级数范围内被量化为最接近的值。级数的范围基于录音的位深。16位录制有65536个级数, 20 位录音有1048576个级数, 24 位录音有16777216个级数。

位深越大,采样率越高,解析度就越高。因此20位96KHz录音的解析度大约是16位44.1KHz录音的33倍。这差距可不小。那为什么24位96KHz录音听起来只比16位44.1KHz的红皮书标准CD好一点点?答案将在后文中揭晓。

DSD使用脉冲密度调制(pulse-density modulation)对音乐进行编码,脉冲密度调制是一连串单比特值,采样率为2.8224MHz。 这相当于红皮书标准CD 44.1KHz采样率的64倍,但每次采样的解析度仅为CD 16位的1/32768。

DSD vs PCM:迷思与真相
DSD vs PCM:迷思与真相

在上面这两个双轴量化的PCM,以及单轴量化的DSD的图示中,你可以看出为什么DSD重放的精确度相比比PCM很大程度上更依赖于时钟精度。 当然,每个位电压的精度在DSD中与PCM同样重要,因此参考电压的调节在这两种类型的转换器中同等重要。 显然,在解析度是市售DSD64 SACD和24位192KHz PCM几倍的录音过程中,其时钟精度要求远比重放时的高。

还有其他使用更高的采样率的DSD格式,比如DSD128(又叫双倍率DSD),采样率为5.6448MHz; DSD256(又叫四倍率DSD),采样率为11.2896MHz; 和DSD512(又叫八倍率DSD),采样率为22.5792MHz。 所有这些更高解析度的DSD格式都是供录音工作室使用而非消费者使用,尽管有一些不起眼的公司以这些格式销售录音。

请注意,双倍率、四倍率和八倍率 DSD可以被44.1KHz和48KHz整数倍等分,以向下采样至DSD64 SACD及44.1KHz红皮书标准CD(44.1KHz的倍数)或96KHz及192KHz高清 PCM格式(48KHz的倍数)。

当录音工作室将48KHz倍数的格式转换为44.1KHz倍数的格式时会引入量化误差,反之亦然。 遗憾的是,老录音的24位192KHz高清重制版本往往是来自DSD64母带的,比如索尼和其他公司在90年代中期用于存档模拟母版的那些。 请注意,可以从DSD64母带转制的最佳HD PCM格式为24位88.2KHz。 任何超过88.2KHz的采样率或者可被48KHz整除的采样率都必须进行插值(不好)。 但消费者要求所有他们的旧爱的24位192KHz版本,于是,在明知道后果的情况下,唱片公司仍然这么做了。

难题

PCM和DSD都有三个主要缺陷:量化误差、量化噪声和非线性。

有好几种情况能造成量化误差。最普遍的一种是早期数字录音过低的解析度。想象一下方格纸上的交叉点。你不能把振幅量化为比1比特更小的值,且无法量化采样间隔上的点。你只能把模拟信号量化为位深和采样率交叉点的值。当模拟型号的值落在两个可量化值之间时,数字录音最终重建了一个音量更低或更高,频率更慢或更快的声音,进而扭曲原始音乐的节奏,曲调和强度。这会造成不自然的怪异的的谐波的产生,导致早期数字录音往往与生硬、易使人疲劳联系在一起。请注意下图中蓝色实线代表音乐实际的波形,黑点代表最接近的量化值。

DSD vs PCM:迷思与真相

尽管现在的采样率已经高到足以欺骗人耳,量化误差仍然会在从一种格式转换成另一种时显现。举个例子,时间回溯到1995年,当Sony计划用DSD64转存他们的模拟母带库时,他们错误地认为DSD64母带经得起时间考验,并且能够转录成任何消费级的格式。事实上,这些母带只能正确地转录成采样率能被44.1KHz整除的格式。于是现在所有从DSD64母带转录的96KHz及192KHz录音都有量化误差。

这正是录音娱乐工业中众多使我恼怒的事情中的一件。如果44.1KHz标准被设计出来是为了把折叠失真转移到不那么重要的频段上,那为什么他们又开始用48KHz的倍数了?!?!?!?只要把现在的消费级高清音频格式定为88.2KHz和176.4KHz,就可以避开这个烂摊子了。他们甚至已经发明了DXD,一个24位352.8KHz的录音工作室用格式。是哪个搞七廿三的白痴硬要把96KHz和192KHz牵涉进高清音频工作里来的?!?!?!?

使用48KHz倍数的实际原因是与视频同步最佳。这就是为什么电影的音轨以48KHz倍数的采样率录制,例如嵌入7.1声道DVD和Blu-Rays中的24位96KHz格式音频。 但是,由于超过90%的音乐录音是以44.1KHz采样率的红皮书标准CD或DSD64 SACD出售的,因此提供96KHz或192KHz的高清音乐,而不是最合适的88.2KHz和176.4KHz,是相当荒谬的。 然而不了解这一切的顾客错误地相信了唱片公司的宣传,认为192KHz比176.4KHz更好。

量化噪声是无法避免的。无论用什么格式数字化,都会产生超声波伪影,位深越多,底噪就越低,每多1位,底噪就降低大约6dB。由此可以想见,1位DSD会有显著高于16位PCM的超声噪声。而PCM则会在采样频率上出现明显的噪声。这就是为什么Sony和Philips在CD红皮书标准里将采样率定为超过人耳听域上限20KHz两倍的44.1KHz。

由于量化噪声存在于PCM录音的采样频率附近,一段44.1KHz录音的量化噪声比人耳的听域上限20KHz高一个八度。这种量化噪声需要被滤除,因此所有DAC在输出端都有一个低通滤波器。因为量化噪声仅比可听度高一个八度,所以使用的滤波器必须具有非常陡的斜率,以免滤除我们想要的高频。 这些陡峭倾斜的低通数字滤波器通常被称为“砖墙”滤波器。

尽管你时常听说很多关于早期红皮书CD播放器的“砖墙”滤镜会导致可被听到的失真,但事上这并不是极高频声音不自然的的原因。早期数字录音中大多数生硬,刺耳,不自然的极高频更多地与供电及录音过程中的缺陷有关,而不是“砖墙”滤波器。很抱歉成为戳破你的泡泡人,与许多发烧友所相信的不同,只有不到千分之一的人能像儿童一样听到超过20KHz的声音,更是几乎没有40岁以上的人能听到超过15KHz的声音。

DSD vs PCM:迷思与真相

对于DSD64则是另一种情况:从25KHz开始,量化噪声急剧上升,需要更复杂的滤波器及降噪算法。当你使用简单的低通滤波器过滤DSD64的输出时,结果是相位失真及听觉范围内的一些令人相当讨厌的失真。解决方案是能将噪声移至较难听到的频段的降噪算法,或者更高的采样率。这就是DSD128(又叫双倍率DSD)和DSD256(又叫四倍率DSD)格式应运而生的原因。这也是诸如JRiver的高级播放器软件提供双倍率DSD输出的原因。使用过采样DSD64至DSD128或DSD256的播放软件,可使数字失真高于听觉范围八度,从而让使用更高级的降噪算法和更保守的数字滤波器成为可能,进而显着改善音质表现。请注意,极高的采样频率是DSD比PCM更注重超精准时钟的原因。

抖动(Jitter)的定义是由不准确的时钟引起的回放频率的不一致。这将导致音乐可闻的的节奏和曲调失真。不协调的工作频率往往会产生具有不自然的奇次谐波的模拟波形。 这导致通常称为“数码味”的易使人疲劳的负面特质。请注意下面两幅图:抖动是水平时间轴的不一致,而非线性是垂直振幅轴的不一致。 不过,还有些人会认为任一轴的不一致都属于非线性。

DSD vs PCM:迷思与真相
DSD vs PCM:迷思与真相

抖动也可能是因为转换器的时钟速率不一致,非线性则可能是因为转换器每一步的电压不一致。这就是我们经常听到“超级时钟”和“毫微微时钟”这些概念的原因。时钟越精确,模拟输出就越准确。 这也是为什么超高性能PCM转换器能够在零交叉点(zero crossing)调整最高有效位(MSB,most-significant-bit)的电压以优化线性度的原因。 问题在于,除了大家都在吹嘘的超级时钟,就没有办法优化MSB电压了吗?

纯DSD的神话

不管市场怎样炒作,事实是消费者几乎买不到纯DSD录音。 部分是因为直到最近才实现直接编辑,混音和母带处理DSD文件。因此,市面上能买到的最纯DSD录音是罕见的由模拟录音转制的DSD录音,或者直接记录到DSD而没有任何后期制作的录音。一些新的工作站软件可以用DSD格式进行编辑,混音和母带处理,但这在业界非常少见,并且主要用于小型精品唱片公司。事实上,大多数DSD录制都是用5位PCM(又叫Wide-DSD)进行编辑,混音和母带制作。你在下面看到的营销炒作的DSD流程图基本只存在于理论中。呀……秘密泄露了。

DSD vs PCM:迷思与真相

纯数字DSD录音的质量分数代和数个级别的。最不纯的是由旧PCM母带制作的DSD录音。 这些PCM母带里的很多解析度较低,还有比现代PCM录音更高的量化误差和更低的线性度。由于转制永远无法做到比原始母带更好,这些DSD录音听起来就和原来的低解析度PCM母带一样烂。最纯粹的普通DSD录音来自现代DSD母带,以Wide-DSD录制,实际上是超高DSD采样率的5位或8位PCM格式。Wide-DSD是大多数录音工作室目前使用的格式。

DSD vs PCM:迷思与真相

从上面的流程图中可以看出,大多数商用DSD录音必须转换为PCM格式才能进行后期编辑,混音和母带制作。在这些转换过程中,每次都会有更多的量化噪声及量化误差被引入录音里。许多人会问:既然母带已经是PCM格式了,为什么还要多此一举转换成DSD?

目前在用Wide-DSD进行编辑,混音和母带制作的录音工作室基本都不太可能升级到能用真DSD编辑,混音和母带制作的软件,因为DSD实际上是一种过时的格式。连索尼自己都不再支持DSD了。录音工作室可能升级的现代格式是MQA,一种24位192KHz PCM压缩格式,它需要的带宽远少于普通PCM流。这就是为什么像Roon和Tidal这样的高清音乐流媒体服务正在切换到MQA作为他们提供的超高清选项。因此,随着MQA压缩的发明,PCM正迅速成为首选的高清音乐格式。

关于DSD与PCM的另一个常见营销神话是,当将DSD与PCM进行盲测对比时,人们一致认为PCM易使人疲劳而DSD更接近模拟音质。这已经被证明完全是个谎言(total marketing BS)。制造谎言的一种方式是在同一张碟片上刻录DSD64和16位44.1KHz PCM的混合SACD。 DSD64音轨的解析度大约是16位44.1KHz音轨的33倍,因此相比较下DSD音质比PCM更好。事实是,在最近的盲测中,研究人员已经证明高解析度PCM和DSD在统计上是无法被区分的。考虑到几乎所有的DSD录音都是用PCM编辑,混音和母带制作的,这本就不足为奇。

然后是DAC芯片工作方式的差异。大多数现代DAC芯片都是单比特或ΣΔ。大多数现代单比特DAC芯片可以解码多种文件格式,包括PCM,DSD和Wide-DSD。当然,当他们解码PCM时,单比特DAC芯片必须首先将其转换为DSD,即芯片的原生格式。DSD比PCM表现更好的常见误解的另一个原因正是与内置于单比特DSD DAC芯片的实时PCM到DSD转换器的质量差有关。

还有一种东西叫多位R-2R梯形DAC芯片。还在生产多位DAC芯片的公司已经很少了,因为它的制造成本比单位DAC芯片高得多。多位DAC芯片针对PCM格式进行了优化,并且只能解码PCM格式。当然,有些DAC使用具有FPGA输入级的多位DAC芯片能将DSD转换为PCM,但多位DAC芯片本身无法解码DSD。

在几乎所有情况下,我都建议你使用DAC芯片的原生格式播放音乐文件。也就是说用多位DAC芯片播放PCM,用单比特DAC芯片播放DSD。市面上有几个播放软件内置有实时PCM到双倍率DSD转换器。HQ Player是当今市场上最复杂的播放软件之一。HQ播放器可配置为实时PCM到DSD转换以及实时DSD过采样到双倍、四倍、八倍甚至更高速率的DSD格式。强烈建议使用能将PCM转换为DSD并将其过采样至至少四倍率DSD的播放软件。

总结

从历史上看,大多数与大众市场录音销售相关的决策都是基于消费者的便利和更高的利润,而不是技术优势和更高的保真度。

原生PCM R-2R梯形DAC芯片以及支持它们的电路制造成本明显高于原生DSD单比特DAC芯片,并且尺寸明显更大。这是现今比较常用的单比特DAC芯片的主要原因之一。

在盲听测试中,具有相当解析度的高解析度PCM和DSD格式在统计上无法被区分。

像DSD营销炒作中使用的流程图所示的纯DSD录音几乎不存在。目前很少有录音工作室能直接用DSD进行编辑,混音或母带制作。5位和8位高清PCM(Wide-DSD)用于几乎所有现代DSD录音的录制及后期编辑,混音和母带制作。

当在原生DSD单比特解码器上播放PCM文件时,单比特DAC芯片必须实时地将PCM转换为DSD。这是人们声称DSD声音比PCM更好的主要原因之一,事实上,大多数现代单比特DAC芯片在解码PCM方面做得很差。

DSD64 SACD的解析度约为16位44.1KHz红皮书CD的33倍,与24位96KHz PCM录音的解析度大致相当,不到24位192KHz PCM录音解析度的一半。

混合SACD上的DSD64轨道的分辨率大约是16位44.1KHz PCM轨道的33倍。这样做是故意的,由此他们可以通过欺骗潜在客户相信他们在播放同一盘音乐时进行了公平比较,以卖出更多SACD播放器。

MQA是一种新的现代高性能音频压缩格式,被Roon和Tidal等高清流媒体服务采用,可被解码为24位192KHz PCM。

DSD具有比PCM高得多的量化噪声,并且噪声更接近听觉范围,需要更复杂的数字滤波器,以及降噪和过采样算法。众所周知,DSD DAC内置的算法经常导致声音过度平滑,而在即时性,清晰度和泛音密度上不如R-2R梯形DAC。

强烈建议使用基于计算机的音乐服务器和能够将PCM转换为DSD的播放器软件并将其过采样到至少双倍速率DSD,因为它使DSD64 SACD量化噪声高出听觉范围八度,为更好的数字滤波器提供发挥空间。双倍率DSD的大部分量化噪声在50KHz上下,这与44.1KHz PCM录音中大部分量化噪声所在频段的中心44.1KHz很接近。

为了获得尽可能好的表现,应该播放DAC的原生格式,而不是让DAC芯片和FPGA实时转换文件格式。

尽管许多录音被宣传为24位,但24位的全部动态范围仅用于录音室以减少量化噪声。大多数消费者版本的所谓24位录音,其实比16位录音的动态范围(96dB)还小。它们只是用1填充一些MSB,用0填充一些LSB好让总体积达到目标。

大多数流行音乐录音是为在汽车音响或便携式设备上播放而设计的,而不是高端音响发烧友系统。众所周知,在敲定最终混音之前,艺术家和制作人经常会在MP3播放器或汽车音响上试听曲目。

录音的质量远比其分发的格式或解析度所起的作用更为重要。为了增加利润,现代录音工作室的管理层坚持要求通过后期制作剔除录音的错误,这会严重影响母带质量。

相比之下,我最喜欢的一些数字录音是从20世纪50年代的模拟录音中转录的。它们没有现代DDD录音(DDD=Digital, Digital, Digital,意为数字化录音,数字化后期制作,数字化发行)那么低的背景噪音,但这些“黄金时代”录音通常只需一次录制,只需最少的后期制作。这种老派录音方法产生有机特质和连贯的室内共鸣,无法以其他任何方式复制。不难看出为什么那么多发烧友愿意为这些录音出高价。

参考文献:
http:www.lavryengineering.com/lavry-white-papers/

24-bit vs 16-bit


http:electronics.forumsee.com/a/m/s/p12-37984-047253--24bit-16bit-the-myth-exploded.html
http:www.tested.com/tech/1905-the-real-differences-between-16-bit-and-24-bit-audio/
http:www.highendnews.info/technology/oversampling_and_bitstream_metho.htm
http:www.grimmaudio.com/site/assets/files/1088/dsd_myth.pdf
http:bitperfectsound.blogspot.com/2014/12/dst-compression.html
http:www.soundonsound.com/sos/sep07/articles/digitalmyths.htm
http:www.digitalpreservation.gov/formats/fdd/fdd000230.shtml
https://en.wikipedia.org/wiki/Direct_Stream_Digital
http:hometheaterreview.com/super-audio-compact-disc-sacd/

Blog


http:benchmarkmedia.com/blogs/news/15121729-audio-myth-24-bit-audio-has-more-resolution-than-16-bit-audio


支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(3): 大红 · 安助的大西洋 · vva
赞一个 (49)