@ 2023.12.06 , 07:03

PDF的历史

你上次点击一个链接,发现自己正在打开一个PDF文件,却没有痛苦地叹气是什么时候?

PDF是世界上最流行的格式之一,已经如此多年,但它也是最不受欢迎的格式之一。如果你见证了Microsoft Word的到来和主导地位,Google文档在学校和办公室的兴起,以及公司和格式的潮流——Evernote和Notion; XML、Markdown和HTML,那么PDF很可能与众不同。

一方面,它得到了异常强大的支持。您可以在浏览器中打开PDF文件,无论是否使用Adobe产品,并通过Slack、iMessage等向他人发送。

另一方面,PDF决定性地有些过时。在移动设备上阅读和编辑PDF文件很困难。更糟糕的是,PDF文件明显地带有越来越超现实的标志,即明显是物理对象的数字版本,尽管现在是2023年。

PDF的历史是三段历史合一:PDF文件格式本身的历史;Adobe公司的历史,这家公司创建了PDF并最终将其作为一个独立的标准发布;以及数字文档概念的历史——PDF开创了这个概念,它既是一个典范,又是一个限制。

PDF也是一个可以让我们更好地理解技术如何进化、消亡和持久存在的窗口。这段历史是理解为什么企业总是似乎落后于技术进步的一个跳板,从根本没有实现的无纸化办公室到永远不能完成转型的数字化转型时代。

到本文结束时,你会更加欣赏PDF已经证明自己是一个难缠的格式。尽管它经常很丑陋,但它很可能会比我们所有人都活得久。从理解为什么中我们可以汲取很多教训。

作为创意的PDF

我们从开始而不是结束,不是因为它是开始,而是因为PDF的第一个、最宏伟的承诺——三十多年前做出的承诺——使这种格式存活了这么长时间。

在90年代,企业领导人对一个既是真正的创新又是流行词汇的概念感到兴奋:无纸化办公。这些企业认为,实现无纸化办公将是下一个重大颠覆,下一个范式转变。而宣告这一转变的公司将会变得富有。

这次转型的桥头堡是数字纸,一群公司正在追逐它:DjVu、WordPerfect、Common Ground等。但Adobe在1992年的一次技术会议上宣布了PDF格式,最终获胜(尽管事实证明,这个桥头堡更像是一个孤岛,2023年的办公室仍然依赖纸张)。

PDF之所以获胜,除其他原因外,是因为Adobe的创始人创立该公司是为了创建物理文档,而不是数字文档,这为他们提供了制作理想数字文档所需的优势。

我们抱怨墨盒价格和荒谬的打印机数字版权管理,但至少现代打印机可以可靠地打印我们在屏幕上看到的物理版本。但在那之前,人们不得不依靠点阵打印机,包括其尖叫般的声效和像素化的文本,或昂贵的排版机器。

Adobe的初始创新是PostScript:一系列每台台式打印机都会携带的协议,奇迹般地可以渲染用户想要打印的内容。PostScript于1985年随Apple的LaserWriter一起首次亮相。

Adobe的联合创始人约翰·沃诺克有一个明确的战略——他想让PostScript成为一个通用标准。抵制当时保密和私人开发的常态,沃诺克推动开放。多年后,他说:“我们必须发布它。我们必须使它非常、非常开放,因为诀窍是让软件应用程序开发人员和操作系统开发人员都支持它。”

“制定标准的唯一方法就是将它们发布出去并进行公平竞争,”沃诺克后来说。Adobe走了出去,竞争,几年后,PostScript成为标准。

“有一段时间,”沃诺克说:“我们有22个PostScript竞争对手。有22个克隆正在努力在市场上打败我们。据我所知,其中没有一个成功过——包括微软的。我认为他们确切地只生产了一台打印机,结果他们卖掉了零台。这是一场灾难。”

沃诺克说,通过发布标准,查尔斯·格斯克,Adobe的另一位创始人说:“你承担的风险是别人会做得更好。我们有足够的自信,我们的实现总是最好的,这一点已经得到证实。”

这种策略——打败竞争对手然后标准化——成为PDF的蓝图。

从PostScript到PDF推动Adobe的使命,正如Adobe Document Cloud工程主管戴维·帕门特所说,是创建一个“交换格式,保留作者意图”。

这里的“作者意图”是关键的概念。在PDF之前,Mac、Windows、UNIX和MS-DOS都以不同的方式解释文件。如果你有点叛逆,想在Windows中创建一个文件,然后移动到Mac上,你的文件“可能看起来像杰克逊·波洛克搞砸了它”。

最初的想法出现在沃诺克撰写的题为“骑士计划”的论文中。 “这个项目的目标,”他写道,“是解决当今企业面临的一个基本问题。” 他解释说,这个问题在于缺乏一种通用的方式来“电子方式沟通和查看印刷信息”。

如果文档能在所有显示器上可视化并在所有打印机上打印,沃诺克写道:“人们的工作方式将发生根本性的变化。”

这个愿景超越了PDF,包括“实用程序、应用程序和系统软件”。 但使这个愿景成为可能的核心思想是PDF将是“完全自包含的”。 不管接收计算机是否没有发送计算机所拥有的字体都无关紧要。 PDF呈现作者预期的信息,不管怎样。

沃诺克设想PDF可能带来的几个可能性,包括通过电子邮件发送报纸、杂志文章和技术手册的能力,以及维护人们可以访问和远程打印的文档数据库的能力。 他设想公司可以在文档库存成本上“节省数百万美元”。

Adobe的起步价格为:制作PDF文件的程序费用约为700美元,阅读PDF的程序(Acrobat Reader)费用为50美元。

这并不是一个快速的成功。 沃诺克反思时说:“当Acrobat宣布时,世界并没有意识到它。 他们不明白电子方式发送文档会变得多么重要。”

根据沃诺克的说法,Gartner的某人告诉他们:“这是我听过的最蠢的主意。”

IBM的高管也同意这一观点。 詹姆斯·弗里茨参加了PDF首次亮相的会议,他写道,对许多人来说,1992年PDF所做的承诺是“亵渎”。

甚至Adobe的董事会也想杀死PDF。 但沃诺克知道他有一些好东西,不仅仅是好东西:“没有人需要说这是个好主意还是坏主意。 我们可以使它成为既成事实。”

他们确实做到了。

作为革命的PDF

PDF发布的那一天,Adobe免费提供了该格式的规范,不久后,Adobe也免费提供了其阅读器软件。

商业出版物Marker的高级作家罗布·沃克很好地解释了这个策略,他写道,该公司“完全专注于创作产品作为收入来源——但赌注越来越多的人可以读取该格式,对创作者来说就越有吸引力。” PDF格式将成为标准,尽管这种涨潮将提升许多船只,但没有一艘船会比Adobe的船高。

当然,许多其他的潮流也推动了PDF的发展。 从20世纪90年代中期到21世纪初,网络进入主流,下载速度有所改善,本已易于访问和紧凑的PDF变得更加易于访问和紧凑。

然而,在这些趋势中,仍然有一个明确的转折点:1996年,美国国税局成为Adobe的明星客户。 在PDF之前,国税局每年要将数亿份纳税申报表通过邮寄的方式寄送给全国各地的家庭,整个项目非常复杂且费用高昂。有了PDF,国税局可以通过互联网向全国提供这些表格,人们可以根据需要下载和打印。

国税局将PDF带给了每个人——普通人、商界领袖、学者、律师事务所等等。这是一个创新又熟悉的转变:

PDF的魔力在于它真的是数字纸,用户可以获得互联网的许多好处,而不需要解析一个从根本上新的格式。

还有其他税务软件可用,包括TurboTax和MacInTax,但当时要求计算机做税务申报对许多人来说是一个巨大的飞跃。但是下载和打印表格呢?这是他们可以并已经在做的。

1996年,一位阿尔伯克基记者报道了这种现象:“如果您需要一份表格,请忘记拖着自己去国税局办公室。只需在互联网上点按该表格即可。”

人们可以节省大量时间和精力——当然,至少是那些拥有互联网和台式打印机的人——但这项举措对国税局也是有益的。在一份案例研究中,国税局代表写道:“该机构每年通过减少打印、存储和邮寄税务材料的资金节省数百万美元。”

从这里开始,大部分进步都是个性化的。当Adobe发布了一个浏览器插件,使网景用户能够在浏览器中查看PDF文件时,采用量激增。而当Adobe添加了在HTML页面之间链接PDF文件的功能时,繁荣继续。

2000年,Adobe发布了Acrobat 4.05,到那时,任何人都很难质疑PDF已经达到了沃诺克和格斯克一直在追求的标准化水平。

到那时,人们已经下载了1亿多份Acrobat Reader副本,甚至最关心保留创作意图的行业(例如图形艺术和预印刷行业)也开始接受PDF。他们的接受意味着分量。

2001年,《华尔街日报》评论了Adobe Acrobat。如今,感觉古老的PDF当时就给用户一种无聊的感觉,这掩盖了它的影响力有多大并将会有多大。

评论员写道,这项技术听起来就像电视广告一样令人兴奋,它“除非你试图设计一个不管用什么程序查看都相同的网页,或者你以Microsoft Word格式向潜在的雇主发送简历,然后发现它看起来并不像离开你的桌面时那么华丽”。

但是评论员颂扬了其好处,写道无论用户是使用“顶级图形”还是简单的文本创建文档,Acrobat和PDF都能处理。“这看起来对人类来说并不是一个巨大的飞跃,”他写道,但对企业来说这是一个巨大的飞跃:“的确,大多数大公司已经在使用Acrobat完成完全相同的目的。但做的还不够。”

这位评论员是对的,但即将发生的是一个更大的飞跃。

作为标准的PDF

在20世纪90年代和21世纪初,沃诺克、格斯克和Adobe的主要策略是使PDF成为事实上的标准。 但在2008年,公司通过将其制定为实际标准迈出了重大一步。

Adobe将PDF格式的规范发布给独立的非政府组织国际标准化组织(ISO),并向该机构提供免版税的权利来发布和控制专利和规范。Adobe在负责该标准的ISO委员会中保留了一个席位,但在其他方面,它从PDF标准中撤退。

如果说PDF以前已经被接受,那么在那之后它就变得不可否认。

“一旦我们使其对所有人可用,就出现了很大的光环效应,”帕门特说。

Adobe在PDF与自身之间建立了自然的联系,但是通过使其成为标准,Adobe也可以依靠其他人的集体努力。Microsoft Word增加了将Word文档保存为PDF的功能,并出现了一连串其他PDF创建和阅读工具。

Adobe不再是一个人在战斗,但到那时它就不需要了——它处于顶端。

多年来,随着PDF保持为ISO逐步迭代的独立标准,Adobe得到了发展并获利。 根据沃克的说法:“毫无疑问,与PDF的紧密联系对Acrobat这款文档软件的长期成功至关重要。”

长期的成功总体上显示了成功,但也有失误和胜利。

随着互联网的发展,Adobe既获得了一些回报,又保持着被动态度,尽管有可能获得其他回报。

更好的下载速度使PDF更实用,但Adobe避免使用HTML。 根据沃诺克的说法:“早期版本的HTML在设计的角度来看很糟糕。 没有什么漂亮的地方。” 格斯克是字母压印照相雕刻师的儿子和孙子,他有类似的感受。 Adobe因此而遭受损失。

但是胜利更大。

2020年有“流模式”,这是一项改进,可以更好地调整该格式以提高在智能手机上的可读性。 大约在同一时间,Adobe使开发者更容易将PDF嵌入网站。然而,与其顺利过渡到云和SaaS时代相比,这些功能微不足道。

到2020年,Adobe的Document Cloud产品组合——现在是Acrobat的核心——收入达到15亿美元。而毁坏或损坏了许多其他企业的COVID-19大流行,提振了Adobe。根据Forrester的一项研究,公司增加了对数字文档流程和工具的支出,增长超过50%,这导致Adobe的股价从333美元上涨至500美元以上。

沃诺克曾于2000年担任首席执行官,并于2017年和格斯克一起担任董事会主席,他在Adobe推动了一个重要的想法,这个想法在HTML上失败了,但在智能手机和云端取得了成功。

沃诺克说:“公司会产生抗体。他们对变革产生抵抗。他们获得舒适区,在那里他们想工作,员工不想尝试新事物以免失败。因此,他们拒绝思想。让公司保持创新最难的事情之一就是消除抗体并强制变革。”

但是在Adobe成功消除其内部抗体的程度上,它通过引入一个带有自己抗体的格式而获得了巨大的利润,这个格式数十年来一直在抵制变革、挑战者和杀手。

作为僵尸的PDF

在介绍中,我们分享了在2023年打开PDF时的常见反应:呻吟,翻白眼,痛苦的叹息。但这种情绪似乎不会影响该公司或该格式。

多年来,没有人接过王座。微软作为类似的标准化公司,在Word和PowerPoint上面临谷歌和苹果的挑战,但PDF的挑战者尚未出现,更不用说杀手了。

Adobe报告称,2020年使用其Document Cloud产品打开的PDF文件约有3030亿份。这种流行反映了约17%的年增长,即使到那时,这种比率也没有反映出由于基于ISO的标准化而带来的PDF使用总量。

该格式持续的成功和增长源于其原始设计:PDF旨在紧凑和向前兼容,并在各种设备上反映作者的意图。

PDF感觉有些过时吗?是的,当然。但这是件坏事吗?印刷书籍从15世纪就流传至今,而Adobe的创始人直接受书籍印刷的启发,创建了一种注定拥有类似传承的格式。

当然,对于用户和企业来说,它通常是有害的。HackerNews等地方的评论称它为“有史以来制作的最糟糕的文件格式之一”、“灵魂粉碎”以及“真的应该被焚烧”。

然而,这种情绪并不是新用户和开发人员不尊重他们的长辈的情况。 1996年,以研究为基础的用户体验组织Nielsen Norman批评了PDF格式。他们并不完全反对PDF,但他们希望PDF保持数字纸的地位,而不侵犯网络,HTML仍然是更好的格式。

“PostScript和Acrobat文件永远不应该在线阅读,”1996年Jakob Nielsen写道。 “PostScript查看器非常适合检查文档的结构,以确定是否需要打印它,但用户不应被欺骗进入在线PostScript文档的痛苦体验。”

尼尔森在2001年重申了这一立场,写道:“PDF非常适合分发需要打印的文档。但这就是它的全部用途。无论诱惑有多大,你都永远不应该使用PDF作为你希望用户在线阅读的内容。”

尽管如此,PDF的普及率继续增长,很少有人限制其使用方式和地点。 2020年,尼尔森再次提出这一论点,写道:“在观察了20年的时间里,用户在使用PDF或常规网页执行类似任务的各种站点上的表现,有一件事仍然可以肯定:PDF降低了用户体验。”

他不能更清楚了——“PDF永远不应该用于屏幕阅读。不要强迫你的用户遭受和挣扎通过PDF!”——但这个教训没有被注意。

在2020年的另一篇文章中,尼尔森捕捉到的用户反应可能反映了你自己的一些体验:

“那些PDF中的信息已经过时了。所以你得到的东西不是最新的。他们只是没有取下那些链接。”

“我不知道他们(带有电子邮件签名模板的PDF)是否已更新。我不能自信地分享它。 有时会有多个版本的PDF。”

“所有的PDF都很糟糕。 有太多旧表格,版本控制非常困难。 我们正开始将它们移入数据库,但首先必须审核它们并追踪人员以询问他们是否仍然需要该表格。 我们正在首先解决使用最多的表格。”

“我们遇到过PDF表格的问题。 其他人必须下载该表格才能按我们希望的方式使用它。 您必须下载它才能使用功能,所以我们总是必须在文档顶部指定我们的合作伙伴正在使用这些文档,他们可能没有最新的PDF阅读器。”

最终,文章的标题做出了最有力的论点:“PDF:20年后仍不适合人类消费”。

当然,人类继续消费PDF,从试图解析PDF餐厅菜单的普通人到拥有最高联邦权力的人。

2018年,Slate报道称PDF的可用性是罗伯特·穆勒(当时的特别检察官)能够起诉保罗·马纳福特(特朗普总统与俄罗斯关系调查的一部分)的重要原因。

马纳福特试图通过伪造利润和损失账目欺骗一位潜在的贷款人。 马纳福特通过电子邮件将PDF发送给一位同事,要求他将其转换为Word文档,以便马纳福特进行欺诈性更改。 一旦他做了更改,马纳福特的同事帮助他将Word文档重新转换为PDF。

但是正如PDF协会——是的,这是一件事——指出的,Slate错过了一个细节:“将PDF转换为Word以便秘密更改PDF文档中的文本是进行欺诈并在多个层面上违反联邦法律的愚蠢方式”,因为Word文件不会与原始文件完全相似,而且PDF文件已经是可编辑的。

该协会写道:“马纳福特本可以轻松地自己更改PDF。 如果他这样做了,他本可以避免制造让他入狱的关键证据链。 他的计算机上很可能已经安装了PDF编辑器。”

作为数字文档的PDF

几十年来,人们对PDF的大部分不满源于该格式已经从数字纸的作用巧妙而缓慢地转变为数字文档的作用。

PDF是数字化纸张的完美格式。 尽管我们还没有达到无纸化办公的未来,但对纸张的需求已经减少了,而对文档的需求却增加了。

我们有更多需要记录的内容——考虑一下企业需要维护的所有SaaS合同、需要书面记录的所有监管合规工作以及所有跨办公室、共享工作空间和家庭办公室的招聘、工作和沟通流程文档数量,但我们需要文档做更多的事情。

文档曾经是输出。 最初,PDF输出作者意图,以便通过打印机和数字纸让读者消费。 但随着时间的推移,PDF也承担起输入的角色。 尽管PDF非常适合显示,但它们变成了存储信息的不好方式,成为促进不同功能和各方之间接口的糟糕方式。

从PDF中以编程方式提取信息的工作证明这种格式不适合其现代需求。 FilingDB(后来被Insig AI收购)已经深入探讨了从永远不是真正用于存储或接口的格式中提取信息的困难。

几个例子包括:

读取保护(PDF通常具有多个访问权限标志,限制内容的复制方式)。
隐藏文本(PDF中经常包含页面边界框外的文本,对大多数PDF查看器不可见,但在提取时会显示出来)。
太多和不够的空格(PDF中单词中的字母之间通常有额外的空格或太少的空格——通常是为了字间调整)。
嵌入字体(PDF最初被设计为忽略字体限制,有时具有自定义编码和对人类眼睛来说看起来不错但会让机器感到困惑的字体)。
布局困惑(PDF总是首先针对人类设计的,常有人类可能发现可读但会让机器困惑的布局,例如脚注、旁述和不同的列布局)。

他们写道,在最深层次上,“PDF格式由描述如何在页面上绘制的指令流组成[...] 因此,当文本或字处理文档转换为PDF时,大部分内容语义都丢失了 - 所有隐含的文本结构都转换成了几乎是漂浮在页面上的字符的无定形汤汁。”

评论Hacker News文章的人用更直白的方式谈论PDF。 但随着讨论的继续,评论者也围绕主要问题展开,一位评论者写道:“解析pdf以提取数据就像用石头当锤子,用螺丝当钉子一样”,另一位评论者写道:“实际上,从pdf解析文本数据更像使用石头来拧松螺丝,因为这本不应该这样做” 另一位评论说:“这更像用螺丝刀拧入石头。 这项任务本不应执行,但该工具是最不错误的。”

PDF在许多方面已经过时,但它在数字纸和数字文档层面上创造的革命具有超越沃诺克、ISO标准甚至Adobe本身的持久力。 PDF的构建是为了保留作者的美学意图,但软件已经吃掉了这个世界,API已经吃掉了软件,信息需要是可编程的,而不是漂亮的。

最大的讽刺在于,软件和API革命几乎没有触及数字文档,后者仍然是全球企业之间最重要的沟通、存储和行动信息的方式之一。

法律约束力文件如果不是连接实体与交付成果的API,又是什么呢? 但即使用户可以在线注册服务,该企业服务的版本也可能以PDF形式编纂。

作为机会的PDF

1991年,《纽约时报》对Adobe Acrobat的评论涉及到了一个尚未到来的未来。

“如果它成功了,”评论员写道,“马车会改变计算机在办公室中的使用方式。 如今,这些机器主要用于在文字处理器和电子表格中创建文档。 将来,计算机将越来越多地用于搜索和查看信息。”

“将来,所有文档都可能成为信息数据库,”评论员继续写道,Adobe“可以为企业信息系统创建一个新的市场”。

当PDF成为事实标准时,这篇评论是正确的; 当它成为一个真正的标准时是正确的; 当PDF成为信息存储的一种机制时是正确的; 当企业发现自己正在努力从PDF中提取所包含的信息并将数字文档转化为他们需要的接口和程序时也是正确的。

PDF的未来仍不明确,但如果过去的几十年教会了我们任何事情,那就是押注其生存而不是失败。 但这并不意味着PDF本身或它代表的更广泛的数字文档不会面临颠覆。

Adobe估计,今天世界上有超过25万亿份PDF。 尽管很难想象会有新技术最终取代PDF,但想象没有人找出利用和转变这个市场的方法似乎同样困难。

本文译自 Sensible Blog,由 BALI 编辑发布。

赞一个 (9)