@ 2013.01.17 , 13:08

测算:有多少网页被存档

没人知道互联网上有多少网页被存档(archive),现在一个计算机科学家小组对此做了专门研究(PDF下载)。

博物馆和图书馆很久以前就试图为子孙后代保护文物。由于互联网是一个文化产物,而且种类繁多,影响力很深。因此档案工作者把注意力转移到互联网上毫不奇怪。

由于新网页、图片、视频和音频在网络世界出现和消失的速度极快,因此保存网络档案极其不易。我们不禁要问,至今为止互联网上的内容已经成功地保存了多少?来自弗吉尼亚州 Dominion 大学的 Scott Ainsworth 和他的同伴说,这取决于你怎么看这件事情,因为不同的网上资源似乎是以不同的方式储存起来。搜集并将网上的所有信息存档是不可能的。

[-]

他们采取收集样本在线地址进行统计学分析,然后看有多少比例已经被存档了。Ainsworth 和他的同伴们从开放式目录项目(DMOZ)、Delicious 的最近的书签列表、网址缩短服务商Bitly,以及从搜索引擎谷歌、Bing和雅虎抽取了1000个网络地址。然后,他们使用 Memento工具进行查看,Memento 工具是互联网存档资源如 Internet Archive, Archive-It, The National Archives 等合集(Ainsworth 则是 Momento 的开发者之一) 。最后,他们计算被存档地址的比例,被存档的次数以及存档的深度。

调查结果相差比较大,Internet Archive 存档的比例和深度最高。

搜索引擎同样将他们搜索到的页面进行快照存档,但基本都是一个多月前了。其它的存档都是某个专业领域的。比如 The National Archives 是英国政府的官方存档机构。此外存档的数量也有较大差异, DMOZ 和 Delicious 的存档相对保存较好,达到90%。 搜索引擎的存档率也比较差,Bitly 的情况则最差,大约只有三分之一的地址被存档, Ainsworth 他们说区别可能是像DMOZ 和 Delicious是人工审核站点,而搜索引擎是自动抓取信息存档,有一定的偏差,而 Bitly 存档率为什么这么低还不得而知,有可能 Bitly 只存档一些私密、独特或临时的资源。

因此,网上有多少资源被存档,是一个复杂的问题。网站存档的内容占总的比例从35%-90%不等,因此许多网络资源可能永久性地被遗失了。当然,这些资源流失的严重性还不得而知。但如果下一代对21世纪早期文化比较重视的话,那么档案学家就会更加重视对网络资源进行保存。本文译自 MIT Technology Review,由译者 amor 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力 !
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (1)

24H最赞