@ 2013.01.17 , 13:08
14

测算:有多少网页被存档

没人知道互联网上有多少网页被存档(archive),现在一个计算机科学家小组对此做了专门研究(PDF下载)。

博物馆和图书馆很久以前就试图为子孙后代保护文物。由于互联网是一个文化产物,而且种类繁多,影响力很深。因此档案工作者把注意力转移到互联网上毫不奇怪。

由于新网页、图片、视频和音频在网络世界出现和消失的速度极快,因此保存网络档案极其不易。我们不禁要问,至今为止互联网上的内容已经成功地保存了多少?来自弗吉尼亚州 Dominion 大学的 Scott Ainsworth 和他的同伴说,这取决于你怎么看这件事情,因为不同的网上资源似乎是以不同的方式储存起来。搜集并将网上的所有信息存档是不可能的。

[-]

他们采取收集样本在线地址进行统计学分析,然后看有多少比例已经被存档了。Ainsworth 和他的同伴们从开放式目录项目(DMOZ)、Delicious 的最近的书签列表、网址缩短服务商Bitly,以及从搜索引擎谷歌、Bing和雅虎抽取了1000个网络地址。然后,他们使用 Memento工具进行查看,Memento 工具是互联网存档资源如 Internet Archive, Archive-It, The National Archives 等合集(Ainsworth 则是 Momento 的开发者之一) 。最后,他们计算被存档地址的比例,被存档的次数以及存档的深度。

调查结果相差比较大,Internet Archive 存档的比例和深度最高。

搜索引擎同样将他们搜索到的页面进行快照存档,但基本都是一个多月前了。其它的存档都是某个专业领域的。比如 The National Archives 是英国政府的官方存档机构。此外存档的数量也有较大差异, DMOZ 和 Delicious 的存档相对保存较好,达到90%。 搜索引擎的存档率也比较差,Bitly 的情况则最差,大约只有三分之一的地址被存档, Ainsworth 他们说区别可能是像DMOZ 和 Delicious是人工审核站点,而搜索引擎是自动抓取信息存档,有一定的偏差,而 Bitly 存档率为什么这么低还不得而知,有可能 Bitly 只存档一些私密、独特或临时的资源。

因此,网上有多少资源被存档,是一个复杂的问题。网站存档的内容占总的比例从35%-90%不等,因此许多网络资源可能永久性地被遗失了。当然,这些资源流失的严重性还不得而知。但如果下一代对21世纪早期文化比较重视的话,那么档案学家就会更加重视对网络资源进行保存。本文译自 MIT Technology Review,由译者 amor 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (1)

TOTAL COMMENTS: 14+1

  1. Sheldon
    @5 years ago
    1728652

    煎蛋有没有被存档?
    嗯?
    还是说我们过了5年了也还依然是一个小众网站呢?

    [22] XX [0] 回复 [0]
  2. 1728656

    其实每当看到底下还没有留言的时候,我脑子里想的不是“啊SF”而是这时候随便写写什么通情达理的东西都很容易上右边。。

    [60] XX [2] 回复 [0]
  3. 骑猪奔跑
    @5 years ago
    1728662

    我早已开始存档,1024已攻占E,F盘

    [16] XX [0] 回复 [0]
  4. wogege
    @5 years ago
    1728666

    哈哈哈,很不错哦

  5. 1728670

    我爱纽纹柴 粤语 资源已经遗失了 能找到的都是双语分不出声道的 反正我是找不到了 哭啊 当年没留档

  6. 真的金龙
    @5 years ago
    1728674

    有一些种子依然存在,但影片却没有了

    [51] XX [1] 回复 [0]
  7. 偏执狂
    @5 years ago
    1728682

    艹榴的

  8. 偶弯曲44号
    @5 years ago
    1728686

    请邪恶的西方国家一定要多存些,若干年后,我会让我的子孙们把他们都烧给曾经墙内的我的

    [30] XX [2] 回复 [0]
  9. 偏执狂
    @5 years ago
    1728690

    草榴的

  10. 哈佛教授专通任督二脉
    @5 years ago
    1728762

    一存档全是广告,还是flash的,晃瞎后来人的氖金狗眼。

  11. 1728970

    卧槽还真上了。。。

  12. 苔原
    @5 years ago
    1729116

    @Sheldon: 有妹子图,何来此虑

  13. WhySoSerious
    @5 years ago
    1729442

    信息量太大,筛选和甄别将占用大量的额外资源,所以还是随风散了吧

  14. 大宝剑
    @2 years ago
    3052840

    消失的快点好,这样你的后代在无聊的时候就不会收到长辈在网络上傻傻的留言了

    我打赌你肯定在网上做过傻事

发表评论


24H最赞