一个83年前的短篇小说揭示了互联网的暗淡未来

从Borges的虚构图书馆到生成式AI的未来，互联网或许正步入信息失控的深渊。

互联网在未来几十年会如何演变？
科幻作家们已经给出了些许想象。

2019年，Neal Stephenson在小说《Fall》中描绘了一个互联网被虚假信息和广告污染得难以使用的近未来。小说中的角色通过订阅“编辑流”——由人工筛选的可信信息流——来应对。然而，这种服务只对富人开放，绝大多数人只能接触劣质内容。

现实中类似的现象已初见端倪。《纽约时报》和《华尔街日报》等机构将优质内容锁在付费墙后，而X和TikTok等平台上假信息滋生。Stephenson对未来的预测令人惊叹。他早在1992年的小说《Snow Crash》中预见了“元宇宙”，1995年的《Diamond Age》中则提到类似聊天机器人的互动教材。

表面上看，聊天机器人似乎能缓解假信息泛滥的问题，通过提供不受付费墙限制的高质量信息。然而，讽刺的是，这些工具可能会成为互联网未来的最大威胁。这一隐患，阿根廷作家Jorge Luis Borges几十年前就暗示过。

聊天机器人的兴起

目前，互联网上仍有大量经过审查的真实内容，诸如同行评审的文章和经过事实核查的书籍。这些内容成为大型语言模型(如ChatGPT、Copilot和Gemini)的训练基础。然而，网络资源是有限的。优质内容已被大规模提取，新的训练数据变得稀缺。《纽约时报》将其称为“内容危机”。

为获取更多训练数据，公司如OpenAI不得不与出版商签署协议。据预测，到2026年，高质量数据可能面临短缺。与此同时，聊天机器人的输出——包括虚假信息和低级错误——进一步污染网络。2016年，微软的Tay机器人因吸收网络上的种族主义和性别歧视内容被迫关闭，这正说明了问题的严重性。

随着劣质内容增多，网络资源可能变得更加不可信，而以此为食的AI模型则可能生成更糟糕的内容。

一个无用的无限图书馆

这一恶性循环会如何发展？2024年7月，《自然》上的一篇论文探讨了AI在递归数据上训练的后果，指出这种方式可能导致“模型崩溃”。这如同一张图片的不断拷贝会逐渐失真。

Borges在1941年的短篇小说《巴别图书馆》中，早已勾勒了一个类似的世界。他描绘了一个无限的六边形房间，每个房间的书架上摆满了包含字母所有排列组合的书籍。尽管理论上这些书中存在关于未来和生命意义的答案，但绝大多数书只是毫无意义的字母堆砌。在无穷的杂乱中，寻找真相变得几乎不可能。

这是否就是互联网的未来？人们或许要么支付高昂的费用获取可信内容，要么在无穷的垃圾信息中苦苦搜寻。

互联网曾被誉为人类伟大的成就之一。但任何资源都需要合理维护和管理，否则我们可能迎来Borges笔下的反乌托邦景象。

https://theconversation.com/an-83-year-old-short-story-by-borges-portends-a-bleak-future-for-the-internet-242998