故事
一个83年前的短篇小说揭示了互联网的暗淡未来
从Borges的虚构图书馆到生成式AI的未来,互联网或许正步入信息失控的深渊。
互联网在未来几十年会如何演变?
科幻作家们已经给出了些许想象。
2019年,Neal Stephenson在小说《Fall》中描绘了一个互联网被虚假信息和广告污染得难以使用的近未来。小说中的角色通过订阅“编辑流”——由人工筛选的可信信息流——来应对。然而,这种服务只对富人开放,绝大多数人只能接触劣质内容。
现实中类似的现象已初见端倪。《纽约时报》和《华尔街日报》等机构将优质内容锁在付费墙后,而X和TikTok等平台上假信息滋生。Stephenson对未来的预测令人惊叹。他早在1992年的小说《Snow Crash》中预见了“元宇宙”,1995年的《Diamond Age》中则提到类似聊天机器人的互动教材。
表面上看,聊天机器人似乎能缓解假信息泛滥的问题,通过提供不受付费墙限制的高质量信息。然而,讽刺的是,这些工具可能会成为互联网未来的最大威胁。这一隐患,阿根廷作家Jorge Luis Borges几十年前就暗示过。
聊天机器人的兴起
目前,互联网上仍有大量经过审查的真实内容,诸如同行评审的文章和经过事实核查的书籍。这些内容成为大型语言模型(如ChatGPT、Copilot和Gemini)的训练基础。然而,网络资源是有限的。优质内容已被大规模提取,新的训练数据变得稀缺。《纽约时报》将其称为“内容危机”。
为获取更多训练数据,公司如OpenAI不得不与出版商签署协议。据预测,到2026年,高质量数据可能面临短缺。与此同时,聊天机器人的输出——包括虚假信息和低级错误——进一步污染网络。2016年,微软的Tay机器人因吸收网络上的种族主义和性别歧视内容被迫关闭,这正说明了问题的严重性。
随着劣质内容增多,网络资源可能变得更加不可信,而以此为食的AI模型则可能生成更糟糕的内容。
一个无用的无限图书馆
这一恶性循环会如何发展?2024年7月,《自然》上的一篇论文探讨了AI在递归数据上训练的后果,指出这种方式可能导致“模型崩溃”。这如同一张图片的不断拷贝会逐渐失真。
Borges在1941年的短篇小说《巴别图书馆》中,早已勾勒了一个类似的世界。他描绘了一个无限的六边形房间,每个房间的书架上摆满了包含字母所有排列组合的书籍。尽管理论上这些书中存在关于未来和生命意义的答案,但绝大多数书只是毫无意义的字母堆砌。在无穷的杂乱中,寻找真相变得几乎不可能。
这是否就是互联网的未来?人们或许要么支付高昂的费用获取可信内容,要么在无穷的垃圾信息中苦苦搜寻。
互联网曾被誉为人类伟大的成就之一。但任何资源都需要合理维护和管理,否则我们可能迎来Borges笔下的反乌托邦景象。
https://theconversation.com/an-83-year-old-short-story-by-borges-portends-a-bleak-future-for-the-internet-242998