@ 2024.04.04 , 07:00

AI制造的垃圾正在污染我们的文化

大量人工智能生成的內容充斥网络,不仅影响网络环境,更渗透到科学研究、社交媒体、新闻媒体等领域,对人类文化造成负面影响,亟需采取措施加以管制。

越来越多的合成AI生成的内容充斥着我们的信息流和搜索结果。这些问题的严重性远远超出了我们的屏幕。整个文化都受到了AI的溢出效应影响,这种影响正悄然侵蚀我们最重要的机构。

以科学为例。在OpenAI发布的最新人工智能模型GPT-4之后,科学研究的语言开始发生变化。尤其是在AI领域本身。本月发表的一项研究考察了多个知名科学会议上研究AI的科学家的同行评审——这些评审是科学研究进展的基石——在这些会议上,同行评审中使用“细致”一词的频率是前一年的34倍以上。使用“值得称赞”的频率大约是10倍,“复杂”则是11倍。其他大型会议也显示出类似的模式。

这些短语当然是现代大型语言模型(如ChatGPT)的最爱。换句话说,大量AI会议上的研究人员被发现将他们的同行评审工作交给了AI——或者至少是在AI的大量帮助下撰写。而且,提交的评审越是临近截止日期,其中发现的AI使用就越多。

如果这让你感到不适——尤其是考虑到AI目前的不可靠性——或者你认为应该由科学家而不是AI来评审科学,这些感受突显了这项技术核心的悖论:在欺诈和常规使用之间的道德界限并不清楚。一些AI生成的欺诈很容易识别,就像一篇医学期刊论文中出现的卡通老鼠,其生殖器官异常巨大。许多其他欺诈则更为隐蔽,就像同一篇论文中描述的错误标记和幻觉般的调控途径——这篇论文也经过了同行评审(也许,有人可能会推测,是由另一个AI评审的?)。

当AI以预期的方式被使用——协助写作时,又会发生什么?最近,当人们发现简单的科学数据库搜索返回了像“作为一个AI语言模型”这样的短语,这是因为依赖AI的作者忘记了掩盖他们的踪迹。如果这些作者简单地删除了这些意外的水印,他们使用AI来写论文是否就可以接受?

科学领域正在发生的事情只是一个更大问题的缩影。在社交媒体上发帖?现在任何关于X的热门帖子几乎肯定包含了AI生成的回复,从对原始帖子的总结到用ChatGPT那种平淡无奇的维基百科式语气写出的反应,都是为了吸引关注。Instagram上充斥着AI生成的模特,Spotify上有AI生成的歌曲。出版一本书?之后不久,在亚马逊上通常会出售声称与你的书配套的AI生成的“工作簿”(它们的内容是错误的;我知道这一点,因为这也发生在我身上)。谷歌搜索的顶部结果现在经常是AI生成的图像或文章。像《体育画报》这样的主要媒体已经开始创建AI生成的文章,归功于同样虚假的作者档案。销售搜索引擎优化方法的营销人员公开吹嘘使用AI创建数千篇垃圾文章,以从竞争对手那里窃取流量。

然后是生成性AI日益增长的使用,用于扩大YouTube上儿童合成视频的制作规模。一些输出的例子是洛夫克拉夫特式恐怖,比如关于鹦鹉的音乐视频,其中鸟类有眼睛中的眼睛,喙中的喙,形态不可理解地变化,用人工声音唱着,“树上的鹦鹉说你好,你好!”叙述没有意义,角色随机出现和消失,基本事实(如形状的名称)都是错误的。在我发现我的通讯《内在视角》上许多这样的可疑频道后,《连线》杂志发现了一些拥有数十万甚至数百万订阅者的账户在生产流程中使用生成性AI的证据。

作为一名神经科学家,这让我感到担忧。难道人类文化中不包含认知微量营养素——像连贯的句子、叙述和角色连贯性这样的东西——发展中的大脑需要吗?爱因斯坦据说曾说过:“如果你想让你的孩子聪明,就给他们读童话故事。如果你想让他们非常聪明,就给他们读更多的童话故事。”但是,当一个幼儿主要消费AI生成的梦想垃圾时,会发生什么?我们发现自己正处于一个巨大的发展实验之中。

现在互联网上有如此多的合成垃圾,以至于AI公司和研究人员自己也感到担忧,他们担心的不是文化的健康状况,而是他们的模型将会发生什么。随着AI能力在2022年的提升,我写过关于文化变得如此泛滥于AI创作,以至于当未来的AI被训练时,之前的AI输出将渗透到训练集中,导致未来的复制品的复制品的复制品,因为内容变得越来越刻板和可预测。2023年,研究人员引入了一个技术术语来描述这种风险如何影响AI训练:模型崩溃。在某种程度上,我们和这些公司处于同一条船上,划着同一股污泥流入我们的文化海洋。

带着这种不愉快的比喻,值得看看我们当前情况的最清晰的类比:环境运动和气候变化。正如公司和个人被不可阻挡的经济学驱动去污染一样,AI的文化污染也是由理性的决定驱动的,以尽可能便宜的方式填补互联网对内容的贪婪需求。虽然环境问题远未解决,但已经取得了不可否认的进展,使我们的城市基本上没有雾霾,我们的湖泊基本上没有污水。这是怎么做到的?

在任何具体政策解决方案之前,是承认环境污染是一个需要外部立法解决的问题。对这一观点产生影响的是1968年由生物学家和生态学家加勒特·哈丁提出的观点。哈丁博士强调,污染问题是由人们为了自己的利益行事推动的,因此“只要我们只像独立的、理性的、自由企业者那样行事,我们就锁定在一个‘弄脏自己的巢’的系统中。”他将问题总结为“公地悲剧”。这种框架对环境运动起到了推动作用,该运动依靠政府监管来完成公司单独或不愿意做的事情。

我们再次发现自己在上演一场公地悲剧:短期经济自利鼓励使用廉价的AI内容来最大化点击和观看,这反过来又污染了我们的文化,甚至削弱了我们对现实的把握。到目前为止,主要的AI公司拒绝采取先进的方法来识别AI的作品——他们可以通过在单词使用或图像像素中隐藏微妙的统计模式来做到这一点。

不采取行动的一个常见理由是,如果知道足够多,人类编辑总可以调整任何使用的模式。然而,我们正在经历的许多问题并不是由有动机和技术熟练的恶意行为者引起的;它们主要是由普通用户不遵守几乎不存在的道德使用界限所引起的。大多数人对将统计模式纳入输出的先进对策不感兴趣,理想情况下,这些输出应该标明它们是由AI生成的。

这就是为什么独立研究人员能够以惊人的高准确率在同行评审系统中检测到AI输出:他们真的尝试了。同样,现在全国的老师们已经创建了自制的输出侧检测方法,比如在只有复制粘贴时才会出现的论文提示中添加隐藏的单词使用模式请求。

特别是,AI公司似乎反对任何可以提高AI检测努力合理水平的内置模式,也许是因为他们担心,执行这些模式可能会通过限制输出太多而干扰模型的性能——尽管目前没有证据表明这是风险。尽管公开承诺要开发更先进的水印技术,但越来越清楚的是,公司之所以拖延,是因为对于AI行业来说,拥有可检测的产品是违背其底线的。

为了应对这种企业的拒绝行动,我们需要相当于《清洁空气法》的东西:《清洁互联网法》。也许最简单的解决方案将是立法强制生成的输出内在的高级水印,比如不容易移除的模式。就像20世纪需要广泛的干预来保护共享环境一样,21世纪将需要广泛的干预来保护一个不同的、但同样关键的共同资源,一个我们直到现在才注意到的共同资源,因为它从未受到威胁:我们共享的人类文化。

本文译自 The New York Times,由 BALI 编辑发布。

赞一个 (6)