AI生成的垃圾正在堵塞互联网

AI生成的低质内容正在淹没互联网，影响信息的真实性和创造力，未来可能更加严峻。

在2022年末，Neil Clarke的生活中开始出现“垃圾”现象。他创办的杂志Clarkesworld，作为科幻界的支柱，突然收到大量奇怪的投稿。Clarke说，这些故事通常以“在2250年的某个地方”开头，描绘地球环境崩溃，只有三位科学家能拯救世界，最终却是以庆祝结束，像极了《星球大战》的结尾。他表示，自己收到过“数十个这样的故事”。

这些故事被称为“垃圾”，是由人工智能生成的低劣内容，类似于垃圾邮件，越来越多地涌现在互联网及其外部。Clarke意识到，这些故事直接来自ChatGPT。有时投稿还附带原始提示，通常非常简单，比如“写一篇1000字的科幻故事”。

识别AI生成的投稿相对简单，但需要阅读成千上万的稿件。Clarke将这一过程比作关闭垃圾邮件过滤器后查看邮箱：“这就像把难度乘以十。”几周内，问题变得难以应对。他表示，Clarkesworld几乎收到了与合法投稿一样多的AI生成稿件。最终，他在2月20日决定暂时关闭投稿，Clarkesworld成为AI垃圾的首批受害者之一。

在过去的两年里，AI垃圾的潮流开始淹没我们所认为的互联网，涌入最大的平台，充斥着低质内容，似乎正在挤压人类的创造力。在Facebook上，有神秘页面发布伤残儿童和外星耶稣的图像；在Twitter上，成千上万的机器人相互发送无意义的推文；在Spotify上，奇怪而无生气的歌曲充斥播放列表；在Kindle上，低劣的书籍和错误百出的标题频繁出现。

如果这些内容只是稍微高效的垃圾邮件，那还算可以接受。但AI垃圾的潮流威胁着网络的核心功能，充斥着搜索结果，淹没小型机构如Clarkesworld，污染了脆弱的信息生态系统。WordFreq的创造者Robyn Speer上周宣布，由于垃圾内容的泛滥，她将停止更新该数据库。Speer表示：“我认为没有人能可靠地获取2021年后人类的语言使用信息。”人们担心，随着垃圾内容的增加，训练于互联网文本的大型语言模型(LLM)可能会“崩溃”——输入垃圾，输出垃圾。然而，即使这样的可怕故事也是一种美好的幻想：最近的研究表明，只要LLM的训练语料包含至少10%的非合成(即人类)输出，它就能一直生成垃圾。

更糟的是，AI垃圾不仅限于互联网，还以令人恼火和危险的方式进入离线系统。研究人员在6月发布的一项研究表明，所审查的学术论文中有十分之一是使用LLM处理的，这不仅质疑了这些个别论文，还影响了科学知识依赖的引用网络。宾夕法尼亚州一公共图书馆的目录员Derek Sullivan告诉我，AI生成的书籍开始频繁出现在他的桌面上。他首次注意到这个问题是因为一本虚构作者的食谱书，书中竟建议午餐吃纯番茄酱。现在，他看到的垃圾书籍常常涉及重要的主题，如纤维肌痛综合症或多动症儿童的养育。在最糟糕的情况下，您所在的地方图书馆可能充满了这些未经审查的AI生成材料，传播虚幻的事实和不人道的建议，只有通过不断的努力才能与人类创作的书籍区分开来。

幸运的是，Clarkesworld仅因AI垃圾的泛滥而暂时瘫痪；在2023年3月，Clarke在志愿者的帮助下建立了“非常初步的垃圾过滤器”，到月底杂志得以重新开放投稿。Clarke不愿透露过滤器的工作原理，以免给垃圾邮件发送者提供信息，但他说：“它正在阻挡一些内容。”不过，他在博客中指出，“显然，照常营业是不可持续的。如果这个领域无法找到解决方案，事情将开始崩溃。”

互联网本应是“信息高速公路”。尽管现在的互联网并不完全是人类智慧的善意进步，但我们仍然依赖它来回答问题、获取信息和学习新知识。随着消费者级生成AI的普及，这些任务变得越来越困难。通过Google回答问题时，顶部常常出现AI生成的“不准确摘要”，使其不再可信。在线阅读新闻时，可能会遇到未经编辑的AI生成的内容，CNET、BuzzFeed、USA Today和Sports Illustrated等媒体都发布了低质量的AI文章。

想象一下，如果您想下载一本关于可食用和有毒蘑菇的指南，您会在亚马逊上找到一些看似合法的书籍。但在搜索结果的前面，您也会发现一些明显是AI生成的指南，例如《采集者的收获101》。纽约真菌学会的秘书Elan Trybuch最近在博客中警告蘑菇采集者，称这些不完整的指南可能带来危险。虽然《采集者的收获101》可能准确且安全，但几乎可以肯定的是它未经审查，由一位AI生成，无法识别有毒和无毒蘑菇的微妙差别。

区分AI生成的指南和专家撰写的书籍并不容易。《采集者的收获101》封面设计简单易懂，文字流畅，但缺乏个性。究竟是完全由AI生成的、还是自出版的小册子，或是削减了市场和编辑预算的出版社出版的书籍？我之所以敢肯定它是AI生成的，仅仅因为Diane的作者照片上有一个水印，标明它来自生成虚假肖像的网站ThisPersonDoesNotExist.com。

面对此类经历——看到一系列由AI撰写、配有计算机生成作者照片和机器人评论的书籍——许多人认为这证明了“死亡互联网理论”，这一观点认为，网上的人类只占少数，大部分内容是由AI生成，为AI机器人创造的内容供其追随者消费，机器人之间相互评论和争论。AI垃圾的上升，恰如一部科幻小说：一股神秘的噪音从无处涌现，半自洽的计算机用人类的声音喋喋不休。

然而，认为AI悄然挤走人类的说法并不完全正确。垃圾内容需要人类的干预才能存在。在这股奇怪且令人疏离的机器生成内容的洪流下，是一个蓬勃发展的全球灰色市场经济，充斥着寻找快速致富机会的垃圾邮件发送者和创业者，他们受到生成AI的推动。

Clarke告诉我：“这些东西的源头是副业骗局。”一些人在YouTube或TikTok上展示金钱，声称“通过ChatGPT赚取收入。”Clarke甚至能追踪到投稿高峰与特定视频的关联。真正影响Clarkesworld的，并不是某种新兴的人工超级智能，而是像Hanna Getachew这样的影响者，她在阿姆哈拉语的YouTube频道上教人们副业和在线工作，最近发布了一段名为“通过Clarkesworld杂志赚钱”的视频。

这一经济学原理很简单：一方面是需求，像Facebook和TikTok这样的网站需要内容来吸引用户并提供广告位；另一方面是供应，生成AI应用如ChatGPT、Midjourney或微软的Image Creator提供的源源不断的内容。数十亿美元在这两者之间流动，任何想要在此领域分一杯羹的人都需要找到切入点并获取利润。最直接的选择就是成为“内容生成者”，利用AI大规模生成内容并通过平台获利。生成者可能会尝试在大型市场上直接销售内容，或者建立一个充满LLM生成文章的网站，通过广告获利，甚至直接从平台获得AI生成文本、图像和视频的报酬。

以Facebook为例，AI生成的图像已成为无法忽视的现象。今年以来，许多匿名页面发布的奇怪图像层出不穷。这些图像从最初的病毒式模仿演变为奇幻的梦境场景，出现了多头、巨乳的“农女”、在泥泞河流中行走的空姐，以及手持“今天是我生日”的残疾乞丐等角色。其中最著名的图像之一是“虾耶稣”，这个耶稣的雕像半浸在水中，四肢和躯干全是虾壳。大多数页面似乎没有明显的诈骗行为，没有广告或外部链接，完全没有商业模式，只是在一个空虚的空间中发布荒谬的内容。

这些图像的来源部分是肯尼亚的一位叫Stephen Mwangi的人。他自称“Stevo”，是五个YouTube频道和大约170个Facebook页面的管理员，其中最大的页面有400万粉丝。他同意以105美元的价格分享他的经验。“如果需要我的信息，就要付费，”他写道。他的内容创作过程相当简单且依赖AI：“我使用ChatGPT请求能在Facebook上产生高参与度的最佳图像”，主题包括圣经、上帝、美军、野生动物和曼联等。他分享的截图中，ChatGPT的提示是：“写10个耶稣的图像提示，能够带来高参与度。”

这些页面通过Facebook的绩效奖金计划获利，该计划允许创作者根据其帖子获得收益。Stevo页面上的AI图像，如华丽的耶稣画面、肌肉发达的警察等，既不是诈骗，也不是诱饵，Facebook对此并不在意，它们正是公司所希望的高参与度内容。

在Facebook上，越是奇怪的图像，越容易吸引注意和互动；而更多的互动又会促使Facebook的算法推荐这些图像。另一位AI内容创作者，法国审计师Charles，在TikTok上制作关于猫的奇异故事，他表示总是让内容“有点不靠谱”，以提高病毒传播的可能性。

Stevo坚持不使用机器人来提升粉丝数量或支付参与度。他分享了一张截图，显示他在今年5月至6月的活动中获得了500美元的奖金。虽然这并不是完全的被动收入，但他每天花费约六小时管理Facebook页面。他不得不面对Facebook不透明的审核和决策过程。

在这个“垃圾经济”中，真实的人在背后操作，包括上传AI生成的相似作品。slopper们在社交平台上交流技巧，分享 prompts，形成了一个庞大的生态系统。虽然这种现象并不新鲜，但随着AI的进步，内容生产的外包变得越来越普遍。

Cabanac教授研究了生成AI文本在学术界的影响，发现几乎有100篇明显由AI生成的科学论文。他认为，AI生成的论文往往被用来充实学者的简历，不断降低科学出版的质量。

在未来，我们每个人都可能成为信息筛选者，面对越来越多的“垃圾”内容。尽管这种现象令人担忧，但它反映了我们的消费需求。社交媒体用户的无意识滑动、自动播放的Spotify，都是对“垃圾”的需求。正如Wired杂志所言，这种“足够好”的技术革命正在重塑我们的内容消费方式。

原文： nymag