@ 2024.10.01 , 07:04
2

AI生成的垃圾正在堵塞互联网

AI生成的低质内容正在淹没互联网,影响信息的真实性和创造力,未来可能更加严峻。

在2022年末,Neil Clarke的生活中开始出现“垃圾”现象。他创办的杂志Clarkesworld,作为科幻界的支柱,突然收到大量奇怪的投稿。Clarke说,这些故事通常以“在2250年的某个地方”开头,描绘地球环境崩溃,只有三位科学家能拯救世界,最终却是以庆祝结束,像极了《星球大战》的结尾。他表示,自己收到过“数十个这样的故事”。

这些故事被称为“垃圾”,是由人工智能生成的低劣内容,类似于垃圾邮件,越来越多地涌现在互联网及其外部。Clarke意识到,这些故事直接来自ChatGPT。有时投稿还附带原始提示,通常非常简单,比如“写一篇1000字的科幻故事”。

识别AI生成的投稿相对简单,但需要阅读成千上万的稿件。Clarke将这一过程比作关闭垃圾邮件过滤器后查看邮箱:“这就像把难度乘以十。”几周内,问题变得难以应对。他表示,Clarkesworld几乎收到了与合法投稿一样多的AI生成稿件。最终,他在2月20日决定暂时关闭投稿,Clarkesworld成为AI垃圾的首批受害者之一。

在过去的两年里,AI垃圾的潮流开始淹没我们所认为的互联网,涌入最大的平台,充斥着低质内容,似乎正在挤压人类的创造力。在Facebook上,有神秘页面发布伤残儿童和外星耶稣的图像;在Twitter上,成千上万的机器人相互发送无意义的推文;在Spotify上,奇怪而无生气的歌曲充斥播放列表;在Kindle上,低劣的书籍和错误百出的标题频繁出现。

如果这些内容只是稍微高效的垃圾邮件,那还算可以接受。但AI垃圾的潮流威胁着网络的核心功能,充斥着搜索结果,淹没小型机构如Clarkesworld,污染了脆弱的信息生态系统。WordFreq的创造者Robyn Speer上周宣布,由于垃圾内容的泛滥,她将停止更新该数据库。Speer表示:“我认为没有人能可靠地获取2021年后人类的语言使用信息。”人们担心,随着垃圾内容的增加,训练于互联网文本的大型语言模型(LLM)可能会“崩溃”——输入垃圾,输出垃圾。然而,即使这样的可怕故事也是一种美好的幻想:最近的研究表明,只要LLM的训练语料包含至少10%的非合成(即人类)输出,它就能一直生成垃圾。

更糟的是,AI垃圾不仅限于互联网,还以令人恼火和危险的方式进入离线系统。研究人员在6月发布的一项研究表明,所审查的学术论文中有十分之一是使用LLM处理的,这不仅质疑了这些个别论文,还影响了科学知识依赖的引用网络。宾夕法尼亚州一公共图书馆的目录员Derek Sullivan告诉我,AI生成的书籍开始频繁出现在他的桌面上。他首次注意到这个问题是因为一本虚构作者的食谱书,书中竟建议午餐吃纯番茄酱。现在,他看到的垃圾书籍常常涉及重要的主题,如纤维肌痛综合症或多动症儿童的养育。在最糟糕的情况下,您所在的地方图书馆可能充满了这些未经审查的AI生成材料,传播虚幻的事实和不人道的建议,只有通过不断的努力才能与人类创作的书籍区分开来。

幸运的是,Clarkesworld仅因AI垃圾的泛滥而暂时瘫痪;在2023年3月,Clarke在志愿者的帮助下建立了“非常初步的垃圾过滤器”,到月底杂志得以重新开放投稿。Clarke不愿透露过滤器的工作原理,以免给垃圾邮件发送者提供信息,但他说:“它正在阻挡一些内容。”不过,他在博客中指出,“显然,照常营业是不可持续的。如果这个领域无法找到解决方案,事情将开始崩溃。”

互联网本应是“信息高速公路”。尽管现在的互联网并不完全是人类智慧的善意进步,但我们仍然依赖它来回答问题、获取信息和学习新知识。随着消费者级生成AI的普及,这些任务变得越来越困难。通过Google回答问题时,顶部常常出现AI生成的“不准确摘要”,使其不再可信。在线阅读新闻时,可能会遇到未经编辑的AI生成的内容,CNET、BuzzFeed、USA Today和Sports Illustrated等媒体都发布了低质量的AI文章。

想象一下,如果您想下载一本关于可食用和有毒蘑菇的指南,您会在亚马逊上找到一些看似合法的书籍。但在搜索结果的前面,您也会发现一些明显是AI生成的指南,例如《采集者的收获101》。纽约真菌学会的秘书Elan Trybuch最近在博客中警告蘑菇采集者,称这些不完整的指南可能带来危险。虽然《采集者的收获101》可能准确且安全,但几乎可以肯定的是它未经审查,由一位AI生成,无法识别有毒和无毒蘑菇的微妙差别。

区分AI生成的指南和专家撰写的书籍并不容易。《采集者的收获101》封面设计简单易懂,文字流畅,但缺乏个性。究竟是完全由AI生成的、还是自出版的小册子,或是削减了市场和编辑预算的出版社出版的书籍?我之所以敢肯定它是AI生成的,仅仅因为Diane的作者照片上有一个水印,标明它来自生成虚假肖像的网站ThisPersonDoesNotExist.com。

面对此类经历——看到一系列由AI撰写、配有计算机生成作者照片和机器人评论的书籍——许多人认为这证明了“死亡互联网理论”,这一观点认为,网上的人类只占少数,大部分内容是由AI生成,为AI机器人创造的内容供其追随者消费,机器人之间相互评论和争论。AI垃圾的上升,恰如一部科幻小说:一股神秘的噪音从无处涌现,半自洽的计算机用人类的声音喋喋不休。

然而,认为AI悄然挤走人类的说法并不完全正确。垃圾内容需要人类的干预才能存在。在这股奇怪且令人疏离的机器生成内容的洪流下,是一个蓬勃发展的全球灰色市场经济,充斥着寻找快速致富机会的垃圾邮件发送者和创业者,他们受到生成AI的推动。

Clarke告诉我:“这些东西的源头是副业骗局。”一些人在YouTube或TikTok上展示金钱,声称“通过ChatGPT赚取收入。”Clarke甚至能追踪到投稿高峰与特定视频的关联。真正影响Clarkesworld的,并不是某种新兴的人工超级智能,而是像Hanna Getachew这样的影响者,她在阿姆哈拉语的YouTube频道上教人们副业和在线工作,最近发布了一段名为“通过Clarkesworld杂志赚钱”的视频。

这一经济学原理很简单:一方面是需求,像Facebook和TikTok这样的网站需要内容来吸引用户并提供广告位;另一方面是供应,生成AI应用如ChatGPT、Midjourney或微软的Image Creator提供的源源不断的内容。数十亿美元在这两者之间流动,任何想要在此领域分一杯羹的人都需要找到切入点并获取利润。最直接的选择就是成为“内容生成者”,利用AI大规模生成内容并通过平台获利。生成者可能会尝试在大型市场上直接销售内容,或者建立一个充满LLM生成文章的网站,通过广告获利,甚至直接从平台获得AI生成文本、图像和视频的报酬。

以Facebook为例,AI生成的图像已成为无法忽视的现象。今年以来,许多匿名页面发布的奇怪图像层出不穷。这些图像从最初的病毒式模仿演变为奇幻的梦境场景,出现了多头、巨乳的“农女”、在泥泞河流中行走的空姐,以及手持“今天是我生日”的残疾乞丐等角色。其中最著名的图像之一是“虾耶稣”,这个耶稣的雕像半浸在水中,四肢和躯干全是虾壳。大多数页面似乎没有明显的诈骗行为,没有广告或外部链接,完全没有商业模式,只是在一个空虚的空间中发布荒谬的内容。

这些图像的来源部分是肯尼亚的一位叫Stephen Mwangi的人。他自称“Stevo”,是五个YouTube频道和大约170个Facebook页面的管理员,其中最大的页面有400万粉丝。他同意以105美元的价格分享他的经验。“如果需要我的信息,就要付费,”他写道。他的内容创作过程相当简单且依赖AI:“我使用ChatGPT请求能在Facebook上产生高参与度的最佳图像”,主题包括圣经、上帝、美军、野生动物和曼联等。他分享的截图中,ChatGPT的提示是:“写10个耶稣的图像提示,能够带来高参与度。”

这些页面通过Facebook的绩效奖金计划获利,该计划允许创作者根据其帖子获得收益。Stevo页面上的AI图像,如华丽的耶稣画面、肌肉发达的警察等,既不是诈骗,也不是诱饵,Facebook对此并不在意,它们正是公司所希望的高参与度内容。

在Facebook上,越是奇怪的图像,越容易吸引注意和互动;而更多的互动又会促使Facebook的算法推荐这些图像。另一位AI内容创作者,法国审计师Charles,在TikTok上制作关于猫的奇异故事,他表示总是让内容“有点不靠谱”,以提高病毒传播的可能性。

Stevo坚持不使用机器人来提升粉丝数量或支付参与度。他分享了一张截图,显示他在今年5月至6月的活动中获得了500美元的奖金。虽然这并不是完全的被动收入,但他每天花费约六小时管理Facebook页面。他不得不面对Facebook不透明的审核和决策过程。

在这个“垃圾经济”中,真实的人在背后操作,包括上传AI生成的相似作品。slopper们在社交平台上交流技巧,分享 prompts,形成了一个庞大的生态系统。虽然这种现象并不新鲜,但随着AI的进步,内容生产的外包变得越来越普遍。

Cabanac教授研究了生成AI文本在学术界的影响,发现几乎有100篇明显由AI生成的科学论文。他认为,AI生成的论文往往被用来充实学者的简历,不断降低科学出版的质量。

在未来,我们每个人都可能成为信息筛选者,面对越来越多的“垃圾”内容。尽管这种现象令人担忧,但它反映了我们的消费需求。社交媒体用户的无意识滑动、自动播放的Spotify,都是对“垃圾”的需求。正如Wired杂志所言,这种“足够好”的技术革命正在重塑我们的内容消费方式。

本文译自 nymag,由 BALI 编辑发布。

赞一个 (4)