AI写作最显著的特征之一,是对“——”的痴迷。科学家分析其可能源于模型训练数据中大量19世纪文学作品。AI的语言风格,或许来自维多利亚时代的笔触。
如果你想找出AI写作最“显眼”的特征,大概没有什么比那一长串破折号更典型的了。无论是在说明、转折,还是随意的感叹句中,它几乎无处不在。多到让热爱破折号的真人都开始克制使用,以免被误认为是机器写的。更奇怪的是,就算你明确告诉模型“别用破折号”,它仍然会固执地打上那一笔。为什么AI如此迷恋这种符号?
最常见的解释是:训练语料里本来就充满了破折号,所以模型只是模仿人类写作习惯。但这说不通。如果人类的写作中破折号真的这么普遍,我们早就不会觉得AI“用太多”了。
也有人说破折号灵活好用。模型在预测下一个词时,用破折号可以“留白”,既能延续话题,又能突然转折,像是思绪中一个深呼吸。但若真是如此,逗号或分号也能做到同样的事。模型未必是“求稳”,而更像是被某种风格训练出来的惯性所牵引。
另一种解释来自模型训练的后期阶段,也就是所谓RLHF(基于人类反馈的强化学习)。这一阶段往往由大量人类审阅员完成,他们评估模型回答的自然度与友好度。据悉,许多此类工作由肯尼亚、尼日利亚等非洲国家的英语母语者承担。有研究者猜测,AI的语言风格或许部分继承了“非洲英语”的表达方式,就像它偏爱使用“delve”(探究)这样的文学词。
但数据打脸了这一猜测。研究者统计尼日利亚英语文本中破折号的比例,发现仅为0.022%,远低于一般英语语料中约0.25%的水平。换言之,非洲英语其实更少用破折号。这也说明AI对“delve”的热爱,与它的破折号成瘾,可能不是同一机制导致的。
真正耐人寻味的,是AI模型进化的时间线。GPT-3.5几乎不怎么用破折号,到了GPT-4,这个符号的出现频率暴涨十倍,再到GPT-4.1,更是泛滥。其他公司的模型,如Anthropic、Google,甚至中文开源模型,都出现了同样的现象。
发生了什么?
一个重要变化在于训练数据来源。2022年前,AI主要以网络公开文本和盗版电子书为食。而当大型模型的潜力被证明后,研究机构意识到必须寻求更高质量的文本素材。于是,他们转向了实体书的扫描与数字化。Anthropic在2024年初就已开始这一进程,OpenAI很可能也同步展开。
而纸质书的风格,尤其是19世纪末到20世纪初的经典文学,恰好是破折号的黄金时代。根据语言学研究,破折号使用频率在1860年达到历史峰值,每千词中约有3.5个。相比当代英语,那个年代的作家更偏爱以破折号表现节奏与情感。
如果AI大量摄入这些年代的文本,就不难理解它为什么在写作中频频模仿那种古典韵味。换句话说,GPT的语言之血里流淌着19世纪的墨水。
博客作者Maria Sukhareva早就提出类似观点。她认为,AI写作中破折号泛滥,正是数字化文学训练的副产物,它学会了“老派英语”的节奏,却披着现代语义的外衣。想想《白鲸》里那1728个破折号,你或许会明白它的根源。
总结来看,关于AI“破折号癖”的解释大致分为三类:
第一种是结构论,认为破折号能节省字数、保持开放性;
第二种是行为论,认为人类评审更喜欢它带来的“对话感”;
第三种是数据论,认为它源自训练文本的风格偏差。
综合来看,最合理的解释仍是最后一种。AI读太多老书了。
当然,这仍只是推测。也许OpenAI比外界想象得更早开始数字化书籍,也可能AI如今在学习的文本中,已经掺入了其他AI写的句子,形成一种“风格回声”。
不过,有个问题依然让人困惑:既然AI吸收了那么多十九世纪的语料,为什么它的文风没有彻底变成《白鲸》那样的古典长句?或许,模型只继承了那时代的“标点习惯”,而不是语言的灵魂。
也有人提出更简单的解释。破折号让句子显得更口语化,读起来更自然,所以审阅员倾向于给这样的输出更高评分。甚至有传言称,Sam Altman曾暗示他们“特意加了些破折号,因为大家喜欢”。
听起来荒诞,但在语言与算法的缝隙间,也许这正是最人性的答案。
也许AI并不是“偏爱”破折号,而是它在学习人类表达情绪的方式。
本文译自 seangoedecke,由 BALI 编辑发布。

2025王摸鱼秋款卫衣,玩梗系列