语言的边界在哪里？

原文：《Why languages and dialects really are different animals》
作者：Søren Wichmann，08 January, 2019 / Edited by Sam Dresser / 有删改

这世上有许多长篇大论的回答，都起自一个简单的问题。例如：是什么区分了“language/语言”和“dialect/方言”？要是拿着这问题去找一个语言学家，那在他开口之前，你最好先弄张沙发——因为这问题虽然不算问错，但跟“先有鸡还是先有蛋？”一样，它简单字面的后头有各种关节要先锁定，才好往下解。

首先，什么是“区别”？自1850至1992年间，塞尔维亚-克罗地亚语下属主要有三大口音，即塞尔维亚、克罗地亚和波斯尼亚话。随着南斯拉夫解体成若干个独立国家，这些口音各自又成了某国的标准官话，从此被区别开来。这是政治界定，虽然可行——因为无论如何都是我们人在定夺而已——但还嫌粗糙了些，放眼开去，有很多语言难以靠国界来区分，如西班牙语，没有人能说南美现在用的西班牙语跟本土的是两个语种(虽它们各自有名称)，反倒是西班牙国内有些方言还比较特立独行，跟官方语疏远得多。

又或者，设定一个互相理解度的评分标准，双方理解度低于某个门槛便属于方言，更低的则属于另一语种？可惜的是这分法也太粗，其中一个问题在于理解度不对称。一个丹麦人基本能听懂瑞典人说的话，但瑞典人听丹麦话则可能一头雾水。译：又如无论你是福南、湖建还是上海宁，都能听懂东北银说的话，反过来就麻麻地。双向理解，或说“相互听懂”，往往跟历史、经贸、文化的传播或接触更有关联，而不是全赖语言根底相通，不是个趁手的标准。

所以，为了这事我们该琢磨出一种更精细的工具来量度。想象我们建立一个体系，能让两种语言比较后得出一个总差异值“D”。在这个体系里，我们只需要为D确立一个临界值，就可以用这个值来为广泛的语言分门别类。

当然这体系要实际建起来是很难的，换几十年前可能就只是种异想天开。简单讲，这里面有两大难点：一，是怎样量度两种话语之间的差异值，D。

语言的边界在哪里？

2008年，几国语言学家聚到一起运筹一个“自动化相似度判定计划”，简称ASJP，我是这团体的日常主持和发起人之一。我们暂定各地语言的实际状况与ISO 639-3编码所定义的相符，以其为基础构建出了一个体系，里面包含7655组能相互对应的单词表，而这些词表来自地球上三分之二的语种。

这体系磨出来后，所有词表(不是语言、单词)都可以转码成包含四十个固定符号的同一制式wiki，便于比较。比较所用方法是Levenshtein distance/字符串相似度算法的变种。它的逻辑是核算通过替换、插入和删除，要经多少步才能把一行字符完全换成别一行，合得的最小步数就是两行字符串的“距离”。把距离换算后就能得出刻度落在在0至1之间的D值。

(注：这里“换算”的原文是The Levenshtein distance can usefully be divided by the length of the longest of the two strings, because this puts all the distances on a scale from 0 to 1. This has become known as the normalised Levenshtein distance, or LDN /可以用LD距离，除以两组词表转化的字符串中最长字符的符号个数，从而得到一个0到1之间的值，籍此，同串内其它字符的距离也全可以用小数表示？黑人问号爆炸gif——这两段无论ISO 639-3和步数算法应用我都吃不准有没有误解作者的意思所以没有摊开译，只拢了个大意。水平够不上，觉得有趣就屁颠颠的翻，见笑。估计在专业人士看来原文已经介绍得够清楚？)

第二个难关是确定哪个值才可以作准。ASJP的词库包含有相当充足的“亲戚”语种，很方便对比异同。当比较所得逐渐密集后，我们也渐渐发现各地词语之间的差异是两头趋向的(像葫芦)，有些得数很小，有些则较大，两群之间隔着一个空谷，位于0.48附近。虽然这样说会丧失一点精确性，但语言不同，它们的基础词汇也就相应有差异。基础词汇要是能重合到一定程度，两者就可以算作不同口音；基础词汇要是疏离到一定程度，就是两种语言。换句话说，语言之间的界线，最终也投影在它们的词汇上，待人厘定。

我们观察到的分群现象，也许是移风易俗的遗痕。古人迁离旧地，言谈也跟着与母语代代疏远，对应着新的风土和需要，出现新的特征。如果两地始终还有往来，变化就会被牵制，让这地方人们的言谈不会离母语太远，乃成方言。但如果两地没能维持联系，疏远的势头没有受牵制，就会慢慢加速直至完全剥离，乃成新语种。

这个有客观根据的体系，能梳理全世界的语言。前文提及波斯尼亚和克罗地亚两国的国语，D值远远低于0.48，虽称呼不同实质就是同一语种，不管那片土地目前都有什么国家；有些则只是稍低于0.48，如印地语和乌尔都语(均是印度大语种)，算是远房亲戚；阿拉伯语和汉语的D值则远远高于0.48；此外还有比较棘手的组合，像丹麦语和瑞典语，是0.4921。

最后，ASJP还依据现有的数据，创制了一种年代算法，可以算出一种子语言在脱离母语后平均要多少年才能改头换面到称得上新语种。带着一点误差，答案是1059年。要旁证的话，也可以挑选一些古语，追溯它开枝散叶，在周边各地出现方言，方言又如何自立、剥离、向下分支的历程，这追溯应用的手段跟ASJP所创的年代算法不同，但其结果与算法所得结论都是相近的——大概千年。

译：有互联网之后，语言繁衍的进程和速度应该全都不同了。结尾这里的年代算法不一定好使，这点原文评论里也有人举例谈了观点。翻这篇文章没别的，就是向各位介绍下语言学有时在搞什么。

本文译自 aeon，由梁兵编辑发布。

赞一个 (15)

煎蛋

走进科学

语言的边界在哪里？

公告栏