史海钩沉
自然语言处理简史之一:从神秘主义卡巴拉教派说起
自然语言处理(NLP)领域正蓬勃发展。NLP是计算机科学的一个分支,专注于人与机器之间的语言交互。由于过去十年来机器学习的进步,我们在语音识别和机器翻译方面取得了长足的进展。现在,语言生成器已足够优秀,可以撰写连贯的新闻文章,而Siri和Alexa等虚拟助手正成为我们日常生活的一部分。
大多数人将NLP的起源追溯至计算机概念首次问世的时期——1950年,艾伦·图灵(Alan Turing)写道,他设想有一种智能机器可以通过在屏幕上显示文字与人类进行流畅的交互。因此,机器生成的语言通常被理解为一种数码现象,且是人工智能(AI)研究的主要目标。
实际上,设计可分析、处理和生成语言的形式规则和机器的尝试最早可追溯到数百年前。
故事始于中世纪的西班牙。1200年代后期,巴塞罗那一位名叫亚伯拉罕·阿布拉菲亚(Abraham Abulafia)的犹太神秘主义者坐在小屋中的一张桌子旁,拿起鹅毛笔,蘸上墨水,然后开始将希伯来字母组合成奇怪的、看似随机的字符串。 Aleph与Bet,Bet与Gimmel,Gimmel与Aleph和Bet,等等。
阿布拉菲亚称之为“字母组合的科学”。他在研究古代卡巴拉教派的文本《Sefer Yetsirah》时,精心制定了一套秘密规则。这本典籍记载着上帝如何利用神圣公式结合希伯来字母来创造“一切物质和所有概念”。
通过研究Sefer Yetsirah,阿布拉菲亚获得了一种洞见,即可以用形式规则来操纵语言符号,以创建新的,有趣的,有洞察力的句子。为此,他花了几个月的时间来生成希伯来字母的22个字母的数千种组合,最终出现了一系列他认为代表先知预言的文字。
对阿布拉菲亚而言,根据神圣规则产生的语言,有助于提升他对神圣和未知事物的洞察力,或者如他所说,可以使他“掌握人类传统或隐秘的存在”。
但是其他犹太学者认为,这基本属于亵渎传统的危险行为。《塔木德》记载了拉比的故事。拉比根据Sefer Yetsirah提出的公式通过语言的神奇魔法,创造了被称为魔像的人造生物。在这些故事中,拉比使用神圣的公式使希伯来语的字母具备了上帝的造物时的威能,赋予黏土和岩石以生命。
在神话中,拉比让黏土仆人为他劳作,或充当战士。但是,故事中的结局往往十分糟糕。在一个特别著名的寓言中,16世纪布拉格的犹太教士犹大·洛·本·贝萨勒(Judah Loew ben Bezalel)想要利用神圣公式制造保护者,结果有了生命的魔像向他伸出了魔爪。
“字母组合的科学”是自然语言处理的基本形式。对于卡巴拉教派来说,这是一把双刃剑:一种获取新形式的知识和智慧的方式,一种内在的危险实践,可能带来意想不到的后果。
这种紧张状态贯穿了整个语言处理的悠久历史,在对数字时代最前沿的NLP技术的思考中仍有所反映。
这就是关于自然语言处理简史系列的第一部分。第二部分将带我们走进启蒙运动,当时戈特弗里德·威廉·莱布尼茨Gottfried Wilhelm Leibniz梦想着可以计算思想的机器。