无厘头研究
你知道什么是可拉伸单词吗
对Twitter上的内容进行的分析,揭示了人们如何使用可拉伸词(如“duuuuude”,“heyyyyy”或“ noooooooo”)。伯灵顿佛蒙特大学的Tyler Gray和同事在2020年5月27日的开放获取期刊PLOS ONE中公布了自己的研究成果。
在口语和书面语中,延伸的单词可以修改单词的含义。例如,“suuuuure”可能表示讽刺,而“yeeesssss”可能表示兴奋。 延伸的单词在正式写作中很少见,但是社交媒体的兴起为它们提供了新的机会。
Gray和他的同事现在已完成了迄今为止针对社交媒体中“可拉伸”单词现象的最全面研究。他们开发了一种新的、更彻底的算法来识别推文中的拉伸单词,并使用它来分析随机选择的数据集,该数据集约占2008年9月至2016年12月之间产生的所有推文的10%,总计约1000亿条推文。
研究人员在推文中识别出数千个“可拉伸”单词,包括“ha”(例如“hahaha”或“haaahaha”),“awesome”(例如“ awessssommmmmeeeeeeee”)和“goal”(例如ggggoooooaaaaallllll)。
他们还确定了衡量可伸展单词特征的两种关键方法:平衡和伸展。平衡是指不同字母倾向于重复的程度。 例如,“ ha”具有很高的平衡度,因为在拉伸时,“h”和“a”倾向于几乎相等地重复。 “goal”的平衡性较差,“o”重复的次数更多。
伸展度是指一个单词倾向于被拉多长。例如,简短的单词或听起来像“ha”的拟声词具有很高的延伸度,因为人们经常重复多次(例如“哈哈哈哈哈哈哈哈”)。 同时,“infinityyy”之类的常规词的拉伸程度较低,通常仅重复一个字母。
为了进行分析,研究人员开发了用于可拉伸单词研究的各种工具和方法,例如对错误键入和拼写错误的筛选。该工具还可用于改善自然语言处理,搜索引擎和垃圾邮件过滤器
作者补充说:“我们能够全面收集和计算'gooooooaaaalll'和'hahahaha'这样的拉伸词,并在总体拉伸性和拉伸平衡的两个维度上进行映射,同时创造了新的工具,将有助于后续研究的持续发展;并辐射到语言研究,以及其他领域,例如语言处理,扩充词典,改进搜索引擎,分析序列的构造等等。”