Tech
BALI @ 2024.01.25 , 07:03
网络上充斥着机器翻译的垃圾
在上个世纪末,Bill Gates 看到了将近200个国家的公民,他们说着超过7000种语言,通过突然兴起的网络社区共同对话的可能性。
他宣称:“互联网正在变成明天全球村庄的城市广场。”
互联网无疑已经将世界拉得更近,也极大地丰富了全球通信、商业、研究和娱乐。
但是最近的一份报告提醒了我们——虽然我们实在不需要这些提醒——但有时候,进步也会带来问题。
亚马逊网络服务人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究人员说,他们在网上检查了60多亿个句子,发现超过一半的句子被翻译成两种或更多不同的语言。他们发现翻译通常很差。每进行一次到其他语言的翻译,结果就会变得更差,有些甚至被翻译成了八或九种语言。
这份题为“网络上有惊人数量的机器翻译:来自多路平行化的启示”的报告于1月11日上传到预印版服务器arXiv。
报告的作者称:“这些翻译的质量低下,表明它们可能是由机器翻译产生的。我们的工作引发了严重的问题,比如在从网上抓取的单语和双语数据上训练像大型多语种模型这样的模型。”
研究人员说,文本不仅被人工智能翻译,而且也被人工智能创建。他们观察到AI生成翻译的比率在资源较少的语言中最高,例如非洲语言沃洛夫语和科萨语。
他们补充说:“我们发现,高度多路平行翻译显著低于两路平行翻译的质量。”
这意味着,当数万亿比特的数据被摄入AI训练操作时,在网络上代表不足的地区,如非洲国家和其他使用更加不常见语言的国家,将在建立可靠和语法完整的大语言模型方面面临更大的挑战。由于缺乏可依赖的本地资源,他们必须大量依赖充斥市场的翻译。
本文译自 techxplore,由 BALI 编辑发布。