@ 2024.06.25 , 07:00

如何判断大模型是否在胡编

牛津大学的研究人员发现了一种简单的方法,可以判断大型语言模型何时在编造内容。

众所周知,大型语言模型(LLM)在回答问题时有时会给出明显错误的答案,而且这种错误的自信与它们正确回答时的自信无异。这有多种原因。AI可能接受了错误信息的训练;答案可能需要LLM无法推导的事实;或者LLM的某些训练环节可能促进了错误信息的产生。

但也许最简单的解释是,LLM并不知道什么是正确答案,却被迫提供一个答案。因此,它只是凭空捏造了一个答案,这种习惯被称为“编造”(confabulation)。

显然,弄清楚LLM何时在编造答案非常重要,尤其是人们已经开始迅速依赖它们处理从大学论文到求职申请等各种事情。现在,牛津大学的研究人员表示,他们发现了一种相对简单的方法,可以判断LLM何时在编造内容,这种方法适用于所有流行模型和广泛的主题。在此过程中,他们还证明了LLM提供的大多数错误信息都是编造的。

捕捉编造内容

这项新研究严格关注编造内容,而非训练时输入错误信息的情况。牛津团队在描述工作的论文中定义,编造内容是指“LLM流利地做出错误且任意的声明——我们指的是答案对诸如随机种子等无关细节很敏感。”

他们的研究背后的推理实际上非常简单。LLM并不是为了准确性而训练的;它们只是接受了大量文本的训练,并通过这种训练学会了产生人类语言风格的措辞。如果在训练中,大量文本一致地将某事物呈现为事实,那么LLM很可能也会将其呈现为事实。但如果训练中的例子很少,或者事实不一致,那么LLM就会合成一个听起来似乎合理但可能错误的答案。

LLM在有多个选项可以表达正确答案时,也会遇到类似的情况。例如,研究人员的论文中提到,“巴黎”、“它在巴黎”和“法国首都巴黎”都是“埃菲尔铁塔在哪里?”的有效答案。因此,在这种情况下,统计不确定性(在此称为熵)可能会出现,要么是LLM对如何表达正确答案不确定,要么是它无法识别正确答案。

这意味着强迫LLM在面对几个大致相当的答案时回答“我不知道”并不是一个好主意。这样做可能会阻止许多正确答案的产生。

因此,研究人员专注于他们称之为语义熵的概念。这评估了LLM评估的所有统计上可能的答案,并确定其中有多少是语义上等价的。如果大量答案都具有相同的意义,那么LLM可能对措辞不确定,但答案是正确的。如果不是这样,那么它可能处于容易编造答案的情况,此时应阻止它这样做。

提取意义

这在实际中是如何工作的?描述非常直白:

我们的方法通过对每个问题采样几个可能的答案,并通过算法将它们聚类成具有相似意义的答案来工作,我们判断答案是否在同一个聚类的依据是这些答案是否双向蕴涵对方。如果句子A蕴涵句子B为真,反之亦然,那么我们认为它们属于同一个语义聚类。

如果一个聚类占主导地位,那么AI正在从一个具有相似事实内容的选项集合中选择答案。如果有多个聚类,那么AI正在不同的事实内容集合中选择答案,这种情况下可能会导致编造内容。

除了概念上的简单性,基于这些想法实施一个系统也很简单。大多数主要的LLM都会生成一组统计上可能的答案,这些答案是评估语义熵所需要的。已经有LLM和称为自然语言推理工具的软件,可以判断两个句子是否互相蕴涵。而且,因为这些工具已经存在,所以不需要监督训练,这意味着系统不需要通过编造内容的例子来学习确定一组潜在答案的语义熵。

研究人员开发了一种度量,来确定用户通过语义熵过滤器可以获得的准确性提升。他们将其与其他几种错误捕捉方法上进行了测试,涵盖了大量主题:包括琐事和一般知识、生物学,以及一组Google搜索查询。

在这些测试中,有两个明显的发现。首先,除了少数边缘情况外,语义熵方法比其他方法捕捉到更多的错误答案。其次,大多数LLM产生的错误似乎都是编造内容。这可以从以下事实推断得出:一些其他方法捕捉了各种类型的错误,但它们的表现不如语义熵测试,即使这些测试只捕捉编造内容。

超越简单事实

研究人员还展示了该系统可以适应处理超过基本事实陈述的情况,例如传记,这是一大堆个人事实。因此,他们开发了一个软件,将传记信息分解成一系列个人事实陈述,并使用语义熵评估每个陈述。这在包含多达150个个人事实声明的简短传记中也有效。

总体而言,这似乎是一个高度灵活的系统,不需要进行重大新开发就可以投入实践,并且可以显著改善LLM的性能。由于它只捕捉编造内容而非其他类型的错误,因此可能可以与其他方法结合使用,以进一步提高性能。

正如研究人员所指出的那样,这项工作还表明,在答案选项的统计数据中,LLM似乎拥有知道何时有正确答案所需的所有信息;只是这些信息没有被充分利用。正如他们所说,“语义熵在检测错误方面的成功表明,LLM在‘知道它们不知道什么’方面比之前认为的更强,只是它们不知道自己知道什么。”

本文译自 Ars Technica,由 BALI 编辑发布。

赞一个 (1)