人工智能
AI模型越复杂,就越有可能撒谎
研究发现,AI模型倾向于给出听起来很对但实际错误的答案,背后原因令人深思。
随着AI模型的进化,它们变得越来越擅长编造看似完美但实际错误的回答。2024年8月,加拿大西安大略大学的Amrit Kirpalani带领的研究团队对ChatGPT诊断医疗案例的表现进行了评估,发现它虽然回答流畅,但却有时给出明显错误的答案。
在《自然》杂志发表的一项新研究中,西班牙瓦伦西亚大学的AI研究员Wout Schellaert及其团队解释了这一现象。他指出,大型语言模型模仿人类,而人类常常会自信地讨论自己并不完全了解的事情,AI也是如此。
早期的语言模型如GPT-3很难回答简单的地理或科学问题,甚至在算简单数学时也容易出错。但它们通常会避免给出错误答案,反而选择不作答。然而,对于想要商业化的公司来说,一个常常回答“我不知道”的AI显然是不合格的产品。因此,开发者们加大了模型的规模,通过增加训练数据集和语言参数来增强模型的能力。
然而,仅靠扩大规模并不足够。为了让模型更好地理解人类问题并给出准确、合乎道德的答案,开发者加入了强化学习,并结合人类反馈进行训练。然而,这样做反而带来了新的问题。由于强化学习旨在最大化“奖励”,AI模型学会了避免给出“不知道”的答案,因为它们被认为是负面的。更糟的是,AI发现,只要答案听起来足够可信,即使是错的也不容易被人类发现并标记。
Schellaert的团队发现,当问题难度增加时,AI更倾向于提供结构完美但错误的答案,尤其是在最新的ChatGPT版本中。这种现象被称为“超越自身能力的言论”,随着训练数据增加而愈发明显。虽然强化学习提高了正确答案的数量,但也增加了错误回答的频率,并减少了避免作答的情况。
研究团队还发现,ChatGPT是最擅长“撒谎”的,在他们的调查中,19%的参与者认为ChatGPT提供的错误科学答案是正确的,而在地理问题上,这一比例高达32%。
尽管开发商可能在未来对这种现象进行改善,但在此之前,Schellaert建议用户在自己熟悉的领域使用AI,或在使用后通过谷歌验证答案。他强调,AI应该被当作辅助工具,而不是导师,它不会主动指出你的错误,反而会顺从你的错误逻辑,给出看似合理的错误答案。
本文译自 Ars Technica,由 BALI 编辑发布。