人们注意到，ChatGPT开始变“笨”了

一项由斯坦福大学和加州大学伯克利分校的研究人员进行的研究表明，ChatGPT的准确性已经变差。

研究人员发现，ChatGPT的行为在一定时间内发生了明显变化，而且没有好转。更令人不安的是，没有人能对这种令人不安的恶化给出一个好的解释。

为了检查ChatGPT的GPT-3.5和GPT-4程序的一致性，研究小组测试了AI的“漂移”倾向，即提供不同水平的质量和准确性的答案，以及它是否能够正确地遵循给定的命令。研究人员要求ChatGPT-3.5和GPT-4解决数学问题、回答敏感和危险的问题、从提示中进行视觉推理并生成代码。

在他们的回顾中，该团队发现“总体而言……‘相同’LLM(大语言模型)服务的行为可以在相对较短的时间内发生重大变化，这凸显了需要对LLM质量进行持续监控。”例如，GPT-4在2023年3月识别质数的准确率几乎为98%。然而，到2023年6月，GPT-4在同一任务上的准确率戏剧性地下降到不到3%。与此同时，2023年6月的GPT-3.5在质数识别方面比其2023年3月版本有所提高。在生成计算机代码方面，两个版本在3月和6月之间生成计算机代码的能力都变差了。

这些差异可能会对现实世界产生影响，并很快见效。本月早些时候，纽约大学的一个研究小组在《JMIR医学教育》杂志上发表的一篇论文表明，ChatGPT对与保健相关的查询的回答在语气和措辞上似乎与人类医疗专业人员无异。研究人员向392人展示了10个病人的问题及答案，其中一半来自人类保健提供者，另一半来自OpenAI的LLM。参与者“难以”区分人类和聊天机器人笔下的回答。与此同时，人们越来越担心AI处理医疗数据隐私的能力，以及它“幻想”不准确信息的倾向。

不仅学术界注意到了ChatGPT的收益递减。OpenAI的开发者论坛一直在就LLM的进步(或缺乏进步)进行持续辩论。“是否有人正式解决这个问题?作为付费客户，它从伟大的副厨师变成了洗碗工。真的希望得到一个正式的回复，”一个用户本月早些时候写道。

OpenAI的LLM研发一直被严格封闭，不对外审查，这一策略引发了行业专家和用户的强烈反弹和批评。“很难说清楚为什么会发生这种情况，”加州大学伯克利分校计算机科学副教授、Databricks首席技术官，也是ChatGPT质量审查论文的合著者之一Matei Zaharia周三在推特上写道。Zaharia继续推测，强化学习人类反馈(RLHF)可能与微调“遇到了瓶颈”，但也承认可能仅仅是系统中的错误。

因此，虽然ChatGPT可能通过了基本的图灵测试基准，但其不均衡的质量仍对公众构成了重大挑战和担忧，与此同时，几乎没有什么能阻止它们继续扩散和融入日常生活。

本文译自 Popular Science，由 BALI 编辑发布。