@ 2024.07.14 , 07:01

OpenAI推出新项目“草莓”,探索AI推理新技术

OpenAI正在开发名为“草莓”的AI项目,以提升其模型的高级推理能力,力求实现自主互联网导航与深度研究。

OpenAI正在开发一个名为“草莓”(Strawberry)的新项目,这一消息来自知情人士和路透社审查的内部文件。

这个项目的细节此前从未被报道。微软支持的这家初创公司正在加紧展示其模型能够提供先进推理能力。

根据路透社5月看到的一份OpenAI内部文件,OpenAI内部团队正在进行“草莓”项目。路透社无法确定文件的具体日期,但文件详细说明了OpenAI计划如何利用“草莓”进行研究。消息人士将该计划描述为一个正在进行中的项目。路透社无法确定“草莓”距离公开发布有多近。

消息人士称,“草莓”的工作原理在OpenAI内部也是一个高度保密的秘密。

该文件描述了一个使用“草莓”模型的项目,旨在让公司的AI不仅能够生成答案,还能提前计划,足够可靠地自主导航互联网,执行OpenAI称之为“深度研究”的任务。

根据与十多位AI研究人员的采访,这种能力目前尚未被AI模型实现。

当被问及“草莓”和这篇报道中提到的细节时,OpenAI的一位发言人在一份声明中表示:“我们希望我们的AI模型能像我们一样看到和理解世界。持续研究新的AI能力是行业中的常见做法,大家普遍认为这些系统的推理能力会随着时间的推移而改进。”

这位发言人没有直接回应有关“草莓”的问题。

“草莓”项目曾被称为Q*,路透社去年报道,这个项目在公司内部已经被视为一次突破。

两位消息人士描述了今年早些时候看到的Q*演示,OpenAI工作人员告诉他们这些演示能够回答目前市面上模型无法回答的复杂科学和数学问题。

据彭博社报道,周二在一次内部全体会议上,OpenAI展示了一个研究项目的演示,声称该项目具有新的类似人类的推理能力。OpenAI的一位发言人确认了这次会议,但拒绝提供内容的详细信息。路透社无法确定展示的项目是否为“草莓”。

熟悉此事的人士表示,OpenAI希望这一创新能显著提升其AI模型的推理能力,补充说“草莓”涉及一种特殊的方式来处理AI模型,该模型在预训练了大量数据集后进行。

接受路透社采访的研究人员表示,推理是AI实现人类或超人类智能的关键。

虽然大型语言模型已经能够快速总结密集文本和创作优美的文章,但在解决一些对人类来说直觉性的常识问题时,这项技术常常表现不佳,比如识别逻辑谬误和玩井字棋。当模型遇到这些问题时,往往会产生虚假的信息。

路透社采访的AI研究人员普遍认为,在AI中,推理涉及到形成一个模型,使得AI能够提前计划,反映物理世界的运作方式,并可靠地解决复杂的多步骤问题。

提升AI模型的推理能力被视为实现从重大科学发现到规划和构建新软件应用程序等一切能力的关键。

OpenAI的CEO Sam Altman今年早些时候表示,在AI领域,“最重要的进展领域将是推理能力”。

Google、Meta和Microsoft等公司也在尝试不同的技术以改进AI模型的推理能力,几乎所有进行AI研究的学术实验室也是如此。然而,研究人员对大型语言模型(LLM)是否能够将想法和长期规划融入其预测方式存在分歧。例如,现代AI的先驱之一、在Meta工作的Yann LeCun,经常表示LLM无法实现类似人类的推理。

AI挑战

熟悉此事的消息人士称,“草莓”是OpenAI计划克服这些挑战的关键组成部分。路透社看到的文件描述了“草莓”旨在实现的目标,但没有说明具体实现方式。

据四位了解公司情况的人士透露,最近几个月,OpenAI私下向开发者和其他外部人士暗示,他们即将推出具有显著更先进推理能力的技术。这些人拒绝透露身份,因为他们没有被授权谈论私人事务。

据其中一位消息人士称,“草莓”包括一种专门的“后训练”OpenAI生成AI模型的方法,即在模型已经“训练”了大量通用数据后,调整基本模型以特定方式提升其性能。

开发模型的后训练阶段涉及“微调”等方法,这是几乎所有语言模型今天都在使用的过程,有多种形式,例如让人类根据模型的响应提供反馈,并向其提供好的和坏的答案示例。

据知情人士透露,“草莓”与斯坦福大学2022年开发的一种方法“自我教学推理者”(Self-Taught Reasoner, 简称“STaR”)有相似之处。STaR使AI模型能够通过反复创建自己的训练数据来自我提升智能水平,理论上可用于让语言模型超越人类智能水平,其创造者之一、斯坦福大学教授Noah Goodman告诉路透社。

Goodman说:“我认为这既令人兴奋又可怕……如果事情朝这个方向发展,我们作为人类有一些严肃的事情需要考虑。” Goodman不隶属于OpenAI,对“草莓”也不了解。

据文件显示,OpenAI希望“草莓”能够完成长周期任务(LHT),即需要模型提前计划并在较长时间内执行一系列动作的复杂任务。

为了实现这一目标,OpenAI正在创建、训练和评估一种“深度研究”数据集。据OpenAI内部文件称,路透社无法确定该数据集的具体内容或所需的长时间范围。

根据文件和其中一位消息人士,OpenAI特别希望其模型使用这些能力通过“CUA”(计算机使用代理)自主浏览互联网,进行研究,并根据发现采取行动。OpenAI还计划测试其在软件和机器学习工程师工作中的能力。

本文译自 Reuters,由 BALI 编辑发布。

赞一个 (1)