语言模型能作为基于文本的世界模拟器吗

摘要
虚拟环境在复杂规划和决策任务中至关重要，但手动构建代价高昂且复杂。本文探讨当前语言模型能否作为世界模拟器，准确预测行动对不同世界状态的改变，从而省去大量手动编码。我们提出了一个名为ByteSized32-State-Prediction的新基准，包含文本游戏状态转换数据集及相关任务，用以量化语言模型作为文本世界模拟器的能力。测试结果显示，尽管GPT-4表现优异，但在没有进一步创新的情况下，仍难以成为可靠的世界模拟器。本文不仅提供了对当前语言模型能力和弱点的新见解，还提出了一个追踪未来进展的新基准。

结果

预测由动作驱动的状态转换比环境驱动的状态转换更容易：

GPT-4能正确模拟77.1%的动态动作驱动的转换，而对动态环境驱动的转换则最多能正确模拟49.7%。这表明模拟底层环境动态可能是LLM-Sim任务中最具挑战的部分。

预测静态转换比动态转换更容易：

在大多数情况下，模拟静态转换比动态转换容易得多。虽然LLM需要确定给定初始状态和动作是否会导致状态变化，但动态转换还需利用上下文信息模拟与底层游戏引擎完全相同的动态。

预测完整游戏状态对动态状态更容易，而预测状态差异对静态状态更容易：

对动态状态的状态差异预测显著提高了模拟静态转换的性能(>10%)，但在模拟动态转换时则会降低性能。这可能是因为状态差异预测旨在减少潜在的格式错误。然而，GPT-4在大多数情况下能够正确输出响应格式，而引入状态差异增加了任务输出格式的复杂性。

游戏规则重要，LLMs能够生成足够好的游戏规则：

在上下文信息中没有提供游戏规则时，GPT-4在所有三种模拟任务中的表现都会下降。然而，我们未发现人类专家生成的游戏规则与LLMs生成的游戏规则之间有明显的性能差异。

GPT-4能够在大多数情况下预测游戏进展：

在上下文信息中有游戏规则时，GPT-4能在92.1%的测试用例中正确预测游戏进展。这表明规则的存在至关重要：没有它们，GPT-4的预测准确率降至61.5%。

人类在LLM-Sim任务上的表现优于GPT-4：

我们对LLM-Sim任务进行了初步的人类研究。在GPT-4表现最差的5个ByteSized32-SP数据集游戏中，每个游戏随机抽取20个游戏以平衡动态和静态转换的比例。4位作者作为人类注释者使用人类生成的规则进行完整游戏状态预测，结果显示人类准确率为80%，而GPT-4的准确率为50%。这表明尽管该任务对人类来说相对简单，但LLMs仍有很大改进空间。

需要算术、常识或科学知识时，GPT-4更容易出错：

大多数错误发生在模拟动态转换时，我们进一步分析了GPT-4在这一设置下的错误模式。结果显示，GPT-4能处理大多数简单的布尔值属性，但在需要算术(如温度)、常识(如光圈)或科学知识(如焦点)时错误较多。当同时预测动作驱动和环境驱动的转换时，GPT-4更倾向于动作驱动的转换，导致在仅模拟环境驱动的转换时，未更改的值错误更多。

结论
我们提出了ByteSized32-State-Prediction基准，用于测试LLMs作为模拟器的能力。我们在这一任务上评估了GPT-4，结果表明，在涉及非平凡变化的状态转换中，最佳表现为59.9%。模拟错误会在多个步骤中累积，因此单步准确率有限的模拟器在实际应用中的效用有限。我们的结果表明，LLMs尚不能可靠地充当文本世界模拟器。进一步的错误分析显示，虽然LLMs在模拟用户操作结果方面更好，但处理环境驱动的转换以及需要算术、常识或科学知识的转换仍然困难。

限制与伦理问题

限制
我们只考虑了GPT-3.5和GPT-4两种强大的上下文学习语言模型，尽管它们在多种基准测试中表现优异，但我们未全面评估所有大型语言模型，其他模型可能表现更好。我们提出这一基准用于评估现有和未来模型在准确模拟状态空间转换任务上的表现。

我们提出了两种状态空间表示形式，一种包括完整状态空间，另一种关注状态差异，均使用JSON对象表示。这些表示形式基于其流行性和与大多数LLM预训练数据输入输出格式的兼容性，尽管其他表示格式在模拟任务上可能表现更好。

最终，我们的状态空间集中在常识和早期(小学)科学推理领域，如打开容器或激活设备。虽然本文涉及了一些较不常见的动作和属性，但未讨论LLMs在高度专业领域(如物理或医学模拟)中的应用。我们希望这一工作能推动语言模型在高影响力领域中的应用，并视其为开发更强大语言模型模拟器的基石。

伦理问题
我们不预见我们的工作会立即产生伦理或社会影响。然而，作为LLM应用，所提出的LLM-Sim任务可能会受到所选LLM引入的错误信息和幻觉的影响。我们的工作强调了使用LLMs作为基于文本的世界模拟器的问题。在下游任务(如游戏模拟)中，LLMs可能生成误导或不真实的信息。例如，如果模拟器建议用烧房子的方式来烧水，我们的工作并未阻止此类情况，也未评估此类潜在危险建议的伦理影响。因此，我们认为这些应用不适合也不安全在与人类，特别是儿童，直接互动的环境中使用。我们呼吁研究人员和从业者在使用我们提出的任务和数据集时保持谨慎。

本文译自 arxiv.org，由 BALI 编辑发布。