Google在发布新的人工智能Gemini时使用了不真实的demo

该公司的演示视频展示了与Gemini的语音对话，它实时识别绘画，但这个视频经过了编辑，没有涉及真实的语音提示。

Google刚刚宣布了Gemini，这是它迄今为止最强大的人工智能模型套件，但该公司已经被指控对其性能撒谎。

彭博社的一篇专栏文章称，Google在最近的一段视频中误导了Gemini的能力。Google在本周早些时候的发布会上播放了一段令人印象深刻的“什么玩意儿”亲身体验的视频，专栏作家Parmy Olson说，视频中的Gemini似乎非常有能力，也许太有能力了。

这段六分钟的视频展示了Gemini的多模态能力(例如，语音对话提示和图像识别相结合)。Gemini似乎能够快速识别图像，甚至是连线图，能够在几秒钟内做出回应，并且能够实时跟踪杯子和球游戏中的一团纸。当然，人类可以做到所有这些，但这是一种能够识别和预测下一步会发生什么的人工智能。

但是，点击YouTube上的视频描述，Google有一个重要的免责声明：

“为了演示的目的，延迟已经减少，Gemini的输出也已经缩短。”

这就是Olson不满的地方。根据她在彭博社的文章，Google在被要求发表评论时承认，视频演示并没有在真实的语音提示下实时进行，而是使用了原始视频的静态图像帧，然后写出了文本提示，让Gemini做出回应。“这与Google似乎在暗示的完全不同：一个人可以与Gemini进行流畅的语音对话，而Gemini则在实时地观察和回应周围的世界，”Olson写道。

为了公平起见，公司经常编辑演示视频，尤其是许多公司想要避免现场演示带来的任何技术故障。稍微调整一下是很常见的。但是Google有着可疑的视频演示的历史。人们怀疑Google的Duplex演示(还记得Duplex吗？那个打电话给理发店和餐馆预订的人工智能语音助手)是不是真的，因为视频中缺乏明显的环境噪音和过于乐于助人的员工。而且，人工智能模型的预先录制的视频往往会让人更加怀疑。还记得百度推出了Ernie Bot，用编辑过的视频，然后股价暴跌吗？

在这种情况下，Olson说，Google是在“炫耀”，为了误导人们，让他们忽略Gemini仍然落后于OpenAI的GPT这一事实。

Google不同意这一观点。当被问及演示的真实性时，它指引了The Verge一篇来自Oriol Vinyals的文章，他是GoogleDeepMind的研究副总裁和深度学习负责人(也是Gemini的联合负责人)，文章解释了团队是如何制作视频的。

Vinyals说：“视频中的所有用户提示和输出都是真实的，为了简洁而缩短了。”“视频展示了用Gemini构建的多模态用户体验可能是什么样子。我们制作它是为了激励开发者。”

他补充说，团队给了Gemini图像和文本，并要求它通过预测下一步会发生什么来做出回应。

这当然是一种处理这种情况的方法，但它可能不是Google的正确方法，因为Google已经在公众眼中显得被OpenAI今年的巨大成功打了个措手不及。如果它想要激励开发者，不是通过精心编辑的炫酷视频，这些视频可以说是误导了人工智能的能力。而是通过让记者和开发者真正体验产品。让人们在一个小型的公开测试中用Gemini做一些愚蠢的事情。让我们看看它到底有多强大。

本文译自 The Verge，由 BALI 编辑发布。

王摸鱼2025秋款拉链卫衣