OpenAI发布新AI模型GPT-4o和桌面版ChatGPT

OpenAI发布了新的AI模型GPT-4和桌面版ChatGPT，带来了更新的用户界面。新模型GPT-4o更快速、能力更强，支持文本、视频和音频，并计划允许用户与ChatGPT进行视频通话。

OpenAI在周一推出了一款新的AI模型和桌面版ChatGPT，同时还更新了用户界面，这是该公司扩大其流行聊天机器人使用的最新努力。

技术主管Mira Murati在一场直播活动中表示，这次更新将GPT-4带给了所有人，包括OpenAI的免费用户。她补充说，新模型GPT-4o“速度要快得多”，在文本、视频和音频方面的能力也得到了提升。OpenAI表示，他们最终计划允许用户通过视频与ChatGPT进行交流。

“这是我们在使用便捷性方面迈出的第一次巨大步伐，”Murati说道。

OpenAI是由微软支持的，投资者对其估值超过800亿美元。成立于2015年的这家公司在保持生成式AI市场领先地位的同时，也面临着寻找盈利方式的压力，因为它在处理器和基础设施上的大笔支出用于构建和训练其模型。

GPT-4o中的o代表全能(omni)。新模型使ChatGPT能够处理50种不同语言，速度和质量都得到了提高，并且还将通过OpenAI的API提供，使开发人员能够从今天开始使用新模型构建应用程序，穆拉蒂表示。

她补充说，GPT-4o的速度是GPT-4 Turbo的两倍，成本是其一半。

OpenAI团队成员展示了新模型的音频功能，例如要求其帮助某人在公开演讲前冷静下来。OpenAI研究员Mark Chen表示，该模型能够“感知你的情绪”，并补充说该模型还可以处理用户的打断。团队还要求其分析用户的面部表情，评论可能正在经历的情绪。

“嗨，你好吗？我今天怎样才能让你开心？”当用户向ChatGPT的音频模式打招呼时，它会这样说。

根据一篇博客文章的说法，公司计划在未来几周内测试Voice Mode，并提供给ChatGPT Plus的付费订户提前使用。OpenAI还表示，新模型可以“在232毫秒内或更少的时间内回应用户的音频提示，平均为320毫秒，这与人类在对话中的反应时间类似。”

陈展示了该模型讲述睡前故事的能力，并要求其改变声音的语调，使之更具戏剧性或机械感。他甚至要求其演唱故事。

此外，OpenAI的新模型可以作为翻译工具，即使在音频模式下也可以，该公司表示。陈展示了该工具在Murati讲意大利语而他讲英语时的能力，可以在他们交谈时将语言翻译成各自的语言。

团队成员还展示了该模型解决数学方程和帮助编写代码的能力，将其定位为微软自家的GitHub Copilot的强大竞争对手。

对于OpenAI来说，这次发布是自去年8月推出ChatGPT Enterprise以来最重要的一次宣布。当时，OpenAI首席运营官Brad Lightcap告诉CNBC，这个工具开发时间不到一年，得到了来自各行各业规模和行业各异的20多家公司的帮助。

OpenAI、微软和谷歌正处于生成式AI的热潮之中，各行各业的公司都在竞相为关键服务添加基于AI的聊天机器人和代理，以避免被竞争对手抛在后面。本月早些时候，OpenAI的竞争对手Anthropic宣布推出其首个企业产品和免费iPhone应用程序。

据PitchBook称，2023年全球生成式AI交易投资创下了创纪录的291亿美元，较去年增长了260%以上。预计未来十年市场收入将超过1万亿美元。

一些行业人士对未经测试的新服务迅速进入市场的速度提出了担忧，学术界和伦理学家则对技术传播偏见的倾向感到不安。

ChatGPT于2022年11月推出后，成为当时历史上增长最快的消费者应用程序，并且现在每周活跃用户约有1亿人。OpenAI表示，超过92%的《财富》500强公司正在使用该平台。

Murati在周一的活动中表示，OpenAI希望“减少技术的神秘感”。

“在接下来的几周里，我们将向所有人推出这些功能，”她说。

根据周一一篇博客文章的说法，新模型将首先在周二向ChatGPT Plus和Team的客户推出，然后在稍后推出Enterprise。从周一开始，它还将提供给ChatGPT免费用户，但会有使用限制。ChatGPT Plus的用户将拥有比免费用户更多五倍的消息容量，而ChatGPT Team和Enterprise的客户则将拥有更大的使用限制。

Murati在直播活动结束时感谢了英伟达首席执行官黄仁勋及其公司提供的必要图形处理单元(GPU)来支持OpenAI的技术。

“我想感谢令人难以置信的OpenAI团队，也感谢Jensen和英伟达团队为我们提供最先进的GPU，使今天的演示成为可能，”她说。

本文译自 cnbc，由 BALI 编辑发布。