@ 2025.01.31 , 16:49

为什么DeepSeek必须开源

DeepSeek的开源策略让它在市场上获得立足点,但这并不意味着OpenAI就会被淘汰。OpenAI依旧是行业领头羊,开源模式的崛起只会激发更多创新。

现在大家应该都听说过DeepSeek了。它是那个训练出R1开源推理模型的中国AI实验室,R1的表现与OpenAI的o1不相上下,但它是用较为普通的硬件,以极低的成本完成训练的。

DeepSeek之所以能够做到这一点,是因为它采用了一种创新的训练方法,比OpenAI、Anthropic以及其他资金雄厚的竞争者使用的训练方式更高效。那么,为什么DeepSeek会选择开源呢?

从表面上看,这似乎违背了所有商业课本中教的常识:如果你通过创新打造了一个市场领先的产品,而且成本低廉,你应该利用这一优势进行盈利。可口可乐不会把自己的配方开源,对吧?

但在大型语言模型(LLM)的世界里,这种做法并不罕见。我相信DeepSeek几乎不得不选择开源,随着时间的推移,开源模型将变得越来越主流。

为什么DeepSeek必须开源

DeepSeek的情况十分特殊。作为一家中国公司,它可能让一些企业在与其合作时感到不安,尤其是在涉及客户数据时,更别提需要遵守HIPAA或SOC2认证的情况了。

中国的AI API在西方市场可能会受到怀疑,但开源模型则能立刻建立信任。自己托管或通过像Together AI这样的AI供应商使用开源模型,你完全可以掌控一切。

为了在西方市场站稳脚跟,DeepSeek不得不将其模型开源。但这不仅仅是一个经济决策,它也是一种文化决策。最近我听到一句话:“开源不仅仅是一种技术行为,它也是一种文化行为。”

开源公司(至少在初期)必须做到以小博大。正是因为DeepSeek必须面对出口控制问题,无法使用像Nvidia H100和GB10等先进芯片,它才不得不找到更高效的训练模型的方式。

OpenAI、Meta、Google等公司拥有数十亿美元的资金、庞大的计算资源和世界级的分发渠道。它们不需要寻找更高效的模型训练方式,因为它们的昂贵解决方案就是唯一选择。事实上,如果能够让LLM的构建更容易且更便宜,这反而会削弱它们的竞争优势。

然而,这一切已经发生了变化。

模型的商品化

现在几乎每周都有新发布的GPT-4级别的LLM。我在使用的AI应用中,根本分不清我到底是在使用LLaMa、GPT、Claude还是Mistral模型。从我的个人经验和基准测试来看,它们的表现几乎不相上下。

OpenAI依旧是行业的领导者。它们是首个发布推理模型的公司,也是首个发布GPT-4的公司。但如今,模型正在逐渐商品化,值得思考的是,是否值得为OpenAI API支付高额费用,尤其是在开源模型已经有了很好的表现时。

DeepSeek或许就是这个现象最典型的例子。OpenAI的o1每百万输出标记收费60美元,而DeepSeek的R1通过Together AI平台,每百万输出标记仅需7美元。

如果最终用户根本无法察觉两者的差异,那为什么要付出更多呢?尤其在基础设施领域,这一点尤为重要。

基础设施领域,开源最终胜出

使用开源和专有软件之间往往存在一个权衡:开源软件便宜且更具可定制性,但由于需要自己维护,它会占用更多资源,并且需要一定的技术知识。而专有软件则更贵,但提供了更顺畅(尽管更僵化)的体验。

对于很多产品类别来说,这种权衡并不值得大多数公司去做。你不想因为自托管的Notion替代品出现故障而丢失所有的知识库。

然而,基础设施总是定制的,它始终需要你的参与。即便是专有的Oracle数据库,也需要大量的工作来设置和维护。这也是为什么开源数据库越来越受欢迎的原因。

专有软件的优势(不需要维护、不需要技术知识等)在基础设施领域的作用远不如其它领域。实际上,情况正好相反:越是技术性强的产品,越适合用户(工程师)使用开源软件,因为他们可以审核代码库。

这也是我们选择将Lago作为开源公司构建的原因。我们知道,无论你是自己构建,还是选择供应商,计费系统都会变得非常复杂,工程师们更倾向于使用Lago。

LLM也一样。要构建任何有用的产品,你无论如何都要进行大量的定制化提示和工程调整,那不如选择DeepSeek的R1,而不是OpenAI的o1。

这也是为什么开源基础设施公司那么多,而开源消费品公司几乎没有成功的原因。

这意味着专有AI已经结束了吗?不。

OpenAI远未过时

关于DeepSeek的R1或其他开源模型会让OpenAI过时的说法,完全不准确。首先,OpenAI一直是市场的领先者,无论是在LLM(如GPT-4)还是推理模型(如o1)上。

没有OpenAI的模型,就没有DeepSeek的R1和许多其他模型(因为LLM的蒸馏技术)。这确实引发了一个问题,那就是,如果你提供了突破性的技术,而其他公司以更低的价格推出类似的产品,那么构建新的前沿模型是否仍然值得呢?

不过,R1也可能会促使那些资金雄厚的老牌公司重新审视自身的效率,并推动他们寻找更高效的方式,谁知道当他们同时拥有效率和世界一流的资源时,会创造出什么呢?

本文译自 Lago Blog,由 BALI 编辑发布。

赞一个 (5)


forreal 01月31日 21:00 / 广东省深圳市1楼
没毛病,开源就是最优解
还能召唤到世界各地的民间大神合作
#12883521 / 举报 / OO [17] / XX [1]
蛋友e604cc590632c 01月31日 23:05 / 上海市2楼
“输出标记”=output tokens,tokens这个在AI里面更贴近原意的翻译应该是“词元”(AI用于处理输入输出的实际最小单位),要么索性不翻
另外,DeepSeek R1虽然声称是开源模型,但它只开源了模型权重,代码和数据集都没有公开。(我非常赞同这种留一手的做法,毕竟别家的都是闭源的,凭啥完全开放让大公司白嫖呢~)
#12883743 / 举报 / OO [3] / XX [2]
蛋友24c8bbe68f1e 01月31日 23:21 / 广西3楼
深度探索十分缺乏数据,它的Ai同样是在大量数据上进行了训练后推理结果,不过进行的是高效训练,因此,问题的核心就是deepseek想发展,同样需要更强的算力,更大的数据流,否则它在高效,不过也就是小地方自嗨的AI模型,一个人在聪明,他没有书来学习,也注定考上不上大学,而在当前GPU封锁和数据获取限制的情况下,它若不想自己变成一个小角落自嗨的玩具,那就只能开源,想必幻方的人也不希望自己的心血无人得知,停滞不前吧?
#12883764 / 举报 / OO [4] / XX [1]
蛋友e5e64bc595b8c 02月01日 00:47 / 保加利亚4楼
openai这名字就很讽刺, gpt3之后哪个open了
#12883910 / 举报 / OO [20] / XX [2]
胡子疼 02月01日 00:49 / 广东省湛江市5楼
还有一个角度,deepseek老大是股市拼杀出来的大佬。
这波开源直接拉爆了整个AI股市
#12883917 / 举报 / OO [7] / XX [0]
主任 02月01日 12:17 / 山东省青岛市6楼
因为DS表面上是在做大模型,但实际上是在靠做空美国股市赚钱
#12884605 / 举报 / OO [11] / XX [0]