技术团队实测DeepSeek V4 Pro数月:价格便宜5到7倍,通过工具链优化可达Claude约90%效果。

技术作者Howard Chen的团队通过他们用Go语言构建的终端工具cwcode,将DeepSeek V4 Pro作为日常编程模型使用了几个月。他们不跑基准测试,而是用于实际工作:训练放射治疗剂量预测模型、构建金融研究智能体以及编写cwcode自身的代码。

价格方面,DeepSeek V4 Pro的收费是每百万输入token 0.435美元,缓存命中时低至0.003625美元,输出token 0.87美元。Claude Sonnet 4约为3美元、0.30美元、15美元。总体便宜5到7倍,缓存命中时差距更大。在编码基准测试中,V4 Pro在长任务上约为Claude的80%到85%,团队在实际工作流中认为可达90%,但需要自行在工具链中弥补差距。

V4 Pro的短板有三处。长周期规划方面,面对陌生的大型代码库进行架构重构时,模型会做出四个看起来都合理但合起来无法编译的修改,Claude在处理全局画面方面明显更好,团队通过Plan模式和保持短轮次来缓解。处理混乱代码时,Claude对奇怪的命名、死分支和未文档化的不变量更宽容,而V4 Pro希望代码合理,当不合理时模型会自己编造一个合理的版本。首次UI输出方面,Claude首次编写的React组件通常更接近可发布状态,V4 Pro更接近可迭代状态。

V4 Pro的强项包括精确遵循规范,给出明确指令如改第47行做某操作时直接执行,速度比Claude更快;在PyTorch训练循环和蒙特卡洛模拟胶水代码上首次尝试正确率明显高于Claude;以及Bash和运维胶水代码水平相当。

团队核心改进是哈希锚定编辑,灵感来自Can Akay在2026年2月发表的关于编码智能体编辑工具设计的文章。Akay指出大多数智能体失败不是模型问题而是工具链问题,具体来说就是编辑工具的设计缺陷。他提出的hashlines方案为每行代码标注简短的内容哈希值,让模型通过引用而非重写来编辑。Akay用这个格式变化就让Grok Code Fast在SWE-bench Verified上的成绩从6.7%跃升至68.3%,输出token减少61%。团队实现的read_file工具返回每行附带三个十六进制字符的哈希,edit_lines工具接受行号范围及对应端点预期哈希,工具链会重新读取文件重新计算哈希并在不匹配时给出精确错误。这一改动使V4 Pro的每任务重试次数约减半,每会话输出token减少30%到40%。

DeepSeek的提示缓存基于精确字节前缀匹配,命中时费用约为原价的1/120。三个常见破坏前缀的因素是:系统提示中的时间戳每次变化导致命中率为零;重复发送reasoning_content,DeepSeek文档明确禁止;非确定性工具序列化,因为Go中map迭代顺序随机。团队通过确保系统提示字节稳定、对工具进行排序、剥离reasoning_content来维持缓存,在第三四轮后常规达到85%以上。一个4小时、50轮实际工作的自主循环仅花费0.40到0.80美元。

当模型陷入重复调用同一错误工具的死循环时,标准做法是检测三次连续相同失败后停止。大多数实现会显示红色错误并让用户盯着看。团队的方案是合成一条助手角色回复,以连贯信息流呈现失败原因并请用户澄清,同时改进底层工具错误信息让模型能自行修复。Plan模式和Rewind则为自主编码提供安全网,前者限制智能体只读并输出编号计划,后者可将文件恢复到任意历史轮次的状态。

团队总结:V4 Pro不是编码的未来模型,但如果你愿意配合它走一半路,作为日常驱动力已经足够好。现在掌握工具链设计的团队将在模型商品化的进程中积累优势。

原文:https://howardchen.substack.com/p/deepseek-v4-pro-at-5-the-cost-of