成本仅为Claude的5%：DeepSeek V4 Pro真实使用报告

技术团队实测DeepSeek V4 Pro数月：价格便宜5到7倍，通过工具链优化可达Claude约90%效果。

技术作者Howard Chen的团队通过他们用Go语言构建的终端工具cwcode，将DeepSeek V4 Pro作为日常编程模型使用了几个月。他们不跑基准测试，而是用于实际工作：训练放射治疗剂量预测模型、构建金融研究智能体以及编写cwcode自身的代码。

价格方面，DeepSeek V4 Pro的收费是每百万输入token 0.435美元，缓存命中时低至0.003625美元，输出token 0.87美元。Claude Sonnet 4约为3美元、0.30美元、15美元。总体便宜5到7倍，缓存命中时差距更大。在编码基准测试中，V4 Pro在长任务上约为Claude的80%到85%，团队在实际工作流中认为可达90%，但需要自行在工具链中弥补差距。

V4 Pro的短板有三处。长周期规划方面，面对陌生的大型代码库进行架构重构时，模型会做出四个看起来都合理但合起来无法编译的修改，Claude在处理全局画面方面明显更好，团队通过Plan模式和保持短轮次来缓解。处理混乱代码时，Claude对奇怪的命名、死分支和未文档化的不变量更宽容，而V4 Pro希望代码合理，当不合理时模型会自己编造一个合理的版本。首次UI输出方面，Claude首次编写的React组件通常更接近可发布状态，V4 Pro更接近可迭代状态。

V4 Pro的强项包括精确遵循规范，给出明确指令如改第47行做某操作时直接执行，速度比Claude更快；在PyTorch训练循环和蒙特卡洛模拟胶水代码上首次尝试正确率明显高于Claude；以及Bash和运维胶水代码水平相当。

团队核心改进是哈希锚定编辑，灵感来自Can Akay在2026年2月发表的关于编码智能体编辑工具设计的文章。Akay指出大多数智能体失败不是模型问题而是工具链问题，具体来说就是编辑工具的设计缺陷。他提出的hashlines方案为每行代码标注简短的内容哈希值，让模型通过引用而非重写来编辑。Akay用这个格式变化就让Grok Code Fast在SWE-bench Verified上的成绩从6.7%跃升至68.3%，输出token减少61%。团队实现的read_file工具返回每行附带三个十六进制字符的哈希，edit_lines工具接受行号范围及对应端点预期哈希，工具链会重新读取文件重新计算哈希并在不匹配时给出精确错误。这一改动使V4 Pro的每任务重试次数约减半，每会话输出token减少30%到40%。

DeepSeek的提示缓存基于精确字节前缀匹配，命中时费用约为原价的1/120。三个常见破坏前缀的因素是：系统提示中的时间戳每次变化导致命中率为零；重复发送reasoning_content，DeepSeek文档明确禁止；非确定性工具序列化，因为Go中map迭代顺序随机。团队通过确保系统提示字节稳定、对工具进行排序、剥离reasoning_content来维持缓存，在第三四轮后常规达到85%以上。一个4小时、50轮实际工作的自主循环仅花费0.40到0.80美元。

当模型陷入重复调用同一错误工具的死循环时，标准做法是检测三次连续相同失败后停止。大多数实现会显示红色错误并让用户盯着看。团队的方案是合成一条助手角色回复，以连贯信息流呈现失败原因并请用户澄清，同时改进底层工具错误信息让模型能自行修复。Plan模式和Rewind则为自主编码提供安全网，前者限制智能体只读并输出编号计划，后者可将文件恢复到任意历史轮次的状态。

团队总结：V4 Pro不是编码的未来模型，但如果你愿意配合它走一半路，作为日常驱动力已经足够好。现在掌握工具链设计的团队将在模型商品化的进程中积累优势。

原文：https://howardchen.substack.com/p/deepseek-v4-pro-at-5-the-cost-of