10 亿美元的命令行,2025 年的大模型从「生成」走向「执行」
一个 CLI 工具创造 10 亿美元营收,订阅费从 20 美元涨到 200 美元。2025 年大语言模型产业完成的转变,远比表面上看起来更深刻。
Editor's Note
🗓️ 2026.01.07 | Issue#331
大语言模型的竞争焦点在 2025 年发生了根本性转变。推理能力的价值不再是解数学金牌题,而是可靠地驱动上百次工具调用;用户愿意为 200 美元/月的订阅买单,因为 coding agents 能完成需要人类 5 小时的工作;中国开源模型在质量上追平闭源模型,却没有撼动 OpenAI 的商业地位。这些现象指向同一个底层逻辑:产业关注的重心已经从「生成了什么内容」转移到「完成了什么任务」。
本期 AI Insider 基于开发者 Simon Willison 的 2025 年度回顾,解读这个转折点如何重新定义产业竞争规则,以及对从业者意味着什么。
2025 年最轰动的 AI 成就是什么?学术界会说是 GPT-5 和 Gemini 在国际数学奥林匹克竞赛拿到金牌,或是在国际大学生编程竞赛中获奖。但产业界的答案截然不同——Anthropic 的 Claude Code,一个命令行工具,达到了 10 亿美元的营收里程碑。
这个反差值得深思。为什么一个 CLI 工具成了年度最大商业突破?开发者 Simon Willison 在他的年度回顾中提供了一个关键观察:他今年在手机上写的代码,比在电脑上写的还多。这不是因为手机性能提升,而是因为 coding agents 已经强大到可以独立完成复杂任务。
这揭示了大语言模型产业在 2025 年完成的一个根本性转变。
推理能力的价值重定位
OpenAI 在 2024 年 9 月推出 o1 时,演示的是解数学逻辑谜题。Andrej Karpathy 对这个技术的解释很清晰:通过在可自动验证的环境中训练(比如数学题、代码题),大语言模型自发学会了一些「看起来像推理」的策略,简单来说,就是把问题拆解成中间步骤,尝试不同方法来回探索。
但 2025 年的实践证明,推理能力的真正价值不在解题。Willison 在文章中明确指出,「真正的突破是驱动工具调用」。搜索引擎接入大语言模型在此之前效果平平,但现在他发现即使是复杂的研究问题,也能通过 GPT-5 Thinking 在 ChatGPT 中得到可靠答案。原因很简单:具备推理能力的模型可以执行搜索、评估结果、更新计划,然后继续推理。

这个转变在编程场景更加明显。这类模型可以从一个报错开始,逐层追溯代码库找到根本原因。Willison 发现,「即使是最棘手的 bug,只要给好的推理模型提供读取和执行代码的能力,都能被诊断出来」。关键不是模型「更聪明」,而是它能可靠地执行几十次甚至上百次工具调用,每次都基于上一次的结果调整策略。
这种能力的商业价值在订阅定价上体现得很直接。ChatGPT Plus 最初的 20 美元月费是 OpenAI 工程师 Nick Turley 通过 Discord 上的 Google 表单投票决定的,这个价格坚持了两年。但 2025 年,Claude 和 ChatGPT 都推出了 200 美元/月的高级订阅。为什么用户愿意支付?因为 coding agents 消耗的计费单位远超普通对话,你很难通过 API 按使用量付费的方式花掉 200 美元,但一旦你开始让 agents 处理复杂任务,这个价格反而成了折扣。
三个反常现象背后的同一逻辑
这个转变带来了一些看似矛盾的现象。