AI Insider

10 亿美元的命令行，2025 年的大模型从「生成」走向「执行」

一个 CLI 工具创造 10 亿美元营收，订阅费从 20 美元涨到 200 美元。2025 年大语言模型产业完成的转变，远比表面上看起来更深刻。

赵赛坡

07 Jan 2026 — 阅读时间 10 分钟

本期所有图片都由 Gemini 生成。

Editor's Note

🗓️ 2026.01.07 | Issue#331

大语言模型的竞争焦点在 2025 年发生了根本性转变。推理能力的价值不再是解数学金牌题，而是可靠地驱动上百次工具调用；用户愿意为 200 美元/月的订阅买单，因为 coding agents 能完成需要人类 5 小时的工作；中国开源模型在质量上追平闭源模型，却没有撼动 OpenAI 的商业地位。这些现象指向同一个底层逻辑：产业关注的重心已经从「生成了什么内容」转移到「完成了什么任务」。

本期 AI Insider 基于开发者 Simon Willison 的 2025 年度回顾，解读这个转折点如何重新定义产业竞争规则，以及对从业者意味着什么。

2025 年最轰动的 AI 成就是什么？学术界会说是 GPT-5 和 Gemini 在国际数学奥林匹克竞赛拿到金牌，或是在国际大学生编程竞赛中获奖。但产业界的答案截然不同——Anthropic 的 Claude Code，一个命令行工具，达到了 10 亿美元的营收里程碑。

这个反差值得深思。为什么一个 CLI 工具成了年度最大商业突破？开发者 Simon Willison 在他的年度回顾中提供了一个关键观察：他今年在手机上写的代码，比在电脑上写的还多。这不是因为手机性能提升，而是因为 coding agents 已经强大到可以独立完成复杂任务。

这揭示了大语言模型产业在 2025 年完成的一个根本性转变。

推理能力的价值重定位

OpenAI 在 2024 年 9 月推出 o1 时，演示的是解数学逻辑谜题。Andrej Karpathy 对这个技术的解释很清晰：通过在可自动验证的环境中训练（比如数学题、代码题），大语言模型自发学会了一些「看起来像推理」的策略，简单来说，就是把问题拆解成中间步骤，尝试不同方法来回探索。

但 2025 年的实践证明，推理能力的真正价值不在解题。Willison 在文章中明确指出，「真正的突破是驱动工具调用」。搜索引擎接入大语言模型在此之前效果平平，但现在他发现即使是复杂的研究问题，也能通过 GPT-5 Thinking 在 ChatGPT 中得到可靠答案。原因很简单：具备推理能力的模型可以执行搜索、评估结果、更新计划，然后继续推理。

这个转变在编程场景更加明显。这类模型可以从一个报错开始，逐层追溯代码库找到根本原因。Willison 发现，「即使是最棘手的 bug，只要给好的推理模型提供读取和执行代码的能力，都能被诊断出来」。关键不是模型「更聪明」，而是它能可靠地执行几十次甚至上百次工具调用，每次都基于上一次的结果调整策略。

这种能力的商业价值在订阅定价上体现得很直接。ChatGPT Plus 最初的 20 美元月费是 OpenAI 工程师 Nick Turley 通过 Discord 上的 Google 表单投票决定的，这个价格坚持了两年。但 2025 年，Claude 和 ChatGPT 都推出了 200 美元/月的高级订阅。为什么用户愿意支付？因为 coding agents 消耗的计费单位远超普通对话，你很难通过 API 按使用量付费的方式花掉 200 美元，但一旦你开始让 agents 处理复杂任务，这个价格反而成了折扣。