代码丰饶之后的真正稀缺

代码生成趋同之后,瓶颈迁到了哪里?

分享
代码丰饶之后的真正稀缺

Editor’s Note

🗓️ 2026.05.07 | Poe

过去一年,AI Coding 最容易制造一种错觉:只要模型越来越强,软件生产的瓶颈就会逐渐消失。

但 2026 年的现实更复杂。腾讯研究院 4 月发布的《AI Coding 观察报告 2.0》显示,全球六大商业模型在 SWE-bench Verified 上的得分已经挤进 1 个百分点区间。与此同时,Veracode 发现 45% 的 AI 代码任务引入了已知安全漏洞,GitClear 对 2.11 亿行代码的分析显示,技术债务增加了 30-41%。

这组矛盾提示了 AI Coding 产业最重要的变化:代码生成正在变得充裕,真正稀缺的东西迁到了别处。


2026 年 4 月,SWE-bench Verified 排行榜出现了一幅很有象征意义的画面。

Claude Opus 4.5、Gemini 3.1 Pro、GPT-5.4、MiniMax M2.5、Kimi K2.6 等六大模型,得分全部落在 80.0% 到 80.9% 之间。区间不到 1 个百分点。

这意味着,对很多企业来说,模型选择越来越像采购问题,而不再是决定成败的核心问题。MiniMax M2.5 单次对话成本约 0.30 / 1.20 美元,约为 Opus 4.5 的 1/25。开源的 Kimi K2.6 取得 80.2%,已经与闭源旗舰模型站在同一分数段。

但另一组数据把这幅画面变得不那么轻松。

Veracode 的扫描显示,45% 的 AI 代码任务引入了已知安全漏洞。GitClear 分析 2.11 亿行代码后发现,代码重复量增加 4 倍,重构活动下降 60%,技术债务估计增加 30-41%。

代码从未如此容易写出来,也从未如此难以信任。

这就是腾讯研究院《AI Coding 观察报告 2.0》最值得关注的地方。它表面上讨论 AI 编码工具,真正的问题却更大:当代码生成能力开始普及,软件工程里的稀缺资源会转移到哪里?

报告把这个变化概括为「丰饶之后」。我认为,更准确地说,这是软件生产的瓶颈迁移。

公开模型的分数越来越接近,前沿实验室手里的能力却没有停下来。4 月 7 日,Anthropic 发布 Mythos Preview,SWE-bench Verified 达到 93.9%,只向 11 家防御性安全伙伴开放。9 天后,Opus 4.7 以 87.6% 公开发布。Anthropic 在官方博文中说明,训练期间对网安能力做了差异化削弱。

一个不公开的内部能力线,一个削弱后对外发布的公开版本,9 天内先后登场。

这说明两件事正在同时发生。第一,商业模型在标准编码能力上越来越接近。第二,前沿实验室内部保留的能力,和外部市场能买到的能力之间,正在出现新的距离。

但对大多数公司和个人来说,更关键的问题已经不再是「哪个模型最强」。真正的问题是:当足够强的模型变得越来越容易获得,谁能把它放进可靠的工作流程里?