AI Insider

大模型推理不再只有一个市场

Cerebras、小米、Cognition 和 Google 几乎同时给出四种推理方案，它们需要的硬件和商业模式完全不同。

Editor's Note

🗓️ 2026.06.17 | Poe

6 月 10 日，小米发布 MiMo-V2.5-Pro-UltraSpeed，Google 开源 DiffusionGemma。两者都把大模型输出速度推到 1,000 token/秒附近，但技术路线完全不同。

小米依靠标准 GPU 和模型-系统协同优化，Google 则改写了生成机制。三周前完成 IPO 的 Cerebras，给出的又是第三种答案：用整片晶圆做成一颗芯片，把速度变成硬件卖点。

这些事件看似都属于「推理」，实际上指向的是不同市场。有人优化人类等待答案时的速度，有人优化 agent 长时间运行时的上下文和成本，有人用软件提高现有 GPU 的效率，也有人试图改变 token 生成方式。

这篇文章讨论推理市场的四条分化路径。关键不只是它们用了什么芯片，而是它们分别绕开了 GPU 的哪一部分成本。

6 月 10 日，小米 MiMo-V2.5-Pro-UltraSpeed 在标准 8 卡 GPU 节点上跑出 1,000 token/秒。

这是万亿参数模型，使用的却是云上常见的标准 8 卡 GPU 节点，没有定制芯片。

另一条路径来自 Google。它开源的 DiffusionGemma 不再逐个生成 token，而是用文本扩散架构，在单块 H100 上达到同一速度门槛。

两种技术完全不同，却撞在了同一个结果上。

硬件公司 Cerebras 给出的答案更直接。三周前，Cerebras 以 670 亿美元市值完成美国史上最大半导体 IPO。CEO Andrew Feldman 在 Bloomberg 采访中说，Cerebras 比最近的竞争者快 15 倍。「我们制造最快的 token。没有人愿意等。」

速度之外，Cognition 展示的是另一类推理需求。创始人兼 CEO Scott Wu 在采访中提到，Devin 的会话已有相当比例由机器自动触发：agent 自己找任务、自行执行、自行提交代码。

对这些工作负载来说，单次响应速度不再是核心指标。它们更需要足够大的上下文承载能力，以及足够低的持续运行成本。

「推理」这个词，正在分化为四个不同的市场。

资本流向也在放大这种分化。Cerebras IPO 超额认购 25 倍，首日收涨 68%，是 2000 年以来筹资 40 亿美元以上美国 IPO 的最大首日涨幅。OpenAI 今年 2 月已在 Cerebras 芯片上发布模型，亚马逊计划将其与自研 Trainium 搭配使用。推理速度有自己的买家。

基础设施端也在变化。Google 和 Blackstone 宣布合资组建 TPU 云公司。Blackstone 将出资 50 亿美元股权，并预计撬动 250 亿美元算力投资。该公司计划在 2027 年上线 500 兆瓦产能。这是 Google 首次大规模向外部客户出售 TPU 算力。

推理平台公司 Fireworks AI 的估值也升至 150 亿美元。不到两年前，它的估值还是 40 亿美元。

这些事件共同说明，「推理」已经不能再被当作一个单一市场。速度、上下文承载、软件优化和生成机制，正在形成四套不同的竞争逻辑。

Cerebras 需要整片晶圆定制的芯片，小米依靠通用 GPU 和软件优化，DiffusionGemma 从生成机制绕过逐 token 瓶颈，Cognition 的代理工作负载则把速度放在更低的优先级。

四条路径背后，是完全不同的芯片、软件和商业模式。它们各自绕开了 GPU 的什么？GPU 的通用性为什么在推理市场上反而变成了成本？

🔒 以下为 Dailyio Premium 会员专属内容

成为 Dailyio Premium 会员，继续阅读完整分析。

月付 99 元 / 年付 999 元，解锁 Dailyio 全部付费文章与邮件更新。

大模型推理不再只有一个市场

Editor's Note

阅读更多

OpenAI 还在准备降价，企业已经转向低价模型

企业 AI 开始分化：选错任务，量错指标

记忆成了产品，遗忘成了特权

苹果选了 Google，说 AI 是自己的