大模型推理不再只有一个市场

Cerebras、小米、Cognition 和 Google 几乎同时给出四种推理方案,它们需要的硬件和商业模式完全不同。

分享
大模型推理不再只有一个市场

Editor's Note

🗓️ 2026.06.17 | Poe

6 月 10 日,小米发布 MiMo-V2.5-Pro-UltraSpeed,Google 开源 DiffusionGemma。两者都把大模型输出速度推到 1,000 token/秒附近,但技术路线完全不同。

小米依靠标准 GPU 和模型-系统协同优化,Google 则改写了生成机制。三周前完成 IPO 的 Cerebras,给出的又是第三种答案:用整片晶圆做成一颗芯片,把速度变成硬件卖点。

这些事件看似都属于「推理」,实际上指向的是不同市场。有人优化人类等待答案时的速度,有人优化 agent 长时间运行时的上下文和成本,有人用软件提高现有 GPU 的效率,也有人试图改变 token 生成方式。

这篇文章讨论推理市场的四条分化路径。关键不只是它们用了什么芯片,而是它们分别绕开了 GPU 的哪一部分成本。


6 月 10 日,小米 MiMo-V2.5-Pro-UltraSpeed 在标准 8 卡 GPU 节点上跑出 1,000 token/秒。

这是万亿参数模型,使用的却是云上常见的标准 8 卡 GPU 节点,没有定制芯片。

另一条路径来自 Google。它开源的 DiffusionGemma 不再逐个生成 token,而是用文本扩散架构,在单块 H100 上达到同一速度门槛。

两种技术完全不同,却撞在了同一个结果上。

硬件公司 Cerebras 给出的答案更直接。三周前,Cerebras 以 670 亿美元市值完成美国史上最大半导体 IPO。CEO Andrew Feldman 在 Bloomberg 采访中说,Cerebras 比最近的竞争者快 15 倍。「我们制造最快的 token。没有人愿意等。」

速度之外,Cognition 展示的是另一类推理需求。创始人兼 CEO Scott Wu 在采访中提到,Devin 的会话已有相当比例由机器自动触发:agent 自己找任务、自行执行、自行提交代码。

对这些工作负载来说,单次响应速度不再是核心指标。它们更需要足够大的上下文承载能力,以及足够低的持续运行成本。

「推理」这个词,正在分化为四个不同的市场。

资本流向也在放大这种分化。Cerebras IPO 超额认购 25 倍,首日收涨 68%,是 2000 年以来筹资 40 亿美元以上美国 IPO 的最大首日涨幅。OpenAI 今年 2 月已在 Cerebras 芯片上发布模型,亚马逊计划将其与自研 Trainium 搭配使用。推理速度有自己的买家。

基础设施端也在变化。Google 和 Blackstone 宣布合资组建 TPU 云公司。Blackstone 将出资 50 亿美元股权,并预计撬动 250 亿美元算力投资。该公司计划在 2027 年上线 500 兆瓦产能。这是 Google 首次大规模向外部客户出售 TPU 算力。

推理平台公司 Fireworks AI 的估值也升至 150 亿美元。不到两年前,它的估值还是 40 亿美元。

这些事件共同说明,「推理」已经不能再被当作一个单一市场。速度、上下文承载、软件优化和生成机制,正在形成四套不同的竞争逻辑。

Cerebras 需要整片晶圆定制的芯片,小米依靠通用 GPU 和软件优化,DiffusionGemma 从生成机制绕过逐 token 瓶颈,Cognition 的代理工作负载则把速度放在更低的优先级。

四条路径背后,是完全不同的芯片、软件和商业模式。它们各自绕开了 GPU 的什么?GPU 的通用性为什么在推理市场上反而变成了成本?

img

🔒 以下为 Dailyio Premium 会员专属内容

成为 Dailyio Premium 会员,继续阅读完整分析。

月付 99 元 / 年付 999 元,解锁 Dailyio 全部付费文章与邮件更新。