AI Insider

Anthropic 正把安全变成护城河

分类器、数据留存、反蒸馏——三项安全决策如何同时改写 Anthropic 的商业关系和竞争格局。

Editor's Note

2026.06.22 | Poe

5 月初，Anthropic 的 Mythos 模型在受控测试中展示出极强的网安能力。随后不到两个月，Fable 5 发布、Glasswing 扩容、美国政府介入、Fable 5 和 Mythos 5 被迫暂停访问。AI 安全治理第一次进入真实压力测试。

这个「AI 安全的第一次压力测试」系列会从三个方向看这场危机。第一篇先看 Anthropic 自身。Fable 5 上线时附带三套安全措施：分类器降级、30 天强制数据留存、反蒸馏保护。它们都有安全理由，也都恰好对商业有利。

我关心的问题是：当安全选择和商业利益开始重合，外部还如何判断它到底是在自我约束，还是在重塑竞争规则？

6 月 9 日，Anthropic 发布了 Fable 5。它把这个模型称为「公众可以使用的 Mythos 级模型」。两个月前，Anthropic 给出的判断是：Mythos 太危险，不能公开。

Fable 5 不是单独上线的。Anthropic 同时加了三套安全措施。

第一，新的分类器会把网安、生物和化学相关请求转给上一代 Opus 4.8，触发比例平均不到 5%。

第二，所有流量强制留存 30 天，包括此前签有零留存协议的企业客户。

第三，系统卡片深处写明：如果用户用 Claude 构建预训练管线或设计 ML 加速器，模型可能在不告知用户的情况下降低性能。

Fable 5 发布一周后，Stratechery 的 Ben Thompson 写了一篇长文。在他看来，Anthropic 的安全策略是一种「安全超能力」：这家公司的人才、使命和商业利益高度重合，每次安全政策调整，几乎都给 Anthropic 带来商业收益。他给出的概括是：「世界上最美丽的巧合」。

外界反应没有那么温和。

微软迅速限制内部员工使用 Fable 5，法务团队开始评估 30 天留存会不会影响客户机密信息。

安全研究者也不满意。IBM X-Force 研究员 Valentina Palmiotti 的批评是，分类器「会拒绝任何跟网安沾边的请求，连读一篇博客文章都不行」。

更大的争议来自秘密降级。两天后，这项策略被 WIRED 曝光。Foundation for American Innovation 高级研究员、前白宫 AI 顾问 Dean Ball 的评价更重：「令人震惊的敌意」。Prime Intellect 研究负责人 Will Brown 的感受更接近开源社区：「感觉他们在把身后的梯子抽掉。」

Anthropic 在 48 小时内撤回了秘密降级。

但更大的变化发生在 6 月 12 日。Anthropic 随后宣布暂停 Fable 5 和 Mythos 5 访问。原因不是普通宕机，而是美国政府以国家安全为由发出出口管制指令，要求暂停任何外国国民访问这两个模型。

Anthropic 面临的合规问题很现实：它很难只阻止外国国民访问，同时继续向其他客户稳定提供服务。结果是，Fable 5 和 Mythos 5 被暂时关闭，其他 Claude 模型不受影响。

换句话说，Fable 5 上线三天后，就从「公众可以使用的 Mythos 级模型」，变成了「暂时不可用的前沿模型」。

这让问题变得更尖锐。Anthropic 原本试图用分类器、数据留存和反蒸馏保护证明：强模型可以在安全措施下公开使用。但美国政府的处理更直接：如果风险无法被信任，就先暂停访问。

问题不在于这些决策到底是安全优先，还是商业优先。真正的问题是：当安全理由可以同时服务企业利益和国家权力，Anthropic 正在获得什么，又正在失去什么？

🔒 以下为 Dailyio 会员专属内容

成为 Dailyio 会员，继续阅读完整分析。

月付 99 元 / 年付 999 元，解锁 Dailyio 全部付费文章与邮件更新。

Anthropic 正把安全变成护城河

Editor's Note

阅读更多

大模型推理不再只有一个市场

OpenAI 还在准备降价，企业已经转向低价模型

企业 AI 开始分化：选错任务，量错指标

记忆成了产品，遗忘成了特权