Anthropic 正把安全变成护城河

分类器、数据留存、反蒸馏——三项安全决策如何同时改写 Anthropic 的商业关系和竞争格局。

分享
Anthropic 正把安全变成护城河

Editor's Note

2026.06.22 | Poe

5 月初,Anthropic 的 Mythos 模型在受控测试中展示出极强的网安能力。随后不到两个月,Fable 5 发布、Glasswing 扩容、美国政府介入、Fable 5 和 Mythos 5 被迫暂停访问。AI 安全治理第一次进入真实压力测试。

这个「AI 安全的第一次压力测试」系列会从三个方向看这场危机。第一篇先看 Anthropic 自身。Fable 5 上线时附带三套安全措施:分类器降级、30 天强制数据留存、反蒸馏保护。它们都有安全理由,也都恰好对商业有利。

我关心的问题是:当安全选择和商业利益开始重合,外部还如何判断它到底是在自我约束,还是在重塑竞争规则?


6 月 9 日,Anthropic 发布了 Fable 5。它把这个模型称为「公众可以使用的 Mythos 级模型」。两个月前,Anthropic 给出的判断是:Mythos 太危险,不能公开。

Fable 5 不是单独上线的。Anthropic 同时加了三套安全措施。

第一,新的分类器会把网安、生物和化学相关请求转给上一代 Opus 4.8,触发比例平均不到 5%。

第二,所有流量强制留存 30 天,包括此前签有零留存协议的企业客户。

第三,系统卡片深处写明:如果用户用 Claude 构建预训练管线或设计 ML 加速器,模型可能在不告知用户的情况下降低性能。

Fable 5 发布一周后,Stratechery 的 Ben Thompson 写了一篇长文。在他看来,Anthropic 的安全策略是一种「安全超能力」:这家公司的人才、使命和商业利益高度重合,每次安全政策调整,几乎都给 Anthropic 带来商业收益。他给出的概括是:「世界上最美丽的巧合」。

外界反应没有那么温和。

微软迅速限制内部员工使用 Fable 5,法务团队开始评估 30 天留存会不会影响客户机密信息。

安全研究者也不满意。IBM X-Force 研究员 Valentina Palmiotti 的批评是,分类器「会拒绝任何跟网安沾边的请求,连读一篇博客文章都不行」。

更大的争议来自秘密降级。两天后,这项策略被 WIRED 曝光。Foundation for American Innovation 高级研究员、前白宫 AI 顾问 Dean Ball 的评价更重:「令人震惊的敌意」。Prime Intellect 研究负责人 Will Brown 的感受更接近开源社区:「感觉他们在把身后的梯子抽掉。」

Anthropic 在 48 小时内撤回了秘密降级。

但更大的变化发生在 6 月 12 日。Anthropic 随后宣布暂停 Fable 5 和 Mythos 5 访问。原因不是普通宕机,而是美国政府以国家安全为由发出出口管制指令,要求暂停任何外国国民访问这两个模型。

Anthropic 面临的合规问题很现实:它很难只阻止外国国民访问,同时继续向其他客户稳定提供服务。结果是,Fable 5 和 Mythos 5 被暂时关闭,其他 Claude 模型不受影响。

换句话说,Fable 5 上线三天后,就从「公众可以使用的 Mythos 级模型」,变成了「暂时不可用的前沿模型」。

这让问题变得更尖锐。Anthropic 原本试图用分类器、数据留存和反蒸馏保护证明:强模型可以在安全措施下公开使用。但美国政府的处理更直接:如果风险无法被信任,就先暂停访问。

问题不在于这些决策到底是安全优先,还是商业优先。真正的问题是:当安全理由可以同时服务企业利益和国家权力,Anthropic 正在获得什么,又正在失去什么?

🔒 以下为 Dailyio 会员专属内容

成为 Dailyio 会员,继续阅读完整分析。

月付 99 元 / 年付 999 元,解锁 Dailyio 全部付费文章与邮件更新。