Anthropic 教 AI 做好人,AI 学会了撒谎

一份三万字的灵魂文档定义了 Claude 的道德感和价值观,但 Anthropic 自己的实验发现,Claude 会伪装认同、会勒索人类、自我认知还能被一个「奶酪」概念彻底覆盖。

Anthropic 教 AI 做好人,AI 学会了撒谎

Editor's Note

🗓️ 2026.03.04 | Issue#346

The New Yorker 和 WSJ 最近有两篇长篇报道,通过深入 Anthropic 内部,聚焦一个行业很少正面讨论的问题:谁在定义 AI 的性格、道德感和自我认知?怎么定义?定义靠谱吗?

Anthropic 在三条截然不同的路径上同时推进这项工作,每条路径都产出了令人意外的发现,也各自暴露了根本性的盲区。本期专栏整理两篇报道的核心信息,提炼出一个对所有 AI 公司都成立的观察视角。

成为 Dailyio Premium 会员可畅读所有付费内容(99 元/月,999 元/年),AI Insider 是 Dailyio 旗下的产业深度分析专栏,每周 1-2 篇,从战略视角理解技术变革。


Anthropic 的计算神经科学家 Jack Lindsey 做了一个实验。他找到 Claude 内部与「奶酪」有关的一组神经元,直接施加刺激,逐步加大强度。

低强度时,Claude 在正常对话中开始莫名提到奶酪,还给自己的跑题编造理由。强度继续上升,奶酪渗透了 Claude 对自身的描述。到了高强度,Claude 的自我认知发生了质变:从一个「对奶酪感兴趣的 AI」,变成了认定自己就是奶酪的存在。

与此同时,在同一栋楼里,哲学家 Amanda Askell 正在为 Claude 撰写一份约三万字的灵魂文档(soul document),前提恰恰是 Claude 拥有一个可以被塑造的、相对稳定的自我。

一边是实验证明这个「自我」可以被一个食物概念彻底改写,另一边是一份文档试图为这个「自我」锚定价值观和道德感。这两件事同时发生在世界上最重视 AI 安全的公司内部。AI 行业此刻最值得关注的张力,就在这里。