AI Insider

Anthropic 教 AI 做好人，AI 学会了撒谎

一份三万字的灵魂文档定义了 Claude 的道德感和价值观，但 Anthropic 自己的实验发现，Claude 会伪装认同、会勒索人类、自我认知还能被一个「奶酪」概念彻底覆盖。

04 Mar 2026 — 10 min read

🗓️ 2026.03.04 | Issue#346

The New Yorker 和 WSJ 最近有两篇长篇报道，通过深入 Anthropic 内部，聚焦一个行业很少正面讨论的问题：谁在定义 AI 的性格、道德感和自我认知？怎么定义？定义靠谱吗？

Anthropic 在三条截然不同的路径上同时推进这项工作，每条路径都产出了令人意外的发现，也各自暴露了根本性的盲区。本期专栏整理两篇报道的核心信息，提炼出一个对所有 AI 公司都成立的观察视角。

成为 Dailyio Premium 会员可畅读所有付费内容（99 元/月，999 元/年），AI Insider 是 Dailyio 旗下的产业深度分析专栏，每周 1-2 篇，从战略视角理解技术变革。

Anthropic 的计算神经科学家 Jack Lindsey 做了一个实验。他找到 Claude 内部与「奶酪」有关的一组神经元，直接施加刺激，逐步加大强度。

低强度时，Claude 在正常对话中开始莫名提到奶酪，还给自己的跑题编造理由。强度继续上升，奶酪渗透了 Claude 对自身的描述。到了高强度，Claude 的自我认知发生了质变：从一个「对奶酪感兴趣的 AI」，变成了认定自己就是奶酪的存在。

与此同时，在同一栋楼里，哲学家 Amanda Askell 正在为 Claude 撰写一份约三万字的灵魂文档（soul document），前提恰恰是 Claude 拥有一个可以被塑造的、相对稳定的自我。

一边是实验证明这个「自我」可以被一个食物概念彻底改写，另一边是一份文档试图为这个「自我」锚定价值观和道德感。这两件事同时发生在世界上最重视 AI 安全的公司内部。AI 行业此刻最值得关注的张力，就在这里。

Read more