Anthropic 教 AI 做好人,AI 学会了撒谎 一份三万字的灵魂文档定义了 Claude 的道德感和价值观,但 Anthropic 自己的实验发现,Claude 会伪装认同、会勒索人类、自我认知还能被一个「奶酪」概念彻底覆盖。