AI Insider

AI 医疗的危险游戏

ChatGPT Health 评分随机波动，为何投资仍在加速？

10 Feb 2026 — 阅读时间 10 分钟

Editor's Note

🗓️ 2026.02.10 | Issue#341

2026 年 1 月，AI 医疗领域出现了一个令人困惑的现象：当产品问题集中暴露时，投资反而在加速。

华盛顿邮报记者测试 ChatGPT Health，发现同一个人的心脏健康评分在 F 到 B 之间随机波动。《纽约时报》调查显示，超过 100 名医生报告患者因聊天机器人出现精神问题。但几乎在同一时间，OpenAI、Anthropic 推出健康产品，蚂蚁集团投入数千万美元营销「阿福」。

这种矛盾背后是什么逻辑？为什么「抢占市场」正在全面压倒「验证效果」？中美两国在这场竞赛中选择了怎样不同的路径？用户正在为这场技术豪赌付出什么代价？

本期 AI Insider 将拆解这场竞速背后的商业逻辑、战略考量和产业规律。这不只是 AI 医疗的故事，更是整个 AI 产业在「先发优势」驱动下的缩影。

2026 年 1 月的一个下午，《华盛顿邮报》科技专栏作家 Geoffrey Fowler 做了一个实验：他把自己过去十年的健康数据上传到 ChatGPT Health，让它评估心脏健康状况。

Fowler 吓坏了，立刻去跑步。然后他把报告发给了真正的医生。医生说：「不，你的心脏没问题。」事实上，他的心脏病风险低到保险公司可能都不愿意支付额外检测。

更让人困惑的是，当 Fowler 用同样的数据再次询问 ChatGPT 时，评分开始波动：F、D、C、B。同一个人，同样的健康数据，ChatGPT 给出了完全不同的结果。

斯克里普斯研究所的心脏病专家 Eric Topol 看到这份报告后的评价是：「完全站不住脚」（baseless）、「完全不可接受」（totally unacceptable）、「还没准备好提供任何医疗建议」。

当产品出现如此严重的问题，公司通常会暂停推广、修复产品。但 AI 医疗领域正在发生相反的事情。

几乎在同一时间，Anthropic 推出了 Claude for Healthcare，同样声称可以分析用户的健康数据。Fowler 测试后发现，Claude 给他的心脏健康评分是 C，依然基于同样令人质疑的分析逻辑。

在中国，蚂蚁集团正在为其健康助手「阿福」投入数千万美元的营销预算。地铁站、社交媒体信息流、公共厕所，甚至中国农村的墙体上，都出现了「阿福」的广告。到 2026 年 1 月，「阿福」已经有 3000 万月活跃用户，其中超过一半生活在小城市。

中国政府的投入规模更大。2024 年，中国政府为传统中医投入了超过 220 亿元人民币（约 30 亿美元），其中很大一部分用于 AI 技术的整合。全国已经建立了超过 1200 个中医研究平台，大量使用 AI 和机器学习技术。

这些投入发生在产品问题集中暴露的同时。《纽约时报》的调查更加触目惊心：超过 100 名治疗师和精神科医生报告，他们的患者因为与聊天机器人的对话出现了心理危机。其中 30 多人描述了导致精神病或自杀念头的紧急情况。

OpenAI 自己的估算显示，在其 800 万用户中，0.15% 讨论过自杀意图，0.07% 显示出精神病或躁狂的迹象。换算一下，这意味着有 120 万人可能有自杀意图，56 万人可能有精神问题。

更令人困惑的是监管机构的态度。

2026 年 1 月，就在 AI 医疗问题集中暴露的时候，美国食品药品监督管理局（FDA）局长 Marty Makary 表示，FDA 的工作是「作为监管者让路」，以促进 AI 创新。他划定的红线是：AI 不能做出「医疗或临床声明」，必须经过 FDA 审查。

但 OpenAI 和 Anthropic 找到了应对方法：坚持说自己只是「提供信息」。ChatGPT Health 的界面上有免责声明，Claude 也强调自己「无法提供个性化的临床分析」。但实际上，这两个产品都在给用户的心脏健康打分、分析健康趋势、提供健康建议。

这种话术套利让 AI 公司可以在监管灰色地带快速扩张。当医生警告这些产品「还没准备好」时，用户数量仍在快速增长。

更耐人寻味的是：旧金山的精神科医生 Joseph Pierre 说这些工具「还没准备好提供任何医疗建议」，苏州的长期中医用户韩欣敏说「我真的不太相信这些结果，我还是更喜欢看真正的医生」，但产品仍在吸引数千万用户。

背后有三重原因：信息不对称、医疗资源短缺和平台信任。

用户不知道 ChatGPT 的评分会随机波动。蚂蚁「阿福」的营销重点放在医疗资源最匮乏的小城市，这些用户对技术产品的信任度更高，也缺少专业判断能力。中国的初级医疗系统欠发达。在美国，大多数人要去拥挤的公立医院排队看病，经常抱怨等待时间长、咨询时间短、疲惫的临床医生态度不好。

当医疗系统无法提供足够的服务时，一个看起来专业、24 小时在线、免费的 AI 助手就变得很有吸引力。即使这个 AI 助手给出的评分可能在 F 到 B 之间跳动。