AI 医疗的危险游戏
ChatGPT Health 评分随机波动,为何投资仍在加速?
Editor's Note
🗓️ 2026.02.10 | Issue#341
2026 年 1 月,AI 医疗领域出现了一个令人困惑的现象:当产品问题集中暴露时,投资反而在加速。
华盛顿邮报记者测试 ChatGPT Health,发现同一个人的心脏健康评分在 F 到 B 之间随机波动。《纽约时报》调查显示,超过 100 名医生报告患者因聊天机器人出现精神问题。但几乎在同一时间,OpenAI、Anthropic 推出健康产品,蚂蚁集团投入数千万美元营销「阿福」。
这种矛盾背后是什么逻辑?为什么「抢占市场」正在全面压倒「验证效果」?中美两国在这场竞赛中选择了怎样不同的路径?用户正在为这场技术豪赌付出什么代价?
本期 AI Insider 将拆解这场竞速背后的商业逻辑、战略考量和产业规律。这不只是 AI 医疗的故事,更是整个 AI 产业在「先发优势」驱动下的缩影。
2026 年 1 月的一个下午,《华盛顿邮报》科技专栏作家 Geoffrey Fowler 做了一个实验:他把自己过去十年的健康数据上传到 ChatGPT Health,让它评估心脏健康状况。
Fowler 吓坏了,立刻去跑步。然后他把报告发给了真正的医生。医生说:「不,你的心脏没问题。」事实上,他的心脏病风险低到保险公司可能都不愿意支付额外检测。
更让人困惑的是,当 Fowler 用同样的数据再次询问 ChatGPT 时,评分开始波动:F、D、C、B。同一个人,同样的健康数据,ChatGPT 给出了完全不同的结果。
斯克里普斯研究所的心脏病专家 Eric Topol 看到这份报告后的评价是:「完全站不住脚」(baseless)、「完全不可接受」(totally unacceptable)、「还没准备好提供任何医疗建议」。
当产品问题暴露,投资为何加速?
当产品出现如此严重的问题,公司通常会暂停推广、修复产品。但 AI 医疗领域正在发生相反的事情。
几乎在同一时间,Anthropic 推出了 Claude for Healthcare,同样声称可以分析用户的健康数据。Fowler 测试后发现,Claude 给他的心脏健康评分是 C,依然基于同样令人质疑的分析逻辑。
在中国,蚂蚁集团正在为其健康助手「阿福」投入数千万美元的营销预算。地铁站、社交媒体信息流、公共厕所,甚至中国农村的墙体上,都出现了「阿福」的广告。到 2026 年 1 月,「阿福」已经有 3000 万月活跃用户,其中超过一半生活在小城市。
中国政府的投入规模更大。2024 年,中国政府为传统中医投入了超过 220 亿元人民币(约 30 亿美元),其中很大一部分用于 AI 技术的整合。全国已经建立了超过 1200 个中医研究平台,大量使用 AI 和机器学习技术。
这些投入发生在产品问题集中暴露的同时。《纽约时报》的调查更加触目惊心:超过 100 名治疗师和精神科医生报告,他们的患者因为与聊天机器人的对话出现了心理危机。其中 30 多人描述了导致精神病或自杀念头的紧急情况。
OpenAI 自己的估算显示,在其 800 万用户中,0.15% 讨论过自杀意图,0.07% 显示出精神病或躁狂的迹象。换算一下,这意味着有 120 万人可能有自杀意图,56 万人可能有精神问题。
FDA 为何选择放松监管?
更令人困惑的是监管机构的态度。
2026 年 1 月,就在 AI 医疗问题集中暴露的时候,美国食品药品监督管理局(FDA)局长 Marty Makary 表示,FDA 的工作是「作为监管者让路」,以促进 AI 创新。他划定的红线是:AI 不能做出「医疗或临床声明」,必须经过 FDA 审查。
但 OpenAI 和 Anthropic 找到了应对方法:坚持说自己只是「提供信息」。ChatGPT Health 的界面上有免责声明,Claude 也强调自己「无法提供个性化的临床分析」。但实际上,这两个产品都在给用户的心脏健康打分、分析健康趋势、提供健康建议。
这种话术套利让 AI 公司可以在监管灰色地带快速扩张。当医生警告这些产品「还没准备好」时,用户数量仍在快速增长。
3000 万用户为什么仍在使用?
更耐人寻味的是:旧金山的精神科医生 Joseph Pierre 说这些工具「还没准备好提供任何医疗建议」,苏州的长期中医用户韩欣敏说「我真的不太相信这些结果,我还是更喜欢看真正的医生」,但产品仍在吸引数千万用户。
背后有三重原因:信息不对称、医疗资源短缺和平台信任。
用户不知道 ChatGPT 的评分会随机波动。蚂蚁「阿福」的营销重点放在医疗资源最匮乏的小城市,这些用户对技术产品的信任度更高,也缺少专业判断能力。中国的初级医疗系统欠发达。在美国,大多数人要去拥挤的公立医院排队看病,经常抱怨等待时间长、咨询时间短、疲惫的临床医生态度不好。
当医疗系统无法提供足够的服务时,一个看起来专业、24 小时在线、免费的 AI 助手就变得很有吸引力。即使这个 AI 助手给出的评分可能在 F 到 B 之间跳动。
