Gemini 3 的理想与现实
深度实测、Opus 4.5 降价、Grok 的情商悖论。
Editor's Note
🗓️ 2025.11.25 | Issue#027
上周 Google 发布了 Gemini 3,我们也陆续有了一些实际使用的评测结果。这些评测比发布会上的 benchmark 数字更有参考价值,它们揭示了 Gemini 3 在真实工作场景中的表现,以及与预期的差距。值得注意的是,Google 这次的布局不只是一个模型的升级,而是试图通过一整套产品矩阵来重新定义「AI 能做什么」。
Google 的全方位布局
Gemini 3 的发布策略很有意思:它不是单一模型的升级,而是同时推出了几个相互配合的产品。
核心是 Gemini 3 Pro。TechCrunch 报道,它在 Humanity's Last Exam 基准测试中拿到 37.4 分,大幅超过 GPT-5 Pro 的 31.64 分;在 LMArena 用户满意度排行榜上也位居榜首。Google 强调这是「最智能」和「事实准确性最高」的模型,并特别提到它「原生支持多模态」,能同时处理文本、图像和音频,而不是分别处理。

这个多模态能力的应用场景是:翻译食谱照片并制作成电子书,或者根据一系列视频讲座创建交互式闪卡。Google 还展示了「generative interfaces」功能——Gemini 3 Pro 能创建视觉化的、类似杂志风格的排版,或者根据你的提示定制动态布局和用户界面。
配套推出的 Nano Banana Pro 图像生成模型(正式名称是 Gemini 3 Pro Image,但这个昵称已经深入人心)基于 Gemini 3 Pro,利用了基础模型的「最先进的推理和现实世界知识,比以往更好地可视化信息」。它能生成更准确和清晰的文字,支持多语言,这得益于 Gemini 3 Pro 增强的多语言推理能力。在风格上,可以使用「更广泛的纹理、字体和书法」。

更有意思的是它的编辑能力:调整相机角度、改变焦点、应用复杂的色彩分级、转换场景光照,比如从白天变成夜晚,或创建散景效果。它还能「混合多达 14 张图像,同时保持多达 5 个人的一致性和相似性」。Google 特别强调,这个模型在生成信息图表和图表时,能将推理、世界知识和实时信息结合起来。
第三个产品是 Antigravity IDE,一个专为代理式编程设计的开发环境。它不只是一个聊天界面,而是结合了 ChatGPT 风格的提示窗口、命令行界面和浏览器窗口。代理可以在编辑器中工作,跨终端和浏览器操作,「以最佳方式帮助你构建应用程序」。它能自动启动服务器,检查是否实现了目标,并在没有人工干预的情况下迭代。

这套组合传递的信号很明确:Google 在用全方位的能力提升来证明自己的领先地位。不只是聊天,还包括图像生成、代码编写、界面设计。从产品策略看,Google 似乎在说:AI 的价值不在于单点突破,而在于多个能力的系统性整合。
实际使用中的表现
但 benchmark 是一回事,实际使用是另一回事。好在最近有两份来自真实用户的深度评测,提供了更立体的视角。