阅读视图

发现新文章，点击刷新页面。

终于发布的Gemini 3，什么是它真正的王牌？

爱范儿

Selina

2025年12月1日 20:51

Gemini 3 Pro 预览版上线那一刻，很多人心里的第一反应可能是：终于来了。

遛了将近一个月，这里暗示那里路透：参数更强一点、推理更聪明一点、出图更花一点，大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击，更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉：更强的推理、更自然的对话、更原生的多模态理解。官方号称，在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字，很容易忽略一个更关键的变化：

Gemini 3 不太像一次模型升级，更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的，Google 已经把话说得很满了

先快速把「硬指标」过一遍，免得大家心里没数：

-推理能力：官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上，全部刷出了新高分，定位就是「博士级推理模型」。
-多模态理解：不仅看图、看 PDF，甚至还能在长视频、多模态考试（MMMU-Pro、Video-MMMU）上拿到行业领先成绩，说看图说话、看视频讲重点的能力，提升了一档。
-Deep Think 模式： ARC-AGI 这类测试证明：打开 Deep Think 后，它在解决新类型问题上的表现会有可见提升。

从这些层面看，很容易把 Gemini 3 归类为：「比 2.5 更聪明的一代通用模型」。但如果只是这样，它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说，这些硬指标只能是作为参考。

换句话说，「跑了多少分」只是一种相对直观的表现手法，真正有意思的地方在于 Google 把它塞进了哪些地方，以及打算用它把什么东西连起来。在这一个版本的更新中，「原生多模态」显然是重中之重。在这一次的大更新中，「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭，那就是：它究竟只是「支持多模态」，还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年，即 Gemini 1 时期就提出来的概念，也是一直以来他们的策略核心：在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态，而不是先训一个文本大模型，再外挂视觉、语音子模型。

后者的做法，是过去很多模型在面对多模态时的策略，本质还是「管线式」的：语音要先丢进 ASR，再把转好的文本丢给语言模型；看图要先走一个独立的视觉编码器，再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来：同一套大型 Transformer，在预训练阶段就同时看到文本、图像、音频乃至视频切片，让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线，就少一层信息损耗。对模型来说，原生多模态不仅仅是「多学几种输入格式」，这背后的意义是，少走几道工序。少掉那几道工序，意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是，这对应用层有了革命性的影响：当一个模型从一开始就假定「世界就是多模态的」，它做出来的产品，与单纯的问答机器人相比，更像是一种新的交互形式。

从 Search 到 Antigravity，新总线诞生

这次 Gemini 3 上线，Google 同步在搜索栏的 AI Mode 更新了，在这个模式下，你看到的不再是一排蓝色链接，而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴，虽然是有条件触发，但是模型发布的同时就直接让搜索跟上，属实少见。

更特别的是，AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验，例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大，官方的说法是更像「思考伙伴」，给出的回答更直接，更少套话，更有「自己看法」，更能「自己行动」。

配合多模态能力，你可以让它看一段打球视频，帮你挑出动作问题、生成训练计划；听一段讲座音频，顺手出一份带小测题的学习卡片；把几份手写笔记、PDF、网页混在一起，集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事：Gemini 3 塞进 App 之后，试图覆盖学习、生活、轻办公的日常用例，风格是「你少操点心，我多干点活」。

而在 API 侧，Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上：也就是既能写前端、搭交互，又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品：Antigravity。在官方的设想中，这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括：

-多个 AI agent 可以直接访问编辑器、终端、浏览器；

-它们会分工：有人写代码，有人查文档，有人跑测试；

-所有操作会被记录成 Artifacts：任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中，任务是设计一个招聘网站，而命令简单到只是复制、复制、全部复制，什么都不修改，直接粘贴。

最终 Gemini 独立完成对混乱文本的分析，真的做了一个完整的网站出来，前前后后所有的素材配置、部署，都是它自己解决的。

从这个角度看，Gemini 3 不只是一个「更聪明的模型」，而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上：Gemini 3 和上一代相比，最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身，Gemini 3 的 Preview 版本实际上给整个大模型行业，打开了一局新游戏：多模态能力应用的爆发势在必行。

在此之前，多模态（能看能听）是加分项；在此之后，“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力，将迫使 OpenAI、Anthropic（Claude）以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说，技术倒计时已经开始。

「套壳」与中间层也会感到压力山大，Gemini 3 展现出的强大 Agent 规划能力，是对当前市场上大量 Agentic Workflow（智能体工作流）创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时，「模型即应用」的现实就又靠近了一点。

另外，手机厂商可能也能感到一丝风向的变化，Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力，结合之前苹果和几家不同的模型大厂建立合作，可以猜测行业竞争将从单纯比拼云端参数的「算力战」，转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了，谁「始终在手边」才重要

在大模型竞争的上半场，大家还在问：「谁的模型更强？」，参数、分数、排行榜，争的是「天赋」。到了 Gemini 3 这一代，问题慢慢变成：「谁的能力真正长在产品上、长在用户身上？」

Google 这次给出的答案，是一条相对清晰的路径：从底层的 Gemini 3 模型，往上接工具调用和 agentic 架构，再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌，并且给自己旗下生态中的所有产品，焊上一条新的「智能总线」，让同一套能力，在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式，答案不会写在发布会里，而是写在接下来几个月——看有多少人，会在不经意间，把它留在自己的日常工作流中。

如果真到了那一步，排行榜上谁第一，可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

还在用 Gemini 3 写 ppt？太土了，来看看最酷炫手势互动（附提示词）

爱范儿

Selina

2025年12月1日 16:56

Gemini 3 发布之后这些日子里，我逐渐感到疑惑：为什么总让 AI 写网站写 PPT，Gemini 都发到第三代了，不能干点更有意思的事吗？

要那种科幻感强的、效果酷炫的、难度系数高的，但小白也能做的。比如这种：

或者这种：

Gemini：手势交互？没问题，包的。

在开始之前，先准备好 Gemini 3，这里是一点点的注意事项

目前有三种方式开启玩耍：Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中，最不推荐的是客户端，亲测无法有效拉起摄像头，并且，下面都是手势互动项目，举着手机，手自然也是没法做操控的。

后两者中，Build 是直接形成一个 app，你可以分享给其它朋友，缺点是 tokens 有限。而 Playground 会生成一套代码，需要下载到本地再打开，一旦换个电脑就可能运行不了，但优点是几乎没有 tokens 限制，每天一百万，量大管饱。

考虑到交互项目比较消耗 tokens，所以 Playground 更为合适，个别小项目用 Build 也可以，这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款，手势操控仪表球，就像钢铁侠操控 Jarvis 那样，酷毙了。

参考 prompt 如下：

create a webapp using vanilla js， html， css， modern threejs， mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right)， with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen， that should be able to be rotated / sized by the user hand gestures

在 Build 模式下，亲测完全可以实现一次成型，Gemini 会自动安排任务、编写代码，调用不同的接口，进度条显示完成后，点击 Preview 就能直接打开——记得放行摄像头权限。

Gemini 3 自己就把效果设计安排得明明白白：左手是放大缩小，右边是转动，双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的，都是它自己的「想」出来的。搭配大屏幕或者投影，真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的，最初 Gemini 3 让右边的面板显示人体体温（显然是凭空编的），后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下，想怎么改怎么改。

雨滴控制

Jarvis 都有了，惊天魔盗团不也得安排上。

看电影时只有特效，但现在，有 Gemini 3 了。参考 prompt 如下：

用 HTML+JS+ML 模型做个网页应用，通过摄像头检测手势，实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向，风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的，每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt，Gemini 会加入它自己的设计，比如这具体的手势就是它想出来的。

虽然是用 AI 做的，但是在识别手势动作时非常灵敏，包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术，就在《惊天魔盗团 2》上映之后，有一个饮料公司做了一支广告，通过控制雨滴，实现静态的粒子效果。

那么参考「控雨术」，Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果，最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫！prompt 参考如下：

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散，提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型，支持颜色选择器调整粒子颜色，粒子需实时响应手势变化。界面简洁现代，包含全屏控制按钮

一次成型，最后出来的交互非常丝滑，尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节，如果每次都用 vibe coding 的方式来调节，表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况，所以有一个非常实用的技巧是：加上自定义模块，尤其是颜色、大小等，这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子，由粒子想到移动，由移动想到——五子棋！我终于可以做技能五子棋了！！

仔细想想，五子棋不也是一个手势控制、飞来飞去的交互方式吗！飞沙走石移动棋子，力拔山兮移动棋盘，全都安排上！

Prompt 参考如下：

做一个手势互动小游戏「技能五子棋」：主页面为五子棋棋盘，默认已经摆放好棋子。当用户做出「单手甩手」的动作时，棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时，棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接，我的 prompt 只需要描述效果，而具体的速度向量计算、检测阈值，都不用我管。

它甚至还重新命名了「技能」：万象天引。

这叫飞沙走石啊 Gemini 老师！

节奏音乐游戏

综合上面的几个尝试，Gemini 的毋庸置疑，而且回想一下这些技能树：手势识别、色彩变化，这些组合起来，不就是小游戏吗？

于是我尝试了更复杂一点的项目：节奏游戏。

音游玩过很多了，但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果，还真是花了一点脑筋，后来第一版 prompt 如下：

做一个用手势操控的音乐游戏，主界面为四条音轨，用户上传音乐文件后，四条音轨上按节拍出现光点，用户需要用手势准确拍击出现的光点，背景为复古合成波（Synthwave）风格，背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形，根据第一版 prompt，Gemini 选择了 Pygame 作为游戏引擎，继续使用 MediaPipe 做手势追踪，并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路，非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手，得调整；然后是无法上传音乐，得调整；到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方：判定线的位置离屏幕边缘太近了，而摄像头的识别范围是有限的，我的手稍微放低一点就无法被识别。

一开始我尝试的方法是，把判定线移动到屏幕居中位置，保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题：光点出口和判定线之间的距离过短，留给我的反应时间也很短，更别提点击动作还有一点点点的延迟，整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办，于是，我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在，并且提出了「视觉欺骗」的方式来优化体验，并且加了一个自定义滑块来调节偏移，这样一来无论手在什么位置，都可以通过调节滑块来对齐判定线。

天才。

后来我还指出，感觉光点的出现跟节奏不太一致，为了解决这个问题，Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型，但是这个滑块的设计还是很有效，尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上，只要有 prompt 就有抽卡的情况存在，但抽卡未必就不好。当碰到非常硬伤的 bug，比如始终无法调用摄像头、无法上传文件等等，vibe coding 时反复修改也没效果，不如就直接「新建项目」。核心功能反映在代码上，彼此之间有所牵连，重新跑一遍，让 AI 整体性地补足，远比一点点 vibe coding 要更有效率。当然，能看懂代码就会更有效率，可以针对性地解决。只不过，对于完全的零码选手来说，还不如直接重新抽卡。

在 AI 之前，做手势交互的应用，得先学点儿 Touch Designer，最好还懂点儿部署。这些都得一点点翻教程，反复研究，在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单，自然不用多说。更关键的是，手势交互原本的门槛远比生图、做 PPT 要更复杂，却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的，是对审美的挑战。在这些案例里能看到，Gemini 有点审美，但不多，设计、配色等等都是差强人意。代码的「硬」技能它可以掌握，留给我们的，就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博