阅读视图

发现新文章,点击刷新页面。

终于发布的Gemini 3,什么是它真正的王牌?

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


W12 谢幕之后,宾利想用 460 亿种方式让你掏钱

过去很长一段时间,W12 发动机不仅是宾利动力总成的巅峰,更是克鲁工厂的精神图腾。但在 2025 年的当下,这个阶级秩序正在发生微妙的变化。

首先是宾利 Mulliner 部门限量定制的 Batur 敞篷版,作为内燃机时代的绝唱之一,它搭载那颗传奇的 6.0 升 W12 心脏,最大功率定格在 740 马力。而另一边刚刚更新的第四代欧陆 GT 和飞驰量产版,虽然只是走量车型,但在换装 V8 高性能混动系统后,综合功率却直接干到了 782 马力。

量产车的参数超越了限量旗舰,混动的效率击败了燃油的情怀——这就是超豪华品牌在电动化转型期必须面对的残酷现实。马力,正在变得前所未有的廉价。

当机械工程百年来建立的性能壁垒被电机轻易抹平,即便那些曾经用来标榜身价的 W12 或者 V12 依然精密、迷人,依旧代表着旧世界的荣光和复杂的机械美感,但那已不再是衡量强弱的唯一标尺。

如果不卖 12 缸独占的轰鸣,也不再垄断速度,几百万的宾利到底在卖什么?

宾利给出了一个数字:460 亿。

这是宾利对抗平庸的武器。按照他们的算法,你在订车的时候可以通过不同配置的排列组合,定制出 460 亿种不一样的车子。在这个新的逻辑里,宾利的个性化定制部门 Mulliner 不再是配角,而是成为了定义品牌价值的主角。

宾利似乎已经想清楚了,在那个充斥着高算力和同质化大屏的世界里,技术参数会被迅速迭代,唯有极度的「不可复制」,才是奢侈品最后的避难所。

当「慢」成为一种新的壁垒

在当下的汽车工业语境里,我们太习惯用「快」来定义技术含量了。无论是芯片算力的翻倍速度,还是超级工厂里按秒计算的下线节拍,效率似乎成了制造业唯一的信仰。但在宾利克鲁工厂里,似乎一切都是慢的。

看看那台名为「The Black Rose」的定制版 Batur,驾驶模式旋钮闪烁着黄金的光泽,但这并不是由金匠手工敲打出来的,而是「打印」出来的。宾利在这个贵金属上应用了增材制造技术,通过 3D 打印,将总计 210 克 18K 黄金,以一种传统铸造无法实现的方式,融入了驾驶模式旋钮和风琴音栓中。

▲定制版 Batur

同样的逻辑也延伸到了石头上。在与珠宝品牌 Boodles 的合作中,Mulliner 用激光将形成于 2 亿年前的天然石材切削至仅有 0.1 毫米厚。听起来没什么,但要把一块石头加工成纸张的厚度,并让它完美贴合在曲面上,同时还要保证它在车辆震动中不碎裂,并不是一件容易的事。

除了琢磨材质,Mulliner 还在思考「触感」。为了让车主能直接摸到木材原本的纹理,工匠们将漆料的用量减少了 90%;碳纤维也不再只有单调的黑色,深李紫、翠鸟蓝等色彩被编织进了碳纤维纹理中——这些都是 460 亿种配置组合的一部分。

▲ Mulliner 和 Boodles 联手定制的车型

而在渐变色漆面工艺上,为了让「托帕石蓝」和「温莎蓝」两种车漆在车身上实现肉眼无法分辨的自然过渡,Mulliner 拒绝了自动化机器人。两名资深技师必须同时操作,完全凭借经验和手眼配合,耗时 56 个小时才能完成。

这样的定制能力在面对中国市场时,宾利的姿态也发生了一些转变。它并不执着于单向输出英伦审美,而是开始尝试还原中式的意境。

我们在定制列表中看到了取材自《千里江山图》的「江山」特别版。Mulliner 并不是简单印上这幅名画就完事儿了,而是提取了画作中标志性的青绿与金色,通过复杂的刺绣在头枕上复刻山水形态。还有「流云」版中舒展的云纹,以及「鲤」特别版中六条形态各异的游动锦鲤,连那些听起来很虚幻的意象,比如「午夜月影」和「轻声耳语」,都被具象化为特定的皮革配色和饰面纹理。

▲ 飞驰「江山」特别版

还有一个案例,一台「糖果粉」色的添越长轴距版。这辆车的用户在订车时只有一个要求:要一个「特别的粉色」。为了满足他,Mulliner 专门调配了名为「Candy Pink」的车漆,车内的缝线、刺绣也都做到了同色系匹配。

Mulliner 定制的最高自由度,体现在那台 Speed Six 延续版上——一位客户带着儿时的玩具车模型来到 Mulliner,要求完全按照那个模型的配色和细节,打造一台真正的 Speed Six。

▲ Speed Six 延续版

一家车企能把一个人的记忆、童年幻想,甚至是一个玩具模型,通过严谨的工业流程变成一台可以合法上路的机械艺术品。这种固化时间与情感的能力,才是宾利在面对电动化浪潮时难以被取代的价值。

在纯电时代,保留一块「机械表」

在把材质和工艺卷到极致的另一面,我们看到的是宾利在电动化转型上的犹疑与妥协。

就在 11 月,宾利更新了原本激进的战略,将「Beyond100」升级为「Beyond100+」。其中最耐人寻味的调整在于,原本计划快速退场的插电混动车型,生命周期被直接延长到了 2035 年。在目前的电池密度下,纯电很难在不牺牲重量和空间的前提下,提供超豪华用户所需要的从容。与其被续航焦虑拉下神坛,不如把内燃机这张安全牌再打十年。

▲宾利的新 Logo

这种务实,或者说紧迫感,也体现在产品形态的变化上。宾利确认第一款纯电车型将是一台车长小于 5 米的「城市 SUV」。对于习惯了制造 5.3 米以上庞然大物的克鲁工厂来说,这是一个从未涉足的尺寸。这说明宾利即使作为金字塔尖的品牌,也不得不低下头,去争夺那些更年轻、更看重实用性的市场份额。

而在那台 EXP 15 概念车里,所谓的「奇妙融合(Magical Fusion)」理念,剥离掉营销话术后,其实是在解决一个棘手的问题:科技的保鲜期太短,而奢侈品的生命周期太长。

▲EXP 15 概念车

现在的智能汽车恨不得把屏幕铺满整个座舱,但这种做法对宾利来说是危险的。一块最先进的 OLED 屏幕,三年后就会显得过时,这会极大拖累整车的价值感。所以宾利选择把屏幕藏在木纹和织物后面,甚至保留那个名叫「机械奇迹」的物理仪表。

宾利或许意识到了,它们必须把那些注定会快速贬值的电子元件隐藏起来,让位于那些越老越有味道的木头、皮革和机械指针。只有这样,一台几百万的车才不会因为车机芯片的落后而显得廉价。

W12 终将消失,因为那是旧时代的遗物;但 460 亿种 Mulliner 的组合必须存在,56 小时手工喷涂的低效率必须存在。在那个充满不确定性的未来,这些无法被代码复制的人工成本,是宾利维持高溢价唯一的理由。

带轮子的都关注,欢迎交流。 邮箱:tanjiewen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曾经的最强苹果电脑 Mac Pro,已经被时代抛弃

没想到再次听到苹果 Mac Pro 的新消息,会是一个噩耗:

根据彭博社 Mark Gurman 爆料,苹果内部已经取消了新款 Mac Pro 台式机的开发,其搭载的 M4 Ultra 处理器也一起被砍,下一代高端桌面芯片是 M5 Ultra。

苹果内部基本放弃了 Mac Pro 项目,并认为 Mac Studio 才是未来。

Mac Pro 的坎坷一生

如果从 1994 年发布的 Power Macintosh 算起,那 Mac Pro 发布至今已过了 31 个年头,经历了苹果芯片的两次重大转型。

只是对于苹果来说,打造一台普通的性能猛兽永远不是产品的最终目标,做出一台既优雅又强大的电脑去定义未来,才是乔布斯和艾维的野心——甚至有的时候,「优雅」会优先于「强大」。

只是在半导体工业还不算发达的当时,设计和性能难以兼得,两者的矛盾如一个幽灵般盘旋在 Power Mac 和 Mac Pro 三十多年的历史中,注定了这个产品线命运多舛。

初代 Power Macintosh 采用了非常经典的塔式机箱形态,在当时作为首款搭载 PowerPC 处理器的苹果电脑问世,颇有秀肌肉的味道,位于苹果经典四象限的「专业级」和「台式机」区域。

从这时起,Power Macintosh 系列(后改名 Power Mac)成为了苹果电脑性能天花板代名词,主要面向高端的商务和创意用户。

Power Macintosh 定下的另一个「规矩」,就是极高的拓展性——它配备了 6 个 PCI 插槽和 7 个内置硬盘位,还需要用户自己添加独立显卡,完全就是为专业极客准备的产品。

在乔布斯回归苹果、乔纳森·艾维执掌设计大权后,两人通力合作打造出了多彩、塑料的 Power Mac G3,很好平衡了产品设计和性能功能。

两人不满足于此,Power Mac G4 Cube 在对未来计算机的进一步畅想中诞生。

通体玻璃和金属的外壳,看不到按钮和 CD 插槽,禅意甚至贯彻到机箱内部——连散热的风扇都没有。乔布斯对 Power Mac G4 Cube 非常满意:

我们通过简化去除多余的东西,取得进步。

Power Mac G4 Cube 得以位列现代艺术博物馆展厅,却也钉在了苹果产品的「耻辱柱」上:这个超小型机箱和无风扇的设计,导致散热能力低下,限制了性能发挥,最终这个设计也只使用了一代。

同样的故事,在 Mac Pro 产品线中还会再次上演。

2006 年,Mac Pro 接棒 Power Mac,同样在苹果转投英特尔的节点问世,搭载英特尔的至强系列处理器。

Mac Pro 延续了 Power Mac G5 的工业铝合金外壳,尽管工艺优秀,充满「Pro」气质,只是这个庞然大物的形态和体积,显然还不是苹果心目中的最佳形态。

于是在 2013 年,苹果给了艾维一个机会,去设计一款不同于以往的 Mac Pro。最终的成品确实称得上非同凡响,成为苹果产品设计史上极为浓墨重彩的一笔——

这个设计至今仍被人们津津乐道,但代价也很明显:这个仅有上代体积 1/8,只配备单个风扇的「垃圾桶」,很容易就会因为散热问题遇到性能瓶颈,对于一台面向专业用户的电脑来说是大忌。

▲ 两代 Mac Pro 体积对比

并且,苹果官方也只允许用户自行更换 Mac Pro 的内存和存储空间,并警告强行更换显卡会有很高的故障风险。

这并不是专业用户们所期待的 Mac Pro。在发布两三年后,到处都充满了对这个「垃圾桶」的吐槽,以及苹果是否已经抛弃专业用户的质疑声。

为了挽救口碑,苹果官方很罕见在 2017 年的一次媒体活动中出面承认了「垃圾桶」Mac Pro 的失败,并在之后推出了 iMac Pro 平息专业用户愤怒,承诺下一台 Mac Pro 将「更模块化」。

新款 Mac Pro 终于在「垃圾桶」发布后的 2182 天后发布——这期间,iPhone 大改了两次设计。

令人啼笑皆非的是,苹果对于「垃圾桶」的反思结果,就是重新捡起了 2006 年的初代塔式 Mac Pro 的图纸,铝合金机箱则换用了著名的「刨丝器」设计。

▲ 图源:YouTube@Ryan Gehret

至少,苹果终于端上来了一台高性能且可拓展的主机,人们欣然接受这台新 Mac Pro,这款产品最终也收获了不错的口碑。

只是当时也无人能预料到,这个 Mac Pro 的全新起点,同时也是这个产品线的终点。

一年后,Apple Silicon 横空出世,成为了 Mac 历史上最重要的一个转折点。

但这次,Mac Pro 没有像之前一样成为转型的排头兵,相反,在这个令人激动的新时代,它成为了无处安放的怪异存在。

Mac Pro 甚至是整个产品线中最后得到 Apple Silicon 翻新的型号,2023 年,搭载 M2 Ultra 的 Mac Pro 姗姗来迟。

虽然沿用了上一代颇受好评的新机箱,但高集成度的 Apple Silicon 生态,使得它的可扩展性极其有限,只能安装一些特殊的扩展卡,无法升级内存或者插入显卡。

与此同时,高能效的 Apple Silicon 终于让苹果得以「复活」Power Mac G4 Cube。

Mac Studio 小巧精致,外观没有一丝赘余,内部集成度高而无法扩展,苹果终于在 20 年后实现了乔布斯的夙愿,造出了一台真正面向未来的电脑。

▲ Power Mac G4 Cube 和 Mac Studio,图源:Macworld

对于用户来说,Mac Pro 更大、更重、更贵,却没带来更强的性能,只多出来一点点拓展性,新时代已经没有它的位置了。

或许也可以这么说,Mac Pro 不是被砍了,而是脱胎换骨,成为了 Mac Studio。

新时代再无 Mac Pro 的地位

和外观浑然一体的 iMac、Mac mini 以及多款 MacBook 比起来,采用塔式机箱、内部模块化设计的 Mac Pro,其实更像是一台 Windows 主机,不过运行着官方支持的 macOS。

纵观 Power Mac 和 Mac Pro 的历史,或者说整个电脑历史,高性能的主机以往似乎只有一种解题思路——巨大的塔式机箱,内部布满等着用户自己魔改的插槽。

在性能和能耗震惊世界的 Apple Silicon 诞生之后,苹果终于可以不再遵循 PC 高性能主机的这套规则,利用自己的芯片生态去代替以往需要不断增加更换电脑模块的方案。

在 M4 Mac mini 发布后,立马就有不少有趣的探索,例如联合运行多台 Mac mini 来形成盘阵列或者 AI 训练集群,以往这需要叠加更多显卡才能实现,并且功耗还更高。

▲ 图源:X@ Alex Cheema

对比可以自行更换元器件的模块化,这种高集成的设计使得产品出厂后再无升级可能,但高集成实现的高性能小型化,也产生了全新的价值。

以往的巨大机箱主机在,基本不具备流动性,我们以形式固定的「工作室」模式进行创作和生产,如果需要机动办公,则需要使用移动硬盘 + 性能本,无疑拉低了效率。

得益于高性能便携主机的出现,工作环境可以更灵活进行部署。像是影视行业的 DIT 工种,现在他们能够直接带走整个 Mac Studio 进行工作——换作以前的 16 千克 Mac Pro,这是不可能实现的。

▲ 把 Mac Studi 带着走的方案非常常见,图源:ProVideo Coalition

并不是只有苹果在深耕这个方向。英伟达的 DGX Spark 体积和老款 Mac mini 相当,却是一台具有 1 Petaflop 的 AI 超级计算机,曾经需要大型机柜和大量显卡的算力,现在可以直接摆在桌上。

芯片工艺和设计已经达到了一个顶峰,性能高能耗低成为常态,现在正是实现那些梦幻设计的时机,而小型化一直以来都是计算机和电子产品的迭代方向。

很多人对「小机箱」的趋势不解,质疑「能做大为什么不做大」,能够实现更好的散热——实际上,同一颗芯片的 Mac Pro 和 Mac Studio 性能几乎没有差距,现在的问题变成了「能做小为什么要做大」。

▲ 两者跑分非常接近,价格却相差 3000 美元,图源:MKBHD

更深层的变迁发生在社会之中。在 AI 改写生产力的时代下,每个人正在向「超级个体」靠拢,以前的工作方式是「计算机上长了个人」,那现在是人在哪里,性能就必须跟到哪里。

诚然,对于一些有专门需要的专业人士,像 Mac Pro 这样具有更高拓展性的大机箱还有价值,但 Mac Studio 的能力正在不断突破我们的想象,越来越多拓展也可以通过雷电接口解决。

带有一丝戏谑地说,Mac Pro 身上最有价值的部分,或许只剩下这个工艺水准极高的「刨丝器」机箱了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌