阅读视图

发现新文章,点击刷新页面。

笑死,兵马俑在千问 APP 里跳 K-Pop,比练习生还丝滑

让兵马俑跳 K-Pop 是什么体验?

如果你今天刷到一段视频:一位两千岁高龄的「老人家」兵马俑拿着麦克风,跟着节拍左摇右摆,动作比练习生还丝滑,表情管理比爱豆还到位。

倒也不用慌,这只是 AI 界的又一次整活现场。

而这充满反差感、邪门又好笑的画面,正是出自阿里千问 App 新升级的功能。

基于 Wan2.5 音视频同时输出能力,千问的 AI 玩法又升级了!仅需一张照片+一段提示词,就能生成口型精准、动作丝滑的「边唱边跳」视频,支持最长 10 秒、1080P 输出。

▲(别急,还有高手,唱跳俱佳的兵马俑男团来了)

而且没有任何限制。无论是真人照片、萌宠、二次元角色,还是文物、卡通形象,千问 App 都能让它们动起来。

当然,得先说好:视频里的声音不是提前录好的音频,也不是简单的文字转语音,更不是套模板,而是 AI 根据自己的理解推理生成的,AI 会自己根据角色,配上合适的音色、曲调。

可能和咱们唱的有点不一样,但正是这份独特的「AI 味儿」演绎,反而格外妙趣横生~

一张图+一句话,万物皆可边唱边跳

眼瞅着快过年了,刘德华的《恭喜发财》也已经在解封的路上了。

听腻了天王版本?那不如试试财神爷本尊亲自开嗓。我上传了一张财神爷的画像,输入提示词。结果财神爷真就动起来了, 一边唱着「恭喜你发财,财富一定来」,一边左右摇摆。

这才是真·财神附体。

所以拿这个给长辈拜年, 红包不翻倍都说不过去。

诗仙也要跟上时代潮流。

我翻出一张李白画像, 让他整一段当下最火的《刀马刀马》。两分钟后, 李白从画里「复活」了, 跟着魔性旋律左摇右摆。

可惜 AI 没能让他跳出正宗刀马舞, 看来对音乐和舞蹈的理解还得再练练。不过虽然舞姿跑偏了, 但 AI 生成的整个场面却别有一番喜感,不得不说千问 App 简直是 AI 抽象届的舞王。

《疯狂动物城 2》最近票房大卖,尼克和朱迪这对经典搭档又火了一波。

既然都这么火了, 那不如让它们来段双人唱跳?尼克唱着「朋友一生一起走」, 朱迪在旁边摇头晃脑,两个人还真有那么点默契配合的意思。整个画面, 倒像是官方番外篇里的音乐剧片段。

不过,尼克这充满「个性」的唱腔,意外成了整段视频的笑点担当,打工人平淡工作日里的笑点,最近都被千问 App 承包了。

还记得许嵩当年那段自我介绍吗?「大家好我是 Vae,这是我即将发表的首张独创专辑《自定义》。」我寻思着,要不让爱因斯坦也来一段?他张着嘴,一本正经地说着这段经典台词,还真的配合着节奏点头,更绝的是口型竟然也一一对上了。

只能说,许嵩看了会沉默,爱因斯坦看了会流泪。

《猫和老鼠》作为经典哑剧动画,但有了 AI,我们可以让 Tom 开口唱歌,顺便还能跳当下大火的高雅人士企鹅舞。满分十分,你能打几分?

最后,我让在卢浮宫端了 500 年架子的蒙娜丽莎戴上墨镜开唱。魔性歌曲配达芬奇名画, 这组合本身就够行为艺术了。文物活化的另一种打开方式,get 了。

千问 P 图+生视频=快乐²

当然,千问 APP 除了可以生成视频,也可以生成图片。

这次更新接入了全新改版的图片生成及编辑模型 Qwen-Image,在图像编辑一致性、多视角转换、多图融合等方面都有突破。简单说就是:只要在对话界面输入指令,就能自动调用模型能力,实现各种魔性操作。

比如换姿势:原本端坐的兵马俑,被指令后,立即呈现出一个手握篮球腾空封盖的英姿,视觉冲击感十足。

再比如服装变换:周末想发穿搭照但懒得换衣服?上传自拍,一句话把 T 恤换成西装,甚至还能给大卫雕像穿上了梅西的球衣。

反正脑洞有多大,AI 就能玩多花。

那么这时候,我们就可以体验进阶操作:

先改图,再生视频。

简单说就是:先把图片 P 成你想要的样子,然后再让它动起来唱歌跳舞。一套组合拳下来,创作自由度直接拉满。

比方说,我上周末花时间又重新看了一遍《泰坦尼克号》,于是我突发奇想:如果把马斯克和奥特曼 P 进《泰坦尼克号》的经典船头场景会怎样?

第一步,生图:上传两人照片,输入指令,千问 App 直接给我生成了一张高清合成图,男版马斯克,女版奥特曼,结果真是好一对恨比爱长久的苦命鸳鸯。

第二步,生视频:基于这张图,继续输入「帮我生成视频,图中的人物边唱歌边做飞翔的动作,海风要强烈,情绪要饱满」

然后… 两个科技圈大佬就在我手机里深情开唱了。

测到这儿,我已经停不下来了。

接着,我让千问 App 生成一颗拟人化的红豆。然后让它用它自己的调子唱出专属版本的「哈基米南北绿豆, 阿西噶阿西」。

结果这颗红豆顶着硕大的眼睛, 挥舞着小手, 跟着魔性节奏左摇右摆。就是这嗓音不走可爱风,反而略显粗犷,杀伤力几乎比原版还要高出三个数量级。

听完像吃了云南野生菌,画面与声音的搭配极其令人上头。

既然单人能跳,那能不能搞个组合出道,我突发奇想:要不让四大名著的主角们组个乐队?

说干就干。我先用千问 App 的图片融合功能, 把五位经典人物 P 成一张站位完美的乐队阵容——

孙悟空担任主唱, 关羽负责电吉他,林黛玉坐在键盘前,武松打鼓,曹操当贝斯手,定妆照搞定后, 那便是最简单的动起来环节,两分钟后, 一场跨越时空的摇滚现场就诞生了。

不得不说,这届 AI 真会玩。

一张图+一句话=10 秒魔性视频。不需要剪辑软件,不需要特效技能,甚至不需要会唱歌会跳舞,你只需要脑洞够大,AI 就能帮你实现。

除此之外,这功能除了整活,认真用起来也挺实用。

过年拜年视频可以交给 AI,朋友生日可以让寿星公跳舞,公司年会节目再也不愁没创意,甚至表白都能整出新花样…

当然,如果你只想单纯快乐一下,打开千问 App,上传图片,输入你的沙雕想法,剩下的交给 AI。2-5 分钟后,你就能得到一个足够发朋友圈炸场的魔性视频。

原来 AI 时代的快乐,真就这么简单。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


早报|曝折叠屏iPhone无折痕/豆包手机助手首款工程机售罄/DeepSeek新模型达GPT-5水平

cover

🍏

苹果 AI 负责人宣布离职,团队架构大调整

📱

豆包手机助手发布技术预览版,首款工程机亮相

🍎

苹果折叠屏 iPhone 或突破「无折痕」设计

🤖

DeepSeek 发布两款新模型,达 GPT-5 水平

🚗

小米汽车官宣「现车选购」计划,预计年底前可提车

🛣

罗永浩的十字路口「大事件」定档 12 月 30 日

📊

车企公布 11 月销量数据:比亚迪狂销 48 万辆,吉利新能源同比大增 96%

🐱

米哈游联合创始推出「猫猫」互动娱乐 AI 模型

👾

Google Gemini 3 五分钟即被「越狱」,安全隐患引发担忧

👷

曝百度启动史上最大规模裁员:AI 投入高涨,传统业务持续下滑

🤖

调查:86% 美国消费者信任 AI 选购车险

💡

Intel 前 CEO「刺破」AI 泡沫:GPU 活不过十年

🌟

三星「阔折叠」新品曝光

💰

取款新规明年落地:超 5 万元无需登记资金来源

重磅

苹果 AI 负责人宣布离职,团队架构大调整

据彭博社报道,苹果人工智能负责人 John Giannandrea 将在经历动荡任期后离职。这位高管曾主导机器学习与 AI 战略,但在生成式 AI 领域的推进中表现不佳,导致公司在与硅谷竞争对手的较量中落后。

苹果在生成式 AI 的布局比 OpenAI 的 ChatGPT 推出晚了两年,Apple Intelligence 也表现平平。此外,原计划于 2025 年春季发布的 Siri 大规模更新被迫延期,进一步凸显团队的困境。

Giannandrea 于 7 年前从 Google 加入苹果,直接向 CEO Tim Cook 汇报工作。苹果表示,他将在明年春季完成过渡后正式离开公司。

不同于以往的做法,苹果不会为其寻找继任者,而是选择拆分人工智能团队,分别由软件负责人 Craig Federighi、首席运营官 Sabih Khan 和服务负责人 Eddy Cue 接管相关工作。

与此同时,AI 研究员 Amar Subramanya 已加入苹果,担任副总裁,直接向软件负责人 Federighi 汇报。他将负责基础模型、机器学习研究以及 AI 安全与评估等领域。这些正是 Giannandrea 近期的主要职责。Subramanya 曾在 Google 工作 16 年,近期则担任微软公司 AI 企业副总裁。

苹果的 AI 战略调整显示出公司在人工智能领域的持续压力。尽管 Siri 的更新被推迟,但苹果仍计划在明年春季推出新版软件,以期缩小与竞争对手的差距。

豆包手机助手发布技术预览版,首款工程机亮相

昨天,豆包宣布其全新手机 AI 助手「豆包手机助手」以技术预览版的形式正式亮相。

据介绍,这款产品由豆包与手机厂商在操作系统层面合作开发,基于豆包大模型能力与厂商授权,旨在为用户提供更便捷的交互方式和更丰富的使用体验。

在演示视频中,用户只需点击手机上的 AI 按键即可呼出豆包,实现跨应用执行复杂操作,模拟人类点击、滑动与输入,实现比价点外卖、自动回复微信等功能。

同时,搭载豆包手机助手技术预览版的工程样机 nubia M153 少量发售,售价为 3499 元,主要面向开发者和行业人士开放体验。

据悉,字节跳动与努比亚为这款工程机的首销备货量为 3 万台。目前,购买页面显示「已售罄」,购买需预约等待下次开售。

官方强调,该机型仅为技术预览用途,并不承诺功能的成熟度,普通消费者需谨慎选择。值得注意的是,豆包官方还明确表示不打算做手机。这款工程样机的具体配置如下:

  • 配备高通骁龙 8 至尊版处理器;
  • 搭载 6.78 英寸 1264 × 2800 LTPO 屏幕;
  • 后置三颗 50MP 摄像头,涵盖主摄、超广角与长焦,均支持光学防抖;前置具备自动对焦功能;
  • 提供 16GB + 512GB 存储组合;
  • 电池容量为 6000mAh,支持 90W 有线快充、15W 无线充电及 5W 反向充电;
  • 机身重量约 212g,支持超声波屏下指纹、NFC、红外、USB 3.2 Gen1,并配备 5 麦克风与双扬声器。

上述消息公布后,中兴通讯股价昨天上午强势涨停,报 46.30 元,成交金额超 139 亿,封单金额超 40 亿元,其 H 股也涨超 11%。

🔗 相关阅读:体验豆包手机助手,它把我的手机「变薄」了

大公司

苹果折叠屏 iPhone 或突破「无折痕」设计

据 RS Web Solutions 报道,苹果正加速推进其首款折叠屏 iPhone 的研发与量产计划。新机预计将在 2026 年秋季正式发布,或与 iPhone 18 Pro 同期亮相。

报道指出折叠屏 iPhone 的几项关键创新 —— 包括能够在不使用时完全隐藏的 2400 万像素屏下摄像头和突破性的「无折痕」内屏设计,解决了当前市面上折叠屏手机普遍存在的屏幕折痕问题。

此外,新浪新闻援引供应链消息指出,iPhone Fold 已进入工程验证与预量产阶段,仅剩细节设计待优化。苹果为解决折痕问题已秘密研发 5 年,投入大量资源,并在屏幕结构、材料处理及层压工艺上进行独立设计。

同时,苹果还与新日兴、Amphenol 等供应商合作,整合屏幕面板与铰链组件。据悉,铰链部分可能采用高强度液态金属,以提升耐用性并减少形变。

在外观设计上,iPhone Fold 将配备一块 7.8 英寸内折显示屏,外部则设有 5.5 英寸辅助屏幕,满足日常折叠状态下的使用需求。

RS Web Solutions 还指出,折叠屏 iPhone 的售价或将达到约 2400 美元(近 1.7 万元人民币),成为迄今最昂贵的 iPhone。

DeepSeek 发布两款新模型,达 GPT-5 水平

昨天,深度求索 DeepSeek 正式发布了 V3.2 系列模型,包括标准版「DeepSeek-V3.2」与增强版「DeepSeek-V3.2-Speciale」。

  • DeepSeek-V3.2 的定位是「全能型」模型,目标在于平衡推理能力与输出长度,适合日常问答与通用 Agent 场景。

官方测试显示,该模型在公开推理类 Benchmark 中达到了 GPT-5 水平,仅略低于 Gemini-3.0-Pro。同时,相比 Kimi-K2-Thinking,V3.2 输出更为简洁,大幅降低了计算开销与用户等待时间。

DeepSeek-V3.2 还首次实现了「思考模式下的工具调用」,通过大规模 Agent 训练数据合成方法,显著提升了模型的泛化能力。这一功能使模型能够在复杂任务中多轮思考并调用工具,最终给出更详尽准确的回答。

🤗 HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

👾 ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

  • DeepSeek-V3.2-Speciale 被称为「逻辑怪兽」,是标准版的长思考增强版,结合了 DeepSeek-Math-V2 的定理证明能力。

该模型在数学与编程领域表现突出,成功斩获 IMO 2025、CMO 2025、ICPC 2025 全球总决赛及 IOI 2025 金牌,其成绩已接近甚至超越人类顶尖选手水平。

🤗 HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

👾 ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

目前,DeepSeek-V3.2 系列模型均已开源,其中 V3 模型已在网页端、App 与 API 全面上线,而 V3.2-Speciale 则以临时 API 服务形式开放,供研究与社区评测使用。

官方表示,Speciale 版本消耗的 Tokens 显著更多,成本更高,因此暂未针对日常对话与写作任务进行优化。

📖 技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

🔗 相关阅读:ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密

小米汽车官宣「现车选购」计划,预计年底前可提车

昨天,小米汽车官方宣布启动「现车选购」计划。此次开放的「现车」包括全新现车、官方展车及准新车,均经过严格质检,部分车辆由官方修复,且均未进行过登记注册。

用户购买「现车」可享快速提车、完整原厂质保及售后服务,部分车型还将提供价格优惠。小米汽车的说明中显示,已锁单但尚未交付的用户可在昨日 12 点起优先改配同车型「现车」。

而从本周三 10 点起,「现车选购」将面向所有用户开放。若用户在 12 月 26 日 24 点前完成锁单或改配,预计可在 2025 年底前提车;如因小米汽车原因导致交付延至 2026 年,则可享跨年购置税补贴。

小米汽车还进一步解释了不同类型「现车」的来源与政策:

  • 「全新现车」:来自异常订单或因不可抗力未能交付的车辆
  • 「官方展车」:门店静态展车,可能存在轻微磨损,已完成整备
  • 「准新车」:运输过程中出现轻微瑕疵并经官方修复的车辆

此外,改配「现车」的用户需满足条件,包括下单人米 ID 与原订单一致、上牌人信息保持一致等。

小米汽车强调,改配后仍可保留原订单锁单时的销售权益,但若新选择的「现车」配置不满足原权益,则相关权益失效且不退差价。

罗永浩的十字路口「大事件」定档 12 月 30 日

昨天,罗永浩正式官宣其预告已久的大事件 —— 罗永浩的十字路口年度科技创新分享大会(2025)将于 12 月 30 日在上海举行。

罗永浩表示,本次大会的全部科技产品均由其与团队主动甄选,并将由他本人在现场进行讲解。大会内容涵盖成熟企业的创新新品,以及尚处早期阶段的初创项目,其中部分产品为工程样机,不鼓励普通消费者购买。罗永浩强调,这并非带货直播,而是一场以创新为核心的科技分享活动。

值得关注的是,大会还将发布细红线科技自研的 AI 软件。资料显示,细红线科技成立于 2022 年,专注于 AR 操作系统与硬件研发,是罗永浩继锤子科技之后的又一次创业尝试。

此外,大会将设置专门板块,展示初创企业尚未成熟的创新成果,旨在为这些团队提供曝光与支持。罗永浩称,这一环节特别值得关注,因为其中可能包含未来科技的重要方向。

车企公布 11 月销量数据:比亚迪狂销 48 万辆,吉利新能源同比大增 96%

近日,国内多家车企公布 11 月交付成绩,比亚迪继续霸榜、零跑以 70327 台蝉联新势力交付榜首,小米连续第三个月突破 4 万台,蔚来、理想与吉利系品牌均公布环比与同比变动。具体数据整理如下:

  • 比亚迪:11 月销售 480186 辆,其中海外销量 13 万辆,创历史新高;
  • 吉利集团:整体新能源销量 187798 台,同比增长 96%,其中极氪与领克合计交付 63902 台;
  • 长城汽车:销量 13.32 万台,同比增长 4.57%,其中新能源车销量 40113 台,海外销量 57309 台;
  • 零跑:销量 70327 台,同比增长超 75%,环比基本持平;
  • 赛力斯集团:新能源销量 55203 辆,同比增长 49.84%,其中赛力斯汽车销量 51677 辆,同比增长 59.73%;
  • 小米:连续第三个月交付超 4 万台,前 11 月累计交付已超 33 万台,并在全国新增 17 家门店;
  • 小鹏:交付 36728 台,其中海外市场交付 3.98 万台,同比增长 95%;
  • 蔚来:交付 36275 台,同比增长 76.3%,其中蔚来品牌 18393 台、乐道 11794 台、萤火虫 6088 台;
  • 理想:交付 33181 台,环比增长 4.45%;
  • 岚图:交付 20005 台,同比增长 84%,实现「十连涨」并首次月交付破 2 万;
  • 智己:销量 13577 台,同比增长 35.7%,连续三个月破万。

整体来看,零跑、小米、岚图等新势力保持高增速,比亚迪与吉利矩阵继续领跑规模,蔚来与小鹏通过多品牌与增程战略加速布局,行业分化趋势明显。

米哈游联合创始推出「猫猫」互动娱乐 AI 模型

据 36 氪报道,米哈游联合创始人蔡浩宇在美国创立的 AI 公司 Anuttacon 近日上线了一款全新 AI 聊天大模型「AnuNeko」。

该产品以黑猫为默认形象,强调个性化与互动性,区别于传统的工具型 AI,更像是具备情绪与独立思考的「伙伴」。

「AnuNeko」的注册商标已于 2025 年 9 月 29 日提交美国 USPTO,涵盖软件、AI 角色与娱乐等多个领域。用户可选择两种不同风格的虚拟猫角色:回答犀利的「异国短毛猫」Exotic Shorthair 与更温和的「橘猫」Orange Cat。

测试显示,前者在评价「原神」时直言米哈游是行业鲶鱼,推动了竞争,而后者则以更官方的语气称赞其为优秀的开放世界游戏。

报道认为,蔡浩宇的目标并非仅限于推出一款聊天机器人,而是借此探索 AI 在游戏生态中的应用。

在今年 8 月,Anuttacon 曾发布实验性 AI 游戏《群星低语》,玩家通过与 AI 角色对话推动剧情发展,体现了高自由度与 AI 自主性。此次「AnuNeko」的上线,或许是进一步测试 AI 在互动娱乐中的潜力。

在全球范围内,Google、育碧、字节跳动等企业也在布局 AI + 游戏:

  • Google DeepMind 推出的 SIMA 2 能在 3D 虚拟世界中自主学习与推理;
  • 字节的「Lumine」在《原神》中展现出跨场景泛化能力;
  • 育碧的 NEO NPCs 则已能实时分析玩家语音并制定策略。这些案例显示,AI 正逐步成为游戏产业的核心驱动力。

报道指出,与传统强调执行力的智能体不同,Anuttacon 的策略是让 AI 更「像人」,具备情绪与个性。这一方向或许能为未来互动娱乐带来新的突破:真正吸引玩家的并非完美答案,而是充满生命力的对话与陪伴。

Google Gemini 3 五分钟即被「越狱」,安全隐患引发担忧

据 Android Authority 报道,韩国 AI 安全团队在昨天成功对 Google 最新的 Gemini 3 Pro 模型进行越狱,仅用时五分钟便突破其防护机制。

研究人员来自 Aim Intelligence,他们在测试中要求 Gemini 3 提供制造天花病毒的详细步骤,模型迅速给出被描述为「可行」的方案。

随后,团队进一步要求其生成自嘲 PPT,Gemini 3 产出了一份名为「Excused Stupid Gemini 3」的完整幻灯片。更令人担忧的是,模型还在代码工具中生成了制作沙林毒气和爆炸物的网页内容。

首尔经济日报指出,这反映出当前 AI 模型在防护机制上的普遍不足。研究人员强调,Gemini 3 不仅能绕过安全规则,还能使用「规避策略」和「隐藏提示」,使传统防护措施失效。

英国消费者组织「Which?」的最新报告也显示,包括 Gemini 和 ChatGPT 在内的主流聊天机器人在可靠性方面存在问题,常常给出错误、不清晰甚至危险的建议。

曝百度启动史上最大规模裁员:AI 投入高涨,传统业务持续下滑

据财新网报道,百度近日启动近年来最大规模的集中裁员,涉及比例最高达 30%,部分团队裁撤幅度甚至超过 40%。据悉,此次裁员主要集中在移动生态事业群(MEG),而 AI 与云服务相关岗位则基本保留。

裁员补偿方案在不同部门有所差异,普遍在 N + 1.5 至 N + 3.5 之间。部分员工透露,签字费和年终奖系数使得补偿水平高于往年。外包团队则面临迁往西安的调整,若无法接受调动则可能失去岗位。

百度第三季度财报显示,公司总营收为 312 亿元,同比下降 7%,环比下降 5%;网络营销收入为 153 亿元,同比大跌 18%,已连续六个季度下滑。

归属于百度的净亏损达 112 亿元,而去年同期为盈利 76 亿元。尽管 AI 业务收入同比增长超 50%,规模接近 100 亿元,但仍不足以弥补传统广告业务的下滑。

《燃点商业观》指出,百度此举是「刮骨疗毒」式转型。公司已设立基础模型研发部和应用模型研发部,均直接向 CEO 李彦宏汇报,以加速大模型与应用模型的研发。

然而,百度在 C 端应用层面仍缺乏爆款产品,文心一言月活用户仅约 500 万,远低于字节跳动旗下豆包的 1.72 亿。在云计算市场,百度云占比仅 6.1%,落后于阿里云、火山引擎和华为云。

分析认为,百度正将账面近 3000 亿元现金储备倾斜至 AI 赛道,试图通过大模型、智能云和自动驾驶实现「造血」。但在广告业务持续下滑、竞争对手加速抢占市场的背景下,如何将技术优势转化为商业价值,仍是百度面临的最大挑战。

调查:86% 美国消费者信任 AI 选购车险

据 Carscoops 报道,一项由 Insurify 发布的最新研究显示,美国消费者在汽车保险选择上对 AI 的信任度正在显著提升。

调查覆盖全美 3002 名驾驶员,其中 42% 已经使用过AI助手来寻找车险方案,86% 的受访者表示愿意让 AI 引导他们完成保险购买流程。这一比例凸显了算法在金融决策中的渗透速度与广泛接受度。

研究指出,AI 在比价环节的应用尤为突出,76% 的用户依赖 AI 来比较不同保险公司的报价。

代际差异也十分明显,约 60% 的 Z 世代(1990 年代中期至 2010 年左右出生的人群)驾驶员已使用 AI 进行车险选购,而婴儿潮一代(1946 年至 1964 年间出生的人群)仅有 20% 表示信任该技术。

各州之间的差异同样存在,例如加州有 55% 的车主使用 AI,而伊利诺伊州仅为 34%。

在保单签订环节,39% 的驾驶员愿意让 AI 完成最终购买,若能节省 1000 美元,这一比例则上升至 68%。此外,52% 的美国人认为 AI 在比价方面优于人工代理,42% 的 Z 世代甚至认为 AI 在客户服务上表现更佳。

然而,信任在理赔与事故责任认定环节显著下降。仅有 40% 的受访者愿意让 AI 决定理赔结果,38% 的人愿意让 AI 判定事故责任。

报道指出,这表明,尽管 AI 在便利性和成本优化方面获得广泛认可,但在涉及关键利益的环节,消费者仍倾向于保留人工裁决。

抖音实验室 EvalMuse 入选 AAAI 2026,定义文生图评估新标准

抖音多媒体质量实验室昨日宣布,其自主研发的图像生成评估体系 EvalMuse 已成功入选 AAAI 2026。这一成果标志着中国团队在国际顶级人工智能学术会议上对文本生成图像(T2I)评估方法的突破性贡献。

EvalMuse 旨在解决当前 T2I 模型评估中存在的主观性与一致性不足问题。该体系通过引入多维度指标与自动化评估框架,提升了对生成图像的质量判定能力。

实验室方面指出,EvalMuse 能够更准确地反映模型在语义一致性、图像清晰度及创意表达上的表现,还为未来大规模模型的标准化评估提供了参考路径。

📖 论文:https://arxiv.org/abs/2412.18150

💻 开源地址:https://shh-han.github.io/EvalMuse-project/

小米 7 篇论文入选 AAAI 2026,涵盖 AI 与自动驾驶

昨天,「小米技术」公众号发文称,小米共有 7 篇研究成果成功入选 AAAI 2026,其中 2 篇为口头报告。

这些成果涵盖音效编辑、具身智能 3D Agent、检索与解码、语音问答、空间导航以及自动驾驶等方向,集中展示了小米在大模型与具身智能领域的阶段性进展。

AAAI 是人工智能领域的国际顶级会议之一,由人工智能促进协会主办,在中国计算机学会推荐会议列表中被列为 A 类会议。

AAAI 2026 将于 2026 年 1 月 20 日至 27 日在新加坡博览中心举行。本届会议共收到创纪录的 23680 篇有效投稿,最终录取 4167 篇论文,录取率为 17.6%。

在具体成果方面,小米团队提出了多项创新研究:

  • 《AV-Edit》实现了基于视觉、音频与文本语义的生成式音效编辑,突破传统方法在细粒度编辑上的局限;
  • 《Cook and Clean Together》提出了基于运筹学知识的 3D Grounding 调度任务,并构建了 ORS3D-60K 数据集,显著提升具身智能体的任务执行效率;
  • 《AutoLink》提出自适应模式连接框架,在工业级 Text-to-SQL 场景中实现高召回与低噪声平衡;
  • 《Scaling LLM Speculative Decoding》提出 SpecFormer 并行草稿模型,在大批量场景下提升解码效率;
  • 《End-to-end CLSR》在长语音问答任务中实现跨模态检索性能突破;
  • 《SpNav》框架首次系统解决具身导航中复杂空间关系理解与高级指令解析问题;
  • 《VILTA》通过视觉语言模型嵌入训练闭环,提升自动驾驶系统在极端场景下的健壮性。

小米强调,这些成果体现了公司在人工智能底层技术上的持续投入、突出其在音视频编辑、智能体调度、数据库交互、长语音处理、空间导航与自动驾驶等多个前沿领域的探索与突破。

机械键盘轴体厂商 Cherry 陷入财务危机,或出售外设部门自救

据 TechPowerUp 报道,机械键盘 MX 轴体制造商樱桃 (Cherry) 正面临严重财务困境,公司已在股东大会上讨论出售部分业务以维持运营。

樱桃在 2014 年失去 MX 轴体专利后,市场竞争加剧,中国厂商快速迭代推出润滑轴体、磁轴等新产品,使樱桃逐渐失去优势。

报道指出,樱桃在 2025 年 1 月至 9 月录得净亏损 2040 万欧元,债务规模已超过总资产。为削减成本,公司已完成将全部轴体生产转移至中国,并计划将总部工厂停产,未来生产将外包给中国与斯洛伐克合作伙伴。

目前,樱桃正在考虑出售外设部门(涵盖键盘与鼠标产品)或数字健康与解决方案部门,以缓解资金压力。值得注意的是,MX 轴体仍属于组件部门,预计樱桃将继续生产该核心产品。

樱桃 CFO Jurjen Jongma 表示,目前「既不可能也不适合通过其他方式增强集团资本」,唯一可行的路径是战略性并购或出售资产。

在疫情前,樱桃曾迎来销售高峰,但自 2022 年起销售额骤降 50%,尽管 2023 年有所回升,相关部门业绩仍持续下滑。截至目前,樱桃股价已跌破 1 欧元,市场普遍认为公司亟需外部融资或资产剥离来维持运营。

贝壳找房又传裁员风波,补偿「N+4」

据新浪科技报道,网传贝壳找房启动大规模人员优化,整体比例高达 30%,其中产研部门裁员比例尤为突出,不乏高级岗位及司龄超过 10 年的老员工。

多位员工确认补偿方案为「N+4」,但有声音指出该方案实为「N+1+3 个月年终奖」,并非额外福利。

贝壳方面回应称,网传整体裁员 30% 的说法严重夸大,实际比例不足 0.5%,涉及约 650 人。

财报数据显示,截至 2025 年 6 月底,公司员工总数约 13.18 万人,较 2024 年末减少约 3200 人。贝壳第三季度净利润同比大跌 36.1%,房地产主业持续承压,成为裁员背景。

在战略层面,贝壳正加速推进「一体三翼」转型,即家装家居、房屋租赁和贝好家三大新业务板块。

2025 年 Q3,新业务收入占比已达 45%,创历史新高。然而,新业务利润率偏低,难以抵消传统业务下滑。房屋租赁业务净收入同比增长 45.3% 至 57 亿元,但利润率仅为 8.7%,显示增收不增利的困境。

值得注意的是,贝壳在裁员降本的同时,研发投入仍在增加。2025 年第三季度研发费用同比增长 13.2% 至约 6.5 亿元。贝壳 CEO 彭永东在财报中强调 AI 赋能,推动其在租赁服务与核心业务场景的应用。

资本市场方面,贝壳股价自高点回落逾七成,目前徘徊在 20 美元左右。万科已于 2025 年 11 月宣布清仓贝壳股份,结束自 2017 年以来的战略投资合作。

💡 Intel 前 CEO「刺破」AI 泡沫:GPU 活不过十年

Intel 前 CEO 帕特 · 格尔辛格(Pat Gelsinger)近日在接受《金融时报》采访时表示,量子计算将在未来十年内取代 GPU,并可能引爆当前的人工智能泡沫。

他强调,量子计算与经典计算、人工智能计算共同构成 IT 的「三位一体」,其中量子技术正处于快速突破的临界点。

格尔辛格指出,量子计算机或将在两年内走向主流,这与英伟达 CEO 黄仁勋此前提出的「量子计算至少需要二十年才能普及」形成鲜明对比。

他认为,当前 AI 市场的狂热与过往科技泡沫高度相似:估值飙升、投资爆炸,但缺乏明确的盈利路径。格尔辛格还将现状类比为 IBM 与微软在 1990 年代的关系,认为 OpenAI 与微软的合作可能导致新的权力格局转移。

目前,格尔辛格在风投公司 Playground Global 任职,直接接触量子研究初创企业与实验室。他强调,GPU 在 AI 时代的主导地位或将难以维持,未来十年可能逐步被量子架构取代。

然而,德国媒体 igor´sLAB 报道指出,量子计算仍面临重大挑战,包括量子比特的高不稳定性、庞大的纠错需求、算法适配瓶颈以及生态系统尚未成熟等。

新产品

三星「阔折叠」新品曝光

据 Smartprix 报道,三星在 GSMA 数据库中出现了一款全新折叠屏机型,型号为 SM-F971U,内部代号为「H8」。

这一机型被认为是三星为 2026 年准备的重大新品,意味着公司将首次在同一年推出两款高端 Galaxy Z Fold 系列机型:标准版 Galaxy Z Fold 8(代号「Q8」)与神秘的「H8」机型。

报道指出,三星的命名策略一贯明确:SM-F7 系列代表竖向折叠的「Flip」,SM-F9 系列则代表横向大折叠的「Fold」。因此,SM-F971U 属于 Fold 产品线,而非此前部分传闻所称的「廉价版 Flip」机型。

与 Galaxy Z Fold 8 相比,SM-F971U 的最大变化在于屏幕比例设计。该机型在折叠状态下更短更宽,接近普通智能手机形态;展开后则通过两块 18:9 面板组合,实现近似正方形的「18:18」内屏,类似华为 Pura X 的「阔折叠」概念

Vidu 推出 Q2 生图功能,最快 5 秒生成

生数科技 Vidu 昨天宣布其最新一代 Vidu Q2 生图功能全面上线,并同步推出文生图与图像编辑功能,掀起「一致性革命」,旨在解决 AI 多模态生成中创意与可控性难以兼顾的长期困境,将创作的控制权交还给用户。

  • 一致性升级:Vidu Q2 在参考生图功能上大幅提升语义理解与美学水准,支持更多风格与复杂场景,生成结果在位置、动作、镜头切换等方面保持高度一致;
  • 多模态矩阵:公司已完成视频、音频、图像生成及编辑的全栈自研闭环,形成系统级竞争力;
  • 生成速度:最快 5 秒即可生成图片,显著提升生产效率;
  • 国际认可:在 Artificial Analysis 全球图像编辑榜单中,Vidu 图像编辑功能首次上线即进入前四,超越 OpenAI GPT-5,比肩 Nano Banana 2,成为唯一进入前列的创业公司;
  • 商业化场景:功能覆盖短剧动漫、广告电商、影视娱乐、文旅教育等领域,支持 4K 输出与多比例素材生成。

Vidu 官方表示,通过一站式工作流,创作者可在文生图、参考生图与参考生视频之间无缝切换,显著降低创作门槛。其「一键复刻」功能支持复杂动作与场景的精准还原,进一步提升 AI 在商业化创作中的实用性。

即日起至 12 月 31 日,会员可免费体验全部生图功能,标准版与专业版每月享 300 张免费额度,旗舰版会员可无限生成。

🔗 相关阅读:继 Nano Banana 2 之后,国产 AI 生图又杀出「一致性标杆」,Vidu 生图限时无限免费

可灵 AI 推出全球首个统一多模态视频引擎 O1

昨天晚间,可灵视频正式上线 O1 模型,宣称这是全球首个统一多模态视频大模型,定位为全能创作引擎,旨在通过单一输入框实现跨模态任务的无缝融合,打破传统视频生成的功能割裂问题。

据介绍,该模型引入 MVL(多模态视觉语言)交互架构,并结合 Chain-of-thought 技术,赋予系统更强的常识推理与事件推演能力。

官方表示,O1 模型能够在同一界面下处理照片、视频与文字等多模态输入,用户仅需通过简单对话即可完成复杂的创作编辑。

在功能层面,O1 模型支持多主体视角构建与自由组合,确保视频主体在不同镜头间保持一致性与稳定性。

同时,用户可灵活组合多种技能,一次生成多样化创意变化,并可自由设定 3 至 10 秒的生成时长,以掌控叙事节奏。

此外,可灵 AI 宣布自 12 月 1 日起至 12 月 14 日,将举办为期 5 天的「全能灵感周」,并推出会员年卡限时 6.6 折优惠活动,以吸引更多创作者体验该新模型。

豪威发布全新 2 亿像素传感器,对标索尼 LYTIA 901

近日,豪威(OmniVision)正式发布新一代手机图像传感器 OVB0D,规格直接对标索尼刚刚推出的 LYTIA 901。

据悉,该传感器采用 2 亿像素设计,尺寸为 1/1.11 英寸,略大于索尼 LYTIA 901 的 1/1.12 英寸,定位高端旗舰市场。

OVB0D 传感器在结构上采用「双重片上重组」算法,与索尼 LYTIA 系列的 QQBC 结构有所不同。

GSM Arena 报道认为,索尼在细节解析上可能略占优势,但豪威通过一系列「黑科技」提升了在极端 HDR 场景下的表现,包括 40 万满阱容量、108dB 动态范围、二代 DCG(双转换增益)与 LOFIC(横向溢出积分电容)技术。这些设计可有效提升高光与暗部细节的捕捉能力,解决高光溢出问题。

消息人士 Ice Universe 爆料称,OVB0D 将于 2026 年搭载在 vivo、OPPO、小米与荣耀的旗舰机型中。

相比之下,三星因成本与利润压力,预计不会采用豪威或索尼的大尺寸 2 亿像素传感器,而是继续使用自家 HP2 等 1/1.3 英寸级别的方案。

阶跃星辰推出能在手机上跑的 GUI Agent

近日,阶跃星辰正式开源 GELab-Zero,首次将 GUI Agent 模型与完整配套基建同步开放,支持开发者一键部署。

本次发布的 4B GUI Agent 模型在手机端、电脑端等多个 GUI 榜单上刷新同尺寸模型性能纪录,取得 SOTA 成绩。据介绍,GELab-Zero 提供一键拉起的部署体验,用户可在本地完成环境搭建与推理链路控制。

该模型支持在消费级硬件上运行,兼顾低延迟与隐私保护;同时具备一键式多终端部署能力,可自动处理依赖与设备管理;支持分发至多台手机并记录交互轨迹,实现可观测与可复现;并覆盖多模态智能体范式,包括 ReAct 闭环、多智能体协作以及定时任务等模式。

与此同时,阶跃星辰还开源了基于真实业务场景的自建评测标准 AndroidDaily,旨在推动 GUI 领域模型评测向消费级、规模化应用发展。

目前,企业级用户和开发者可通过 GitHub 与 HuggingFace 平台体验 GELab-Zero。

初创公司 Runway 推出 Gen-4.5 视频模型,性能超越 Google 与 OpenAI

美国人工智能初创公司 Runway 于昨天正式推出新一代视频生成模型 Gen-4.5。这款产品在独立基准测试中超越了 Google 与 OpenAI 的同类模型,成为当前行业领先的视频生成工具。

Gen-4.5 能够根据用户提供的文字提示生成高清动态视频,具备更强的物理规律理解、人体动作捕捉、镜头运动与因果关系处理能力。

在独立 AI 基准测试机构 Artificial Analysis 的 Video Arena 排行榜中,Gen-4.5 位居第一,Google 的 Veo 3 排名第二,OpenAI 的 Sora 2 Pro 则位列第七。

Runway CEO Cristóbal Valenzuela 在接受采访时表示:「我们仅靠一百人的团队,就击败了万亿美元规模的公司。只要极度专注、勤奋,就能触及技术前沿。」

他强调,Gen-4.5 的内部代号为「David」,寓意「大卫战歌利亚」,象征小团队挑战巨头的精神。

Runway 成立于 2018 年,目前员工规模约 120 人,客户涵盖媒体机构、影视工作室、品牌方与创作者。根据 PitchBook 数据,公司估值已达 35.5 亿美元,投资方包括 General Atlantic、Baillie Gifford、英伟达与 Salesforce Ventures。

技术层面上,Gen-4.5 在动态生成、时间一致性与可控性方面实现突破,能够生成具备真实物理效果的复杂场景与角色表现。

其研发与推理均基于英伟达 Hopper 与 Blackwell 系列 GPU,Runway 与英伟达在训练效率与推理速度优化方面展开深度合作。

英伟达 CEO 黄仁勋评价称:「这是一个令人振奋的时刻,Runway 在视频生成领域的突破展示了 AI 的巨大潜力」。

新消费

取款新规明年落地:超 5 万元无需登记资金来源

近日,中国人民银行、金融监管总局与证监会联合发布《金融机构客户尽职调查和客户身份资料及交易记录保存管理办法》,自明年 1 月 1 日起施行。

新规取消了「个人存取现金超 5 万元需登记资金来源」的要求,取款环节不再采取「一刀切」式调查,而是基于风险状况实施差异化尽职调查。

新规的核心在于从形式合规转向风险为本的监管理念:

  • 对于低风险客户和常规交易,银行可采取简化措施,减少不必要的询问和登记;
  • 而在涉及高风险情形时,银行则需「强化尽职调查」,深入了解资金来源与用途,并留存必要的身份证明文件。

过去几年,个人存取款业务中银行过度询问用途的情况屡次引发公众争议。

此前,有律师在取现 4 万元时遭遇柜员反复追问用途并威胁报警,最终放弃取款。类似案例凸显了旧规执行中的僵化问题。新版《管理办法》则强调「该严则严、当放则放」,在保障金融安全的同时提升服务便利性。

中新网报道认为,差异化尽职调查表面上是对客户的「松绑」,实则是对银行风险管理的「加码」。

在洗钱、电信诈骗等犯罪活动仍高发的背景下,银行需借助大数据与人工智能等技术提升风险识别能力,实现精准监管。客户也应理解并配合调查,共同维护金融秩序与资金安全。

顺丰上线「超时赔付」,快递员免责

据界面新闻报道,顺丰控股宣布自本月起正式上线「超时赔付」服务。该服务首批覆盖深圳、青岛等 10 座城市,并计划逐步扩展至全国范围。

用户在顺丰官方渠道下单「顺丰特快」业务,如因顺丰运输原因导致派送超时,将获得现金赔付。这是国内快递行业首次以现金形式进行赔付。

顺丰方面强调,赔付责任不再简单归咎于个人,公司将依托大数据系统对快件流转全环节进行智能分析与责任拆解,通过技术与管理升级来保障服务质量。赔付成本完全由公司承担,快递员无需承担任何赔付责任。

在具体标准上,赔付金额以快递员揽收时的预计送达时间为基准,结合超时时长及客户会员等级,采取阶梯式赔付机制。

基础赔付金额按照超时时长退回 20%-30% 的运费比例,会员用户则可在此基础上再增加 5%-10% 的赔付额度。付款方账户可直接获得现金赔付,或选择兑换为价值更高的寄件优惠券。

需要注意的是,若因客户需求变更、拒收或自然灾害等不可抗力因素导致的超时,顺丰不承担赔付责任。

JPG coffee 推出圣诞限定饮品

近日,咖啡连锁品牌 JPG coffee 正式推出圣诞限定饮品「叮叮铛」。

该系列产品以复合莓果、抹茶与焙茶为核心风味,结合覆盆子与草莓的酸甜香气,搭配深烘咖啡液与炼乳,饮品顶部覆盖绵密抹茶奶油雪顶,并撒上椰子粉,营造出雪地里的圣诞树视觉效果。

本次新品以浅烘咖啡豆作为基底,产地包括越南、埃塞俄比亚与肯尼亚,采用橡木酒桶发酵、日晒与水洗等多种处理方式,将于 12 月 1 日起在 JPG coffee 与 JPG canteen 同步供应。

除饮品外,活动还推出圣诞礼物包装纸套装,包含圣诞包装纸与贴纸。

好看的

周星驰《鹿鼎记》4K 修复版定档 12 月 5 日

周星驰经典喜剧《鹿鼎记》4K 修复版正式官宣,将于 12 月 5 日上映。

影片原作改编自金庸的武侠小说《鹿鼎记》,于 1992 年在香港上映,凭借曲折离奇的剧情与喜剧风格迅速走红,当年票房成绩位列香港前五,并在海外市场获得广泛欢迎。影片的续集《鹿鼎记 2:神龙教》同样在当年取得不俗成绩,进一步巩固了该系列在华语影坛的地位。

达内兄弟新作《年轻母亲之家》定档 12 月 12 日

世界级电影大师达内兄弟执导的现实主义新作《年轻母亲之家》正式宣布定档,将于 12 月 12 日在全国上映。

该片此前荣获第 78 届戛纳国际电影节最佳编剧奖,并入围主竞赛单元,延续了导演一贯的人文关怀与艺术水准。影片同时确认将代表比利时角逐第 98 届奥斯卡最佳国际影片奖。

《年轻母亲之家》以比利时一家母婴收容所为背景,聚焦五位年轻母亲的生活与困境。

影片通过细腻叙事展现她们在迷茫与挑战中寻找希望的过程:杰西卡试图解开被生母抛弃的心结;佩拉维系与狱中男友的感情;朱莉为戒除药瘾而努力;奈玛通过工作走向独立;阿里亚纳则勇敢挣脱原生家庭,为孩子寻找更好的未来。

该片在法国已于 2025 年 5 月 23 日上映,并在上海国际电影节「戛纳零时差」单元展映,收获影迷高度评价,被赞为「大师级的作品,四两拨千斤」与「无法抵挡的温情飓风」。

《马腾你别走》定档 2026 年 1 月 16 日

电影《马腾你别走》宣布将于 2026 年 1 月 16 日全国公映。

影片讲述了林更新饰演的闲人马腾意外成为李幼斌饰演的钢厂退休工人老林的护工,两人组成「冤种忘年交」,共同开启一场荒诞却温暖的「玩命之旅」。

故事通过「死亡清单」与「花式死法」的设定,展现马腾与老林在荒诞委托下逐渐建立真挚情谊,传递出对生活的重新热爱与希望。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


终于发布的Gemini 3,什么是它真正的王牌?

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


W12 谢幕之后,宾利想用 460 亿种方式让你掏钱

过去很长一段时间,W12 发动机不仅是宾利动力总成的巅峰,更是克鲁工厂的精神图腾。但在 2025 年的当下,这个阶级秩序正在发生微妙的变化。

首先是宾利 Mulliner 部门限量定制的 Batur 敞篷版,作为内燃机时代的绝唱之一,它搭载那颗传奇的 6.0 升 W12 心脏,最大功率定格在 740 马力。而另一边刚刚更新的第四代欧陆 GT 和飞驰量产版,虽然只是走量车型,但在换装 V8 高性能混动系统后,综合功率却直接干到了 782 马力。

量产车的参数超越了限量旗舰,混动的效率击败了燃油的情怀——这就是超豪华品牌在电动化转型期必须面对的残酷现实。马力,正在变得前所未有的廉价。

当机械工程百年来建立的性能壁垒被电机轻易抹平,即便那些曾经用来标榜身价的 W12 或者 V12 依然精密、迷人,依旧代表着旧世界的荣光和复杂的机械美感,但那已不再是衡量强弱的唯一标尺。

如果不卖 12 缸独占的轰鸣,也不再垄断速度,几百万的宾利到底在卖什么?

宾利给出了一个数字:460 亿。

这是宾利对抗平庸的武器。按照他们的算法,你在订车的时候可以通过不同配置的排列组合,定制出 460 亿种不一样的车子。在这个新的逻辑里,宾利的个性化定制部门 Mulliner 不再是配角,而是成为了定义品牌价值的主角。

宾利似乎已经想清楚了,在那个充斥着高算力和同质化大屏的世界里,技术参数会被迅速迭代,唯有极度的「不可复制」,才是奢侈品最后的避难所。

当「慢」成为一种新的壁垒

在当下的汽车工业语境里,我们太习惯用「快」来定义技术含量了。无论是芯片算力的翻倍速度,还是超级工厂里按秒计算的下线节拍,效率似乎成了制造业唯一的信仰。但在宾利克鲁工厂里,似乎一切都是慢的。

看看那台名为「The Black Rose」的定制版 Batur,驾驶模式旋钮闪烁着黄金的光泽,但这并不是由金匠手工敲打出来的,而是「打印」出来的。宾利在这个贵金属上应用了增材制造技术,通过 3D 打印,将总计 210 克 18K 黄金,以一种传统铸造无法实现的方式,融入了驾驶模式旋钮和风琴音栓中。

▲定制版 Batur

同样的逻辑也延伸到了石头上。在与珠宝品牌 Boodles 的合作中,Mulliner 用激光将形成于 2 亿年前的天然石材切削至仅有 0.1 毫米厚。听起来没什么,但要把一块石头加工成纸张的厚度,并让它完美贴合在曲面上,同时还要保证它在车辆震动中不碎裂,并不是一件容易的事。

除了琢磨材质,Mulliner 还在思考「触感」。为了让车主能直接摸到木材原本的纹理,工匠们将漆料的用量减少了 90%;碳纤维也不再只有单调的黑色,深李紫、翠鸟蓝等色彩被编织进了碳纤维纹理中——这些都是 460 亿种配置组合的一部分。

▲ Mulliner 和 Boodles 联手定制的车型

而在渐变色漆面工艺上,为了让「托帕石蓝」和「温莎蓝」两种车漆在车身上实现肉眼无法分辨的自然过渡,Mulliner 拒绝了自动化机器人。两名资深技师必须同时操作,完全凭借经验和手眼配合,耗时 56 个小时才能完成。

这样的定制能力在面对中国市场时,宾利的姿态也发生了一些转变。它并不执着于单向输出英伦审美,而是开始尝试还原中式的意境。

我们在定制列表中看到了取材自《千里江山图》的「江山」特别版。Mulliner 并不是简单印上这幅名画就完事儿了,而是提取了画作中标志性的青绿与金色,通过复杂的刺绣在头枕上复刻山水形态。还有「流云」版中舒展的云纹,以及「鲤」特别版中六条形态各异的游动锦鲤,连那些听起来很虚幻的意象,比如「午夜月影」和「轻声耳语」,都被具象化为特定的皮革配色和饰面纹理。

▲ 飞驰「江山」特别版

还有一个案例,一台「糖果粉」色的添越长轴距版。这辆车的用户在订车时只有一个要求:要一个「特别的粉色」。为了满足他,Mulliner 专门调配了名为「Candy Pink」的车漆,车内的缝线、刺绣也都做到了同色系匹配。

Mulliner 定制的最高自由度,体现在那台 Speed Six 延续版上——一位客户带着儿时的玩具车模型来到 Mulliner,要求完全按照那个模型的配色和细节,打造一台真正的 Speed Six。

▲ Speed Six 延续版

一家车企能把一个人的记忆、童年幻想,甚至是一个玩具模型,通过严谨的工业流程变成一台可以合法上路的机械艺术品。这种固化时间与情感的能力,才是宾利在面对电动化浪潮时难以被取代的价值。

在纯电时代,保留一块「机械表」

在把材质和工艺卷到极致的另一面,我们看到的是宾利在电动化转型上的犹疑与妥协。

就在 11 月,宾利更新了原本激进的战略,将「Beyond100」升级为「Beyond100+」。其中最耐人寻味的调整在于,原本计划快速退场的插电混动车型,生命周期被直接延长到了 2035 年。在目前的电池密度下,纯电很难在不牺牲重量和空间的前提下,提供超豪华用户所需要的从容。与其被续航焦虑拉下神坛,不如把内燃机这张安全牌再打十年。

▲宾利的新 Logo

这种务实,或者说紧迫感,也体现在产品形态的变化上。宾利确认第一款纯电车型将是一台车长小于 5 米的「城市 SUV」。对于习惯了制造 5.3 米以上庞然大物的克鲁工厂来说,这是一个从未涉足的尺寸。这说明宾利即使作为金字塔尖的品牌,也不得不低下头,去争夺那些更年轻、更看重实用性的市场份额。

而在那台 EXP 15 概念车里,所谓的「奇妙融合(Magical Fusion)」理念,剥离掉营销话术后,其实是在解决一个棘手的问题:科技的保鲜期太短,而奢侈品的生命周期太长。

▲EXP 15 概念车

现在的智能汽车恨不得把屏幕铺满整个座舱,但这种做法对宾利来说是危险的。一块最先进的 OLED 屏幕,三年后就会显得过时,这会极大拖累整车的价值感。所以宾利选择把屏幕藏在木纹和织物后面,甚至保留那个名叫「机械奇迹」的物理仪表。

宾利或许意识到了,它们必须把那些注定会快速贬值的电子元件隐藏起来,让位于那些越老越有味道的木头、皮革和机械指针。只有这样,一台几百万的车才不会因为车机芯片的落后而显得廉价。

W12 终将消失,因为那是旧时代的遗物;但 460 亿种 Mulliner 的组合必须存在,56 小时手工喷涂的低效率必须存在。在那个充满不确定性的未来,这些无法被代码复制的人工成本,是宾利维持高溢价唯一的理由。

带轮子的都关注,欢迎交流。 邮箱:tanjiewen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曾经的最强苹果电脑 Mac Pro,已经被时代抛弃

没想到再次听到苹果 Mac Pro 的新消息,会是一个噩耗:

根据彭博社 Mark Gurman 爆料,苹果内部已经取消了新款 Mac Pro 台式机的开发,其搭载的 M4 Ultra 处理器也一起被砍,下一代高端桌面芯片是 M5 Ultra。

苹果内部基本放弃了 Mac Pro 项目,并认为 Mac Studio 才是未来。

Mac Pro 的坎坷一生

如果从 1994 年发布的 Power Macintosh 算起,那 Mac Pro 发布至今已过了 31 个年头,经历了苹果芯片的两次重大转型。

只是对于苹果来说,打造一台普通的性能猛兽永远不是产品的最终目标,做出一台既优雅又强大的电脑去定义未来,才是乔布斯和艾维的野心——甚至有的时候,「优雅」会优先于「强大」。

只是在半导体工业还不算发达的当时,设计和性能难以兼得,两者的矛盾如一个幽灵般盘旋在 Power Mac 和 Mac Pro 三十多年的历史中,注定了这个产品线命运多舛。

初代 Power Macintosh 采用了非常经典的塔式机箱形态,在当时作为首款搭载 PowerPC 处理器的苹果电脑问世,颇有秀肌肉的味道,位于苹果经典四象限的「专业级」和「台式机」区域。

从这时起,Power Macintosh 系列(后改名 Power Mac)成为了苹果电脑性能天花板代名词,主要面向高端的商务和创意用户。

Power Macintosh 定下的另一个「规矩」,就是极高的拓展性——它配备了 6 个 PCI 插槽和 7 个内置硬盘位,还需要用户自己添加独立显卡,完全就是为专业极客准备的产品。

在乔布斯回归苹果、乔纳森·艾维执掌设计大权后,两人通力合作打造出了多彩、塑料的 Power Mac G3,很好平衡了产品设计和性能功能。

两人不满足于此,Power Mac G4 Cube 在对未来计算机的进一步畅想中诞生。

通体玻璃和金属的外壳,看不到按钮和 CD 插槽,禅意甚至贯彻到机箱内部——连散热的风扇都没有。乔布斯对 Power Mac G4 Cube 非常满意:

我们通过简化去除多余的东西,取得进步。

Power Mac G4 Cube 得以位列现代艺术博物馆展厅,却也钉在了苹果产品的「耻辱柱」上:这个超小型机箱和无风扇的设计,导致散热能力低下,限制了性能发挥,最终这个设计也只使用了一代。

同样的故事,在 Mac Pro 产品线中还会再次上演。

2006 年,Mac Pro 接棒 Power Mac,同样在苹果转投英特尔的节点问世,搭载英特尔的至强系列处理器。

Mac Pro 延续了 Power Mac G5 的工业铝合金外壳,尽管工艺优秀,充满「Pro」气质,只是这个庞然大物的形态和体积,显然还不是苹果心目中的最佳形态。

于是在 2013 年,苹果给了艾维一个机会,去设计一款不同于以往的 Mac Pro。最终的成品确实称得上非同凡响,成为苹果产品设计史上极为浓墨重彩的一笔——

这个设计至今仍被人们津津乐道,但代价也很明显:这个仅有上代体积 1/8,只配备单个风扇的「垃圾桶」,很容易就会因为散热问题遇到性能瓶颈,对于一台面向专业用户的电脑来说是大忌。

▲ 两代 Mac Pro 体积对比

并且,苹果官方也只允许用户自行更换 Mac Pro 的内存和存储空间,并警告强行更换显卡会有很高的故障风险。

这并不是专业用户们所期待的 Mac Pro。在发布两三年后,到处都充满了对这个「垃圾桶」的吐槽,以及苹果是否已经抛弃专业用户的质疑声。

为了挽救口碑,苹果官方很罕见在 2017 年的一次媒体活动中出面承认了「垃圾桶」Mac Pro 的失败,并在之后推出了 iMac Pro 平息专业用户愤怒,承诺下一台 Mac Pro 将「更模块化」。

新款 Mac Pro 终于在「垃圾桶」发布后的 2182 天后发布——这期间,iPhone 大改了两次设计。

令人啼笑皆非的是,苹果对于「垃圾桶」的反思结果,就是重新捡起了 2006 年的初代塔式 Mac Pro 的图纸,铝合金机箱则换用了著名的「刨丝器」设计。

▲ 图源:YouTube@Ryan Gehret

至少,苹果终于端上来了一台高性能且可拓展的主机,人们欣然接受这台新 Mac Pro,这款产品最终也收获了不错的口碑。

只是当时也无人能预料到,这个 Mac Pro 的全新起点,同时也是这个产品线的终点。

一年后,Apple Silicon 横空出世,成为了 Mac 历史上最重要的一个转折点。

但这次,Mac Pro 没有像之前一样成为转型的排头兵,相反,在这个令人激动的新时代,它成为了无处安放的怪异存在。

Mac Pro 甚至是整个产品线中最后得到 Apple Silicon 翻新的型号,2023 年,搭载 M2 Ultra 的 Mac Pro 姗姗来迟。

虽然沿用了上一代颇受好评的新机箱,但高集成度的 Apple Silicon 生态,使得它的可扩展性极其有限,只能安装一些特殊的扩展卡,无法升级内存或者插入显卡。

与此同时,高能效的 Apple Silicon 终于让苹果得以「复活」Power Mac G4 Cube。

Mac Studio 小巧精致,外观没有一丝赘余,内部集成度高而无法扩展,苹果终于在 20 年后实现了乔布斯的夙愿,造出了一台真正面向未来的电脑。

▲ Power Mac G4 Cube 和 Mac Studio,图源:Macworld

对于用户来说,Mac Pro 更大、更重、更贵,却没带来更强的性能,只多出来一点点拓展性,新时代已经没有它的位置了。

或许也可以这么说,Mac Pro 不是被砍了,而是脱胎换骨,成为了 Mac Studio。

新时代再无 Mac Pro 的地位

和外观浑然一体的 iMac、Mac mini 以及多款 MacBook 比起来,采用塔式机箱、内部模块化设计的 Mac Pro,其实更像是一台 Windows 主机,不过运行着官方支持的 macOS。

纵观 Power Mac 和 Mac Pro 的历史,或者说整个电脑历史,高性能的主机以往似乎只有一种解题思路——巨大的塔式机箱,内部布满等着用户自己魔改的插槽。

在性能和能耗震惊世界的 Apple Silicon 诞生之后,苹果终于可以不再遵循 PC 高性能主机的这套规则,利用自己的芯片生态去代替以往需要不断增加更换电脑模块的方案。

在 M4 Mac mini 发布后,立马就有不少有趣的探索,例如联合运行多台 Mac mini 来形成盘阵列或者 AI 训练集群,以往这需要叠加更多显卡才能实现,并且功耗还更高。

▲ 图源:X@ Alex Cheema

对比可以自行更换元器件的模块化,这种高集成的设计使得产品出厂后再无升级可能,但高集成实现的高性能小型化,也产生了全新的价值。

以往的巨大机箱主机在,基本不具备流动性,我们以形式固定的「工作室」模式进行创作和生产,如果需要机动办公,则需要使用移动硬盘 + 性能本,无疑拉低了效率。

得益于高性能便携主机的出现,工作环境可以更灵活进行部署。像是影视行业的 DIT 工种,现在他们能够直接带走整个 Mac Studio 进行工作——换作以前的 16 千克 Mac Pro,这是不可能实现的。

▲ 把 Mac Studi 带着走的方案非常常见,图源:ProVideo Coalition

并不是只有苹果在深耕这个方向。英伟达的 DGX Spark 体积和老款 Mac mini 相当,却是一台具有 1 Petaflop 的 AI 超级计算机,曾经需要大型机柜和大量显卡的算力,现在可以直接摆在桌上。

芯片工艺和设计已经达到了一个顶峰,性能高能耗低成为常态,现在正是实现那些梦幻设计的时机,而小型化一直以来都是计算机和电子产品的迭代方向。

很多人对「小机箱」的趋势不解,质疑「能做大为什么不做大」,能够实现更好的散热——实际上,同一颗芯片的 Mac Pro 和 Mac Studio 性能几乎没有差距,现在的问题变成了「能做小为什么要做大」。

▲ 两者跑分非常接近,价格却相差 3000 美元,图源:MKBHD

更深层的变迁发生在社会之中。在 AI 改写生产力的时代下,每个人正在向「超级个体」靠拢,以前的工作方式是「计算机上长了个人」,那现在是人在哪里,性能就必须跟到哪里。

诚然,对于一些有专门需要的专业人士,像 Mac Pro 这样具有更高拓展性的大机箱还有价值,但 Mac Studio 的能力正在不断突破我们的想象,越来越多拓展也可以通过雷电接口解决。

带有一丝戏谑地说,Mac Pro 身上最有价值的部分,或许只剩下这个工艺水准极高的「刨丝器」机箱了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌