普通视图

发现新文章,点击刷新页面。
昨天以前首页

刚刚, AI 视频王者大更新!硬刚 Sora,威尔史密斯吃面更香了

作者 张子豪
2025年10月16日 09:27

OpenAI 前不久刚推出了 Sora 2 视频生成模型,势头相当凶猛,紧随其后,今天 Google 的 Veo 3.1 也迎来了一次重大升级。

具体来看,Google 这次的升级包括两个层面。

一是功能层面的完善。视频编辑功能得到了强化,用户现在可以对片段进行更细致的调整,对最终画面有了更精准的掌控。

更重要的是,Google 首次给「素材转视频(Ingredients to Video)」「帧转视频(Frames to Video)」和「延展(Extend)」这些功能配上了音频,让音频成为创作流程的一部分。

二是模型层面的进步。

今天发布的 Veo 3.1 在提示词理解和视听质量两个关键指标上都有了明显提升,从图像到视频的转化因此更加自然流畅。

相关阅读 🔗AI 视频新王全球爆火,威尔·斯密斯终于可以好好吃面(附大量实测演示)

众所周知,Veo 3 原本就有不少编辑能力在身——通过参考图像指导角色生成、用首尾两帧填充中间内容、基于视频末尾继续延展等操作都可以做。

Veo 3.1 的做法是在这些既有功能上全部加入音频支持,让用户能够打造更加完整的场景。这些功能目前还处于实验阶段,Google 表示会根据用户反馈继续优化迭代。

现在用户可以这样使用这些功能:

1、用多张参考图像定义角色、物体和风格,「素材转视频」功能就会根据这些素材生成最终场景。

2、或者提供起始和结束画面,让「帧转视频」功能在中间生成无缝过渡,这对需要艺术性转场的项目特别有用。

3、如果要生成更长的视频,「延展」功能可以生成超过一分钟的内容,基于前一段继续生成,保持故事的连贯性。

值得一提的是,Veo 3 的文本转视频此前只支持 720p 横屏输出,但随着竖屏视频成为互联网内容的主流格式,Veo 3.1 现在也可同时生成横屏和竖屏的 16:9 视频,更符合当前的内容消费习惯。
创意的打磨往往需要反复迭代。

自 Flow 于今年 5 月推出以来,用户已经在该应用中创作了超过 2.75 亿个视频。吸取用户的反馈之后,Flow 中新增的两个编辑功能就是为此而生——

「插入新元素」让用户可以随时添加内容,Flow 会自动处理阴影和光线,使新增部分自然融入原有画面;

「移除对象」功能(即将上线)则可以删除不需要的元素,Flow 自动重建背景保持一致性。这两个工具的组合能够让视频的编辑过程变得更加灵活。

目前 Veo 3.1 模型已经上线,开发者可以通过 Gemini API 使用,企业用户可在 Vertex AI 中访问,普通用户也可以在 Gemini 应用内体验。新功能也同步在 Gemini API 和 Vertex AI 中开放。

我们体验生成了 3 个 Veo 最实用的应用场景。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲由 Veo 3 生成,提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

比如这个生成玻璃柠檬的例子。提示词要求「用黄色玻璃制成的柠檬被水平切开,内部也是玻璃材质,里面有融化的闪粉,顶部柔和照亮」。

Veo 3 的输出是可用的,但 Veo 3.1 对「融化闪粉」的细节刻画更精准。

电商场景下,我们直接让他生成一段产品的广告。要知道,一般的 TVC(电视商业广告)也就是在 15s/30s 的时间左右来传递品牌信息。

▲由 Sora 2 生成,提示词:根据以下商品信息,生成一段电商广告视频,包含实拍感的产品展示、3D旋转细节、使用场景对比,以及配套字幕。智能手表 X2,续航7天,¥1299 智能手表,50米防水,健康监测(心电、睡眠)

Sora 2 贴心地用中文语音解说了商品信息,体现了更好的理解。但 Veo 3.1 这边只是简单地配了音乐,不如 Sora 2 周到,但从画面质量来看,Veo 3.1 的视觉呈现更高级、更有商业感。

▲由 Veo 3.1 生成

我们也试了动漫生成,这次 Veo 3.1 的表现就比较一般了。

▲由 Sora 2 生成,提示词:以吉卜力工作室动画风格,一个男孩和他的狗跑上一座长满青草的风景秀丽的山丘,背景远处可以看到一个村庄,天空中飘着美丽的云朵

显然 Veo 3.1 在这块的训练数据还不够丰富,距离吉卜力工作室那种精致的动画风格还是有不少差距。莫名消失的狗,都是 AI 穿帮的典型特征。

▲由 Veo 3.1 生成

X 网友 @aisearchio 分享的威尔·史密斯吃面测试 Demo 整体质感往上抬了一个档次,动作流畅度、光影细节都明显改善,表情丰富但也没有崩掉。

综合来看,Veo 3.1 在照片级、商业级的内容生成上已经足够可用,细节理解能力也有明显进步。但在特定风格的精准还原上——比如动漫、插画这类需要高度风格约束的领域,还是有相当的优化空间。
尽管如此,从 Veo 3 到 Veo 3.1,从 Sora 到 Sora 2,视频生成模型的迭代速度已经超过了大多数人的想象。

伴随着这类 AI 视频生成工具会从专业工具逐渐演变为大众应用,届时,你的朋友圈、短视频平台、甚至新闻源中,每一条内容都有可能是 AI 生成的。

这也意味未来你看到的每一条内容,都需要多一步确认——这来自真实拍摄,还是 AI 生成。

作者:莫崇宇

文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google AI 今年最大王炸!测试曝光直接复刻 macOS,比GPT-5更值得期待

作者 张子豪
2025年10月15日 15:43

还记得不久前我们介绍过一波 Google AI 全家桶吗,那会儿正是 nano banana 爆火,Gemini 登顶第一。许多人因此第一次去尝试了 Gemini 2.5 Pro,发现这个不声不响的旗舰模型,很多时候竟然比 GPT-5 还要好。

现在,更强大的 Gemini 3.0,已经在 Google AI Studio 的测试里「提前上线」。

网友们发现,它的能力提升不止一星半点,能直接用一套简单的提示词生成一个网页版 Windows、macOS 等。

大量的测试结果,都提到 Gemini 3 写的代码能直接运行,前端设计也更成熟,甚至能做出剪视频、刷短视频的工具。

这有可能是 Gemini 继续在图像编辑领域之外,再次超越 Claude 和 GPT-5 的时刻。

不过,是不是跟当时 GPT-5 一样的营销,还是真的能改变我们的使用体验,先跟我们一起来看看这些网友分享的 Gemini 3 案例吧。

起手就是写一个 Windows?

就像 nano banana 在判断生图能力时,采用的指标,是看这个模型在生成文字时的表现。

而如何判断一个基础模型的交付能力,编程,这种一旦代码里有个轻微的错误,就无法运行的项目,成了大部分基础模型厂商专攻的方向,而一开始在这方面表现不错的 Claude,也因此赚得了一定的声量。

近期多个博主在 X 上爆料,即将推出的 Gemini 3,在多个编程任务上的真实表现,不用说打败 GPT-5,甚至有直接超越 Claude 的趋势。Google AI Studio 负责人 Logan 在 X 上回复网友,确认了 Gemini 3 拥有工具调用的能力,即我们常说的智能体。

以前的编程测试,大多数集中在对逻辑能力的理解,一个小球在六边形框框里面流动的物理测试;对前端能力的审美把握,观察 AI 生成的网站,是否足够交互友好,页面现代化;还有一些实用型的小游戏或小工具等。

这次放出来的部分 Gemini 3 测试,完全可以说是一次测试样例的大升级。

X 博主 chetaslua 分享了多个由 Gemini 3 完成的编程任务。像是,它能直接给我们生成一个 macOS 的网页电脑,在这个网页里,就像是在操作一台云电脑。所有的应用程序都可以打开,点击 Safari 的图标,可以进入浏览器,并在网页里继续访问。

▲ prompt : – Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
提示词: – 设计并创建一个类似 macOS 操作系统的全功能网络操作系统,从文本编辑器、带 Python 的终端和代码编辑器开始,并包含一个可玩的游戏,用于文件管理器、绘图、视频编辑器以及所有重要的 Windows 操作系统预装软件。使用任何库来完成这个任务,但确保我能够将所有内容粘贴到一个单一的 HTML 文件中,并在 Chrome 中打开它。使其有趣且高度详细,展示没有人预期的细节,在一个代码块中实现完全的创意和美感
源代码 – https://codepen.io/ChetasLua/pen/yyezLjN
https://x.com/chetaslua/status/1977866953705316571

不仅 macOS 云电脑能生成,博主还用同样的提示词,修改成 Windows、Linux、以及云手机等操作系统,开机动画、系统内操作,同样能完美还原。

而且,Gemini 3 在处理这些编程任务时,速度也得到了提升。根据博主在评论区的回复,Gemini 3 的推理速度在 1-2 分钟。

当把同样的提示词交给 Claude Sonnet 4.5 处理,网友分享的结果是,Claude 只是生成了一个页面,所有的应用程序都不能点开。我也测试了一下 GPT-5 的能力,虽然它可以点开某些应用,但是打开之后,就没有下一步的处理逻辑了。

▲ https://x.com/pallavmac/status/1977979879489679640

还有一个小彩蛋,在网页打开的云电脑里面,点击终端,输入 matrix,我们会看到类似黑客帝国电影海报的 01 流动代码,可以说是真矩阵革命(黑客帝国电影港版译名)了。

除了这几个热门的系统还原测试,Gemini 3 的编程能力,还体现在它的前端,也有了其他 AI 模型做不到的进步。最明显的就是 AI 编程容易出现的渐变紫,Gemini 3 终于摆脱了。

▲ x@Liam06972452,提示词:Write full HTML, CSS and JavaScript for a stunning, bold, creative and unique landing page for a website about llms. It should look like it was built from scratch by a world-leading web design agency.

就像这个关于大语言模型的网站,输入的提示词仅仅是「为关于 LLMs 的网站编写完整的 HTML、CSS 和 JavaScript,以创建一个令人惊叹、大胆、富有创意和独特的着陆页。它应该看起来像是世界顶尖的网页设计公司从头开始构建的。」

网友们纷纷在评论区说,Gemini 3 一定有专门和设计师在合作,还有人预测 Gemini 3 将在前端领域,像 nano banana 一样占据主导地位。

不过也有人认为 Gemini 3 的前端,还是有一些问题。尽管它解决了那些讨厌的渐变,改变了大多数 AI 模型,长期以来一直在做的同样事情,但 3.0 的前端总是黑色,除非明确提示。在我看来,黑色比渐变好太多,网站的设计就是应该简洁大方。

基于能一句话搓出一个操作系统,还有优秀的前端能力,Gemini 3 还可以生成一个在线的视频编辑器,当然也是真的能够剪辑视频。

▲ 提示词:create amazing single html page video editor that WORKS! make it amazing.(创建一个令人惊叹的单一 HTML 页面视频编辑器,它必须能正常工作!让它变得非常棒。)
来源:https://x.com/sbalhatlani/status/1977501190322549017
CodePen 可运行的体验链接:https://codepen.io/DiNaSoR/pen/WbrEELE

一个能无限流刷视频的抖音 App 网页版。

▲ 来源:https://www.reddit.com/r/Bard/comments/1o67jz4/crazy_google_gemini_30_pro_just_built_a_perfect/
体验地址:https://jsbin.com/yisixokuwi/1

那些做 vibe coding、一键生成网页应用工具的 Lovable、Cursor 等,可能要考虑默认模型换成 Gemini 3 了。

在经典的代码能力测试上,还有一个生成骑自行车的鹈鹕任务,比较模型对于 SVG 代码的生成效果。

Gemini 3 能生成普通的版本的鹈鹕。

▲ https://x.com/whylifeis4/status/1974205929110311134

甚至还有游戏《我的世界》同款风格的 3D 版本。

▲ 我的世界 3D 版,https://x.com/Lentils80/status/1977441690970476621

骑自行车的鹈鹕,现在属于是大语言模型代码能力的基准测试了。我们还看到有网友用 Gemini 3.0 Pro,生成了一个宇航员在月球打高尔夫的 SVG 动画。

▲ https://x.com/itsleonliang/status/1976296575052939596

生图、视觉理解,nano banana 全面版

除了编程能力,作为 Google 最强基础模型,视觉理解能力同样出色。

通过了六指测试。

▲ https://x.com/AlLeakWire/status/1976565987500753341

能够把一个潦草的手写文档,准确提取里面的所有内容。

▲ https://x.com/HistoryGPT/status/1977895243195334826

以及生成各种各样的城堡测试。

▲ https://x.com/bercankilic/status/1977476903029383669

▲ https://x.com/scaling01/status/1977392252931437052

无聊玩玩 Gemini 3 做的小游戏

最后,让它来生成一些小游戏,小工具,部分释放出的 Gemini 3 测试案例表现都很不错。

例如可以让 Gemini 3 为我们创作原创音乐。

▲ https://x.com/legit_api/status/1977033715965718754

制作一个带有 Gemini 创作的真实配乐的游戏。

▲ https://x.com/cannn064/status/1977882763832201643

由 Gemini 3.0 Pro 制作的吸血鬼游戏。

▲ https://x.com/cannn064/status/1977542849848823845;体验地址:https://codepen.io/jules064/pen/bNErYKX

目前这些爆料出来的 Gemini 3 测试,都是在 Google AI Studio 网页上 A/B 测试完成的。

但是 A/B 测试触发的条件相当随机,就像我们有时候用 ChatGPT 聊天,它会突然给我们两个答案,要我们选择更喜欢哪一个。

这些网友也是不断地在 AI Studio 里面疯狂输入提示词,直到 AI Studio 给出了两个不同的回答,然后默认更好的那个就是 Gemini 3,甚至 Gemini 3.0 Pro、Ultra 等版本。

有网友说,这只是一个 A/B 测试,并不能得出结论说这个结果是由 Gemini 3.0 生成,因为也有可能只是,同一个模型,不同参数的 A/B 测试。

甚至有人发 X 说 Gemini 3 的智能体能力获得大提升,但是在帖子被广泛传播之后,他又紧急辟谣,Google 周六不上班。

因此,目前这些爆料,大多集中在比较客观理性的任务上,能够直接区分出 Gemini 2.5 Pro 和 Gemini 3.0 的差别。像是写作、我们日常的交流这些问题上,没有客观统一的标准,即使触发了 A/B 测试,也很难明确,哪个是 Gemini 3.0。

不过,就在今天,Google AI Studio 首页倒是真的有了一次更新,添加了 API 数据统计等功能,很让人怀疑是不是在为 Gemini 3.0 上线做准备。

有网友直接问 AI studio 负责人,Gemini 3 是不是即将到来,Logan 回复他说「可能性很高」。

至于是不是像之前,网上爆料说一个实习生泄露的发布日期,即 10 月 22 日,还真的没有定论。

而关于 Gemini 3 能力如何,目前唯一来自官方的确认,也只有 Mikhail 发布的这条推文,他说 Demis 上周告诉他,Gemini 3 会让人印象深刻。

▲ Demis Hassabis 是 Google DeepMind 负责人,而 Mikhail Parakhin 曾在微软工作,现在是 Shopify 首席技术官 CTO。

总而言之,Gemini 3 肯定是马上要来了。

OpenAI 凭借着自身拥有的庞大用户,和 ChatGPT 收集的海量数据,在最近持续性地推出了多项应用,主动推送、购物、接入 App 等等,似乎是进一步巩固用户群体,不让他们离开。

Claude 继续着他们在编程领域的老大地位,按照计划、不过分营销的推进基础模型的更新,也在他们最看重的安全方面,发布了多项研究。

作为后来居上的 Google,靠着 nano banana 属实让 Gemini 大火了一把,现在我们说到图像编辑,一定会有 nano banana,这就就跟说到编程,离不开 Claude 一样。

我甚至会觉得,Google 终于追上来了。

事实证明,大模型的能力还是有办法继续再「卷」下去的,并不是说只能转型去做应用。我们对大模型的期待一直都有,而且也没有变得很高,只是希望它真的能做出一些「哇」的东西。

文章内部分视频,可访问原文链接

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

作者 张子豪
2025年9月19日 14:00

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌