普通视图

发现新文章,点击刷新页面。
今天 — 2025年11月21日首页

Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图

作者 莫崇宇
2025年11月21日 02:49

奥特曼,迎来至暗时刻。

Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,今天,被颠覆的行业轮到了设计行业,刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。

初级设计师的饭碗,怕是要端不稳了。

核心功能如下:

  • 分辨率支持:可输出 1K、2K、4K 分辨率图像
  • 多轮编辑:支持对话式、多轮次的图像编辑工作流
  • 多图像合成:最多可将 14 张输入图像组合为 1 张输出图像
  • 搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持

不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画

Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。

▲提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K

跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。

凭借 Gemini 3 增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。

朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。

▲提示词:将图片上的文字翻译为中文,并上色,其他不变

又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。

而在文字生成能力上,Nano Banana Pro 更是表现出色,无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。

64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能更好理解。

▲提示词:生成一幅 4K 古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。

针对前代分辨率偏低的老问题,Nano Banana Pro 把画质一步拉到 4K,还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。

Nano Banana Pro 还支持最多 14 张输入图像的组合编辑,同时保持最多 5 个角色的外貌一致。

配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的 3D 建筑,都能轻松实现概念到成品的跨越。

▲提示词:哆啦A梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦A梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节

更进阶的是专业级创意控制能力。

你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变焦点到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果,这些过去需要在 Photoshop 里精细操作的工作,现在只需要一句话。

▲提示词:Transform the [camera] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors (such as bright cyan, magenta, yellow, pink), dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements (background, other objects, environment) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.

搜索 + 生成 = ?Google 给出了终极答案

如果说搜索是 Gemini 3 的「左脑」,那么图像生成就是其「右脑」。

这也是 Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能(Grounding with Search)。

当用户要求生成一张可视化的图片,展示在广州旅游的 2 天行程」时,Nano Banana Pro 生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3

这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是 Google 的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。

在产品定位上,Google 采用了双模型策略:旧版 Nano Banana 用于快速有趣的日常编辑,而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生,Nano Banana Pro 已在 Gemini 应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版 Nano Banana。

而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区,Google 搜索的 AI 模式中,Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是,Google 在 AI 透明度问题上采取了双重策略。

所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印,用户现在可以在 Gemini 应用中直接上传图像,询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。

既然 Nano Banana Pro 已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?

Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。

一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。

而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16 竖版海报还是 21:9 电影宽屏)、镜头参数(低角度、浅景深 f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。

附上官方博客地址:https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法,正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。

看到这里,再回过头看 Google 这几天连环发布的产品,就不难明白它想传达什么。

无论是前几天发布的 Gemini 3 Pro 预览版,还是今天亮相的 Nano Banana Pro ,Google 试图向世人证明:通往 AGI(通用人工智能)的道路,必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。

从技术层面看,Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。

当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。

从商业层面看,极低的推理成本和生成式 UI 的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给 AI,再由人去补充或微调。Google 显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天 — 2025年11月20日首页

Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

作者 张子豪
2025年11月20日 17:51

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

作者 张子豪
2025年11月17日 14:41

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana 2 闪现 1 小时就下架,让所有 AI 翻车的测试,它轻松拿捏

作者 张子豪
2025年11月10日 18:34

之前火爆全网的 nano banana,现在要推出 2.0 版本了。

全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。

▲图片来源:x@synthwavedd

为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试

输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。

我们在大模型竞技场、豆包 Seedream、以及 nano banana 1.0 版本多次尝试,没有 AI 可以准确显示时钟刻度,和一杯快满出来的红酒。

而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。

▲ 更真实的黑板字|图片来源 x@testingcatalog

和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。

▲ Media AI(medio.io)目前只有 nano banana 和 Seedream 等其他 AI 生图模型

不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。

但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。

下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。

▲ 图片来源 x@Azinha810

都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。

▲ 图片来源 x@Azinha810

还有这两张偏科幻风格的图片,区别就更加明显了。第二张图看起来电影感更强,视觉质量也比第一张图有了更多准确的细节。举个例子,第一张图的设备仪表板和第二张图,能看出直接的不同,nano banana 生成的仪表板,依旧是明显的 AI 风格。

根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。

这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。

1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。

▲ 输入提示词,让水变粉红,依次是原始图像,Nano Banana 1,Nano Banana 2|图片来源 x@Angaisb_

2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。

  1. 规划: 花费相当长的时间规划输出内容。
  2. 生成: 生成一个初步图像。
  3. 审查: 通过内置的图像分析功能进行自我审查。
  4. 修正: 识别并纠正任何错误。
  5. 迭代: 根据需要进行迭代,最后才交付结果。

3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。

▲ComfyUI 工作流界面

其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。

实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。

更强的文本渲染

首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。

▲ 直接上传一张 Windows 电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成一张 Windows 11 桌面截图,谷歌 Chrome 已打开,显示 YouTube 上 Mr. Beast 的缩略图,链接为 http://YouTube.com)|图片来源:x@synthwavedd

更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。

▲图片来源:x@synthwavedd

不过还是有细心的网友发现,nano banana 2 的效果也不是十全十美,像这张图片里出现了 Gemini 31、Google DeepMind – Nevdscl 等错别字。

不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。

这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。

▲图片来源:x@synthwavedd

同样的,还有这张电视的直播截图,主播在屏幕右侧,底部有新闻节目经典的跑马,并且所有文字都准确渲染。

▲ 提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text “Nano Banana 2 live on Media .IO?” Live news shot. There is a red and blueckhyron on the bottom of the image that says “Breaking News: Nano Banana 2 on Media .IO?”|图片来源 x@BrentLynch

我们也把同样的提示词,让当前的 nano banana 处理了一遍。

这张照片给我的感觉 AI 味也不算太重,但是它对背景屏幕做了虚化处理,反而让照片看起来不像是新闻节目的现场,而文字的反射也稍显刻意,它重点突出了主播的形象。

有了世界知识,更听得懂我们的指令

像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。

还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。

▲ 提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为 nano banana 2 生成的图片|图片来源 x@Angaisb_

在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。

例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。

▲ 图片来源 x@jewgibor

他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。

结合世界知识和文本渲染,nano banana 2 还能在黑板上为我们解题,这不比看着聊天框里面长长的数学推理舒服多了。

▲图片来源 x@MagusWazir

而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。

▲ 图片来源:https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/

还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。

▲ 图片来源 x@Liam06972452

不只编辑,生图能力这次也有了提升

同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。

▲提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api

东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。

▲ 提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog

还有各种各样的人像「恶搞」图片。

▲ 图片来源 x@MicahBerkley

以及这种胶片风格满满的合影。

▲ 图片来源 x@rpnickson

不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」

当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。

拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌