Nano Banana终于不是文盲了,但我可能会变「傻」
过去一个周末 Gemini 3 Pro Image 的能力被反复「折磨」,花样越来越多——噢,你问这是什么,它的另一个名字是 Nano Banana 2。这么跟个恶搞一样的名字,居然被保留下来了。
Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要点头的程度。

▲ 图片来自:The Information
夸夸只是夸夸,Nano Banana 第二阶段,其实标志着 AI 图像生成领域的一个重要转折点:从基于概率的「以此类推」,转向了基于理解的「逻辑构建」。更承载着一个特殊的意义:AI 不再只是冲着你的眼睛去,还冲着你的智商去。
大语言模型不再「文盲」
一直以来 AI 生图都有个绕不过去的问题:才华横溢,信手拈来,但有时候就跟喝高了一样控制不住,这从 Midjourney 时期就开始了,往后走逐渐好转,不过始终存在。
其中最大的 bug 之一就是文字。这导致在很长一段时间里,鉴别一张图是否由 AI 生成,最简单的办法就是看图里的字。

这是基于扩散模型(Diffusion Model)的先天缺陷:它将文字视为一种纹理,而非符号。
Nano Banana 2 最直观的突破,就在于它「识字」了。即所谓的 Text Rendering 文字渲染。
我的随手测试「生成一张复古电影海报,标题是《香蕉的复仇》,副标题用红色衬线体写 2025 年上映。」

如果是在以前尝试这个指令,大概率会得到一张极具艺术感的图「BANANA REVENGE」的某种变体尚且能保持清晰和正常,但小字往往经不住看了,甚至有时候主标题都会拼写成「BANNANA」。但在 Nano Banana 2 里,这些字符被准确、清晰、且符合排版美学地「写」在了画面上。

So what?这仅仅是省去加字的时间吗?
对普通用户来说可能是,而且还是一种「表情包自由」。你终于可以生成一张精准吐槽老板的图,配上精准的文案,不用再单独拉一个文本框。
而对于商业世界,这意味着 AI 图像生成从「素材(Material)」阶段,正式跨入了「成品」(Deliverable)阶段。

▲ 图片来自 X 用户@chumsdock
当 AI 能够准确地处理符号信息,它能交付的成果就更多样也更实用,包括但不限于电商海报、PPT 配图、甚至是数据图表。以前设计师用 AI 只能生成背景底图,关键信息还得自己贴。现在,AI 可以直接生成原型图,乃至带有数据标注的饼状图,或者一张文字完美贴合透视关系的广告。
这是商业交付的「最后一公里」,也是生图模型在信息传递层面的巨大进步。
从「猜概率」到「懂物理」
字渲染的成功是 Nano Banana 2 底层技术跃迁的一个极具代表性的缩影,更深层的变化在于:这只「香蕉」,长了脑子。
也就是我们所说的基于「推理」的图像生成。
大模型本质上是一个概率统计机器。当你要求画一只「坐在玻璃桌上的猫」时,模型通过学习数亿张图片,在生成时,它只是重现像素的统计规律。

Nano Banana 2 的不同之处在于,它引入了 Gemini 3 语言模型的推理能力。在生成图像之前,它似乎先在「大脑」里构建了一个物理模型。它知道「猫」下面通常会有模糊的影子,以及玻璃板上、下的物品有不同的光线关系。
在我的另一个随手测试中,当要求它生成「一个复杂的化学实验室,桌子上放着装有蓝色液体的烧杯,背景是黑板上的分子式」时,它表现出了惊人的逻辑性:

烧杯里的液体会有正确的弯液面;玻璃器皿对光线的折射符合物理直觉;最重要的是,背景黑板上的分子式不再是乱画的线条,而是看上去像模像样化学结构的式子(虽然还是有瑕疵)。
当画笔有了「大脑」,交互方式变了
之所以如此强调文字生成这个本领,是因为 Text Rendering 是外在表现,反映的是 Reasoning 作为内在引擎。合在一起, Nano Banana 2 带给用户的最终体验,就是一块「会思考的画布」(The Thinking Canvas)。
Google 将这个模型深度整合进了它的生态系统,不仅仅是生成图片,更是「修改」现实,下一步,就是走进更严肃的领域:信息图、教案、讲解素材,等等等等。

整体上,图像生成往往用户给 20% 的指令,剩下 80% 靠 AI 脑补——以前是靠概率脑补(随机填色)。现在则是靠因果脑补,不仅画出了「结果」,还隐含了「过程」,这能够让画面的叙事性和感染力指数级上升。

它不再只是为了取悦你的眼睛,它开始试图取悦你的智商。像上面这种结构图,虽然吧不敢说 100% 符合机械工程标准,但钉是钉,铆是铆。「逻辑上的正确」,是它推理能力的直接体现。
然而任何事情都是一体两面的,当换一个角度看,这就可能意味着创造力的同质化。
当 AI 能够完美地生成「符合商业标准」的图表、海报和插画时,它实际上是在拉平审美的平均线。所有的海报都排版正确、光影完美,但可能也因此失去了曾经设计中那些因为「不完美」而诞生的神来之笔。

▲ 图片来自X用户@dotey
更深层的问题在于真相的消逝。当上面所说的那种逻辑正确、信息「干货」多的内容,可以被批量生产,取悦智商从未如此容易,也从未如此轻飘飘。如果它决定了我从图片信息到文字信息的所有摄入,那……会是怎样的景象?
还有 Deepfake 这个老大难问题,已经是老生常谈了。虽然这次 Google 加上了 SynthID(一种人眼不可见的数字水印)来标记 AI 内容,但在视觉冲击力面前,技术的防伪标签往往是苍白的。制造「真实」变得如此廉价和便捷,我们对「眼见为实」的信仰将被彻底重构。
至于它叫「Nano Banana」还是「Gemini 3 Pro」,其实已经不重要了。重要的是,从这一刻起,我们在屏幕上看到的每一个像素,每一行文字,都可能不再来自人类的手指,而是来自机器的思考。
这既令人兴奋,又让人在某些时刻,感到脊背发凉。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。










































































在初创的四人帮里,Ilya 被认为是最有科学理想的一位。在加入 OpenAI 之前,就是 Google 的研究科学家,也是深度学习领域最具影响力的研究人员之一。在他对技术极致追求的背后,是一种更宏大的理念:他相信,一个非营利、不受大型企业利润驱动的 AI 实验室是必要的。




















































































































