Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图
奥特曼,迎来至暗时刻。
Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,今天,被颠覆的行业轮到了设计行业,刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。
![]()
初级设计师的饭碗,怕是要端不稳了。
核心功能如下:
- 分辨率支持:可输出 1K、2K、4K 分辨率图像
- 多轮编辑:支持对话式、多轮次的图像编辑工作流
- 多图像合成:最多可将 14 张输入图像组合为 1 张输出图像
- 搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持
不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画
Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。
![]()
它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。
![]()
▲提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K
跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。
凭借 Gemini 3 增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。
朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。
![]()
▲提示词:将图片上的文字翻译为中文,并上色,其他不变
又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。
![]()
而在文字生成能力上,Nano Banana Pro 更是表现出色,无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。
![]()
▲提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。
64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能更好理解。
![]()
▲提示词:生成一幅 4K 古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。
针对前代分辨率偏低的老问题,Nano Banana Pro 把画质一步拉到 4K,还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。
![]()
Nano Banana Pro 还支持最多 14 张输入图像的组合编辑,同时保持最多 5 个角色的外貌一致。
![]()
配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的 3D 建筑,都能轻松实现概念到成品的跨越。
![]()
▲提示词:哆啦A梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦A梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节
更进阶的是专业级创意控制能力。
你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变焦点到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果,这些过去需要在 Photoshop 里精细操作的工作,现在只需要一句话。
![]()
▲提示词:Transform the [camera] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors (such as bright cyan, magenta, yellow, pink), dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements (background, other objects, environment) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.
搜索 + 生成 = ?Google 给出了终极答案
如果说搜索是 Gemini 3 的「左脑」,那么图像生成就是其「右脑」。
这也是 Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能(Grounding with Search)。
当用户要求生成一张可视化的图片,展示在广州旅游的 2 天行程」时,Nano Banana Pro 生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。
![]()
再比如 Nano Banana Pro 能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。
![]()
▲提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3
这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是 Google 的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。
在产品定位上,Google 采用了双模型策略:旧版 Nano Banana 用于快速有趣的日常编辑,而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。
对于消费者与学生,Nano Banana Pro 已在 Gemini 应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版 Nano Banana。
而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区,Google 搜索的 AI 模式中,Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。
![]()
值得注意的是,Google 在 AI 透明度问题上采取了双重策略。
所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印,用户现在可以在 Gemini 应用中直接上传图像,询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。
既然 Nano Banana Pro 已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?
Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。
一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。
而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16 竖版海报还是 21:9 电影宽屏)、镜头参数(低角度、浅景深 f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。
附上官方博客地址:https://blog.google/products/gemini/prompting-tips-nano-banana-pro/
这种「摄影指导式」的提示词写法,正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。
![]()
看到这里,再回过头看 Google 这几天连环发布的产品,就不难明白它想传达什么。
无论是前几天发布的 Gemini 3 Pro 预览版,还是今天亮相的 Nano Banana Pro ,Google 试图向世人证明:通往 AGI(通用人工智能)的道路,必须是多模态原生的。
只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。
从技术层面看,Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。
当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。
![]()
从商业层面看,极低的推理成本和生成式 UI 的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。
设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给 AI,再由人去补充或微调。Google 显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。