普通视图

发现新文章,点击刷新页面。
昨天以前首页

神秘「香蕉」AI 火爆海外,10 轮极限测试后,我相信 P 图这个词已经过时了

作者 张子豪
2025年8月27日 12:59

上半年,大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近,一个神秘代号 nano-banana 的新模型在社交媒体上爆火,它不是拼画质取胜,而是凭借前所未有的图像编辑能力,让网友直呼「这才是真正的 AI P图」。

有多强呢,过去我们印象中的 AI 编辑图片,可能用最多的就是 AI 消除,抹掉照片里面的路人;或者 AI 抠图,把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片,图片里面的人物、背景、甚至小到一个字母,都可以自由的修改,且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例,我只想说,它能火起来,真的值得。

▲ 图片来源:X@arrakis_ai

这个网友提供了上方只显示侧脸的女生,同时输入提示词,「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片,就是使用 nano-banana 模型生成的。这个输出效果,完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词,「让他们自拍」。

▲ 图片来源:X@RetropunkAI

和你唯一的合照,终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失,Michael 的脸从满是噪点的失真,到自拍合影里,与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型,从这些截图分享里面,我们大致总结了 nano banana 最让人惊叹的几点特质。

  1. 角色一致性极强:无论换背景还是换表情,都不会换脸,甚至嘴角弧度都能保持。
  2. 光影逻辑合理:不像滤镜贴图,它能重新计算光源和阴影,让场景符合物理规律。
  3. 照片级逼真:几乎看不出 AI 痕迹,生成的效果像是「同一时刻另一台手机拍下的照片」。
  4. 风格转换自然:从老照片复原到素描、水彩、卡通,都能保持主体特征不变。

首先,跟之前的图像编辑模型有着质的不同,就是 nano banana 在转换图像的过程中,基本上能够保持整个照片一致的色调和照片内容,不会自己额外生成别的东西。

▲ 风格保持高度一致,输入右边两张图,得到左边的产品广告图。图片来源:X@Dari_Designs

除了色调和照片内容,更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑,nano banana 生成的人物五官和神态几乎不会出现换脸的情况,连嘴角的弧度都能保持稳定。

举个例子,当我们使用固定的一个人物角色创建图片的时候,这个角色可以在不同的场景下保持一致。

▲ 原图是左边,输入提示词制定背景为埃菲尔铁塔得到右图。图片来源:X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等,还有网友通过 nano-banana 将整个场景转变为一个新的故事。

▲ 原图在左上角,先是输入提示词让她们坐在台球桌边上,然后让她们开始打台球,形成一个完整的故事流。图片来源:X@D_studioproject

在确保了照片内容的高品质后,nano banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同,nano banana 的特点就是自然和逼真。

▲Flux 生成的图片,皮肤质感还是有明显的蜡质化,不够真实。

最后是 nano banana 将场景转换为各种艺术风格方面表现,同样非常出色,包括水彩、油画和卡通风格,以及写实照片。

▲ 能够「复活」老照片。图片来源:X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano banana 这个神秘模型,看看它是不是真的这么强大。

体验地址:https://lmarena.ai/?chat-modality=image (选择 battle 模式才会出现)

多人毕业照,也能变成专属你们俩的合影

首先,我们找了一张毕业合照,看看它是不是真的能生成一张两个人的合照。

它真的做到了,虽然这个田径场草皮生成的不是很像,但是在多轮的测试里面,Qwen、Flux、Seed 生成的图片全部都还是多人的,只有 nano-banana 明白了指令,提取出了两个人。

我们继续拿只有一张人脸的照片来测试,用开头那张照片,要求它生成一张白底证件照试试。

下面有六张照片,大家可以猜猜哪个是 nano-banana 生成的,或者你最喜欢哪个。

▲ 添加开头的照片,并输入提示词,「生成一张她的标准白底证件照,能直接用来申请护照。」

你没看错,第一张也是模型生成的,实在不知道什么护照可以用这样的照片。

答案揭晓,nano-banana 虽然看起来是最漂亮、最温柔的,但是 GPT-IMG 生成的更像证件照,因为有露出来一点点耳朵;Flux 好像不知道什么是证件照;Qwen 就很标准证件照了,但是太「标准」了,仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照,要求它为我们生成一张全身照,看看能不能在 AI 编辑的过程中,保持住这个角色原本的样子。

直接揭晓答案,这次 Gemini 的表现竟然不错,照片很真实,而且场景和衣服都搭配得很好;nano banana 的表现也不错,但总觉得和证件照里面的女生,风格不太一样了。

对于单张照片的单一角色,能做的编辑还非常多,像是下面这张图片,要求马斯克作出拳击的动作,人物基本上是做到了 100% 的复制,马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制,多张照片,nano banana 的表现又如何。

我们找了两张有人脸的照片,告诉模型将这两个人拼凑在一起,看看是否还能像真实照片一样,看不出瑕疵。

▲ 输入右下角两张图片,提示词为「让这两个人在拳击擂台上自由搏击」

图片左边就是来自 nano-banana,而右上角则是 Gemini 生成的效果,可以看到明显的差距,nano-banana 非常真实,且一眼就能认出来,蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变,nano banana 还能在物体、背景等元素上,保持与输入图片做到完全一致。

例如下面两张房间的图片,我们显示让它开灯;然后又找了一张图片让它关灯。

当要求开灯时,乍一看 nano banana 和 Flux 都做的不错,但是有一个细节是 nano banana 不仅点亮了落地灯,更关键的是,它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响,而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果,而更像是在三维空间感和物理规律的层面「理解」了指令,就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下,Flux的结果更像是一个滤镜,氛围是到了,但逻辑还是有点问题。

关灯的效果差别就更明显了,Flux 是直接把落地灯都给弄消失了,而 nano banana 成功把灯关掉了,还做了很全面的阴影和色调调节。

创造力也能保持一致,纯文生图不如 GPT

风格转换也是 nano banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机,还是让失真的图片变得真实,nano banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅,总觉得是色彩饱和度没有调节好,nano-banana 生成这张给我感觉就很真实,保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图,然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错,就像这张图片,nano banana 是直接给我了原图,但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则,就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

▲ 还是开头那张照片,提示词「生成这张照片的素描画」

素描风格,nano-banana 就有办法处理了,右上的那张图,就是来自 nano-banana 的素描结果,我觉得比左下那张要好,因为看起来,真的更像是素描。

此外,nano-banana 的重点还是作为一个图像编辑模型,在纯粹的文生图能力上,表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感,以及光影/高级质感海报生成测试,结果还是 GPT-IMG 胜出。

▲ 图片来源:X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型,它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面,输入 prompt,两张图生成完毕,投票选出更好的一张,最后才会揭晓哪张来自哪一个模型;有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认,但网络上的讨论,以及生成图像的纹理和压倒性的质量,大部分人认为它很可能是 Google 的一个未公开项目。

毕竟,Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字,显示在电脑屏幕上时,nano-banana 很自信的打上了 Gemini Pro。

最新的消息是,Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天,发了一条推文,内容只有一个香蕉的 emoji,这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos,我们只需要输入想要对照片进行的编辑请求,然后由 AI 来完成,我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响,Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA(内容来源和真实性联盟) 内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型,将不仅仅用在 Gemini 和 Whisk(Google 实验室图像生成产品)上,也将出现在 Flow(Google 视频生成产品) 里面。

其实也不难想到,Flow 的图生视频功能,也正是像我们测试的图片编辑一样,让图片中的人物主体动起来。

在这篇爆料中还提到,Google 正在测试垂直宽高比的视频生成,以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情,先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana;这让我越来越期待 Gemini 3 的发布了。

▲Google 的模型在 LMArena 多个任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致,nano-banana 已经开始在重新定义图像编辑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

作者 张子豪
2025年8月27日 12:44

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌