阅读视图

发现新文章,点击刷新页面。

硅谷商战变厨艺大赛?小扎曾亲手煮汤挖人,OpenAI 说不慌都是演的

鹬蚌相争,渔翁得利。有时候还挺希望我们用户就是那个渔翁,模型厂商打得越厉害,我们就有机会越快用到更好的模型。

2022 年 12 月 22 号,在 ChatGPT 发布三周后,为了应对 OpenAI 的威胁,Google 成了第一个发布「红色警报」的科技巨头。

昨天,在 Gemini 3 发布两周后,因为 Gemini 3 模型出现了大幅增长,OpenAI 发布了首个「红色警报」。

看到消息的时候,我就觉得 OpenAI 是不是有点过度反应了,很快就看到了一些评论说「骄兵必败」、还有「胜败乃兵家常事」。但转念一想,所谓的「红色警报」也许就是给投资人看的,毕竟 OpenAI 如果真的做不到第一,那个 2030 才能盈利的时间,只会拉得更长。

▲ Gemini 的 App 下载量快要追上 ChatGPT

根据最新透露的消息,OpenAI 在下周即将推出一款新的推理模型,内部评估表现要比 Gemini 3 更好。此外,他们还计划通过一个代号为「Garlic」的模型,来进行反击。

但更现实的情况,是 OpenAI 必然会发布比 Gemini 3 更好的模型,而 Google 也还有 Gemini 4、Gemini 5。

其实,回看过去这一年来硅谷的新闻,完全算得上是一出跌宕起伏的抓马大戏。年初被 DeepSeek R1 的横空出世而感到压力;年中则是小扎开启的疯狂「抢人模式」,天价薪酬刷新着所有人对 AI 人才的认知;到了年尾,又再次卷回到了朴素的模型比拼赛场。

在 OpenAI 研究主管 Mark Chen 的最新播客采访中,硅谷的战争更是进化到了魔幻的程度,他说小扎为了挖走 OpenAI 的核心大脑,甚至开始做汤,真的能喝的汤,然后亲自把汤送到研究员的家门口。

除了这些八卦,他也谈到了 OpenAI 对于 Gemini 3 的看法、Scaling 是否已经过时、还有 DeepSeek R1 对他们的影响、以及公司内部的算力分配、实现 AGI 的时间表等。

Mark Chen 的背景非常有意思,数学竞赛出身,MIT 毕业,去华尔街做过高频交易(HFT),2018 年加入 OpenAI,跟着 Ilya 一起做研究。和奥特曼更偏向于商人属性的特点不同,这些经历,让他身上也有一股非常明显的特质,极度厌恶失败,且极度信奉数学。

他坦言自己现在,完全没有社交生活,过去两周每天都工作到凌晨 1-2 点。

我们整理了这场长达一个半小时的采访,总结了下面这些亮点,或许能更好的看清硅谷这一年来的各种「战争」、以及 OpenAI 会做些什么努力,来继续保持自己在 AI 时代的第一。

关于 Gemini 3,我们真的「不慌」

OpenAI 真的怕 Google 吗?Mark 的评价很客观但也很犀利。他肯定了 Gemini 3 是个好模型,Google 终于找对路子了。但是他说看细节,比如 SWE-bench(这也是 Gemini 3 刷榜那张图片里,唯一一个没有拿到第一的基准测试)数据,Google 在数据效率上依然没有解决根本问题。

▲Gemini 3.0 Pro 在 SWE-Bench 上的表现,比 GPT-5.1 还差了 0.1%

而他自己则是非常自信的表示,OpenAI 内部已经有了针对性的应对模型,而且他们有信心在数据效率上做得更好。

Mark 甚至说,奥特曼前几天发那个说大家都要感到压力的备忘录,去吓唬大家,其实更多的是为了注入紧迫感,他说这是管理层的惯用手段,备忘录的目的在于管理层激励团队,而不是真的感到慌了。

我觉得Sam的工作之一就是要注入紧迫感和速度感。这是他的责任,也是我的责任。

 

作为管理者,我们的部分工作就是不断给组织注入紧迫性。

▲此前 The Information 报道,奥特曼在 Gemini 3 推出时,在公司内部发备忘录,提到会给 OpenAI 带来困难

他们目前最大的问题,还是算力分配。作为 OpenAI 的研究主管,他的一项工作就是决定如何将算力分配到公司内部不同的项目。

他和 Jakub Pachocki(OpenAI 首席科学家)一起,负责制定 OpenAI 的研究方向,同时决定每个项目能拿到多少算力。为了这件事,他们每隔 1–2 个月,都会做一次盘点。

他们把 OpenAI 所有在做的项目,放进一张巨大的表格里,大概有 300 个;然后努力把每一个项目都看懂,给它们排优先级;再根据这个优先级表去分配 GPU。

▲英伟达和 OpenAI 的百万 GPU 合作

他也提到,真正要用掉大部分的 GPU 的,甚至并不是训练那个最重要发布的模型,而是他们内部在探索下一代 AI 范式的各种实验。

所以,在他的眼里,Gemini 3 发布了、某家开源模型刷榜了、某个思考模型又拿了新高分了;这些你追我赶的 benchmark 赛车一点都不重要。反而,最应该避免的,恰恰是被这场竞赛牵着走。

他说,现在的模型发展,我们随时可以靠一点「小更新」,就在榜单上领先几周或几个月但如果把资源都砸在这些短线迭代上,就没有人去寻找下一代范式。而一旦有人真的找到了,整个领域后面十年的路线,都要沿着那条新路走。

小声哔哔几句,预言 OpenAI 下周要发布的模型,我想就是在计划之外,做了点小更新,然后刷新了几个榜单而已吧,就这还没慌吗。

提到榜单的时候,他说他有自己的一套私房题,用来测试模型是不是真的具备了顶级数学直觉。他举了一个 42 的数学难题,说目前的语言模型,包括 o1 这种思考模型能接近最优解,但从来没有完全破解它。

你想创建一个模 42 的随机数生成器。你手头有一些质数,是模数小于 42 的质数的随机数生成器。目标是,以最少的调用次数,组合出这个模 42 的生成器。

除了谈到 Gemini 3,主持人也问了他对于 DeepSeek 的看法。

和 Gemini 3 一样,Mark 承认 DeepSeek 的开源模型曾让他们感到压力,甚至怀疑自己是不是走错了路。

但结论是坚持自己路线,不要被对手的动作打乱节奏,专注自己的路线图。OpenAI 不会变成一个跟风的公司,他们要做的,就是定义下一个范式。

Ilya 的 Scaling 里面还有很多潜力,OpenAI 需要大规模预训练

近期关于 Scaling 失效的讨论纷纷扬扬,Ilya 先是在播客采访里面说,Scaling 的时代已经结束了,后面又在社交媒体上澄清,Scaling 会持续带来一些改进,并不是停滞不前。

所谓的 Scaling Law,就是按经典老故事走向,这几年建了巨大的算力基建,模型每 10 倍算力,本该有一波明显跃迁。但从 GPT-4 到 GPT-5,外界并没有看到预期中那种「质变式」的提升,所以才会有「Scaling Law 失效了」的讨论;而 Ilya 前段时间的访谈,则是进一步放大了这种观点。

Mark Chen 对这个观点,给出了坚决的反驳,「我们完全不同意」。他透露,过去两年 OpenAI 在推理上投入了巨量资源,导致预训练这部分稍显退化。之前关于 GPT-5 遇到了预训练的问题,其实也是因为他们把重心放在了推理上,而不是 Scaling Law 已死。

工作就是分配算力资源的他,再次重申算力永远不会过剩,如果今天多 3 倍算力,他可以立刻用完;如果今天多 10 倍算力,几周内也能全部吃满。对他来说,算力需求是真实存在的,看不到任何放缓迹象。

▲ OpenAI 的计算成本,计划到 2030 年花费约 4500 亿美元租用服务器,红色为推理计算成本、蓝色为研发(不包含现金业务)、黄色为可盈利的计算

他也提到,过去半年,他和 OpenAI 首席科学家 Jakub Pachocki 已经将重心重新拉回,要开始重塑预训练的统治力

他明确说他们会继续做规模化模型,而且已经有一批算法突破,专门就是为了让 Scaling 更划算,在相同算力下挖出更多性能,在更高算力下保持数据效率。

小扎的送来的真汤,抵不过 OpenAI 的鸡汤

最后就是访谈里提到的八卦了,Meta 今年没有别的新闻,媒体渲染了一整个季度的「OpenAI 人才/Apple 人才/Google 人才大量流失到 Meta」,Mark Chen 在播客里正面回应了这个话题,细节简直有点「颠」。

他说小扎真的很拼,为了挖人,小扎不仅手写邮件,还亲自去送鸡汤。人才战打到最后,居然演变成「谁煮的汤更好喝」的 Meta 游戏。

▲ Meta 花大价钱挖人组建的超级智能实验室名单

不过,在他的直接下属中,Meta 曾试图挖角一半的人,结果全部选择继续留下来。为什么不走?不是因为钱,因为Meta 给的钱显然更多,而是因为信仰

Mark 说,即使是那些跳槽去 Meta 的人,也没有一个人敢说「Meta 会比 OpenAI 先做出 AGI」。留在 OpenAI 的人,是因为他们真的相信这里才是 AGI 的诞生地。

他也提到自己从华尔街和玩扑克的经历里面学到,真正要守住的是核心人才,而不是每一个人在搞清楚,必须留下的是哪类人后,再把资源和关注度,全部压在这部分人身上。

他说他最强烈的情绪,其实就是想「保护研究的本能」。在 Barrett(OpenAI 研究副总裁)离职那阵子,他甚至直接睡在办公室睡了一个月,只为把研究团队稳住。

▲ Barret 目前和 Mira(OpenAI 前 CTO) 都在 Thinking Machines

那么 OpenAI 所信奉的 AGI 又是什么,主持人问他,Andrej Karpathy 在最近的一个播客里面说,AGI 大概还要 10 年,你是怎么想的。

Mark 先是调侃了一番 X 现在「惊」的各种文案,一下子是「AI 完了」、一下子又是「AI 又可以了」。他觉得,每个人对于 AGI 的理解都不同,即便在 OpenAI 内部,也很难有一个一致的定义。但他相信的是,OpenAI 在 AGI 道路上设置的目标。

  • 一年内: 改变研究的性质。现在的研究员是自己在写代码、跑实验。 一年后,研究员的主要工作是管理 AI 实习生。AI 应该能作为高效的助手,承担大部分具体工作。
  • 2.5 年内: 实现端到端的研究自动化。这意味着:人类只负责提出 Idea(顶层设计),AI 负责实现代码、Debug、跑数据、分析结果,形成闭环。

从 Copilot 到 Scientist,Mark 强调,OpenAI for Science 的目标不是自己拿诺贝尔奖,而是建立一套工具,让现在的科学家能一键加速,哪怕这需要重构整个科学评价体系,因为未来可能很难分清是人还是 AI 做的发现。

2 年半的时间很快,但这对于现在看来,是以周为单位迭代的 AI 行业来说,又是一场漫长的马拉松。

▲ 预测市场给出的,到 2025 年底前最好的 AI 模型会来自哪个公司,Google 排在第一名

无论是扎克伯格那锅真金白银的鸡汤,还是 OpenAI 想要定义未来的理想主义鸡汤,这场硅谷的「煮汤大戏」还远未结束。Mark Chen 播客里表现出来的从容,或许能消除一部分外界的焦虑,但用户还是会用脚投票,好的模型自己会说话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

前段时间,Nano Banana Pro 发布,有网友在我们的留言区评论,说前端程序员已经不知道「死了」多少次了。

如果要把这两年职场人的心理变化画一条曲线,我想大概率是一条过山车,从最初的震惊与狂热,到中期的焦虑与恐慌,再到现在的……疲惫与祛魅

是的,疲惫。

▲ 技术成熟度曲线

我们尝试着无数个声称能颠覆工作的 AI 工具,但回归到真实的周一上午,情况往往是这样的:你在一边狂敲提示词,在另一边小心翼翼地把生成的文本复制回文档,然后花半小时重新调整那个被毁得面目全非的表格格式 。

这种割裂感,真的很难让人把它和生产力三个字划等号。

很多时候,我们手里的 AI 更像是一个用来炫技的玩具,而不是那个能真正帮你把项目彻底搞定(DONE)的智能伙伴 。

▲「AI 原生,效率新生」—— WPS AIDONE 办公专场活动

前几天,我们和 WPS AI 在珠海金山软件园一起举办了「AI原生· 效率新生- AIDONE办公专场」。爱范儿副主编、 APPSO 负责人李超凡,和金山办公 Office AI 负责人刘拓辰,在现场分享了他们对于 AI 原生与效率的看法,如何才能做到 AIDONE;还有 WPS AIPPT 的上手体验等。

从现场回来,我隐约意识到,可能我们之前打开 AI 的方式,都太累了。当 AI 和 Office 彻底融为一体之后,办公这件事完全可以从忙于交付,变成更专注思考。

所谓的 AI-Native,并不是你会写提示词

什么是 AI-Native(AI 原生)?是会用 Midjourney 生成几张二次元图片?还是能熟练背诵某套万能提示词模版?又或者是用那些所谓的一句话生成产品,手搓一个项目 Demo。

我想这些都不是。

▲爱范儿副主编、APPSO 负责人李超凡主题演讲「如何成一个 AI- Native 职场人」

如同我们在现场分享的观点一样,AI 原生是一种「生物本能」,贯穿到我们工作的每一个环节。像是之前做 AI 编程的 Lovable 团队,他们整个公司只有 35 个人,成立短短 7 个月,年收入就做到了 8000 万美金。还有创作者顶流,用 AI 写深度长文,年收入达到了 400万美金的 Packy McCormick。

凭什么?就凭他们把 AI 变成了某种生物本能;他们不是雇了更多的员工,而是雇了更多的 AI。

对于真正的 AI Native 职场人来说,区别也不在于我们用了多贵的工具,而在于第一反应。遇到难题时,你的脑回路是「这事儿我该怎么熬夜肝出来」,还是「这事 AI 能帮我做吗?我该怎么指挥它?」。

但这里也有个巨大的悖论:如果指挥 AI 的成本,比我自己做还要高,那这种「本能」就是反人性的。

这恰恰是目前大多数 AI 产品的死穴,它们离我们的工作流太远了。经常是,我们得跳出文档,去浏览器里求助,然后再把结果搬运回来。这种反复横跳,足以打断任何珍贵的「心流」。

▲不打断心流的 AI 伴写

所以,AI-Native 该怎么实现。我们的判断是,在最熟悉的 Office 软件里「原生」地使用 AI,才是成为 AI-Native 职场人的最短路径。

原生 Office AI,从工具到类同事

如果说 AI 工具的割裂感是 AI-Native 的痛点,那么金山办公的 Office AI 负责人刘拓辰,则给出了解法。

▲ 金山办公 Office AI 负责人主题演讲「原生 Office AI,从交互到交融」

他在现场提到了一个贯穿全场的关键词,「原生 Office AI」,而要做到原生 AI,他带来了一个更前沿的产品哲学:Agentic Software(智能体软件)

这不只是一个新名词,本质上重新定义了 AI 在软件里的角色。在 WPS 的设计理念里,真正的 Agentic 应该像一个训练有素的助理,拥有两个关键能力:大脑和双手

它得先有一个会思考的大脑,具备自主规划能力。 以往的模型是我们问一句它答一句,完全被动响应。而在 WPS AI 里,当我们抛出一个模糊的需求,比如「做一份年中复盘 PPT」。

AI 会先像人一样思考:复盘需要哪些模块?需要调用哪些数据?它会主动拆解任务路径,规划每一步怎么走,甚至在执行后进行反思;「我做出来的结果符合预期吗?如果不符合,我再重新规划修正」。

但光有想法还不够,它更需要一双干活的手,让它能无损调用各种工具。 这是金山办公 37 年,死磕办公文档底层技术的独家壁垒。

通用大模型也许能写出漂亮的文案,但它们是「没手」的,不能直接在最后交付的文档里面操作。 而 WPS 将内部最高频的核心功能,抽象成了 AI 能理解的工具,让它能理解怎么调整字号、怎么对齐表格、怎么插入文本框、实现各种样式效果。

区别于简单的懂格式,WPS 建立的这套工具化与双向无损互通的能力;做到了 AI 改完的文档,和我们亲手做的一模一样,没有乱七八糟的隐藏标签,格式完美保留。

而在这个 AI 办公过程中,我们用户的角色也开始发生了一些变化。

以往我们是操作者,每一个标点都要亲力亲为;现在,我们变成了决策者。 在 WPS AI 的执行过程中,从理解指令到拆解步骤,再到调用功能,全过程都是可视化的。我们就像坐在副驾驶,看着 AI 开车;它会告诉我们,「我打算先做数据清洗,再做图表分析」。

▲WPS AI 3.0 WPS灵犀 – 文字 Canvas:左侧文档编辑,右侧 AI 对话,用户与 AI 同屏协作

这种交互方式超越了简单的多轮对话,成为一种「过程可视化与实时干预」的全新范式。如果 AI 跑偏了,我们不需要推倒重来,只需在它思考的任意环节随时介入纠正,掌控权始终在我们手中。

过程透明不仅让我们更好地掌控方向,也让整个结果变得可验证、可信赖。「AI 负责规划与执行,人负责审核与决策」的模式,才是 AI 在职场真正落地的样子。

在现场的圆桌对话环节,嘉宾们还讨论了一个话题,「AI 是执行的终点,还是创意的起点?」我印象特别深的一句话是 AI 无法取代人的品味,比起执行,人的价值正在重新被凸显。

▲ 圆桌对话,探讨「AI 是执行的终点,还是创意的起点」以及「未来我们如何与 AI 写作办公」等前沿话题;左一李超凡,中间刘拓辰

AI 正在把必须做的工作自动化:排版、找图、格式、查资料、总结文档……而人类的工作,会变成:判断、提问、想法、审美、选择。这是一个更轻松、也更要求想得明白的时代。

而 WPS AI 正是在帮我们把那些繁琐的、流程化的任务都「搞定」,之后这些省下来的时间,是留给我们,可以拿来做一点真正有价值的思考和决策。

所以,AI 是终点还是起点呢,我想是因为 AI 帮我们走完了执行的终点,我们才终于有精力回到创意的起点。

AI 原生办公,才是未来的工作方式

在 WPS AIPPT 盲盒挑战环节,15 分钟做完 PPT 已经不是炫技,而是一种新的合作方式。用户给方向,AI 负责拆解结构、规划大纲;用户确认无误后,AI 再调用工具完成排版与美化。整个过程,WPS AI 的每一步思考都呈现在我们面前。

▲WPS AIPPT 盲盒挑战,参加活动的朋友正在使用 WPS AIPPT 制作

但我要说的重点不是它有多快,而在于一种新的心流,我们终于可以只专注内容,而不是被排版和格式绑架。这其实才是 Agentic Software 的意义,不是跳过工具,而是让工具的执行过程变得高效且透明。

以往做 PPT,我们处于一种左右脑互搏的焦虑中,既要像作家一样思考逻辑,又要像设计师一样纠结配色对齐。但在这次体验中,因为 AI 接管了找图、排版、美化这些繁琐的体力活,玩家只需要专注于我想讲什么。

这种不打断、不割裂、所想即所得的流畅感,恰恰验证了前面提到的理论,只有原生在文档里的 AI,才是真正的生产力。

▲ 输入主题就能得到 PPT,WPS AIPPT 官网,aippt.wps.cn

在活动现场,我不止一次听到有人感叹,「没想到 WPS 现在的 AI 已经做得这么深入了。」这句感叹背后,其实是用户对当前市面上大量「套壳 AI」的审美疲劳。

为什么 WPS AI 能给人不同的感觉?我认为核心在于金山办公对于「AI 与软件关系」的重构。正如刘拓辰所说,Agentic Software 绝不是简单的聊天机器人。智能体这个词在今年 Manus 爆火之后,就一直没有冷下来过,但对我们用户来说,一个好的 Agent 却仍然还在被定义中。

在 AI 的 1.0 时代,大多数产品是把 AI 当作一个「插件」挂在软件旁边,两套工具流,各玩各的。最近这两年,AI 工具更是百花齐放,但真正能改变工作方式的,从来不是功能升级,而是软件结构的变化。

WPS AI 走的正是这条更难的路,彻底把 AI 融入软件设计;一方面,给 AI 一个独创的翻译引擎,让 AI 能读懂复杂的文档格式;另一方面,把拆解任务、调用工具的每一步都摊在台面上,我们看着 AI 干活,随时喊停纠正。

它不满足于仅仅生成一段文字,而是要成为一个能真正「交付结果(Get Things Done)」的智能体。无论是最近大火的「企业知识库」功能,还是这次演示的 WPS AIPPT,本质上都是这种「原生+智能体」思路的落地。

在 WPS AI 的体系里,AI 不是插件、不是外挂,也不是单纯的内容生成器。它是我们文档里的助手,是会议里的整理者,是灵感的第一落点,是 PPT 的合作者。

对于当前这个浮躁的 AI 时代来说,这其实是 WPS AI 一种克制与务实的长期主义。不去卷那些花哨的 C 端娱乐功能,而是死磕文档、知识库、企业大脑这些 Office 办公领域的基石;也让 WPS AI成为了目前市面上少有的、真正能被称为「生产力」的产品;懂文档、懂创作、更懂用户。

回想起文章开头提到的那个问题:我们还需要多久才能跨越 AI 的尝鲜期?答案也许就在你打开 WPS 的那一刻。

当你发现,原本需要一下午才能搞定的 PPT,现在喝杯咖啡的功夫就能出初稿;当你发现,你终于不再是软件的奴隶,而是 AI 的指挥官时;你就已经是一个 AI Native 职场人了。

不要让 AI 成为你的焦虑来源,去试着指挥它,去试着把那些「必须做」的繁琐交给它,让自己专注于「值得做」的事情 。

毕竟,只有当我们繁琐的操作真正隐形,创造力才能真正显现。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产 T800 来了!回旋踢拳击技能点满,超越 80% 男性,这才是铁甲钢拳

刚刚,众擎机器人发布了最新旗舰产品,全尺寸高动态通用机器人 T800。

不夸张地说,这大概是市面上最帅的机器人,既有专属于机器的硬核质感,还带来了人类的灵活控制。

T800 这个型号,我一看到就想到了终结者里面的施瓦辛格,虽然还没做到电影里面的半机械人状态,但是在格斗能力上,众擎这款机器人打出的组合拳、飞踢、回旋踢,完全称得上 T800 级别。

去年十月,众擎机器人才刚刚发布了首款身高 170CM 的人形机器人 SE01,今年 2 月,成功实现了全球首例人形机器人前空翻特技。

今天,T800 发布,对比前代,这款机器人融合了众擎机器人在本体结构、运动控制和智能感知系统方面的最新成果,在稳定行走、动态平衡、动力性能方面都带来了领先优势。

基本参数方面,T800 的身高来到了 173CM,小腿+大腿的长度是 91CM,手臂长度 60CM;携带电池之后的体重为 75KG。在关节自由度方面,全身有 43 个自由度关节,不含双手是 29 个,单手自带 7 个多维度感知灵巧手自由度关节。

集成了触觉传感器的灵巧手,能够实现精细的抓取和操作,同时单手也有 5KG 的负载能力。

运动参数的表现,T800 的移动速度是 3m/s,对比我们普通的每秒钟 1m 左右的速度,属实快了不少。

关节运动空间也做到了高度灵活的关节控制,几乎全身的主要关节,都支持较大的活动角度,手臂、肩等部分,接近于全周旋转。

T800 的动力系统采用了 72V 的行星/直线混合驱动,即针对不同的关节有不同的驱动类型;腰部与髋部(旋转): 采用行星减速模组;膝部与踝部(推杆): 采用直线执行器,模拟人类大腿肌肉的伸缩发力。

最大关节力矩更是高达450 N·m,这几乎给了机器人相当大的爆发力和负载能力;一些主流的家用轿车,

发动机的峰值扭矩大约也就在 300~400 N·m 左右。在某种程度上,这意味着 T800 单个关节(通常是膝盖或髋部),瞬间爆发出的旋转力量,竟然是有可能超过,或者匹敌一台汽车引擎的峰值输出。

演示视频里,T800 完美执行了巴西战舞、回旋踢、嚣张挑衅、拳脚连招、五连踢、组合拳、以及飞踢等高难度动作,每一个动作都干脆利落。

而在实现高动态运动的同时,众擎 T800 还兼顾了 5% 的力控精度和 2-4 小时的长效续航,不仅四肢发达,更是粗中有细。

众擎在产品视频的介绍里还提到,T800 实现了对 170CM 同等身高男性群体,80% 以上的性能超越。在宣传视频的评论区里面,网友们都惊叹不已,「这么灵活的动作,铁甲钢拳真的照进现实了!」说实话,我看到视频的第一感觉也是这样,「帅」是脑子里蹦出来的第一个词,大开大合的武打动作,足够满足我对搏击力量的憧憬。

作为一款全尺寸的高动态机器人,T800 的定位是替代人类去从事一些高强度、重复性的体力劳动。物流仓储、酒店服务、门店导购、以及工厂协作,都是众擎在产品官网列举出的应用范畴。

目前来看,T800 的首要落地点还是在于生产制造业,而不是进入家庭。上个月,众擎机器人就联合京东之家,在深圳开设了全球首家人形机器人主题潮品店,「赛博店员」上岗给顾客提供服务。

和宇树一样,众擎机器人也是一家小型初创公司,获得了京东、宁德时代等企业的投资;它 2023 年在深圳成立,目前已经发布了包括 T800 在内的六款机器人产品。

T800 作为众擎机器人的核心产品,很明显是被寄予了推动人形机器人,从样机走向实用的使命。

众擎创始人赵同阳在上个月粤港澳大湾区文化产业投资大会上提到,2026 年要实现数十台级别的小批量交付,来验证某些特定的行业场景是否可行;而 2027 年要争取 T800 的销量达到 1-2 万台。

这还只是众擎一家机器人公司的产销计划,更不用说还有宇树、优必选、甚至小米等、以及国外的热门公司。不敢想象 ,真到了 2027 年,大街上是不是真的都是机器人了。

用它宣传视频里面标语来说,「未来已来,共生之始」,前往和机器共生时代的大门,已经被打开了。

彩蛋:众擎曾在五月份宣布,将在今年 12月24日举办一场机器人自由格斗比赛「机甲拳王」。现在这场格斗马上就要登场了,今天发布的 T800,也将作为核心参赛机型登场对战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三百多万人围观的 AI 油画视频,是技术的神作,还是没有灵魂的电子垃圾

「比蒙娜丽莎更美的,就是正在燃烧的蒙娜丽莎」,这是多年前一档辩论节目里,大家对于艺术价值的不同理解方式,那时听到可能觉得挺激进,笑一笑便过了。

最近一段把几幅经典油画「复活」的 AI 视频,在 X 上引起了巨大的争议,视频刷到 300 多万播放,被不少人称之为栩栩如生的艺术;比经典油画作品更好看的,是会流动的油画?AI 做的东西是不是没有任何艺术价值?

网友分享的油画视频里,经典的油画元素不再静止,颜料开始流动,天空的云朵、火山的喷发、还有海浪的汹涌都变得生动自然,仿佛那些存在几百年前的画布,突然拥有了生命一样。

乍看之下,这就是一场视觉盛宴的享受;如果不是其中几个视频,忘了去掉右下角 Google Veo 视频生成的水印,甚至会觉得完全是用 CG 特效制作实现,毕竟对油画风格来说,没有很明显的「AI 味」。

但是点开评论区之后,发现网友们撕成了两派,有人说,这就是新时代的艺术,是全新的审美体验;有人就不买单,用 AI 时代最刻薄的词汇——Slop(垃圾/泔水)一言蔽之,说等到 AI 有意识了,再来谈配不配成为艺术。

同样的一条 AI 视频,让人看到了艺术、技术、恐惧、愤怒、敬畏、厌烦,还有时代变化。

如果不说这是 AI,你的第一反应是

X 网友发布的这则视频,其实并不是他本人的原创,在评论区有人指出来,说他没有标注视频来源,也没说明使用了 AI,只是单纯地为了赚取流量。现在这波流量,也确实是被他赚到了。

视频最早是出现 YouTube 上,一位有着 2000 多粉丝的博主@bandyquantguy,他是宾夕法尼亚州立大学艺术与建筑学院的一名助理教学教授。频道内发布的内容,基本上都是不同油画的动态视频作品,长度在一分半到 3 分钟不等。

而那条被转发到 X 上的视频,并收获了三百多万的观看,是他将近一个月之前的作品。

当我看着满屏的动态油画时,说实话,根本没想到这是否通过 AI 生成。一方面是对油画艺术的不了解,是否有相关的技术,或者爱好者在专门做类似的工作。另一方面,大多数时候,我们所说的 AI 味,主要是在制作一些写实的画面,像现实世界、真人版等。而这种风格化本身就足够突出的内容,AI 的处理反而不会太突兀。

有网友评价,这是他见过最原汁原味的 AI 艺术作品之一,因为视频没有生硬地模仿现实,而是创造了一种介于梦境,与现实之间的流体美感。

第一眼都是觉得「震撼」,而这种迎面而来的视觉冲击,在知道它是 AI 生成的之后,也变成了争议的起点。大多数的人会觉得,这样的作品很棒;但对剩下一部分人来说,如果光靠 AI 就能得到原本属于「艺术」的内容,那该有多可怕。

Slop,AI 是原罪

所以,打压和看衰,成了评论区的另一种态度,Slop 就是代表性的关键词。

在 AI 语境下,Slop 指的是通过 AI 大量生成的、看似有内容实则空洞的劣质品。像是之前奥特曼推出 Sora,就有人犀利的丢下断言,Sora 生成的视频,全部都是 AI Slop。

这次,也有网友说,这样的油画视频,不应该放在社交媒体上,Sora 才是他最好的归宿,那里都是同样的 AI 垃圾。为什么画面如此精美的视频,会被称为 Slop?反而一些 AI 味明显的视频,激不起大家这么热烈的反馈。

因为它是机器盲目的困境。

反对者认为,AI 生成的内容,是缺乏意义,就像是一台机器盲目的梦境,它甚至不知道自己正在做梦。

他们的观点是,艺术不仅仅是停留在好看,那只是媚俗。艺术需要人类的意图、深度和复杂性。在这个视频里,原本油画的笔触,变成了毫无逻辑的像素流动,就像是单纯地为了展示「我能动」而动,没有任何节奏、理由或概念支撑这个视频的内容。

对他们来说,AI 最大的问题从来不是不够好看,而是「不够人」

AI 的每一次选择,只不过是概率。而人类创作一个作品,画一幅油画,背后包含的是对人生、对世界的思考和回应;有情感、时间、技巧、犹豫和失败等经历。

支持者觉得,现在的 AI,就像相机刚被发明时一样,不是在替代传统,而是在扩张想象力。甚至有网友说,「我想艺术家们在作画前,脑海中可能就有这样的画面,现在我们也能走进他们的灵感了。

是结果,还是过程重要

如果这个视频是一个人类艺术家,花费 1000 个小时,一帧一帧手绘出来的,评论区又会发生什么。除了震撼,大概还是一样,会有人说,这视频顶多用来作为我的手机屏保,除了好看也就仅此而已了。

艺术是主观觉得还是客观认定呢,其实都没有明确的界定。网友的期待,大概是希望,艺术应该是需要「努力」才能抵达的地方,而 AI 正在稀释「努力」在艺术中的价值。

前段时间,一幅名为《太空歌剧院》的画作,拿到了艺术比赛的头奖,还有 AI 画作甚至在拍卖市场,以十万、百万的价格被拍走。

我们在一个输入提示词就能生成图像的世界里,任何一个人不需要复杂的技巧,也不需要付出多少汗水,都有机会创作自己的作品,作品的意义也不再靠时间来定义。

▲提示词:将油画纹理动画化为粘稠流体模拟,厚重的颜料笔触融化并流动。旋转的天空、粘稠的黄色光芒、翻腾的蓝色云朵。

当 AI 把时间成本压缩到几秒钟,这种神圣感瞬间崩塌,剩下的就只有廉价。「这不难做吧」、「我用 Veo 3 也能生成」,这样的东西,自然就成不了艺术了。

更有趣的是,有网友提到,这是一种很明显的社会心理学现象,巴浦洛夫的狗。现在我们只要看到 AI 的标签,就有了条件反射,瞬间进入狂怒模式,无论作品本身好坏,一律打成 Slop。

具体来说,就是眼睛告诉我,这个视频还不错,但大脑告诉我,这是 AI,AI 做的都是不好的,为了调和这种矛盾,我就必须强行说服自己,它看起来很糟糕。

心理效应是存在,更多的我想其实还是,AI 内容的泛滥,正在把我们的审美阈值无限拔高。

没有 AI 的时候,让一幅油画像这样动起来,可以说是「魔法」一样的存在。现在如果这些作品没有极强的故事性,或情感内核,仅仅是视觉特效,已经很难打动被各种 AI 效果喂饱的我们。

▲ YouTube 上该博主的其他油画视频

无论评论区吵得多么不可开交,一个事实是无法改变:AI 不会消失,艺术也不会因为 AI 的出现而消失。

就像一些网友说的,「电力曾让蜡烛工厂破产,但人类具有适应性」。现在的混乱,也许只是新旧审美体系,交替时发生的阵痛。

如果在 100 年前我们按一下播放键,就能听到录好的歌,大概也会有人觉得,只有黑胶唱片出来的声音才是真音乐;现在我们只是习惯了,现场、黑胶、手机、音响都有好音乐。

艺术,从来看的是最终的愿景,是我想让你看到什么,而不是用了什么工具,我花了多久才做出来。一个活过来的 AI 艺术,就算是简单的几行提示词,一样倾注了真正属于创作者的叙事、情感与意图。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看完《疯狂动物城2》这样发合照火爆朋友圈,Nano Banana Pro 新玩法来了 | 附教程

疯狂动物城2 前几天刚正式上映,超过哪吒,成为中国影史动画电影预售票房冠军,双休日买好票准备去看了吗。

社交媒体上,早在预售的时候,就已经都是警官兔朱迪与狐尼克,出现在不同网友的电影院合影里

照片里的网友,左拥右抱着兔朱迪和狐尼克,作出自拍的姿势,而背后的影院屏幕上还显示着疯狂动物城2 的海报。同时人脸的一致性保持,让人觉得这就是电影放映后的粉丝福利,动画片主角跑出来免费合影。

评论区都在求攻略,有网友贴心地给出了制作指南。输入下面的提示词,然后图 1 上传自己的照片,图 2 和 图 3 分别上传朱迪和尼克的照片,图 4 是一张电影海报,通过豆包或者剪映 App 的生图功能,就能得到一张同款合照。

不要换脸,人物脸部不能有任何改变!将图1和图2 和图 3 的三人融合成一张三人俯拍自拍照,画面构图紧凑,三位主体靠得很近,图 1 人物居中,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧和右侧人物站得略靠后,整体都需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,典型的日韩视觉自拍风格。简洁干净,进一步凸显人物主体。整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀,背景为超大电影院坐满了观众,这三人背对银幕,银幕显示参考图 4《疯狂动物城2》电影精美海报填满屏幕。

▲图片和提示词来源:小红书@424180556

我们也使用 Nano Banana Pro 生成了同样的合照,不过得益于它的强大,我们完全不需要输入太多的提示词,只是上传四张图片,然后简单的告诉它要做什么就可以。

▲提示词:把这个男生和另外两个疯狂动物城角色放到一张合照里,他们就像是拿着手机在自拍,背景是电影院,电影院的屏幕上显示着我发给你疯狂动物城海报;16:9 的大小,4K 画质。

甚至还可以脑洞大开,直接丢给它这四张图片,然后输入提示词「合照」,完全不用担心人脸会改变,我们得到了这些 Nano Banana Pro 发挥自己的脑洞,生成的图片;横屏和竖屏的电影海报都有了。

▲提示词:合照

我们还可以试试最近玩 Nano Banana Pro 特别热门的提示词玩法,输入「xx,但不是xx」,上面在海报前拍照的那张图片,我们输入的提示词就是「合照,但不是合照」。

除了合照的玩法,配合新升级的 Nano Banana Pro,我们还有很多疯狂动物城2 联动玩法。

玩法一:全世界都是疯狂动物城

还记得 GPT-4o 刚出来那会儿,铺天盖地都是吉卜力风,现在疯狂动物城风也来了,而且还带来了更丰富的控制。

就像这张现实世界的街景图,只是把路上的行人,换成了可爱的动物角色,而马路和建筑还保留着原来的风格。

提示词:疯狂动物城风格的真实场景融合。迪士尼级别角色设计,富有表现力的形状,柔软毛发质感,流畅环境光照。保持原始照片结构,保留现实世界的光线、透视和材质。将拟人化元素自然融入环境中。高分辨率,电影级色彩调节。

拿着这套提示词,几乎可以把所有的照片,都转成这种现实+疯狂动物城的风格。还记得我们之前 AI DONE 活动预告里面,4 位 AI 大佬走在斑马线上吗,现在你还能不能,分辨出从左到右都是谁。

还有这张在网上疯狂传播的 AI 合照,把硅谷最有权有势的 CEO 都集结在一起。

▲ 由于提示词里面提到了「迪士尼」,所以这个狮市长看起来更像其他迪士尼系列电影的角色

除了保留一定的现实世界风格,把整个图片都换成疯狂动物城风,也是一样的好玩,Nano Banana Pro 表示,这都是小 case。

把开头那张只是转换了路上行人的照片,全部换成疯狂动物城的元素,色彩更加鲜艳,元素也更协调。

提示词:将这个现实世界的照片转换为《疯狂动物城》风格的动物城市,保留原始图片原始的全部元素和布局结构,但转换为风格化的拟人化基础设施,4K 画质。

同样的提示词,我们还把爱范儿在大兴安岭拍摄的样片,也进行一次风格转换。Nano Banana Pro 把大兴安岭的冷,描绘地更加极致,雪花飘在了衣服上。

还有随手拍摄的合照,也能一键换装,全员变身可爱的小动物。

▲ 原图来源:Unsplash@绵绵

如果希望留住能识别的面部特征,而不是直接把整个头部都换成动物头,实现起来也很简单,只用加一句提示词。

完全保留人物的人类面部特征和身份。

玩法二:合照,三个人可不够

开头只有朱迪和尼克的合影,只是疯狂动物城里面的两个主要角色,在电影里还有狸宝、宝伯特、马飞扬,闪电、夏奇羊、牛局长等数十个动物角色。

在 Nano Banana Pro 里,这些角色可以全部一次性发给它处理,所有角色都在舞台上。

提示词:图一是我,图2到图8,每张图片里面有4个疯狂动物城里面的角色,现在你需要把我和他们放在一张合照里面,就像是在线下的电影院,这些电影角色主创都在台上,我和他们一起合照,我在中间,拿着手机自拍,然后他们都在我旁边或者身后。

有了这么多的角色图片,我们还可以做一张疯狂动物城警局的照片墙,Judy、Nick、Bogo、Clawhauser 都在那块墙上,然后我们上传的照片也被贴到同一块墙上。

提示词:
创建一个16:9、4K分辨率的最终场景,设置在《疯狂动物城》警察局(Zootopia Police Department ,ZPD)内部。
一个真实感的警察局办公室走廊,主体背后是一个大型“ZPD员工照片墙”。

场景前方:
用户(来自图像1)站在中心位置,举着手机自拍。
保留用户真实的人类面孔和身份信息。
不要将脸转换为动物,仅应用非常轻微的《疯狂动物城》风格灯光和色彩调节。

背景:
用一整面墙填满用户身后的区域,并排列成网格状的拍立得风格员工ID照片。
使用图像2-8中的所有角色(每张包含四个角色),并将它们安排为单独的拍立得ID肖像展示在墙上。

每个角色肖像应满足以下要求:
– 保持上传图片中原始角色身份不变。
– 遵循一致的《疯狂动物城》宣传艺术外观:柔和迪士尼灯光、干净背景、清晰人物轮廓线条。
– 匹配官方ZPD ID照片框架比例(头像或胸部以上)。

同时,将用户自己的“ZPD风格ID照片”添加到墙上,放置于网格中央附近的位置,用与其他相同样式的拍立得边框呈现。

视觉规则:
– 保持真实办公环境中的墙壁材质、灯光效果的一致性。
– 所有ID照片必须对齐边框,统一色调,相同尺寸。
– 不要扭曲用户自拍姿势。
– 角色保持卡通化,但融入现实环境中。
– 可适度添加ZPD标志、警徽图标以及蓝色点缀灯光以增强真实性。

最终目标:
结果应展现出仿佛该用户已加入了ZPD,在官方员工照片墙前,与28位《疯狂动物城》的角色及其个人ID肖像一起合影留念之效果;画面需高清晰度,4K质量,有电影感但具备现实主义氛围感。

玩法三:这是我的疯狂动物城 ID

和风格转换有点类似,但又不完全相同。我们可以让 AI 来猜测,上传的人像图片,会是疯狂动物城里面的谁。

提示词:根据你对这张人像图片的分析,将这幅肖像转化为迪士尼《疯狂动物城》风格,最适合这张肖像图片的拟人化动物角色。保留原始面部结构和性格特征。柔软的毛发质感、富有表现力的眼睛、流畅的迪士尼光影效果、友好的配色方案以及电影海报级别的质量。

虽然 Nano Banana 大多数时候都只记得朱迪,但还是会根据我们上传的图片,调节图片的色彩、眼神的信息,同时保持我们的服装和姿势不变。

不喜欢这种身份证,还可以生成疯狂动物城的同款角色海报。

把图一的角色替换到图二的角色海报里,成为新的官宣角色。

由于 Nano Banana Pro 现在的指令理解和遵循能力,都得到了提升,所以我们的提示词甚至不需要太复杂的描述,一般口语化的表达,它也能听懂。

然后直接让他把狐尼克和兔朱迪换成马斯克和奥特曼。

▲提示词:把这个海报里面的两个角色替换成 Elon Musk 和 Sam Altman,然后名字也改成对应的马斯克和奥特曼

如果觉得这种 ID 照片还不够正式的话,直接让 Nano Banana Pro 生成一张带着边框,风格明显的证件照。

提示词:
将这张肖像转化为《疯狂动物城》风格的官方身份证照片,同时完全保留人物的人类面部特征和身份。
保持人物原本的眼睛、鼻子、嘴巴以及整体脸型,不进行动物替换。
仅应用迪士尼《疯狂动物城》的视觉风格:柔和边缘光照效果、平滑阴影处理、温和色彩搭配、灯光边缘处微妙的毛发质感、人类眼睛稍微放大但仍然保留人类特点,以及电影级卡通写实效果。
使用干净的工作室风格ZPD身份证背景(蓝色渐变或中性背景)。
保持人物可识别性及自然肤色,仅添加与《疯狂动物城》宣传画一致的轻度艺术化处理。
不改变面部结构;增强表情清晰度,并在眼睛上增加些许迪士尼式光泽效果。
高质量,符合官方文件要求的框架设计。

还可以在提示词里面指定好名字、身份编号、工作部门等信息;Nano Banana Pro 也完全能准确渲染所有的文字。

尽管 Nano Banana Pro 比起之前的版本更能理解我们的意图,但有时候多尝试几次,还是会给我们一些额外的惊喜。

最近社交媒体上很多人在尝试,用尽可能少的提示词,看 Nano Banana Pro 会生成什么。还有一种更高级的玩法是,Gemini 3.0 Pro 多模态推理和理解能力的提升,用来做逆向工程表现也很不错。

例如,我们拿疯狂动物城这张海报来测试,在 Gemini 3.0 Pro 模型里面,输入提示词「提取这张图片的提示词,越详细越好。」然后再把提示词给 Nano Banana Pro,得到的 AI 图片,还原度其实算非常高。

▲ 提取到的提示词:
A high-quality 3D animated movie poster for Disney’s “Zootopia 2,” characterized by incredible detail, highly textured fur, vibrant saturated colors, and bright daylight.
Composition & Angle: A dynamic, chaotic street scene captured with a low-angle shot looking upwards through a wide-angle fisheye lens, creating strong perspective distortion and a sense of overwhelming crowds.
Central Characters: In the center, Nick Wilde (fox) wearing a pink floral Hawaiian shirt, grey pants, and a tie, is running forward with a panicked, wide-mouthed expression. Next to him, Judy Hopps (rabbit) in her blue police uniform is running with a shocked but determined look. Behind them, a massive blue python with yellow underbelly scales (new character Gary) is hilariously coiled through the crowd with a surprised expression and tongue sticking out.
Environment & Key Props: A large grey metal street light pole cuts diagonally from the top left to bottom right. Mounted on it is a green street sign that clearly reads “Disney” logo above “疯狂动物城” with a large background number “2”. Below the sign, a yellow traffic light housing displays a glowing cyan LED number “2” instead of standard lights.
Background & Crowd: To the left, a pink double-decker bus filled with slow-moving sloths hanging out of windows (including Flash). A dense, diverse crowd fills the street, including a giraffe stretching its neck, an elephant, a lynx holding up a smartphone taking a photo, a beaver, and a rhino in casual clothes. Overhead, a horse is swinging on a rope across the street. In the foreground, a green lizard is tripped up, and a seal wears headphones.
Setting: In the far distance under a bright blue sky with clouds, the towering, futuristic skyscrapers of the Zootopia skyline are visible. The overall atmosphere is energetic, humorous, and crowded.
Text Elements (Visual Placement): Floating 3D text in the middle left reads “老搭档 新案件” and middle right reads “嗨翻全城”. At the very bottom center, text reads “11月26日 全国影院献映”.
Technical Specs: 8k resolution, cinematic lighting, highly detailed render. –ar 2:3

在我们的测试中发现 AI Studio 生成的图片,有时候并不是按照指令的 4K 要求给出原图,大小一般在 1MB 以下,而在 Gemini App 或者网页里,生成的图片则是完整的 4K 分辨率,图片大小一般在 7MB 左右。

Gemini 使用 Nano Banana Pro 的次数是有限制,在部分时候会像 ChatGPT 一样,弹出使用旧模型的提示。

但大多数时候,每天的使用次数是足够普通用户的使用。

我们喜欢疯狂动物城,大概是因为它打造的乌托邦,是一个勇敢善良的美丽新世界。现在 AI 迷人的地方,正是让我们也有了进入这个新世界的能力,同样地体验和传播,这份纯真的美好。

原文链接:https://mp.weixin.qq.com/s/8EJNx4Qjww09htrEfenJDA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Ilya 罕见发声:Scaling 时代已结束,我们对 AGI 的定义可能全错了

修个 bug 可以来回把同一个错误引回来,写代码能绕一圈又走回原地。

但几乎所有 AI 公司都坚信,只要把模型做大、把数据堆满、把算力扔进去,智能就会自动涌现。这套规模定律(Scaling Law)曾经是硅谷最坚定的信仰。

在隐退许久并创立新公司 SSI(Safe Superintelligence)后,前 OpenAI 首席科学家 Ilya Sutskever 用一种极其冷静的语调,宣告「Scaling 的时代结束了,我们重新回到了研究时代。

最近一场 Ilya 与 Dwarkesh Patel 的深度对话中,他不仅给出了,对于 AI 未来的技术路线图,更重要的是,他深刻地回答了,为什么现在的 AI 即使再强,也依然不像人。

🔗 播客链接:https://x.com/dwarkesh_sp/status/1993371363026125147

为什么 AI 是个高分低能的优等生

我们总觉得现在的 AI 很强,它们能在编程竞赛、数学竞赛、各种榜单上拿金牌,每次有新的模型发布,也是一次次刷新着各种 benchmark。但 Ilya 指出了一个让他感到困惑的现象。

▲ 最新发布的 Claude 4.5 Opus 模型,在编程相关的榜单,已经拿到了 80.9 分

他说我们在用 vibe coding,要 AI 写代码时,AI 可能写到某个地方,出现了一个 Bug。我们直接告诉它:「这儿有个错误。」AI 会说:「天呐你是对的,我马上改。」 然后它解决了这个 Bug,又引入了另一个 Bug。 你再指出,它又改回了第一个 Bug。 它就在这两个 Bug 之间无限循环,显得极其笨拙。

他的解释提到了这说明 AI 的「泛化能力(Generalization)」出了问题。为了解释这个词,Ilya 用不同的学生打了一个比方。

想象两个学生都在学编程,学生 A 代表 AI, 极其刻苦,练了 10000 个小时。他背下了所有的题库,记住了所有的解题套路。考试时,只要见过类似的题,他就能拿满分。

学生 B 代表人类,他只是觉得编程竞赛很酷,花了 100 个小时练习,但他真正理解了编程的逻辑,拥有了某种直觉,也能做得很好。长期来看,谁会在职业生涯中走得更远?他说一定是学生 B。

而现在的 AI 就像学生 A。所谓的智能,很大程度上是靠海量数据强行记忆出来的;它们在特定问题的庞大、增强数据集上过度训练,使它们在任务上表现出色,但不一定擅长泛化到其他领域。

一旦遇到训练数据之外的微小变动,比如修复一个重复出现的 Bug,它缺乏那种举一反三的泛化能力。

从堆算力回归拼创意

但这种海量数据的训练方式也不是完全没有用。在过去五年里,AI 行业的发展基本上都是遵循着所谓的「规模定律 Scaling Law」,从一开始的还是以百万参数来衡量的大模型,现在都来到了万亿参数。GPU 显卡算力的消耗,规模更是未雨绸缪,要卷上天际。

这种把一定量的算力,和一定量的数据混合进一个神经网络里的方案,也成了所有大模型开发的必备流程,即预训练。在预训练阶段,不需要思考用什么数据,因为答案是所有数据,它是人类投射到文本上的整个世界。

而 Ilya 认为,「Scaling」这个词,本身就固定了我们的思维。它暗示着我们只需要做一件事:加算力,加数据,保持配方不变,把锅搞大一点,就能做出好菜。

他说这样的法则,让大公司很舒服,因为这是一种「低风险」的投资。相比于需要灵感和运气的研究,大公司不需要雇佣科学家去苦思冥想,只需要「加数据、加算力」,而模型变强的结果是可预测的。

但现在,瓶颈来了。数据不够了,预训练数据,我们的互联网文本语料是有限的,而且已经快被用光了;有专门的研究结构统计过,现在互联网上 AI 内容的比例,已经是超过我们人类输出的内容。

其次是边际效应,把模型再做大 100 倍,也许会有提升,但不会带来质变。

Ilya 也提到了最近在 X 上,有人说 Gemini 3 似乎解决了预训练的一些问题。而此前 The Information 也曾报道奥特曼担心 Google 的发展会影响 OpenAI,甚至已经让他感受到压力。

其中一部分的原因,正是 GPT-5 的推出,遇到了预训练上的问题,即随着预训练数据的增加,模型并没有像之前一样表现出智能的提升。反而 Gemini 确找到了突破的方法,奥特曼在内部备忘录里说,OpenAI 也必须解决预训练的问题,或许才能再次超过 Google。

▲ Google DeepMind 研究副总裁 Oriol Vinyals 提到 Gemini 3 的秘密,是解决了预训练的问题

我们回到了研究时代。只不过这一次,我们有了更大的计算机。

Ilya 把过去这段时间的研究,分成了两个阶段。2012 年到 2020 年是研究时代,大家都在试错,寻找新方法。而 2020 年到 2025 年,是扩展时代,大家都在盲目扩建,算力在扩建,越来越多的 AI 公司在出现。

而现在,单纯的大力出奇迹已经行不通了,或者说单纯靠 Scaling 的红利吃尽了,我们又回到了研究时代。只不过这一次,我们是在用 Scaling 时代建立起来的巨型计算机来做研究,这是一个有着大型算力的研究时代。

总的来说,Ilya 并没有否认预训练和 Scaling 的巨大成功,但他认为这是一种用钱换智能的,低风险暴力美学,而现在这种模式已经触到了天花板,AI 行业必须回归到拼想法、拼直觉、拼创新的硬核研究阶段。

寻找直觉:AI 缺失的那块拼图

如果单纯的数据堆叠无法产生真正的智能,那人类的秘诀是什么?Ilya 给出的答案是:情感(Emotions)

他提到了一个脑损伤患者的案例,这个人失去了情感能力,虽然智商正常、能言善辩,却连穿哪双袜子都要纠结几个小时。 这说明情感不仅是情绪,它本质上是一个价值函数(Value Function)。

不过 Ilya 说目前没有找到很合适的概念,来类比情绪在机器学习中的角色,所以用价值函数来替代。

为了解释什么是价值函数,Ilya 提到了少年学开车的例子, 一个青少年,可能只需要练 10 个小时甚至更少,就能学会开车上路。他不需要像现在的自动驾驶 AI 那样,在模拟器里撞车几百万次才能学会避让。

为什么?因为人类自带了一个极其强大的价值函数,这个价值函数就像一个内置评价器,一旦偏离车道,我们人类会感到紧张,而这相当于一种负反馈。

那么依赖情绪的价值函数,和我们之前一直听到的强化学习,区别又是什么呢?

Ilya 说在没有中间价值函数的强化学习里,通常要等到任务彻底结束,AI 才知道自己是赢了还是输了;但价值函数就像是我们的直觉或内心评分系统。当我们下棋丢了一个子,不需要等到这盘棋下完,我们心里立马会「咯噔」一下,这步棋下错了。

那个学开车的少年,不用等到真的压线丢分了才会改正,而是只要开得稍微偏离车道,他立刻会感到紧张或不自信。这种实时的、内在的反馈机制,让他能极其高效地从少量经验中学习。

对于传统的强化学习,他的看法是这是一种天真且低效率做法。在传统的强化学习中,模型需要尝试成千上万次动作或思考步骤,直到产出一个最终的解决方案,然后根据这个最终结果的好坏获得一个评分,即训练信号。

这意味着在得出最终解之前,模型完全没有进行任何学习。这种方法需要消耗大量的计算资源来进行漫长的推演,但每次推演带来的学习量却相对较少。

而价值函数不需要等到最后,它能提供中间过程的评价;在每一步都给出信号,指引方向,从而极大地压缩了搜索空间,提高了学习速度。

目前的 AI 缺乏这种高效的内心评分系统。如果我们能让 AI,拥有类似人类情感或本能的价值判断能力,它就能摆脱对海量数据的依赖,真正像人一样高效学习。

Ilya 的下一步是直通超级智能

既然认定了拼算力的时代已经过去,而强大的价值函数或许又会成为新的 AI 方法,那 Ilya 的新公司 SSI(Safe Superintelligence)打算怎么做?

他的答案带着一种极其理想主义的色彩,直通超智能,他们选择去攻克那个最根本的难题,实现可靠的泛化

Ilya 直言,现在的 AI 行业陷入了一场老鼠赛跑。为了在市场竞争中存活,公司被迫不断发布半成品,被迫在产品体验和安全性之间做艰难的权衡。SSI 想要做的是从这种商业噪音中抽离出来,闭门造车,直到造出真正的超级智能。

但有趣的是,Ilya 这种「闭关修炼」的想法正在发生动摇。他开始意识到,渐进式发布可能才是安全的必经之路。

为什么?因为人类的想象力是贫瘠的。如果你只是写文章、发论文告诉大家AI 会很强,大家只会觉得这是科幻小说。只有当人们亲眼看到 AI 展现出某种令人不安的力量时,所有人、包括竞争对手,才会真正感到害怕,从而变得更加关注安全 。

Ilya 预言,随着 AI 变得越来越强,现在打得不可开交的科技巨头们,最终会在 AI 安全策略上走向趋同。

播客里他也提到了,SSI 与 OpenAI、Google 那些大型实验室相比,虽然筹集的资金较少,但用于纯研究的计算能力比表面上看是更多的。他说那些大公司将大量的计算资源用于产品推理,并拥有庞大的工程和销售团队,导致其资源分散。Ilya 认为 SSI 拥有足够的计算能力,来证明其想法是正确的。

当被问及盈利模式时,Ilya 只是淡淡地说,我们只专注于研究,赚钱的问题以后自然会有答案。主持也提到了之前 SSI 的前 CEO(联合创始人)选择了离开,然后加入 Meta,在 Meta 希望收购 SSI 时。

Ilya 特意澄清,「他是唯一一个去 Meta 的人。」 他建立 SSI 不是为了在商业市场上套现,而是为了那个唯一的、纯粹的目标,在那个不可逆转的奇点到来之前,把安全的超级智能造出来。

重新定义 AGI,一个 15 岁的少年

那我们距离 AGI 还有多远?Ilya 给出的预测是 5 到 20 年。

但他提醒我们要警惕「AGI」这个词。因为预训练模型让我们产生了一种错觉,以为 AGI 就是一个什么都懂的百科全书。但 Ilya 心目中的超级智能,更像是一个绝顶聪明的 15 岁少年。

这个少年可能还没学过法律或医学,但他拥有极致的学习效率。你让他去学医,他可能几天就能读完人类所有的医学文献,并开始做手术。

而在这一愿景中,最让人细思极恐的概念是融合(Amalgamation)。

人类的悲哀在于知识无法直接复制。这个人学会了开车,另一个人还是得从头练起,但 AI 不一样。Ilya 描述了一个场景,数百万个 AI 分身在经济体的不同角落工作,有的在写代码,有的在打官司。它们在各自学习,然后将所有的经验融合进同一个大脑。

这种集体进化的速度,才是他所认为的 AGI。

面对这样一个能够瞬间融合万千经验的超级大脑,人类又该何去何从?

Ilya 给出了两个层面的思考。首先是给 AI 的设定。不要只让它爱人类,因为这太狭隘了。未来的 AI 自己也将是有知觉的生命体,应该利用同理心的原理,让它关爱所有有知觉的生命,可能是比代码更稳固的安全防线。

其次是人类的退路。如果每个人都有一个比自己聪明百倍的 AI 智能体,人类会不会沦为历史的旁观者?Ilya 给出了一个他坦言「自己并不喜欢,但可能是唯一解」的答案:脑机接口(Neuralink)。

只有当人类选择与 AI 融合,让 AI 的理解直接变成我们的理解,我们才能在那个奇点之后,依然是这个世界的主角。

播客的最后,Dwarkesh 问了那个所有人都想问的问题:作为 AI 领域的传奇,你是如何一次次押对方向的?

Ilya 的回答很像个艺术家:「寻找美感。」

在那些数据都不支持你的至暗时刻,唯有对美、简洁和生物学合理性的自上而下的信念,能支撑你走下去。因为神经网络模仿了大脑,而大脑是美的,所以它一定是通往智能的正确道路。

这或许就是 Ilya 所说的「研究时代」最需要的品质:在算力之外,保留一份对智能本质的诗意直觉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 这个新功能,想把淘宝小红书 B 站的活全干了

你有没有过这种体验,想买个东西,先去小红书找了二三十篇笔记,B 站看了十几个测评,然后上什么值得买看了下优惠的渠道,最后,人已经麻到不想买了。

今天,OpenAI 给了一个新的统一入口,让 ChatGPT 直接替我们做「购物研究」

在 ChatGPT 的聊天页面,点击菜单(+)选择 Shopping reseach 购物研究,告诉它要买什么,它会去全网查资料、比较参数、问我们预算偏好,然后给出一份量身定制的购买指南。

这听起来很简单,实际上是个非常深的产品变化,也是 ChatGPT 一直以来想要引入广告,又一次的小试牛刀。

和我们现在所熟悉的电商推荐、搜索引擎、比价工具都不太一样。传统工具的逻辑是,我们搜什么,它就给我们看什么。而 ChatGPT 购物研究的逻辑是,我们告诉它需求,它会利用我们在 ChatGPT 内的聊天记录,帮我们找到最适合的那个。

为了迎接黑五、感恩节等假期,ChatGPT 购物研究功能,已经向 Free, Plus, Team 和 Pro 等所有登录用户开放。而 Pro 用户的 Pulse 功能,也会个性化地使用购物研究,来推荐一些相关的产品。

不只是搜索,更是在做功课

国内的多个电商平台,淘宝天猫和京东,都上线了 AI 购物的功能,对话框里输入「我想买」,淘宝就能根据我们过往的购物历史,生成一份详细的购物清单。

▲淘宝 AI 购物功能截图

但是在通用聊天助手里,ChatGPT 是第一个把 AI 购物也加进来的应用。之前用通用助手 ChatGPT、DeepSeek 这些也能询问购物建议,除了推荐的质量,最大的痛点绝对是,给出的链接要么打不开,要么是瞎编的。

新的购物研究功能彻底解决了这个问题,更重要的是把推荐的质量也提上了一个台阶。

进入购物研究模式后,我们可以直接在对话框里输入,「帮我找一款适合小公寓的,静音无线吸尘器」、「我想要找一条看起来,像这个(上传图片)的连衣裙」诸如此类的问题,ChatGPT 就会开始它的调查研究。

和一般的 AI 对话不同,购物研究的体验是 ChatGPT 重新设计的。它会像真人导购一样追问,不会一上来就生成一份报告,而是先要我们做一些选择题,这一点也是和淘宝 AI 购物的区别。

▲我向他提问买相机,它首先问我的预算、接着是买相机的目的、还有一些期待的功能;如果不选择,大概在 15s 之后,ChatGPT 会自动跳过这些问题

它会弹出多个问题选择框,大致的问题是,「预算大概多少?」ChatGPT 会率先研究,关于要研究的产品,主要的价格分布区间,我们可以单选或多选。还有一些问题,根据不同的购物需求,有具体的了解,像是消费电子类会问「主要看重什么功能?」,很明显是礼物常用商品,它会问「是送人还是自用?」……

更厉害的是,如果开启了 Memory(记忆)功能,它甚至会调取以前的对话细节。比如它的记忆里面,保存了平时爱玩游戏的关键词,在推荐笔记本电脑时,就会自动把显卡性能作为重点考量,而不需要我们重复废话。

初步选择了这些属性之后,ChatGPT 会给我们提供一个可视化的挑选界面。不再是纯文字对话,我们会看到一个包含商品图片、价格和参数的可视化界面。

▲ 选择不感兴趣之后,还可以反馈是对品牌不感兴趣,还是价格、功能、款式等具体方面

如果不喜欢某个推荐,可以直接标记 Not interested(不感兴趣);如果觉得某款不错,可以点 More like this(找相似的);左滑不喜欢,右滑喜欢,很有交友软件的味道了。

它会根据我们的每一次点击,实时调整购物调研的方向。在最后生成报告的过程中,为了减少等待的「痛苦」,ChatGPT 还会提供很多小 Tips,来解释关于某个产品背后的内容。就像这里研究相机,它会说「像素不是决定照片质量的唯一标准」等。

等了一会儿,最后就是 ChatGPT 生成的这份深度「买家指南」。这是一份完整的调研报告,里面不仅有热门产品推荐,还有关键差异对比、优缺点权衡、以及来自可靠零售商的最新信息(主要是美国常用购物网站)。

它把原本需要我们花几个小时,去搜索、阅读、拉一个 Excel 汇总的过程,压缩成了几分钟的对话和选择。

除了这种直接的询问有什么新的产品,我们还可以在购物研究里面,发送图片,要求 ChatGPT 找到类似的商品,或者要求它帮我们找到相关的优惠,以及多个同类产品的横向比较。

我们直接问他,「我是学生,这个自行车可以送给我吗」?他很认真的帮我找到了学生专属折扣或补贴、还有一些学校提供的相关支持计划。

什么样的东西适合用它买?

OpenAI 在他们官方博客里面提到,对于查个价格这种简单问题,普通对话就够了。Shopping Research 真正大显身手的地方,是那些决策成本高、参数复杂的品类。

  • 电子产品: 手机、电脑、相机(这类产品参数多,非专业的小白容易晕)
  • 家居与园艺: 吸尘器、扫地机、家具
  • 美妆护肤: 需要看成分、对肤质
  • 运动与户外: 露营装备、专业运动器械

简单来说,凡是需要我们专门去做功课的东西,现在都可以交给 ChatGPT 的购物研究。

OpenAI 最后也提到,他们没收钱。不会因为谁给钱多,就暗中默默推荐谁。他们表示所有的搜索研究结果,都是基于公开的网页信息,用户与 ChatGPT 的聊天记录,同样也不会分享给任何零售商。

其次,这次购物研究的功能,是由一个经过强化学习训练的 GPT-5 mini 版本支持,专门用于购物任务。他们创建了一个新的评估方法,来衡量模型推荐的商品是否符合用户的需求,最后的结果是购物研究达到了最高的 64% 准确率。

不过,尽管模型很强,OpenAI 还是提到,库存和价格瞬息万变,购物研究也可能会有疏漏,建议大家在下单前,点击 ChatGPT 提供的商家链接,去官网做最终确认。

在未来,甚至可以直接通过 ChatGPT 购买,OpenAI 提到那些已经加入 Instant Checkout(支付平台 Stripe 与 ChatGPT 合作的即时结算),且提供该功能的商家,就能让我们边挑选边下单了。

除了模型存在疏漏,更大的局限是在中文市场,大部分的国产,尤其是没出海的品牌,数据缺失比较严重;同时国内电商页面也无法实时抓取。不过,用来调研一些国际品牌为主的商品,ChatGPT 还是能派得上用场。

再者说,以国产 AI 进步的速度,如果想要跟进类似的功能,接入淘宝京东拼多多大概也是「分分钟」的事。

对于 ChatGPT 新上线的购物研究功能,X 上的网友也是各种意见都有。有人说「OpenAI 又一次快速实现了,我的整个创业想法。」、还有网友给出一张密密麻麻的 AI 订阅费用对比,说「AI 能帮我找到最适合的 AI 订阅吗」,也有人犀利的表示「别再破坏我的 ChatGPT 了」……

回头看 GPT-5 发布后,ChatGPT 这三个多月来的更新,群聊、视频社交、即时结账、购物、浏览器以及即将到来的成人模式等,OpenAI 看准了要利用它的庞大流量留住这些用户。对它来说,当前保持住用户的现有存量,比进一步挖掘用户增量可能更重要。

而购物研究,只是 ChatGPT 牢牢绑住现有用户,很小的一次的探索;电商这块巨大的蛋糕,它才刚刚进来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


元宝上线一句话生成视频,这会是评论区的整活小能手

「@元宝,总结一下这篇文章」,自从在微信公众号留言区能@元宝之后,让元宝来总结文章内容成了最热门的玩法。

但元宝能做的远不止是总结一篇文章,就在 Nano Banana Pro 发布的那天,元宝上线 AI 视频,在网页端和 App 里面,一句话就能生成视频。

热度都被 Nano Banana Pro 抢走了,元宝表示实惨。我们第一时间更新了元宝 App,替大家体验了一波这回新上线的视频生成,发现这就是一个新的整活功能。

目前 AI 视频功能已在元宝 App 全量上线,只要更新到最新版本就能在对话框里体验,网页版和电脑版也可以直接生成,并且完全免费不限量。

一句话生成视频,什么脑洞都可以

元宝这次把视频生成的门槛,降到了地板级。

和大多数 AI 视频生成工具不同,元宝甚至不用在工具里面选择视频生成,而是直接对话框里面输入提示词,就能生成视频。

最近我用小猫打中国功夫,还有小猫思考的那几个表情包比较多,我直接输入「生成视频,小猫在思考冒出一大堆数学公式的Meme」,等待的时间大概是 1-3 分钟,就可以得到一个正在思考的猫猫博士。

或者玩一些老梗,「生成视频,多邻国的吉祥物和蜜雪冰城的雪王一起步入婚姻殿堂。」

但这个雪王和多儿,有点难绷,虽然能认出来是猫头鹰,但……这有可能是「为了规避版权风险的一种方式」。还有,倒着走进婚姻殿堂真的很好笑。

元宝这次上线的视频生成,采用的模型,是混元在前几天,正式发布并且开源的 HunyuanVideo 1.5,模型大小只有 8.3B,甚至可以放在 14GB 显存的消费级显卡上运行

对比 Google Veo 3.1 和 Sora 2,在一致性和电影画质上的表现,自然是有较大的差距;但是在开源模型里,HunyuanVideo 1.5 的效果算得上 Top 级别。

▲ HunyuanVideo 1.5 和阿里 Wan2.2、快手 Kling2.1、字节 Seedance Pro 以及 Google Veo 3 对比,从文生视频到图生视频,HunyuanVideo 1.5 的表现在多个榜单仅次于 Veo3 之后。

HunyuanVideo 1.5 主打是轻量化和开源,但在画面色调和细节一致性上,表现也很稳定,同样能听懂复杂的运镜指令等。

当我们把前面「倒着」走进婚姻殿堂的雪王和多儿,增加一些提示词的控制,告诉元宝从远景慢慢拉到近景,就不会再出现明显的 Bug 了。

拿它来随手生成一个梗图,脑洞大开的 GIF,是再合适不过了。

例如,我们输入「生成视频,一个土豆穿着西装在写代码,电脑屏幕冒烟了,土豆流下了番茄酱眼泪。」

或者让一只加菲猫摇头说「No」。输入提示词,「生成视频,一只肥胖的加菲猫,穿着睡衣,手里举着一个白色的牌子,牌子上写着黑色的 NO,它在疯狂摇头,皮克斯动画风格。」

当我们想表达今天发的工资,立刻就花掉了的时候,能生成一个钱包长了翅膀,飞走了的 Meme 梗图。

▲ 提示词:生成视频,一个长着翅膀的钱包,从裤兜里飞出来,越飞越高,下面有一个小人在哭着追赶,手伸得很长,复古美漫风格,线条粗犷。

或者想说周一早上的你,一点也不想起床上班时,长出了手脚的闹钟疯狂地在拍打着我们的枕头。

▲ 提示词:生成视频,1930 年代黑白橡胶管动画风格(Rubber Hose Animation),一个长着手脚的闹钟正在疯狂殴打一个枕头,枕头在尖叫,画面有胶片噪点。

我们的体验发现在文生视频里,没有足够明确的提示词,很容易就得到 AI 味特别重的视频,尤其是在处理一些现实世界风格的内容。

为了避免 AI 生成这些写实视频,经常存在的恐怖谷效应,用元宝来生成一些 3D 卡通、像素和定格动画风格,可以明显减少抽卡的次数。同时,这些风格也是表情包常见的类别;而为了让表情包更有灵魂,我们也能让 AI 把文字也带上。

让照片动起来

相比于凭空生成,图生视频可能是这次 AI 视频生成里,大家更爱玩的功能。

上传一张手机里的静态照片,配合简单的指令,就能让画面动起来。尤其是相册里的一些废片,或者适合用来制作搞怪表情包的图片,这个功能就是为这些照片量身定做的。

例如这张静态的表情包,「这像话吗」,让这个阴阳怪气的 emoji 笑的更危险一点,我们输入的提示词只是「让照片动起来」。

元宝处理后的表情包,甚至比我发给他的原图,还要更清晰。

除了让一些已经是表情包的图片动起来,我们还可以用图片生视频的功能,自己做一个 GIF 的表情包。

我们找了一张经典的咸鱼手绘图。 在元宝 App 里面点击加号,上传图片,输入指令 「这条咸鱼试图翻身,但失败了,滑稽的动作,美漫风格」。

一些日常的照片,也可以一键发送给元宝,全部都能变成 5s 的动图。

这是我们昨天在未来社的活动照片,奖品展示区,挂着的这些公仔和背包,让它们都动起来了。

上传一张北京烤鸭的图片,然后输入「生成一段缓慢旋转拍摄,展示北京烤鸭的视频」,妥妥的产品展示。

还有经典的威尔.史密斯吃面环节,有点黑猫警长的感觉了,这「眼睛瞪得像铜铃」。不过图生视频对比文生视频,AI 的恐怖谷效应和不真实感,确实减少了很多。

文字、图片、音视频,元宝算是正式集齐了完整的全模态能力。对整个行业来说,可能这就是腾讯的一次大秀肌肉;对用户来说,最直观的是乐趣,这种 5s 的视频,或许最适合出现在评论区的各种 AI Meme,GIF 斗图大赛。

不需要从工具里面选择生图还是生视频、或者是编程做网页,用户只用一句话发送给元宝,它立刻就能 Get 到。

我体验下来最大的感受也是这样,元宝的 AI 视频生成能力,肯定不是目前市面上画质和内容最卷的,但它的入口和体验方式,一定是丝滑的。

▲在微信里,找到元宝联系人,可以直接生成图片,图为发送「生成一个线条小狗」后的效果

就像公众号文章的评论区,元宝的总结,有时候真谈不上有多么精辟和有启发性,但是我们就逐渐习惯了凡事都 @ 一下元宝。

视频生成也是这样,说不定哪天元宝就能在公众号文章的评论区,在微信联系人的对话里,用 AI 生成的 GIF 表情包和我们斗图。而这些,也只有元宝能做到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了

2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗?

▲ 图片来自 x@nvidia

前些天,黄仁勋正式把这台超算送到马斯克手上,而后也亲自去到 OpenAI 总部,送给奥特曼。从 CES 登场到如今落地,这台个人超算终于要来到我们手上。

▲官网发售情况,售价 3999 美元,也提供了华硕、联想、戴尔等七个电脑品牌的发售版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/

NVIDIA DGX Spark,一台个人 AI 超级计算机,目标用户是科研人员、数据科学家和学生等,为他们提供高性能桌面级 AI 计算能力,帮助他们完成 AI 模型的开发和创新。

听着很强大,但普通人能想到的玩法,无非还是:

  • 本地跑大模型:跟它聊天的内容只留在自己电脑里,绝对安全。
  • 本地搞创作:不受限制地生成图片和视频,告别会员和积分。
  • 打造私人助理:把自己的资料都喂给它,训练一个只懂你的「贾维斯」。

▲ 部分显卡租赁平台显示的 A100 售价为 7元/时

实际上,DXG Spark GB10 Grace Blackwell 超级芯片的能力,或许可以拓展它的应用场景,但是具体能做些什么?又做得怎么样?3 万块的售价,能租 4000 小时的 A100,你真会把它放在桌上跑跑大模型吗?

我们收集了目前网络上关于 DGX Spark 多个详细评测,试图在我们的实际体验之前,带大家看看这台设备,到底值不值 3 万块。

太长不看版:

  1. 性能定位:轻量模型表现出色,1200 亿参数的大模型也能稳稳跑起来。总体水平介于未来的 RTX 5070 和 RTX 5070 Ti 之间。
  2. 最大短板:273 GB/s 内存带宽是限制。算力足够,但数据传输慢。体验就像一个脑子转得飞快但说话结巴的人。
  3. 邪修玩法:用一台 Mac Studio M3 Ultra 来「辅佐」它。DGX Spark 负责快速思考,Mac Studio 负责流畅表达,强行解决「结巴」问题。
  4. 生态丰富:官方提供了超过 20 种开箱即用的玩法,从生成视频到搭建多智能体助手,AI全家桶都给你配齐了。

只比 Mac Mini 强一点点?

话不多说,先看数据。

▲ 每秒处理填充和解码的平均 token 数量,DGX Spark 排在 RTX 5080 后,图片由 ChatGPT 制作

DGX Spark 对比 Mac Mini M4 Pro 还是要强上不少,尤其是在 Prefill 阶段。但是在 Decode 阶段,优势就没有这么明显了。Mac Mini M4 Pro 在 DeepSeek R1 开源模型上的 TPS 能做到 17.8,而 DGX Spark 也才 33.1。

快速做个名词解释,来看看 AI 推理的两个阶段到底是什么

简单来说,当我们在 AI 聊天框里输入问题,模型生成答案的过程可以分为两个关键步骤:

1. Prefill(预填充/阅读理解阶段)

AI 拿到我们的问题后,快速阅读和理解你输入的每一个字(即提示词)。

这个阶段处理得越快,我们等待 AI 吐出第一个字的时间就越短,也就是常用来宣传 AI 能力的指标,首字响应时间,TTFT(Time To First Token, TTFT) 越短。

2. Decode(解码/生成答案阶段)

就像 AI 已经想好了答案,开始逐字逐句地打字输出给我们。

决定 AI 打字的速度,也就是我们常说的 TPS(每秒生成词元数)。这个数值越高,我们看到答案完整显示的速度就越快。

💡 Tips:什么是 TPS?

TPS 是 Token Per Second(每秒处理词元数)的简称,可以理解为 AI 的工作效率或打字速度。

Prefill 阶段的 TPS: 代表 AI 读懂问题的速度。

Decode 阶段的 TPS: 代表 AI 给我们生成答案的速度。


所以 DGX Spark 在给我们回答时,第一个字很快能出来,但是后续它的打字速度,很慢。要知道,Mac Mini M4 Pro 的价格才 10999 元,24GB 统一内存的版本。

为什么会这样?这项测试是由大模型竞技场的团队 LMSYS,在他们的 SGLang 项目和 Ollama 上,选择上图中六个不同的设备,运行多个开源大语言模型完成的。

▲ SGLang 是由 LMSYS 团队开发的高性能推理框架,FP8、MXFP4、q4_K_M、q8_0 是指大语言模型的量化格式,即对大模型进行压缩,用不同的二进制存储方式

测试的项目包括了 1200 亿参数的本地大模型,也有 80 亿的较小模型,此外 Batch Size 批次大小和 SGLang 与 Ollama 两种框架的差别,都会对 DGX Spark 的表现,产生不同的影响。

例如,评测团队提到,DGX Spark 在批次大小为 1 时,每秒解码的次元数只有 20 个,但是当批次大小设置为 32,每秒解码词元上升到 370。一般说,批次大小设置越大,每次要处理的内容越多,对 GPU 的性能要求越高。

而 DGX Spark 的 AI 能力,根据其所采用的 GB10 Grace Blackwell 芯片架构,以及 1 PFLOP 的稀疏 FP4 张量的性能,定位是在 RTX 5070 和 RTX 5070 Ti 之间。

所以开头那张显示结果的图,其实并不能全面的展示 DGX Spark 的能力,因为它平均了所有模型测试的结果。但不同批次大小的模型推理、以及不同参数的模型,它最终展示出的性能,都会有所不同。

综合来看,DGX Spark 的优点是:

  • 算力强:能处理大批量任务,AI 核心能力在 RTX 5070 级别。
  • 内存大:128GB 的海量内存,让它能轻松运行千亿级别的大模型。

但它的短板,致命且清晰——带宽。

Prefill 阶段拼的是算力(脑子快不快),Decode 阶段拼的则是带宽(嘴巴快不快)。

DGX Spark 的问题就是:脑子(算力)很快,但嘴巴(带宽)跟不上。

打个比方,它的数据通道就像一根细水管:

  • DGX Spark 用的内存是 LPDDR5X(手机和笔记本电脑常用),带宽只有 273 GB/s。
  • 作为对比,高端游戏显卡 RTX 5090 用的 GDDR7 内存,带宽高达 1800 GB/s,那是一根消防水管。

这就是为什么 DGX Spark 在打字阶段(Decode)表现平平的根本原因。

LMSYS 将评测的详细结果放在了 Google 文档中,我们把数据交给 Kimi 智能体,得到了一份详细的可视化报告,原始数据的预览,也可以点击 Kimi 预览报告下载选项获取。

▲ https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb

带宽限制?连接一台 Mac Studio 破解

带宽是短板,但已经有更极客的团队,找到了榨干 DGX Spark 全部算力的方法,那就是找一个带宽更快的桌面设备,Mac Studio M3 Ultra,利用其 819 GB/s 的速度,把大模型的推理速度愣是整体提升了 2.8 倍。

拿到两台 DGX Spark 早期访问权限的 EXO Lab,就直接把大模型推理的 Prefill 和 Decode 两个阶段,分别给了 DGX Spark 和 Mac Studio 来承担,这又叫做 PD 分离。

和我们之前介绍的预填充、解码两个阶段一样,一个依赖算力,一个依赖带宽。如上图所示,黄色代表预填充阶段,它决定着 TTFT,首个次元生成时间;而蓝色代表解码阶段,它决定了 TPS,每秒生成的词元数。

▲ EXO Lab 的做法就是将 Decode 交给 Mac Studio。

但 PD 分离的实现也不并不简单,EXO 团队要解决的还有一个问题,如何将 DGX Spark 设备上,预填充阶段生成的内容(KV 缓存),传输到处理解码的设备上。

这部分数据量很大,如果两台设备之间,传输时间太长,甚至可能会抵消性能提升的效果。

EXO 的答案是:流水线式分层计算与传输。DGX Spark 在处理第一层预填充时,计算出的 KV 缓存会立即开始传输给 Mac Studio,而 DGX Spark 则继续进行第二层的预填充工作。

这种分层流水线的方式,能让计算和数据传输的时间完全重叠。最终,当所有层的预填充完成,Mac Studio 已经拿到完整的 KV 缓存,可以立即开始解码。

虽然这套方案,在某种程度上解决了 DGX Spark 带宽限制的问题,提升了 3 倍的速度,但是费用也涨了 3 倍。两台 DGX Spark 和一台 Mac Studio M3 Ultra 的费用,快接近 10 万元人民币。

如果还是用来跑一个本地大模型,未免太过于杀鸡用牛刀。

性能评测之外,还能做些什么

273 GB/s 的带宽,也并不是 DGX Spark 的全部,128GB 的统一内存,用在数据中心级别的 GB10 架构显卡,支持每秒一千万亿次计算(1 Petaflop),以及桌面级设计,都有机会拓展它的应用场景。

我们在 YouTube 上找了一些博主的开箱和上手体验视频,一起看看这台优点和短板都很明显的设备,可以做点什么。

本地 AI 视频生成

生文模型现在基本上都免费使用,但是生视频的模型,大多数都需要充值会员,或者积分制。

博主 BijianBowen 利用 ComfyUI 框架,以及阿里的 Wan 2.2 14B 文本到视频模型,直接根据 DXG Spark 官方的 Playbooks(操作指南),配置了一个视频生成项目。

▲ NVIDIA DGX Spark – 非赞助的评测(与 Strix Halo 对比、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg

在视频生成过程中,他提到即使命令后显示 GPU 的温度已经达到了 60-70 摄氏度,但是听不到一点噪音,风扇转动的声音也没有。

▲大部分博主有提到,DGX Spark 确实比较「安静」,设备拆解相当工整,来自 storagereview.com

除了用在视频生成和图像生成的 ComfyUI 提供了在 DGX Spark 上操作的指南,还有在本地运行大模型的桌面工具 LM Studio,也发布了博客提到支持 DGX Spark。

工具调用,搭建多智能体聊天机器人

Level1Techs 分享了自己用 DGX Spark 并行运行,多个 LLMs 和 VLMs,来实现智能体之间的交互。

▲ 深入探讨英伟达的 DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw

得益于 128GB 的大内存,他可以选择 1200 亿参数的 GPT-OSS、67 亿的 DeepSeek-Coder、以及 Qwen3-Embedding-4B 和 Qwen2.5-VL:7B-Instruct 四个模型,来处理不同的任务。

这个项目也是 Nvidia 官方提供的指南,在他们官网,提供了超过 20 种玩法,并且每一种用法,都给出了预计需要的时间,以及详细的步骤。

▲ https://build.nvidia.com/spark

像是搭建一个文本到知识图谱的系统,把非结构化文本文档,转换为结构化知识结点。

视频搜索和摘要总结。

我们在 Reddit 上也发现一些拿到了 DGX Spark 的用户,开启了 AMA(Ask Me Anything) 活动。博主分享了自己的测试结果,同样提到 AI 能力对标 RTX 5070。还有有人问,是否可以运行一波 Karpathy 新推出的 nanochat 项目。

后续应该还会有更多 DGX Spark 的基准测试结果,和更全面的使用指南更新,APPSO 的 DGX Spark 正快马加鞭赶来。

DGX Spark 的存在,看起来更像是 AI 狂飙时代下的一个实验,一台数据中心级算力的桌面机器,试探着我们对本地 AI 的幻想边界。

真正的问题除了 DGX Spark 能不能跑,还有当我们每个人都能拥有一台超算时,我们可以拿它做什么。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana Pro保姆级指南!全网最火玩法+官方7大技巧+免费渠道,都在这了

The Information 今天独家报道了上个月,奥特曼在 OpenAI 内部发的备忘录,里面提到奥特曼说,Google 在 AI 领域的最新进展,可能会给公司带来一些暂时的经济阻力。

现在看来,不是可能有阻力,是已经感受到了压力了。互联网时代就是老大哥的 Google,很明显要把 OpenAI 拉下来,继续做 AI 时代的 No.1。

Gemini 3.0 Pro 的热度还没散去,宇宙「最强」图像模型 Nano Banana Pro,就水灵灵地端上来了。

距离出场就惊艳到大家的第一代版本,才刚刚过去了三个月不到。

这次的更新,一致性保持更强、世界知识也同步到 Gemini 3.0 Pro,多模态理解和推理能力都得到了大幅度的提升。

之前的桌面手办放到现在都成了「图一乐」,如今的 Nano Banana Pro 升级方向更加明确地,往效率工具上靠近,网友们拿它创建和编辑各种复杂的视觉效果,生成内容准确、布局优雅的信息图表。

我们挖掘了多个网上热门的玩法,和 Google 官方给出的使用指南,来榨干 Nano Banana Pro 的全部能力。

把文章转成风格化的信息图

由于长文本渲染的能力增强,目前网上热门的测试,都是生成各种各样的信息图,有密密麻麻的知识解说类,还有写满一黑板、一墙壁的经典古诗词,或者数学题解答等等。

例如下面这个把我们输入的文字,原封不动的转成一本杂志的内容。

▲图片来源:X@fofrAI|提示词:Put this whole text, verbatim, into a photo of a glossy magazine article on a desk, with photos, beautiful typography design, pull quotes and brave formatting. The text: […the unformatted article]

还有网友直接丢给他一个 Markdown 文档或者 PDF,然后跟 Nano Banana Pro 说,将这个文档转成信息图,就得到了一个设计友好、信息准确的图片。

评论区都在说,插画师的时代,是不是也要结束了。

▲图片来源:X@tobi|提示词:Make this markdown transcript into a infographic

因为 Nano Banana Pro 现在能使用谷歌搜索,并且推理和理解能力都有了大的提升,所以在生成信息图上,如果没有太严格的要求,直接告诉它要做一个什么主体的信息图就能实现,不需要纠结太多提示词的结构。

▲提示词:生成一张 2026 年中国放假安排的信息图,全部使用中文,4K画质,16:9

例如,当我们要他生成明年的节假日信息时,我看到 Gemini 里面给我的回复,有明确的使用 Google 搜索获取的信息结果,即多个官方的公告网页链接。

还有很多好看的信息图测试,网友们的提示词也比较简单,基本上都是「帮我生成一个xx的信息图」。

一张有趣的繁忙城镇信息图,展示动物们在繁忙城镇中上班的情景,并介绍它们从事的不同工作。

▲图片来源:X@unsoldwill|提示词:Make a fun busy town infographic of animals going to work in a busy town showcasing different jobs.

一张 Stephen Biesty 风格的双层神经网络图。

▲ 图片来源:X@jon_barron|提示词:Generate a diagram of a two-layer neural network in the style of Stephen Biesty

这位网友还把这张图片丢给 Google 的 Veo 3.1,让它动了起来。

将内容繁杂的文档,转换成清晰、可扫描的白板式信息图。

▲图片来源:X@denilgabani|Convert the attached research paper into a single whiteboard-style image. Break down all key concepts, diagrams, insights, and relationships in a way that is easy to understand at a glance. Add clear visual notes, arrows, highlights, summaries, and clever student-style annotations so I can quickly grasp the full paper and take notes from it.

生成精彩的连环画

结合长文本渲染和强大的一致性保持,除了渲染文本较多的信息图,Nano Banana Pro 用来制作连环画是再合适不过,并且,它现在支持在一次请求中,生成多张照片。

有网友只是上传了一张图片,然后输入「根据这张图片创作并绘制一个多格漫画」的提示词,就得到了多张自己写好剧情的漫画,并且他还在继续更新后续的情节。

▲ 图片来源:X@DeryaTR_|提示词:Create and draw a multi-panel comic based on this image.

还有只是提示说,生成几页以某个人的生活为主角的漫画。Nano Banana Pro 就能启用网络搜索,检索这个人的信息,还找到了他的 X 账号,根据他的 X 账号发布的内容信息来生成漫画。

▲图片来源:X@skirano(Pietro Schirano)|提示词:Generate a few pages of comic starring the life of Pietro Schirano

如果你也有公开的社交媒体平台,不妨试试让 nano banana 也生成过去一周你的生活漫画。

我们试了试让 Nano Banana Pro 生成马斯克和奥特曼的生活漫画,在 Gemini 网页版里,它一次性给了我们三张图片,漫画的内容可以看出,它确实是有世界知识在的。

▲ 提示词:生成几张以 Elon Musk 和 Sam Altman 的生活为主角的真人漫画图片,全部用中文

至于之前一代的 Nano Banana 玩的那些一致性,现在的 Pro 版本一样表现出色。像是给一个模特穿上不同的衣服,保持模特和衣服不变;还有像是把一些 Logo 放到不同的周边上,或者对现有的产品图,进行一些小元素的替换,Nano Banana Pro 的表现都很好。

在 Google AI Studio 的官方案例中,也给出了多个信息图生成、和漫画制作的实例,它们搭建了多个利用 Nano Banana Pro 模型的项目。

▲体验地址:https://aistudio.google.com/apps?source=showcase&showcaseTag=nano-banana

其中一个是我们只需要上传一个文章链接,他就能生成四种不同风格的信息图,包括趣味型、简洁型、暗黑科技风和现代编辑部风。还有只是丢给它一个模糊的概念,或者一个主题,就能为我们生成一张风格迥异的信息图。

▲项目介绍 Demo

4K 壁纸的生成,街机游戏的真人体验,以及更符合品牌使用的各种 Logo 贴图小工具等,在 Google AI Studio 上都有提供现成的项目。

▲下着雪的金门大桥 4K 壁纸

我们用「无限英雄」这个小项目生成一段马斯克和奥特曼的连环画,在预览连环画的过程中,我们还能选择剧情的走向,来决定接下来的漫画内容。

▲生成的漫画下载后是 PDF 文件

不过目前 Nano Banana Pro 模型 API 并不是免费调用,所以 AI Studio 的这六个项目,都需要绑定支付方式才能使用。

但是,这些项目都提供了源代码,我们可以在他们的基础上进行修改。通过查看背后的代码,也能看到背后的提示词。

我们提取了其中一个项目的提示词,即输入链接生成四种风格的信息图。

首先我们可以使用下面的提示词,来对网页链接的内容进行总结,将其中的 ${url} 替换为实际的,需要分析的文章链接。${language} 则可以直接替换为 Chinese,以中文呈现。

You are an expert Information Designer. Your goal is to extract the essential structure from a web page to create a clear, educational infographic.
Analyze the content at this URL: ${url}
TARGET LANGUAGE: ${language}.
Provide a structured breakdown specifically designed for visual representation in ${language}:
1. INFOGRAPHIC HEADLINE: The core topic in 5 words or less (in ${language}).
2. KEY TAKEAWAYS: The 3 to 5 most important distinct points, steps, or facts (in ${language}). THESE WILL BE THE MAIN SECTIONS OF THE IMAGE.
3. SUPPORTING DATA: Any specific numbers, percentages, or very short quotes that add credibility.
4. VISUAL METAPHOR IDEA: Suggest ONE simple visual concept that best fits this content (e.g., “a roadmap with milestones”, “a funnel”, “three contrasting pillars”, “a circular flowchart”).
Keep the output concise and focused purely on what should be ON the infographic. Ensure all content is in ${language}.

得到这一部分的文章总结后,我们就可以开始图像生成。

Create a professional, high-quality educational infographic based strictly on this structured content plan:
${structuralSummary}
VISUAL DESIGN RULES:
– ${styleGuidelines}
– LANGUAGE: The text within the infographic MUST be written in ${language}.
– LAYOUT: MUST follow the “VISUAL METAPHOR IDEA” from the plan above if one was provided.
– TYPOGRAPHY: Clean, highly readable sans-serif fonts. The “INFOGRAPHIC HEADLINE” must be prominent at the top.
– CONTENT: Use the actual text from “KEY TAKEAWAYS” in the image. Do not use placeholder text like Lorem Ipsum.
– GOAL: The image must be informative and readable as a standalone graphic.

图像生成的提示词比较简单,我们把之前文章链接分析的结果,替换掉其中的 ${structuralSummary} 部分;然后 ${styleGuidelines} 的选择,可以从官方项目中,提到的四种风格里面任选一个。

有趣且充满玩乐的风格 Fun & Playful:styleGuidelines = STYLE: Fun, playful, vibrant 2D vector illustrations. Use bright colors, rounded shapes, and a friendly tone.

简约极简风格 Clean Minimalist:styleGuidelines = STYLE: Ultra-minimalist. Lots of whitespace, thin lines, limited color palette (1-2 accent colors max). Very sophisticated and airy.

深色模式科技风Dark Mode Tech:styleGuidelines = STYLE: Dark mode technical aesthetic. Dark slate/black background with bright, glowing accent colors (cyan, lime green) for data points.

现代编辑风 Modern Editorial:styleGuidelines = STYLE: Modern, flat vector illustration style. Clean, professional, and editorial (like a high-end tech magazine). Cohesive, mature color palette.

照着这种方法,我们把 Nano Banana Pro 发布的那篇文章丢给 Gemini,得到了下面这几张信息图。

官方下场,7 个生图技巧

除了用这种已经写好的提示词,Google 也是煞费苦心给了一份详细的 Nano Banana Pro 使用技巧,一方面是生怕我们不会操作,导致对模型的误会。另一方面,其实 Google 是希望 Nano Banana Pro 不单只是一个用来玩玩的生图模型,他们真的期待能提升我们的生产力。

提示词的重要性,对于要获取精准控制的内容来说,除了模型自身的能力,剩下的决定因素就是它了。Google 再一次提到,一个好的提示词,要明确的包括主题、构图、动作、地点、风格、和编辑说明。

用简短的语言描述画面的主体,例如,具体说明图片中的人或物是什么?在构图上,告诉模型,照片是如何取景的?是特写、广角镜头、低角度镜头、还是人像镜头等。

▲举个例子:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,照片写实主义

接下来是描述动作,画面的主体正在发生什么?以及是在哪里发生,描述具体的场景。最后再确定我们想要的照片风格,例如,3D 动画、黑色电影、水彩画、照片写实主义、20 世纪 90 年代产品摄影等,不同的整体美学风格选择。

如果追求更可控的生图效果,Google 还提到了可以进一步完善相机、灯光和格式等细节,精细化提示词的内容。

例如现在的 Nano Banana Pro 支持自定义构图和宽高比,我们可以选择 9:16 竖版海报,21:9 电影宽镜头等画面。

此外,在摄影和灯光细节上,Google 给的参考提示是,像电影摄影师一样指导拍摄,具体的用词可以尽可能专业化,例如,「低角度拍摄,浅景深(f/1.8)、黄金时段逆光,营造长阴影、电影级调色,采用柔和的蓝绿色调」;等提示词用语。

▲举例:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,浅景深(f/1.8)、黄金时段逆光营造长阴影、电影级调色,采用柔和的蓝绿色调。照片写实主义。21:9 电影宽镜头。标题「猫猫施法」以可爱的彩虹字体显示在顶部。

在针对文本处理任务时,需要明确说明,某段文本的内容和显示位置,以及这段文本对应的字体。针对图表信息图,要在提示词里面,明确告诉模型对准确性的要求,并且确保自己的输入时正确的。

涉及到多图参考和图像编辑,需要明确告知模型每张图片的作用,以及具体需要编辑的地方。

掌握了提示词公式只是基础,接下来就是一些官方推荐的,Nano Banana Pro 具体的应用场景。

1、让 AI 真的「写字」,而不是画鬼画符。以前 AI 画图最怕出现文字,出来的都是乱码,新模型在文字渲染上有了巨大提升。我们可以直接要求它生成海报标题、复杂的图表、或者详细的模型说明。

▲ 提示词:制作一张信息图,用中文展示如何制作老北京豆汁儿。

2、它是懂物理和历史的。基于 Gemini 3 的推理能力,这个模型拥有更丰富的世界知识,它可以生成逻辑严密的图表,或符合历史事实的场景。

3、最多支持 14 张图!超级融合大法。这大概是新模型最强悍的功能之一。它允许我们输入 6 到 14 张(具体数量可以要看不同的平台)完全不相关的图片,让 AI 将它们融合创造出全新的画面。

利用多图输入功能,我们可以让同一个角色,在不同场景中保持面部和特征的一致性,甚至是在群像中也能保持相似度。这非常适合去做一些连环画或者分镜。

▲提示词:将这些图像组合成一张 16:9 格式的适当排列的电影图像,并将模特身上的裙子换成图像中的裙子。

4、精确调整大小。尝试不同的宽高比,并在各种产品上生成 1K、2K 或 4K 分辨率的清晰视觉效果。

5、「指哪打哪」的精准修图。Google 把这叫做工作室级别的控制编辑,实现更专业的效果。

6、品牌设计神器:自动贴图。对于设计师来说,和初代 nano banana 相比,它的一致性保持能力更强。品牌公司可以让 AI 将对应 Logo、图案或艺术作品印在 3D 物体上,同时贴上去的 Logo,会自动调整到原图自然的光影和纹理。

7、跨语言无缝翻译,它不仅是一个生图工具,还能直接「翻译」图片里的文字。

▲提示词:将三个黄蓝罐头上的所有英文文字翻译成韩语,其他内容保持不变。

虽然 Nano Banana Pro 很强,但在官方文档里,他们也坦诚地列出了一些目前的局限性,大家使用时可以留意一下。主要是一些极小的文字渲染、复杂的拼写有时还是会出错。

另外,如果你用它生成数据图表或信息图,他们也提醒,一定要人工核对数据。AI 虽然有逻辑,但偶尔也会一本正经地胡说八道,毕竟 AI 幻觉有多严重,我们都有目共睹。

最后是在进行一些极其复杂的光照改变,或图像融合时,生成的图片,偶尔会出现不自然的伪影。

目前该模型已在 Gemini App 和 Gemin 网页版上线,而在 AI Studio 和 Vertex 平台则需要使用付费 API 才可以体验。

我们还搜集了一些能点开即用的平台,不需要付费订阅,和复杂的网络设置。

  • 海螺 AI(国内版 hailuoai.com,国际版 hailuoai.video)
  • Flowith(flowith.io、flowtith.net)
  • PixVerse(国内版 pai.video,国际版 pixverse.ai)
  • youmind.com(限时免费一周,注册就可用)
  • lovart.ai
  • banana.listenhub.ai
  • higgsfield.ai/image/nano_banana_2(免费用户每个月有 10 积分,每张 Nano Banana Pro 图片消耗两个积分)

感兴趣的朋友,不妨拿着上面的公式去试一试,新鲜有趣的玩法也欢迎在留言区评论。

最后,小彩蛋一个,The Beatles 这张经典的专辑封面照片,奥特曼、马斯克、老黄和小扎都来我们未来社「拍摄」了同款,这周末的 APPSO AIDONE 活动,你确定不来看看吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sora 想做的 IP 内容生态,这个国产 AI 已经先走了一步

今年不少出圈的 AI 视频,基本都有一个共同点:套了个熟悉的 IP 壳

宫崎骏风格的短片、宝可梦版的日常场景、AI 重制的海贼王和龙珠——只要 IP 够经典,AI 生成的内容就能从「电子垃圾」秒变「同人创作」,评论区瞬间炸开。

Sora 2发布后,Sam Altman 还专门发推说,这些视频应该被理解成「互动式同人小说」。这话说得挺聪明,既规避了版权的坑,也点出了 AI 视频的真实处境。

AI 视频和 IP的结合,现在正卡在一个很微妙的位置:用户想玩,品牌怕乱

这个矛盾不解决,AI+IP 就永远只能是小打小闹。

最近几个月,海螺 AI 和蜜雪冰城、青春有你 3 成员、以及一些原创 IP 的合作,给出了一些不一样的思路。

这些合作有一些共同的底层逻辑:授权是明确的,创作是可控的,用户玩得也确实开心

AI 公司在这里不只是生成工具,它还在同时管授权、引导创作、连接用户和品牌。

用户也不再只是看 IP,而是能进到 IP 里面去玩。这件事如果做成了,IP 的价值可能会被重新定义。

雪王大战东方明珠,我也可以做一个

如果要评一个最愿意把 IP 放到网上乱跑的品牌,蜜雪冰城大概永远不会掉队。前段时间在 B 站霸榜的雪王大战东方明珠,以及一连串雪王防御战、四大门派围攻东方明珠……都是网友随手一玩就能冲上热门的那种内容。

▲ 视频来自百变雪王大赛,创作者@小龙问路

对大多数品牌来说,蜜雪冰城算是最能读懂互联网的那一类。它很知道,雪王这个角色的生命力,不靠广告,不靠代言,靠的就是用户玩出来的那堆梗。而蜜雪冰城 × 海螺 AI 的「百变雪王杯」视频大赛,恰好踩中了这种互联网的创作方式。

海螺没有拍一条雪王广告给你看,而是用 AI 直接把雪王 IP 的「玩法」开放了。你想让雪王去旅游?行。想让它进剧情?也行。想把它变成下一个段子的主角?随便。

换句话说,雪王从一个被展示的角色,变成了一个可以被接着玩的入口

▲ 活动目前在获奖公示阶段,但雪王相关的创作,相关模板可以继续使用

以前买一个雪王手办,我们得到的是所有权。它被放在桌上、玻璃柜里,价值是静止的。现在用海螺的 AI 模板做一个雪王短片,我们获得的变成了参与权。在很多年轻用户的消费账单里,这种能被自己动手改写的体验,往往比实物本身更上头。

而为了让这件事成立,海螺和蜜雪冰城之间的授权方式其实相当克制,给到的是形象图,允许在模版中生成并创作,但整个创作行为都保持在一个清晰、可控的框架里。

例如,在官方发布的联合 PV 里,海螺用自己的 Hailuo02 视频生成模型、首尾帧技术,让雪王形象在任何生成内容中都保持一致性,动作自然、表情真实。

▲ 正值全运会,让雪王来个 109B,向前翻腾四周半屈体,用户可以选择海螺最新的 Hailuo 2.3 视频生成模型;图为海螺 Media Agent 生成页面,支持无限画布

这让品牌放心开放,也让我们放心玩耍。

而海螺 AI 推出的雪王视频模板,本质上是一整套雪王创作工具包。用户每点一次、改一个姿势,都在创造属于自己的数字周边。它的价值,也从普通的视频「被观看」,变成了比买十个雪王手办更能让人上头的「被使用」。

▲ 在海螺 Q版童趣页面,可以直接体验百变雪王模板,体验链接:https://hailuoai.com/generate/ai-agent/436634640615985161

此外还有百变雪王杯创意大赛的线下门店宣传、PV 联合官宣、官方回顾展示……每个环节都在告诉用户,这份创作不是我们的自嗨,是同样值得被留下来的纪念

在这种机制下,IP 不再躺在博物馆里等待被仰望,它像一盒乐高,等待被用户重新拼搭出新的可能性。

过去几年,品牌追求的是调性统一。AI 时代,现在要学会的是容忍一千种民间版本。用户玩出来的梗,有时候比官方物料更有生命力

海螺在这里的角色,就是让这「一千种民间版本」保持在一个健康、合法、可持续的范围里。不侵权、不撞车、不乱、不让用户背锅

在如今的 AIGC 环境里,这四件事都极其稀缺。

追星的终极形态,是被偶像看见

但让用户参与只是第一步。参与要真正变成创作力,需要一个关键动作:用户的作品能被官方看见、被认可、被用起来。

在 11 月初举行的「天天爱白日梦」限定演出,就是海螺 AI 在娱乐领域以及 AI + IP 合作上,一次更激进的实验。

来自综艺青春有你 3 天天组的五位成员,第一次对粉丝的 AI 视频现场 Reaction,全场都炸了。

▲ 来自综艺《青春有你3》的天天组,DayDay 兄弟团,陈俊宇、刘琦、时尚、魏宏宇、杨昊铭,在海螺天天爱白日梦活动现场

如果说雪王杯是让用户的作品进入了公共舞台,那么和艺人的合作,则把用户的 AI 创作第一次推向了商业级的线下场景

以前的追星规则很简单,买票,看人,灯光越好,舞台越大,你离偶像越远。但现在的粉丝,渴望的是另一种关系,不只要看见偶像,更想被偶像看见

这场合作就抓住了这一代粉丝,最细微也最强烈的心愿。粉丝在家用海螺做的 AI 视频,各种离谱剧情、集体跳「明月几时有」的整活、还有「骑牛」的玩梗,最后都被投上了演唱会的大屏,艺人抬头看到自己的二创,观众在下面尖叫。

更让人意外的是,他们还模仿了一遍粉丝视频里的动作和装扮,在台上真人复刻了一遍 AI。那种作品被继续、被回应的瞬间,普通工具给不了,也是传统演出永远给不了的回馈机制。

▲ 粉丝玩了好几年的刘琦「骑牛」梗,通过海螺 AI 生成了视频,投放到大屏,还被正主模仿

而 AI 也成了活动的主角,整个活动现场的视觉全部由 AI 生成,包括活动主视觉、开场视频、每首歌的现场大屏画面,都是通过海螺 AI 生成。艺人方授权形象、声音与 BGM,海螺做一套独家的视频模板。粉丝们则在海螺上,用这些元素创作短视频,就像是和偶像合拍了一支 MV。

就像活动现场那些让人笑出声的整活视频一样,海螺 AI 没打算做太多的限制。不设置所谓的「高级感」门槛,也不限制风格;在这个舞台上,用户的脑洞才是唯一的规则。

▲ 海螺 AI 上艺人全网独家 AI 模板,用户可使用艺人形象和声音,在活动期限内生成 AI 视频,目前活动已结束

这场合作里,AI 已经不是单纯工具的角色。粉丝做视频,艺人能看到;艺人有反应,粉丝能感受到。这条线,以前是断的,现在接上了。

品牌、AI、艺人、粉丝,构成了一个四边形的情感闭环。追星不再是单向的,也不再是遥远的。

当技术超出工具的范畴,开始重塑人和人之间的关系时,粉丝经济的玩法,可能真的要变一变了。

下一个 AI 视频主理人

当用户的表达能力、参与能力被系统性打开之后,下一件自然发生的事情就是:有人开始原创

这类创作者,我们在各个平台都能看到一点影子,他们不满足于做梗图、玩段子,更想把故事讲完整。

而海螺的作用,也从提供参与工具,变成了提供原创孵化的土壤。听上去有点夸张,但这些事确实已经发生了,国风系列短片、短剧《白咒》,就是最典型的两个例子。

▲ 海螺近期的人生电影活动,鼓励用户用 AI 创作自己的电影大片

先说国风系列,国风某种程度上,本身就是一个热门 IP,但能合适的用好国风这个概念并不容易。海螺 AI 视频在这系列有《花木兰》、《聊斋志异:燕赤霞》、以及《聊斋燕赤霞Ⅱ:猫将军》多部短片作品。

其中花木兰,获得北京电影学院动画学院奖评委会特别奖、聊斋燕赤霞也拿到了腾讯视频首届「AI 短片创作大赛」二等奖。

这套作品摆脱了传统的玩梗二创,努力在影像表达上做到一些真正的新原创设计。创作者在海螺 AI 的能力基础上,把构图、灯光、叙述节奏、镜头语言都重新组织了一遍,做出了具有统一审美、统一叙事风格的成片。

▲获奖作品《花木兰》,由海螺 AI 生成,来自光影几何(海螺超创@猫大人爱睡大觉),视频链接

再看短剧《白咒》,这部短片是今年上半年 4 月份发布的,使用的模型还是 Hailuo 1.0 系列,但仍然在社交媒体上引起了大量讨论。AI 视频早期常见的问题,在这个六集短片《白咒》里都有,但创作者的表达欲和风格探索,却在这些限制中显得更突出。

对于这类创作者来说,工具并不是全部。他们需要从能生成,到能发布,能进入更大舞台。海螺在这条链路上,做的是把创作者遇到的阻力降低,从生成工具,到赛事合作,再到寻找商业落地机会。

▲海螺 AI 短剧《白咒》已经在优酷上线

十月份最新发布的 Hailuo 2.3,在肢体动作、风格化、微表情等部分已有明显提升。大模型竞技场文生视频榜单,以及 artificial analysis 的统计,MiniMax 的 Hailuo 02 和 Hailuo 2.3 都保持在国产 Top 3 的行列。

首尾帧、智能分镜、角色一致性……这些原本属于电影工业的能力,现在落在个人创作者手里。当专业创作的门槛被技术拉平,个人作品和商业内容之间的界线,也开始变得模糊。

在这些 IP 合作案例里,海螺不只是帮用户表达一个想法,更像是在帮他们把想法变成作品,把作品变成可以被看见、被记住的东西。

一个创作者,在这里能经历的,是从参与→共创→被认可→原创孵化→作品产品化,这条在 AI 时代才可能走通的路径。

以前 IP 是被品牌方创造出来的,现在可能是被用户玩出来的。海螺在做的,就是把这条路铺得更平一点。

过去十年的内容生态像一座剧场。创作者在台上,观众坐在台下,彼此的距离由生产和消费的分工维持。几乎所有商业模型、平台规则、作品标准,都建立在这条界线上。

但 AI 正在悄悄拆掉这堵墙。

从雪王,到明星演出,再到原创孵化,海螺AI的这些合作案例证明了一件越来越清晰的事:AI 带来的最大机会,不只在于效率,而在于把消费者关系重写一遍。

年轻人要的,不是拥有某样东西,而是进入某件事里。

品牌向用户敞开参与的大门,用户的创造力就能变成品牌资产的一部分。创作者被技术托住,他们的作品就能变成新一代的文化原点。IP 与 AI 的合作不再是冒险,而是在共同完成一场更大的叙事。

这条路能不能走通,现在下结论还早,但至少有像海螺 AI 这些产品开始在试了。

当「参与」本身开始变得比「拥有」更值钱时,整个内容产业的游戏规则,可能真的要变了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

AI 编程火了这么久,无论是开发者还是我们普通人,都能让 AI 来帮忙做个小游戏、捣鼓点小工具。

有时候还真别说,那些 AI 做的小玩意,的确能起到点作用。很多读者也经常在留言区评论,现在最好的编程模型是什么?

Claude 4.5 + Cursor 自一直是很多开发者的首选,但它们由于种种原因对中国用户都不太友好,结果是花同样的钱开会员,有可能很多模型都用不了。

好消息,这次我们不会被「卡脖子」了。

昨天,字节发布了他们的编程工具,TRAE 3.0,我们体验了一下,在某种程度上,TRAE 可以说就是一个国产版 Cursor,甚至部分功能做得比 Cursor 还要好。

其中,最核心的功能 SOLO 模式,是之前所有同类产品,没有探索过的 AI 编程工具形态。它提供了 SOLO Coder 和 SOLO Builder 两个智能体,一个针对专业的开发者用户,处理复杂的项目开发问题;一个针对个人和小团队,真正做到一句话做个产品,能上线发布的产品。

这两个 SOLO 智能体,把过去传统软件开发,涉及到的全部工作基本都包揽了。目前 SOLO 模式正在限免期,前往 trae.ai 下载安装,登录之后就能免费体验到 15 号。

限免期之后,TRAE 的会员计划也比 Cursor 更良心,首月是 3 美元,次月开始 10 美元。和免费用户的区别就是在模型调用、快速响应上的额度分配不同。

SOLO 模式,让编程更加 Vibe

SOLO 模式其实最早是在 TRAE 2.0 的时候推出的,当时只是用来快速生成一个应用。而更新的 TRAE 3.0 版本中,是把快速生成的应用,能做得更复杂,还给专业开发者带来了更高效的功能。

之前,我们使用大多数的编程产品,或者就是要 ChatGPT、Gemini 这些通用助手,来进行 vibe coding。

本质上还是,我们单纯地跟模型进行对话,解决某一个具体的问题,最后的产出也比较有限,一般就是一个我们看都看不懂的代码文件,点个预览就够了。

但现在,TRAE SOLO 模式改变了过去传统的开发工具、或者 AI 聊天编程产品的形态。它整体的布局更像一个大模型助手的智能体界面,没有了中间的代码编辑器,最左边也不是文件管理器,而变成了任务列表。

SOLO Coder:面向复杂项目开发

TRAE 提供了 Coder 和 Builder 两个选项,SOLO Coder 主要是针对复杂的项目开发,更专业的应用场景。一般是我们有现成的项目,可以通过 Coder 来完成一些项目迭代、Bug 修复和架构重构等。

我们选择了一个 GitHub 上的开源项目,动辄上千上万行的代码,根本看不懂。然后直接问他有没有什么更好的网络结构等组件,可以让这个方法的效果更好。

▲ 指令下达后,直接开始执行,帮我完成各种包的安装,实时跟随会自动切换不同的工具面板。

前几天我刷社交媒体,看到有人在问,大家在 vibe coding 等结果的过程中一般做什么。

有人说真正的 Vibe 是应该打开手机开始刷视频,也有人说会盯着 AI 的每一步操作,防止它莫名其妙删库跑路,还有说再开一个 Agent 来执行其他任务。

SOLO 模式似乎也考虑到了这一点,在任务处理过程中,是可以多任务并行的,意思是我们可以同时执行多个项目。同时,SOLO 智能体在调用不同的工具过程中,会可视化全部的工具调用流程、自动切换不同的工具面板,TRAE 把这一点叫做「实时跟随」

和 TRAE 2.0 会显示当前使用的模型不同,在 Claude 彻底断供之后,TRAE 3.0 在 SOLO 模式下,只会显示 Max 模型,且不能自定义选择模型

SOLO Builder:从零构建一个应用

SOLO Coder 还是有点太专业了。另一个智能体,SOLO Builder 在某种程度上,则是一款很典型的 vibe coding 产品,和我们之前分享过的 Lovable 一样,它主打的是从零开始,一句话构建一个产品。

但不同的是,SOLO Builder 能凭借 TRAE 自身强大的开发环境,真正做出一个大规模可用的产品,不会停留在做一个小玩意路线上。

一款应用从构思到最后真正上架到 App Store,中间要完成的需求分析、UI 设计、系统环境等等,都可以在 SOLO Builder 中,通过 AI 来完成。TRAE 提供了包括编辑器、文档、终端、浏览器、Figma、智能体、MCP在内的多个工具。

▲ 开始写项目需求文档和技术架构文档

通过调用不同的工具,仿佛真的有一个助手在操作我们的电脑:在写清楚产品需求文档后,默默地又开始写代码来实现,最后再自己测试代码、部署整个项目;把产品经理、程序员、测试、运维的活全干了。

我们输入了一个需求,是让它做一个摸鱼 APP。得到了对应的文档之后,SOLO Builder 不会立刻执行,而是让我们先确认这个计划是否可行。此刻我们就是项目经理,告诉 AI 来 Align(对齐)一下颗粒度,不行就要 AI 再回去修改文档。

在 SOLO Coder 智能体,同样有「Plan 计划」的开关,先让模型规划怎么做,我们再确认。

一切顺利,我们得到了最后的摸鱼 App,TRAE 还贴心的提供了一个推荐操作,让我们把项目部署到 Vercel(托管网站的平台)上,而不仅仅是本地访问。

不过,SOLO 模式目前还只在国际版推出,国内版本可以通过加入候补名单,等待上线。

▲候补链接:https://www.trae.cn/solo

豆包编程模型,TRAE 的国产版核心

虽然国内版本还没有 SOLO 模式,但是字节最新的豆包编程模型,已经在 TRAE 国内版上线了。

▲Doubao-Seed-Code 生成的技能五子棋页面截图

Doubao-Seed-Code 是字节这周二发布的一款全新模型,它专门在 Agentic 智能方面,进行了深度优化;在多个编程相关的基准测试中,表现结果全面领先国产的同类模型;此外,它的输入输出还做到了国产模型的最低价。

用直观的例子说明,在相同 Tokens 数量的任务下(0-32k 输入区间),Claude Sonnet 4.5 完成需要约 4.05 元,GLM-4.6 要 0.77 元,而 Doubao-Seed-Code 的成本是 0.34 元。

▲配合字节的 TRAE 编程产品,在 SWE-Bench 上的得分更高;以及使用成本更低

Doubao-Seed-Code 的亮点还包括,它支持最高 256K 的上下文长度,能应付一般的长代码文件。它也是国内第一个支持视觉理解能力的编程模型;通俗点讲,就是不用自己口头描述做什么,一张设计稿、截图,就能自动生成对应的内容。

模型提供的 API 调用,支持在 Claude Code 中使用,也对字节跳动自家的编程开发工具 TRAE,Cursor、Codex CLI、Cline 等主流的开发生态,实现了全面的兼容。

目前,Doubao-Seed-Code 可以在火山方舟大模型体验中心、TRAE 中国版直接使用,也可以透过平台的 API 调用。

▲ https://www.volcengine.com/experience/ark?model=doubao-seed-code-preview-251028

在 TRAE 中国版,还提供了 Kimi K2,GLM 4.6,以及 DeepSeek、Qwen 等常见国产编程模型。

▲ https://www.trae.cn/

我们也在火山引擎官网、TRAE 、以及 API 调用几种方式里,体验了这款全新的编程模型,不能说吊打 Claude,但是配合自身的编程开发环境、和超低的费用,很难不让人心动。

模型能力实测,一张草图生成一个项目

视觉理解是 Doubao-Seed-Code 的一大亮点,但其实从图片复制网页,甚至是在 AI 大语言模型流行之前,就已经有类似的应用。而多模态的能力,现在也基本上成为了每个模型的标配。

我们从网上找了一张手绘的网页布局图片,直接让它根据这张草图,生成对应的前端页面。

还原度还是很高的,复制代码拿过来直接用作自己的项目,或者再要它添加一些处理的逻辑,神笔马良的即视感。

除了这种照搬图片的内容,我们还找了一张大家熟知的游戏截图,Flappy Bird,但是截图里面就是几根柱子。上传截图并提问,你认识这个游戏吗?用一个单页的 HTML 实现它。

虽然简陋了一点,但是 Douban-Seed-Code 在深度思考的过程,一眼就看出来这是 Flappy Bird 的游戏。最后的实现,把小鸟直接换成了一个原点,但确实是一张图就能生成游戏。

火山方舟的模型体验中心更多是一种 Playground 的存在;Doubao-Seed-Code 的发布,直指当下火热的 AI 编程赛道。

字节也专门为 Doubao-Seed-Code 在 TRAE 中的表现进行过优化,与 TRAE 深度结合的豆包编程模型,在对应的编程基准测试中,甚至拿到了超过 Claude 4.5 Sonnet 的成绩。

和网页版处理不同,在本地使用,意味着我们的主动权更大。我们直接把过去几篇 APPSO 的文章放到项目文件夹,然后在 TRAE 里和模型对话,要它根据这些文件,帮我制作个人作品集。

在豆包编程模型的介绍资料里,我们看到字节用了一套大规模的 AI 强化学习系统,来完成智能体的学习训练。

  • 覆盖十万个不同环境的数据集,让 AI 见识各种复杂任务。
  • 不需要老师手把手的教,而是完全依靠端到端的强化学习,模型自己总结经验。

在 TRAE 中运行了一会儿了,就得到了最后的个人作品集网页,说实话总结得很不错,在精选文章那一部分,都是 AI 自动帮我配的图片。

除了直接使用,豆包编程模型还提供了 API 的方式,能够配置到 Claude Code 之类的工具中。

我们之前在介绍 Google 全家桶时,分享过 Gemini CLI(和 Claude Code 类似的命令行终端工具)的使用体验,基本上能减去我们找各种第三方工具的繁琐。

在火山引擎的官网,字节更是直接给出了完整的将 Doubao-Seed-Code 配置到 Claude Code 的详细步骤,我们只需要照着教程走,就能得到一个不会被断供的 Claude Code。

▲ https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-code

简单配置之后,我们就可以进入到 Claude Code 的页面,并且显示当前的模型时 doubao-sseed-code-preview-251028。

字节这波发 Cursor 平替 SOLO 模式,又发 Claude 4.5 平替 Doubao-Seed-Code,能看出来是真的很想把 AI 编程做到极致,毕竟这是现在的大热门。

有多热,代表性产品 Cursor 在最新一轮融资后,估值来到了 300 亿美元,并且它几乎可以确认,将是历史上最快达到 10 亿美元 ARR 的公司。

▲图表由 GPT-5.1 生成,显示这些公司从成立到实现 10 亿美元的 ARR,需要多长时间。图片来源:X@Yuchenj_UW

而前些天,柯林斯词典也宣布,把 Vibe Coding 作为 2025 年度词汇;这一年来,无论是不是学计算机专业的,多多少少都已经接触到了 AI 编程。

简单的「帮我生成一个贪吃蛇的游戏」、到复杂的大型项目管理,代码完全变成了向 AI,而更少面向开发者的语言。

这种趋势也在大多数的基础模型,把编程能力作为主要卖点的背景下,变得越来越流行。如果在去年问一个 AI 编程的用户,他会选择什么模型,毫不犹豫地说,一定是 Claude 3.5。

到了今年这个时候,Claude 断供看起来反而是倒逼了我们一把。国产的编程模型有了智谱的 GLM 4.6、阿里的 Qwen Coder、Minimax M2、月之暗面的 Kimi K2 Thinking,个个都榜上有名;今天又多了一个选择,Doubao-Seed-Code。

模型之外,工具的演变也没停下来,从只是生成代码然后预览,到现在 TRAE 要把软件开发一条龙全面服务到位。即便现在说 AI 编程,要全面取代程序员还不太可能,但让 AI 手搓一个微信,未来三五年说不定真的能做到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,GPT-5.1 正式发布,OpenAI 这次有点「不对劲」

刚刚,OpenAI 正式发布了 GPT-5.1,但这次有点不一样。

翻完整篇官方博客,我发现了一个特别有意思的细节:一张跑分对比图都没有。没有 benchmark 数据,没有「性能提升 XX%」,甚至连「更快更强」这种常规话术都少得可怜。

这不太像 OpenAI 了,直到我看到这句话:

「我们从用户那里清楚听到,优秀的 AI 不仅要聪明,还要让人跟它聊天很愉快。」

新版 GPT-5.1 为了让我们聊天更愉快,提供了八种风格预设 

新版本确实更聪明了——推理更严谨,代码写得更漂亮,但最值得一提的是,它终于像个人了,并且首次允许我们细致地「调教」它的聊天风格。

和 AI 聊天不再是那种一问一答的工具感,而是变得有梗、懂氛围、会接话茬,甚至能陪你有的没的扯上半天。

看来上次 GPT-5 口碑崩塌后,OpenAI 终于听劝,也第一次捅破了窗户纸,承认光刷榜没用,用户要的是能好好说话的 AI,实用和情绪价值全都要。

直接放上具体的使用时间和方式:更新到 GPT-5.1 后,我们的 ChatGPT 会默认切换到最新模型,而不需要专门选择。

  • 付费用户 (Pro, Plus, Go, Business): 从今天(11月12日)开始逐步推送。
  • 免费和未登录用户: 将在付费用户推送完毕后跟进。
  • 企业和教育版: 拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级。
  • API 开发者: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候上线 API。

更强大的 AI 内核

这次更新的核心,是 GPT-5.1 Instant 和 GPT-5.1 Thinking 两大模型的全线升级。

GPT-5.1 Instant:最常用的模型,变「暖」了

GPT-5.1 Instant 是 ChatGPT 中最常被调用的模型。这次,它变得更「温暖」、更健谈了。根据 OpenAI 的早期测试,它甚至会不时展现出一些顽皮,同时保持回答的清晰和实用。

而更关键的升级来自底层:

  1. 更听话: 它现在能更可靠地遵循我们的指令,准确回答我们真正想问的那个问题。
  2. 自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。

OpenAI 提到,这种进化在数学(AIME 2025)和编程(Codeforces)等专业评估测试集上,也有了明显的提高。

GPT-5.1 Thinking:更强的大脑,也更易懂了

作为更高级的推理模型,GPT-5.1 Thinking 也迎来了关键优化,变得更高效、更易用。

▲ GPT-5.1 思考在简单任务上花费的时间更少,在困难任务上花费的时间更多

  1. 效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。
  2. 更易懂(用户福音!): 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。
  3. 同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。

用 OpenAI 应用 CEO Fidji Simo 的话来说,这次升级的核心是将 IQ(智商)和 EQ(情商)更好地结合起来。

模型在保持高智商的同时,即继续使用与推理模型相同的技术栈;还大幅提升了情商,ChatGPT 有了更自然的对话和同理心。

 

这能满足用户在不同场景下,都能得到相对应的个性化需求,像是谈论健康时需要同理心,写文案时需要直接。

此外,对大多数用户来说,我们也不需要在 Instant 和 Thinking 之间纠结。因为还有 GPT-5.1-Auto 会自动为我们分配到最合适的模型,这也是 GPT-5 发布时的一大亮点,即智能路由。

总之,最直观的感受就是,答案更智能,语气更自然。

打造专属于你的 ChatGPT

如果说模型升级是硬实力,那个性化体验的飞跃就是软实力,而这正是本次更新的另一大亮点。

OpenAI 的目标是,是让我们毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。

在原有的默认、友好、高效基础上,新增了三种官方风格。

  • Professional (专业): 适用于工作、写作等正式场合。
  • Candid (坦诚): 更直接,不拐弯抹角。
  • Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。

之前测试版中的「书呆子」和「愤世嫉俗」选项也依然保留在个性化设置中。

除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征

我们可以精确控制回答的简洁度、热情度(多热情)、回答是否易于浏览 (Scannable)、甚至是使用 emoji 的频率。

如果不想麻烦的手动设置,当我们试图在对话中引导某种特定语气时,ChatGPT 可能还会主动领悟到,然后询问我们,是否希望将这种偏好保存到永久设置中,省去了手动调整的麻烦。

▲ 这也是奥特曼喜欢的功能

在 Fidji Simo 分享的博客里,她提到过去的自定义指令,并不总尽如人意。比如我们可以在自定义设置里,让 ChatGPT 不要用某个词,但它还是会用。

GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT 可以更稳定地,按照我们定义的个性来完成各项任务。

有网友直接一句话总结,GPT-5.1 这次的更新,就是更创造性地忽略我们的提示词。

当然,AI 的风格化、拟人化,也有它的代价。一个更温暖、情商更高的 AI,也必须更安全,这也是 OpenAI 在最近被卷入 16 岁少年自杀案,必须回应的事情。

在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中加入了两个全新的、更人性化的维度。

  1. 心理健康(Mental Health): 评估 AI 如何应对用户可能表现出的孤立、妄想或躁狂等迹象。
  2. 情感依赖(Emotional Reliance): 评估 AI 的回应是否会助长用户对 ChatGPT 产生不健康的依赖或情感依恋。

在传统的安全评估上,GPT-5.1 Instant 表现出色,在抵御越狱(Jailbreaks)方面,比其前代 gpt-5-instant-oct3 更强。

但 OpenAI 也坦诚地指出,GPT-5.1 Thinking 在处理骚扰、仇恨言论等内容的基准测试中,相比前代略有回退;Instant 模型在情感依赖的某些评估中,也显示了轻微的倒退。

OpenAI 当然是说正致力于改进这些方面,然后提到了,他们选择透明的公开这种回退的现象,在 AI 快速迭代的当下,比单纯的零失误宣传,更值得大家关注。

也有网友分享很乐意看到,OpenAI 愿意在让我们与模型的对话更愉快这方面,去做出一些努力。

如果你今天打开 ChatGPT 没看到更新,别急,未来几天内就会轮到你,OpenAI 正在逐步推送到所有用户。

此外,为了避免像之前 GPT-5 发布,网友们都在呼吁 GPT-4o 的回归,这种尴尬再次出现。

OpenAI 这次提供了后悔药,付费用户在 3 个月内,也就是 GPT-5 的淘汰期,依然可以在设置的下拉菜单中,选择使用旧的 GPT-5 模型,以便能从从容容地过渡到 GPT-5.1。

▲ 现在还能使用 4o 等模型

GPT-5.1 是一次能力与体验齐头并进的重大更新。OpenAI 显然在告诉我们,AI 的未来不仅是更强的参数,和更高的跑分,更是更懂你的体验,和更贴心的交互。

但一个完美的助手,又应该是什么样的?

OpenAI 应用 CEO Fidji Simo 在她的文章中,有一个挺有意思的比喻,她说「如果我能完全控制我丈夫的特质,我可能会让他永远同意我,但很明显,这不是个好主意。」

最好的 AI 应该像我们生活中最优秀的人一样,他们倾听、适应,但也在必要时挑战我们,帮助我们成长

从一个无所不知的万能工具,到一个能懂你聊天脾气,甚至能帮你成长的专属伙伴,这也许就是 GPT-5.1 真正想开启的未来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

上周 Kimi K2 Thinking 发布,开源模型打败 OpenAI 和 Anthropic,让它社交媒体卷起不小的声浪,网友们都在说它厉害,我们也实测了一波,在智能体、代码和写作能力上确实进步明显。

刚刚 Kimi 团队,甚至创始人杨植麟也来了,他们在 Reddit 上举办了一场信息量爆炸的 AMA(有问必答)活动。

▲ Kimi 团队三位联创,杨植麟、周昕宇、吴育昕参与回答

面对社区的犀利提问,Kimi 不仅透露了下一代模型 K3 的线索、核心技术 KDA 的细节,还毫不避讳地谈论了 460 万的成本,以及与 OpenAI 在训练成本、产品哲学上的巨大差异。

  • 460 万美元这个数字不是官方的数字,具体的训练成本很难量化到多少钱
  • K3 什么时候来,是看奥特曼的万亿美元数据中心什么时候建成
  • K3 的技术将会继续沿用,当前效果显著的 KDA 注意力机制
  • 视觉模型还需要我们去采集更多的数据,但目前已经在做了……

我们为你整理了这场 AMA 中最值得关注的几个核心焦点,来看看这家现在算是国产开源老大的 AI 实验室,是如何看待他们的模型,和未来 AI 的发展。

叫板 OpenAI,「我们有自己的节奏」

在这场 AMA 中,火药味最足的部分,大概就是 Kimi 团队对 OpenAI 的隔空回应。

最大的噱头之一:K3 什么时候来?Kimi 团队的回答非常巧妙:「在奥特曼的万亿美元数据中心建成之前。

很明显这一方面是幽默,因为没有人知道 OpenAI 到底什么时候才能建成那个数据中心,另一方面似乎也在回应外界对于 Kimi 能用更少资源追赶 GPT-5 的赞叹。

当有网友贴脸开大,直接问 Kimi 怎么看 OpenAI 要花这么多钱在训练上时,Kimi 坦言:「我们也不知道,只有奥特曼自己才知道」,并强硬地补充道,「我们有自己的方式和节奏。

这种自己的节奏,首先体现在产品哲学上。当被问到是否会像 OpenAI 一样发布 AI 浏览器时,团队直言 No:

我们不需要创建另一个 chromium 包装器(浏览器套壳),来构建更好的模型。

他们强调,目前的工作还是专注于模型训练,能力的体现会通过大模型助手来完成。

在训练成本和硬件上,Kimi 也展现了精打细算的一面。社区好奇 K2 的训练成本是否真的是传闻中的 460 万美元,Kimi 澄清了这个数字并不正确,但表示大部分的钱都是花在研究和实验上,很难具体量化。

至于硬件,Kimi 承认他们使用的是 H800 GPU 和 Infiniband,虽然「不如美国的顶级 GPU 好,而且数量上也不占优势」,但他们充分利用了每一张卡。

模型的个性与 AI 的垃圾味

一个好的模型,不仅要有智商,还要有个性。

很多用户喜欢 Kimi K2 Instruct 的风格,认为它「比较少的谄媚,同时又像散文一样,有洞察力且独特」。

Kimi 解释说,这是「预训练(提供知识)+ 后训练(增添风味)」共同作用的结果。不同的强化学习配方(即奖励模型的不同选择)会得到不同的风格,而他们也会有意的把模型设计为更不谄媚

▲大语言模型情商评估排名,图片来源:https://eqbench.com/creative_writing.html

但与此同时,也有用户直言 Kimi K2 Thinking 的写作风格太「AI Slop 垃圾」,无论写什么话题,风格都太过于积极和正面,导致读起来 AI 味就是很重。他还举例子说,要 Kimi 写一些很暴力很对抗的内容,它还是把整体的风格往积极正面那边去靠近。

Kimi 团队的回答非常坦诚,他们承认这是大语言模型的常见问题,也提到现阶段的强化学习,就是会刻意地放大这种风格。

这种用户体感与测试数据的矛盾,也体现在对 Benchmark(跑分)的质疑上。有网友尖锐地提问,Kimi K2 Thinking 是不是专门针对 HLE 等跑分进行了训练,才会取得如此高分?毕竟这么高的分数,好像和他实际使用中的智能不太匹配。

对此,Kimi 团队解释说,他们在改进自主推理方面取得了一些微小的进展,这刚好让 K2 Thinking 在 HLE 上得分很高。但他们也坦诚了努力的方向,要进一步提升通用能力,以便在更多实际应用场景中和跑分一样聪明。

网友还说,你看马斯克的 Grok 因为做了很多 NSFW (非工作安全) 的工作,生成图片和视频;Kimi 完全可以利用自己的写作优势,让它完成一些 NSFW 的写作,一定能为 Kimi 带来很多用户的。

Kimi 只能笑而不语,说这是一个很好的建议。未来是否会支持 NSFW 内容,可能还需要找到一些年龄验证的方法,也需要进一步做好模型的对齐工作。

很明显,现阶段 Kimi 是不可能支持 NSFW。

核心技术揭秘:KDA、长推理与多模态

作为一家被称为「开源先锋实验室」的公司,而 Reddit 本身就是也是一个非常庞大和活跃的技术社区,Kimi 也在这次的 AMA 中,分享了大量的技术细节。

10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的论文,详细介绍了一种新型混合线性注意力架构 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

▲KDA 算法实现,论文链接:https://arxiv.org/pdf/2510.26692

通俗来说,注意力(Attention)就是 AI 在思考时,决定应该重点关注上下文哪些词语的机制。和常见的完全注意力和线性注意力不同,KDA (Kimi Delta Attention),是一种更智能、更高效的注意力机制

在这次 AMA 活动中,Kimi 也多次提到,KDA 在长序列强化学习场景中展现了性能提升,并且 KDA 相关的想法很可能在 K3 中应用。

但 Kimi 也坦言,技术是有取舍的。目前混合注意力的主要目的是节省计算成本,并不是为了更好的推理,在长输入和长输出任务上,完全注意力的表现依然是更好的。

那么,Kimi K2 Thinking 是如何做到超长推理链的呢,最多 300 个工具的思考和调用,还有网友认为甚至比 GPT-5 Pro 还要好?

▲ Kimi Linear 模型结构

Kimi 认为这取决于训练方式,他们倾向于使用相对更多的思考 token 以获得最佳结果。此外,K2 Thinking 也原生支持 INT4,这也进一步加速了推理过程。

我们在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化训练技术,这是一种高效的量化技术(INT4 QAT),Kimi 没有训练完再压缩,而是在训练过程中,就保持了低精度运算模型。

这能带来两个巨大的优势,一个是推理速度的提升,一个是长链条的推理,不会因为训练完再进行的压缩量化,而造成逻辑崩溃。

最后,关于外界期待的视觉语言能力,Kimi 明确表示:目前正在完成这项工作。

之所以先发布纯文本模型,是因为视觉语言模型的数据获取,还有训练,都需要非常多的时间,团队的资源有限,只能优先选择一个方向。

生态、成本与开放的未来

对于开发者和普通用户关心的问题,Kimi 团队也一一作答。

为什么之前能处理 1M 上下文的模型消失了?Kimi 的回答言简意赅:「成本太高了。」而对于 256K 上下文在处理大型代码库时依然不够用的问题,团队表示未来会计划增加上下文长度。

在 API 定价上,有开发者质疑为何按「调用次数」而非 token 收费。对使用 Claude Code 等其他智能体工具进行编程的用户来说,基于 API 请求次数的计费方式,是最不可控且最不透明的。

在发送提示之前,用户根本无法明确工具将发起多少次 API 调用,或者任务将持续多长时间。

▲Kimi 会员计划

Kimi 解释说,我们用 API 调用,是为了让用户更清楚的知道费用是怎么消耗的,同时符合他们团队的成本规划,但他们也松口表示会看看是否有更好的计算方法。

当有网友提到自己公司不允许使用其他聊天助手时,Kimi 借机表达了他们的核心理念:

我们拥抱开源,因为我们相信通用人工智能应该是一个带来团结而不是分裂的追求。

而对于那个终极问题——AGI 什么时候到来?Kimi 认为 AGI 很难定义,但人们已经开始感受到这种 AGI 的氛围,更强大的模型也即将到来。

和去年疯狂打广告营销的 Kimi 不同,在这场 AMA 力,杨植麟和团队成员的回答;确实能让人感受到在国产开源,逐渐占据全球大语言模型开源市场的背景下,Kimi 也更加有底气,更明确了自己的节奏。

而这个节奏很明显,就是在这场烧钱、甚至卷太空的 AI 竞赛中,继续走开源的路,才能推动技术往前走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana 2 闪现 1 小时就下架,让所有 AI 翻车的测试,它轻松拿捏

之前火爆全网的 nano banana,现在要推出 2.0 版本了。

全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。

▲图片来源:x@synthwavedd

为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试

输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。

我们在大模型竞技场、豆包 Seedream、以及 nano banana 1.0 版本多次尝试,没有 AI 可以准确显示时钟刻度,和一杯快满出来的红酒。

而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。

▲ 更真实的黑板字|图片来源 x@testingcatalog

和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。

▲ Media AI(medio.io)目前只有 nano banana 和 Seedream 等其他 AI 生图模型

不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。

但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。

下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。

▲ 图片来源 x@Azinha810

都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。

▲ 图片来源 x@Azinha810

还有这两张偏科幻风格的图片,区别就更加明显了。第二张图看起来电影感更强,视觉质量也比第一张图有了更多准确的细节。举个例子,第一张图的设备仪表板和第二张图,能看出直接的不同,nano banana 生成的仪表板,依旧是明显的 AI 风格。

根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。

这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。

1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。

▲ 输入提示词,让水变粉红,依次是原始图像,Nano Banana 1,Nano Banana 2|图片来源 x@Angaisb_

2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。

  1. 规划: 花费相当长的时间规划输出内容。
  2. 生成: 生成一个初步图像。
  3. 审查: 通过内置的图像分析功能进行自我审查。
  4. 修正: 识别并纠正任何错误。
  5. 迭代: 根据需要进行迭代,最后才交付结果。

3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。

▲ComfyUI 工作流界面

其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。

实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。

更强的文本渲染

首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。

▲ 直接上传一张 Windows 电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成一张 Windows 11 桌面截图,谷歌 Chrome 已打开,显示 YouTube 上 Mr. Beast 的缩略图,链接为 http://YouTube.com)|图片来源:x@synthwavedd

更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。

▲图片来源:x@synthwavedd

不过还是有细心的网友发现,nano banana 2 的效果也不是十全十美,像这张图片里出现了 Gemini 31、Google DeepMind – Nevdscl 等错别字。

不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。

这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。

▲图片来源:x@synthwavedd

同样的,还有这张电视的直播截图,主播在屏幕右侧,底部有新闻节目经典的跑马,并且所有文字都准确渲染。

▲ 提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text “Nano Banana 2 live on Media .IO?” Live news shot. There is a red and blueckhyron on the bottom of the image that says “Breaking News: Nano Banana 2 on Media .IO?”|图片来源 x@BrentLynch

我们也把同样的提示词,让当前的 nano banana 处理了一遍。

这张照片给我的感觉 AI 味也不算太重,但是它对背景屏幕做了虚化处理,反而让照片看起来不像是新闻节目的现场,而文字的反射也稍显刻意,它重点突出了主播的形象。

有了世界知识,更听得懂我们的指令

像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。

还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。

▲ 提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为 nano banana 2 生成的图片|图片来源 x@Angaisb_

在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。

例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。

▲ 图片来源 x@jewgibor

他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。

结合世界知识和文本渲染,nano banana 2 还能在黑板上为我们解题,这不比看着聊天框里面长长的数学推理舒服多了。

▲图片来源 x@MagusWazir

而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。

▲ 图片来源:https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/

还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。

▲ 图片来源 x@Liam06972452

不只编辑,生图能力这次也有了提升

同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。

▲提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api

东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。

▲ 提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog

还有各种各样的人像「恶搞」图片。

▲ 图片来源 x@MicahBerkley

以及这种胶片风格满满的合影。

▲ 图片来源 x@rpnickson

不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」

当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。

拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

迄今为止最大最好的开源模型,总参数达 1 万亿,屠榜多个基准测试,Kimi K2 Thinking 来了。

▲ Kimi K2 Thinking 在 TAU 榜单(智能体工具调用能力测试)上排名第一,超过 OpenAI 和 Anthropic 的旗舰模型

一登场就是斩获多个测试榜单的第一名,Kimi 也不玩开源只和开源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起,非常自信。

▲ 智谱、MiniMax 自然语言处理部门负责人、以及 HuggingFace 联合创始人纷纷在评论区留言祝贺

除了在工具使用的榜单上拿第一,人类最后考试(HLE)、BrowseComp、还有其他基准测试,Kimi K2 Thinking 基本上都占据了先进模型的前排位置。

▲ 在跨学科专家级问题的 HLE 榜单、以及自主搜索的三个榜单上,排名第一;编程能力的三个榜单,得分也接近最好的 Claude 或 GPT 模型

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面,Kimi K2 Thinking 的性能表现可以说是,目前最接近封闭模型的开源模型

延续了 7 月份,发布 K2 时,将其定位为自主智能路线图的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能体智能)。它是一个推理的混合专家(MoE)模型,总参数量 1T,激活参数 32B,上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考,同时在保持任务目标的同时,持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上,已经成为某种程度上的标准,但 K2 Thinking 可能是第一个,具有如此多工具调用能力的开源模型。

对比 K2 0905,K2 Thinking 在具体的任务上的提升,我们总结了 Kimi 的技术博客,有这些亮点。

  • 解决需要百步推理的复杂难题:它能将一个庞大的目标分解为数百个子任务,然后像一个项目经理一样逐一执行。官方举例称,它曾通过 23 个交错的推理和工具调用,成功解决了一个博士级的数学难题。
  • 更准确的找到详细的信息:通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环,K2 Thinkging 在面对模糊或冷门的搜索需求,能自己上网反复搜索、浏览网页、验证证据,直到找到精准答案。
  • 直接把想法变成可用的产品:K2 Thinking 特别擅长前端代码(如 HTML、React),和其他 Vibe Coding 产品一样,能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
  • 写出更有人味的文章:逻辑严谨的专业长文,想象力丰富的创意故事,甚至是需要同理心的情感建议,K2 Thinking 在聊天问答这些通用能力上,能做到更扎实、更细腻的推理写作。

目前,Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是,Kimi 解释说为了保证用户能获得快速、轻量级的体验,当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此,直接在 kimi.com 上聊天,可能暂时无法完全复现上述基准测试中的极限分数。

▲测试中提醒「高峰算力不足,请耐心等待」

此外,能充分发挥 Kimi K2 Thinking 能力的完整智能体模式(Full Agentic Mode)将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

我们也快速上手,实测了几个常见的项目,一起来看看实际的体验如何。

首先是编程任务,我们先让他做了一个技能五子棋的小游戏,要求是在普通的五子棋规则上,玩家可以使用技能。

速度很快,出乎我的意料,一两分钟的时间,它就实现了全部的代码,并且真的可以使用这些技能。

然后是骑自行车的鹈鹕,这个经典的测试大模型编程能力的项目,检验它的 SVG 代码生成。

虽然 K2 Thinking 写着推理模型,但是它的推理速度非常快,这段动态的 SVG 代码生成也只花了 1 分钟不到。虽然这个鹈鹕好像有点不太对劲。

开启长思考,即 K2 Thinking 的同时,能启用网络搜索,当我们要它完成一个天气卡片时,能看到 Kimi 会一边自动检索网络上的公开资料,一边完成代码的实现。

▲确实能调用浏览器的获取位置接口,但是在最后 Kimi 也提到,需要输入对应的地图 API 和 天气信息 API 等数据

现在已经是全民 vibe coding 的时代了,普通用户还是程序员,都能从 K2 Thinking 的编程能力里,更快速地实现自己的想法。

在智能体搜索这个任务上,我们问了他一些专业领域的问题,测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。

可以看到,Kimi 搜索的信息是比较全面的,当我规定了 2025 年以后,它网页搜索的资料,也大多集中在最近这段时间以来的报道。

最后它给出的报告,也详细的提到了三种 2025 的算法,以及主要的公司等内容。

其实工具调用,应该是 Kimi K2 Thinking 非常重要的能力,但是在我们的体验中,发现大多数时候,他只是调用网络搜索工具,而没有看到 200 多个工具流。

我们在输入一个物流逻辑问题时,很明显是可以调用 Python 等代码解释器来辅助计算,但是 Kimi 只是和其他深度思考的模型一样,一步步地推理。

关于 K2 Thinking 的写作能力,我们找了一个表面上看起来是两难的问题给它。

这个回答有够人性化吗。很明显不是空洞的套话,还提供了周到且具体的思考,也帮助我们平衡了原则和现实两个方面,还有可操作的后续步骤。

在 AI 模型军备竞赛的今天,单纯的问答,很明显已经无法满足,我们复杂的专业需求。像人类专家一样,通过一步一步的推理思考,主动使用各种工具,来解决极其复杂的难题,成了所有大模型的标配。

根据 Kimi 官方文档和技术分析的介绍,这次的思考能力突破关键在训练方式,即高效的量化技术(INT4 QAT),这也是一个值得关注的行业亮点。

K2 Thinking 在后训练阶段采用了量化感知训练 (QAT),让模型能以 INT4 精度本地运行,推理速度提升约 2 倍,同时保持最佳性能。

也就是说,它不是训练完再压缩,而是在训练过程中就贯穿低精度运算模型。这带来了两个巨大优势,一个是推理速度的提升,一个是长链条推理,不会因为量化而造成逻辑崩溃。

▲使用正确的量化技术,能节省 GPU 显存并加快推理速度

此外,它的所有基准测试成绩都是在 INT4 精度下报告的。说白了,这是一种「所见即所得」的性能,而不是实验室精心调制的数据,K2 Thinking 生来就能跑得动

我们的实测也能看到,Kimi K2 Thinking 确实不仅仅是一个营销噱头,工具调用、量化技术、以及超长规划,让它在智能体方向上,推理速度上,都有不错的表现。

虽然在某些方面,例如稳定的结果输出、以及对提示词更宽松的要求,还是比不上闭源模型。但是开源能做到这样,我的心里只有两个字,佩服。

过去两年,国产模型的竞争大概是从 Qwen、百度这些模型,对 ChatGPT 的疯狂追赶;到横空出世的 DeepSeek 把推理成本降低的同时,还做到了和 o3 等推理模型,相媲美的表现。

让国产 AI 开始走上了,完全不同于国外闭源模型的路线。OpenAI 发布一个 GPT-5 预热了大半年,Anthropic 的 Claude 系列模型发布周期也在长达几个月。

而 Kimi 在今年七月发布了 K2,九月发布了 K2 Instruct,十一月就迎来了 K2 Thinking;更不用说还有智谱、MiniMax、以及前段时间模型七连发的 Qwen。就连还在期待中的 DeepSeek R2,也更新 V3.2、OCR 等广受好评的模型。

并且,这些模型全部开源。在海外社交媒体平台上,一年前大家可能只知道中国有 DeepSeek,而现在,Qwen 已经是 Hugging Face 上模型下载榜单的 Top 10,Kimi 和智谱(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多数用户青睐的模型。

K2 Thinking 的发布,我想是一个新的转折点,就是当我们的开源模型,也能拿到和闭源模型一样的基准分数时,闭源模型还可以讲什么样的故事来营销自己呢。

Gemini 3 据说在今年年底前将发布,而 OpenAI 似乎也害怕再像当时的 nano banana 一样,抢走他的市场,计划推出 GPT-5.1。

军备竞赛还在继续,而国产开源的力量,开始让我们看到,一个好用的 AI,不是屠榜多少测试,是在具有真实用户需求的领域,能真正地提供某些东西,并且惠及所有人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


地球快养不起 AI 了,谷歌英伟达被逼上太空,结果便宜了马斯克

刚刚,Google 正式启动数据中心登月计划,打算把自己的算力都放到太空。他们还给这个计划起了个很酷的名字,叫做 Project Suncatcher,太阳捕手计划。

Google 的想法很简单,与其在地球上争抢日渐枯竭的资源,不如去太空中直连太阳能。这个全新的登月计划,目标也只有一个,在太空中建立一个由太阳能驱动的、可扩展的 AI 基础设施

前些天,OpenAI 的 CEO 奥特曼和微软 CEO Satya Nadella 纳德拉,在播客节目上表示,

我今天的问题不是芯片供应问题;事实是,我没有足够的暖壳(warm shells)来插入它们。

听着相当凡尔赛,毕竟在这场 AI 浪潮之前,我们一直以为算力就是一切。

▲奥特曼和纳德拉

但就像奥特曼在节目里面说,AI 的未来,更多地需要能源上的突破,订购的 AI 芯片太多,配套的数据中心和电力跟不上也是白搭。

AI 耗电有多离谱,根据国际能源署 (IEA) 的数据,到 2030 年,全球数据基础设施的耗电量,预计将与整个日本的国家耗电量相当。

不只是电,还有水。世界经济论坛的数据显示,一个 1 兆瓦的数据中心,每天消耗的水量,与大约 1000 名发达国家居民的用水量相同。

▲一块英伟达 H100 芯片的最高功耗可达到 700W,大约是家用微波炉的功耗,而一个数据中心的 H100 显卡数量是以万为单位,且不间断运行

而就在最近五年,数据中心的需求开始狂飙,但增长速度已经远远超过了,规划新发电能力的速度。

Google 为了解决同样的问题,他们的计划,是发射一个由太阳能驱动、搭载 Google 自研 TPU 芯片(用于计算,类似英伟达的 GPU)的卫星星座,在太空中组建一个「轨道 AI 数据中心」

太空一定比地球更便宜、更高效吗?

为什么是太空?Google 的理由简单粗暴。

1、8 倍效率: 如果搭载芯片的卫星,在正确的轨道上,太阳能板的效率是地球的 8 倍。

2、7*24 不间断供电: 太空没有黑夜和云层,对比地球上的太阳能板,可以持续产生电力。

▲ 马斯克发 X 说太空的 AI 卫星能保护地球

3、零资源消耗: 在太空,数据中心不需要消耗地球有限的土地,也无需消耗大量水资源做冷却工作。

▲ 苹果、华为、腾讯、以及移动等公司在贵州设立数据中心,图片来源:新华社

目前地球上的数据中心,越来越接近能源瓶颈,建在冰岛、挪威,是为了冷;建在内华达沙漠,是为了电。像在国内,多数大厂的数据中心都放在贵州、宁夏中卫等,靠环境来降温。

但是太空的环境,远比地球复杂。Google 在自己的研究论文里面,详细提到目前遇到的难点,以及用于应对的方法。

让 AI 「登天」,Google 要解决三大难题

难题一:太空「局域网」?

AI 训练需要海量芯片协同作战,彼此间的连接带宽和延迟要求极高。在地球上我们可以用光纤实现数据的高速传输,在太空怎么办?

Google 的方案:编队飞行 + 激光通信。

他们计划让卫星「飞得非常近」,彼此相距仅公里级或更近。

在他们一个 81 颗卫星的模拟星座中,每颗卫星都配有太阳能阵列、辐射冷却系统,以及高带宽光学通信模块;且卫星间的距离仅在 100-200 米之间动态变化

在如此近的距离上,它们可以通过自由空间光通信(FSO ISL,Free-Space Optical Inter-Satellite Links),实现高速互联。Google 在论文中透露,他们的演示已经成功实现了 1.6 Tbps 的双向传输速率

难题二:宇宙「辐射」?

太空环境极其恶劣,太阳在提供能源的同时,也喷射出致命的高能粒子(辐射),这对尖端芯片直接是毁灭性打击。

▲ 图源 NASA

Google 的方案:硬扛。

他们把自家的 Cloud TPU v6e (Trillium) 芯片送进了实验室,用 67 MeV 的质子束轰击它。

结果是「惊人地抗辐射 (surprisingly radiation-hard)」,TPU 最敏感的高带宽内存 (HBM),在承受了 2 krad(Si) 的剂量后才开始出现异常,这几乎是 5 年任务预期辐射剂量(750 rad(Si))的近 3 倍。

这意味着 Google 的 TPU 可在低地轨道连续运行 5 年,无永久损伤。

Google 计划在 2027 年前与 Planet 公司合作,发射两颗原型卫星,测试实际运行环境

▲ Planet 公司官网,主要从事卫星图像和地球数据的分析

难题三:数据回传

在太空上,各个 GPU 之间的数据传输是做到了快速高效,但是就算在太空算完了,数据怎么高速传回地球?

这是一个 Google 在论文中承认、尚待解决的重大挑战。

延迟问题: Google 选择的「晨昏同步轨道」,虽然太阳能拉满,但论文承认这将会增加到某些地面位置的延迟。

带宽瓶颈: 目前的「地-空」光通信的最高纪录,还是 NASA 在 2023 年创下的 200 Gbps

200 Gbps 听起来很快,但对于一个太空 AI 数据中心来说,这根水管远远不够用。

然而,在所有这些(局域网、辐射、地面通信)高难度的技术挑战之上,还压着一个最根本、最致命的障碍,它决定了前面的一切是否值得去解决,上天成本

这曾是最大的障碍,把一公斤重的东西送上天,曾经比同等重量的黄金还贵。

▲ 一系列低地轨道卫星的发射费用对比

Google 在论文中计算过一笔账,如果 SpaceX 的发射成本能降到 $200/kg(预计 2035 年左右),则太空数据中心的单位功率成本,能与地面数据中心持平,约 $810/kW/年,与美国本土数据中心的 $570–3000/kW/年区间完全重叠。

换句话说,当火箭便宜到一定程度,太空就会比地球更适合建数据中心。

然而,现实是目前的发射价格,是这个理想价格的十倍以上。

谁能让这件事发生?SpaceX

Google 在他们的论文里,明确采用了 SpaceX 的学习曲线假设:每当总发射质量翻倍,单位发射成本下降 20%

▲ 自首次成功发射猎鹰 Falcon 1 号以来,按最低实现价格计算的 SpaceX 有效载荷质量,针对不同类别火箭逐步变化

从 Falcon 1 到 Falcon Heavy,SpaceX 已把发射成本从 $30000/kg 降到 $1800/kg;而 Starship 的目标,是 10× 可重复使用率下的 $60/kg,极限情况下可降到 $15/kg。

这意味着,SpaceX 很有可能成为支撑 Google 太空数据中心经济模型的公司。

如果说英伟达垄断了地球上的 GPU,那么 SpaceX,将来就可能垄断太空中的算力空间。

在地球上,英伟达卖 GPU;在太空里,SpaceX 卖轨道。

就在 Google 发布论文的几天前,11 月 2 日,英伟达强大的 H100 GPU 已经「首次」被送入太空

这颗 H100 被搭载在一家名为 Starcloud 的初创公司的卫星上,其在轨算力比以往任何太空计算机强 100 倍。

▲Starcloud 创办于 2024 年,诞生之初就是致力于在太空建立数据中心,获得了英伟达、YC 等投资。

它们的任务更直接,在轨实时处理数据。Starcloud 的 CEO 举例:一颗 SAR(雷达成像)卫星的原始数据极其庞大,与其下载数百 GB 的原始数据,不如在轨用 H100 分析,只传回 1KB 大小的结果,比如「一艘船在某位置,速度 多少」。

而当被问到这一切如何实现时,Starcloud 的 CEO 同样指向了马斯克:他们的愿景,完全依赖于「SpaceX Starship 带来的成本降低」

搭载了英伟达 H100 GPU 的 Starcloud-1 卫星,正是通过马斯克的 SpaceX,Bandwagon 4 Falcon 9 航班发射升空的。

过去五年,英伟达一次次刷新最高市值记录,关键在于它提供了最强的算力单元(GPU);它掌控了 CUDA(英伟达通用计算平台)生态,形成软件锁定;它成为所有 AI 公司(OpenAI、Anthropic、Google)的算力上游。

而在太空算力时代,这三点都可能都将被重新分配,那个时候,算力空间才是下一个红利。

AI 的极限,也许才刚刚开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌