普通视图

发现新文章,点击刷新页面。
昨天 — 2026年4月28日极客公园

汽车的「OpenClaw 时刻」,到了?

2026年4月28日 19:26

汽车的「OpenClaw 时刻」,到了?

摘要:更聪明的智能助手,和真正的「AI 控车」。

极客一问:你觉得现在车上的「AI 助手」智能化程度如何?

头图来源:极客公园

作者|靖宇

走完 2026 北京车展的十几个展馆,我最大的感受是,车企的高管,肯定是用上「小龙虾」了——今年,如果你的新车没搭个大模型,你都不好意思开发布会。

火山引擎带着豆包宣布搭载超 700 万辆车;腾讯发布出行全场景智能体开放平台;科大讯飞推星火智能座舱;面壁智能展示端侧 Agent 框架 EmbodiedClaw,连奔驰新一代 S 级都在后排塞了一颗端侧多模态大模型 VLM。

更不用说华为的鸿蒙座舱 HarmonySpace 6、宝马与阿里联合定制的 AI 大模型——放眼望去,整个车展弥漫着一种「不 AI,就出局」的紧迫感。

但如果你真的坐进这些车里,一辆一辆试过去,会发现一个略显尴尬的事实。

绝大多数所谓的「AI 座舱」,本质上还是一个更智能、会聊天的语音助手。

它们可以帮你规划出去某个景点的打卡和网红餐厅路线,搭载了大模型能力,也能和你闲聊非常多话题,并且情绪价值给足。但是,在真正「控车」环节,能力依然欠奉——至少在 Q4 之前,真正的 Agent 控车的量产车,可能还送不到消费者手里。

这就是 2026 年汽车 AI 最核心的一个断层:人人都在讲 Agent 上车,但从 Chatbot 到 Agent,中间差的东西,比大多数人想象的要多得多。

人人都在讲 Agent,但 90% 还是 Chatbot

两年多之前,大模型上车就已经是车企共识,在 2026 年已经不是什么新闻了——它现在是基础设施,而不是时髦的噱头。

豆包(火山引擎)、通义(阿里)、星火(科大讯飞)、腾讯混元、面壁 MiniCPM……几乎所有主流大模型都在抢汽车的入口。你甚至能在车展的展台上,看到同一家车企,不同产品接入了不同的模型厂商的产品。

真正的问题是:接了大模型之后,体验变了多少?

讯飞也在做星火智能座舱方案|图片来源:极客公园

我在车展期间跟科大讯飞的人聊,他们的星火大模型(星火智能座舱)也在做上车方案。一个很有代表性的细节是,他们告诉我,目前星火上车做车控的思路,是大模型生成指令之后,映射到之前传统语音助手的控车路线上。换句话说,AI 的「脑子」是新的,但「手脚」还是旧的。

这不是讯飞一家的做法。目前行业里绝大多数「大模型上车」的合作模式,都是车企调用一个云端大模型 API,替换掉原来的语音引擎。 对话更自然了,知识更丰富了,情绪识别更好了——但你说一句,它答一句,这还是 Chatbot 的逻辑。

真正的 Agent 上车应该是什么样的?

火山引擎在这次车展发布会上用了一个很准确的表述:从「回合制问答」到「感知-推理-执行-记忆-学习」的一体化闭环。翻译成人话就是,它不只是回答你的问题,而是能主动感知环境、理解你的意图、拆解任务、调用车上的各种能力把事情办完,而且还能记住你的习惯,下次做得更好。

有一个很简单的判断标准,你对车说「我有点闷」。Chatbot 会问你「要不要开窗」;而一个真正的 Agent,应该能结合当前温度、湿度、车速、你的历史偏好、后排有没有人在睡觉,自动做出一套组合调节——可能是开一条缝的车窗加上调低空调两度再打开座椅通风。

这个差距看起来不大,但背后涉及的工程复杂度,是完全不同量级的。

从 Chatbot 到 Agent,差的不是模型,是「底座」

为什么,从「能聊天」到真正「能办事」这么难?

很多人的第一反应是模型不够强。但其实,以目前豆包、通义、星火这些大模型的能力,理解「我有点闷」这句话的含义,并不是什么难事。真正的瓶颈在另一个地方:大模型再聪明,如果车企不把底层能力开放出来,它也只能陪你聊天。

这就像你请了一个特别聪明的助理,但你不给他公司的系统权限,不让他调动任何资源。他再聪明,也只能坐在那跟你对话。

Agent 上车,最大的挑战就是这个。

一辆车的底层有几千个硬件接口——空调、车窗、座椅、氛围灯、通风、导航、行车信号……这些东西原本是为「按钮」和「触屏」设计的,不是为 AI 设计的。你突然让一个大模型来操作这些东西,它连信号都拿不到,更别说安全地控制了。

而且,车控不是小事。如果你只是简单地把接口暴露给 AI,让它直接调用,一旦产生安全问题,结果就可能很严重。

所以 Agent 上车的核心难题不是「大模型能不能理解我的话」,而是「理解之后,怎么安全地、精确地、在对的时机帮我把事办了」。

火山引擎和荣威合作的新产品序列「家越 07」|图片来源:极客公园

在这次车展前后,我深入了解了火山引擎和荣威合作的一套方案,叫 CPP 架构。这可能是目前行业里对「Agent 上车」想得最深、做得最重的一个案例。

CPP 是三个词的缩写:Context、Planner、Pixel。但它不是一个 Agent——它是一个 Agent 的「操作系统」,业内叫 runtime。

先说 Context。

大多数车载 AI 的「上下文」就是你跟它聊天的记录。但 CPP 的 Context 做了一件很激进的事——它把上下文泛化了。不只是对话,而是把车内外的所有信息都当作 AI 的「感知输入」:9 到 13 路外部摄像头、2 到 3 路内部摄像头、车辆的所有传感器信号、用户的长期记忆,甚至豆包 App 上的个人偏好数据。

这个「泛化」听起来简单,做起来极难。因为这些摄像头和传感器,原本是为自动驾驶、360 度倒车影像、行人检测这些功能设计的。你突然要让座舱 AI 调用它们来判断「后排的小朋友是不是睡着了」,就需要在底层重新打通信号通道。荣威能做到这一步,靠的是七年三代电子电器架构的积累——这不是短期能补的功课。

再说 Planner。

荣威的 CPP 架构|图片来源:荣威汽车

这是 CPP 最核心的一层。它不是一个单一的大模型,而是一个多模型协作的「任务规划器」。简单的指令(开车窗)走一个轻量快速模型,毫秒级响应;复杂的任务(帮我规划明天的行程)走一个深度思考模型,允许异步处理;环境感知(后排有没有人)走视觉模型。

这里有一个很精巧的设计叫 pre-tool 和 post-tool。比如你说:「北京鸟巢旁边那个什么会议中心附近的星巴克,帮我导过去。」这个请求很复杂,AI 需要先理解「鸟巢旁边的会议中心」是水立方还是国家会议中心,然后搜索附近的星巴克,再设定导航。

如果等它全部算完再回答你,可能要好几秒——在车里,几秒的沉默就会让人觉得它死机了。所以 pre-tool 机制会让 AI 先快速回一句「你说的是水立方吧?我现在帮你找附近的星巴克」——这段话说出来的 3 秒钟里,后台另一个并行任务已经在疯狂计算了。算完之后,post-tool 把结果汇总,接上前面的话继续说。用户感受到的是一段连贯的对话,背后其实是两三个模型在并行工作。

最后是 Pixel——像素级执行。

这才是整套架构里最「重」的一层,也是最需要主机厂自己来做的一层。荣威的做法是把底层两三千个硬件接口,封装成七八百个安全的「服务层」接口。AI 不直接操作底层硬件,而是调用这个服务层。 就像你开着车去按 P 档,它按不下去——不是因为有人告诉你「不能按」,而是在架构层面就锁死了。

这就是他们内部说的「黑区、灰区、彩区」设计。彩区,AI 可以尽情发挥;灰区,有条件地执行;黑区,比如行驶中的关键安全操作,无论 AI 多聪明都碰不到。

荣威和火山引擎+豆包的开发强度超出了行业预期。 荣威的服务层封装已经迭代到第三代,光第三代的研发周期就超过两年半。火山引擎的联合开发团队高峰期近 200 人。而且这不是火山单方面做的——CPP 的每一层都需要车企和大模型厂商一起定义,因为车载场景的需求(延迟敏感、安全要求、多人多角色交互)和手机、电脑上的 AI 完全不同。

但原生方案的门槛极高。你需要车企愿意把底层架构打开,需要大模型厂商深入理解车载场景,需要双方投入两年以上的联合开发——其中每一项都难度极大,意愿极低。这也是为什么整个行业都在喊 Agent,但真正落地的几乎没有。

MaaS 大战,烧到了汽车上

技术问题之外,Agent 上车,还有另一个看不见的战场——云服务市场的争夺。

汽车座舱正在成为 MaaS 的新战场。不夸张地说,这可能是继公有云之后,中国科技巨头们最激烈的一次 B 端抢滩。

目前至少有四条路线在同时跑。

火山引擎和豆包走的是「C 端撬 B 端」的路线。豆包 App 日活已经突破 3 亿,这意味着字节在自然语言交互、情绪识别、个人偏好学习上积累了海量的用户数据。火山引擎把这套能力打包,推到汽车端,目前搭载量超 700 万辆,覆盖 50 多个品牌、145 个车型——这个数字是行业第一。

豆包座舱助手能实现的能力|图片来源:极客公园

更重要的是,火山这次发布的「豆包座舱助手」,直接与手机端的豆包 App 打通。这意味着你在手机上训练出来的个人偏好——你喜欢被安慰还是喜欢听干货、你的说话风格、你常问的问题类型——上车就能无缝继承。这是其他家做不到的,因为没有人同时拥有一个 3 亿日活的 C 端 AI 应用,和一套 B 端的汽车云服务。

阿里云走的是传统 B 端强客户关系的路线。

宝马在中国选了阿里联合定制 AI 大模型,这是一个标志性事件。阿里云在汽车行业经营多年,客户基盘扎实,而且在训练基础设施、数据中台方面有深厚积累。

腾讯则选了一条完全不同的路。在车展前一天的 TIMEDAY 大会上,腾讯发布了出行全场景智能体开放平台。他们的逻辑不是「卖模型」,而是「做底座」——不绑定生态,而是开放能力,让车企在腾讯的平台上自己搭。目前腾讯产品的座舱搭载量超 1800 万辆,在头部车企中渗透率超过 80%。连特斯拉在中国市场,都选了腾讯来做微信互联和目的地服务。微信支付、小程序、腾讯地图——这些生态资源是腾讯的独家护城河

华为最特殊,走的是最接近 Tier 1 的路线。鸿蒙座舱加乾崑智驾,深度绑定车企,从芯片到操作系统到应用层全部自研。

在这个格局里,火山引擎的位置很微妙。

极客公园在车展期间参加了火山引擎的媒体群访。火山引擎高管在被问到「是否想做华为那样的大模型上车 Tier 1」时,明确说了「不想」。但你看他们实际在推的东西——「豆包座舱助手」是完整的产品级交付,跟豆包 App 互联互通,年内量产——这已经远远超出了一个「API 供应商」的边界。

嘴上说不做 Tier 1,身体很诚实。

更有意思的是他在群访中对整个行业的评价——一句很轻描淡写的话:「人才密度较低。」翻译一下,就是火山和字节,觉得自己在这个赛道上是「降维打击」。

这种自信不是没有道理的。

字节系有两个别人没有的东西:一个是豆包 App 积累的海量交互数据和情绪模型(3 亿日活不是白来的),另一个是今日头条和抖音体系沉淀的,内容数据和信息清洗能力。这些资产用在车载场景里——比如让 AI 带你做冥想,它从网上学来冥想的流程、话术、配乐,然后结合车内的氛围灯和座椅调节——这种跨域能力不是传统汽车供应商能复制的。

但火山也有自己的短板。

火山引擎在北京车展的展台|图片来源:极客公园

700 万辆搭载量虽然是「第一」,但其中大部分是标准 API 接入,真正做到 CPP 级别深度合作的标杆客户,还在打造中。数据好看,但深度还不够。 这也是为什么火山高管在群访中反复强调「ToC 的用户体验」和「社会价值」,而对短期商业闭环的问题打了很多太极。

这场 MaaS 大战的本质,其实不是谁的模型更强——真正的胜负手是谁能把「服务闭环」做得更深。 火山的优势是 C 端生态和内容数据,阿里的优势是 B 端客户关系和云基础设施,腾讯的优势是社交生态和支付。

谁能赢?现在下结论还太早。但有一点可以确定:Agent 上车这件事,正在把汽车产业的竞争维度从「硬件制造」拉,向「软件生态」

而在这个新战场上,传统车企的话语权,可能比他们想象的要小。

尽管车展上 Agent 上车的声量震天响,冷静看,目前真正的 AI 原生架构,在行业里几乎没有量产交付的案例。即便是合作了一年半的荣威和火山,也才走到 CPP 的 runtime 层,真正能控车、能主动服务、能持续学习的智能助手,预计最快也要到今年年底才能跟用户见面。

但这恰恰说明了一件事:大家终于不再满足,只是给车里塞一个聊天机器人了。

从 Chatbot 到 Agent,从「接 API」到「建 runtime」,从「语音助手」到「整车大脑」——这条路确实很长。但至少在这一届北京车展上,我们已经看到了行业转变的信号,而一旦 Agent 上车的能力,给消费者带来跨时代的体验,汽车行业无疑会再次迎来猛烈的进化。

毕竟,在中国这个神器的市场上,即便是大爷大妈,都是会拿着电脑让人帮忙装「小龙虾」的。

当剪辑工具开始「听懂人话」:剪映做了视频创作的Skill化Agent

2026年4月28日 09:54

 

如果有人告诉你,视频剪辑可以像「刷手机」一样轻松,你大概率会在脑海里冒个问号。

毕竟在我们的习惯里,剪辑往往意味着「高强度的手眼协同」——要么是端坐桌前、左手快捷键、右手鼠标;要么就是盯着巴掌大的手机屏幕,在层层折叠的菜单里寻找功能,小心翼翼地用手指拖拽那几毫米的轨道。

但剪映刚上线的 AI 助手,正在试图打破这个刻板印象。

想象一下,你靠在椅子上,不需要触碰鼠标,只需要对着你的手机动动嘴:「帮我把这几段素材剪个 Vlog,配个欢快的音乐。」

甚至当你发现少了一张转场空镜时,都不用切出软件去搜图,直接说:「在这生成一张背景图。」

这种「动口不动手」的体验,让我们在剪辑视频时,也离《钢铁侠》里 Tony Stark 那个随时待命的 Jarvis,又近了一步。

这一年来,AI 视频的竞争逻辑正从比谁「生成得更好」,转向比谁能通过 Agent 把一整套任务真正执行出来。单纯的内容生成早已不是壁垒,能深度接管专业工作流、精准执行复杂指令的智能体,才是行业新焦点。

剪映 AI 助手率先证明,语音/自然语言交互可以深度接管复杂的专业软件工作流,用LUI(语言用户界面)重构传统剪辑GUI(图形用户界面)。同时,还有一件事正在发生:所有的创作,最终都在剪映见。

对于不少传统创作者而言,剪映是他们完成剪辑的终点;而对于新型的 AI 创作者,即便他们在其他软件上完成了生图、生视频,最终仍会回到剪映进行精细化的修整与组接。

这种「殊途同归」的现象,让剪映看到了「All in One」的机会——此前去年在 9 月份,剪映就通过升级 AI 文字成片功能,打通了从「AI 生成」到「精细化编辑」的最后一公里。

市面上具备生成能力的 Agent 很多,但真正能做到「视频生成 + 专业编辑 + Skill化执行」的 Agent,现在只有剪映做到了。

这不仅得益于前沿大模型能力的接入,更离不开剪映多年来积累的海量功能与底层编辑引擎。正是这些深厚的工具积淀,才支撑起了一个不仅能听懂人话,更能以多Skill协同完美执行复杂剪辑任务的「全能AI创作合伙人」。

通过消除「工具熟练度」带来的技术壁垒,剪映让内容的竞争真正回归到了「故事」和「创意」本身。

 

一、从「手眼协同」到「人机共创」

旅行的时候想拍个 Vlog,看到漂亮的场景一顿猛猛拍,旅行结束一打开相册——眼前一黑。

这大概是每一个热衷记录生活的人的真实写照。拍摄时的多巴胺分泌,在面对相册里成百上千个碎片化视频、杂乱的背景音和参差不齐的画幅时,瞬间转化为了不小的心理负担。原本想要记录的美好回忆,变成了一笔沉重的「剪辑债」。

这种「素材在相册吃灰」的现象,本质上是因为传统视频剪辑的工作流存在巨大的「劝退门槛」。

长期以来,视频剪辑不仅是审美的考验,更是体力的消耗。即使只是想把这些旅游素材拼成一个简单的回忆录,你也需要经历筛选、粗剪、卡点、调色等一系列机械劳动。这些高门槛、高重复的「Dirty Work」,拦住了无数想要表达的人。

在这种传统的非线性编辑(NLE)逻辑下,创作者的大量精力被消耗在非创造性的环节中——在层层折叠的菜单里寻找功能入口,在复杂的参数面板中反复试错,或是进行枯燥的素材清洗。

在那个被称为「剪辑」的黑盒子里,充满了繁琐的鼠标点击和指尖拖拽。只要涉及到对视频流的精细化控制,创作者依然无法绕过那个由轨道和参数构成的精密迷宫。

点一下「小灯泡」,就可以看到剪映AI助手的诸多功能|图片来源:极客公园

 

这些痛点的存在,正在呼唤一种新范式的出现。

剪映 AI 助手的核心,正是试图通过重构交互方式,来打破这道复杂的专业壁垒。它不再只是一个辅助功能的叠加,而是引入了 Agent,将人与工具的交互界面从「图形化界面(GUI)」升级为了「自然语言对话(LUI)」,同时也落地了剪辑Skill库这一行业前沿能力。

它就像是一个懂技术的「Skill化剪辑中枢」,允许用户跳过对软件操作逻辑的学习,直接通过语音或文字指令,调用剪映背后专业的多轨道剪辑能力。

极客公园也体验了这种「工具能听懂人话」的能力。

让剪映AI助手帮我把这些去年旅行的素材剪个vlog(视频有加速,实际等待时间五十秒左右)|视频来源:极客公园

 

可以看到,我只是说了一句「帮我把这些素材制作成vlog」,剪映AI助手就帮我完成了搭配背景音乐、智能转场等任务,生成了一个完整的视频内容,音乐我想换一个欢快风格的,也是直接跟AI助手说就换完了。

这些放在往常「我知道怎么做,但我懒得做」的耗时耗力的流程,被压缩成了一句简单的指令。只需下达命令,剪映AI 助手就能精准识别意图,自动调度底层Skill能力,快速完成过去需要数分钟才能搞定的「体力活」。

 

生文串联场景也变得很方便(视频有加速,实际等待时间二十秒左右)|视频来源:极客公园

不光剪视频,给视频配文字也得花心思,现在,剪映AI助手连这一步都可以帮我做了。这个小猫的视频,也是我在视频里对剪映AI助手说了一句猫咪配一段内心独白,它直接就给我生成了。

剪映 AI 助手的上线,意味着剪辑软件正在从「功能罗列」走向「意图理解+Skill执行」。功能入口之外,它还串联起剪映庞大工具库的「中枢神经」,让内容的竞争真正回归到了故事与创意本身。

 

二、Skill化Agent 如何接管「Dirty Work」?

市面上大多数 AI 产品都在往做任务的方向走,那么剪映 AI 助手的定位也非常明确——它是一个能精准执行剪辑任务、覆盖全场景Skill的专业执行Agent,专注于解决剪辑场景的真实痛点。

什么叫专业执行Agent?就是能在你「不会做」的时候帮你「想」,也能在你「懒得做」的时候帮你「干」,用标准化Skill把所有繁琐操作一键落地。

在剪辑时,用户通常有两种心理场景:

第一种是「我知道怎么做,但我懒得做」,一种面对繁琐操作时的「效率需求」。

比如当你拍了一堆素材,心里清楚需要把它们剪短、去噪、调色,但一想到要在手机上进行几百次点击,瞬间就想放弃。这时候,AI 助手就是那个不知疲倦的执行者。你只需要发出指令,它就能接管这些耗时且无创造力的批量操作。

第二种是「我不会做,你来帮我想」,一种面对模糊需求时的「创意需求」。你可能只是想要一个「比较高级的转场」或「适合秋天的滤镜」,但不知道具体该用哪个功能。此时,AI 助手就变成了提供灵感的创意总监,它能听懂你的模糊指令,直接调用对应Skill帮你完成构想。

同时,剪映AI助手精准匹配三类创作者需求:剪辑高手:靠批量编辑Skill,快速处理多轨道、大批量素材;剪辑初阶:用模糊指令触发基础剪辑Skill,快速定位功能、完成操作;剪辑小白:依托生成式Skill,零思路、零操作也能一键出片。

视频来源:极客公园
可以看到,只需要说句话,剪映AI助手很高效地批量帮我剪掉了嗯、啊、就是这些语气词——它直接在我的草稿上动手,剪辑点也清晰可见,随时可微调。这就是 LUI(语言交互) 的魅力:让内容创作回归创意本身,而繁杂的「体力活」,交给剪映 AI 助手这个全能 Agent 就好 。

不过,要让 AI 从「听懂」一句闲聊,进化到精准「执行」一个复杂的剪辑指令,这背后其实是一场交互技术的深层重构。

首先,它要能像「大管家」一样拆解需求,调度多Skill协同。剪映拥有庞大的工具库,面对用户千奇百怪的口语化表达,AI 需要极强的意图识别与分发能力。

这背后是多Agent分治+Skill化调度技术的支撑——可以把它想象成一个高效的施工队。当你下达指令时,总指挥(主 Agent)会迅速理解意图,然后将任务分发给负责剪辑、配乐、调色等不同领域的「专家」(子 Agent),精准调用对应剪辑Skill。通过这种分工协作,AI 能够精准地将「把视频调得亮一点」这句人话,映射到具体的「亮度参数调节」轨道上。

其次,它要能在「工作台」上直接动刀,支持动态可编辑。不同于那些只能生成一个即时视频文件的 AI,剪映 AI 助手的一大突破在于动态草稿协议。简单来说,AI 不是扔给你一个无法修改的成品视频,而是直接在你的剪辑轨道上进行操作。

结合端云协同能力,AI的每一步操作都在云端与客户端实时同步,全程透明可编辑,真正实现人机共创。

最后,它还具备像人一样的「反思」与「反问」能力。

一个专业的Agent,在听不懂需求时会主动确认。当指令过于模糊或任务执行失败时,AI 助手不会强行乱做,而是会触发「反问」与「反思」机制,像真实助理一样确认需求。这种自我修正的能力,大大降低了沟通的门槛。

可以看到,剪映AI助手已经成为聚焦剪辑场景的Skill化执行体。对于剪辑高手而言,它是处理批量素材的效率倍增器;而对于小白用户,它则是随时待命的灵感提供者。

它证明了在专业工作流中,Agent 的价值不仅是生成内容,更是通过接管那些繁琐的「Dirty Work」,让创作者重新拿回对创意的掌控权。

 

三、视频创作的「言出法随」

此前的 AI 视频赛道,目光大多聚焦于「从无到有」的惊艳生成。但对于追求高质量产出的专业创作而言,生成的结束,往往只是工作的开始。

生成式 AI,虽然解决了素材的来源,却难以满足创作者对叙事结构、节奏卡点以及画面精修的专业化刚需。

而且,在很长一段时间里,行业内存在着一种割裂:要么是能生成但没法改的「盲盒式模型」,要么是能改但缺乏智能的「传统工具」。

2025-2026年,行业已彻底告别「全能AI」泡沫,垂直Skill化Agent成为专业工具的核心方向。剪映 AI 助手的出现,进一步弥合了这道裂缝,它解决了前述痛点,让创作者从纠结转场、卡点的「操作员」,晋升为发号施令、把控审美的「导演」。

这也是对剪映「All in AI,All in One」品牌理念的有力践行。

现在的它虽然可能还是早期形态,并不能完全替代人类剪出奥斯卡大片。但它展示了一种趋势——未来的剪辑软件可能不再有复杂的界面,LUI对话+Skill调用的三位一体模式,将逐渐替代传统GUI操作。

剪映AI助手以语音交互为核心卖点,真正把剪辑门槛降至0,你不会的、懒得做的,动动嘴就能完成。从「学剪辑、找功能」到「说需求、等结果」,未来的视频创作,创作者将不再被工具束缚,核心竞争力将彻底回归「创意」本身,人人都能成为自己生活的视频导演。

 

小红书:内容添加 AI 标识,反对 AI 造假;小米全新机器人亮相;微信 15 周年皮肤衣开卖,238 元 | 极客早知道

2026年4月28日 08:16

小红书首次公布 AI 治理主张:坚决反对四类 AI 行为,给 AI 创作划出清晰边界

4 月 27 日,小红书首次公布平台对 AI 内容的治理主张,并在北京举办首届 AI 治理开放日。此次 AI 治理主张共分为「平台鼓励的 AI 内容及行为」和「平台反对的 AI 内容及行为」两大板块,以给到创作者清晰指引。

小红书明确了对待 AI 相关现象的核心态度:鼓励 AI 作为创意放大器,反对 AI 作为造假工具与低质内容生产机器,所有 AI 参与创作的内容均需主动标识。

此外,AI 治理主张再次强调了创作者应对 AI 参与创作的内容进行主动标识,未进行标识的 AI 内容,平台将在识别后统一添加 AI 标识贴条。

在明确「鼓励的 AI 内容」的同时,小红书也梳理出了四类平台反对的 AI 行为:利用 AI 违规运营、利用 AI 造假、利用 AI 侵权,以及利用 AI 进行低质创作。(来源:雷峰网)

微软将不再向 OpenAI 支付分成

微软和 OpenAI 公布合作的下一阶段安排,微软公司称,将不再向 OpenAI 支付收入分成。

OpenAI 向 Microsoft 的收入分成支付将持续到 2030 年,与 OpenAI 的技术进步无关,按相同比例支付,但受总额上限限制。

Microsoft 将继续持有 OpenAI 的 IP 授权,适用于模型和产品,直到 2032 年。Microsoft 的许可将成为非独占的。Microsoft 仍然是 OpenAI 的主要云合作伙伴,OpenAI 产品将优先在 Azure 上发布,除非 Microsoft 无法支持或选择不支持必要的功能。Microsoft 作为主要股东,继续直接参与 OpenAI 的成长。(来源:新浪科技)

 

被传与 OpenAI 合作开发 AI 智能手机处理器后,高通股价飙升 13%

4 月 27 日消息,据路透社报道,美股周一盘前,高通股价上涨 13%。此前,分析师郭明錤称,OpenAI 正在与高通和联发科合作开发智能手机处理器。

天风国际证券分析师郭明錤在 X 上发文称,高通和联发科将共同参与 OpenAI 一款以 AI 为核心的智能手机开发,或在 2028 年进入量产。

郭明錤还称,「果链」厂商立讯精密将成为这款设备唯一的系统设计和制造合作伙伴。

OpenAI 目前仍处于亏损状态,也已经收缩部分非核心项目,把更多精力转向面向企业的编程工具。对 AI 行业来说,编程工具是少数已经出现清晰商业需求的领域。

若 OpenAI 推出智能手机,将直接面对资金雄厚的两大对手——苹果和三星。两家公司合计掌握全球智能手机市场约 40% 的份额。(来源:IT 之家)

中方禁止外资收购 Manus 项目

据国家发展改革委网站 4 月 27 日消息,外商投资安全审查工作机制办公室(国家发展改革委)依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易。

2025 年 12 月 30 日,全球首款通用人工智能体 Manus 发布公告称,Manus 即将加入美国科技巨头 Meta。Manus 将继续通过 app 和网站为用户提供产品和订阅服务,同时公司将继续在新加坡运营。

今年 4 月 2 日,针对 Meta 收购 Manus 会采取哪些措施以及企业跨国经营的相关问题,商务部新闻发言人何亚东回应说,中国政府支持企业根据需要开展跨国经营与技术合作,相关行为需遵守中国法律法规,履行法定程序。(来源:新华社)

 

阿里 HappyHorse 灰测,720P 视频生成低至 0.44 元/秒

阿里巴巴视频生成模型 HappyHorse 1.0 开启灰测。全球专业创作者和企业级客户可在 HappyHorse 官网和阿里云百炼平台注册使用,大众用户可在千问 App 体验。官网 720P 视频生成刊例价 0.9 元/秒。

HappyHorse 1.0 依托原生多模态架构,采用音视频联合生成方案,面向广告、电商、短剧、社媒创意等内容生产场景,提供从智能生成到编辑的一体化创作能力。

HappyHorse 官网是专业全能的 AI 视频创作平台,新用户注册享免费额度,720P 和 1080P 的视频生成刊例价分别为 0.9 元/秒及 1.6 元/秒,专业会员包月价格叠加限时折扣后为 0.44 元/秒和 0.78 元/秒。

灰测阶段,HappyHorse1.0 的模型能力仍在不断迭代升级。阿里悟空、MuleRun 和 JVS Claw 等 Agent 平台也已接入。目前,HappyHorse 官网已开启「超级创作者 · The First 100」活动,诚邀海内外 AIGC 创作者加入,用户可在官网填写问卷报名。(来源:新浪科技)

 

238 元买不到,微信 15 周年限量皮肤衣开卖

4 月 27 日消息,微信迎来 15 周年,官方推出了限量纪念款风壳皮肤衣,定价 238 元,属于无限绳结系列,仅限内部员工购买。

这款皮肤衣是微信 15 周年的限量款,设计很有辨识度。灵感来自大家熟悉的微信气泡 Logo,再结合数学里的无限符号,经过艺术化处理,做成了无限绳结的图案,简约又有辨识度。

设计上致敬了传统织物的美学,绳结之间相互咬合,看起来很有秩序感,同时也像不断延伸的网络,寓意微信生态的开放、连接与环环相扣,既有纪念意义,日常穿也不突兀。

衣服属于风壳皮肤衣,材质轻薄,适合春夏出行、日常通勤穿着,防晒、防风、轻便好收纳,实用性很强。(来源:快科技)

 

华为余承东首次回应享界 S9 麋鹿测试黑幕,称轮胎被放气、拧松

4 月 27 日消息,在昨天的「鸿蒙智行会客厅」直播活动中,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东首次谈及了此前享界 S9 系列车型遭遇的麋鹿测试黑幕。

余承东表示,享界 S9 麋鹿测试成绩非常优秀,但他们做测试的时候把轮胎气放掉、把轮胎拧掉 / 松掉、一开车把轮子开丢掉,并且还干了各种很多这样的事。而实际上,享界 S9 麋鹿测试成绩为 84.1km/h,享界 S9T 麋鹿测试成绩为 83.3km/h。

今年 3 月,享界汽车法务部发布声明,称各网站平台上出现的大量关于享界 S9「麋鹿测试」的视频,经核实,相关测试存在恶意、刻意操控行为,并非专业机构按照国家标准开展的「麋鹿测试」。

(来源: IT之家)

小米全新机器人亮相

在今天举行的小米投资者日上,新款小米机器人正式亮相,博主@粮厂研究员 Will 发文,展示了这款全新小米机器人的细节。

目前,小米官方尚未公布这款全新机器人的具体技术细节,不过参考相应博主发布的机器人的动作视频,其中显示机器人手部整体动作流畅,分发纸袋动作灵活自如。

作为比较,早在 2022 年,小米就曾展示过名为 CyberOne 的首款全尺寸人形仿生机器人「铁大」,其身高为 1.77 米,重 52kg,支持多达二十一个自由度,并能实现零点五毫秒级别的实时响应。

在交互能力上,「铁大」机器人搭载了自研的 Mi-Sense 深度视觉模组。结合先进的 AI 算法,它不仅拥有完整的空间感知能力,还能精准识别人物身份、手势及表情。(来源:IT 之家)

 

苹果 20 周年版 iPhone 曝光:全新四曲面屏幕,打造物理液态玻璃效果

4 月 28 日消息,多方爆料者证实,苹果计划在 2027 年 iPhone 诞生 20 周年之际,推出一款采用全新四曲面设计的纪念版 iPhone。

据博主 i 冰宇宙透露,苹果或将其命名为「液态玻璃 Display」, 是一种全新形态的四曲面屏幕,与常规安卓机型不同,并非追求大曲率,而是侧重视觉观感。

利用光学折射与视错觉,营造出「看不见边框、又不影响边缘显示」的极致一体感。

屏幕由三星定制,曲率温和,边缘区域可正常显示内容并支持触控交互,兼顾美感与实用性。

目前消息显示,该机有望同步搭载屏下 Face ID+屏下前摄,彻底取消灵动岛与挖孔,实现正面无开孔的真全面屏形态,配合四曲面玻璃盖板,达成「一整块玻璃」的终极视觉效果。

作为 20 周年里程碑机型,该机定位超高端旗舰,预计 2027 年 9 月发布,全面开启 iPhone 新一轮设计周期。(来源:快科技)

GPTImage2 成为赛博半仙,给马斯克看面相

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。这场由 AI 爱好者

Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。

不过,其实手掌、指纹属于敏感生物特征数据,随意上传公开存在泄露与滥用风险。同时,这类分析仅为娱乐参考,并非科学判断。(来源:APPSO)

MiniMax 登上戛纳,AI 与艺术的全球和解开始了?

2026年4月27日 10:59

作者|Cynthia

编辑| 郑玄

 

2026 年的春天,影视圈的风向开始变了。

4 月 21 日,全球首个,也是迄今为止规模最大的 AI 电影节 WAIFF(2026),在法国戛纳电影宫正式举办。蔚蓝海岸线前,一众影视行业的从业者鱼贯而入,但一改往日红毯众星云集的流光溢彩,这一次的电影节,地毯换成了象征科技的紫色,而走上这条「紫毯」的,也换成了一众 AI 内容的创作者。

几乎同一时期,地球另一端的中国影视圈:恒星引力这家打造出《苍兰诀》《永夜星河》的头部 IP 公司,正式与头部大模型公司 MiniMax 签署 AI 内容战略合作,并联合推出了由 MiniMax 提供技术支持制作的《古乐风华录》概念动画,其东方幻想美学风格,迅速在业内出圈。

一边是全球顶级影展的背书,一边是国内头部厂牌的入局。 AI 与艺术之间横亘了多年的对峙,逐渐开始松动 。AI 不再被默认视为艺术的对立面,至少深耕一线的创作者们,已经用实际行动证明使用 AI 是一个可以拿到台面上的创新探索。

而这一连串动作,也像是一枚投入湖心的石子,涟漪不断向外扩散,开始影响整个影视圈对 AI 的看法。

 

01

风向:

恒星引力的 AI 影视工业路径

 

在聊 AI 影视之前,我们得先回答一个问题:

为什么程序员不抗拒 AI 编程,但艺术家对用 AI 表达讳莫如深? 同样基于 Transformer 架构,都是暴力美学式的参数堆叠。但为什么接受度差这么多?

因为艺术的世界里,优质作品的内核永远依附于鲜活的创作者,承载着独有的人生阅历与审美取舍,成为创作的灵魂。

AI 可以学习技巧,但创作灵魂没法 prompt。

可是,如果 AI 不是来替代灵魂的,而是来放大甚至拯救灵魂的呢?

2025 年,中国影视行业发生了一件被低估的事:长剧集的流量底盘在持续收缩,但供给量不降反升。根据云合数据创始人李雪琳的演讲,2025 年新剧的集均 V30 以及全网长剧的有效播放都出现下滑,而剧集上新量并未减少。也就是说,传统长剧集运营模式已难以适应当前的市场节奏。

而 AI,或者正是那个改变长剧运营模式的关键变量。 2025 年 4 月,成都第十三届中国网络视听大会的「东方幻想 IP 进化与内容新范式」分论坛现场期间,恒星引力成为了第一个吃螃蟹的玩家。

活动期间,恒星引力正式与大模型玩家 MiniMax 签署 AI 内容战略合作协议。

对很多人来说,恒星引力这家公司可能不如华策、新丽那样家喻户晓,但它的 IP 运营能力在国内绝对顶尖——截至目前,恒星引力出品内容累计有效播放近 200 亿,其代表作《苍兰诀》甚至能在播出三年后,仍位居全网长剧霸屏榜第 21 名。 这种量级的 IP 一旦合作 MiniMax,接入 AI 生产管线,能产出的内容体量是惊人的。

合作的另一边 MiniMax,则是全球少数掌握文本、视频、语音、音乐全模态能力的大模型企业。其海螺 AI 视频系列已累计生成超 6 亿个视频,语音模型支持 40 余种语言,海外营收占比超七成,全球个人用户数破两亿(截止 2025 年年底)。

一个是内容灵魂的创作者,一个是技术表达的制造者。两者结合, 「 AI 带来的价值,不仅仅是降本,而是探索更高上限视觉表达 。它帮助我们让内容更精品,让东方幻想更真实,让内容拥有更多可能性。 」 恒星引力创始人、CEO 王一栩的这句话,被很多媒体反复引用。

是的,不是更便宜,不是更快,也不是更省人力,而是更多可能。

过去几年,影视与内容创作行业里,长期弥漫着一种 AIGC can do everything 的迷信与恐慌,好像只要接入 AI,传统影视公司就能鸟枪换炮,创作者就要原地失业。但真正在片场待过的人都知道,事情没那么简单:

AI 生成的素材,不仅风格统一度不足、情感表达难以精准把控;更重要的是,当你花大价钱买了一套 AI 系统,最后发现它只能给你提供能用但平庸的产出,这对严格遵循二八法则的内容行业来说,是致命的。

也是因此,恒星引力选择 MiniMax,看中的不是 AI 能直接产出什么,而是 AI 能帮助他们释放以及加速什么: 按照合作内容,MiniMax 的技术将深度融入恒星引力的 IP 开发全链路:从前期的世界观设计、美术探索,到制作环节的虚拟拍摄、特效生成,再到衍生内容的多形态开发。

而对恒星引力为代表的真正业内玩家来说,艺术的边界, 不会因为技术而收窄 ,反而会被敢于使用工具的人拓宽。

 

02

文化:戛纳上的紫毯

 

如果说与恒星引力 的合作,是 MiniMax 联手影视行业新锐做影视 工业化的探索,那么 MiniMax 旗下海螺在 WAIFF 的动作,则是在融进去之后的关键下一步:走出去。

2026 年 4 月 21 日,法国戛纳电影宫,第二届世界人工智能电影节(WAIFF)正式开幕。这里是全世界电影人心中最神圣的圣殿,历史上,关于围绕电影是怎样的艺术,戛纳一度成为胶片 VS 数字,院线 VS 奈飞流媒体的舆论场焦点,而每一次,戛纳都坚定地站在了艺术与美的一端,不向流量与时代妥协。

但这一次,非常罕见的,戛纳不仅成为了全球首个专注于 AI 与电影融合的国际电影节的举办地,还在今年 WAIFF 期间,邀请到了巩俐,也是全球唯一一位主演作品斩获欧洲三大电影节最高奖项的女演员担任年度主席,而巩俐本人不仅亲临现场,还亲自为 WAIFF 设计了奖杯。

从某种意义上来说,这也 代表了主流影视圈对 AI 的主动拥抱,乃至对 AI 的能力与审美的肯定

在现场同样引起轰动的,还有以色列最顶尖的 AI 视频创作者 Dor Brothers 团队。提到 AI 与创作的关系,Dor Brothers 在 WAIFF 现场分享了一个故事: 「 16 岁的时候,我天真地想——找个人雇来帮我拍电影。然后我发现,那要花 5000 万欧元。于是我决定自己学。学了几年传统电影制作之后我才意识到——就算我自己拍,它还是要 5000 万欧元。 」

 

 

之后,他引用了 Gary Kasparov 的那段著名论述: 「 我们早就知道,从我 20 多年前输给 AI 那天起,AI 下棋就比人类强。这没什么好争的。但 20 年过去了,我们还是在看人类下棋。因为 AI 是另一个物种。我们都知道它比我们强,但我们还是会去看几个愚蠢的人类猿猴,下水平很烂的棋。」「 技术总会达到新的高度,但好的内容归根结底是人和人之间的情感连接,AI 永远不会真正取代创作者。

而在此之前,作为全球范围内最有影响力的 AI 视觉创作者之一,Dor Brothers 的作品在社媒上,动辄就是数百万甚至千万的播放量,去年全网累计播放更是超过 5 亿次,常常视频中一句话就能影响一个模型的估值。但他们同时也是最早在国际舞台上推广海螺 AI 的布道者。在多个公开场合,Dor Brothers 都曾毫不吝啬地表达对海螺的认可。甚至,团队还直接将其用 Hailuo 02 制作的视频《APEX》放在了公司官网首页,单独展示。

 

 

而当巩俐、Dor Brothers 这样的顶级艺术家们开始认真对待 AI 影视 ,这种信任也会不断扩散——他们身边的朋友、粉丝、他们参加的展会受众,都会在某个时刻接触到 MiniMax,然后产生原来 AI 还可以这样的认知。

比如,在巴西圣保罗,WAIFF落地于巴西顶级电影学府FAAP,大家在讨论AI时代,制作流程如何变化,成本结构如何被重写;在韩国首尔乐天影院世界塔,WAIFF更是实现了艺人VCR助阵、AI音乐与乐团演出结合,让整个活动成为一种沉浸式AI体验剧场;在日本京都Rohm剧院,大家则更关心模型如何在复杂运动中保持出色的风格一致性,如何通过细致的人脸肌肉控制捕捉情绪变化,如何实现低成本的声音克隆与自然的多语言对白。

 

 

而在WAIFF中国区,入围作品中,也有相当一部分颇具特色:《一念》——最佳AI短片,以水墨意象呈现善恶一念的东方哲思;《朱鹮》——评审团特别奖,通过陕西话等地方语言,表达了生态关怀与生命哲学;《无岸之地》——海螺AI·最佳先锋实践奖作品,以闽南语传递出海岛居民对故土的眷恋。

这些作品有一个共同的特点:它们极具人文温度,是具体的人,是陕西的土地、是闽南的海风、是水墨背后的东方哲思—— AI 并没有削弱这些文化表达,更没有让电影变得趋同,反而让不同,变得更清晰。

 

03

影视工业化的 AI 进程,走向深水区

 

一边是行业的积极拥抱,但另一边,作为能力的提供方,自2025年10月发布海螺2.3之后,MiniMax关于视频模型,在公开场合似乎沉默了很久。

外界开始有声音质疑:海螺是不是后劲不足?2.3之后还有下文吗?要知道,等待海螺3.0正式发布的内容创作者,或许比想象的多得多。

但如果把镜头拉近,会发现另一种叙事正在水下发生。在坚持技术驱动的同时,这家公司也正投入大量精力,用于工业场景的实践积累与摸索。

MiniMax 创始人、CEO 闫俊杰在 2025 年的业绩交流会上透露过一个判断: 「 接下来一年的模型智能水平会进一步提升。多模态创作将走向'直出可交付'的中长内容,甚至出现流式、实时输出的新形态。 」

这句话的潜台词是:视频生成模型需要从能做出一段几秒的片段,进化到能支撑严肃的生产力场景。 而这个跨越,需要系统性的工程优化。 回顾海螺模型的进化路径,我们不难看到一条从 Demo 感走向工业级的技术曲线:

2024 年,首代海螺视频模型发布,虽然支持基础的人物情感和镜头控制,但物理一致性和风格稳定性仍有明显短板。

2025 年 6 月,海螺 2 发布。采用 「 Noise-aware Compute Redistribution(NCR) 」 架构,训练和推理效率较上代提升 2.5 倍,模型参数量和训练数据量分别达到上一代产品的 3 倍和 4 倍。AI 榜单 Artificial Analysis Video Arena 排名全球第二,超越谷歌 Veo 3 Preview 和快手可灵 2.0。

在此之后,2025 年 10 月,MiniMax 的 Media Agent 完成了根据用户表达一键成片的进化;同期海螺 2.3 发布,在物理表现、风格化表达、成本优化,都做了大幅提升,成为后续合作恒星引力,用 AI 落地东方美学的重要技术支撑。

更近一步,我们则可以看到,在 MiniMax 体系内:从文本大模型到视频生成、语音模型、音乐模型,再到围绕模型所建设的 agent 能力、skills 工具、harness 层,以及借此链接的更多产业场景、智能新生态, 或许会彻底把 MiniMax 由大模型公司推 向 AI 时代的平台型公司。

*头图来源:MiniMax

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

余承东:问界 M9 Ultimate 5 月亮相;苹果新 CEO 首秀定档 9 月发布会;马斯克:无人驾驶车正式投产|极客早知道

2026年4月27日 08:32
 

DeepSeek V4 成 OpenClaw 默认模型

4月26日,OpenClaw 重磅接入 DeepSeek V4!新版本 OpenClaw 2026.4.24 一发布,随即接入了最新的 DeepSeek V4 双版本——V4 Flash 成为默认大模型,V4 Pro 也已上线模型库。
从26日起,全球每一个更新 OpenClaw 的人,打开的第一秒钟,跟自己对话的大脑就是 DeepSeek V4 Flash。
可以说,DeepSeek V4 的接入,成为了 OpenClaw 更新的最大亮点。一时间,全网激动地都开始跃跃欲试。
这一次,OpenClaw 还打通了 Google Meet,实时语音通话让全网震撼。(来源:新智元)
 

马斯克证实特斯拉 Cybercab 已投产,年底将实现指数级产能爬坡

4 月 23 日消息,首席执行官埃隆 · 马斯克在特斯拉 2026 年第一季度财报电话会议上证实,Cybercab 已在得克萨斯超级工厂正式投产。
车辆工程副总裁拉尔斯 · 莫拉维确认,Cybercab 不受美国国家公路交通安全管理局针对自动驾驶车辆设定的每年 2500 辆产量上限限制。
这一 2500 辆的限制,源自美国国家公路交通安全管理局针对未完全符合《联邦机动车安全标准》车辆推出的豁免流程。以往,Waymo、Cruise 等企业想要部署非标准配置的车辆,都需要申请此类豁免,而美国国家公路交通安全管理局对每项豁免的年度配额均限定为 2500 辆。(来源:IT 之家)
 
 

拯救 Win11!揭秘微软 Windows K2 宏伟计划

4 月 26 日消息,据科技媒体 Windows Central 今天报道,微软 Windows 负责人帕万 · 达武鲁里(Pavan Davuluri)今年 3 月在交流会中确认,将着手解决用户反馈,目标把 Windows 11 打造成全球最稳定的操作系统。
尽管微软的对外说辞并不能完全反映内部真实想法。但内部消息人士透露,微软确实在认真地将 Windows 11 打造成「最佳平台」,目标 2026 年末-2027 年,让 Windows 11 处于更理想的状态。
据内部消息,这项宏伟的整改计划名为「Windows K2」,于 2025 年下半年启动。旨在解决 AI 功能过于臃肿、可靠性下降等用户反对声浪。
K2 计划的前三大核心支柱是性能(Performance)、工艺(Craft)和可靠性(Reliability)。微软将通过收集 Insider 用户反馈、遥测数据,并使用小组调查的方式改善这三大方面。(来源:IT 之家)
 

古尔曼:库克为苹果留下十大新产品线研发计划,新任 CEO 特努斯首秀定档 9 月折叠屏 iPhone 发布会

4 月 26 日消息,苹果公司新任 CEO 约翰 · 特努斯(John Ternus)将于 9 月 1 日正式上任。在他就职后不到两周,便将发布苹果十年来最重要的新品——首款折叠屏 iPhone。
根据彭博社马克 · 古尔曼(Mark Gurman)最新 Power On 透露,这一时间安排并非巧合。在苹果规划从 Tim Cook 向 Ternus 过渡的过程中,苹果公司希望由新领导者亲自发布该产品,从而使其成为这一新产品类别的代表人物。
毫无疑问,折叠屏 iPhone 对苹果来说绝对是一款复杂、创新且昂贵的产品,有望激发苹果核心用户的热情。Ternus 曾负责该设备的工程与产品开发,这也使他成为 iPhone 新时代的完美代言人。
随着两任 CEO 于 9 月 1 日完成交接,特努斯上任后的首个完整财季将覆盖今年年底的圣诞节假日销售周期。分析师预计该季度收入有望接近 1500 亿美元(现汇率约合 1.03 万亿元人民币),或超过历史同期纪录。
回顾 2011 年,库克当时刚从乔布斯手中接任时,也得益于强劲的产品线,当时 Siri 在其上任两个月后推出,随后一年内苹果发布了包括 iPhone 5、iPad mini、配备 Retina 显示屏的 iPad 与 MacBook Pro 等多款产品,而今年特努斯接任后的产品阵容更多也更强大。(来源:IT 之家)
 

华为余承东透露全新一代问界 M9 Ultimate 领世加长版汽车预计今年 5 月亮相

4 月 26 日消息,在今天的「鸿蒙智行会客厅」直播活动中,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东简单介绍了全新一代问界 M9 汽车。

 

IT 之家从直播了解到,问界 M9 Ultimate 领世加长版也来到了 2026 北京车展现场,该车目前公布的预售价格是 66.98 万起,搭载 2.0T 增程器、增程版三电机、线控转向,拥有专属外观设计 + 专属奢享座舱体验。
虽然全新一代问界 M9 和问界 M9 Ultimate 领世加长版都在 4 月 22 日发布,但据余承东透露,领世加长版会在今年 5 月份左右会跟大家正式见面。
据博主 @ 我鸿 分享,全新一代问界 M9 系列汽车 72 小时预订量突破 25000 台。该车预售价 49.98 万元起。华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东曾表示,全新一代问界 M9 全车搭载超 140 项创新技术,不是一次升级,而是一次重构,后续还会公布更多惊喜。(来源:IT 之家)
 

研究显示:AI 智能体不会让软件工程师丢饭碗,反而拓展其工作边界

4 月 26 日消息,据科技媒体 The Decoder 今天报道,查尔姆斯理工大学、沃尔沃集团研究团队最近在一篇论文指出,AI 智能体并不会让软件工程师失业。反而还可以通过「半可信执行栈」扩展工作范围。
据报道,研究团队首先提出了一个由六环组成的「半可信执行栈」(semi-executable stack)模型,将传统代码向外延伸,触达欧盟 AI 法案等社会因素。
论文中的「半可信执行栈」由六个环组成:经典代码、提示词和自然语言规范、智能体工作流编排、控制系统、运营组织逻辑、社会与制度适配。
目前,软件工程师主要在经典代码(注:第一环)、提示词(第二环)工作;而智能体工作流(第三环)、安全围栏(第四环)和决策流程(第五环)正在成为高优先级工程对象;社会制度适配(第六环)则决定 AI 的实际执行。
研究者认为,目前 AI 智能体最大的漏洞集中在第五环和第六环,人们已经写了几十年代码,但 AI 决策、制度适配等宏观流程仍然缺失,大多数研究仍然集中在修复错误、测试 AI 等。
学者表示,AI 不需要拥有顶尖人类学者的水平,只需要够用就行。大量部署 AI 带来的价值高于部分顶级专家。
此外,研究人员并没有忽视 AI 的「幻觉」问题,他们认为这更凸显了测试、监控的必要。人类在未来仍存在价值。(来源:IT 之家)
 

智能眼镜销量大涨,前两个月国内出货量同比增长超三成

4 月 26 日消息,杭州有门店负责人表示,2025 年 11 月以来,智能眼镜销量明显增长,近期新品集中上市,销量进一步上升;4 月前两周的销量,基本上已经比 3 月整个月翻一倍。
业内人士表示,AI 大模型终端落地、头部厂商相继发布新品以及国补政策拉动等多重因素,共同驱动智能眼镜销量快速增长。数据显示,2026 年 1 至 2 月国内智能眼镜累计出货 42.4 万台,同比增长 36.2%;网络零售额同比增长 183.5%。(来源:央视财经)
 

吉利旗下芯擎科技发布 5 纳米车规级 AI 座舱芯片「龍鹰二号」

4 月 27 日消息,据芯擎科技昨日消息,在 2026 北京国际车展上,芯擎科技发布 5nm 车规级 AI 座舱芯片「龍鹰二号」,计划于 2027 年第一季度启动适配。
官方表示,「龍鹰二号」可覆盖 AI 座舱、舱驾融合全场景需求,采用柔性架构,适配主机厂从入门级到旗舰级的中央计算平台演进。
IT 之家查询获悉,湖北芯擎科技有限公司成立于 2018 年,由吉利投资的亿咖通科技有限公司与安谋科技 (中国) 有限公司共同出资成立,基于 ARM 架构进行产品开发。
「龍鹰二号」AI 算力可达 200 TOPS,原生支持 7B+ 多模态大模型,具备主动意图感知能力,内置多核 CPU 360KDMIPS,GPU 2800GFLOPS,带宽可达 518GB/s,支持 LPDDR6/5X/5,官方宣称彻底消除了多屏交互与 AI 计算的数据瓶颈。
安全方面,「龍鹰二号」芯片内部集成了专用车控处理单元与安全岛,支持 CAN-FD,严苛的硬件分区设计与独立冗余架构可实现舱驾业务的物理隔离。(来源:IT 之家)
 

消息称三星 Galaxy WideFold 阔折叠手机首批备货 100 万台,三个月后发布

4 月 26 日消息,博主 @i 冰宇宙 今天在微博透露:
最轻最薄的阔折叠当属三个月后发布的 Galaxy Wide Fold,首批备货 100 万台。
据博主后续评论区补充,这款手机的重量不会超过 220 克,采用双摄设计。
据此前援引 Android Authority 消息,三星 Galaxy Wide Fold(另有消息称命名为 Galaxy Z Fold8 Wide)阔折叠手机的内屏比例为 1.3:1,基本可以认为是 4:3 比例。作为对比,现款 Galaxy Z Fold8 的比例约为 1.11:1,形态更接近正方形。形态方面,该机的设计思路致敬谷歌 Pixel Fold,采用比标准版更宽的机身比例,为用户提供更接近传统手机的握持感与更宽的阅读体验。
硬件方面,Galaxy Z Fold8 Wide 预估采用和 Galaxy Z Fold8 同款配置,采用高通第五代骁龙 8 至尊版 for Galaxy 定制芯片,最高提供 16GB 内存与 1TB 存储空间,并内置 5000mAh 大容量电池,支持 45W 有线快充与 25W 无线充电。
 

美联储:ChatGPT 发布后美国程序员岗位增速腰斩,外包领域最为明显

4 月 26 日消息,美联储理事会 / 委员会发布的一项研究报告显示,美国程序员岗位增速自 ChatGPT 发布(2022 年 11 月)后几乎减半,AI 带来的影响正从日常工作场景扩展至宏观就业数据层面。
该研究将月度就业数据与劳工部按技能要求分类的职业数据库进行交叉比对,精准识别出编程工作量占比较高的职业群体,这类群体约占全美劳动者总数的 3.7%。
ChatGPT 发布前,美国编程密集型岗位年增长率接近 5%,显著高于整体劳动力市场。此后增速大幅放缓,在 IT 服务和软件开发等程序员占比尤其高的行业中,增长基本停滞。这一变化的时间节点与生成式 AI 工具进入主流应用高度吻合,表明技术对就业结构的影响已开始在宏观数据中显现。
根据美联储的分析,最近三年编程密集型岗位的增长率相比 2022 年前的趋势每年下降约 3 个百分点。虽然程序员总体就业尚未进入绝对下降状态,但新增岗位数量已大幅萎缩。研究人员指出,如果维持 AI 出现前的增长轨迹,美国经济有望比目前多出数十万个编程岗位。(来源:IT 之家)

阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人

2026年4月27日 00:45
图片
当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。

作者|Li Yuan

编辑|郑玄
 

4 月 21 日,自变量机器人举行「一个家庭成员的诞生」发布会,在会上,创始人&CEO 王潜确认,自变量近期已完成 B 轮融资,投资方为小米战投。

这是自变量机器人在 2026 年对外披露的第三轮融资,也是这家公司自 2023 年 10 月成立以来完成的第十一轮融资。进入 2026 年后,具身智能赛道融资持续升温,多家头部公司估值已突破百亿元,自变量机器人正是其中之一。

但自变量机器人的特别之处,不只在于融资节奏快、融资规模大,更在于它所吸引来的资金,呈现出非常鲜明的市场化特征。到目前为止,它已经成为业内唯一一家同时获得美团、阿里、字节和小米四家互联网巨头战略投资的具身智能公司。这个投资人名单之所以值得注意,不只是因为巨头齐聚,更因为这些公司本身都在布局机器人业务;而字节和小米战投,过去也并不常出现在这类「通用机器人大脑」公司的投资名单中。

发布会上,除了 B 轮融资消息确认,自变量机器人也发布了新一代自研具身智能基础模型 WALL-B,并宣布一个月后,搭载这一新模型的机器人将开启家庭场景服务。

这也是当前国内具身智能头部公司中,第一家明确把下一阶段重点场景放在家庭的公司。相比之下,行业内大多数公司的叙事仍然集中在商业或工业场景,本质上是在优先回答 ROI 和落地效率的问题。

而自变量机器人的思路明显不同。家庭场景对它而言,并不意味着要对外宣称「家庭机器人已经可用」,而更像是一种接近 1X 的路径:先把机器人真正放进家庭,再让它在家庭这个高度开放、长尾且复杂的环境里持续成长。

自变量也没有回避家庭场景当前仍可能需要一定程度遥操作的现实。但它想强调的并不是「靠遥操作把机器人放进家庭,像数据采集一样收数据」,而是基础模型在经过大规模预训练后,已经具备了零样本泛化能力,可以先在真实家庭环境中直接执行一部分任务。机器人做得好的部分直接完成,做不好的部分再通过人机协作回流数据,并在后续训练中被模型吸收。

这种思路和不少同行并不相同:在许多公司还在围绕场景闭环、交付效率和商业回报做权衡时,自变量更像是在优先押注一条通向通用智能的路线——自变量一直强调更重视真实数据和数据质量。

某种程度上,这或许正是自变量最鲜明的标签:当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。这种强烈的「基础模型导向」和「AGI 导向」,或许也是它持续获得大额融资的重要原因之一。

01

不只是做世界模型,

自变量定义一种新的「机器人大脑」

 

自变量此次发布会上,最有趣的重点之一,是发布了一个新的模型架构:世界统一模型(World Unified Model, WUM)。

行业公认,开年以来对于大脑的关注,主要在世界模型相关的技术进展。

自变量此次的模型架构更新,也和世界模型有关——但又和普遍认知的世界模型不同。

按自变量的说法,行业现在公认的两条具身道路,无论是从 VLM 延展到 VLA,还是从视频生成模型、世界模型继续往动作上接,本质上都还是在继承那些原本不是为具身任务训练出来的模型。

前者更强于语义理解,却未必足够敏感于机器人真正要面对的空间变化、环境扰动和动作细节;后者虽然强调连续预测,也未必真正抓住了机器人在物理世界中最关心的因果关系。

自变量 CEO 王潜在采访中直言,这两种路线都很「糟糕」。

因此,自变量这次提出的,不是一个传统意义上的世界模型,也不是一个 VLA,而是一套它称为 世界统一模型 的新架构。按照它的描述,这套架构试图把视觉、语言、动作、触觉乃至物理预测等能力,尽量放进同一个网络中,从头开始联合训练,而不是先继承一个为别的任务训练出来的模型,再去做机器人适配。

图片

这条路线的好处是,一旦成立,机器人面对物理世界时最核心的几种能力——感知、理解、预测和动作——就不需要再在不同模块之间来回转译,模型也更能直接围绕「如何在真实世界中行动」这个目标去学习,而不是先学会别的任务,再被迁移到机器人身上。

自变量把这套模型架构的意义,类比为机器人领域的「Apple Silicon 统一内存架构时刻」。

在它看来,今天主流的 VLA 路线,仍然有点像苹果 M1 之前的传统电脑架构:视觉、语言、动作等模块彼此分离,信息需要在不同模块之间反复传递和转译,每传一次就损失一次。而 WALL-B 所采用的世界统一模型,更像是一次「统一架构」式的重写——把原本分散的感知、理解、预测和动作能力尽量放进同一个系统里,从底层开始联合训练,减少中间搬运带来的损耗。

图片

自变量之所以现在提出这条路线,一个重要前提是,它认为具身智能的数据积累已经到了一个新的阶段。按它的说法,当数据规模突破某个门槛之后,行业里其实已经开始陆续看到零样本泛化的迹象,只是因为具身场景太多、问题太复杂,不同公司观察到的程度不一样。

在这个判断之上,模型架构本身就变得格外重要。新模型强调「原生多模态」——不是在已有模型上继续打补丁,而是把视觉、语言、动作、触觉等不同模态尽量平等地放进同一个系统里,从头开始训练一个真正面向物理世界的模型。

这也是 WALL-B 这次真正有看点的地方:它想回答「如果从一开始就按具身智能和物理世界的要求来做,一个基础模型应该长成什么样」

02

进家庭,不是为了落地,

而是为了逼模型长出泛化能力

 

如果说,世界统一模型 WALL-B 代表的是自变量对「机器人大脑应该怎么做」的回答;那么把机器人送进家庭,则对应着它对「这个脑应该在哪里继续长出来」的回答。

具身智能赛道里,今天并不缺少「做大脑」的公司。但自变量一个非常鲜明的特点是,它对真实世界数据的重视程度明显更高。尤其是在行业普遍讨论仿真、合成数据,以及如何用更低成本方式快速扩充数据规模的时候,自变量依然把真实数据视作机器人模型演进中最核心的资产之一。

王潜对这件事的判断有一个明确且非共识的看法。

在他看来,互联网视频对于机器人模型而言,那些最容易拿来用的「低垂果实」基本已经被摘得差不多了,行业下一步必须更多转向自己生产数据。仿真当然有价值,但它的上限和约束同样明显:一方面,很多真实世界里的关键参数并不可得,另一方面,像柔性物体这类场景本身就很难被高质量模拟。更有意思的是,自变量还有一个相对非共识的判断——仿真数据未必比真实数据便宜,在某些情况下,前者甚至可能更贵。

这也决定了自变量对「真实数据」这件事的理解,比简单的「多造几台机器人采数据」更复杂一些。

在它看来,真实数据并不等于都必须来自真机本体,无本体的数据采集同样是关键方向;但与此同时,它也没有像行业里不少公司那样,把数据重点迅速转向这一更轻量的路线。

比如今年早些时候,自变量选择与 58 同城合作,在真实场景中用真机收集数据——在大家都在讨论如何绕开真机、用更低成本方式做更多数据的时候,这种选择反而显得有些「逆势」。

图片

而这种数据观,也直接解释了它为什么会在这个时间点把下一步放到家庭。

在自变量看来,工业和家庭其实对应着两种几乎相反的技术目标。工业场景更封闭、更固定,对速度、准确率和稳定性的要求极高;家庭场景则恰恰相反,它是一个极度开放、充满长尾变化、对泛化能力要求近乎极致的环境。前者更适合做后训练、做针对性强化和效率优化,后者更适合检验、拉升和继续塑造一个基础模型的预训练能力。

换句话说,如果一家公司想优先回答的是,机器人怎样在一个确定场景里更快、更准、更稳定地交付价值,那么工业会是更自然的选择;但如果它更关心的是,机器人能不能在一个复杂开放的真实世界里,面对从未见过的空间、物体和任务仍然工作下去,那么家庭就是一个更苛刻、也更有价值的环境。

但这并不意味着,自变量想把家庭变成一个新的数据采集场,让机器人在不同的家里,仍然训练一样的叠衣服。自变量承认,在今天的阶段,人机协作乃至一定程度的遥操作仍然存在。

同时它强调,能够在这个阶段进家庭,正是因为前面所述的基础模型在经过新的架构改造后,已经具备了一定的零样本泛化能力,机器人进入家庭之后,原则上不该先被切成一个个预定义能力包,而是要直接面对一个开放任务集合。除了物理上确实做不到的事情,它希望机器人能够去尝试任何任务。

图片

也就是说,家庭里的价值不只是「采到了多少数据」,而是模型能否在真实执行中持续暴露在新的任务上、同时获取多种环境和多种类型的任务数据,并在下一轮把这些困难真正学进去。

这才是家庭场景对于现阶段的机器人最有意义的点。

03

被四大巨头同时下注,

自变量真正被看中的是什么?

 

如果只看表面,自变量成为阿里、字节、美团和小米四家互联网巨头同时下注的具身智能公司,似乎很容易被解释成「赶上了风口」。但如果把它过去一段时间的动作连起来看,就会发现,它被重仓的原因显然不只是赛道热度。

更核心的原因在于,在当前具身智能竞争中,自变量同时占住了三项最关键、也最难同时成立的位置:基础模型、真实世界数据和机器人本体。

一方面,自变量持续推进 Great Wall 系列基础模型,从 WALL-A 到最新发布的 WALL-B,试图在模型架构、数据效率和泛化能力上做出实质性突破;另一方面,它又高度重视真实世界数据,明确判断互联网视频对机器人模型而言最容易利用的「低垂果实」已基本摘完,行业接下来必须更多依靠自己生产数据,并坚持通过真机和复杂场景去形成数据闭环。

与此同时,公司并不缺少本体能力,在自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等整套硬件体系。换句话说,它并不是只占住了具身智能链条里的某一个环节,而是在试图把模型、数据和身体一起打通。

图片

如果说 2025 年行业的热度,更多还围绕本体能力、运动控制、硬件形态和场景落地展开,那么到了 2026 年,资本开始越来越明确地把筹码压向「身体之外」的另一部分能力——机器人「大脑」的 scaling 潜力。也正是在这个意义上,自变量的投资人名单格外值得注意。

阿里、字节、美团和小米并不是纯财务投资者,更不是对模型没有判断能力的普通产业资本。恰恰相反,这几家公司本身都在持续投入 AI,也都在不同程度上推进机器人、具身智能或相关硬件体系的探索。

也就是说,它们投资自变量,并不是因为自己看不懂这条路;反而正因为它们懂模型、懂系统,也懂这个赛道真正难在哪,所以它们更清楚,什么样的团队只是在追风口,什么样的团队是在搭下一阶段竞争真正需要的能力。

从这个角度看,自变量的特殊性也就更清楚了。和一些国内具身智能头部公司相比,它似乎并不是现阶段最着急铺开商业化场景、尽快把账算过来的那一类。无论是这次发布 WALL-B、提出统一世界模型,还是它强调真实数据、选择让机器人进入家庭、坚持在开放世界里逼模型长能力,这些动作背后其实都对应着同一个方向:不是优先去找一个最好交付、最好算 ROI 的场景,而是优先去搭一个更接近通用智能的系统。

融资之后,公司的重心仍然是继续把资金主要投向物理世界基础模型研发、包括家庭在内的复杂场景拓展与数据收集,以及 AI 基础设施和机器人研发体系的持续升级。从公司成立到现在,自变量最优先加码的,仍然是模型、数据和底层能力体系这些最慢、最重、也最不容易在短期内兑现收入的部分。

这也是具身智能赛道当下一个很有意思的现象:自变量吸引来的,是业内最市场化的一批资金,但这些资金最终支持它继续加码的,却不是最短路径的商业化验证,而是物理世界基础模型、复杂场景和数据体系这类更长周期的建设。

从这个意义上说,四大互联网巨头同时下注自变量,押的已经不只是它今天能做出什么样的机器人,也不只是它眼下能落地多少场景,而是它是否有机会沿着一条更长期的路线,率先把基础模型、真实世界数据和机器人本体真正打通,在下一阶段竞争中占住更核心的位置。

*头图来源:自变量机器人
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待自变量机器人?
图片
图片
图片
图片

 

华为 Pura X Max 深度体验:比起「阔折」,「主动式 AI」更吸引我

2026年4月26日 01:02
图片
一台手机和一台口袋里的小平板,共用一副机身。

作者|张勇毅

编辑|靖宇
 

用 Pura X Max 的第三天,我同时做了两件以前不会在同一台设备上做的事。

早上通勤的时候,我合着盖、单手握,读完了一篇 8000 字的长文。中午回到工位前,把它展开当成一个平板来使用。

中间没有切换任何设备。

这是 Pura X Max 跟它前一代 Pura X 最大的不同。Pura X 仍然是一台『屏幕比例改了一下』的手机,Pura X Max 已经不是了——它合上是手机,展开是一台能装进口袋的小平板。

 

01

上一代 Pura X 的「奇观」

去年 Pura X 上市之后,小红书上慢慢沉淀出一种很有意思的玩家文化——主要是女性用户,她们买了 Pura X 之后会再配一个固定的硬壳,把它常态锁在展开状态下使用,几乎不合上。简单来说,就是把这台一万元的折叠屏,当成一台屏幕比例特殊的直屏机来用——只不过这台『直屏机』的屏,是一块 √2:1 的大屏。

她们在小红书上互相分享这种用法的体验:屏幕比例完美适配 4:3 拍出来的照片、看小红书笔记一屏能多两条、读电子书时跟一本平装书的版心宽度几乎一致——所有这些场景,都因为这块屏的比例对了,自然落了进来。

这个用法听起来挺反常,但它从一个非常诚实的角度,说明了一件事:Pura X 的内屏体验太耀眼了——耀眼到一部分用户愿意放弃『折叠』这个功能本身,只为了让这块屏一直处于最完整的形态。

这件事的反讽意味在于——折叠屏过去七年的核心叙事,是『同一台设备的两种形态』,是『手机和平板二合一』。所有厂商的发布会上,最高光的镜头永远是机身合起或打开的那个瞬间。但 Pura X 的部分用户用脚投票投出来的结论是:他们要的不是『二合一』,是那块比例对了的大屏。 至于折叠这件事,反而被她们当成了一个累赘——既然展开的形态这么完美,为什么还要给它留一个变小的可能性?

Pura X 本身是成功的。年销量做到 150 万台,对至今仍然售价相对较高的折叠屏来说不是小数字。这个成功本身就证明了 √2:1 的内屏方向走对了——对到用户甚至愿意为它牺牲掉折叠功能。

但这个成功也留下了一个新问题:当内屏好到让用户不想合盖,外屏的存在意义是什么?

图片

而 Pura X Max 这一代,华为想接着回答的就是这个被留下的问题。

 

02

Pura X Max 的内屏,长成了一台小平板

 

Pura X Max 的内屏是 7.7 英寸,比例 √2:1(也就是 A4 纸的长宽比)。这块屏铺开来,对角线已经非常接近 iPad mini 的 8.3 英寸——两者落到桌面上,是同一个量级的视觉体量。

关键的不是尺寸,是它做的事变了。

Pura X 的内屏虽然耀眼,但它做的事仍然属于『手机』这个品类——只是用一块更舒展、比例更合理的屏在做手机日常的事而已。这是为什么小红书上那批用户愿意把它锁在展开状态使用——它是『手机这个品类里最舒服的那一种』,但它没有跨过手机的边界。

在 Pura X Max 上展开内屏,事情跨过去了。

图片

Pura X Max 的内屏分成两半之后,每一半还有接近常规手机外屏的可用宽度;这意味着如果你愿意的话,你仍然可以把它当做一个平板来分屏,同时使用两个 App——这对于很多折叠屏用户来讲,可能是一个更熟悉的操作逻辑。

图片

剪映的体验也有结构性的不同。剪一段竖向的 Vlog,左边是预览区,右边是时间轴和素材库,工具栏不用滑动就能全局展示。手写笔轻按可以唤出波轮菜单,切片、调速、加字幕一气呵成。过去我在手机上剪视频是一种「赶时间的妥协」——内容能发出去就行,质量要求降低一档;现在它接近一种正经的工作流。

差别是结构性的。Pura X 的内屏让你「把手机的事做得更舒服」,Pura X Max 的内屏让你「做手机过去做不了的事」。

前者是手机的极致,后者是平板的开端。这就是为什么华为一直在强调,Pura X Max 并非 Pura X 的替代品,而是两个完全不同的品类。

过去手机谈生产力一直有点尴尬——你可以在手机上写字、画图、剪辑,但每一件事都伴随着一种「将就」的体感:屏幕不够、空间不够、视野不够。Pura X 缓解了这种将就感,Pura X Max 把它彻底拿掉。一件事开始之后你不会想着「等我回家用 iPad 再认真做一遍」,而是这一遍就把它做完。

把内屏做成小平板,本身不是最难的——把它做大就行了。

真正难的是:在内屏跨过手机边界变成小平板之后,让合盖的形态依然有自己不可替代的价值,不再像 Pura X 时代那样被『耀眼的内屏』盖过去。

图片

Pura X Max 这一代要解决的,正是这个被 Pura X 留下的悬而未决的问题——让合盖形态有自己的独立价值,让展开和合盖不是同一件事的两种尺寸,而是两种不同的使用类别。

它的解法不是去『修复』合盖(合盖的外屏其实从 Pura X 那一代起就已经合格了),而是从两个方向同时拉开两个形态的距离:

展开侧,给它增加合盖时做不了的事。 7.7 英寸的内屏长成小平板之后,画图、双栏写作、剪辑视频这些事变成了『展开才能做』的事——它们是合盖外屏因为物理尺寸而做不了的事。展开有了独立价值。

合盖侧,让 5.4 英寸的外屏继续延续 Pura X 那块大家认可的好用性——单手握持的边界、口袋里的便携性、走路通勤时随手就能用。 这些是展开形态因为尺寸过大而做不到的事。合盖也有了独立价值。

我用 Pura X Max 的这一周,外屏使用时间占了日常使用的 80% 以上。这跟我用 Pura X 的体感很不一样——Pura X 时代我会主动选择展开,因为展开形态本身就更舒服;Pura X Max 时代我大部分时候不展开,因为合盖已经够用,展开是有了具体目的之后的选择。

读微信公众号的一篇长文,文字落在外屏上,行宽接近一本平装书的版心——我读完一屏的速度比在 iPhone 上要快一些,不是因为屏幕大,是因为眼睛不用频繁返回到左侧。

图片

刷小红书的摄影类笔记,外屏一屏能横向铺开两到三张缩略图。要决定一张图值不值得点开看大图,扫一眼就够。

刷 B 站的横向视频,画面横向铺满,几乎没有上下黑边。

这些是手机的事,外屏完成;画图、双栏、剪辑这些是平板的事,内屏完成。 两块屏不再互相覆盖,也不再互相代偿——它们分别承担了不同类别的使用。

这也是过去七年折叠屏一直没做到的事。

实现这件事的底层支撑,除了硬件设计上的取舍,还有 HarmonyOS 几年下来积累的多设备适配能力。一块外屏比例的应用,展开后能丝滑切换成接近平板的版式;分屏的两个区块,应用能各自独立地按比例渲染——这些事情看起来像是顺理成章,但放在 Android 阵营里看,没有几家能做到这种程度的应用一致性。这是华为愿意把外屏和内屏都做认真的底气来源——他们知道软件能跟上。

 

03

第一台 AI 不需要「召唤」的手机

 

回到产品形态本身,我们都知道,「阔折叠」只是一个起点,它并不是对于「折叠屏是用来干什么的」真正的回答。 而华为在这个起点之上,想给出的新回答就是「小艺伴随式 AI」。

图片

Pura X Max 把小艺伴随式 AI 放成了屏幕右侧的一条常驻窄栏。主内容收窄到大概常规手机的宽度,小艺占据剩下的空隙,两者并行存在,互不打扰。要它的时候它就在,不用召唤、不用切应用、不用喊唤醒词。

这个位置,在过去任何一台手机上都没有过。

AI 真正进入消费产品就是这两三年的事,但手机的交互范式在二十年前就已经定型——主屏、应用图标、点进 App、一个 App 占一整块屏幕。这套范式里从来没给 AI 留位置。所以过去这一两年厂商把 AI 装进手机的时候,能做的选择不多:做成一个独立的 App、塞进下拉菜单、做成长按电源键唤起的浮窗。AI 在手机里始终是被「召唤」的——你先想到它,然后去找它,然后它出现,然后它消失。

图片

Pura X Max 是我用过的第一台不需要「召唤」AI 的手机。

写稿这件事的体感变了:左边一个文档窗口,右边一条小艺侧边栏。读到一个我不确定的参数,直接选中,小艺立刻在侧边给出解释——不用切到浏览器,不用打断写作的状态。读到一段需要补查资料的内容,小艺会主动建议可以延展的方向。整个过程像是右手边坐了一个安静的助手——他知道我在做什么,但只在我看向他的时候开口。

图片

华为 Pura X Max

读小红书的时候是另一种感受。刷到一个不错的摄影点位,过去的操作是截图、保存、下次想用的时候自己翻相册。小艺伴随式 AI 把这一步省了——它能直接识别屏幕上的内容,把地点、时间、构图建议帮你整理好,加进待办。截图是把信息从屏幕里搬出来,小艺是在屏幕里把信息消化掉。

这件事的本质,不是因为模型变得多强,是因为 AI 第一次在手机里有了一个属于它的物理位置。

在直板手机上,AI 一直是被「借用」的——它借用浮窗、借用通知栏、借用某个角落里临时塞进去的按钮,每一次出现都是过路。Pura X Max 给了它一块属于自己的常驻领地。AI 从工具箱里的一把工具,变成了使用环境的一部分。

影像部分,Pura X Max 的第二代红枫影像系统,是我用过的折叠屏里第一台没让我感觉到这个让步的设备。

主摄是 5000 万像素 1/1.56 英寸的传感器,配了一颗 F1.4-F4.0 的十档物理可变光圈——这个配置过去只在直板旗舰上见过。十档可变光圈意味着你能像用真正的相机那样手动调浅景深或大景深,不是计算摄影模拟出来的虚化,是镜头物理收放的虚化。

图片

图片

图片

图片

真正让我意外的是长焦。5000 万像素的 3.5 倍潜望,最大支持 100 倍变焦——这是一颗几乎不该出现在折叠屏上的长焦。过去我用折叠屏拍演唱会、拍发布会现场,都得提前接受「拍不清楚」的预期;这一周拿 Pura X Max 试拍,10 倍以内的画面是干干净净的,没有过去 AI 长焦那种典型的「涂抹纹路」,建筑物的边缘锐利、树叶不糊。

图片

图片

图片

图片

图片

图片

Pura X Max 实机样张:摄影师:FlyingFist

 

说完了优点,目前关于 Pura X Max 的一些槽点,我觉得也有必要和大家分享一下:第一个是单手操作的边界。85mm 的外屏宽度,比常规直板手机的 75mm 多了一截。我手不算小,单手回消息、刷信息流、看视频都没问题,但要点屏幕另一侧的按钮,得换个握法或者用左手辅助。如果你手偏小,这台手机更接近一台「需要双手」的设备。

第二个是相机模组。三摄横向排开的 Deco 块体积不小,机身展开后竖着拿,重心明显偏上。陶瓷边框的质感很好,但凸起也确实夸张。这是为了塞进 50MP 潜望长焦付出的代价。

第三个是续航。外屏好用是把双刃剑——我在外屏上消耗的时间比预期更多,5300mAh 的电池一天一充压力不大,但也没什么富余。如果你对它的期待是重度使用,一定记得带块充电宝。

 

 

04

折叠屏下一程

 

回过头看,Pura X 和 Pura X Max 走的是同一条产品线,但解决的是两个不同的问题。

Pura X 解决了「折叠屏的内屏可以是一块用户愿意一直用的大屏」。Pura X Max 解决了「折叠屏的内屏可以是一台真正的小平板,与此同时,让合盖形态从『内屏的影子』里走出来,变成一种独立的使用类别」。

这两件事加起来,指向的不是一个「更大的折叠屏手机」,而是一个过去并不存在的设备类别:能装进口袋的小平板

这个判断会被后续市场进一步验证。传闻中的折叠屏 iPhone 据说也会用接近 √2:1 的比例,三星、小米也都在跟进。一旦比例成为共识,比的就不再是「谁的内屏更大」,而是:谁能在做出小平板的同时,让合盖形态依然是一台你愿意单手拿出来用的手机。

这件事比想象中难。它要求厂商同时在两个完全不同的产品逻辑下做对——平板的逻辑和手机的逻辑——并且让它们共用一套硬件、一套系统、一套生态。Pura X Max 之所以能做到,背后是 HarmonyOS 几年积累下来的多设备适配能力。换一家厂商不一定能短期内追上。

图片

苹果是这个赛道最值得关注的变量。一旦折叠屏 iPhone 真的落地,它会带着 iPad 多年沉淀下来的 iPadOS、Pencil、Magic Keyboard 整套生产力生态进场。这是华为目前还没完全展开的牌——HarmonyOS 在多设备协同上做得很扎实,但生产力生态的丰富度还有空间。Pura X Max 拿出的这一手「口袋小平板」,本质上是在替整个 Android 阵营抢一个时间窗口:在苹果带着完整生态进场之前,把这个新品类的标准先立下来。

如果一年后再回头看,能在折叠屏市场拉开身位的产品,比拼的不是参数表,是这套「双身份」的完成度。

合着,是一台我愿意带出门的手机。打开,是一台我愿意工作的小平板。

折叠屏走过七年,这是第一次。

*头图来源:PuraXMax
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你买折叠屏,到底是为了那块更大的屏,
还是为了「折叠」这件事本身?
图片
图片
图片
图片

 

豆包上线「帮你选」功能; 5999 元,泡泡玛特首推冰箱;高铁试点「坐火车带自行车」 | 极客早知道|极客早知道

2026年4月25日 08:41

英特尔股价周五暴涨 24% 创 1987 年以来最大单日涨幅

4 月 25 日消息,英特尔股价周五飙升 24%,创下自 1987 年 10 月以来的最佳单日表现,投资者对因人工智能需求增长而带来的复苏迹象感到振奋。

该股收于 82.57 美元,继 2025 年全年上涨 84% 之后,今年迄今已累计上涨 124%。上周五的涨势超过了该股在 9 月 18 日 23% 的涨幅——当时英伟达同意向英特尔投资 50 亿美元。

去年年初接任首席执行官的陈立武,通过争取特朗普政府和英伟达的投资,并帮助这家此前基本被排除在 AI 热潮之外的芯片制造商挤入该领域,重新激发了华尔街对这家陷入困境的芯片公司的兴趣。

Evercore ISI 分析师在财报发布后的一份报告中写道:「英特尔的新任首席执行官修复了资产负债表,并正在执行一项似乎使英特尔重回竞争轨道的战略。」该机构将英特尔股票评级上调至相当于「买入」的级别。

公司营收超出预期,同比增长 7.2%,从上年同期的 126.7 亿美元增至 135.8 亿美元。在此前七个季度中,该公司有五个季度营收同比下滑。英特尔还发布了乐观的第二季度业绩指引。

华尔街的反弹标志着这家美国芯片制造商的重大转折。该公司在 2024 年市值蒸发了 60%,导致时任首席执行官帕特·基辛格于当年 12 月被免职。多年来,由于受困于制造延误并等待其芯片代工业务的大客户出现,该公司基本上缺席了 AI 竞赛。(消息来源:环球市场播报)

时隔 6 个月,英伟达市值再次突破 5 万亿美元

4 月 24 日消息,英伟达股价上涨 3.08%,股价 209.500 美元,总市值再次突破 5 万亿美元(现汇率约合 34.22 万亿元人民币)。

值得注意的是,英伟达股价已连续四周上涨,本月累计涨 18%。(消息来源:IT 之家)

 

DeepSeek-V4 虽迟但到!百万上下文成标配 华为昇腾和英伟达均被写进其技术报告

4 月 24 日,深度求索(DeepSeek)宣布,全新系列模型 DeepSeek-V4 预览版正式上线并同步开源,API 服务亦同步更新。

该系列分为 Pro 和 Flash 两个版本,全系标配 1M(一百万)超长上下文。在技术架构上,DeepSeek-V4 引入了新型注意力机制与 DSA 稀疏注意力,并结合 mHC(流形约束超连接)和 Engram(条件记忆)模块,旨在大幅降低计算与显存需求,打破「芯片墙」与「内存墙」桎梏。

性能方面,Pro 版在 Agent 能力、世界知识及推理性能上表现优异,尤其在代码任务中处于开源领先地位。

DeepSeek-V4 已在英伟达 GPU 及华为昇腾 NPU 平台验证细粒度 EP 方案。

受算力限制,Pro 版目前服务吞吐有限,预计在下半年昇腾 950 上市后价格将大幅下调。目前,该模型仍专注于纯文本与语音,尚未上线原生多模态能力。此前在 2 月 11 日的灰度测试中,该模型知识库已更新至 2025 年 5 月。(消息来源:财联社)

谷歌计划向 Anthropic 投资至多 400 亿美元 支持后者大幅扩展算力

Anthropic 周五表示,谷歌承诺现在将以现金形式投资 100 亿美元,对公司的估值为 3500 亿美元,与其 2 月融资时的估值相同(不包括近期新增融资)。此外,谷歌将在 Anthropic 达到业绩目标时再投资 300 亿美元,并支持其大幅扩展算力。

随着 Claude Code 这一可加速软件开发流程的 AI 智能体取得突破性成功,Anthropic 正加快融资步伐。该公司本周早些时候表示,从亚马逊获得了另一笔 50 亿美元投资,对其估值同样为 3500 亿美元,并附带未来追加 200 亿美元投资的选择权。今年 2 月,Anthropic 已融资 300 亿美元,此后投资者寻求按 8000 亿美元或更高公司估值入股。

谷歌的张量处理单元(TPU)是英伟达芯片的重要替代方案之一,在需要巨量算力的 AI 行业,这些芯片对 Anthropic 等开发者来说既稀缺又关键。

Anthropic 最早可能于 10 月进行首次公开募股,目前正积极寻求更多基础设施以满足产品需求的增长。Claude Code 已迅速成为硅谷工程师的首选工具,包括部分谷歌员工也在使用。

Anthropic 首席执行官 Dario Amodei 早年曾在谷歌从事 AI 研究。自他于 2021 年与一批前 OpenAI 员工创立 Anthropic 以来,两家公司一直保持密切联系。去年,谷歌表示将向 Anthropic 提供多达 100 万枚 TPU 芯片,该交易价值达数百亿美元。(消息来源:环球市场播报)

豆包上线「帮你选」功能,与抖音电商实现交易闭环

4 月 24 日消息,一个名为「豆包帮你选」的功能已内嵌在豆包 App 导航栏中。

据悉,「豆包帮你选」并非简单的商品陈列入口,而是以「对话式交互」为核心,匹配用户潜在购物需求。用户无需手动搜索商品,只需通过语音或文字向豆包提出购物诉求,豆包都会快速梳理需求,列出不同选项的优缺点、价格对比,甚至结合用户过往偏好给出个性化建议。

更关键的是,该功能已实现与抖音电商的深度打通,完成了交易闭环的构建。

今年 3 月,字节跳动旗下的豆包已开始内测「购物下单」功能,支持在豆包 App 内直接下单商品并完成支付,无需跳转抖音。

字节跳动 CEO 梁汝波曾提到,对字节跳动而言,短期内的「高峰」就是豆包 / Dola 助手。他指出,豆包用户规模增长较快,产品体验持续提升,但与全球头部竞品仍存在差距。(消息来源:IT 之家)

消息称微软计划 51 年来首度在美实施员工自愿买断退休

4 月 24 日消息,据美媒 CNBC 得到的一份 Microsoft(微软)内部备忘录,这家拥有 51 年历史的科技巨头当地时间本周四表示计划首次在美国实施员工自愿买断退休计划。

消息人士透露,这份计划面向高级总监及以下级别、不参与销售激励计划、年龄与工龄之和超过 70 年的员工,满足要求者占到微软美国员工总数的 7% 左右。

微软执行副总裁兼首席人力资源官 Amy Coleman 在文件中表示:「我们希望该计划能让符合条件的人在公司慷慨的支持下,自主选择下一步发展方向。」

与此同时,微软也在调整其绩效制度方式:公司将不再要求管理人员将股票激励与现金奖金直接挂钩,这为管理者提供了更大的操作灵活性;此外对于经理层级的员工,微软将 9 种薪酬方案简化到了 5 种。(消息来源:IT 之家)

5999 元,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」开启预约

4 月 24 日消息,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」现已在京东开启新品预约,产品主打 LABUBU(拉布布)元素,体积 121L,标价 5999 元

据介绍,这款冷藏箱表面采用 4 层套印工艺,正面印有 LABUBU 和 TYCOCO 形象,还原艺术家龙家昇原作的神韵和质感。带有平嵌一体式柜门,方便清洁。

功能方面,这款冷藏箱带有冷冻区、保鲜抽屉、私享空间三个储物空间,运行噪音 33dB(A),支持全域控温,冷藏箱可调 3 档温度。

此外,这款产品还带有 LABUBU 把手,内部也有 LABUBU 装饰板,表面刻有限定编号专属 ID。(消息来源:IT 之家)

950km 续航全球第一!比亚迪大唐 EV 开启预售:25 万元起

4 月 24 日,比亚迪大唐在 2026 北京车展正式开启预售。

新车共推出 800KM 后驱、950KM 后驱及 850KM 四驱三款车型,预售价区间为 25-32 万元。预售期间下订用户可享受 18 个月免费闪充、车漆限时优惠选装以及 3 年 3 次免费基础保养等多项权益。

动力方面,大唐 EV 提供三种续航版本,四驱版零百加速为 3.9 秒,并配备闪充技术、云辇-A 及双腔空气悬架。DM-i 车型电机最大功率 300kW,DM-p 车型电机总功率达 400kW,零百加速 4.3 秒。

外观上,新车采用纯电 SUV 造型与双色车身,配备隐藏式门把手及激光雷达。配置上,该车搭载天神之眼 5.0 驾驶辅助系统与多模型 AI 座舱,支持自主泊车。车身长度 5263mm,轴距 3130mm,采用「2+2+3」七座布局,并配备 252L 电动前备箱。(消息来源:快科技)

高铁将试点坐火车可以带自行车 骑行爱好者通过 12306 客户端办理

针对旅客日益多样化的出行需求,铁路部门正在不断优化个性化服务。自 5 月 19 日起,京张高铁将在北京北至崇礼站区间试点自行车随身行服务。这意味着骑行爱好者可以带着心爱的单车,直接搭乘高铁前往目的地。

旅客只需通过 12306 客户端即可在线完成预约和付费。为了确保行车安全与车厢秩序,携带的自行车需要经过车站安检,并在规范包装后存放在指定区域。这一举措极大方便了那些骑行爱好者。

根据国铁集团的规划,2026 年铁路与旅游的融合将进一步深化。相关部门计划在全年开行旅游列车超过 2500 列,并精心打造 50 条以上的精品旅游路线,让铁路网成为连接各大风景名胜的便捷纽带。

为了激活旅游市场,铁路部门还推出了一系列惠民举措。从 4 月底至 6 月底,将陆续开行 179 趟专项旅游列车,并在 4 月到 5 月期间发放铁路旅游消费券,通过实实在在的补贴降低旅客的出行成本。

针对银发群体,铁路部门同样准备了专属福利。在 5 月 30 日至 6 月 30 日期间,年满 60 周岁及以上的中国公民在周中时段乘坐部分动车组列车时,可以享受票价折上折的优惠,以此鼓励更多老年人错峰出游。(消息来源:快科技)

 

 

DeepSeek 正式发布 V4 API:Flash/Pro 双版本齐发,百万上下文成标配

2026年4月25日 01:03

 

极客一问:你怎么看这次 DeepSeek V4 的更新?

 

头图来源:GPT生成

 

万众期待中,DeepSeek V4,终于发布了!

 

就在刚刚,被期待已久的DeepSeek V4 预览版正式登场。两个版本——V4-Pro 和 V4-Flash,全系标配 1M(百万字)超长上下文,同步开源模型权重和技术报告

 

五一前的这两天,大模型又进入新一轮发布潮。

 

4月23日中午,「天才少年」姚顺雨交出加入腾讯后的第一份模型答卷,腾讯混元 Hy3 预览版亮相,2950 亿参数的 MoE 架构,激活参数 21B,推理效率提升 40%,输入价格压到 1.2 元/百万 tokens。

今天凌晨,OpenAI 面向付费用户上线 GPT-5.5 并官宣 API 计划,主打 Agent 工作流和多步骤任务完成,上下文窗口拉到 100 万 tokens,API 定价也水涨船高——输入 5 美元、输出 30 美元/百万 tokens。

 

表面上,三家路径各不相同:OpenAI 走高端闭源路线,继续抬高价格天花板;腾讯把模型塞进自家生态,用性价比撬动规模化商用;DeepSeek 则延续开源传统,同时把上下文长度推到一个新的普惠临界点。

 

同时,Agent 能力、超长上下文、代码与工具调用,这三个关键词在三家发布的新模型里反复出现。他们都在同一个方向上加注:让模型能处理更长的信息,能在更复杂的任务链条里自主运作,能真正嵌入到工作流程中去干活

 

DeepSeek V4 的「实用主义」

 

DeepSeek 这次发布,把百万字上下文从「高端选配」变成了「基础标配」。

 

在此之前,1M 级别的上下文长度,更多出现在旗舰闭源模型的高端版本里,高昂的调用成本足,以让大多数开发者和中小企业望而却步。

 

而 DeepSeek 的做法十分明确:V4-Pro 和 V4-Flash 两个版本全系标配 1M 上下文长度,前者锚定极致性能,后者提供普惠经济之选,完整覆盖不同需求层级的用户。这种 「无差别下放核心能力」 的策略,本质上是在彻底降低长文本处理能力的行业获取门槛。

 

图片来源:DeepSeek官网

 

Flash 版本主打极致低延迟与高性价比,是 DeepSeek 面向轻量化高频场景给出的核心方案。凭借 13B 的激活参数、全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化,它在保障接近 Pro 版核心推理能力的同时,实现了极快的响应速度,对于实时对话交互、函数调用流水线,乃至所有对响应速度敏感的轻量化场景而言,这一特性能带来体验上的本质提升。

 

更关键的是具有竞争力的成本结构

 

根据 DeepSeek 官方 API 定价文档,Flash 版本采用阶梯式计费规则:缓存命中的输入 token 低至 0.2 元 / 百万 tokens,缓存未命中的输入 token 为 1 元 / 百万 tokens,输出 token 定价为 2 元 / 百万 tokens。

DeepSeek V4 各个版本成为|图片来源:DeepSeek API 文档

 

如此亲民的定价,叠加全系标配的 1M 上下文能力,使得 「单次调用成本」 不再是工程设计中的核心约束 —— 开发者可以优先考虑产品体验与架构设计,而无需反复在调用次数与费用之间做权衡。

 

Flash 解决的是 「用得起、用得快」 的普惠需求,V4-Pro 则在回答另一个核心问题:开源大模型的能力边界,究竟还能被推到哪里。

 

最直观的能力跃升,依然围绕长上下文展开。DeepSeek 将模型上下文长度从上一代 V3.2 的 128K,直接拉升至 1M(一百万 token),配合底层架构的创新,在大幅降低长上下文计算与显存需求的同时,保障了全上下文窗口的性能无损。

 

在这一规模下,开发者可以直接导入完整代码库、超长行业文档、多轮项目档案甚至百万字级别的完整书籍进行端到端处理,无需额外搭建复杂的检索增强生成(RAG)系统,大幅简化了长文本处理的技术链路。

 

在底层架构上,Pro 版本采用了总参数 1.6T、激活参数 49B 的 MoE 架构,预训练数据量达 33T,是对 DeepSeek 混合专家路线的全面深化。官方评测数据显示,其在数学、STEM、竞赛级代码等核心推理测评中,超越了当前所有已公开评测的开源模型,达到了比肩世界顶级闭源模型的水平。

 

在 Agent 能力上,其交付质量已接近 Claude Opus 4.6 非思考模式,内部使用反馈优于 Anthropic Sonnet 4.5,成为了 DeepSeek 内部员工的主力 Agentic Coding 工具。

 

功能层面,V4 全系列两个版本均同时支持非思考模式与思考模式,开发者可通过reasoning_effort 参数自定义思考强度,同时全量支持 Json Output、Tool Calls、对话前缀续写能力。

 

定价方面,Pro 版本同样延续了高性价比路线,官方定价为:缓存命中的输入 token1 元 / 百万 tokens,缓存未命中的输入 token12 元 / 百万 tokens,输出 token 定价 24 元 / 百万 tokens,显著低于海外同级别旗舰闭源模型。

 

API 接入也做到了极致低门槛,开发者无需修改原有 base_url,仅需将 model 参数替换为对应版本名称,即可完成接入,同时兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式。

 

这种 「能力上探 + 成本下探」 的组合拳,让顶级的大模型能力不再是少数厂商的专属资源。当行业内卷逐渐陷入参数军备竞赛的怪圈,DeepSeek 用全系标配百万上下文、全链路开源开放的选择,给大模型的普惠化,给出了一个全新的范本。

 

同时,DeepSeek V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项适配和优化,在代码任务、文档生成等实际场景中表现均有提升。模型的价值最终要在真实的开发和工作流程里被检验。

 

继续开源,API 全量开放

 

DeepSeek 延续了开源路线,并直接全量开放 API 调用。

 

目前,DeepSeek-V4 的模型权重已同步在 Hugging Face、ModelScope 平台开放下载,配套的技术报告也一并公开,支持开发者进行本地部署与二次开发。

 

与部分厂商「开源阉割版、闭源完整版」的行业惯例不同,本次开源的两个版本,完整保留了与官方云端 API 一致的全量能力 —— 包括非思考 / 思考双模式、1M 超长上下文无损处理、Agent 专项优化与全量工具调用能力,无任何功能阉割。

 

这意味着,无论是中小创业公司、个人开发者,还是科研机构,都能零门槛获取到百万上下文、顶级推理与 Agent 能力的大模型底座,无需再为高端模型能力支付高额的闭源接口费用。

 

为了进一步降低落地门槛,DeepSeek 同步开源了模型微调、量化、推理加速的全流程工具链,完成了 vLLM、TGI 等主流推理框架,以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生适配,同时开放了国产算力平台的全栈部署方案,让开发者在不同硬件环境下都能快速落地应用。

 

与此同时,DeepSeek 也给出了清晰的模型迭代过渡方案:旧有的 API 接口模型名 deepseek-chat 与 deepseek-reasoner,将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段,这两个模型名分别指向 deepseek-v4-flash 的非思考模式与思考模式,给开发者留出了充足的平滑迁移时间。

 

3 坚定做 AI「基建模型」

 

把这两天的发布连起来看,一个趋势很明确:各家都在加速 Agent 能力。

 

过去两年,公众和资本市场对大模型的关注,很大程度上集中在「聪明程度」,但现在已经转向了「谁更能稳定地把事情做完」。GPT-5.5 的发布重点不在于多模态理解又提升了多少,而是它在 Agent 编程、计算机使用、知识工作等场景中的持续执行能力。腾讯混元 Hy3 的核心卖点也在于它在现实世界中的「行动能力」。DeepSeek V4 则直接把 Agent 能力和长上下文处理作为主打,目标明确地指向实际工作负载。

 

这种转变的背后,是整个行业正在走向「模型效用」的竞争。现在,用户和企业客户越来越不关心你的模型在某项评测里排第几,他们关心的是模型及产品到底能帮自己干好多少活儿:这个模型能不能帮我写代码、能不能处理复杂文档、能不能在多步骤任务里不出错、能不能以合理的成本跑起来。

 

图片来源:DeepSeek官网

 

在今天发布的文末,DeepSeek 引用了《荀子》里的一句话:「不诱于誉,不恐于诽,率道而行,端然正己」,继续锚定了自己的技术路线。放在当下的大模型竞争语境下,这句话的意味很明确——不被外界的评价和噪音干扰,专注于把事情做对。

 

DeepSeek 过去一年多的行动,确实在践行这个逻辑:用开源开放建立全球开发者生态影响力,用极致的性价比打破高端 AI 能力的使用壁垒,用扎实的底层架构创新解决开发者与企业用户最真实的痛点。

 

从 R1 推理模型的横空出世,到 V4 把长上下文能力第一次推向普惠区间,DeepSeek 一直在用一种相对“慢”的方式,做一件更难的事——把顶级模型能力,从少数人的工具,变成更多人可以直接调用的基础设施

 

大模型上车两年,为什么「真·AI 汽车」现在才出现?

2026年4月24日 18:33

今天在北京车展上爆火的极氪 8X,有网友放出了一段新车演示视频,用户坐在车里说了一句「带我去接孩子放学,顺便找一家麦当劳,5 点前我要到学校」。

接下来发生的事情,和你过去对「智能汽车」的认知完全不同。车辆自主规划路线,启动智能驾驶,中途停靠麦当劳,到达学校门口自动泊车。整个过程,用户不需要碰导航、手动切换智驾模式、或者在停车场里找车位。

这不是一个语音助手在帮你搜索,而是一个 Agent 在替你执行。

在这个炫酷演示的背后,需要的不是「在车里接入一个聪明的大模型」,而是一套从「大脑」到「四肢」都打通的整车智能体系统

AI 上车喊了三年。为什么到今天,我们才开始看到这样的产品?

 

从 ChatBot 到「AI 上车」

回头看这两年的「大模型上车」热潮,一个尴尬的事实是——大模型进了车,但并没有真正变成车的一部分。

2024 年到 2025 年,几乎所有车企都宣布接入了大模型。DeepSeek、千问、豆包,各家轮番登场,座舱语音助手确实变聪明了不少。它能陪你聊天,能查百科,做得好的把车辆手册灌进去了,可以告诉你「轮胎压报警怎么办」。

但最终,这还是一个跑在座舱里的对话机器人。

语音助手管不了方向盘,智驾系统也不知道你刚才跟车机聊了什么。就像给一个人装了一颗聪明的大脑,但大脑和手脚之间没有神经连接。智驾技术有自己的演进路线——从规则驾驶到 BEV+Transformer,到端到端,再到 VLA+世界模型——但这条路和座舱智能完全是两条平行线

这种割裂不是因为没人想解决,而是确实难。

第一个挑战是模型本身。行业主流做法,是拿一个通用大语言模型,再用智驾数据做后训练。这种「拼接式」路径能让模型聊天,但不能让它真正理解物理世界——它不懂交警手势意味着什么,不懂复杂路口里行人和车辆的博弈逻辑。想走向 L4,模型需要从预训练阶段就具备对物理世界的理解,而不是事后「补课」。

第二个挑战是架构。智驾和智舱是两套系统、两颗芯片、两个团队。要实现「一句话调动全车」,整车架构需要从底层重构——感知、决策、交互,得统一在同一个模型体系下。

第三个挑战是量产。从 PPT 到量产车之间,隔着芯片适配、车规安全、成本控制和 OTA 迭代,拼凑式的合作模式很难高效跑通这个闭环。

也就是说,真正的 AI 汽车,需要的不是在车里放一个聪明的大模型,而是用 AI 重写汽车的底层逻辑。

 

谁有更好的答案?

2026 年北京车展前夕,几乎所有厂商都在喊「AI 汽车」。但仔细看各家的方案,你会发现它们解决的是不同层面的问题。

智己和阿里合作的 IM AIOS 生态座舱,强项在于把阿里的生态服务——饿了么、高德、支付宝——以 Agent 的形式搬进了车里。用户用自然语言就能点外卖、订餐厅,体验确实新鲜。但它的核心聚焦在座舱服务层,不涉及智驾融合。

字节的豆包大模型接入了别克至境、荣威等多个品牌的座舱,主要提升语音交互的智能度。这属于「模型即服务」的轻量合作——模型公司提供 API,车企在座舱里调用,各自边界清晰。

这些方案各有价值,但有一个共同点——模型和车之间,是 API 接入的关系,不是从底层融合的关系。

4 月 22 日,阶跃星辰与千里科技宣布达成全面战略合作,双方将联合共建「原生智驾基座模型」。这个合作的打法,和上面几种方案走的是一条完全不同的路。

核心差异在于「原生强耦合」。

传统路径是「先做一个通用大模型,再拿到车上做适配」。阶跃和千里的做法是反过来——从基础模型的预训练阶段,就同时注入通识数据和智驾数据,让模型原生具备对物理世界的理解能力。不是把一个通用大脑塞进车里,而是从头培养一个「懂开车」的大脑。

阶跃星辰的技术底座撑得住这件事。作为国内知名的基模公司,阶跃围绕「AI+终端」战略,构建了一套完整的技术体系。面向 Agent 场景的旗舰基座模型 Step 3.5 Flash,发布以来在 OpenRouter 调用量登顶全球第一,成为全球开发者构建智能体的首选模型之一。

在多模态领域,阶跃拥有国内最全的自研模型矩阵——语音交互、音频推理、图像理解、图像生成、视觉语言模型,覆盖了汽车场景从「听」到「看」到「说」的全链路感知需求。在部署层面,阶跃构建了从 1B 到 200B 参数的端云协同模型体系——端侧轻量模型负责实时感知和快速执行,云侧大模型负责复杂场景的推理和决策,形成类似人类大脑「快思考+慢思考」的分层架构。

千里科技则补上了另一半——全栈工程能力

 

双方的合作不是简单的商务结盟,而是对「AI 原生汽车」同一终局的共同押注。技术架构对齐,产品愿景对齐,从模型设计,到终端部署形成完整闭环。

有人把这称为最符合「Grok + FSD」叙事的中国组合——特斯拉用 Grok 大模型,和 FSD 智驾的原生融合定义了 AI 汽车的标杆,而阶跃 × 千里,是目前中国最接近这一模式的搭配。

值得注意的是,阶跃的生态拼图还在持续补全。

4 月 23 日,阶跃星辰与腾讯云达成战略合作,双方将围绕智能座舱展开深度协作。腾讯在音乐、视频、地图、支付等领域的生态矩阵,将通过智能座舱 Agent 与用户连接——基于个性化偏好做内容推荐,打通从需求识别到交易完成的车内服务闭环。

如果说阶跃+千里解决的是「大脑+四肢」的问题,腾讯云的加入则补上了「生态服务层」,让这个智能体不仅会开车,还能帮你点歌、导航、付费。

 

真正的「AI 汽车」,要来了

而极氪 8X,是阶跃和千里「Grok + FSD」模式下最新的量产标杆。

Step 3.5 Flash 从全面开源到正式上车,只用了 40 多天——这个速度本身就说明了原生强耦合模式在工程效率上的优势。

极氪 8X 首发搭载的超级 Eva 整车智能体,实现了大模型与智驾、底盘、动力的原生融合。基于阶跃最强语音模型,Eva 具备情绪理解和思辨能力,语音自然且富有感情;基于视觉理解模型,Eva 能看到车周围的环境并做出判断——路况、车位、周边商铺,都在它的感知范围内。

4 月 17 日极氪 8X 正式上市,29 分钟大定突破 10,000 台——市场在用脚投票。

 

两年前,大模型刚上车的时候,它能做的最多是帮你查一下附近的麦当劳在哪里。今天,它能替你规划路线、开车、停车、点餐,全程只需要一句话。

这个变化的背后,不是某个模型变强了,而是模型和汽车的关系从根本上变了——从「外挂 App」变成了「原生大脑」。

当 AI 真正成为汽车的底座而不是配件,驾驶体验的变革,才刚刚开始。

GPT-5.5 来了,但这次 OpenAI 想证明的不只是「更聪明」

2026年4月24日 11:10

作者|桦林舞王

编辑| 靖宇

 

如果几年前有人跟说,「你以后评测一个新 AI 模型,可能还没写完稿子,下一代就出来了」,你大概率会觉得是扯淡。

但现在,这件事真的发生了。

GPT-5.4 发布于六周前。今天,GPT-5.5 已经在 ChatGPT 上向付费用户推送。

这不是一次普通的版本迭代。OpenAI 给它的定位是「全新的智能等级」—— 在实际服务中保持与 GPT-5.4 相当的推理延迟,同时实现智能水平的「大幅跃升」

一句话翻译过来就是:更聪明,但更快。

根据目前大家体验反馈,OpenAI,这次可能真的要「翻盘」了!

 

01

「更快」和「更强」,

这次 OpenAI 想两个都要

 

理解 GPT-5.5 的核心逻辑,得先理解 AI 行业长期以来的一个悖论。

模型越聪明,往往越慢、越贵。这几乎是一条默认的行业规律 。你想要更深的推理、更复杂的任务处理,就得付出更高的延迟和更多的计算成本。用户和企业客户在这两者之间,往往只能选一个。

GPT-5.5 想打破这个取舍。

 

 

GPT5.5 的表现在同类中显得比较突出|图片来源:OpenAI

 

OpenAI 声称,新模型在「真实世界服务」中,每 token 延迟与 GPT-5.4 持平,但智能水平已经远超后者。VentureBeat 的测试数据显示, GPT-5.5 在 14 个基准测试中达到了最先进水平 ——相比之下,Anthropic 的 Claude Opus 4.7 达到 4 个,Google Gemini 3.1 Pro 达到 2 个。

在能力维度上, GPT-5.5 的强项集中在编写和调试代码、在线研究、数据分析、文档处理,以及操作软件等「代理式」任务上

OpenAI 联合创始人 Greg Brockman,把它称为向「更具代理性和直观的计算」迈进的「重大进步」。

最让人有感知的案例来自 Jackson Laboratory。基因组医学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了 2.8 万个基因的数据集,几分钟内生成了一份完整报告——这项工作他的团队通常要耗费数月。

这不是压缩时间,是改变工作方式本身的量级。

 

02

六周一代,这是产品节奏还是市场焦虑?

 

但更值得注意的,是这 OpenAI 发布节奏背后的信号。

六周。GPT-5.4 到 GPT-5.5,只有六周。

回看过去两个月,OpenAI 的动作密集得有些不寻常。4 月 21 日,ChatGPT Images 2.0 发布,Sam Altman 在直播中说从 gpt-image-1 到 gpt-image-2 的飞跃「相当于从 GPT-3 到 GPT-5 的跳跃」。同一天,OpenAI 宣布与咨询公司合作向企业推广 Codex,首席收入官 Denise Dresser 表示这将帮助触达「自己单独无法接触到的」企业客户。

Codex 目前已有超过 400 万周活跃用户 ——两周前是 300 万,上个月是 200 万。这个增速本身就说明了问题。

 

 

Cursor CEO 发来贺电|图片来源:OpenAI

 

与此同时,OpenAI 还在过去几周,完成了对个人金融初创公司 Hiro 和新媒体公司 TBPN 的收购。前者被解读为「不只是聊天机器人,而是更值得付费的东西」,后者则明显是为了「更好地塑造公众形象——而最近的形象并不理想」。

把这些动作放在一起看,你会感受到一种隐约的紧迫感。

这家公司刚刚完成了 1220 亿美元的新一轮融资,每月营收达到 20 亿美元。从任何角度看,这都是一家全球最有钱的 AI 公司之一。但社交媒体上关于「OpenAI 失去消费者吸引力」「在企业客户争夺中落后于 Anthropic」的声音,并没有因为这些数字而消失。

GPT-5.5 的发布,某种意义上是 OpenAI 对这些质疑的一次公开回应

 

03

基准测试赢了,但企业要的是「不出错」

 

不过,用基准测试来定义胜负,在企业市场往往是个误导。

纽约银行 CIO Leigh-Ann Russell 说得很直接——她最在意的不是某个能力有多强,而是「响应质量和令人印象深刻的幻觉抵抗」。「银行需要非常高的准确度,这对一个受高度监管的机构来说很关键。」

这句话代表了相当大一批企业客户的真实诉求。 他们不是在选「最聪明的 AI」,他们在选「最不会出错的 AI」

这也是 Anthropic 在企业市场能持续拿下份额的原因——Claude 系列在「安全性」和「可预测性」上长期保持着很高的品牌认知。GPT-5.5 在基准测试上的全面领先,要真正转化为企业合同,还需要在「可信赖度」这个维度上积累更多证据。

一个细节值得注意:NVIDIA 内部有工程师表示,「 失去 GPT-5.5 的访问权限,感觉像是被截断了一条四肢 」。这种说法在行业内部流传,某种程度上说明 GPT-5.5 的能力,已经在部分高端用户中建立了真实的依赖感。

但从「有人非常喜欢」到「企业愿意在核心系统上部署」,中间还有很长的距离。

 

04

当速度本身成为竞争力

 

从更高的视角看,GPT-5.5 这次发布揭示了一个更深层的行业趋势。

前沿 AI 实验室的竞争,正在从「谁的模型更强」演变为「谁的迭代更快」。

六周一个大版本,这在两年前是不可想象的。而且不只是版本号的更新,每次迭代背后都有真实的能力跃升——Axiom Bio 的 CEO Brandon White 甚至预测,如果 OpenAI 保持这个速度,「药物发现的基础,将在今年年底前改变」。

这句话可能有些乐观,但它捕捉到了一种真实的感受: AI 能力的提升速度,正在开始超越大多数人对它应用潜力的想象

OpenAI 首席研究官 Mark Chen,把 GPT-5.5 在科学和技术研究领域的能力,总结为「有意义的进展」,并指出它可以「帮助专家科学家取得进步」。这个措辞值得玩味——不是「替代」科学家,而是「帮助专家取得进步」。这是一种在展示能力的同时,主动管理叙事的方式。

GPT-5.5 面向 Plus、Pro、Business 和 Enterprise 订阅用户,同时在 ChatGPT 和 Codex 中推出。这个分发策略本身就是商业信号——既要守住消费者端的用户粘性,又要在企业端通过 Codex 和咨询合作伙伴加速渗透。

两条腿走路,节奏还在加快。

六周后,我们大概会看到 GPT-5.6。

*头图来源: OpenAI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

OpenAI 最强模型 GPT-5.5 上线;传特斯拉与 SpaceX 终将合并;票价 20 万!12306 惊现豪华专列

2026年4月24日 08:08

OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、输出提速 50 倍

4 月 24 日,OpenAI 正式发布旗下迄今最智能的 AI 模型 GPT-5.5。该模型核心突破在于大幅升级的 Agent 智能体能力,能精准理解用户模糊指令,自主规划、调用工具并执行多步骤复杂任务,无需用户精细管控每一步流程,在 Agentic Coding、计算机使用、科研等领域表现卓越,相较前代模型,可在完成相同任务时显著降低 Token 消耗,以更少的指导完成更多任务。

性能层面,GPT-5.5 实现了智能水平与运行速度的平衡,尽管模型规模更大、能力更强,但其单 Token 延迟与 GPT-5.4 持平,同任务所需 Token 量大幅减少。

在多项权威测试中,该模型表现亮眼:在 Artificial Analysis 的 Coding Index 中以竞品一半的成本实现 SOTA 水准,Terminal-Bench 2.0 测试准确率达 82.7%,SWE-Bench Pro 测试中拿下 58.6% 的成绩,Expert-SWE 等长周期任务表现均超越前代,同时在系统架构理解、故障定位等方面的能力也获得早期测试者的高度认可。

开放与定价方面,GPT-5.5 目前已向 OpenAI Plus、Pro 等用户开放使用,API 版本也即将上线。定价上,该模型基础版输入定价为每百万 Token 5 美元(约合人民币 34.2 元),Pro 版本输入定价为每百万 Token 30 美元。

GPT-5.5 的落地离不开 OpenAI 与英伟达的深度合作,该模型运行于 NVIDIA GB200 NVL72 机架级系统,为智能体编程应用 Codex 提供核心算力支撑。目前英伟达内部已有超 1 万名员工在工程、法务、市场等多部门率先使用该技术。(来源:IT 之家)

马斯克传记作者艾萨克森:特斯拉与 SpaceX 终将合并

马斯克传记作者沃尔特·艾萨克森(Walter Isaacson)近日明确表示,他坚信特斯拉(Tesla)与 SpaceX 最终会走向合并。这一判断与近期市场分析不谋而合,凸显了马斯克旗下两大核心资产日益紧密的联系。

目前,两家公司已在资本与技术层面展开深度绑定。特斯拉本季度斥资 20 亿美元购入 SpaceX 股份,这是罕见的跨公司资本流动。同时,双方正计划在得克萨斯州联合建设名为「TERAFAB」的芯片制造设施,以支持各自的 AI 算力需求,这被视为业务整合的关键一步。

Wedbush 分析师丹·艾夫斯(Dan Ives)此前预测,两家公司可能在 2027 年完成合并。他认为,此举旨在构建一个垂直整合的 AI 生态系统,将特斯拉的自动驾驶、机器人技术与 SpaceX 的卫星网络及太空数据中心相结合,形成强大的协同效应。

然而,合并之路并非坦途。巨大的估值差异可能让特斯拉股东面临权益稀释的风险,此外,如此大规模的合并势必会引发全球反垄断监管机构的严格审查。尽管如此,随着两家公司边界加速消融,投资者押注的核心似乎正从单一公司转向马斯克本人及其宏大的未来愿景。(来源:环球市场播报)

继 Anthropic 之后,消息称微软 GitHub Copilot 将转向按 Token 计费

AI 编程工具的订阅制模式似乎已走到尽头。即便对微软、Anthropic 这类大型 AI 公司而言,每月 20–30 美元的定价模式也难以为继。Anthropic 已面向企业客户推出按 token 计费模式,而 GitHub Copilot 也正朝着同一方向调整。

4 月 23 日消息,埃德・齐特伦的专栏《Where's Your Ed At》证实,GitHub Copilot 将于 6 月 1 日起转为按 Token 计费,官方公告预计将于本周发布。目前,GitHub Copilot 用户根据订阅套餐享有固定的「请求次数」额度,例如 Pro 套餐每月 300 次,Pro+ 套餐每月 1500 次。

后续 GitHub Copilot 将不再以「请求次数」计费,改为按输入与输出 Token 的实际成本收费。举例来说,若选用 GPT-5.4 模型,开发者需为每百万输入 Token 支付 2.50 美元,每百万输出 Token 支付 15 美元。

用户仍需按月支付订阅费才能使用 GitHub Copilot 平台,但不再享有固定次数的高级请求额度,而是根据订阅等级获得对应数量的 AI Token。企业版 GitHub Copilot 用户将获得共享 AI 额度,可在组织内部统一调配使用。

据埃德・齐特伦消息,每月付费 19 美元的 GitHub Copilot Business 客户将获得价值 30 美元的共享 AI 额度,每月付费 39 美元的 Copilot Enterprise 客户则将获得价值 70 美元的共享 AI 额度。(来源:IT 之家)

姚顺雨带队重构混元,Hy3 preview 上线

姚顺雨交出了加入腾讯后的第一份模型答卷。

4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。

官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了「快慢思考」机制。

21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而「快慢思考」的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。(来源:极客公园)

特斯拉:第三代人形机器人预计年中亮相

4 月 23 日消息,特斯拉官方发布微博称,特斯拉第三代人形机器人 Optimus V3(擎天柱第三代)预计年中亮相,2026 年 7-8 月启动正式投产,产品测试稳步推进,预计 2027 年投入外部场景应用。

据了解,特斯拉第三代人形机器人才是面向用户销售的量产版本,特斯拉曾发布消息称,第三代特斯拉人形机器人通过观察人类行为即可学习新技能。

截至目前,特斯拉在人形机器人领域已经推出了 Optimus 第一代和第二代。其中,第一代人形机器人能够实现基础行走和搬运。第二代人形机器人配备 22 自由度灵巧手,2024 年进入工厂测试。

马斯克曾表示,人形机器人将成为特斯拉有史以来最重要的产品,甚至可能是人类历史上最重要的产品之一。(来源: TechWeb)

宇树科技展示轮足人形机器人,可完成滑冰、前空翻等高难度动作

4 月 23 日消息,宇树科技在今日发布的最新视频中展示了轮足人形机器人。画面显示,人形机器人可以完成流畅的滑冰、轮滑等动作,实现 360 度转身、单足转圈、前空翻等。

宇树科技称,「人形机器人是最理想的通用机器人(适配通用 AI 和人类数据),可以没有轮子,也可以有轮子,随意。」

去年 11 月,宇树科技在官网上线了一套人形机器人数采训练全栈解决方案。该方案基于一款轮式机器人 G1-D,由人形机器人本体、系统化的数据采集工具和全面的模型训练及推理工具组成。(来源:IT 之家)

iPhone Fold 折叠屏金属模型现身

苹果首款折叠屏 iPhone Fold 预计将在今年秋季正式亮相。已有博主提前拿到了这款备受瞩目的折叠屏金属模型,并揭秘了其真实的机身比例与设计细节。

根据模型对比显示,iPhone Fold 展开后的宽度与 iPhone 17 Pro Max 的机身高度基本相当。已知 iPhone 17 Pro Max 的高度约为 150 毫米,这意味着这款折叠屏在展开状态下将拥有一个近乎正方形的巨大视野。

在与 iPad mini 的横向对比中,iPhone Fold 显得更加精致且利于便携,大小与 iPad mini 显示面积非常接近。其屏幕尺寸在 7.7 英寸左右,而 iPad mini 屏幕尺寸是 8.3 英寸。

核心配置方面,这款顶级旗舰将搭载基于台积电 2 纳米先进工艺打造的 A20 Pro 芯片。配合 12GB 运行内存,影像系统则由两颗 4800 万像素的镜头组成,分别负责主摄与超广角拍摄。

行业分析师预测,iPhone Fold 的起售价将轻松突破 2000 美元,折合人民币后的售价在 1.4 万元左右。顶配版本的售价甚至可能逼近 3000 美元,它将毫无疑问地成为 2026 年苹果 手机产品线中定位最高、工艺最复杂且价格最昂贵的顶级旗舰。(来源:快科技)

兰博基尼推出「史上最个性化」Urus:限量 630 台,主打色彩自由

4 月 24 日消息,据外媒 Carscoops 报道,兰博基尼在米兰设计周推出限量版 Urus SE Tettonero Capsule 车型。该车型由兰博基尼个性化定制部门 Ad Personam Studio 与设计中心联合打造,核心亮点是前所未有的定制自由度,堪称迄今最能「随心搭配」的 Urus 车型。

这款车型的核心卖点是丰富的个性化配色及外观选择,共提供 6 种车身主色,其中黄色和绿色为 Urus 车系首次引入;车身上半部、车顶等部位可做亮黑色处理,还可搭配 6 种强调色点缀车身细节,同时提供 6 种制动卡钳颜色、多款 21 至 23 英寸轮圈,以及多种碳纤维外观套件,前门还可加装「63」标识提升辨识度。

内饰以黑色为主题,采用高档皮革和超细纤维材质,可加入 6 种撞色元素,座椅、头枕及内饰绣线提供 12 种配色方案;车内配备碳纤维饰板、副驾前方 Urus 图案装饰,还有纪念 Ad Personam Studio 成立 10 周年的碳纤维铭牌,车门饰板等部位可额外选装碳纤维装饰。

动力方面,该车搭载插电混动系统,由双涡轮增压 4.0 升 V8 发动机、电动机、25.9 千瓦时电池组和 8 速自动变速箱组成,综合最大输出功率 588 千瓦、峰值扭矩 950 牛·米,0-100 公里/小时加速仅需 3.4 秒,最高时速 312 公里,纯电续航超 60 公里;该车全球限量 630 辆,售价暂未公布,官方配置器已上线供买家尝试搭配。(来源:来源:IT 之家)

12306 惊现豪华旅游专列:票价超 20 万元 运营方回应

近日,有网友在社交平台分享,铁路 12306 平台上一款名为「丝路梦享号」的豪华旅游专列,17 天南北疆行程票价高达 204000 元/人,远超普通列车票价,迅速成为网络焦点。不少网友对此表示惊讶,认为价格超乎想象,也有网友认为该产品面向高端人群,符合市场细分需求。

这款高价专列并非普通客运列车,而是由入驻 12306 平台的旅游公司运营的高端定制旅游产品。

行程从西宁出发并返回,全程覆盖新疆多个核心景区,采用一价全包模式,包含交通、住宿、餐饮、景点游览等全部服务,还配备专属管家、全程摄影师跟拍以及特色主题餐饮,主打私密、高端、沉浸式旅行体验。

运营方工作人员表示,该专列定位高端市场,软硬件对标高端酒店标准,全程不安排购物与自费项目,地接服务由自有团队执行,采用一房一车小型接待模式,保障私密性与舒适度。

列车仅设 38 间独立客房,满载约 76 人,无多人间布局,公共空间充裕,部分套房面积达 22 平方米,配备智能卫浴等高端设施,整体配置在国内同类产品中处于较高水平。

针对高价疑问,运营方解释,20 万元为成人标准价,费用覆盖 17 天全程服务,并非单纯车票。目前销售情况良好,其中价格超百万元的顶级套房已售出两间。(来源:快科技)


这张 4 万块的床垫,凭什么让马斯克、扎克伯格「疯狂上头」?

2026年4月23日 22:37

4 月 18 日,深圳。 当 Eight Sleep 的智能床垫 Pod 5 系列首次在中国亮相时,现场最多听到的问题不是「它有什么功能」,而是「它凭什么卖这么贵」。

一张 2M×2M 的 Pod 5 Ultra,售价 37999 元。这个价格足够买一台高配 MacBook Pro,或者三台 iPhone 16 Pro Max。更关键的是,它看起来并不奢侈,没有镶金边,没用什么稀有材质,甚至连完整的床垫都不是,只是铺在你原有床垫上的一层「薄床垫」。

 

但就是这样一款产品,在北美市场创造了现象级的成功。它让 Eight Sleep 拿到 15 亿美元估值,获得马斯克、扎克伯格的主动推荐,销量持续增长。更重要的是,它用一套新的产品逻辑,给智能睡眠行业指出了一个新方向,让健康科技从「监测数据」走向「主动干预」。

更有意思的是,Eight Sleep 的创始人 Matteo Franceschetti,不是技术出身。 他的简历看起来和「做床垫」完全不搭界,律师、金融从业者、业余运动员。

正是这样的背景,让他发现了一个被忽视的睡眠痛点,温度。

「有运动之后肌肉发热,也有大脑里有太多思绪无法入睡。他发现低温能让自己睡得更好,但进一步研究后发现低温也不行,尽管可以帮助快速入睡,但到后半夜又会冷醒,白天还会赖床。他意识到原来温度需求是动态的。」 相关负责人说道。

很显然,Eight Sleep的诞生,是由「需求驱动」,而非「技术驱动」创新。

Matteo 最开始做Eight Sleep的原因很简单,如何让人睡得更好?之后,他来深圳手搓了第一代原型机,然后一代代迭代,用了 10 年才打磨出 Pod 4引起行业关注。

Eight Sleep 联合创始人 Max 在发布会上回忆道:「当我现在想到 Pod 一代产品,都有点想笑,因为跟现在的成熟度差太多了。我很感激当时的用户这么容忍我们的产品。打造Eight Sleep有三个难点需要平衡,分别是舒适、制冷效率和噪音。这在最开始是一个不可能三角。」

Eight Sleep 这次让新品进入中国市场,不仅是一个海外品牌开拓市场的节奏,从某种程度上,也是对当下智能硬件「内卷」路线的一次另类回应。

 

一、用温度干预,重新定义睡眠解决方案

如果把 Pod 5 拆解开来看,它的产品组成并不复杂:一个智能床套、一个主机、一个 APP。

主机内置水箱和散热系统,通过水循环调节温度。智能床套铺在原有床垫之上,内部布满硅胶软水管和薄膜传感器。手机的APP主要做数据的信息处理,以及与用户的互动反馈。整套系统的核心能力其实只有一个,让床垫的温度随着你的睡眠阶段动态变化。

这听起来像是不是像一个高级版的电热毯?

但完全不是。Eight Sleep 中国区市场负责人凌璐强调了两个关键差异,「第一,分区控温。同一张床上,左边区域和右边区域可以设定完全不同的温度,既能升温也能降温,解决『同床异温』的需求。第二,主动干预。床垫能根据你的睡眠阶段实时调节温度,而不是被动地保持恒温。」 而过去的空调和普通水暖毯的问题在于,都是只能提供恒定温度,无法匹配这种动态需求。

这套逻辑背后的科学依据是 Eight Sleep 认为温度是影响睡眠质量的最重要环境因素,没有之一。

据介绍,人体在一个晚上会经历四个不同的睡眠阶段,对温度的需求完全不同。入睡前,核心体温需要降低 1-1.5 度来分泌褪黑素;进入深度睡眠后,需要更凉爽的温度维持身体修复;到了后半夜的 REM 梦境睡眠阶段,体温自主调节能力降低,需要更温暖的环境防止冷醒;接近醒来时,又需要升温促进皮质醇分泌,帮助清醒。

Pod 5 系列产品通过床面的传感器实时监测你的体温、心率、呼吸和睡眠阶段,用 AI 算法计算出当下的最优温度,然后通过水循环系统主动调节。

这意味着什么? 比如说,晚上 10 点,你打算睡觉,床面已经提前预冷到最适合入睡的温度。当你进入深度睡眠,床面进一步变冷,延长身体修复的黄金时间。到后半夜做梦时,温度回升一点,防止你从梦境中被冷醒。如果半夜你打鼾了,床垫会识别并轻轻抬起后背,让气道通畅,同时不会吵醒另一半。第二天早上,不是闹钟把你叫醒,而是 Pod 5 检测到你进入浅层睡眠后,通过温度变化帮助你自主苏醒,在你的后背慢慢加温,促进皮质醇分泌,让身体在听到闹钟前就已经准备好起床。

「整个晚上你觉得睡得特别香,你没有感觉到床面在变冷或变热。你只知道你一觉睡到大天亮,中间没有任何踢被子或裹被子的情况,」凌璐说,「这就是主动温度干预和被动恒温的本质区别。」

如果说智能温控床垫是为了让用户睡得更好,那智能底座支架是为了让用户睡得舒服。我曾经有很长一段时间质疑平躺真的是最科学的睡姿吗?因为腰部的悬空让我睡一晚上都腰酸背痛。

但Ultra通过抬高床头,抬高床尾,很好地减轻了用户睡觉时的脊椎压力。目前,Ultra一共提供平躺、阅读等四种预设模式,供用户在不同场景下选择。

而Pod产品系列的APP,除了常规的睡眠状态分析、数据检测以外,还会给出一定的睡眠建议。比如说,记录你在醉酒情况下的体温变化,并根据你的主动反馈,记录记忆。并根据你的需要与反馈,去做更多的调节。同时,Ultra还在床架上安装了一个音响,通过成沉浸式的白噪音帮助用户调整睡前状态,舒缓压力。

我们也在现场体验了相关产品,确实在能够感受到到左右两边床上的温差可以比较明显,并且配合着白噪音和低温设定,加上阅读模式同时抬高头部和脚部的温度,整体的体验确实不错。

在APP应用上,Eight Sleep 用了 10 年时间,积累了 10 亿小时真实用户睡眠数据,数据库里包含了不同人种、年龄、性别,甚至女性不同生理周期的温度需求模型。他们也从需求中挖掘出用户的不同特征,比如说热潮模式、醉酒模式等。

在发布会现场,一位用户分享了自己的体验,「我最喜欢的功能是分时段控温。在我生理期,入睡阶段我需要整个人暖烘烘的,但睡着后降回到更低的温度,深度睡眠就不容易中断。」

Eight Sleep的成功,可以从某种程度说明智能健康产品的价值,不在于展示问题,而在于解决问题。

 

 

二、低调入局,用30天无理由退换敲开中国市场

但此刻进入中国市场,Eight Sleep 显然有些保守。

Eight Sleep 选择了 DTC(Direct to Consumer)直营模式,不设经销商、不开线下门店,以官方直销直面用户。同时推出 30 天无忧试用政策,允许用户无理由退换。

「我相信用户体验完产品就会喜欢的,」凌璐说得很自信,「这个产品的价值不是摸一下就能感受到的,而是从第三天晚上你发现深度睡眠比例开始提升的那一刻开始。只要睡 30 天,就离不开这个产品。」

据介绍,在全球市场,Eight Sleep 有 30% 的生意来自口碑,零获客成本,老用户会主动推荐给身边有需求的人。

这也解释了为什么马斯克、扎克伯格、OpenAI 创始人 Sam Altman、硅谷抗衰极客 Brian Johnson 都成了 Eight Sleep 的用户,并在社交媒体上主动背书。他们不是代言人,而是真实用户。

定价策略也完全是全球统一:Pod 5 Core 基础款 19999 元起,Ultra 高配版 37999 元。

这个价格在中国市场意味着什么?它直接将用户圈定在那些对睡眠质量有极致要求,且有足够消费能力的人群。中国区市场负责人凌璐提到,更核心的目标用户画像是「40 岁左右的男性,事业有成,开始特别关注健康,有消费力,也对科技产品有兴趣」。

这和北美市场的两类核心用户一致,运动员和创业者。Eight Sleep 在全球服务了 200 多个专业运动员,其中 F1 赛车手超过一半在使用他们的产品。「这群车手可能是全球体力、专注力、体能、精力最棒的 22 个人,有超过一半都在用 Pod,教练会要求他们这么做,以便优化恢复状态,」凌璐说。

但高端定位也意味着市场教育成本高。智能温控床套是一个全新品类,用户需要时间理解「为什么要为温度付费」。

但我们看到,对这类产品其实更大的挑战在于有效性无法确认。比如说,睡眠质量受情绪、压力、作息等多重因素影响,温度干预虽然有效,却无法解决所有睡眠问题。凌璐也坦承:「我们不能保证睡 Eight Sleep 就睡得特别好,因为睡眠的影响因子太多元了,有外因、内因,还有病理性因素。但我们能够做到的是控制外因里排 top 1 的元素。」

此外,Eight Sleep 也在做了一些本土化适应。比如,在中国市场独家赠送终身免费的 Autopilot 订阅服务,这项服务放在全球其他国家每年需要支付 200 美元。「我们希望第一批用户一开始就体验到最完整的功能,」凌璐解释。

Eight Sleep 的供应链的工厂遍布在珠三角和长三角,目前相关数据基础设施也已迁移到 AWS 中国区,符合本地合规要求。

但 30 天无理由退换政策在国内会带来多大的运营成本压力?DTC 模式能否在习惯「体验式消费」的中国市场跑通?这些都是 Eight Sleep 接下来要回答的问题。

凌璐对第一年的目标比较谨慎:「我们内部有具体数字,但整体规划还是比较保守的,也正在摸索中国市场本土化的路径。」

 

三 、给中国硬件创新的启示录

过去十年,中国健康硬件市场诞生了无数「智能」产品。智能手表告诉你睡眠质量差,智能手环提醒你深度睡眠不足,智能床垫生成一份详细的睡眠报告。然后呢?用户拿着这份报告,除了更焦虑,什么都做不了。

Eight Sleep 的故事,对中国智能硬件行业带来哪些值得思考的地方?

我们可以看到从监测到干预,是智能健康赛道的必然方向。

过去很长一段时间,从智能手表、手环到台灯、床垫,多数智能设备停留在「记录睡眠数据、分析睡眠质量」阶段,只完成了「发现问题」,却无法给出有效解决方案。 没有落地干预的数据分析,只会制造无效焦虑,用户也不会为此买单。

Eight Sleep 以温度干预为核心,真正切入睡眠改善的本质需求,打开了差异化市场。它用实际行动提醒行业,智能健康不能长期停留在监测探索阶段。

凌璐提到一个细节:「很多用户用了 Pod 5 之后,APP 成了他们的『喝酒日记』——哪天数据标红,基本上前一天就喝了酒。这种反馈让用户真正理解了自己的行为对睡眠的影响,也更愿意去改变。」 这才是数据的价值,不是吓唬用户,而是帮助用户理解因果,主动改变。

其次,当下创新阶段,产品定义能力或许会比技术堆料更重要。

Eight Sleep 的创始人不是技术出身,硬件产品总监 Harry 在发布会上也反复强调:「我们不是温度控制公司,我们的目标是帮助人们睡得更好。无论用什么方式找到好的想法来改善睡眠,我们都会去探索。」

这种「以终为始」的产品思维,在中国智能硬件行业并不常见。 中国拥有全球最强的供应链优势,却鲜有从 0 到 1 的原创品类创新。不少产品停留在模仿与微创新层面,或者陷入参数与功能的内卷。 我们擅长做「更好的同类产品」,但不擅长定义「全新的品类」。

Eight Sleep 的成功提醒行业,未来真正的爆品,一定出自能解决真实问题的创新,而不是技术的自嗨。

Eight Sleep 用了 10 年时间,才从 Pod 1 迭代到 Pod 5。这期间经历了无数次失败,像是漏水、噪音、不够舒适。但他们始终坚持一个方向:让人睡得更好。 在中国市场,太多公司急于追求快速增长,却忽视了产品打磨的时间成本。

智能健康的下一个十年,或许属于那些真正解决问题的产品。

 

没有「身份证」的 Agent,接管不了世界

2026年4月23日 22:35

焦虑与兴奋,是当下科技圈最真实的画像。大年初一蹲在家里装「小龙虾」的老板们,和深夜里顶着 Bug 调教 Agent 的独立开发者,被同一股力量推着往前走。他们既害怕错过,也害怕被反噬。

但热潮之下,暗流也在涌动。前段时间工信部发出提醒 OpenClaw 这类新形态 Agent 中,恶意代码植入的风险正在浮现。

当 Agent 从极客玩具变成人人标配的入口,它的安全和可信,谁来保证?

这正是我们今天要讨论的问题。

在这场对话中,我们刻意将两条截然不同的叙事线缠绕在一起。一边是李超,一个典型的「超级个体」,他用 Agent 接管了自己 70% 的工作量,正在寻找人类的新边界;另一边是金宏洲,e签宝的创始人兼CEO,一个 To B 老兵的转身,他不再纠结回答「AI 会不会吃掉软件」,而是主动将 20 年的积累重构成 AI 原生的模样,甚至开始琢磨着给数字世界里的 Agent 们签发第一张「身份证」。

两人的交锋像一面镜子,照出了当下整个行业最真实的张力。潮水的方向已经变了,Agent 正在成为新的入口,A2A(Agent to Agent)的基建正从零起步,而「信任服务」这个古老的命题,正在重新变得滚烫。

e签宝提供了一个值得关注的 To B 转型思路,企业家们与其焦虑被吞噬,不如回到自己最擅长的「脏活累活」里,把那件不变的事情在 AI 时代重新做一遍。

理解这种必然性,抓住那些最该做的事,在今天反而比盲目奔跑更重要。

以下为张鹏与金宏洲、李超的对话内容实录,经编辑删减。

一、 AI 正在吞噬软件,还是重新定义软件?

张鹏: 李超,你现在已经是个超级个体了。给大家讲讲你是怎么「超级」起来的?平常用得比较多的 Agent 是什么样的?

李超: 我现在是一个人工作状态,主要服务于几个业务像是自媒体、企业服务、写代码、写工具等等。我目前用三类工具用得比较多。

第一类是 OpenClaw 小龙虾。我把生活中又臭又长的东西都丢给它管理。

第二类是 Claude Code 这些写代码的工具。如果需要具体某个项目、某个开发工作,就会去用。

第三个要特别介绍,就是 PI Agent 这个开源项目。它的设计非常极端、非常简洁。你看 Claude Code 就算问它一个「你好」两个字,可能也会帮你加载 2 万 3 万字的 Token。但当你「造」的工具用多了以后,就会想去用一些更加简单的、更加听话的、可以做很多定制化改造的 Agent。

Pi 可以在其他 Agent 都往里面加功能的时候,它往里面减功能。它甚至减到了只需要一个核心大模型,加上读文件、写文件、编辑文件和执行命令 4 个工具,就能帮你完成几乎电脑上所有的工作。

张鹏: Agent 已经在你日常工作里接管了多少?

李超: 写代码这种工作,基本上 90% 以上都是 Agent 接管。跟外部客户的沟通咨询合作,你人还是需要出席的,但大部分前期、后期的准备工作,也是由各种 Agent 帮你处理。总的加起来,平均可能 60% 或 70% 的比例,是 AI 来帮我工作的,否则我根本忙不过来。

张鹏: 在你打造这些 Agent 和 AI 工作流的过程中,有没有一些比较让你崩溃的时刻?

李超: 崩溃是天天在的。刚开始玩小龙虾的时候,过年那两周基本上天天在修 Bug,天天在给 Agent 打工。你要帮它把旁边的「灰尘」扫干净,保证房间里电不要断掉。

现在花我特别多时间的是,我用 Pi Agent 搭一个适合我的、定制化的、完全符合我工作要求的 Agent。但你甚至不知道它的边界在哪里,应该怎么更好地调它来适应我的工作?如果把它做得太复杂,会不会反而有一些安全或其他各种风险?

张鹏: 金总,e 签宝已经有 20 年了。你的那些客户,企业的老板们,今天怎么看这一波 Agent 的浪潮?

金宏洲: 今年过完年之后,我感觉这波热潮就是扑面而来,而且吹到了一些企业家。我身边有一些「太上登」级别的企业家,都来问我龙虾该怎么装。

后来我在企业组织了三波,每次几十个人来学习安装小龙虾。有些企业家自己买了 Mac mini 带过来现场装,都特别有学习精神,也特别上进。我觉得很诧异,这波龙虾热潮会有这么火。

张鹏: 这些老板们最后龙虾用到企业用到什么程度了?

金宏洲: 虽然大家很热情,但像我们身边的大多数传统企业的企业家,其实没有像李超这样的极客能力。我发现他们用的都很浅,也就是帮我收集一下每天什么新闻汇总一下,替代了半个秘书。但你要问他为什么不能继续深入用,就像我们其实也没有把小龙虾弄到内部应用。

大家主要担心的还是安全的问题,怕数据、客户信息出去了。我们的拿手本领都被泄漏出去了,怎么办?也有又怕因为权限的问题导致误删很多数据,或者乱操作。还有可不可审计?监管行业有没有符合监管要求?反正这些东西都导致企业内真正用企业小龙虾是非常非常少的。而且对企业来讲不仅是要好用,还要好管。

张鹏: 那你们最近有啥反应吗?

金宏洲: 我大年初一装小龙虾,我发现我被小龙虾指导该如何消费了。当时我的小龙虾要做一个全球的信息收集,它告诉我要用一个新闻引擎,需要付 5 美金,我就付了。我第一次深刻感受到所谓的软件行业要改变了,原来的入口完全不一样了。不再是别人告诉我要怎么购买决策,而是我的龙虾告诉我要买什么东西。

去年,我们做 2026 年战略的时候,我们就提出来整个全年要 AI Native,主要事做 AI Native 的产品和适配 AI Native 的组织两个方面。

我们已经做了一个升级,原来的 eSign.cn 和 eSignGlobal 两个域名,现在是都是 eSign.AIhttps://www.esign.ai。我们整个产品像是合同 AI、合同 Agent 的 2.0 也同步发布,变成完全 Agent 形态。

我们今年除了产品上,时间花得最多的是 AI Native 组织。我们公司有 800 多人,怎么样在新的时代能够让他们的价值发挥出来?第一件事情我就组织了公司内的培训,所有人都得学会怎么搭建 Agent,然后 Agent 做好之后用在业务上面。现在我们有五大公司级的数字人项目,每个项目每周都会去看它的进度。

张鹏: 所以其实 AI 本身的意义是指这家公司在未来的战略方向上要做调整,从过去软件的形态变成 Agent 架构提供服务?

金宏洲: 对,我们完全都是 Agent 架构,基本上重做了。域名看起来是一个姿态,但实际上它有很多实际的东西,但姿态也很重要。

张鹏: 李超,你怎么看所谓 AI 吞噬软件这个说法?在你身上有没有这样的体感?

李超: 你自己亲身每一天的经验都是告诉你,Agent 正在吞噬以前的一些软件。Agent 作为个人唯一的入口,可能已经是一个不太容易去改变的趋势了。那它作为一个入口,就会把原来那些只有入口能力的软件给吞噬掉。

比如说只是把数据搬运来搬运去,然后在 APP 上、网页上大概展示一下,最后给你一个报表。但我现在健身、跑步、做饮食规划,我完全都是通过 Vibe Coding 形式在为自己写一个定制化的、完全符合我要求的 AI Agent。

过去,你需要两个功能。但 APP 会给你 100 个功能然后你只用两个。现在我只需要两个功能,那我就自己做一个,二十分钟就能做一个很完整的功能了。

原来那些纯粹是摆弄数据流的应用,可能就被吞噬了。但那些原来真正有底层能力的应用,它还是在那里。比如说有传感器能力的,我自己做不了,最多是在外面给它再包一层。有供给能力的,比如社交的供给能力的。微信上就是有这么多人,你自己做一个也没人理你。有知识产权、可以发资质的能力,那也会很稳地在那边。所以有自己核心能力的软件,还是很有存在感,但其他的都会被统一成个人的 Agent 入口。

张鹏: 金总,你怎么看这个所谓 AI 吞噬软件?如果今天我们是基于软件的服务,我们要如何反吞噬?

金宏洲: 软件的价值,如果说分层的话,从低到高是:界面、流程、数据、网络效应。如果说只是流程价值和界面价值比较多的软件肯定是被吞噬掉。

相对来说不能被吞噬的,就是有数据价值和网络效应的,包括生态价值、监管合规的这类软件更偏向被 AI 赋能。

我们最初其实也有这样的焦虑,AI 层成为入口,我们这样的中等规模软件厂商是比较危险的,有可能就被吞掉了。但我们发现在这个事情的进程中,有些事情是不可抗的,比如说 Agent 或者 AI 变成了入口,我们就需要在被调用的时候也要保持我们的价值。

最后我们觉得还得有牌照什么之类的,可能是一个更好的方式,所以我们也去拿了数字认证的牌照。因为只有稀缺才有定价权。

我们电子签名类的产品在未来身份认证、电签产品在 AI 时代还继续有价值,它本身提供的是一个信任服务,需要有一定的中立的第三方身份在那。我们还有大量的数据、网络效应,所以我觉得我们还是可以活下来的。

张鹏: 所以你核心在于不管过去软件时代还是用不用软件的方式在提供服务,但这个服务的本质是一个信任的基础。这个事没变。

金宏洲: 对,但后来又进一步琢磨,觉得有了 AI Agent 这个事情,市场空间反而更大了。

为什么呢?我们过去做的都是给人、给企业做认证、做电子签名,信任服务就是让整个社会更丝滑地运转。大家相信印章代表我,那个印章代表你,见章就见人,交易成本就下降了。在 AI 时代,我们把这个一个个 Agent、一个个智能体想象成人的话,它也需要有身份。有身份才能在这个商业社会继续高效地去完成交易行为。

我们可以给所有的 Agent 发一个数字的身份证。那这个空间是巨大的。所以我们想想就特别兴奋,在 AI 时代,我们的空间反而更大。

 

二、为 Agent 签发身份证,是枷锁还是通行证?

张鹏: 李超你今天大量的 Agent 应该就是自己在用。你有考虑过未来要对外去创造一些对外服务的工作流或者 Agent 吗?对于刚才金总说的认证问题,你怎么看?

李超: 我非常有感触。我大部分搭建的 Agent 或者工作流是给自己用,提高自己的工作效率。但我也做很多企业的服务,帮企业去推进工作流。

自己在做 Agent 的时候,你完全不觉得这是个事情。一个 Agent 有三四个 Bug,我都懒得去修,因为我就知道有个按钮你不去按就行了。

但一旦你给企业服务,或者帮企业去推进服务的时候,所有的小问题都会变成大问题。他会来问你,你这个工作流或者 Agent的权限会不会涉及到公司的保密业务?你能不能把这个权限给框住?

如果他一步一步做完了整个工作流,不管最后有没有成功,我能不能倒推看是哪一步没成功,在哪一步上可能对企业以后还会造成风险?

而且他来找我来做,可能是因为我在网络上有点声量,觉得我的技术比较可信。但对于普通的开发者来说,如果要去接这样项目,企业信任你也挺困难的。摩擦力蛮大的。你可能要花很多的时间,跟企业配合沟通、不断交流,一两个月你可能才能拿到一些单子。

所以一旦进入了真正的商业世界以后,所有的小问题都会变成真正的大问题。

张鹏: 所以如果有这样的认证,反而是降低你的交易摩擦。金总,那未来是不是这种认证也要解决一层,我们要有新的服务真正能跑出去,它得需要先有信任能建立?

金宏洲: 对,信任服务本身就是降低交易的成本。这里面就是一个是可信的身份,一个是他的行为是可追溯的,最后责任是能有归属的。我觉得这是一个最核心的事情。我们作为第三方的信任服务,解决的是不认识的人之间,或者两个 Agent 之间怎么是互信的。

张鹏: 李超你自己今天有什么审查程序吗?调用一个 Skill,或者用一个别人的 Agent,你怎么去确保它相对可信?

李超: 我其实很担心。现在 ClawHub 上面有 5 万多个 Skill 了,提示词恶意注入的很多,你不太敢去用网上能下载的 Skill。如果去下载,第一个就是看他是谁写的。如果是小龙虾的创始人 Peter Steinberger 写的,那我基本上就相当于 100% 信任了。虽然肯定也会有 Bug,但不存在说这个人是恶意想来从你电脑上窃取一些什么东西。

如果是一些大厂写的,我也会比较信任一点。如果是个完全不知名的,就算旁边收藏跟星星很高,都会有些担心。

张鹏: 金总这个问题咋解决?建立信任真的是挺难的。人类世界、商业世界这么多年演进过来,但如果今天人们就只追几个大佬,那这个世界也挺无聊的。年轻人不断地创造新的东西,你让年轻人怎么让公众能信任?我们怎么能确保至少没有主观恶意?像是一个人有一个身份证,Agent 和 Skill 能解决这个问题吗?

金宏洲: 我们解决的是一个是这个可信的身份,也就是证明谁是谁。第二个是他做的事情是不可篡改。第三个是可追溯、可溯源。

但我觉得我们不是说有了这三个前提、有了身份就不犯罪了。就像咱们有身份证,但也有人犯罪。并不是说就一定是绝对安全的,但这个身份是安全的起点。

至少说出了问题,他是可以找到责任人的,这就会大大降低了恶意犯罪的可能性。身份认证肯定后面还要配合安全审计、权限管控,以及更多的安全产品去配合来确保整个的安全。

张鹏: 如果我们的目标是能够降低交易摩擦,能够更可信的让 Agent 在不管是广众的领域还是企业的业务领域跑起来,它复不复杂?这里边涉及到哪些技术?

金宏洲: 其实我们给 Agent 做身份认证,从技术角度一开始我们在琢磨,碰到第一个问题就是怎么定义这个 Agent?

Agent 不像人,我们有生物特征、有物理的实体。Agent 它并没有这些东西,而且还在不断的变化。

后来我们觉得陷入了误区,不能这样去想问题。首先Agent是一个系统,我们用系统论的思维去思考它。系统论就是说有要素之间关系,还有一些规则,构成了一个以某特定目的的系统。

Agent 就是一个有特别的任务、特定的目的,它是一个能够自我维护的、有一定边界的闭环的系统,我们不能说它当下给它认证之后它就不能动了。

这个问题实际上就像我们给企业做认证,现在给某家企业做了认证,它现在是 100 个人,一年之后它发展了 500 人了,甚至原来的 100 个人都换掉了,但还是那个企业。只要它本身没有实质性的变化,它还是那个企业。

那我们把这事想明白,就去收集 Agent 的 ID、工作区域的地址等等个性的信息,把它作为一个认证的基础。但最核心的还不是这个,而是说这个东西和他那个开发者之间的关系的唯一性,开发者和这个 Agent 是唯一的关系,或者它的创造者之间唯一的关系,这个才是我们认证的根本。

所以我们这个认证分两个的:一个是对这个开发者或主人的认证,另外就是对 Agent 的认证,合起来才是对这个 Agent 的认证。技术上的难点来讲,很难也谈不上。更难的是它是一个系统性的工程、一个社会的工程。

张鹏: 要形成一个共识。

金宏洲: 对,它是一个生态。就像我们 20 年前推电子签名,经历过那个大家也不认可,后来有法律、有各种规范、有市场化公司的努力,才形成了今天有这么多人用电子签名。Agent 认证大概也要经历这个过程,可能会快一些,但它是一个生态共建的过程。

 

三、A2A 时代基建狂潮前,如何为 AI 世界的「互信」铺路?

张鹏: 最近大家谈论小龙虾的 Skill 里边有一些恶意代码。现在那么多的 Skill,我怎么筛、怎么去定?未来新的可能也更好的,我到底试不试?我怎么敢相信它?在 Skill 这一层本身,要不要有一些对应的认证?

金宏洲: Skill 的认证也是很重要的,所以我们这个 AI Agent,我们取这个名字是可信 Agent,它也包含了 Skill 部分的服务。

我们做给 Skill 能解决什么问题?首先有大量的不安全的问题。另外作为创作者来讲,他好不容易做了一个,然后别人很随意让其他 Agent 学习。李超老师也讲到,他作为开发者也希望他的 Skill 被用户更多接受,但别人不信任他,不放心。这就是一个分发成本的问题。

我们这次和国内知名的安全公司安恒信息,以及国家工业信息安全发展研究中心知识产权所,我们三家合作推出了VeriAgent.AI(https://www.veriagent.ai)来这个问题解决。

我们是怎么分工的?

首先解决安全问题,让用户放心使用。安恒信息在这边会对上架的 Skill 做安全扫描,会给出一个评估分数,达到这个分数意味着 Skill 可以安全了。

我们在这里面起的作用,就是给这个 Skill 做数字签名。这个数字签名包括对开发者的一个身份认证,然后再对这个 Skill 本身做一个签名,确保它是不可篡改,确保它整个的运行环境是可靠的。

Skill 的签名,其实基本上是沿用了在软件时代的代码签名证书。软件时代就有这个,它解决一个什么问题?也是软件的身份认证、开发者是谁,然后它不可篡改,系统可信,整个软件生态相信它是一个可靠的软件,大家就放心下载。

第三个就是国家工业信息安全发展研究中心知识产权所发的 Skill 技术秘密登记凭证。这个凭证类似于计算机时代的软件著作权证书,对你 Skill 里面的技术秘密进行验证之后,给你发这个技术秘密的登记备案凭证,来保护你开发者的权益。万一未来有可能发生纠纷,他们也会提供相应的法律支持。

所以我们通过这样三家一起完成了从安全、到可信、到权益保障整个的一个闭环。

张鹏: 看起来越是底层的东西可能越需要把这个复杂的东西能够真正系统性地去解决,都不是一个点的问题,都是一串问题。你这一解决问题就是一套体系,所以你这事得干 20 年。

金宏洲: 对,我发现我们肯定现在都要交付结果了。

张鹏: 李超,既然我们说未来要安全的认证,知道背后是谁在开发这个事,它有点类似于实名制了。你作为一个超级个体、一个开发者,你怎么看这个实名制个人承担责任这件事?这个责任的边界到什么程度是你愿意接受的?

李超: 好难啊这个题目。我心里是很接受实名制的。因为有实名制之后,市场才能越来越完善,在里面的人才能赚到更多的钱。

但我觉得这里面的边界就比较难去界定。比如说我作为我搭一个应用、AI 应用 Agent,涉及到模型方、平台方、部署的那一方,包括我自己开发者这一方,中间涉及的环节很多。你最后搭建的产品也不是特别像以前传统软件一样有固定的三个功能、五个功能,所以它的边界就比较难去界定。你如果把所有的产品问题遇到什么问题都归结到开发者本身,那我觉得对这个产业,那就叫无限责任了。

我觉得在两个方面去强调这个责任,一方面就是功能行不行,功能有完全达标,有可能差一点,但这个是一个小问题。

还有个大问题就是说有没有恶意地去破坏、恶意地去植入一些东西。那这个可能是一个更大的、更基础的问题。

如果在这两点上面去追溯与开发者责任,我觉得都是比较合理的。比如说你有没有去恶意植入一些东西?如果没有,那你这块应该是没有任何责任的。

第二点在安全的情况下,你功能是不是能够达标?那功能达标我觉得可能是个比较软性的责任,也有可能是他自己挑选的模型的问题。

所以最基础我觉得可能还是要守住那个恶意的、不要去主观恶意的底线。我觉得可能对开发者会比较友好。因为对开发者的友好,其实对这个整个的 AI 生态现在所有的 AI 的项目或者发展趋势,都是从极客、从开发者圈子里面,从 GitHub 上面从底下推出去的。所以开发者要承担一些责任,但是也要为开发者做好免责。

张鹏: 我觉得一方面要有责任,另一方面又必须是“有限责任,更多的应该是更广范围内的免责。金总,你认不认同,至少在今天先能够大家能承担的责任,就是我没有主观恶意?

金宏洲: 我觉得这个问题分两层。

第一层就是我们最基本的智能体和它的主人的界定问题。我觉得首先第一个就是主人和 Agent 之间的内层的界定。我们现在比较主张的还是 Agent 做的事情是获得主人的授权的,那么出了问题,主人得担责,这是第一层,人机协同。

第二层就是 Agent 有可能主人同时也是开发者,像李超这样的,但大多数时候他不是开发者。主人只是买了一个封装好的 Agent 来使用。这种情况就像现在当下自动驾驶领域所讨论的话题,车厂的责任还是司机的责任,出了车祸的话。

我看到现在一些国家的法律出台,基本逻辑是如果它已经达到 L3、L4 的自动驾驶能力,车厂已经公布了,同时法律要求装黑匣子,在这两个前提下,出了事是算车厂的。

我觉得可能未来到 Agent 再成熟的时候,排除开发者那层、极客那层,很多普通人就喜欢给我一个完整的东西。那时候可能会出现这种状态,它很智能,可以帮我去购物、去支付各种各样的,权限管理什么都 OK,但它同时也是有认证的,也是有行为可追溯的,黑匣子装好了。那么我觉得如果还出问题、不受控了,那么这种情况下是不是可能是开发商会有一定的责任?

张鹏: 所以你再类比,今天是从辅助驾驶的角度,如果出车祸肯定是车主的问题。如果是辅助系统出了问题,可能是算车厂的。但未来如果到了真正的自动驾驶,到 L4、L5,那毫无疑问肯定是车的问题,因为连方向盘都不给我了。

金宏洲: 这也是特别有意思的话题,最终这个智能体它能不能有这样的主体责任,能不能承担主体责任?

我们至少当前之前聊的都是认证主人和 Agent,同时还有他们关系的唯一性,确定最终承担责任是主人。

但我自己觉得当 Agent 发展到更成熟的一天,它更聪明了,真正能帮主人做很多事情,甚至时间长了,作为我的 Agent 我都跟它产生感情了,会不会有这种情况?

或者某一天,甚至我去世之后,我就说我把我某些资产让我的 Agent 管理了,我觉得完全有可能。那么到那个时候可能就是在法律上,也会给这个 Agent 一定的主体的身份。

这让我联想到公司。公司它有一个抽象的概念,叫法人。法人最早大概 1600 年左右在欧洲出现,但一直到大概 100 多年前,最后才法律上定型。

一开始大家讨论就是说这个公司、这个组织能不能承担责任?一样的,最终也是说只能是人承担责任。到后面我们现在都知道今天的法人,公司是可以去签合同、可以去诉讼、可以被诉讼,资产继承都是可以的。

所以它就是有了这样的主体的资格。我觉得 Agent 也会走过类似这样的过程。

张鹏: 你看你一开始说我们最早探讨的是 AI 吞噬软件,你逐渐认为不是吞噬。那我就顺应潮流,用新的机制来解决过去依旧被需要的问题。但你服务的客户可能会变化。以前你毕竟服务的是人和组织,未来都是一帮 Agent 和 Agent 之间互相要去印证。你怎么看这个趋势?因为今天有一个新潮流的说法,以后不给人开发工具,只给 Agent 开发工具。

金宏洲: 对,这个就是从焦虑到兴奋那个转折点,就是发觉我们可以 A2A 了。原来 to P、to C、to B,现在可以 to A 了,所以这个就是感觉空间是巨大的。

我们也非常相信未来 Agent 数智能体是人类的可能 1000 倍甚至 1 万倍更多。当然我们不会说对所有的智能体去需要强的身份证,但我相信还是有很大市场的。

我也觉得未来 A2A 的交易可能是整个全球交易的 80% 以上,而且 A2A 交易会呈现出一个特点,它是小额、超高频。所以它对认证、对确权、包括签名这些需求反而是更高频的,反而空间是巨大的。

当然我们觉得现在整个的基建这个事情还是刚开始,都还没有做好,所以也是我们的机会。我们觉得现在要做的事情就是把这个基建搭好。

我们把人类世界原来的那套信任规则,它不能因为是 Agent 它就打破,它可以是有变化、有升级的,技术上也可以迭代的,但是它底层逻辑是没变的——还是谁是谁,做的事儿是不可篡改的,责任是可溯源的,这个最核心的事情本质还是不会变的。

所以我们还是抓住这个点。我觉得这个信任服务,不管是未来这个数字社会怎么样,是不是还是以人为中心都没关系,但是它这个信任服务的服务肯定一定会存在。

张鹏: 你说这点我倒是挺认同的。不管我们技术怎么变,最终在这个商业世界里边这么多年运行的规则,包括所谓的信任的基础,它是不可能完全被颠覆掉的,要不然这个系统就崩塌了。所以这件事反而是得有一套新的关于信任的基础设施和体系得能建立。

金宏洲: 我们从焦虑到最后笃定的一个转变的最主要点,我们还是得抓住不变的东西。

张鹏: 你也是创业公司,有没有投资人天天鼓动你们赶紧借着什么龙虾或者这波 AI,你们发个什么产品,搭上这波浪潮?我看你现在做的这个事又是一个要爬好多年去构建复杂体系的事。

金宏洲: 我觉得我们还好。这个世界有好多机会,有好多新的事情,当然有好多聪明人在做,比如像李超老师这样都在做。那么最终这个事情为什么是你?

可能那点子很好,可能最后发觉跟自己的长板完全不是太搭的,我觉得大概率是失败,也没必要去做。所以最终我们还是回归到这个事情是好的,市场空间巨大的地方,你还是要回答为什么是你?所以我们觉得还是抓住我们自己最擅长的那部分。

张鹏: 哪怕是脏活累活,要花时间的,反正该干的还得干。

金宏洲: 对,「脏活累活」才是护城河。

 

 

 

一年烧掉 1850 亿美元、Google 要做智能体时代的「企业 Windows」

2026年4月23日 22:33

4 月 22 号,拉斯维加斯,Google Cloud Next 2026 正在如火如荼地举行。

了解 Google 每年产品发布节奏的人都知道,I/O 是讲手机、讲安卓、讲各种新产品如何改变人类世界。而 Next 的画风完全不同,它一上来就直奔企业客户,聚焦在云基础设施怎么搭,AI 怎么落到生产环境里去。

而如果把过去四年的 Next 大会串在一起,你会看到 AI 时代 Google Cloud 有着一条愈发清晰的进化曲线:

2023 年,Google Cloud 端上来的是 PaLM 2 和 Duet AI,主题是「把大模型能力嵌入云服务」;2024 年,Gemini 1.5 Pro 登场,Vertex AI 开始向 Agent Builder 方向进化,主题变成了「给开发者搭建 AI 应用的平台」;2025 年,ADK 和 A2A 协议发布,Agentspace 上线,Google Cloud 开始铺智能体之间互相协作的基础设施。

而到了今年,所有这些散落在不同年份、不同产品线上的碎片,被收拢进了同一个产品——Gemini Enterprise。

四年下来,Next 的主题从「大模型进入企业」到「Agent 开发工具」再到「Agent 生态构建」,而进入 2026 年这些过去的积累正在通向一个更大的野心:定义什么是智能体时代的操作系统。

Google Cloud CEO Thomas Kurian 在台上把这个野心拆成了一句判断:「你无法通过拼凑碎片化的芯片和脱节的模型来创造真正的价值。你需要一种架构,其中芯片是为模型设计的,模型基于你的数据,智能体和应用用模型构建,并由基础设施提供安全保障。」

这就是我们在这次 Next 大会上看到的,Google Cloud 不止是在发布一组新产品,而是在重新定义企业 AI 技术架构:在一个人类员工和数十倍数字员工共同协作的 Agentic 时代,谁掌握了企业管理智能体的控制面板,谁就拿到了这个时代的操作系统。

 

一、Gemini Enterprise:从智能助手到智能体操作系统

要理解这次 Next 大会的核心发布,首先要把一个容易混淆的问题理清楚——今天的 Gemini Enterprise 和去年秋天发布的那个 Gemini Enterprise,已经不是同一个东西了。

去年 10 月,Google Cloud 推出 Gemini Enterprise 时,定位是「把 Google AI 最好的能力带给企业的每一个员工」。说白了,当时它是一个企业版的 AI 应用入口,员工可以在里面聊天、问问题、生成内容,本质上还是一个 chatbot。

而这次 Next 大会上发布的 Gemini Enterprise Agent Platform,性质发生了根本变化。它不再只是一个给人用的工具,而是一个用来构建、部署、编排、治理和监控智能体的完整管理平台。

这其实也是过去几个月里,在 OpenClaw、Hermes 等产品爆火以后,我们反复讨论的行业议题:当企业从「试点一两个 AI 项目」走到「在生产环境中运行无数个智能体和 AI 项目」,需要的不再是一个聊天窗口,而是一套企业级的控制系统。在这其中,谁有权创建智能体、智能体能访问哪些数据、它做了什么决策、出了问题怎么追溯、多个智能体之间怎么协作分工都是新的机会。

Gemini Enterprise Agent Platform 正是为了回答这些问题而搭建的。它的核心组件包括:

  • Agent Studio,让业务人员用自然语言定义智能体的行为逻辑,不需要写代码;
  • Agent Registry,为全公司的智能体提供统一的索引和发现入口,相当于智能体的「组织目录」;
  • Agent Gateway,扮演类似空中交管员的角色,统一执行安全策略,监控每一次智能体与数据的交互;
  • Agent Identity,给每个智能体分配唯一加密身份和可审计的授权策略;

Agent Observability,提供完整的执行路径可视化和细粒度遥测,让管理者能看到智能体到底做了什么、花了多长时间、调用了哪些工具。

从产品逻辑上看,这套平台的设计思路和企业 IT 管理团队过去管理人类员工的方式高度对齐,像是入职(创建)、分配权限(身份与策略)、日常管理、绩效评估……区别只在于,被管理的对象从人变成了智能体。

这件事为什么重要?因为它重新定义了企业服务的「卖点」。在过去很长一段时间里,云厂商的叙事框架几乎没变过:底层拼算力,中层卖开发环境,上层打包 SaaS 工具。即使 AI 浪潮来了,大多数厂商还是在这套三层框架里做增量。

但 Google Cloud 这次跳出了这个框架,它用一个新的问题来锚定产品价值:你能不能让企业放心地把核心业务流程交给成千上万个智能体?

这个问题背后,是企业采购逻辑的根本变化。过去企业 IT 采购的核心问题是「这个软件能不能解决我的问题」,现在变成了「这个智能体能不能自主完成我的任务,而且我能不能信任它、管理它、审计它」。信任、管理、审计,这些要素正在成为智能体时代企业服务新的核心竞争力。模型会商品化,算力会平价化,但谁能帮企业管住数字员工,谁就握住了客户。

这一点已经在Google Cloud 的客户端得到了验证。沃尔玛在 Next 大会上分享了他们的案例,他们把 Gemini Enterprise 推广到门店负责人,配合 Pixel Fold 设备,让领导们能在几秒钟内获得原本需要几小时才能整理的运营数据。沃尔玛的逻辑很朴素,门店经理的价值不在于整理库存报表,而在于和顾客交流、激励团队。AI 接管了前者,人才能专注后者。

德国保险公司 Signal Iduna 则在数周内实现了 80% 的 AI 采用率,11000 名员工正在构建各自领域的专业智能体,其中健康保险智能体能根据一个世纪以来的复杂保单数据自动验证保险范围,答案提供速度加快了 37%。KPMG 在首月就实现了 90% 的员工采纳率,构建了超过一百个智能体。

这些数字背后的共同模式是:Gemini Enterprise 不是替代人,而是让人回到更有价值的工作上。但让这件事能规模化发生的前提,是企业拥有一套可信赖的智能体管理系统。这正是 Gemini Enterprise Agent Platform 要解决的核心问题。

 

二、五层架构:Google 为智能体时代搭建的操作系统「底层」

如果说 Gemini Enterprise Agent Platform 是这次大会的核心产品,那么支撑这个平台运转的,是 Google Cloud 在台上展示的一套五层技术架构。从底层的芯片到顶层的预置智能体,Google Cloud 试图用一套垂直整合的方案,把企业运行智能体所需的一切能力打包交付。

Kurian 在台上把它拆成了五层架构:AI 超级计算机(AI Hypercomputer)、智能体数据云(Agentic Data Cloud)、智能体安全(Agentic Defense)、智能体平台与模型(Agent ic Platform and Models )、智能体编排小组(Agentic Taskforce)。

第一层:AI 超级计算机(AI Hypercomputer)

AI 时代的基建,算力永远是最重要的,也因此 TPU 的进展无疑是此次大会看点之一。Google Cloud 发布了第八代 TPU,首次分化为训练和推理两个专门平台。训练版 TPU 通过 3D 拓扑结构可扩展到连接 9600 个 TPU,计算性能提升 2.8 倍,单个超级计算单元提供 2PB 内存。据介绍,这个容量足以装下美国国会图书馆数字馆藏 100 次。

推理平台上,Google Cloud 在芯片层面集成专用「加速引擎」,将延迟进一步降低 5 倍。通过新的 4.5 拓扑结构,1152 个 TPU 可组成低延迟集群,以近乎零等待的方式并发响应数百万个智能体的调用请求。

同时,Google Cloud 配套发布 Virgo 网络架构,将连接带宽翻倍,单集群可支持超过 100 万个 TPU 芯片的协同工作。

此外,Google Cloud 宣布成为首批提供 NVIDIA Vera Rubin NBL72 实例的云服务商,针对高交互性与长上下文推理优化,性能效率提升 10 倍。

在模型层面,平台持续支持第三方模型接入,包括 Anthropic Claude Opus 4.7,并将所有 GCP 服务通过模型上下文协议(MCP)开放,让智能体可直接调用云资源。

第二层:智能体数据云(Agentic Data Cloud)

这是 Google Cloud 构建这个整套系统的「大脑」,是智能体的「记忆与常识」搭建的基石所在。它负责将散落在 PDF、视频、第三方云存储中的暗数据,转化为智能体可理解的业务语义。当智能体听到「净收入」或「风险」时,它能理解其在你公司的确切含义。

Google Cloud 主要核心发布两款产品,知识目录(Knowledge Catalog)与 Cross-Cloud Lakehouse

其中,知识目录是作为通用企业上下文引擎,它在文件写入 Google Cloud Storage 的瞬间即由 Gemini 自动介入,提取实体、映射关系并理解业务语义。智能体听到「净收入」或「风险」时,能准确定位其在企业数据模型中的具体定义。

而 Cross-Cloud Lakehouse 则是基于开放 Iceberg 标准,允许 BigQuery 等分析引擎直接对 AWS S3、Azure 中的数据进行查询,无需迁移数据、无出口费用,让智能体能够跨云获取完整的业务上下文。

 

第三层:智能体安全(Agentic Defense)

比较意外的是 Google Cloud 将安全部分空间开放出来与 Wiz 合作,共同搭建。这一层主要是将安全系统本身转化为自主运行的智能体,核心发布是与 Wiz 整合后形成的 AI 应用保护平台及 Agentic SOC。

其主要的方式,是打造一支红蓝绿安全智能体战队。其中,红队智能体持续扫描暴露面,主动探测认证绕过漏洞;蓝队智能体基于 Mandiant、VirusTotal、Chrome 的全球遥测情报狩猎威胁,外部威胁识别准确率达 98%;绿队智能体在漏洞确认后自动定位具体代码行、生成修复建议,并可将 Pull Request 直接推送给开发团队或交由编码智能体自动修复。

据相关负责人介绍,Google Cloud 内部安全团队过去审查海量非结构化威胁报告需数千小时,智能体自动分类后,威胁缓解时间缩短了 90% 以上。

 

第四层:企业智能体平台与模型(Agentic Platform and Models )

这是 Google Cloud 为智能体搭建的一个完整的管理中枢,整合了模型、构建、编排、治理与可观测性,也推出了一系列产品包括:

  • Agent Studio:低代码构建器,业务人员用自然语言即可定义智能体行为,将 ML 模型与特定业务规则结合。
  • Agent Registry 与 Skills 注册表:前者为全公司智能体提供统一索引与发现入口;后者将 GCP 与 Workspace 的每项服务封装为模块化技能,并通过 MCP 协议连接第三方系统(如 Atlassian、Salesforce),智能体可动态调用。
  • 编排框架:支持确定性流程,像是合规审批,确保结果可预测等等。还有生成委托,也就是主智能体自主将子任务分派给其他专业智能体两种模式。
  • 智能体身份与可观测性:每个智能体拥有唯一加密 ID 与可审计的授权策略,所有行动通过 Agent Gateway 统一执行策略管控。细粒度遥测可可视化智能体的完整执行路径、耗时与工具调用记录。

在模型层面,Google Cloud 同步发布了针对复杂工作流编排优化的 Gemini 3.1 Pro、高保真视觉资产生成的 Gemini 3.1 Flash Image、高容量视频应用的 Veo 3.1 Light 及专业级音频模型 Lyria 3 Pro。

 

第五层:智能体专项小组(Agentic Taskforce)

这是五层架构的最顶层,也是智能体直接交付业务价值的「数字员工」层。Google Cloud 预构建了一批面向特定场景的专业智能体,覆盖客户服务、营销、代码开发与安全运维等核心业务领域。

在客户体验方向,购物导购智能体已在百思买落地,用于向消费者解释复杂的产品规格;家得宝则将其包装为「魔法围裙」助手,在店内与线上同时提供寻路与选品支持。食品订购智能体帮助棒约翰记住每位顾客的偏好,实现超个性化点餐体验。YouTube TV 上线的全渠道语音客服智能体上线即覆盖全部用户,支持实时中英文切换,将复杂的产品逻辑转化为自然对话。

在行业定制方向,财富管理机构 Citywealth 推出了 CitiSky,定位为团队中「始终在线的 AI 成员」,以多语言实时响应全球客户的查询请求。NASA 则将 Gemini Enterprise 智能体用于飞行准备流程,保障 RMS2 任务中宇航员的安全,该任务至今保持着人类太空飞行离地球最远的记录。

Google Cloud 内部同样是这套系统的深度用户。智能体编排小组参与完成了一次复杂代码迁移,整体速度较一年前提升了 6 倍;营销团队则借助模型生成了数千种创意资产变体,使活动周转速度加快 70%,转化率提升 20%。

其实从这五层框架可以清晰地看出两条并行的主线。一方面,Google 正在围绕这套新的产业框架全面重组自己的产品线与业务边界,比如说 TPU 不再只是算力商品,而是按训练与推理分化;数据云不再只是关注存储与查询,而是为智能体注入上下文;安全也开始是一套自主运行的智能体系统。很显然,每一层都在为「智能体规模化落地」这个终极目标重新对齐。

另一方面,这也说明未来企业不再需要自己从芯片、存储、网络、模型、安全、应用这一长串链条中逐一组装零件,因为过去衡量云厂商能力的是机柜数量与产品目录厚度,今后衡量的将是它能帮助企业调度多少智能体、完成多少任务、产出多少业务结果。

AI 时代,企业服务的玩法要彻底改变。

 

三、Next,AI 企业市场将会如何改变?

会议结束的时候,我听到有人讨论道:「Google Cloud 向整个企业服务行业开枪了。」

这个判断不算夸张,从这次的发布来看,Google Cloud 不再满足于在 IaaS、PaaS、SaaS 的既有框架里做增量,而是直接用「智能体能否自主完成任务」这条新标尺,重新丈量整个企业技术栈的价值。

为了支持这种方式转变,Google 在过去几年不断加大技术和基础设施投入。Pichai 在台上披露了过去几年 Google 的投资规模增长:2022 年Google 的资本支出是 320 亿美元,今年计划投入 1750 亿至 1850 亿美元,四年内增长近六倍,其中预计超过一半的机器学习计算资源将用于云业务。

对于那些专注于某个细分环节的创业公司来说,这场发布是一个不容忽视的信号。过去两年,围绕通用模型做工程化封装的公司,模型路由工具、AI 协作看板、垂直行业的智能体构建器,它们各自在局部建立了不错的产品。

但当 Gemini Enterprise 同时兼容 Gemini、Claude 等多种先进模型,原生集成数据治理与零信任安全,支持低延迟直连 AWS 与 Azure 数据且无需迁移,还提供低代码构建器、身份管理、编排框架与可观测性工具等等。当这些能力被整合进同一个控制面板时,仅提供单一或少数几项功能的创业公司,将很难在这个新体系下维持独立价值。这不是功能优劣的竞争,而是「一套生产线」对「单个零件」的替代。

Kurian 在结尾部分着力强调了 Google Cloud 的「开放性」,比如说,支持第三方模型、支持跨云数据访问、MCP 协议开放所有 GCP 服务、合作伙伴生态涵盖 BCG、德勤、麦肯锡等。这种开放姿态与微软 Copilot 生态的相对封闭形成了对比。

但仔细看会发现,所谓的「开放」是有策略的:模型选择是开放的,数据连接是开放的,但管理平面,那个决定智能体如何被构建、如何被编排、如何被监控的控制层,已经牢牢握在 Google Cloud 手里。

这是一个经典的「用开放换锁定」策略:入口宽阔、出口狭窄,一旦企业在 Gemini Enterprise 上构建了数百个智能体、配置了完整的权限策略和审计流,迁移成本就会变得极高。

同时值得关注的信号来自生态联盟。Google Cloud 与苹果的合作被摆在了聚光灯下。Google Cloud 作为苹果首选的云服务提供商,正在基于 Gemini 技术合作开发下一代苹果基础模型,这些模型将直接注入未来的 Apple Intelligence 功能。

当全球最大的消费级 AI 入口之一与 Google Cloud 的基础设施深度绑定,Google Cloud 获得的不仅是算力订单,更是对终端用户 AI 体验底层标准的定义权。这起合作也在向行业传递一个信息。在 Agentic 时代,云厂商的角色正在从「资源供应商」升级为「生产力操作系统的设计者」。

回过头来看,这次 Next 大会最重要的信号也许不在于任何一个具体产品,而在于它所代表的竞争维度的转换。

过去两年,行业的竞争焦点是模型——谁的参数大、谁的 benchmark 高、谁的上下文窗口长。但 Google 在 Next 上释放的信息是:模型战争的窗口期正在关闭。

接下来的竞争焦点是「控制面板」,谁定义了企业管理智能体的那个面板,谁就拿到了下一个时代的操作系统地位。

Kurian 在台上说:「试点时代结束了,智能体时代已经到来。真正的力量源自它如何改变你的工作流程。」

这句话翻译过来,其实是一封战书:Google Cloud 不是在发布一堆新产品,而是在宣告在未来企业的「生产力底座」争夺战中,Google Cloud 要当规则制定者。而规则一旦被市场接受,计费方式、生态边界、技术选型的话语权,都将围绕新的中心重新排列。

这场重构,才刚刚拉开帷幕。

 

一个新视频模型背后,藏着蔡浩宇给游戏行业造的「新引擎」

2026年4月23日 19:16

作者|桦林舞王

编辑| 靖宇

 

4 月 9 日,一篇来自 Anuttacon 团队的论文悄悄出现在 arXiv 上。论文展示了一个叫 LPM 1.0 的视频模型——全称 Large Performance Model,注意,是 Performance(表演),不是 Language(语言)。

这个 170 亿参数的扩散 Transformer 模型,能让一个 AI 角色在视频里说话、倾听、做出微表情,保持身份一致地「演」下去,理论上可以无限时长。说白了,它是一个专门让虚拟角色「活起来」的视觉引擎。

大多数人的第一反应,是把它和 Seedance、Sora 这些视频生成模型做对比。但如果只看到一个视频模型,就看窄了。

而如果稍微对 Anuttacon 团队有些了解的人会知道,这并不是一个纯素人团队,这个团队的领军者,其实是米哈游的创始人蔡浩宇。

而 LPM 1.0 这个模型真正值得关注的,不是它本身做了什么,而是它暴露了蔡浩宇,正在搭建的那个更大的技术栈——一个可能替代传统游戏引擎的全新架构。

但在聊那个更大的东西之前,有必要先理解一下: 为什么这个模型叫「表演模型」,而不是「视频模型」?这个命名本身,就藏着一个关键的技术判断。

 

01

为什么叫「表演」,不叫「生成」

 

现有的视频生成模型,本质上是一个「给定输入,输出完整视频」的过程。你给它一段文字描述,它生成一段 5 秒或 10 秒的视频。这个过程更像拍电影——先有完整的剧本,再一次性渲染出画面。

但 LPM 1.0 做的事情不一样。它的核心场景是对话——一个角色坐在你对面,你说一句话,它在你说话的过程中就开始有反应了。不是等你说完,不是等系统处理完语义再输出一段动画,而是 在你的 input 还在进行的时候,角色就已经在倾听、点头、皱眉、微笑。

这就是「表演」这个词的真正含义。 表演的本质是反应,而反应的核心是实时性。

Anuttacon 首页展示的 lpm1.0 模型产出的场景|图片来源:Anuttacon

一个好演员在对手戏里,不会等对方把整段台词念完再开始「演」。他在听的过程中,眼神、呼吸、嘴角的细微变化就已经在传递信息了。LPM 1.0 要做的正是这件事——它不是一个「看完剧本再演」的系统,而是一个「在对话中即时反应」的系统。

论文里把这个能力叫做「full-duplex conversation」,全双工对话。模型同时支持「说」和「听」两种模式——当角色在说话的时候,会根据合成语音生成口型、表情和动作;当角色在听的时候,会根据用户的语音实时生成倾听反应,包括点头、眨眼、表情变化。两种模式可以自然地来回切换,就像真人对话一样。

这个选择背后代表的技术思路和通用视频生成模型完全不同。Sora、Seedance 这些模型追求的是画面质量和多样性——能生成多逼真的画面、多丰富的场景。 而 LPM 追求的是交互中的真实感——角色在持续的信息流中,能否给出即时的、连贯的、符合当下情境的反应。

说白了,前者是在做「电影」,后者是在做「活人」。

这也解释了为什么 LPM 1.0 要把实时推理能力看得那么重。论文里的「表演三难困境」之所以把实时性放在和表现力同等重要的位置,正是因为哪怕表情再精致,如果延迟了两秒才做出反应,那种「活着」的感觉就瞬间崩塌了。

 

02

被忽略的新信号

 

外界对 LPM 1.0 的讨论,基本集中在视频生成的技术细节上。但从公开信息推导,会发现一个被大多数人忽略的事实: 蔡浩宇在 Anuttacon 主抓的核心方向,其实是大语言模型,而不是视频生成。

线索并不少。Anuttacon 的招聘页面长期挂着预训练、后训练、Agent 等 LLM 相关岗位。团队核心成员吴箫剑曾参与 Meta 的 Llama 3.1 研究,在 Anuttacon 担任大模型研究团队负责人。今年 4 月,蔡浩宇还和刘伟、罗宇皓一起向上海交大捐赠,设立了一个名叫「AI 未来基石」的基金。

更直接的信号来自刘伟。

他在上海交大的一次公开活动中,罕见地解释了蔡浩宇创立 Anuttacon 的逻辑——米哈游作为六七千人的大公司存在组织惰性, 不利于从零开始做 AI 创新,所以几年前决定让蔡浩宇亲自下场,以小团队形态推进 AI 研发 。刘伟还透露了一个关键信息: 他们的目标是从基础预训练开始,开发一种「有情感的大语言模型」,不仅具备智能水平,还能理解人类的情感诉求。

Anuttacon 首页展示的 lpm1.0 模型产出的场景|图片来源:Anuttacon

把这个信息和 LPM 1.0 放在一起看,逻辑就清晰了。

LPM 1.0 论文里写得很明确:这个视频模型可以和 ChatGPT、豆包等音频对话模型即插即用地组合使用,它自己不做决策,只负责视觉呈现。

换句话说, LPM 是一个「表演层」,但它需要一个「大脑」来告诉角色该说什么、该怎么反应。这个大脑,就是大语言模型。

没有强大的基座语言模型,LPM 就是一个精致的空壳。

 

03

「语言模型 + 表演模型」= 下一代游戏引擎?

 

理解了这个架构,就能看到蔡浩宇真正在做的事情。

传统游戏引擎 Unity 和 Unreal 解决的核心问题是:如何高效地渲染 3D 世界、管理物理系统、处理玩家输入。游戏角色的行为完全由开发者预设——对话是写好的分支树,动作是做好的动画片段,表情是绑定的骨骼权重。

蔡浩宇想做的,是用 AI 替换掉这整套流程。

在他构想的架构里, 语言模型负责角色的「思考」——理解玩家说了什么、决定如何回应、维持人格一致性;表演模型负责角色的「表达」——把语言模型的决策转化为可见的视频画面,包括口型、表情、肢体动作和情绪变化。

这不是在现有引擎上加一个 AI 插件,而是用 AI,从底层重建角色的整个生成链路。

LPM 1.0 的论文里有一个概念叫「表演三难困境」(Performance Trilemma)—— 高表现力、实时推理和长时身份稳定,三者很难兼顾

团队的解法是先训练一个 17B 参数的 Base LPM 把表演空间学深,再蒸馏成低延迟的 Online LPM 用于实时交互。在推理阶段,还设计了 Generator + Refiner 的双层渲染管线,第一层快速输出轮廓,第二层精修细节,两层交替流水线式工作。

这些技术细节很重要,但更重要的是它们指向的方向: 让一个 AI 角色能像真人一样,在任意长的时间里持续、稳定、有表现力地「活着」。

 

 

《星之低语》游戏画面|图片来源:Anuttacon

 

Anuttacon 去年发布的 AI 游戏《星之低语》,已经是这个思路的早期验证——玩家通过语音和文字与 AI 角色 Stella 实时对话,没有预设的分支选项,角色的反应完全由 AI 生成。

而 LPM 1.0 要解决的, 是让这种交互不仅仅停留在文字和语音层面,而是让玩家真正「看到」一个在对面和你说话、倾听、做出反应的角色

论文的未来规划同样意味深长。

作者提出了三个演进方向:

时间维度上,做更长对话的记忆和人格持续性;

社会维度上,处理多人互动和轮流发言;

物理维度上,把角色行为锚定到场景和物体上。

论文最后还有一句很有野心的表述:未来这种分阶段的流水线,可能会走向统一的 actor model——一个统一决定角色怎么说、怎么演、怎么持续存在的系统

这不就是一个跨世代「引擎」该做的事吗?

 

04

蔡浩宇在为什么样的世界造引擎?

 

把时间线拉长来看,蔡浩宇的路径其实一直很清晰。

2021 年,米哈游投资脑机接口公司,与瑞金医院共建脑病实验室。同一年,米哈游投资了 MiniMax——如今的大模型六小龙之一。2023 年,蔡浩宇卸任米哈游董事长,奔赴海外。2024 年创立 Anuttacon,团队至今不到 40 人,但汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑、前 B 站副总裁王宇阳、来自小鹏智算中心的基础设施负责人 Erik Li。

蔡浩宇大学专业就是人工智能方向。某种意义上, 他绕了一大圈——从 AI 到二次元游戏,再从游戏回到 AI——最终走回了自己的起点 。只不过这一次,他要用 AI 去重新定义那个让他成名的行业。

刘伟在今年的公开活动中说得很坦诚,蔡浩宇创办 Anuttacon 并非「分家」,而是米哈游面对组织惰性做出的主动选择。刘伟留守管理六七千人的米哈游本体,蔡浩宇带着小团队去做最前沿的技术攻坚。

米哈游等于拆出一个 founder,专门面向新世界造引擎。

这件事当然只是个开始。

LPM 1.0 目前还只是一篇论文,团队明确表示不会开源模型权重,也不提供 API 和在线 demo。从研究到产品还有很长的路。语言模型那边,Anuttacon 的基座模型也没有任何公开的 benchmark 可供参考。

但方向已经相当明确了。蔡浩宇赌的是: 未来的游戏角色不再是开发者用脚本和动画预设出来的提线木偶,而是由语言模型驱动思考、由表演模型实时渲染的「数字生命」。 而支撑这一切运转的底层系统,就是他要造的那个「新引擎」。

2010 年,还在上海交大读研的蔡浩宇和刘伟、罗宇皓一起,用 Adobe Flash 开发了一个 2.5D 游戏引擎叫 Misato。16 年后,蔡浩宇又在造引擎了。

只不过这次的引擎,跑的不是像素和多边形,而是语言、表演和情感——未来 AI 形象最需要的底层基础。

*头图来源: Anuttacon

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

重构腾讯 AI 之后,姚顺雨交出入场后的第一份答卷

2026年4月23日 18:58

 

极客一问:你看好接下来的混元大模型吗?

 

头图来源:GPT生成

 

 

姚顺雨交出了加入腾讯后的第一份模型答卷。

4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。

从研发节奏来看,Hy3 preview 于 2026 年 1 月底正式启动训练,从训练到上线用了不到三个月,被腾讯内部定义为混元大模型从 「读万卷书」 走向 「行万里路」、尝试解决真实世界复杂问题的开端。

而这款模型最受行业关注的核心标签,是它作为备受瞩目的 「天才少年」 姚顺雨,在 2025 年底加盟腾讯后,全程主导推出的第一代大模型。

作为腾讯重金邀请的首席 AI 科学家,Hy3 preview 既是他对重构后的混元研发体系的首次完整实践,也承载着腾讯补齐 AI 短板、在大模型下半场实现追赶的核心期待。

姚顺雨表示,「Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。」

一、一手实测Hy3 preview

从官方披露的核心信息来看,Hy3 preview 从研发之初就围绕智能体(Agent)场景做了针对性设计,这也是它与此前混元系列模型最核心的差异。

在启动模型训练前,姚顺雨主导完成了混元预训练和强化学习基础设施的全面重建,同时定下了模型追求实用性的三大核心原则,构成了 Hy3 preview 的研发底层逻辑:

能力体系化:不推崇 「偏科」,因为即便是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;

评测真实性:主动跳出易被 「刷榜」 的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的 「真实战斗力」;

性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。

官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了 「快慢思考」 机制。

21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而 「快慢思考」 的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。

极客公园第一时间实测了Hy3 preview,先以一个覆盖数据抓取、数值计算、可视化生成、文本分析全链路的综合任务来试水,「使用 Python 抓取过去 90 天纳斯达克 100、伦敦金与沪深 300 的日线收盘数据。计算它们之间的皮尔逊相关系数,并用 D3.js 或 ECharts 生成一个单文件 HTML 动态热力图。最后,基于数据结果输出一段 500 字的跨市场资产配置 Memo。」

视频来源:极客公园

可以看到,Hy3 preview 在数据获取阶段反复受阻,接口认证失败后接连切换 akshare、yfinance 等多个数据源,纳斯达克 100 数据因速率限制缺失而被迫用模拟数据替代,修错重试的循环消耗了大量时间。

可视化交付上,Hy3 preview 最终生成了三资产相关性热力图,但由于部分数据并非真实采样,热力图的准确性与可信度打了折扣。

最核心的文本交付物缺失明显——提示词明确要求输出 500 字跨市场资产配置 Memo,Hy3 preview 却只给出了几行 Bullet point 式的简略配置比例,没有成文的分析段落,任务交付在关键环节出现了缺位。

我又尝试了另一个长链路 Agent 测试 —— 启用浏览器模式,在 SkillHub 平台进行全链路深度抓取,完整理清腾讯文档 Skill 的 Auth 认证全流程与数据同步底层机制,最终输出一份标准化的技术原理分析文档。

视频来源:极客公园

在这次测试中,Hy3 preview 展现了清晰的 Agent 自治与多步推理(ReAct)过程:先搜索 SkillHub 整体介绍;发现需要深入,又去精准抓取了 Auth 认证的开发者文档;接着去查了 MCP Server 的底层原理;最后才开始动笔写文档,这证明了 Hy3 preview 作为 Agent 的路由调度中心,其长链路规划和工具调用很稳定,没有在中途崩溃或陷入死循环,完整走完了 「推理 - 行动 - 验证 - 输出」 的闭环。

这一表现也与官方披露的产品落地数据形成了呼应:在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、任务成功率提升至 99.99%+,在实际用户环境中,已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、工具链编排等多样化办公场景。

从这两组实测可以看出,Hy3 preview 呈现出一种典型的「过渡态特征」。

一方面,在复杂任务中,它已经具备了较为清晰的 Agent 执行路径:能够自主拆解问题、规划步骤,并在不同工具之间进行切换,整体链路没有明显中断。这种「从问题到流程」的能力,确实在向真实工作流靠近。

但另一方面,真正决定可用性的「最后一公里」仍然不够稳定——数据获取阶段的反复试错、关键结果的缺失、以及最终交付物的不完整,都说明模型在长链路执行中,仍然存在「做了一半」的问题。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品首发上线,同时支持接入 OpenClaw、OpenCode 等主流开源智能体产品,并已上架腾讯云大模型服务平台 TokenHub。价格方面,Hy3 preview 输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。

二、天才少年,和动起来的腾讯

这是备受关注的「天才少年」姚顺雨入职腾讯后主导的第一代大模型。

作为2025年底腾讯重磅挖来的首席AI科学家,Hy3 preview是他入职后交出的第一份核心模型答卷,也承载着腾讯补齐AI短板、发力大模型基础研究的期待。

去年9-12月,姚顺雨入职腾讯,出任"CEO/总裁办公室"首席AI科学家,兼任AI Infra部与大语言模型部负责人,直接向总裁刘炽平汇报,全面统筹混元大模型研发工作。

12月,腾讯完成组织架构重构,新设AI Infra部、AI Data部、数据计算平台部,姚顺雨全面掌控混元研发体系,上任后立即重构了AI Infra团队,搭建起预训练、精调、后训练、推理等完整研发链条,为后续模型研发奠定基础。

今年1月底,马化腾在年会上承认腾讯AI「动作慢了」,刘炽平同步披露混元3.0正在内部测试,计划4月对外推出,也是在1月底,Hy3 preview正式启动训练,从训练到上线用了不到三个月。

姚顺雨(1998年生)的履历自带「天才少年」标签,但客观来看,他的技术背景与腾讯当时的AI需求高度契合,这也是腾讯重金挖角的核心原因——腾讯此前混元负责人张正友(深耕计算机视觉领域)、蒋杰(侧重大数据方向)均非NLP/LLM原生背景,而姚顺雨是腾讯首位真正意义上的LLM原生技术领导者,其核心履历与研究方向,恰好匹配腾讯混元突破的核心需求。

在学术界,姚顺雨是顶级的语言智能体(Language Agents)研究者,著名的 ReAct(推理-行动框架)和 Tree of Thoughts(思维树)均出自其手,;在 OpenAI 短暂的一年多里,他也深度参与了 Operator、Deep Research等智能体产品研发,深入接触模型预训练与后训练环节,积累了一线工程化经验。

2025 年 4 月,他曾发表文章《The Second Half》,明确提出,AI 的竞争正在从「训练更强的模型」转向「定义并评估真实世界任务」,强调评估体系重构,反对盲目堆料模型规模。

这一理念也贯穿了Hy3 preview的研发,Hy3 preview 定位为一个总参数量 295B、激活参数仅 21B 的 MoE 模型。21B 的激活参数意味着模型具备了高频次、长链路 Agent 调用的低成本底座,同时其内部融合的「快慢思考」机制,天然适合处理复杂的逻辑推理与工具调用(如 ReAct 循环)。

从前面的实测来看,Hy3 preview 更像是一款验证技术方向的原型模型。把视角拉回腾讯自身,这种 「未完全成熟」 的状态,可能也有其内在合理性。一方面,Hy3 preview 从训练到上线不到三个月,本身就是一次快速迭代的技术试水;另一方面,在经历了 AI 组织架构的全面重构之后,腾讯也需要这样一款模型,去验证新的研发链条是否通顺、锚定的 Agent 技术路线是否成立。

不过,在国内大模型已经进入贴身肉搏的当下,Hy3 preview 的到来,只是腾讯 AI 补位的开始。无论是 MoE 架构的工程化优化,还是 Agent 场景的产业落地深度,国内头部厂商已经跑通了多轮迭代,腾讯想要追上甚至超车,仅凭一次模型更新远远不够。

 

居然有手机厂商坚持今年旗舰提质不提价

2026年4月23日 15:53

2026 年智能手机行业开场即迎来涨价潮。在 AI 算力需求拉动下,存储芯片价格大涨并传导至消费电子终端。Counterpoint 预测,3 月后中国市场新机均价将较去年同档机型上涨约 15%—25%。

现实正在快速应验这一预测,三星、荣耀、vivo、小米等品牌新一代旗舰涨价幅度在 1000 至 1600 元不等,成为行业应对成本的普遍策略。

在此背景下,4 月 21 日发布的 OPPO Find X9s Pro 坚持不涨价。其 12+512 版本起售价为 5299,16+512GB 主力版本售价为 5999 元 ,与上代 Find X9 Pro 同版本持平 。OPPO 首席产品官刘作虎坦言行业压力巨大,他在发布会上中表示:「这应该是今年行业里最后一款不涨价的旗舰新机」,同时也坦诚, 「以 Find X9s Pro 的升级幅度和行业压力,没办法做全年不涨价的承诺」 。那么现在或许是入手的最佳时机。

不涨价并不意味产品没有升级。Find X9s Pro 在影像、设计、屏幕、性能到体验实现巨大升级,例如搭载 Ultra 同款双两亿像素等重磅配置。在行业因成本而收缩创新时,OPPO 依然选择拒绝为稳定价格而降低核心体验。

实际上,在 2026 内存涨价压力极大的情况下, OPPO 依然在全产品线取得不错的结果。其 Find N6 折叠屏在涨价 1000 元的情况下,销量依然坚挺,成为第一季度最热销的折叠旗舰;此外,OPPO 的 IoT 生态业务也在快速扩张——据悉,OPPO 2025 年 IoT 业务实现营收的翻倍,此次随着 Find X9s Pro 的发布,OPPO 也进一步拓展 IoT 品类,包括 Enco Clip2 耳夹耳机、OPPO Pad Mini 等全新细分品类,完善个人智能场景矩阵。

软件层面,ColorOS 也被行业与 iOS、鸿蒙并列为全球三大操作系统。独立分析机构数据显示,其已连续三年成为用户选择 OPPO 的首要因素,中国品牌中连续三年位列第一。

刘作虎表示:「我们也希望 Find X9s Pro,能够继续成为更多用户的选择。」在行业普涨环境中,成为更多用户的选择,不仅因价格稳定,更因用同等价格提供了超越期待的升级体验。这意味着在压力下,OPPO 仍将创新与体验置于前列。

优秀的产品,本身就是穿越周期最好的船票。

*头图来源:OPPO

清华姚班到全球 3D AI 第一:胡渊鸣的 Meshy ARR 已超 4000 万美元

2026年4月23日 11:16
图片
当文字、图像、视频已经先后被生成式 AI 重写,3D 很可能就是下一站。

作者|Li Yuan

编辑|郑玄
 

2022 年,胡渊鸣已经站在一条足够耀眼、也足够挫败的创业曲线上。

往前看,他几乎是一条标准的技术天才路径:清华姚班、MIT 博士,研究计算机图形学与 AI,做出的 Taichi 编程语言后来在 GitHub 上收获了超过 2.7 万星标,在高性能计算和图形学开发者中积累了很高声量。对很多人来说,这样的履历已经足够证明能力;但创业很快把问题切换到了另一种更残酷的尺度:你当然可以把东西做出来,但市场未必会为它付钱。

博士毕业创办太极图形后,胡渊鸣和团队很快撞上了这道墙。最早,他们试着推动 Taichi 这类底层技术的商业化,后来又沿着自己更熟悉的图形学能力继续往前推,去做渲染器、做 3D 工具,不断寻找产品出口的过程。只是,18 个月里连续两次转型,方向换了,产品也做了,市场反馈却始终不够乐观。

图片

太极图形的早期商业化探索

2022 年,胡渊鸣团队的最新尝试是做了一款 3D 工具推给用户试,得到的反馈却相当直接:我不会为你们这个软件付费,但你把里面的 3D 模型拿出来卖,一个 5 块钱,我倒可能会买。这句话再次打翻了团队之前的所有努力:花了大量时间打磨的软件本身,并不是用户眼里的付费对象。

然而,从一个角度的否定,却成了另一个角度的转机。

那时,ChatGPT 已经让语言生成走到大众面前,Stable Diffusion 把图像生成快速拉开,Runway 也在推动视频生成变得可见。既然语言、图片、视频都在被重新生产,3D 资产会不会也开始进入同一个阶段?如果用户真正愿意掏钱买的是模型本身,而不是背后的软件,那么公司应该去做的,也许不是继续证明底层技术有多好,而是直接把「生成 3D 资产」这件事做成产品。

胡渊鸣后来回忆,那次决定快得几乎没有给人犹豫的时间:早上 10 点开会,下午 6 点,第一个版本就已经上线。

后来的故事证明,这次判断不只是对的,而且几乎决定了这家公司的命运。

胡渊鸣和团队后来做成的 Meshy,踩中的正是当时开始明显升温的 AI 生成 3D 模型赛道。Meshy 成为了这条赛道里最早下场、也最早把产品真正推向市场的公司之一。

更新到 2026 年,公司ARR 已经到达3亿元人民币,月度收入增速约为 30%。全球注册用户达到1000万。美国和欧洲国家的市场占有率大于 60%。

胡渊鸣赌对了。

而更重要的或许是,Meshy 跑出来的意义,正在证明 AI 生成 3D 这件事已经开始商业成立,并且正在加速。当文字、图像、视频已经先后被生成式 AI 重写,3D 很可能就是下一站。

01

从恐怖游戏开始的 PMF

 

Meshy 后来的增长曲线很容易让人误以为,这是一个一转向就迅速跑通的故事。但事实上,在 2022 年那个时间点上,事情曾经远没有那么清晰。

那次转向之后,Meshy 的第一个版本几乎是被「扔」上线的。这个速度当然意味着另一件事:它不可能成熟,甚至谈不上好用。

最早的时候,团队用的还是一套非常原始的技术路径,先生成前后左右四张图,再把这些图投射回 3D 结构里。结果就是,很多模型生成出来以后,前面一张脸,左右各一张,后面再来一张,成了货真价实的「四脸怪物」。

即便放在当时,用户的反馈也并不客气。有人直接说:你们这玩意儿生成出来以后,我还不如重做。

此前几次转型里,胡渊鸣和团队一直想卖的是自己最擅长的东西:底层技术、图形学能力和工具能力。这几乎是技术创业者最典型的早期毛病——太在意技术是否足够领先,太想把产品先做得漂亮、做得极致。

直到这一轮,他们才真正转向用户侧,也第一次把事情的顺序倒了过来:先快速做出一个能用的产品,再慢慢补齐技术成熟度。最初那个版本远远谈不上精致,甚至让胡渊鸣有点不好意思承认那是自己团队的作品。

但这个决策是对的。

新版本的 Meshy 很快找到了第一个 PMF,或许出乎很多人的意料,是恐怖游戏

图片

这听起来有些偶然,但背后的逻辑其实非常典型。恐怖游戏并不总是要求模型极度精细、结构极度规范,它首先需要的是一种能传递不适感、怪异感、惊悚感的视觉效果。从这个角度看,那些今天看来颇为粗糙、甚至带点失真的「四脸怪物」,在那个阶段反而意外贴近了一部分需求:它们不标准,但它们足够怪;它们不精致,但它们先能用。

这一步对 Meshy 非常重要,因为它说明了一个后来不断被验证的事实:AI 生成 3D 最早成立的方式,并不是一上来就取代专业建模师,也不是一开始就打进最高标准的生产流程,而是先在那些质量容错更高、效率价值更大的场景里找到第一批用户。

恐怖游戏只是第一步。再往后,团队很快发现,游戏行业里其实还有更大一层需求,同样不要求 AI 一上来就生成 AAA 级别、可以直接进最终成品的核心角色资产。

对很多开发者来说,AI 生成 3D 先有价值的地方,恰恰是那些数量大、重复多、制作重,但单个资产未必值得投入顶级人工成本的部分。比如游戏开发里的原型阶段,比游戏中如环境素材,比如路边的一块石头、一棵树、一个 NPC、一个小怪,或者先生成一个原型,再交给建模师继续往下做。

自此,Meshy 开始持续外扩。

02

有质感的增长

 

过去两年,生成式 AI 里不缺增长很快的产品,不过很多公司先靠热度和投放把规模做起来,再慢慢补商业化、补留存、补单位经济模型。

但有趣的是,Meshy 走出来的路径不太一样。

按照公司披露的数据,2025 年它的收入增长了 14 倍,2026 年,ARR 达到 4000 万美元,月复合增速长期保持在 20% 到 30% 之间,超过一半增长来自自然渠道,LTV/CAC 大于 4。

这种增长方式在当下的 AI 创业公司中很少见,不买量,不高举高打,比起靠热度和投放获得打不平的 ROI,这种增长更有质感。

某种意义上,这和胡渊鸣的创业路径高度相关。

前面几轮转型做下来,他已经很清楚:创业公司未必是靠最「满配」的技术方案赢,而更可能是靠一个更能进入现实、也更能侵蚀市场的产品切口赢。

它并不是一上来就追求「最强的 3D 生成」,而是先追求「最能进入工作流的 3D 生成」。最早那个版本当然粗糙,甚至有点荒诞,但它先被恐怖游戏接住,后来又一步步渗进独立游戏、环境素材、3D 打印、教育等更广的场景。它不是靠一次性把产品做到完美来打开市场,而是靠先在某些环节里把成本和效率打穿,再一点点往外侵蚀。

另一层差异,则来自胡渊鸣对增长本身的理解。

作为技术出身的创始人,他并不属于那种天然擅长传统营销的人。相比大开大合地买量、投放,他更相信另一种更「技术公司」的做法:通过研发本身去做市场,通过产品去建立信任,通过技术品牌去吸引用户和人才。

Meshy 增长的重要节点,来自 Meshy 第六代模型的发布。

Meshy 6 在几何结构和细节精度上进一步提升,生物角色生成更自然,肢体和表情表现也更逼真;与此同时,3D 模型生成时间与贴图过程也被大幅压缩至 1 分钟内。

这张网站流量图也能看出端倪。

图片

在 Meshy 6 发布之后,Meshy 的增长曲线会变得更陡峭。

某种程度上,赛道本身当然在变好——用户对 AI 生成 3D 的认知在提升,游戏、打印、XR、教育这些需求也在往外释放;但 Meshy 后来的增长并不只是吃到了一波行业顺风,而是通过技术能力的抬升,将更多原来那些「可以试试看」的场景,才会更快变成「可以反复用」「可以批量用」的场景。

03

文字、图像、视频、3D... 

AI 的下一站十分清晰

 

如果把过去两年生成式 AI 的演进放在一起看,一个方向其实已经越来越清晰:文字、图像、视频之后,3D 很可能就是下一站。

过去几年,AI 生成 3D 模型大致经历了三步:最早是多视角重建,先生成几个角度的图,再尽量拼回一个 3D 形体;再往后,进入了3D 原生生成阶段,模型开始直接在三维空间里生成桌子、椅子这类更完整的结构;而最近一轮更重要的进展,则是大家开始集中解决一个更现实的问题:怎么把 3D 生成做得更快、更省算力,真正推向可用。

胡渊鸣曾经提到,一个很关键的里程碑,是微软亚洲研究院团队做出的相关工作。它的核心思路并不复杂:一方面,借鉴 2D 图像生成里已经很成熟的 latent diffusion 路线,先把数据压缩到更小的空间里再做生成,大幅降低计算量;另一方面,不再对整个 3D 空间做「全量计算」,而是先找到真正有内容的那一小部分稀疏区域,只在那里面做生成。这样一来,3D 生成第一次在效率上被真正往前推了一大步。

这两年,AI 生成 3D 模型正在明显进阶:它不再只停留在生成一些要求较低的粗糙模型,而是开始进入更多需要更高质量模型的工作流的阶段。

这也是为什么,Meshy 所在的这条路,值得被放到更大的技术演进里看。

图片

前面几轮 AI 浪潮里,大家已经习惯了文字生成、图片生成、视频生成不断降低创作门槛;而 3D 的意义在于,它开始进一步降低「空间内容生产」的门槛。过去,3D 建模几乎天然属于专业技能,要依赖建模、美术、贴图、修改、导出等一整套流程;现在,这个过程第一次有机会被压缩成一种普通人也能调用的能力。

游戏会是最先被改写的场景之一。

因为游戏本来就是 3D 内容需求最稳定、也最庞大的行业之一。

过去很多独立游戏之所以停留在 2D,正是因为 3D 模型太贵;那么 AI 生成 3D 的出现,让更多原本进不去 3D 的开发者,第一次有机会进入 3D。

图片

不仅如此。

AI 生成 3D 模型,还可能解锁一些完全不同的原生 AI 游戏。

过去两年,这个方向已经出现了不少尝试。有人走「世界模型」路线,用实时视频生成去模拟一个可交互的空间;有人把 AI 对话单独抽出来,做成和 NPC 聊天的产品;有人把 AI 图片或 3D 模型生成接进游戏,做快速换装、UGC 或装备外观。

从高维的层面上,快速生成的 3D 资产,意味着所有游戏未来都能更快做出一整套可测试、可迭代、可组合的游戏对象和空间原型。

这是对游戏行业最根本——「让游戏更好玩」的赋能。AI 3D 生成之于游戏行业的真正想象力,可能并不在「让一个游戏看上去更像 AI 做的」,而在于让游戏团队就有机会更频繁地试错,更快地验证「这个机制到底成不成立」。

图片

Meshy 首款 AI 原生游戏《代号:黑箱》

除了游戏之外,3D 打印则代表另一种完全不同的增量。

消费级 3D 打印机这两年爆火。人们买 3D 打印机,就是为了获得属于自己的不同体验,而不是获得同质化的产品。但同时 3D 建模仍然是一个大部分人望之生畏的技能。

AI 生成 3D 恰好补上了这一层断裂:它让用户可以直接从一句描述、一张图片,走到一个可编辑、可打印的三维对象。

最近,3D 打印机厂商们,也都关注到了这个领域。

消费级 3D 打印龙头 Bambu Lab 已把 Meshy 6 集成进 MakerWorld / MakerLab 的图像转 3D 工作流里;更早些时候,Meshy 和 Formlabs 打通了 Form Now 打印服务,把 AI 生成模型直接接到专业级按需制造流程上。

图片

Meshy 在 MakerWorld 首页露出

这意味着 3D 打印第一次不只是少数极客和专业用户的玩法,而开始更接近普通家庭的个性化生产工具。礼物、头像、玩具、摆件,甚至未来可动的模型和结构件,这些需求以前不是不存在,而是长期没有足够低成本的生产方式。现在,供给方式开始变了。

图片

Meshy 创意工坊:一张宠物照片直接 3D 打印成实体挂件

这也是 AI 生成 3D 真正值得重视的地方:它不只是让一部分专业内容生产更高效,而是在把大量原本不会发生的 3D 生产,第一次变成值得发生的事。

如果沿着这条线继续往下看,Meshy 这样的公司在做的,其实已经不只是「一个更好用的 AI 工具」,而是在参与改写 3D 内容生产的门槛和分工。

它很可能会改写一件更大的事:谁可以开始做 3D,什么样的需求值得被做出来,3D 内容生产会从多专业、多高成本,变成多普及、多长尾。

从这个角度看,胡渊鸣押中的,也许不只是 Meshy 的一个产品方向,而是生成式 AI 继续往前走的一条很自然的路径:当文字、图像、视频都已经被重写,空间内容的生成,迟早会成为下一站。而 3D,正是那个最先浮出水面的答案。

*头图来源:Meshy
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
 
图片
 

硅谷最新一代大模型,正在引爆一场关于技术奇点的全球讨论。AI 已不再只是工具——它开始「左脚踩右脚」的自进化循环。这场底层突破,将拉开头部与追赶者的指数级代差,也将彻底重构 AI 创业的底层逻辑。

今晚 20:00,极客公园视频号直播间,我们请来了创新工场联合首席执行官 / 管理合伙人汪华、Meshy 创始人兼 CEO 胡渊鸣,和极客公园创始人 & 总裁张鹏一起聊聊:大模型的技术奇点,真的来了吗?

 

 

图片
图片
图片
图片

 

❌
❌