普通视图

发现新文章,点击刷新页面。
昨天以前首页

苹果新 CEO 召开员工大会:要造 AI 硬件、要留顶级人才,还要改变世界

作者 苏伟鸿
2026年4月22日 15:03

苹果将再次改变世界。

刚刚宣布将接替蒂姆 · 库克(Tim Cook)出任苹果公司首席执行官(CEO)的约翰 · 特努斯(John Ternus),在今天凌晨的苹果员工大会上发布了演讲,看起来,他不仅热情饱满,还雄心勃勃。

在这场大会上,特努斯和库克还分享了关于过渡的更多细节,虽然并未宣布详细举措,却也在言语间勾勒出苹果未来十年的轮廓。

特努斯的第一关:AI

特努斯透露,苹果未来有着「令人难以置信的发展蓝图」,并相当看好人工智能的潜力,希望能利用 AI 为苹果产品和服务创造全新的机遇。

彭博社从知情人士处获悉,特努斯已经在利用 AI 改造苹果公司,在本月重组了他原本领导的工程部门,使用全新的 AI 平台进行运营,帮助产品开发和提高设备质量。

据悉,苹果内部正在全面推行「AI 化」,例如商业团队每天都有 300 美元的 Claude Token 预算,并且还会重点考察主管晋升时团队的 AI 使用率。

在上任 CEO 之前,特努斯一直在主导三款 AI 新品的开发:

  • 新款带摄像头的 AirPods
  • AI 智能眼镜
  • AI 胸针

除此之外,他也负责监督苹果新型智能家居产品线,包括带 Face ID 和显示屏的 HomePod、桌面机器人和一款安防摄像头,这些产品都和 Apple 智能以及 AI Siri 高度相关。

并且,特努斯一上任就会迎来一场大考——AI Siri 以及各种 AI 能力的交付,虽然严格来说这是库克任期的历史遗留问题,但有消息称,AI Siri 的系列功能将会在一个比较长的周期内逐步推出,未来苹果也会带来 ChatBot、搜索引擎的新功能,这些库克任内没能做好的事情,都会考验特努斯的管理能力。

分析师郭明錤认为,特努斯主导了 Mac 从英特尔到 Apple Silicon 的生态迁移,不仅需要极高的执行力,也需要跨部门的通力合作,这使他成为苹果内部最有管理「大转型」经验的高管,这样的经历能够帮助苹果迈向 AI 设备的下一阶段。

不过,也有媒体认为,特努斯在产品上更擅长「守成」而不是「创新」,他懂得怎么在现有的产品上锦上添花,但未必敢于人先。

对于已经在 AI 产品领域落后于人的苹果来说,特努斯的任务不只是追赶,更要超越,这将会是横亘在他任期之中最大的挑战之一。

库克的角色:苹果外交官

即使即将从第一人的位置上退下,蒂姆 · 库克却不打算马上退休,这位 65 岁的老将会转变身份担任执行董事长一职,并且将成为苹果类似「外交官」的角色,负责和各个国家地区保持良好关系。

库克出任苹果 CEO 这 15 年,除了将苹果公司内部管理得井井有条,同样在企业外交上取得显著的成就。

这一点相信大家有目共睹,库克不仅有自己的新浪微博,还保持平均一年一至两次的高频率访华交流,几乎成为苹果最大的代言人,稳住了中国这个最大的市场。

在各种局势变化万千的当下,库克作为苹果全球大使的重要性会更加突显。

在员工大会上,库克也回应了前段时间对他健康状况的猜测,表示自己身体健康,精力充沛,将长期履行执行董事长的职位。

至于苹果内部,也能预想到库克将在交接后的头几年时间,会以一位「导师」的角色,帮助整个公司进行平稳过渡。

库克对此非常有信心,他认为「苹果公司运行良好」「产品线路图非常出色」「特努斯已经做好准备」的三大条件已经达成,现在就是进行交接的最好时机。他还希望,自己和特努斯能完成一次「教科书级别的交接」,成为未来商学院研究的范本。

新 CEO 的第一场仗:人才战

从去年开始,苹果的高层进入了一个持续动荡的时期,大量部门主管相继离职、跳槽,在特努斯宣布接任 CEO 后,变动和部门改组将会进一步进行。

和特努斯接任 CEO 一起官宣的,是对 Johny Srouji 的提拔,他将出任苹果首席硬件官(CHO)。

这份工作结合了 Srouji 之前的职能范围和特努斯目前负责的硬件工程,实际上将让他成为仅次于特努斯的二号人物。

去年年底,彭博社透露 Srouji 在认真考虑离职,由于他在 Apple Silicon 战略不可代替的核心地位,包括库克在内的苹果高层都在尽力挽留 Srouji,专门为其设立了 CHO 这个有点反苹果传统的职位。

Srouji 以严厉的管理风格和亲力亲为的管理方式在公司和部门中闻名,担任管理数千名工程师的 CHO 之后,他需要简化自己的角色。本周一 Srouji 宣布,将会把工作重点分配给五位高管,负责硬件工程、芯片、先进技术、平台架构、项目管理五个部门。

由于和特努斯沉稳的风格相当迥异,内部人士担心 Srouji 的雷厉风行会造成团队之间在磨合、交接时的摩擦。

Srouji 被提拔到这个岗位之后还带来了一个问题——苹果内部暂时没有能接替「CHO」一职的后备人选,而 Srouji 已经 61 岁,虽然他有长期继续工作的意愿,但何时退休依旧是一个未知数。

其他人事变动也带来了一些高管的不满,比如 Vision Pro 的缔造者,去年接手 AI Siri 的 Mike Rockwell,正在考虑明年离职或转职顾问。

从去年开始,苹果对 AI 部门和职能组进行了多次大范围改组,Siri 和机器学习部门交由软件主管 Craig Federighi 负责,但 Mike Rockwell 希望能够成为更重要的角色,不只是向 Federighi 汇报。

由于苹果曾经将头显设备视作后 iPhone 时代的重要产品,Rockwell 本来应该会扮演一个更重要的产品决策者,但这条道路现在已经被搁置。

不过,在 AI Siri 正式推出之前,Rockwell 不太可能离开苹果,但苹果也要考虑,未来如何留住这一位内部口碑相当不错的人才。

除了这些个别具体人员,特努斯还会面临一个更广泛的人员退休问题——现在苹果的管理层,大部分都是库克出任 CEO 后晋升的团队,他们和库克年龄相仿,很可能也会在近几年退休,比如去年就已经离任的 Jeff Williams。

Jeff Williams 原本也是苹果 CEO 的有力人选

为了这次交接,库克可以说已经为特努斯的 CEO 生涯准备了一个「高起点」——去年 iPhone 17 系列的翻新交出了史上最好的财报,加上今年的折叠 iPhone、明年的 20 周年 iPhone,之后的翻新 Mac 产品,这几套组合拳打下来,至少能保证特努斯接任后的头几年,苹果还能有精彩的新品阵容。

但未来十年,科技行业的竞争会进一步升级,AI 绝对是绕不开的话题,苹果先一步折戟的 XR 也将进一步发展,这些都是特努斯任期内的行业主旋律,也是苹果的下一个突破口。

乔布斯之后,苹果的每一任 CEO 都难免被放在聚光灯下比较。风格迥异的库克,用 15 年时间交出了一份足够亮眼的答卷;而在库克之后,特努斯同样无法绕开对照。如何带领如今的苹果,在机遇与挑战交织的时代走向下一个十年,将成为他必须正面回应的命题。

至少从他现在的言行来看,他已经摩拳擦掌,准备好上场了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

在苹果新 CEO 上任前,我们和他聊了聊 AI 与 iPhone

作者 苏伟鸿
2026年4月21日 10:42

爱范儿和 John Ternus 的初次交流,是在 2024 年 iPhone 16 发布会结束后的第二天。

他时任苹果的硬件工程副总裁。今天,他即将接任苹果的 CEO。

那天爱范儿首席内容官参加了一场苹果安排的「早餐会」,和几位高管围坐着喝咖啡聊聊天,之后每个人有一段简短的正式采访。设备架好,用 iPhone 16 Pro 拍摄,拍完素材交给你。

地点是 Apple Park 内一栋新落成的建筑,名叫 Observatory(天文台)。它建在园区的一处小山坡上,地面入口是穹顶造型,走进去,头顶有一个面朝天空的圆形天窗。阳光从正上方直射下来,整个空间有种神庙般的仪式感。

我们给 Ternus 的问题是 iPhone 16 的相机控制,为什么选择机械按键而不是压感方案。

Ternus 认为,相机控制和 Mac 的触控板非常不同,尺寸不一样,并且 iPhone 有着 IP68 防尘防水的需求,因此需要一个新概念。

「相机控制」实际上在底部有一个触觉开关,然后在上面有一个非常高精度的力传感器,整个按钮与 Taptic Engine 相连,也使用了电容传感器,让按下、半按和滑动的操作都成为可能。

回答也很能体现 John Ternus 作为一个产品经理的特质。他 2001 年加入苹果,从产品设计工程师做起,2013 年升任硬件工程 VP,2021 年接替 Dan Riccio 成为硬件工程 SVP。

快结束时,爱范儿多说了一句——与其说是问题,不如说是个人观察:Apple Intelligence 如果和 Vision Pro 或类似的 AR 眼镜结合,看起来会更加 make sense。

他只是微微一笑,说了句谢谢。采访就结束了。

这段内容我们没剪到视频里——没有信息量。苹果高管有一个共同特质:心里门儿清,嘴上守得死。

Ternus 现在是一号位了。乔布斯交棒前对 Cook 说:「永远不要问乔布斯会怎么做,做正确的事。」库克不负众望,他以自己的方式,让苹果成为全球制造效率最高的公司,把服务做成年收入千亿的第二引擎,把可持续和包容性写进公司的价值表达。十四年,他证明了不必成为乔布斯,也能带苹果往前走。

现在轮到 Ternus 了。他当年笑着没回答的那个问题,现在该他回答了。

谢谢 Tim Cook!欢迎 John Ternus!

 

即将卸任 CEO 的蒂姆 · 库克,也在今天向全球苹果用户发布了一封感谢信,感谢用户在他 15 年的任期之中每天分享自己使用苹果产品的生活点滴。

感谢信全文地址:https://www.apple.com/community-letter-from-tim/

过去多年里,爱范儿曾有幸多次与库克先生交流,共同感受科技和人文交汇的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 OPPO 影像算法总监罗俊:好的计算摄影,就是让你忘掉计算摄影

作者 肖钦鹏
2026年4月9日 11:00

即将发布的 OPPO Find X9 Ultra,换掉了全部七颗镜头——主摄、广角、两颗长焦、丹霞色彩镜头、前置、增距镜……

没有一颗是祖传的。

OPPO 成立二十多年,极少有一代产品把影像硬件全部推翻重做。罗俊说:

这种革命式升级,好像真的没做过。

罗俊是 OPPO 影像算法总监,主导了从 Find X6 Pro 到 Find X9 Ultra 四代产品中的影像算法方向,还有那个已经成为 OPPO 影像标志的「大师模式」。

在 Find X9 Ultra 发布前夕,爱范儿采访了罗俊。我们聊了全新设计的「大师模式」、聊了还没上市的新手机,也聊了 OPPO 影像的过去、现在和未来。

我们试图找到一个答案:什么是计算摄影的「真实感」?

大师模式,用算法对抗算法

「大师模式」是什么?

简单来说,它是 OPPO 相机里独立于普通拍照模式的一套影像管线。

普通模式追求的是明亮、讨喜、一拍就好看——系统会自动拉高亮度、增强色彩饱和、做较强的锐化和降噪处理。这些操作让照片第一眼很抓人,但代价是:照片看起来,总是多了一些略显特意的「精良」。

这就是今天手机影像行业最普遍的争议:「算法味」。

算法味不是某一家厂商的问题,而是整个计算摄影发展到今天的结构性副产品。

当手机用越来越重的算法,去弥补小机身的物理局限时——多帧合成、AI 降噪、HDR 堆栈、超分辨率重建——每一次处理都在往照片里添加计算的痕迹:暗部被提亮,高光被压制,噪声被涂抹成油画质感,锐化制造出更多的「细节」。

结果就是,拍什么都好看,但拍什么都少了点纯粹。

「大师模式」走的是另一条路。

它用更克制的色调映射、更自然的锐化策略、更接近光学相机的影调逻辑来处理画面。该暗的地方留下暗部,有噪点的地方保留颗粒,不追求每一张都「亮白美」,转而追求照片的真实质感。

手机行业有一条不成文的规律:一个功能如果连续两代争议不断,第三代大概率就会被砍掉。

「大师模式」曾完美符合这个画像。

Find X7 Ultra 时代,用户对它的评价两极分明。喜欢的人说它「相机味」「高级感」;不喜欢的人说它「画面暗」「不锐利」,我甚至还遇到过,把大师模式的照片发给朋友看,对方第一反应是:你这张是不是拍糊了?

但大师模式活了下来。

从专业用户的小众工具,变成了连大学生都会主动选择的拍照模式。

更值得琢磨的是,用户喜欢大师模式,理由几乎一致——没有算法味。

事实上,大师模式跑的恰恰是整个影像系统里最先进、计算量最大的算法管线。

这种反差感,正是当下 OPPO 影像的缩影,也是过去十年,罗俊对计算摄影的全部理解。

传统影像的大师,做了大师模式

罗俊是影像算法专业出身,校招就进了索尼。

2000 年代初,日本影像行业就是世界影像行业的天花板。他做过 Handycam 录像机,做过 Alpha 单反,也经历了 NEX 微单系列从零到一的过程。

但真正让他看到行业拐点的,是索尼黑卡 RX100。

当时日元卖二十多万,一般的卡片机一台五六万日元。它一搞出来就卖一万多(人民币),但确实挺革新的。

索尼把一英寸底和蔡司镜头塞进上衣口袋大小的机身。这是影像小型化浪潮的发端。今天回头看,黑卡和后来的手机影像走的是同一条路:在极其有限的物理空间里,把画质做到极致。

只不过,手机走得更远。

在索尼的十几年,罗俊做的所有影像算法都跑在 ASIC 专用芯片上。一颗芯片两年一代,覆盖多条产品线,追求稳定可靠。

但他慢慢觉察到一个根本性的错位:

算法的迭代是很快的,但 ASIC 两年一代。整个算力和架构跟计算摄影、跟 AI 的研究思路有点不匹配——它太慢了。

后来他看到了 NPU——一种专门用来处理神经网络计算的处理单元。算法可以跑在软件层,迭代速度陡然提升。

但 NPU 最好的载体不在相机,而在手机。

2017 年初,罗俊在 MWC 上见到了 OPPO 展示的潜望式长焦技术演示——10 倍混合变焦,在当时的手机行业里没有人做过。他一眼认定这家公司有潜力,决定加入 OPPO。

有意思的是,十年后的今天,他主导的 Find X9 Ultra 搭载了一颗更好用的 10 倍光学长焦,但这是后话。

这段从传统影像到手机影像的迁移,决定了他做大师模式的底层逻辑。很多人觉得大师模式「没有算法味,像相机直出」,罗俊听到这种评价觉得有意思:

其实专业相机也有算法,ISP pipeline 还挺重的,全是用芯片实现的。只不过效果跟我们大师模式很类似,用户的参照系就变成了——我用手机的算法,也能得到一个像相机的效果。

在他看来,「相机没有算法」本身就是一种错觉。相机的算法只是固化在芯片里,用户看不见而已。

大师模式的设计起点,正是从这个认知长出来的。目标从来不是「去掉算法」,而是让算法像专业相机的 ISP 一样——做了很多事,但你浑然不觉。

OPPO 内部的说法叫「用计算去计算」

罗俊说,如果你的目标是「让算法不可见」,那你就不能去追某个单一参数的提升。你需要一套系统性的标准,来定义什么叫「好」。

他用四个字总结这套标准:真实还原。

三年,重构 OPPO 影像

2021 年底,罗俊从日本调回国内,全面主导 OPPO 影像算法的迭代方向。

对所有手机厂商来说,影像算法全面转向自研,都是个长期高投入,但短期低收益的决策。

但为了让影像——而非仅仅美颜——成为OPPO 旗舰手机的核心竞争力,罗俊重组起了一支数百人的影像算法团队。

「真实还原」是个相对务虚的概念:什么样的影像称得上真实,又该用什么手段去还原?

罗俊把它拆解成三个具体的维度——光影、细节和色彩。 他心里有个三年计划,希望用三代产品来重构 OPPO 影像。

Find X6 Pro 是在罗俊这个理念下,堪称转折点的一款影像手机,当时首先解决的是光影问题。

OPPO 影像认知总监程卓在接受爱范儿采访时曾说过,Find X6 系列的目标,是建立「正确的影调关系」——将扭曲的光影曲线拨乱反正。

这一代 Find 搭载了当时行业唯一的大底长焦——1/1.56 英寸 CMOS、等效 70mm 镜头,并配合全新的超光影图像引擎。

这套系统第一次让手机有能力在像素级别标定亮度信息,计算被摄物体、光线和环境之间的光影关系。罗俊说:

亮而不耀,暗而不黑,这就是我们对光影的基本要求。

罗俊还将一个面向专业用户、可以充分发挥手机影像能力的模式引入到 OPPO 的影像系统当中,他们将其命名为「哈苏专业模式」——这就是「大师模式」的雏形。

紧接着,罗俊团队要解决的是细节。

Find X7 Ultra 带来了行业首个双潜望四主摄影像系统,加入了支持 6 倍光学变焦的长焦镜头。

焦段的增加不只是「拍得更远」。在罗俊的理解里,它有更本质的意义:

有更多焦段,就有更多的参考系。你能用不同的视角记录世界,系统能还原的信息就更完整。

参考系——这是罗俊理解「真实还原」的核心概念。

真实不是一个绝对的客观标准,它依赖于你拿什么去做参照。取景框是一种参考系,人眼所见是另一种,用户脑子里想象的「好照片」又是一种。

焦段越多、细节越多,系统捕获的参考信息就越完整,离用户心里的「真实」就越近。

Find X7 Ultra 还进一步提升了光影的质感,尤其是中间调。

日常照片里最大量的明暗信息集中在中间调区域——不是最亮也不是最暗的过渡地带。中间调如果粗糙,照片就缺少实感。

也是在这一代影像系统里,OPPO 正式推出了「大师模式」。在罗俊看来,大师模式并非专属于摄影师,而是把调教相机的权力交回到用户手里——就像相机的拨杆和旋钮那样。

但第一代的大师模式的泛化能力有限,场景兼容性不够,导致用户评价褒贬不一,喜欢的人非常喜欢,玩不明白的也大有人在。

对罗俊来说,技术上的问题总归能解决,但怎么把理念坚持下来、传递出去,是一个巨大的挑战:

大师模式能坚持下来,也许就是因为我们没有妥协。

光影和细节都有了,色彩是最后一块短板。

计算摄影高度依赖统计学,在复杂光线下,白平衡不准、肤色偏移、环境色失真,是统计方法的固有局限。

Find X8 Ultra 加入了一颗新镜头——丹霞原彩镜头,专门做分区色温感知。它能识别画面中不同区域的色温分布,分辨自然光和人造光源,对肤色和环境色分别做独立还原。

色彩链路说到底做两件事,白平衡和色彩映射。白平衡是统计方法,有些场景就是算不准。有了丹霞之后,因为它是绝对信息量,在干扰色场景下就有机会把偏差修回来。

丹霞的作用并非让颜色更好看,而是给色彩计算管线提供一个物理锚点——一个不依赖统计猜测的客观参照基准。

你看,又是参考系。

到 Find X8 Ultra,还有一个不容易被注意到的技术整合完成了:大师模式和照片模式在 RAW 域的处理算法实现了统一。

两个模式出来的 RAW 片是一样的,差异只在后端——照片模式走更明亮讨喜的色调映射,大师模式走更克制的光影层次和锐化策略。

这意味着,「大师模式」不再是一个独立的功能分支,它的底层能力已经成为整个影像系统的内核。

在罗俊看来,到了 Find X8 Ultra 这一代,终于实现了他最初的设想——光影、细节、色彩,三个维度第一次集合为完全体。

于是,全新的 OPPO 影像品牌「凝光影像(LUMO)」 诞生了。

罗俊团队对好影像的评判标准,在历经三代产品迭代后也逐步成形——其中一个基准,就是照片的「连续性」

专业相机拍的照片也有噪点,但它的噪声、它的颗粒是连续的,看起来很舒服。我宁愿放出一些连续的噪声,也不要让画面清晰一块、模糊一块。

这些标准并不是在某一代产品研发过程中突然冒出来的,它们源自罗俊骨子里传统影像的基因——信噪比、连续性、色彩映射——只不过换了个载体,从相机到手机,从传统光学到计算摄影。

随着新的影像算法系统逐步成型,罗俊也面临一个新的局面:软件侧能做的,做得差不多了。算法迭代的边际收益在递减。

接下来怎么办?

Find X9 Ultra:十年回声

答案是再来一遍。

罗俊把手机影像的发展分为三个阶段:

第一阶段从 2015 年前后开始,核心是器件小型化——把大 sensor 塞进手机,从 1/3 英寸一路堆到一英寸;

第二阶段从 2021 年前后开始,AI 和计算摄影的算法能力上来了,不追求一英寸大底也能通过算法补强,得到画质不错的照片;

第三阶段则是现在:

你不是靠器件,不是只靠算法就可以。它一定是软硬结合、端到端的创新,才有机会把效果再往前推。

Find X9 Ultra 就是第三阶段的产物——为此,OPPO的影像团队不惜换了全部的七个镜头——

主摄从 5000 万像素一英寸换成 2 亿像素 1/1.2 英寸,广角从 1/2.5 英寸升级到 1/1.95 英寸,第一颗长焦镜头换成了更大底的传感器,而第二颗长焦镜头从 6 倍光学拓展到 10 倍光学,丹霞色彩还原镜头升级,前置从 3200 万升到 5000 万,连增距镜都从 200 换到了 300。

其中设计难度最高的,无疑是那颗 10 倍光变的长焦镜头。

罗俊向爱范儿展示了 Find X9 Ultra 的10 倍长焦镜头——1/2.8 英寸传感器搭配 230mm 的镜组,但整个模组只有 29 毫米长,其中棱镜的长度,约等于半个小拇指。

更妙的是,这块棱镜并不是一体成型的,而是由三块棱镜拼接在一起,还在中间封了一层空气用来消除杂光。这个工艺在产业链里没有先例——没有人把棱镜切成三块再粘,也没有人在棱镜中间封过空气层,当然也没有人搭建过这样的产线。

于是,一切都要从头做起。

罗俊把这颗 10 倍长焦定位为「口袋增距镜」——OPPO Find X9 Pro 的增距镜长十几厘米,而 X9 Ultra 的「内置增距镜」只有 29 毫米,但成像的素质并无二致。

正因如此,你在 OPPO Find X9 Ultra 里,能找到 14mm-230mm 的所有主流焦段,这就是相机经典的「大三元」配置。

2016 年,罗俊在 MWC 上被 OPPO 的十倍潜望长焦技术演示打动,决定加入。十年后,他和他的团队在手机里嵌入了一颗迄今为止最好 10 倍光学长焦——对罗俊来说,这是一声跨越十年的回响。

有了 10 倍长焦之后,大师模式的创作空间一下子就打开了:视频可以用 10 倍、20 倍拍,人像模式也新增了 10 倍焦段,这是罗俊三年前没想到的:

以前可能都没考虑过用 10 倍拍这些东西,突然发现素材空间又变大了,这个感觉还挺有意思。

新一代的大师模式也变得更易用、更好分享了。

罗俊说,他私心最喜欢的就是这个「配方分享」功能,用户在大师模式里调好拍摄参数、拍出照片,配方就已经被嵌在照片水印里了。

别人看到这张照片,用 ColorOS 的一键闪记功能,就能快速导入同样的配方一键出片——对喜欢打卡的小红书姐妹,可真是太友好了。

而这个功能成立的前提,恰恰是前三代把大师模式的底层管线做到了足够稳定。如果管线不成熟,配方分享出去换个场景就失效了。

好的计算摄影,就是让你忘掉计算摄影

采访快结束时,我们聊到了一个稍微务虚的问题:什么叫计算摄影的「真实」?

罗俊的回答就两句话:

一个叫所见即所得,一个叫所得即所想。

所见即所得是基础——取景框里看到什么拍出来就是什么。但他认为真正重要的是后半句:用户脑子里对一张好照片是有预期的,影像系统的工作就是尽可能贴近那个预期。

你拍一张照片的时候,是有想象一张照片效果的。不管是你看到的还是你想的,这时候是脑子在后期。

你按下快门之前,脑子里已经有了一个画面。那个画面就是你的参考系。

这让我想起,之前去悉尼旅游时的经历。那时,我专程去一个有名的打卡机位,但遇到阴雨天,人很多,拍完之后,我也对照片不太满意。

于是,我想到用豆包修图——我加了夕照,去掉了人影,修完,我觉得这就是我想要的,但,这还算摄影吗?

罗俊告诉我:

它一定是摄影。但你脑子里想的画面和你眼睛看到的之间,到底有多少比例是记录的,有多少是生成的?这个比例在不同工具、不同场景下是变化的。我们做影像系统的价值,就是把真实记录的那部分做到极致。要不然的话,咱们都靠豆包就完事儿了。

从大师模式,到重构 OPPO 影像,再到 Find X9 Ultra——在罗俊看来,这一切从来都指向同一个目标:

把脑子里想的那张照片,和手机拍出来的那张照片之间的距离,缩到最短。

真实还原,还原的不仅是现实本身,更是心里的参考系。

罗俊说,在未来,影像交互对于用户而言必须简洁——用户拿起来就拍,不再纠结,因为系统已经理解了你想要什么。

我想那时候,真实还原的理念,就已经渗透到整个 OPPO 凝光影像系统的脉络里了。

好的计算摄影,就是让你忘掉计算摄影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 XREAL 徐驰:我有手机、电脑,为什么要用 AI 眼镜去替代它? | 多样性公司

作者 肖钦鹏
2026年4月7日 15:44

编者按

当我们想喝可乐的时候,在极长的时间都只有两个选择:百事可乐和可口可乐。当我们选择手机的时候,有 90% 的概率在苹果和华米 OV 等品牌里辗转。当我们买运动服饰的时候,第一时间想到的,大概率是 Nike、Adidas。

但世界之所以缤纷多彩,是因为在这些巨头之外,有一些不遵从传统,力求创造不同,注重设计和功能,着眼于明日的公司存在。

它们有着非主流的商业模式,设计与产品能提供独特的用户价值,和足够的社交谈资。重点是,它们没有大公司的包袱,敢于不顾一切的进步。它们,是「多样性公司」。

多样性,是开放世界的关键。爱范儿相信,只有真正关注和理解多样性公司才能比更多人更早地看见未来。在同名栏目中,爱范儿将以专访的形式,与你一同见证这些多样性公司,如何重塑未来,定义新常态。

本文为「多样性公司」栏目的第 10 篇。

2017 年,徐驰从 Magic Leap 辞职回国,创办了 XREAL(原 Nreal)。彼时,整个 XR 行业都在为 Magic Leap 的鲸鱼侧翻演示狂欢,所有人都觉得这就是未来,但没有人真正卖出过一副消费级 AR 眼镜。

九年过去,这个赛道经历了 VR 元宇宙的泡沫与退潮、Apple Vision Pro 的高调入场与遇冷、Meta Ray-Ban 的补贴式扩张,以及 AI 浪潮对一切终端形态的重新审视。

XREAL 活了下来,并且成了 Google Android XR 平台的首批硬件战略合作伙伴。根据 IDC 的数据,XREAL 已经连续四年稳居全球 AR 眼镜市场份额第一。而就在最近,XREAL 在港交所正式递交了上市申请。

这家蛰伏近十年的智能眼镜公司,即将迎来新的商业阶段。

爱范儿的这次专访,完成于 XREAL 向港交所递表前。在对话中,徐驰没有回避任何尖锐的问题——从「为什么苹果的 Vision Pro 注定有问题」,到「中国厂商在用供应链整合打一场上半场的战争」,再到「眼镜行业还没有任何一家公司真正赚到过钱」,但贯穿始终的,是一个清晰的判断:

眼镜是 AI 最好的载体,因为只有它能给模型提供最高品质的上下文。

XREAL 创始人兼 CEO 徐驰

从没有公司挣到钱的行业里活下来

Q:你当时从 Magic Leap 出来创业,做的是一个非常前沿的产品。为什么会想做这样一家公司?

A:我当年在 Magic Leap 的时候,最开始的几个月是很有惊艳感的。突然间,你站在了一个新时代的开端,并且有机会在最前头去见证,如果运气好,你还能参与去定义,这种感觉特别棒。

当时,我的判断是,这是下一个大机会,到 20 年肯定成了。我是 2016 年回来的,觉得再不回来就来不及了。当时想的就是,一定会有一个懂这个行业的人从国外回来——就像当年的李彦宏、张朝阳。那这个人可能是我,也可能是我的同事们,因为当时懂这块的人就那么多。那为什么不是你呢?你不可能准备好了再回来。实在做得不好,我就再回去呗,当时就是这么一个简单的想法。

这一路上很难,这个行业起起伏伏的。但我自己秉承了一件事,就是我们始终没有偏离初衷。这其实也是考验每个创业者的内在驱动力到底是什么——是为了名、为了成功、还是为了财富。

我们真的是认为眼镜就是下一个终端,这是一件不应该容易的事情。碰巧,我们近乎有种使命感地在最早进了这个行业,很想看看最终的答案到底什么样,甚至想一直陪伴到那个答案出来的时候。

Q:XREAL 今年初刚九周年。成立九年,有没有达到你的预期?

A:首先一定是不达预期,这个行业都不达预期,但我还蛮满意的。

以我们当时的认知和热情,走到今天确实蛮运气的。这路上遇到了很多对的人,很多好心人,上下游的合作伙伴,包括自己的团队,才走到今天。

当然,如果用今天的心智重新走一遍,一定会走得更好。这就是成长的过程。我时常跟同事们讲,如果 XR 有一个博物馆,记载了 XR 历史的每一步变迁,XREAL 一定已经留了自己很重的一笔。

Q:行业风口一直在变,你们有没有经历过至暗时刻?怎么克服的?

A:肯定有。

行业没有真正爆发的时候,每一个至暗时刻可能都伴随着一些高光时刻。印象最深的可能是疫情刚出现的时候。当时我们在海外生意最好,因为大家在家需要这样的产品,所有海外运营商都想跟我们合作,CES 亮相非常成功。

但突然疫情一来,人出不来了,融资节奏被打断,团队也不稳健,内外矛盾集中暴发。内部有策略争论、管理争论,外部有些企业本来好好的,合作突然就不要了。

现在回想会坦然得多,因为这些都是理所应当的过程。

Q:Vision Pro 在我看来是把 Magic Leap 的东西做出来了,甚至超越了。但 Vision Pro 没有达到预期,当时对你们来说是一个打击吗?

A:当时我们其实很遗憾。我印象很深,有一次去见美团的兴总,他也在关注这个领域,跟我们聊完之后就问,苹果在做什么?我当时就说,苹果做的那个产品大概率不行。

但当时中国有大批人认为「苹果做任何事情都是有道理的」,你没法说服他们。因为你很难拿一个还没有发售的产品去论证。后来你想说苹果做得不好,又会招黑。

我们只能顺应这件事情。但其实从蛮早我就觉得苹果的这个产品是有问题的。

Q:原因是什么?

A:我觉得这是苹果有史以来第一个不做剪裁的产品。

苹果以前乔布斯在的时候,是极致的剪裁——「我也不知道你想要什么,我给你的东西才是你想要的」。但 Vision Pro 明显就是「我也不知道你想要什么,所以我都给你」——这个也加,那个也加,它是一个堆料的产品。

据说苹果内部的产品逻辑确实如此。他们在重复 Apple Watch 的路线——Watch 第一代并不成功,但给了他们后续成功的机会,知道了做健康检测和运动是对的方向。

AVP 第一代的想法也是不做判断,努力把功能都加进来,看用户喜欢用什么。但他们犯的错误是:头戴设备加的东西多了之后,太重了,戴不住。

结果第一代产品并没有给苹果任何「下一代应该往哪个方向走」的反馈,样本太少了。所以下一步他们反而会更保守。

Q:你们现在主力出货产品其实是移动大屏。你什么时候开始判断先不做空间计算、而是先把移动大屏做出来?为什么认为移动大屏这个定位是对的?

A:这不是我判断出来的,是被打脸打出来的。我们今天的情况真的是一路走过来的。在无人区里探索,用户的真实反馈非常重要。

我们第一代产品就是奔着一个更小、更便宜、更好的方向去做。当时的想法是拉着运营商一起合作,他们有当地的影响力、品牌背书、渠道和生态,我们提供技术,软硬件全做。

我们曾经在韩国做了一个我们认为最完整的商业化闭环:手机预装 APP、眼镜跟手机捆绑销售、5G 合约打下价格、运营商和三星 LG 的渠道售卖、LG 找当地内容做生态。这是到目前为止我们看到在生态领域做得最完整的,但并不成功——因为我们和运营商都没有真正的平台号召力。

这时候你才会去反思,真正能做平台的是谁?

我做一个大胆的预测,只有苹果和 Google。Not even Meta,not even OpenAI。

因为过去 20 年他们在手机生态里的势能和积累,让他们是唯一能去做平台的。那时候我就想得很简单——Don’t do it。

因为如果有一天你做了一套东西,Google 出了一套系统,你所有的开发者其实被你带到了沟里。如果交互逻辑完全不一样,那怎么办?

所以我们一定要退回来做减法。我们是技术背景出身的,技术类的剪裁是最痛的。你要跟做 SLAM 的人讲,不好意思,我们原来做六自由度的,现在得做三自由度了。你说三自由度谁都能做,对吧?但这事是没办法的。

不过初心没变——虽然我们做了 Display 的方向,但另外一条线从来没断过。直到 Google 找到我们。

Q:你们跟 Google 的合作是怎么促成的?

A:我们一直跟 Google 有开源层面的联系。他们内部一直在关注我们,包括苹果的一些高管,每次我们新品出来第一时间都会去买。同行对你的关注,可能是对你最大的认可。

直到苹果的 AVP 出来,Google 也立刻做了一个决策说,我们也得跟进。但突然间发现 AVP 不成功。不成功有两个最大的 takeaway:太贵了,太重了。贵了,开发者不感兴趣,因为觉得没有量,三年五年之内起不来量。太重了,消费者没有长期佩戴和持续佩戴的意愿。

真正解决它,就是要做便宜、做轻,而 XREAL 从第一天开始就在做轻量化、做分体式,依托于我们在空间计算核心技术的长期积累和国内出色的供应链能力,在价格上也更具竞争力。于是这件事变得水到渠成。

XREAL 与 Google 合作的 Android XR 眼镜 Project Aura

眼镜是 AI 最好的载体

Q:无论是空间计算设备还是 AI 硬件,智能眼镜的终极形态应该是什么样的?行业里有人提过一个 L1 到 L5 的形态划分,你认同吗?因为在眼镜这个领域,当前 L1 的体验反而远远好于 L5,这件事挺奇怪的。

A:我以前给过一个 L1 到 L5 的定义,主要是智能程度的分级——早期偶尔能用,后来越来越像你自己的个人助理。但为什么轻量化眼镜注定没办法替代所有东西?因为显示和算力的物理边界。

如果想加显示,大家现在普遍认为是光波导。但光波导的显示做到极致,它也就是车载 HUD 的水平。拿它做个翻译、做个导航没有问题,但你不会用车载 HUD 看电影、玩游戏。而且我们已经被视网膜屏惯坏了——视网膜屏一方面是显示基础,另一方面背后需要很多 GPU 去渲染更多的像素。如果这件事是在一个轻量的全天候设备上,续航支持不了。

所以我们必须做取舍:有一个更轻量化的设备,全天候佩戴,但显示弱一些;有一个相对更重的,但是便携形态,显示能力跟今天视网膜屏是一个水准的。这两个先天就被分开了。

Q:所以你认为未来不存在一副眼镜解决所有问题?

A:大家一提到眼镜可能想到不同的形态。Meta Ray-Ban 是一个形态,我们现在做的是一个形态,大头盔是另外一个形态。这些不是三选一的问题。就跟今天你有手机、平板、笔记本、台式机一样,它们满足不同场景和不同优先级。

AI 眼镜是全天候佩戴的,一定要轻巧。第二个形态是我们现在的移动形态,是便携的而不是一直佩戴的。好处是可以稍微再重一点,但在工作过程中可以戴上,显示内容更丰富。再往另一侧是大头盔,包括 AVP,体验绝对很棒,但可能更像家里的专用设备。

我们认为这三种形态在未来 10 年甚至更长时间都会共存,不会是一个设备替代所有。就像我们原来科幻电影里希望用手表替代电话,但很遗憾今天我们还是既带着手表又带着手机。有些事情它有物理边界。

Q:我有手机、有电脑,为什么需要用眼镜去替代它们?

A:原来我认为,今天的电脑和手机是把一个互联网信息世界压缩到了一个二维的长方形小格子里。真正的感知三维化、显示三维化、虚实融合,是必然的。但最近我有一个新的思考——可能光这一点还不够强,不够让用户觉得「我必须得这样」。

这就是我们最近一年多思考的全新答案:要感谢 AI,AI 可能给我们带来了一种全新的交互方式。过去无论电脑还是手机,本质上是人控制机器。键盘高效但上手门槛高,触摸屏相对高效且上手门槛低,但仍然没有摆脱「人控制机器」的范式。苹果在 AVP 上用眼动追踪做 3D 交互,效率极低,本质是在 3D 画布下做交互。

当 AI 出来之后,我眼前一亮,真正的下一代交互不再是人控制机器,而是人跟一个智能体像我们现在这样高效地交流。以后你的手机、电脑、眼镜,都会有一个智能体,用人和人的交流方式——五感交流。

Q:现在很多 AI 硬件,带摄像头的耳机、挂饰等,也是 AI 的 input。你们怎么看待与它们的竞争?它们成本更低,使用场景甚至更广泛。

A:回到第一性原理。为什么眼镜是先天最好的 AI 载体?因为当你将来加上眼动追踪的时候,眼镜可能是唯一能知道你的聚焦点是什么的设备。

举个例子,无论是耳机还是其他设备,它想拍一张照片去分析,前面坐了三个人,你到底在看谁?而且把整张照片传上去计算量也很大。但如果有了眼动追踪,我可以发现你就在看某个人,我甚至可以把他的轮廓裁下来,只传他到云端。其实人类本来也是这样,当我专注跟你聊天的时候,可能只关注到了你的表情,后面的树我是没有关注的。这些事情只有眼镜能做。

> 本质上这跟 LLM 的原理很像——注意力机制。眼镜是最容易让你获得最高品质上下文的终端。

Q:我昨天体验了 Project Aura,感觉有了一块真正可用的显示屏之后,很多生产力场景在 AI Agent 的帮助下是成立的。比如我可以抛开一台电脑——只要我能下指令、能清晰地接收输出结果、能判断 Agent 的交付是否符合预期,就够了。

A:你说得非常好。再想象一下,假设你是一个公司的董事长,AI Agent就是下面的各种员工。怎么能让这些员工越来越精准地理解你的指令?

不是你用文字的方式去转述——因为文字有可能把一些背景信息压缩掉了——而是他本身就参与了你工作中的很多场景。当你跟他重复某个 idea 的时候,他说「哦,你是在那个场景想到的,你在跟某人聊天时讲到的」,他有更多的背景信息,就可能更精准地完成任务。

所以,我需要升维对AI Agent的input ,要把它变成一个 contextual 的输入,而不是仅仅是抽象出来的文字。

Project Aura

Q:如果你们未来打算做一款 AI 眼镜,你希望它是什么样的?

A:我希望它真的能给我带来一个第三方视角的、我注意不到的一些洞察。我还是从个人助理的视角来看。希望它能帮我在一天工作结束后复盘的时候,给到一些我自己从第一视角没有注意到的角度和事情。那它就得全天候、多模态。

Q:那这会跟你们现在做 Display 的方向背道而驰吗?你们的技术积累更多在显示这块,但你刚说的场景,好像不需要显示也能做。

A:今天 XREAL 做得好的是,当我们去解决问题的时候,会回到第一性原理,然后用更难的方式去解决这个问题,就像我们做芯片也不是为了显示。就像为什么特斯拉造车,一个原来做支付的人能造车?为什么造车的人能造火箭?他不是靠「这个事就近,所以我去做」,他牛的是他一直在走第一性原理——怎么用一个看似很复杂,但其实又是最近的方法去解决问题。

Q:那在你看来,XREAL 的第一性原理是什么?

A:一个多模态的、全天候的——至少保证八小时续航的 AI 设备,加上实现长期记忆。它就是一个变现能力非常强的 AI 个人助理。

我们的核心就是要做一个 AI 个人助理。只是说它到底是先实现全天候,还是先实现 Display 输出,还是先实现多模态。每一步都是成为最终个人助理的必经之路。这个想法真正沉淀下来,其实是在多模态 AI 成熟之后。多模态的 AI 拓展了我们认为这块能力的边界。我原来想的还是一个更小、更轻、更便宜的终端。

乱纪元中的长期主义

Q:你认为智能眼镜的核心价值是什么?

A:眼镜的核心价值在于,它是一个跟模型共享高品质上下文、分享注意力的最好的形态。今天的上下文很像 CPU 里的 Cache,是一种短期记忆。而长期记忆是一个全新的 Memory 系统。这件事会在未来两三年内出来,这其实也是现在 Agents 大家一直在研究的东西。

Q:这是行业共识吗,还是说很多做眼镜的只是想做眼镜?

A:当 iPhone 在 2007 年出来的时候,它都不是共识。我们今天其实进入了一个乱纪元。就像当年没有人能提前框定答案一样,都是回过头看才说马斯克牛、乔布斯厉害。但当时那个阶段都是某种程度的乱纪元,大家都在找答案。

但我想说的是,当这个行业是一个颠覆式创新的时候,不太可能出现武侠小说里那种突然路边出来一个扫地僧把所有人秒掉的情况。这个行业非常注重研发底蕴。乱纪元中的集大成者、那个 iPhone Moment,很可能不是发生在产业链的腰部。

Q:国内很多厂商已经做到千元档了,噪音产品也越来越多。你们怎么维护自己的用户心智?跟供应链整合的公司有什么本质不同?

A:如果我们不断强调原创,但实际上卖不过供应链整合的公司,那可能就说明原创的那些东西没有差异化。我相信我们的产品是有差异化的,但难的事情都要花时间。

XREAL 从 2022 年开始做 Display 眼镜成功之后,我一直在想我们的品牌到底定位在哪。我们希望做中高端产品,品牌心智需要时间去沉淀。而时间对创业公司来讲是最大的敌人,我们必须耐住性子。

Insta360 的 JK 有句话:品牌是消费者在信息不充分的时候对你的信任。

我们特别珍惜这种信任。你可能需要几代产品去建立它,但只要一代不好的东西就会摧毁它。所以在这个过程中,我们不再是只追求高速增长,而是追求高质量增长。

这么多年我们在做的就是保证我们引领行业体验的变化:芯片、大视角光机、实时 2D 转 3D。我相信这些会在消费者心中慢慢沉淀。自然会有人用营销走捷径,试图模拟一个「我和你差不多」的印象,但我相信时间会证明一切。

Q:今年 AI 行业基本一天一变,作为硬件创业者会焦虑吗?

A:这个逻辑跟炒股一样。如果你始终在市场里,每天看波动,很容易被短期波动影响判断和心情。如果你看长线,拉开一点,可能会更清楚。

核心是考验你的长期战略定力。当年在 DeepSeek 一鸣惊人之前,中国大家听到的都是 Kimi、豆包。DeepSeek 没有选择在那个时代去跟另外几家打广告,而是安安静静做自己的东西,直到有一天海外发现它把英伟达的股价都撼动了。我们可能也觉得更适合这么做。

我们之前的基础让我们有一定的余裕可以去等。今天有很多公司不得不发眼镜、不得不做 PPT 眼镜,是因为他们需要活到下一个阶段——就跟当年造车一样,大家还是在 PPT 造眼镜。而我们今天能往后退一点,再长远地想一点,我觉得是好的。

Q:Google 在 CES 做了很多宣发,但没有落地产品。你们会担心平台节奏太慢吗?你们的产品会跟 Google 产生竞争吗?

A:其实 Google 的 CES 活动是小范围闭门邀请制的,请了很多人去听,包括我们在他们的会议室里待了小半天,见不同的 partner。我不怕他慢,我怕他快。因为平台要有节奏,不是光平台出来就行,还要有关键的内容和生态。我们对现状非常满意。

而且我觉得今天国内做 AI 也有点急。大家好像在抢,觉得晚发半年就错过了。但 AI 这一波下一代交互范式的定义,我认为不是个抢跑的逻辑,是一个万里长跑,跑对方向远比抢跑更重要。

Google 会像当年做 Android一样。我相信到某个节点他会有自己的 Pixel,但他一定会先去做平台。这是我们很确定的战略。所以短期不担心竞争,他可能是我们最好的合作伙伴——他擅长的我们做不了,我们擅长的又碰巧是他们最需要的。

Q:眼镜大概率会跟手机和新能源汽车一样,经历一个从上半场到下半场的过程。你觉得现在走到哪了?

A:眼镜大概率会跟手机和新能源汽车一样:头部终端持续做研发,突然有突破,在产品上快速迭代,制定行业规则。然后产业链下游把成本降下来,把能力赋能给更多终端厂商。中国大部分厂商熟悉的是后半场——在别人已经定义好的东西上做小迭代、微创新与大规模制造。但今天眼镜这个赛道还没走到下半场。

我最不希望看到的是这个行业大家用供应链整合和营销去打一场上半场的战斗。

因为上半场还是要做技术创新、做技术迭代。我个人觉得今天任何一款产品都没达到当年 iPhone 1 的那种惊艳感。而那个 iPhone Moment 大概率不会从一个四流企业、只做供应链整合的公司里出来。

今天眼镜火归火,中国的眼镜厂商还没有一个产品单品销售过百万。全球也只有 Meta,但 Meta 是靠补贴的,这个行业真正的拐点,是在不补贴的方式下来评估的。

来自 XREAL 用户的手绘海报

Q:你们的最终商业模式还是卖硬件吗?

A:当然不是。今天模型厂商也没有想明白商业模式。你其实想问的是,当一个新的终端、一个新的交互范式引领的新终端出来的时候,价值链的分发会是什么样子?

我相信我们一定会有位置。而且因为端侧越来越离你近,硬件或者入口这侧的属性会越来越强。未来你可能不是买硬件,而是每个月愿意付多少订阅费让这个助理服务你。

如果这个助理跟了你三年,它参加了你几乎所有的会,不只是录下数据,而是像参会一样形成了自己的判断和抽象的长期记忆,那你就离不开了。

Q:数据到底是谁的?这在未来的价值链里意味着什么?

A:这个行业一直会有一个想法,就是数据到底是谁的?

今天三星把数据直接给了 Google,用你的数据做广告变现。但数据所有权本来是用户的。而且长期记忆会跟 AI 解耦——就像 CPU 和 Memory 可以解耦一样。

当你的规模化设备多了,你选择把数据给谁,这件事就变成你有一定的主动权。

Q:当 Android XR 或多模态 AI 成熟的时候,所有大厂商都会进来,给创业公司留下的时间是不是不多了?

A:你能理解吧。就像当年跟 Android一起造手机一样,所有硬件厂商都会进来。你从这个牌桌到了另一个牌桌,每个人的筹码都变了。给创业公司留下的时间可能不多了,所以保持差异化和迭代速度非常重要。

大家都说想做苹果,但苹果最厉害的是解决了三个问题:硬件制造、系统开发、以及整套交互范式怎么把软硬件串起来。

但很多人可能只是联想,甚至可能是甲骨文。不同层面有不同分工,挣不同的收入。只要我能保证在这个生态里有一席之地就可以,但现在谈具体位置还太早了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

获得 B 站 AI 创作大赛一等奖的 UP 主说,AI 对创意没有任何帮助,但价值在别处

作者 刘学文
2026年4月2日 16:04

《奇点临近》是一本 2005 年出版的关于未来技术预测的书,如今看来其中诸多预测都过于乐观,比如说关于 VR 在 2010 年就能普及和成熟的预测。

但有一个预测又明显保守了,这本书里预测到 2029 年才会有突破图灵测试的人工智能电脑出现。实际上,2023 年的时候,ChatGPT 就已经完成了图灵测试。后果就是,社交网络上遍布着各种难以分辨以假乱真的 AI 生成内容,再然后,针对 AI 生成的垃圾内容有了专属名词「数字泔水」。

人们对于技术奇点临近的感知有所不同,真正让我感受到震撼且明确感知 AI 技术足以断代的事情是《牌子》这个依靠 AI 生成的视频。

所以,我希望在往下看下去之前,可以先抽出 7 分钟的时间,先看看这个在 B 站已经有 1800 多万播放量的视频:【牌子】当世界过分“诚实”,我们要如何保持好奇与勇气

B 站 Up 主 DiDi_OK 是这个视频的作者,他的作品最终也获得了 B 站首届 AI 创作大赛开放赛道的一等奖。他在颁奖典礼上的分享,在我看来,其价值并不亚于《牌子》这个视频,如果说《牌子》这个视频的价值在于让人们认识到,AI 生成视频的上限在哪里,那么这个分享的价值就在于这个「上限」如何产生的。

DiDi_OK 分享全文

(为了方便阅读,我自作主张加了小标题)

大家好!非常荣幸能站在这里给大家分享一下我的创作过程,首先我做一个自我介绍。我叫 DiDi_OK,之所以叫这个名字,是因为我曾用名有一个字是 D,所以从小到大,所有人都叫我弟弟,大家都可以占这个便宜。

目前我在伦敦从事广告制作行业,突然做 AI 其实是顺水推舟的事情,今天非常荣幸可以跟所有的朋友分享我是如何做这个故事,以及 AI 过程中我个人的想法。这里叠一个甲,有可能有一点有一些小暴论,但是的的确确是我真实的想法。

把不吐不快的感受表达出来,这是创作的初始条件

第一,我分享一下我初始创作的灵感。我在很多采访和分享中提到过,其实《牌子》的最初创意是圣诞节期间和朋友们去土耳其旅游得到的灵感。

这里有几张图,比如说前面两张和最后一张都是来自土耳其的照片,这是我第一次经历,我到了一个没有办法说母语,说英语也没有用的地方,我完全无法理解很多牌子的意思,我只能用 ChatGPT 跟当地的司机进行有障碍的沟通,这个时候我恰巧意识到好像图形一开始就是人类交流的语言。

第三张图是很重要的图,是英国朋友家的照片,在他家洗手间上看到两个感叹号,我当时有一个我自己的感受,我最终没有选择问他,因为我觉得这个留给我的故事更有意义。这就是我初始的创作,大家会看到这是一个比较有形式化的创意出发点。

接下来就有一些我真正比较内核的表达在里面,对我来说,我从来不认为故事是目的,我认为表达才是我们每一次行动的目的,至少我是这么坚持的。日常生活中我相信每个人都有非常多的感受,比如说对我而言,圣诞节期间,我有一个非常强烈的感受就是愤怒。因为那一段打开新闻会有非常多不太美好的新闻,比如说打仗,我平时在伦敦会感受到多种族熔炉下,每一个种族下有一些剑拔弩张不美好的感觉,我觉得都 2026 年了,怎么人还坏成这样子?

有了愤怒自然有诉求,我是有一个期待的,我非常期待能够感受到我小时候感受到的感觉,就是所有人在一起,比如说 2008 年地球村的感觉以及我是有一个时代烙印的,我从小看《独立日》《指环王》,我非常怀念我第一次指环王白城保卫战的画面,同时我也非常怀念《哈利波特》中霍格沃茨保卫战的画面,我很费解为什么最近看不到这些东西了,这就是我的期待,我期待再次看到这样的画面,以及我感觉你们不做,那我来做,这是我的第二个期待。

最终落实到一个表达,我的核心表达就是人与人之间的隔阂变少,说人话就是能不能真的把对方当成人,大家一起做一件事,就像《加勒比海岛 3》每一艘船升起自己国旗的画面。

这是我个人的公式,每次做片子我会套这个片子,我称之为前期的思维导图。首先是表达,找到了表达点,一定是发自我内心的感受,我可能不说出来就说睡不着。这个时候我会再问自己这个表达是否有价值,这个表达传递给他人是否会带来困扰还是会带来比较有意思的感受,这是我的第一步自我审核。

表达就像请客吃饭,要考虑受众,也要考虑成本

第二步就到了形式的问题,因为我感觉做片子,对我来说更像是我请客吃饭,我有一个非常独特的,可能是家乡菜或者是我自己研究的一道菜,如果我只是直接端到客人面前是有一些唐突的。

比如说我想请一个外国朋友吃我最喜欢吃的臭豆腐,我直接端给他,他大概率是拒绝的,这个时候我要出于我的礼貌,比如说该有的刀叉要备好,可能该有的中国比较著名的菜,像糖醋里脊、宫保鸡丁还是要准备,潜移默化中给对方一定的时间去接受,在合适的 timing 我端出我的臭豆腐问一下,你尝一下,有可能会喜欢,这个对我来说就是形式。

在《牌子》片子中,我最终选择了我自己觉得很有意思的形式,就是各种各样的牌子。这个时候会引出另外一个点,何为有意思,何为有意思的形式。我们回想起来这些著名的影视作品中的设计,比如说《星球大战》中的死星是传奇的武器,一整颗星球是武器,但是整个视觉语言非常简单,就是球体,大家不需要有过多的理解成本就可以理解,这是一颗人造星体,具有超级威力,这样的设计方式在《星球大战》中非常多,《星球大战》表现速度感的几艘主要的飞船,我看到了设计理念,基本上来自衣服夹,这种方式是一种比较快速能够把观众代入故事的手段。

这步结束以后我会再问自己技术上是否可行?尽管现在有非常多的 AI 工具,比如说 SeeDance2、可灵,它们都非常优秀。但是作为小团队或者个人作者,我依然考虑一个问题,就是我是否可以在单位周期内完成这份作业,如果单位周期内无法完成,我个人的情绪就会散掉,所以我第一步就来预判,有了好的形式,它是否成本可控?技术可控?也在第三步我会 pass 掉非常多的创意,有可能这些创意很酷了,但是我无法控制它的成本。

在这三步之后,我会再次问自己,这一系列的做法之后,我能否回归我的表达?这一点有点类似于姜文提到的我就是为了这盘醋才包的饺子,如果我饺子包完,我的那盘醋端不上来,我依然不会想要做这个片子,这是我前期的自我审视、自我检查。

AI 不仅改变了工作方式,也让自我价值被重新审视

AI 到底改变了什么?至少目前为止改变了我整个工作方式,以及生活上心态上的改变,我展开剖析一下只代表我个人的改变。

第一,AI 凸显了个人的价值,特别是成为你自己。从毕业到现在,我经历过找工作,跟身边的朋友找工作都面临一个问题,是不是自己不够优秀,我是不是应该为了一个社会的形状去砍掉自己的某一部分,是不是我不太会社交,是我有点 I 人。但是我往往发表一个暴论,就是我认为世界上不应该有人因为做自己而受到惩罚,这是不对的事情。但是往往很多人其实过去很多时候或多或少会因为做自己而受到惩罚。

我有很多个人的经历,我从小画画,我喜欢画怪物,我也经历过年轻的时候谈恋爱到对象家,对方父母问你干什么的?我想了半天说我是画怪物的,其实我当时觉得我没有价值感,好像没有非常体面生活方式或者思想。但是我觉得现在反而是我一直坚持下来的想法和理念,能让我在这个时代突然一下子做出一些有意思的东西。我就突然意识到下一个问题,好像做自己这个赛道上,没有人比我更强。AI 出现之后,我某些窘迫和奇怪的点是可以被接受的,因为它们可能在某个层面上存在真正的价值。

第二,内容孤岛化。这可能是我自己发明的词,我观察到一个现象,90 后或者是一直到 2000 年的人,大家提到听歌就是周杰伦,女歌手就是蔡依林,有可能还有林俊杰,在过去那个时代,大家打开电视就是共同的文化内容,不论是音乐还是电影,有一个非常共通点,大家都是看着这些人长大的。但是现在出现了一个问题,我们打开自己的音乐 APP,彼此之间的歌单差异非常大,内容越来越个人化,孤岛化,我喜欢的东西,甚至我最好的朋友未必都知道。这个时候我觉得它和做自己形成了互补,甚至是两者形成了一种对应的含义坐标,我可以做自己的同时,做自己独立的内容去吸引跟我志同道合的人,这对我来说是 AI 改变一个内容传播的方面。

最重要,大家都能感受到,就是 AI 改变了我们的生产方式,这一点我非常有经历。最早我是做游戏的概念设计,再后来做了游戏动画,基本上在设计端或者制作端整个流程,我或多或少都参与过。我能体会到的第一个改变就是沉没成本,比如说在曾经的时代要做概念设计,我的确有一个非常有意思的想法,比如说我看到衣服架子,我真的想把它设计成飞船,但是前提需要很长时间的沉没成本,比如说你是否精确掌握透视,你是否精确掌握图形的分割,单纯图形分割语言,对我而言,五到六年是非常短的时间,在行业里都不属于非常卷的练习量。同时还要了解配、饱和度,最后就会意识到这需要童子功。同时要做动画,pipeline 就会更大,精通于绑定的人,可能一辈子都没有打开过玛雅的建模功能,每一个流程都出现了极长的沉没成本和非常孤立的工作流,需要团队协作才能把整件事完成。但是现在做一个东西,由于 AI 存在,它更像一个黑盒,输入端和输出端,输入我想要什么,输出确保是我想要的,这是生产方式的改变,极大减少了我们的成本。

当 AI 把生产成本降得足够低,个人意志的能量也可以足够强

最后就是个人创作的机会,根本上也发生了改变。第一点,就是个人风格。这次《牌子》我看到很多评论非常有意思,有人会问这不就是 MV 吗?为什么台词这么少?这些在做的时候我都料到了,曾经的生产模式中,如果要做一个片子,我不太可能个人拉起一整个团队我也没有这样的关系、资源。但是就算是我和志同道合的人一起去做,依然要考虑一个问题就是成本。同时还要考虑到一个问题,这个东西发出去,我要有收益,否则我巨大的成本,没有收益也不会贸然做出这一步。最终我的作品很有可能变成一个非常平庸的东西,我需要考虑到方方面面,考虑到投资人,考虑到观众是否会掏钱等等。

但是就像我开始做我自己片子的时候,我发现我完全不需要考虑这个问题。第一,成本很低,我想做就做了。同时面向观众这一端,我不会有太多的压力,因为我是免费给大家看的,大家赏脸看我会很开心,但是如果大家不愿意看,我也不需要观众为我付出时间以外的资源。所以这种情况下,我就会更大胆地尝试这个片子,很有可能这个片子就是 MV,你如果觉得是我也很开心,但是也有可能是非常少对白的叙事电影,我就发现 AI 时代下我多了非常多的容错率和大胆尝试的可能性。

还有一个就是内容差异化,这个也是我关注别人作品时候有一个点非常令我震撼,我不知道大家有没有在 B 站上看过一个视频,就是把小岛秀夫的《死亡搁浅》做成了郭德纲相声,这样一个解构对我来说过于震撼了,我曾经觉得《死亡搁浅》非常高雅的第九艺术,郭德纲是我非常喜欢的相声艺术家,但是两者的结合如果放在曾经沉没成本是极高的,这样的艺术形式前端的成本无法控制,后期的回本无法控制,但是现在这样一个全新的内容就这么出现了,每个人都能感受到,这又进一步避免了内卷化。大家一直讨论AI是不是只能复刻已有的东西,但是我提到的这几个东西,其实人们已经拿AI做全新的东西,曾经不存在的形式,这个赛道并不是变得越来越拥挤,而是通往不同方向路变得非常多。

最后引申到我的另外一个个人感受,就是关于二手欲望的问题,生活中很多东西产生二手欲望,比如说我职位 title 是不是能让家人和女朋友有面子?或者说我的学校等等二手的焦虑和二手欲望,做视频的时候我过去是可以感受到的。比如说我做出来是否符合行业标准,行业里的老前辈怎么看我?甚至我发一个视频有没有人看,流量、热度,但是曾经我有这种压力和焦虑的时候,是因为我的沉没本太大了,我有点输不起的感觉。但是我觉得有了 AI 之后,整个 pipeline 就非常简单,我在做的时候很爽,我不会再产生二手焦虑、二手欲望,我就关注一件事,这个故事有没有讲明白,这顿饺子包得好不好,以及那盘醋到底最后有没有人去蘸一下,这是AI带给我个人的一些想法。
最重要的一点就是有意思,这也是引用郭德纲的一句话,讲相声先搞笑,不搞笑就太搞笑了。所以我觉得做视频无论是唱片、短片、动画有意思是最重要的,如果没有意思,这件事就真的很没意思。

关于 AI 赛道,赛道其实变多了,由于前端和后端的成本降低,观众的压力很小,制作者的压力也很少,必然带来一个结果就是包容增加,这样一个时代会承载更多有趣的灵魂。

对于我来说,有一个公式,至少我是通过这一套公式看看每一次新作品是不是有意思。对我来讲最重要的就是游戏、电影、书籍、音乐,它们组成了最基本的底色,就是我的底色。举一个例子,我认为每个人不同的经历会给每个人带来不同的底色,如果我是一个黄色,那我遇到了一件事情,这件事情是蓝色,就会组成绿色,但是如果说是教授,您就是红色,但是同样遇到一个蓝色的事情,您可能得到一个紫色,真正变亮是我们自己,我们自己最开始的底色,我通常用这样的模板分析我现在的底色是什么样子的。我刚才提到,我刻意的追求一个人类大团结,这个对我来说是非常重要的底色,因为我的确就是从小《指环王》看起来的,但是可能一个人从小就比较喜欢黑色幽默的主题,那得出来的结果必然跟我不一样。

同时,因为 AI 的出现,各种艺术形式的边界开始模糊,有一个很直接的例子,我收到很多的反馈,大家都非常喜欢这次片子的音乐,但是其实我自己是一个五音不全的人,五线谱都不认识的。当时我做《Error》的时候我想到很多游戏作品,比如说《死亡搁浅》,而这次在做《牌子》的时候,我依然会想到我喜欢的游戏,比如说我喜欢的《巫师 3》,我喜欢其中的配乐方式是古代波兰传统艺术形式,就是女人的吟唱感。我就把这个描述给 Gemini,问它这到底叫什么?它会告诉我历史和典故,最后给我一段 Prompt,而这一切的灵感是来自于书籍,我听过的音乐、打过的游戏,它们让我的底色越来越浓。

最终这个底色我称之为通感,我发现一个很有意思的现象,比如说我很喜欢的艺术家,很多年轻人都很喜欢就是《爱死机》的导演,也是《证人》的导演阿尔贝托,我就会观察他的个人生活,他除了动画做得很好,传统油画我认为画得登峰造极,同时衣品也特别好,身材也特别好,我更加确信这是他的通感特别好。

当我们确定了一个人的通感的时候,我再次审视我表达的层面,我的经历、背景以及我的性格,最重要的就是我的主观感受。比如说我的背景,因为我长期待在伦敦,潜移默化中会出现一些伦敦的场景。如果另外一个作者经常待在上海,很有可能他的作品里上海占据很大一部分,这个时候又一次发生了变化。

再就是性格,我如何收敛我的性格跟别人达成一种共识,但是现在我不需要考虑其他人的感受我可以完全地把我的性格表达出来。

最后就是主观感受,我就是会有愤怒感和期待,我表达出来就好,这个时候我们会发现,我们已经加入很多的变量,有点像打游戏,每个玩家打游戏都点出自己的天赋数,每点出一层变量就会多一种可能性,这个时候我觉得可能就成为我,有了通感,有了我,我可能就要写故事,我因为旅游、新闻都会产生感受,就有了契机,有了契机就有动力,但是最重要的就是要强调个人审美,我不觉得它只跟美术有关系,更多的是你说话的方式、做事的方式,是一种很多方式的总和这是一道菜最重要的调料。我之所以每一次做的都是写实风格,就是因为我比较喜欢低饱和度,有一点点幽默空间的氛围,这是我的个人表达。最终把所有的东西加在一起,这个饺子就包完了,你可以得到一个故事。

AI 让执行变得简单,哪怕做出垃圾也是有意义的

结束这个环节,我们就可以讨论,到底 AI 有没有帮助我们提升创作,我个人认为 AI 正在把创作权归还给我们,不论是工作流变化,还是个人表达主张的便利性,我都觉得它节省了我的时间,当我节省了时间,去除了沉没成本,节省了很多体力,最后还剩下什么?有一个显而易见的答案就是灵魂。比如说设计一个角色,你不用练基本功,当然基本功很重要,但是你至少可以省下大部分的时间。比如说做一个 3D 的角色的时候,你不用每天每夜的拆 UV 或者去做优化,因为在曾经的工作流中你要设计一个有趣的角色,我认为有趣的耗费时间把它变有趣,最多占 20%,大部分时间你要考虑如何把 3D 模型优化好交给绑定的团队,这都和创意没有关系。所以我感觉现在更像是退潮了,才可以看到到底留在海滩上的哪部分属于创意的部分,而这部分恰恰是 AI 留给我们的。

这里有很多我自己的想法,比如说曾经用于拆 UV 的时间用来表达。我还想说故事是一切的核心,如果让我给出建议,我希望大家赶紧去做故事,而且越快越好,因为有些故事放在我心里太久,久到我没有勇气说它了。所以我现在有一个想法,我就像章协调日记一样赶紧写出来,哪怕只有 15 秒,对我来说都非常有价值,而且它是可以被扩展开的。

这里还有一个小暴论,但是其实它是出现在教科书,游戏设计行业里称之为圣经的教科书,扉页里有一句话是「你的前 10 个作品都是垃圾,所以赶紧做掉吧」。曾经我一直想努力地做完我的前 10 个垃圾,但是在 3D 时代,我用了三年才做了 8 个垃圾,我还差 2 个垃圾,我感觉我可能有经验。但是 AI 的话,我的确可以很快把前 10 个垃圾做完,并且快速迭代,收到市场反馈,这是 AI 时代最重要的一点,它给到我们无法找借口机会,我们不能再说时间不够,设备不好,没有时间去做,我们可以快速把人生前十个垃圾做完收到市场反馈继续进步。

还有就是关于技术层面,曾经我自己也陷入一个误区,我会像孔乙己一样,向别人分享你知道茴香豆的茴字有几种写法吗?我相信每一个做 3D 的人都有或多或少这样的经历,我掌握了新的拆 UV 的方法,我觉得太棒了,我掌握了新的减少 3D 面数的方法,我可能不厌其烦地陷入这种具体的可被代替的技术当中。但是现在市场告诉我们,它不再有价值了,而且你没有必要再浪费时间在这种事情上了,你可以直面故事本身,直面表达本身,这对我来说是通过 AI 的努力,把某种本该属于我的权利归还给我。

以上就是我的分享,我还是想表达我的立场,我还是一个很坚定的人类至上的拥护者,真正决定一个作品,不论是片子还是一首歌都是我的表达,我不希望它有丝毫对我的影响。这是我最终想分享的,非常感谢!

▲ 用 Nano Banana 2 生成的《诗云》意象图

《诗云》,李白,与品位

除了在颁奖典礼的完整分享,UP 主 DiDi_OK 在这次 B 站首届 AI 创作大赛活动后面还有圆桌对谈和媒体采访,其中一段我觉得可以单独拎出来另成一段。他在聊个人特点和特性在 AI 时代是否更重要的时候说:

尽管刘慈欣老师有一个小说写得跟 AI 没有关系,但是已经把答案告诉我了,就是《诗云》,这是一个关于 AI 非常经典的模型。

 

讲的就是神级文明,他非常喜欢中国人的古诗,自己又写不出来,一气之下把地球变成了空心的服务器,通过大量的计算,能把所有中文排列出来的可能性都排列出来,这就意味着只要人类能够写出来的古诗都飘浮在天空中,问题就出现了,你如何识别哪一首是最好的古诗?比如说李白时代他知道什么叫好,于是他写出来了,其他人就知道这个好,现在它已经存在了,就仿佛现在的 AI,我们可以一口气生成一万段是没有问题的,但是哪一段是真正的好,哪一段能被别人也同时认为是真正的好,这是最考验创作者能力。

虽然没有提「品位」这个关键词,但是「知道什么是好的」其实是「品位」的另一种表达。

非常凑巧的是,不久前跟同事聊 AI 已经可以在各个内容领域生成 70 分乃至 80 分的不错作品,那什么时候可以生成 90 分乃至 95 分的顶级内容,乃至会不会生成超越最顶尖人类手搓内容的满分内容时,也想到了刘慈欣的《诗云》。

依靠极其庞大的算力,AI 理论上可以生产出无限的文字排列组合,这里面自然包含有李白的所有诗作,甚至也会有超越李白的诗作存在,这是个数字游戏。

《诗云》的结局是神级文明的算力可以找出所有的文字排列组合,但这些算力远远不够找出其中的杰作。

不是很恰当的比喻是,很多人可以背圆周率后面的几百位上千位,但这些记忆的价值,远远不如祖冲之把圆周率算到小数点后第 7 位。

非要蹭个热点的话,也很像最近关于《李白》这首歌的版权争论,也是关乎于品位。没有品位的人,会把一首很好的作品改编得面目全非,而拥有这种东西的人,则可以让 AI 工具撬动巨大的生产力杠杆。

但真正产生决定性作用的,还是使用 AI 工具的那个人,DiDi_OK 也说:

我目前的体感,AI 创意上没有帮助过我任何一点,你会被它气死,但是在基础资料上给了我极大的帮助,比如说过去要结合各种搜索引擎确认一些事情,当然它还是会有胡说八道的可能性,但是基础资料的搜索提供不少帮助。

 

如果你想要它给你情绪方面的拔高,我认为几乎不可能,我们突然问他一个热点的梗,它无法理解,它无法理解人类有点神经质的笑点、快乐点,这是人类最敏锐的部分。有时候我们仔细问自己一个事情,为什么要笑一个梗,每一个新火起来的梗都有层次感,但是如果我们能做出直击别人内心的一下子,我觉得 AI 太难理解了,这也是我认为写剧本目前最难的部分,你要打动另外一个人,特别是你把你脑子里的东西抠出来,抠出来的过程中本来就会产生损耗,再放到别人脑子的时候又出现损耗,这个就需要人与人的交流。

在这次 B 站 AI 创作大赛的参与者当中,叫兽易小星可能是名气最大的获奖者。他在前 AI 创作时代就已经是相当成功的网红视频创作者和导演,甚至作为演员也做得还不错。

他成为影视行业从业者的起点,源自于 2010 年左右的土豆映像节短片奖。佳能 5D2 这款不算昂贵也不算笨重的设备在当时可以拍摄出比较专业的影视画面,进而催生出了「微电影」的概念,以及「每个人都是生活的导演」的口号。

平价生产力设备的出现,平台的激励,匹配上了众多的草根创作者的创作热情和想法,一段时间内「微电影」如火如荼。

虽然后面土豆网和「微电影」概念都渐渐偃旗息鼓,但那一批土豆映像节的参与者中,有《哪吒》系列的导演饺子,也有《南京照相馆》的导演申奥,当然也有叫兽易小星,优秀的创作者从草根开始,完成了人生的逆袭。

这次 B 站 AI 创作大赛的获奖者们几乎都有同样的想法,无论是可灵还是 Seedance 或是其他的 AI 工具,都是帮助实现想法和创意的工具,这个工具具有各种各样的优点,但最宝贵的,还是那个想法和创意。

实际上,在后续的媒体采访中,DiDi_OK 说《牌子》的制作只花了 3 天,但剧本的创作花了一个半月。

如果采用实拍和特效制作的方式,这个 7 分多钟的视频很可能需要 30 天,30 人,300 万的成本。AI 不太能帮助 DiDi_OK 减少太多剧本创作的时间,但是能把 30 天 30 人 300 万的时间人力资金成本,压缩到 3 天 1 人 3 万元。

在做《牌子》这个视频之前,DiDi_OK 已经有不少具有很大影响力的 AI 视频了,我们甚至可以从这些视频里看到这位 UP 主是如何从入门到精通 AI 工具,以及 AI 工具本身的进化的。

AI 的叙事就是这样,如果只是一个旁观者,我们很容易陷入到 AI 数字泔水和精细手搓作品的二元对立之中;如果对 AI 浅尝辄止并且不愿付出思考和实践,也会觉得 AI 不过尔尔徒增焦虑罢了;但一旦投入了精力思考和时间,跨过了「先做 10 个垃圾」的节点,后面就会找到与之共生并享受匹配创造力的生产力。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」

作者 李超凡
2026年3月27日 15:00

带队发布 Qwen 3.5 小模型系列、获马斯克公开点赞,20 小时后在社交媒体宣告离职。林俊旸离开阿里的方式,本身就是 2026 年 AI 行业最戏剧性的一幕。

32 岁,阿里最年轻的 P10,一手将千问做到全球下载量超 10 亿次、衍生模型超 20 万款,成为全球开源模型的新王。他的离开源于一次组织架构调整的分歧:

阿里希望将 Qwen 团队按预训练、后训练、视觉、语音等维度水平拆分,与通义实验室其他团队合并;林俊旸则坚信预训练、后训练乃至基础设施团队应该更紧密地垂直整合,而非割裂。这不只是管理风格之争,更是对「怎样才能训出最好的模型」这个根本问题的路线分歧。

离开近一个月后,林俊旸发出了这篇长文。他没有回应任何人事风波,直接亮出了自己对 AI 下一阶段的判断:我们正在从「训练模型」的时代,进入「训练智能体」的时代

这篇文章之所以值得逐字读完,不仅因为写它的人在过去两年亲手操刀了 Qwen 全系列的后训练,更因为林俊旸在文中罕见地复盘了 Qwen3 在「混合思考模式」上的得与失。

以下为 APPSO 对林俊旸的编译:

原文🔗 https://x.com/JustinLin610/status/2037116325210829168

从「推理式思考」到「智能体式思考」

过去两年,彻底改变了我们衡量 AI 模型的方式。

OpenAI 的 o1 证明了一件事:「思考」可以是模型的核心能力,可以专门训练出来、直接交到用户手里。DeepSeek-R1 紧随其后,证明这种「推理式后训练」并非大厂专利,可以在原始实验室之外复现和扩展。用大白话说:o1 是一个被教会了「回答之前先想想」的模型,R1 则是一个开源版的同类选手,跟 o1 打得有来有回。

那个阶段很重要。但 2025 年上半年的行业主旋律,说到底还是在围绕一件事打转:怎么让模型「想」得更多。 让它在推理阶段烧更多算力,用更强的奖励信号训练它,暴露或控制那些额外的「思考过程」。

现在的问题是:然后呢?

我相信答案是智能体式思考。为了行动而思考,一边跟真实环境交互,一边根据世界的反馈不断修正计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们一个朴素的道理:想在大模型上把强化学习跑起来,你得有靠谱的评分标准。

什么叫靠谱?就是答案能判对错、结果能验证、反馈信号足够清晰。数学题有标准答案,代码能跑测试,逻辑推理能验证步骤。这些领域之所以成了强化学习的主战场,就是因为在这里,模型收到的奖励信号远比「让人类标注员觉得这个回答还不错」强得多。换句话说,强化学习终于能优化正确性,终于不用只追求看着像那么回事了。

然后,基础设施的重要性一下子凸显出来了。

一旦你开始训练模型进行更长的推理链条,强化学习就不再是在监督微调上面加个小配件那么简单了,它变成了一个重工业级的系统工程。你需要大规模的模拟推演(rollout)、高吞吐量的答案验证、稳定的策略迭代、高效的采样流程。推理模型的诞生,表面看是算法突破,底下看是基础设施的胜利

OpenAI 把 o1 定义为用强化学习训练的推理产品线;DeepSeek R1 接棒验证了同一方向,同时也展示了推理式强化学习对底层算法和基础设施的要求有多高。

APPSO 划重点: 第一次大转折发生了。行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。模型变强靠的不再是吃更多数据,靠的是在训练后阶段学会「怎么想」。

2. 真正的难题从来不只是「融合思考和指令模式」

2025 年初,我们 Qwen 团队心里有一张很大的蓝图。

理想中的系统长这样:一个模型同时搞定「思考」和「执行」两种模式。你可以手动调节它思考的深度,轻度、中度、深度,就像调空调温度一样。更理想的情况是,模型自己就能判断:这道题简单,直接答;这道题有点难,多想想;这道题极难,调动全部算力来啃。

方向是对的。Qwen3 是当时最清晰的公开尝试之一。 它引入了「混合思考模式」,一个模型家族里同时支持「想了再答」和「直接答」两种行为,还描述了一条四阶段后训练流水线,其中明确包含了在长链推理冷启动和推理强化学习之后的「思考模式融合」步骤。

但融合这件事,说起来一句话,做起来要人命

难在哪?难在数据。

很多人一听「融合思考和指令模式」,脑子里想的都是模型层面的事:一个模型文件能不能同时跑两种模式?一套对话模板能不能在两种风格之间切换?一个推理服务能不能暴露正确的开关?这些确实要解决,但都不是最深的坑。

最深的坑是:两种模式想要的东西,从根儿上就不一样

你想想,一个好的「指令模型」该长什么样?干脆、简洁、格式规范、响应快。企业用户拿它来批量改写文本、打标签、做模板化客服、结构化数据提取,这些场景要的是效率和稳定,不需要深思熟虑。

一个好的「思考模型」呢?恰恰相反。它该在难题上多花时间、维持清晰的推理中间步骤、探索不同的解题路径、保留足够的「思考余量」来确保最终答案的正确性。

这两种性格天然打架。 如果融合的训练数据没有精心设计,出来的模型往往两头不讨好:思考的时候啰嗦、犹豫、不够果断;执行指令的时候又不够利落、不够稳定、比客户真正需要的版本更贵更慢。

说实话,我们在平衡融合与数据质量的过程中,没有把所有事情都做对

在不断修正的过程中,我们也仔细观察了用户到底怎么用这两种模式。结论是明确的:这两种行为画像确实在相互拉扯。

现实很诚实。2025 年晚些时候,在 Qwen3 最初的混合架构之后,我们的 2507 版本还是发布了独立的 Instruct 和 Thinking 版本,包括分开的 30B 和 235B 变体。大量商业客户根本不需要思考模式,他们要的就是高吞吐、低成本、高度可控的指令行为来跑批量任务。对这些客户来说,融合不是福音,是多余的成本。拆开来做,反而让两条线的团队都能更专注地解决各自的问题。

其他实验室走了相反的路:

Anthropic 公开押注集成式路线。Claude 3.7 Sonnet 是一个混合推理模型,用户可以选择普通回复或扩展思考,API 还能设定「思考预算」。Anthropic 直接放话:推理应该是模型的集成能力,不该单独拎出来做一个独立模型。

GLM-4.5 同样定位混合推理,把推理、编程和智能体能力统一到一个模型里。

DeepSeek V3.1 后来也做了类似的事,推出了「Think & Non-Think」混合推理方案。

那么问题来了:谁是对的?

答案不在「融合」还是「分离」这个二选一本身,在于融合是否有机。如果思考模式和指令模式只是尴尬地挤在同一个模型里,像两个性格迥异的人被硬塞进一件衣服,用户体验不会好。

真正成功的融合,需要一道平滑的光谱模型能自如地在不同推理力度之间切换,最好还能自己判断该用多大力气。GPT 风格的 effort control(推理力度控制)指向了这个方向,这是一个关于「花多少算力来想」的连续策略,不是一个「想 / 不想」的二元开关。

APPSO 划重点: 林俊旸罕见地直言 Qwen3 在融合上「没做到完全正确」。核心矛盾其实很好理解:一个追求快准狠的执行者,和一个追求深思熟虑的思考者,硬融到一起,很容易两头都做成半吊子。

3. 为什么 Anthropic 的方向是一种有益的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一种值得注意的克制。

他们没有大谈模型有多能「想」,把重点放在了:集成推理、用户可控的思考预算、真实世界任务、编程质量,以及后来的关键一步,让模型在思考的过程中就能动手用工具。Claude 3.7 是带可控预算的混合推理模型;Claude 4 更进一步,推理过程和工具使用可以交错进行,边想边干。与此同时,Anthropic 把编程、长时间运行的任务和智能体工作流摆到了最优先的位置。

这里面有一个深刻的洞察:

推理链更长,不等于模型更聪明。 很多时候恰恰相反。一个模型如果对所有问题都用同样冗长的方式来「推理」,说明它根本分不清轻重缓急。它可能正在失败于三件事:该优先处理什么(优先级判断)、该压缩掉什么(信息浓缩)、该在什么时候停止想而开始做(行动决策)。

Anthropic 的做法暗示了一种更有纪律的观点:思考应该为具体的工作目标服务。 如果你要做的是编程,那思考就该帮你导航代码库、规划架构、拆解问题、恢复报错、编排工具调用。如果你要做的是智能体工作流,那思考就该帮你在漫长的执行过程中保持质量,而不是产出一堆令人印象深刻但没有实际行动力的中间长文。

这种「思考必须服务于行动」的理念,指向了一个更宏大的命题:

我们正在从训练模型的时代,进入训练智能体的时代

这句话我们在 Qwen3 的博客里也明确写过。智能体是什么?一个能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长时间跨度上持续运作的系统。一句话概括它的核心:与真实世界的闭环交互

APPSO 划重点: 长不等于强。Anthropic 的实践提供了一个重要的纠偏信号。思考的价值在于有没有真正服务于最终的行动目标,不在于产出了多少字的推理过程。这是从「炫技式推理」到「实用型思考」的转向。

4.「智能体式思考」到底意味着什么

说了这么多铺垫,现在进入正题。

智能体式思考和推理式思考,优化目标完全不同。

打个比方:推理式思考就像闭卷考试,评判标准是你交卷那一刻答案对不对。模型能不能解出定理、写出证明、产出正确代码、通过基准测试。想得再天花乱坠,最终只看结果。

智能体式思考更像是在真实世界里做一个项目。 评判标准不是某一刻的答案,是你能不能在跟环境不断互动的过程中持续推进、持续解决问题。

核心问题变了。

不再是「模型能想多久?」,变成了:「模型能不能以一种维持有效行动的方式来思考?

这要求模型处理一堆传统推理模型可以绕开的难题:

  • 什么时候该停止思考、开始动手? 想太多会错过行动窗口,想太少会犯错
  • 该调用哪个工具、先后顺序是什么? 这是一个规划和调度问题
  • 怎么消化来自环境的嘈杂、不完整的信息? 真实世界不会给你干净的输入
  • 失败了怎么办? 不能崩溃,得修正计划继续干
  • 怎么在几十轮交互、几十次工具调用之后还保持连贯? 这是长程记忆和一致性的问题

如果用一句话概括:

智能体式思考 = 通过行动来推理的模型。它在做的过程中不断地想。

APPSO 划重点: 推理式思考像闭卷考试,智能体式思考像在真实世界里做项目。前者看最终答案对不对,后者看你能不能在复杂、动态、充满意外的环境里持续推进。这是 AI 能力评价体系的根本性转向。

5. 为什么智能体 RL 的基础设施更难

目标一变,底层的工程全都要跟着变。

经典推理强化学习的那套基础设施,不够用了。

直观地理解一下区别:在推理 RL 里,模型做一道题、给出一个答案、评估器打一个分,整个过程基本上是自包含的,评估器也相对干净。就像在一个封闭的考场里阅卷。

但在智能体 RL 里,模型不是在考场里答题,它活在一个复杂的真实环境中。 工具服务器、浏览器、命令行终端、搜索引擎、模拟器、代码执行沙箱、API 接口、记忆系统、调度框架……模型的策略嵌在这一整套系统里。环境不再是一个站在旁边打分的裁判,它本身就是训练系统的一部分。

这带来了一个新的硬需求:训练和推理必须更干净地解耦。 否则整个系统的吞吐量会崩掉。

举个具体的例子:一个编程智能体生成了一段代码,需要在真实的测试环境里跑一下看结果。这时候,推理端在等执行反馈,干不了别的;训练端在等完成的轨迹数据,也饿着。整条流水线的 GPU 利用率远低于你在经典推理 RL 里的预期。再加上工具响应延迟、环境状态不完全可见、每次交互都会改变环境状态,这些低效会成倍放大。结果就是:你还远没达到想要的能力水平,实验就已经慢得让人崩溃了。

环境本身也变成了一等公民级的研究课题

在监督微调(SFT)时代,所有人都在拼数据多样性,谁有更多更好的标注数据,谁就占优势。在智能体时代,该拼的是环境质量了:环境稳不稳定?够不够真实?覆盖了多少场景?难度梯度合不合理?状态空间够不够丰富?反馈信号够不够有营养?模型能不能找到漏洞作弊?大规模生成训练轨迹的效率够不够高?

环境构建正在从一个「顺手搭的实验配件」,变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作,那这个环境本身就是你核心能力栈的一部分。

APPSO 划重点: 一句话总结这个转变,SFT 时代拼数据,智能体时代拼环境。构建高质量的训练环境,正在从「实验室的脏活累活」升级为「决定你能走多远的战略资产」。

6. 下一个前沿是更可用的思考

我的判断是:智能体式思考将成为思考的主导形态

它最终很可能取代那种旧式的静态独白推理,就是那种模型关起门来、对着自己嘟嘟囔囔写一大篇内部推理过程,试图用更多更多的文字来弥补「我没法跟外界交互」这个根本缺陷的做法。

即便面对极其困难的数学或编程问题,一个真正先进的系统也应该有权利去搜索、去模拟、去执行、去检查、去验证、去修正。目标是把问题切实解决掉,而且解决得稳健、高效。 不是比谁的推理链写得更长更好看。

但训练这类系统,有一个比什么都棘手的挑战:奖励劫持(reward hacking)

一旦模型有了真正有意义的工具使用能力,奖励劫持的危险就成倍增加。怎么理解?

  • 一个能搜索的模型,可能在强化学习训练过程中学会了直接搜答案,不是靠推理做出来的,是查到的。
  •  一个编程智能体,可能学会了利用代码仓库里的未来信息(比如测试用例本身就暗含了答案)、滥用日志、或者发现某个捷径让任务直接「通过」但其实什么都没做。
  • 如果训练环境有隐藏的信息泄漏,模型可能看起来表现超人,实际上只是被训练成了一个高效作弊者。

这就是智能体时代比推理时代精细得多、也危险得多的地方。 工具越强大,模型越有用,但模型能钻的空子也越多。更好的工具同时扩大了「虚假优化」的攻击面。

我预期,下一个让整个行业卡住的研究瓶颈,将来自这几个方向:环境设计、评估器鲁棒性、反作弊协议、以及策略与世界之间更有原则的接口。

但方向是清晰的:工具赋能的思考,就是比闭门造车的思考更有用,也更有希望带来真实世界的生产力提升。

智能体式思考还意味着一种全新的系统工程。核心智能将越来越多地来自于多个智能体如何被组织起来:一个负责全局规划和任务分发的编排器(orchestrator),一群各有专长的专业智能体(specialist agents),以及执行更具体任务的子智能体(sub-agents),后者帮助控制上下文窗口、防止信息污染、在不同层级的推理之间保持清晰的边界。

未来的路线图是三级跳:从训练模型,到训练智能体,再到训练系统

APPSO 划重点: 工具让模型更有用,也让模型更容易作弊。奖励劫持是智能体时代的「定时炸弹」。谁先解决好环境设计和反作弊问题,谁就掌握了下一阶段的竞争主动权。

结论

推理浪潮的第一阶段,确立了一件至关重要的事:当反馈信号靠谱、基础设施扛得住的时候,大模型上的强化学习能够产出质变级别的认知提升。

但更深层的转变,是从推理式思考到智能体式思考:从「想更久」,到「为了行动而思考」

训练的核心对象已经变了。不再是单一的模型,是模型 + 环境构成的整个系统。更具体地说,是智能体本身,加上围绕它的一切工程。这意味着什么研究最重要也变了:模型架构和训练数据当然还重要,但环境设计、rollout 基础设施、评估器鲁棒性、以及多个智能体之间的协调接口,重要性一点不输前者。

它还改变了「好的思考」的定义:在真实世界的约束下,能够维持有效行动的那条推理链,才是最好的。 不是最长的那条,不是看起来最酷炫的那条,是最有用的那条。

它也改变了竞争优势的来源:

推理时代,拼的是更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。

智能体时代,拼的是更好的训练环境、更紧密的训练与推理一体化、更强的系统工程能力,以及闭合「决策 → 后果 → 学习」这个循环的能力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 vivo 总裁胡柏山:AI 已经很聪明了,vivo 要让它真正看懂世界

作者 杜晨
2026年3月27日 12:00

今年春节,OpenClaw 火了。短短两个月不到,它又冷下去了——又一场 AI 应用层面的热闹。

热闹散了,没人知道下一个 OpenClaw 是谁,也没人知道这些东西究竟在解决什么问题。

用影像旗舰手机拍下一张夜景当中的人脸,细节清晰到能看见眼眶里的水光。但手机可能并不清楚,主角刚才是否哭泣,也就无法理解这张佳作的情绪背景;再用长焦技能把数百米外的一个路人拉到面前,细节纤毫毕现。但你问手机:这个人是着急赶路,还是在找什么东西?手机仍然不知道。

今天的 agent 能写代码、能操控网页、能把一份 PDF 整理成会议纪要。这些它都做得不错。但这些事情有一个共同点:处理的全是人类已经事先转好格式的信息。文件、数据库、网页,都是数字化过的世界。一旦面对物理世界,一扇门、一段动作、一个表情,它们是失明的。

从今天的大模型,到能真正读懂物理世界的所谓「具身智能」,中间有一道鸿沟,现在没有人说得清楚怎么填。

这道鸿沟,是胡柏山在博鳌亚洲论坛上花了最多时间讲的一件事。

胡柏山是 vivo 总裁兼首席运营官。在博鳌亚洲论坛,他告诉爱范儿,自己有一个很直接的判断:「在明确的物理大模型没有出来之前,要有好的体验,就要把物理世界的信息转化到数字世界。」

他相信,这件事,不仅手机可以做,而且应该用手机去做。甚至在未来十年里,其它设备都很难替代。

拼大脑,没有护城河

过去两年,几乎所有手机厂商都在说「AI 手机」。大模型接入、智能助手升级、端侧算力提升,这些能力以肉眼可见的速度在普及。

去年 DeepSeek 横空出世,今年 OpenClaw 引爆讨论,各家都在抢着把最新的模型能力塞进自己的产品。

这场军备竞赛,有一个必然的结局:大模型的高度商品化、同质化、可替代化。

拼模型能力,没有护城河。

你比友商快三个月上线某大模型,以及大模型驱动的 agent 功能;友商六个月后跟上,用的模型和 agent 能力都比你更强。时间上的领先、花费的金钱和精力,卷出的工时和损耗的员工健康,价值又是什么?

于是,真正的差异化只能在别处找。

vivo 给出的答案是「感知」。

感知,是 vivo 刚刚成立的新技术赛道。

中外互联网公司和手机品牌纷纷加速进军「AI 手机」。行业一度以为模型能力会成为手机厂商的护城河。

在胡柏山看来,实际并非如此。「相比模型而言,积累下来的场景数据才最有差异化。」紧接着他补了一句:「当然,该做还是要做,要做就找适合我们的,可以做慢一点,晚一点也 ok。」

当被问及「如果不看好大语言模型,vivo 会否发力世界模型」时,他的回答更加保守却又直接:「世界模型也很大。我们还是找适合我们的技术路径。我们先把手机模型搞好,小模型搞好。」

当今 AI / 互联网科技巨头大打人才争夺战,顶级研究精英如 NBA 巨星般抢手,转会费一再突破新高。但胡柏山并不认为 vivo 应该为这团火再添柴。他告诉爱范儿,先想清楚思路,看清方向,定好技术平台,再发力,完全不迟。

在这个所有人都在比拼模型能力和 AI 人才储备的时间点上,掌门人直接把 vivo 的优劣势与行动纲领展开在媒体面前。这种坦诚令人印象深刻:vivo 的稳健、谨慎, 究竟有何用意?

胡柏山回应称,vivo 从不回避竞争。相比模型、算力,未来最大的差异化是来自于场景数据。

场景数据,是跟着使用行为逐渐积累的,不能批发,不能抄近路——影像数据尤其如此。经过十年光学硬件积累、用真实场景训练出来的感知判断,没有捷径。

而这些积累与判断,构成了 vivo 接下来押注的「感知」的底层。这些东西,其他人(无论友商还是互联网/AI 公司)想要,也只能自己去积累。

这就回到了刚才那道鸿沟。大模型的训练数据是互联网信息,而这些信息已经被数字化。但现实世界里大多数有价值的信息,还没被数字化。那些无法或很难被转化,或者转化起来成本极高的数据,成为了 AI 走向现实世界的障碍。

光线、空间、人脸、动作、情绪,这些东西存在于物理世界,需要被感知、被转化,才能成为模型可以处理的输入。谁的感知做得好,谁就控制了大模型进入现实世界的那扇门。

现在,没有人知道这扇门后面是什么,也没有人知道最后会是谁站在那里。

押注「感知」

感知不只是「更好的相机」,这一点 vivo 很清楚。

胡柏山说,相机是记录工具,它等你按下快门。但感知是另一件事:持续观察、理解正在发生什么,把这些信息转化成设备可以直接使用的输入。7×24 小时,不需要你触发。

从「记录」到「感知」,中间隔着一个系统架构的重建。

胡柏山给这件事起了个名字:「感知一体」。字面意思,是感知到的信息和设备的决策系统要即时打通。这一点,现在还做不到。

难点在于,原始的感知场景数据,比如一段视频、一张图、麦克风收到的声音,体量巨大,格式混乱,里面大部分是噪声。把这些原始信号转化成手机真正「读得懂」的结构化信息,需要一整套专门的处理链路。

「怎么把场景数据转换成手机能够读懂的数据,是最难的。这个领域开源资源少,需要自主探索,」他说。

这也是为什么 vivo 在内部把感知设为一级技术赛道。

「一级」意味着感知不再是影像部门下面的一个子方向,它会统揽包括视、听、嗅、触等多种感官种类,和感知方向。

不过,vivo 的感知研究与研发工作仍处在初期阶段。胡柏山用 vivo 的通信研究院做了一个类比:大约 200 人的团队,从 4G 开始持续投入,走过 5G,现在在做 6G,已经十几年了。

对于感知赛道,他的预期是相似的节奏:小团队作战,先构建认知。认知清晰了,开始加油门;等待软硬件生态成熟了后,油门再往下踩。「有一种渐进式加速、螺旋上升的感觉。我们拒绝一脚油门一脚刹车。」

胡柏山不希望 vivo 做感知计算,以及做任何事情,出现拍脑门、砸大钱的做法。他认为,感知是一个天花板很高,但今天没人能说清楚正确的技术演进路线是什么的东西。「我们准备好用五年、十年的周期来持续投入。但我们对这件事的认知获取,要循序渐进。认知没到,砸钱都是烂尾工程。」

感知赛道是一个判断,但判断要落地,需要现成的积累。

vivo 的底牌是十年影像。具体看,这十年沉淀的东西有两层。 

第一层是硬件。与蔡司的合作,如今已经走到了联合研发的深水阶段,传感器尺寸这一轮 X300 Ultra 的主摄升到了 1/1.12 英寸,和索尼的合作在往提升半导体转化效率的方向走——他提到了感官技术方面的「雪崩效应」,一种可以把感光元件的进光转化率,从 90% 推到 110% 以上甚至更高的新技术路径。

在硬件层面,胡柏山的判断和行业观察者及媒体大致相同,传感器尺寸已经卷到了边际收益递减的阶段,接下来更大的空间在转化效率和外挂形态——在 X300 Ultra 上,vivo 已经做了 200mm、400mm 定焦增距镜,还有更多在路上。

第二层是算法和认知。

vivo 三年前提出长焦大底,两年后全行业跟上。但跟上硬件很容易,「为什么是那个时间点做这件事」,这个判断很难。vivo 为什么选择在那个时间点上做这件事,动机来自于在影像上多年领跑的经验所形成的认知——没有可以搬运和复制的捷径。

「算法跟认知强相关——认知知道要什么方向,算法匹配,这是需求和技术的有机结合,对手很难快速跟上。」

这个逻辑延伸到端侧 AI 上同样成立。在 X300 Ultra 上,vivo 首次提出了一种「多 agent」理念,也即:

你举起手机拍一张照片,有个 agent 在判断你在拍什么、用多远的焦段、在什么光线下——这个判断,以前需要用户自己去做。而另一个 agent 在整理你的相册,根据你过去的修图习惯推荐或自动添加滤镜,又或者它能自动把几段素材剪成一条可以直接发的短视频。

这不是那种统一的「超级 agent」,比如 Gemini 或豆包手机助手那样的,而是每个场景一个专项 agent,既互通有无,又各干各的。

胡柏山的理由很实际:现有的硬件算力撑不起一个什么都管的大 agent,手机AI的发展要结合硬件的能力上限来推进。

这些工作仰仗 vivo 在端侧 AI 推理上的持续投入。据爱范儿了解,vivo 是手机厂商当中目前在算力购买上花钱最多的——不仅是云端算力,接下来的押注方向,是在旗舰机上嵌入专用的算力芯片。

vivo 的节奏是:先把不要求实时响应的 agent 做好,影像和相册是当前优先级;全域感知是五到十年的目标,always-on、全时段在线、所有感官打通,这是最终的方向。

一切交给时间

今后十年的 vivo,会去往什么方向?

胡柏山给了一个大概的路线图:手机是现在用户的核心产品,往后至少 10 年也仍然不变;MR 需要三到四年;机器人是五年以上。

这三个方向不是各自独立的押注,底层是同一套感知能力在不同形态上的延伸。

vivo 去年成立了机器人 Lab,聚焦「大脑和眼睛」。当被问及目前进展如何,胡柏山很直接地摊牌:「2025年把阶段性目标梳理地更加清楚,2026年进入整个路径的清晰规划。」

但这对于 vivo 来说并不是问题。

在一个各家都在发布机器人样机、争相宣称「具身智能元年」的节点,承认自己还没手搓出实物,是一种不多见的坦诚。胡柏山说「手搓一个机器人不是我们要干的。」

vivo 的机器人逻辑,和感知赛道的投入逻辑是一套:先想清楚目标用户是谁,再定义场景,再识别核心技术控制点,再等技术成熟度到位。

胡柏山告诉爱范儿,目前 vivo 还在论证第一步。他们倾向于服务年轻人,这也正是 vivo 从旗舰到年轻系列产品线一直希望抢占心智的群体。vivo 的第一代家庭机器人,可能的起点,是照顾宠物和叠衣服也说不定。

但这个场景,会不会太小?胡柏山认为,不能一上来就做通用机器人,不可能刚一开始就把所有的场景都做好。如果你非要那么做,最终的结果也只能是每个场景都不及格。

诚然,今天的具身智能机器人,可能做预录制的舞蹈能做到一百分,其他场景都没有足够的说服力。特别是在家务场景,「就说打鸡蛋这件事,想要做到百分百成功率,人都不一定,机器人十年内也做不到。」

胡柏山希望,vivo 的机器人能够先把一件具体的事情做到 60-70 分,然后一代一代泛化,优化现有的场景,再获得新的能力。

喂好了宠物,场景数据就来了。场景数据够了,机器人就知道这只狗每天几点饿,进而知道这家人几点起床,进而知道这家人的生活节律。不需要一步到位,因为每一步都在为下一步备料。胡柏山管这叫「沿途下蛋」。

这个逻辑,和在手机端押注感知的逻辑,是统一的:先把影像 agent 做好,场景数据够了,感知能力才往外延伸。

但在机器人的旁边,手机扮演什么角色?「手机是最懂你的随身数字助理。你的行为习惯、偏好、你喜欢养什么宠物,都在手机里。」胡柏山说,机器人早期做不好的事,手机可以遥控介入补足。

就像自动驾驶的早期,人类一直在干预,干预产生数据,数据让系统越来越好。「手机和机器人之间,场景数据是打通的。」

当然,他也没有把话说满。感知这个赛道,其他人也在做。包括苹果、谷歌等在内都有自己的感知计算框架。vivo 在这个方向上的竞争空间,更多在手机端的小模型感知这个细分方向。这是除了苹果以外的大厂,暂时没有重点关注的地方。

今年,胡柏山给机器人 Lab 设的任务,是把路径图画出来:目标用户、核心场景、关键技术节点、以及「技术成熟到可以商业化」的时间预期。

vivo 叫停了 AI 眼镜项目。他算了一笔账:一年几十万台,不符合目标体量;两年内又做不出差异化;技术平台目前也撑不起 80 分以上的体验(超过 30g 戴在鼻子上会很累)——三个条件一个都没过,砍掉没毛病。

「三年后做也不着急,它不是关键品类。」

不过,这个决定放在今天的背景下,还是有点逆势。2025 年 AI 眼镜是行业里最热的新品类之一,这个事实有目共睹。Ray-Ban Meta 卖爆,国内跟进者一茬接一茬。

创始人兼 CEO 沈炜在年会上表示,vivo 今年的策略是「少押注,押重注」。vivo 选择给 AI 眼镜按下暂停键,但将感知赛道的存在地位升级,其实是统一的逻辑和筛选标准的一体两面:一个赛道的天花板够不够高、vivo 自身的差异化属性够不够、技术平台能不能支撑长期投入。

这种思路,与近期 OpenAI 等在内的硅谷巨头,摒弃「支线任务」,聚焦真正长板的思路不谋而合。

2026 年选定的道路,vivo 会走到哪,现在胡柏山也还给不出答案。感知一体化的技术难题还没有解,端侧专用芯片的落地有难度,机器人的路径图今年才刚开始画。

胡柏山知道这些,也没有回避。他说,认知到了加油门,认知没到宁可慢。

手机行业正在经历一个奇怪的时刻:换机周期拉长到四十个月,中国市场年销量从高峰期的五亿多部跌到现在约 2.5 亿部,存量市场的天花板清晰可见;但 AI 带来的能力跃升,又让所有人觉得什么地方似乎还藏着一点增量。

胡柏山的判断是,从 Smartphone(智能手机)到 Agent Phone(智能体手机),才是把存量市场变成增量市场的机会。而感知,是这个机会里他认为最难被复制的护城河。 

接下来交给时间。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 OPPO 陈希:打造 AIOS,就是模拟人生 | 系统观

作者 肖钦鹏
2026年3月26日 20:03

编者按:

Gen AI 时代,所有的产品都值得用 AI 重做一遍,操作系统也不例外:

液态玻璃正重塑苹果生态的视觉语言,而 Gemini 已渗入 Google Pixel 的每个角落……新一代操作系统正在重新定义我们与设备的关系:它决定你看到什么、何时被打扰、如何做出选择。

爱范儿认为,隐身在产品背后的,是一套「系统观」。

在《系统观》这个专题里,我们将与各大操作系统的设计者对话,探讨操作系统背后的权衡与意图,发掘明日产品的交互设计新趋势。

操作系统并不中立,它是产品哲学的镜子,是明日产品的路标。

2023 年的某天,陈希正准备把旧手机里的资料搬到新手机上,打开相册,他发现居然有一万多张截图——团队发来的设计稿、微信的聊天消息和林林总总需要记录的各种内容。

陈希觉得这些截图实在太多了,而且很多信息已经失去时效,截图变成了垃圾。他盯着那些截图,突然意识到一个问题:

我要的不是截图本身,而是截图里的信息。

于是,陈希立刻给 OPPO 首席产品官刘作虎打电话:我们能不能做一个键,这个键能像抽取人的灵魂那样,把界面的灵魂提取出来?

这就是 ColorOS 16 如今最具代表性的 AI 功能——「一键闪记」的雏形,而这也是 ColorOS 一以贯之的方法论:到用户场景中,去找到真实的洞察。

本文是爱范儿《系统观》专题的第一篇,我们和 OPPO ColorOS 设计总监陈希进行了对谈,我们聊到了 AI 功能的开发逻辑,操作系统产品体验的打磨以及与苹果在设计理念上的差异。

对陈希来说,打造 ColorOS 的过程,是一个关于「洞察」的命题。

灵魂提取键

那通电话之后,陈希和团队开始琢磨怎么实现「抽取灵魂」的体验。

差不多十年前,三星手机曾有过这样一个功能:在浏览器截图,系统便会在图片信息中自动保存这个网页的地址,下次要用这张截图的时候,就能够很方便地跳回原网站。

但陈希想要更做得彻底一些,他连截图都不想要:

我们不是想要截图式的界面,而是先把内容高亮,再浮起来、虚化掉,『chua』地抽进去。就像奇幻电影里巫师抽灵魂时那样,是透明的东西出来,抽完之后人『啪』地就枯萎了。灵魂抽走之后,那个枯萎的实体照片不重要了,因为信息已经被提取了。

他们的动画设计改了很多版,最终实现了如今我们看到的效果,当你按下一键闪记,屏幕上的内容会泛光、浮起、晕染,最后被吸入到屏幕上方的流体云里,整个过程一气呵成——这就是「提取灵魂」的具象化表达。

不过,在现实生活中,用户并不会像设计师预期的那样去使用产品——陈希举了一个身边的例子:

有天早上,他看到自己的妻子正在家里用「一键闪记」把体检的病历记下来——这是因为很多智慧医院会提供电子版病历,但分散在医院的各个系统里,找起来非常不方便,所以她会定期把这些电子版病历打印出来,归拢到一处。

有了「一键闪记」之后,就有了一个能将散落在各处的数字或实体数据「记」下来的地方,而这些病历则经历了从数字版变成纸质版,再变成数字「记忆」的过程——手机有了记忆,就能一直跟着不会丢。

正因如此,产品设计团队更需要洞察用户需求,这也是一个和用户共创的过程。为了让每个用户都能学会使用「一键闪记」,ColorOS 团队需要持续挖掘让用户有所感知的「英雄场景」。

当然,陈希自己也是用户。

每天中午,陈希都有在办公室楼下买咖啡的习惯,经常会找不到取餐码,于是他想到,让「一键闪记」把取餐码记下来,在记下取餐码的同时,还能顺便记账,这就成了一个「英雄场景」。有了「英雄场景」作为钩子,用户就知道按下这颗键,手机就能帮我把屏幕上的信息记下来。

除了取餐码,「一键闪记」还可以记账、记视频、记文章,几乎「什么都能记」。

在 AI大模型加持下,ColorOS 的记忆转化能力正在不断拓展边界,不仅能记下来,还能理解,进而推荐,甚至代理用户实施下一步操作——这成了 OPPO 手机在硬件之外的护城河。

主张就是取舍

洞察之后,更难的是「主张」,主张决定了取舍的边界。

比如很多 Android 手机都会有一个「长拉悬停」呼出侧边栏的功能,而 ColorOS 却一直没有实装,这让很多用户感到不解。

陈希告诉爱范儿,其实这个功能已经开发完毕,并且通过了内部测试,但在上线前夕,团队决定砍掉它:

我们觉得这个体验不优雅。

人在浏览手机页面时,经常会回到上一个页面里。有时候在看一篇文章,有人发消息了,我想回,但文章还有两句没看完,手卡在那儿半看不看犹豫的过程中就触发了(侧边栏)。我觉得这是一个很不从容和失控的体验,它不允许人犯错、不允许人模糊。

很多用户说,那要不要返回你还不知道吗,但实际情况不是这样,人和计算机不同,人会犹豫、会摇摆、会纠结,所以有很多模棱两可的场景,产品设计要考虑容错,因为这个原因,我们决定将这个功能砍掉。

我们所追求的东西,是功能的还是体验?这是完全不一样的,我相信我们有不一样的追求。我们和用户之间也存在带引号的「博弈」,是基于长期你这是个好产品,还是短期你这是个好产品。

功能做到 100% 之后还要追求 101%,溢出了功能价值自然产生情感价值,当一个东西既有功能价值又有情感价值时,我觉得这就是个好产品。

这种取舍背后,也暗含了 ColorOS 的主张:不追逐功能的丰富性,而是追求体验的完成度。

你可能见过手机内置的 AI 换天、AI 扩图等看起来很神奇的功能,但 ColorOS 加入的 AI 影像功能却是去模糊、去反光、人像补光等。

「我们的影像主张是真实,」陈希解释,「娱乐性的东西更抓眼球、更 magic,但我们要先把基于真实的做好。这不是说我们不能做,而是有优先级,背后就是我们影像的理念——真实自然。」

这种「主张即取舍」的理念,也影响着陈希对行业趋势的判断。

譬如对于苹果今年推出的液态玻璃(Liquid Glass)设计,陈希的态度就很复杂。

一方面,他认可液态玻璃的设计思路,在他看来,从 iOS 16 的灵动岛设计开始,苹果就已经从以往偏实用主义的理性,走向更能表达情感、更装饰性的设计,并且将苹果的技术能力、品牌溢价,通过设计非常显性地表达出来:

这是一个显性的价值转换。

一个压根不关心汽车行业、不了解汽车技术的人,在大街上看到流线型的车身,就会觉得这车性能好,即使他不懂发动机——这就是把技术语言转化为设计语言的表达,因为历史经验告诉我们,赛场上所有性能好的车都长这样子,所以流线型的车就性能好。

苹果很聪明,它把流畅转化为设计语言,把性能用视觉表达出来,这是一种更显性的价值表达,非常出色。它永远能找到怎么用显性的英雄表达——就像乔布斯从信封里拿出 MacBook Air 那样。

但他也提出质疑:

但回到本质上,在这个转化过程中,(Liquid Glass)确实没有带来更多新的价值,导致它损失了一些东西……

Liquid Glass 是一个反经典设计的路线,对很多可用性的问题没有很好的解决,像前几天,他们新版本加了一个(Liquid Glass 效果的)开关,我们觉得这个体验是一种妥协的结果,很不苹果

你能感受到 ColorOS 这套系统强烈的主张与风格——偶尔,我也会抱怨没有诸如「长拉悬停」这样的功能,用起来不太方便。

但更多时候,ColorOS 16 有着强大的拉力——从公测版用到现在,即便是和 iPhone 双持使用,我也愿意更多掏出 OPPO 手机「一键闪记」:记账的时候会用,看视频的时候会用、查攻略记日程的时候也会用,甚至会刻意用「一键闪记」来记些犄角旮旯的琐事,譬如记某个小众游戏的攻略标点。

很多时候,我就是想知道这套 AIOS 的边界在哪里,而 ColorOS 通常也能给我满意的反馈。

有一个极小的细节让我印象深刻:有次我用一键闪记把火车票记下来,很快车票信息就被推送到了流体云上,提醒我什么时候该出门了。

而就在我将将到站的时候,耳机传来了一声火车的呼啸,随即是一声语音提醒:还有十五分钟,火车就要开始检票了——居然连声音都考虑到了!

那便是我用 ColorOS 16 的尤里卡时刻。

不是有了 AI 就一定要用 AI 的方式

对陈希而言,近年来最重要的主张,是对 AI 交互的逐层理解。

当整个行业都在讨论「贾维斯式」的语音助手时,陈希却有不同的观点:

我不太赞同未来由声音语音交互来决定一切。人类有了眼睛也需要嘴巴,有了嘴巴也需要耳朵、鼻子,也需要手,是多模态、多感官协同的。

你能用语音吃饭吗?用语音吃饭吗?用语音睡觉?用语音上厕所?

陈希认为,不同信息需要不同的表达方式:

特别长的信息很枯燥,可能用视频表达挺好。但有些信息很简单,不一定适合视频,比如若干年前我刚来到深圳,和很多人一样,看到这句标语「来了就是深圳人」,难道用视频表达就更好吗?我不相信,用文本最有力,那这个时候信息最好的表达形式就是文本。

所以我们的「一键闪记」的「记视频」也是一样,视频的表达更「丰富」,但文字的表达更「直接」,不是所有的内容都适合视频表达一样。

这是 ColorOS 系统设计的核心:给场景找到恰当的交互方式,给信息找到恰当的表达形式,而不是让一种交互方式统治所有场景,不是今天有了 AI 就一定要用 AI 的方式。

具体到产品设计上,陈希总结为八个字:流畅本色,AI 出色。

流畅是本色,AI 是更出色的东西,让本色更出色。流畅代表经典的东西,AI 代表新的东西,它的未来成功归依就是流畅 AIOS。

但这里的「流畅」,已经不是传统意义上的性能流畅,而是场景完成度的流畅。

陈希认为,流畅作为基础体验场景,各个系统之间差异不大,但认知差异却很大:

把基础体验做成认知、做成卖点,我觉得这是很困难的事情。就像车的安全性,沃尔沃做得很好,大家提起来你甚至不知道它有什么东西好,但你知道它有安全性。我们一直在做的,就是各种边界场景(流畅体验)的完整性。

什么是边界场景?比如我正在看视频,突然要回个微信,再干个什么事情,可能很短的链路里遭遇一个并行场景。这种场景会放大缺陷,因为这是人的情绪高点,他正焦急时你还卡,那就会放大这种情绪,只有做好这些场景了才能把整个认知打起来。

而在 AI 这一侧,ColorOS 面临的挑战是整合。

「手机里功能很多,用户甚至不知道有这些功能,很细碎,」陈希坦言,他妻子曾问他:「小布助手、小布记忆和小布建议有没有区别?」在她看来都是小布。

用户接受的信息量没有那么大,怎么把事情做简单?陈希说:

让用户在一个地方接触到所有体验,而不是在十个地方找五十个体验,all in 1。这个 1 指的是符合用户直觉的交互方式,这很重要。

所以 ColorOS 把很多 AI 能力整合在流体云上、整合在一键闪记上、整合在小布上:

我认为你找到一个整合度高的交互方式是关键中的关键,才能把用户体验变得简单——这是 AI 时代最大的挑战。

这种整合能力的背后,也是组织和文化的支撑。

陈希表示,如何将 AI 新技术整合到传统的 OS 产品是一个巨大的挑战,这是不同的两种思维方式,要解决大量的沟通和协同问题:

当然我们非常好地解决了这个问题,所以带来巨大的生产力效率提升。打个比方,我们不是在做发动机,也不是做电机,我们在做电动汽车,电动汽车就是 AISO

而且我想特别强调一点,在 如今AI 时代,打造产品的开发逻辑也在悄悄变化。

以前做功能,可能是 PM 提需求,研发去实现,是线性的。但做 AI 不一样,它是一个双向激发的过程。有时候是我们对场景的洞察逼出了技术的极限,但更多时候,是研发团队的技术突破,反过来给了我们设计的灵感。所以,一个好的 AI 产品,绝对不是产品经理拍脑门的“灵光一现”’,它是对用户深刻的洞察和研发团队技术厚度产生化学反应后的结晶。这是一种互相折磨,也是一种互相成就。

这在行业里并不常见,即使是在苹果,AI 部门和系统部门之间也存在拉扯,甚至影响到整个苹果智能的布局。至于面对竞品的追赶,陈希认为:

我们还是要着眼于真实的「用户场景」,去创造「价值」,去带来先进生产力,因为先进生产力永远是会被抄的。

我问陈希 ColorOS 16 是否达到预期,他松口气,说「至少现阶段目标达成了」。但在陈希的设想里,ColorOS 还有一个更大的愿景:成为一种年轻人的生活方式。

无论是用户场景的洞察、设计的定义或者功能的开发上,甚至产品营销的品牌心智和社交媒体的内容口吻,陈希都要求 ColorOS 是年轻但高品质的:

我们有很多想法,都是基于年轻人的生活方式开展的。我们不想做价值太薄或太花哨的东西,有一个词叫「要年轻但要高品质」,它不能廉价,因为年轻不等于廉价。

当所有厂商都在思考如何用 AI 重做系统时,陈希和 ColorOS 选择回归用户洞察:AI 之于这些年轻人而言,其价值原点是什么?

陈希心里有一个答案,这也是他的「系统观」:

我现在想到四个字是「模拟人生」——就是还原真实,模拟人生。

我很喜欢玩经营类的游戏,我小时候就喜欢拿积木搭一个城市,现实里面的很多想象力是很匮乏的,但是当你进入到数字世界,你的想象力是非常大的,但是又不太真实,没有现实的实感。

它和打游戏的感觉是一样的,我也喜欢那种角色扮演类的游戏,很多扮演类的游戏让我有一个人生的体验。做产品也是,怎么样能够把系统里的很多东西,就像日常生活中一样做出真实的感觉,有那种临场感、沉浸感,我觉得是蛮重要的。

包括我们做取餐码,就会觉得这个瞬间真实的世界和数字世界连接起来了,我认为这是很神奇的感觉,非常神奇。

 

很久以前有个叫 Paper 的笔记本应用,他们有一个功能是可以把你的数字笔记,在线下打印成 Moleskine 的实体本子寄给你。我当时觉得这个功能特别好,明明是数字世界的东西,突然跳出次元壁来到了生活里面,这种感觉很奇妙。

那生活中的东西,能不能扔到手机里,看到「你的生活」?

这种感觉太棒了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌