阅读视图

发现新文章,点击刷新页面。

Apple Vision Pro 没有完蛋

Apple 上海开发者中心,这个工作坊开始还不到十分钟,第一个认真讨论的话题,是电压。

来自 Blackmagic 的工程师举起一块电池,提出问题:升压模块把 18 伏拉到 24 伏以上,能不能稳定录制?

房间里安静了一下。

答案是不能——这台造价二十多万元的 Blackmagic URSA Cine Immersive 摄影机,需要 112 瓦以上持续供电才能正常运转,而升压后只能到 90 多瓦。看起来在工作,但真到 90 帧高规格录制的时候,素材很有可能会丢帧。

Blackmagic URSA Cine Immersive 摄影机

这是摄制高规格沉浸式内容时才会遇到的问题,迄今业内也没有多少人知道这个点。

一年前,这个问题还不存在——彼时,Blackmagic URSA Cine Immersive 摄影机才刚启动发货。

迄今为止,Apple Vision Pro 依然是地球上唯一能够完美显示这些内容的设备。

现场的几十个团队,大多已经用过 Apple Vision Pro,为这台设备拍过东西,有些甚至交付了项目。他们来这里,只想解决一件事:怎么制作高规格的沉浸式内容?

但他们面对的具体问题多如牛毛,没有人知道标准答案。

从工程问题,到影视问题

这个开发者中心过去接待的,大多是做编程、设计和游戏的开发者,内容创作者如此集中出现,还是头一次。

制作高规格的沉浸式影像,门槛高到不可思议——

当时,没有专用摄影机,也没有能处理这种格式的剪辑软件,有的只是苹果给出的一份格式规范。

《Apple Movie Profiles for Spatial and Immersive Media》白皮书

想从拍摄走到交付,每一步要么自己写代码,要么改造现有工具。一个项目组踩过的坑,下一个项目组还得从头再来。这块领域的早期创作团队,掌镜的往往是工程师,而不是摄影师。

2024 年 12 月,Blackmagic 推出了第一台专门为沉浸式影像设计的摄影机,但直到一年后,DaVinci Resolve 20.1 发布,才第一次全面支持沉浸式影像工作流。

RAW 文件直接进达芬奇,剪辑、调色、空间音频混音,元数据全程保留,整个链路终于可以不靠代码跑通。

新的障碍紧跟着就来了。

仅仅拍了 16 分钟,原始素材就超过了 1.2TB,这意味着存储和传输方案要从头设计。

监看更麻烦,2D 监视器展示不了真实的双目景深,左右眼对齐误差在平面屏上根本看不出来,等后期发现基本只能重拍。有摄影师说,宽角预监画面几乎是「有误导性的」,只有在头显端实时看,才知道实际拍到了什么。

机位逻辑也完全不同——空间影像没有变焦,拍一场演唱会可能要同时架二三十台定焦机器,由剪辑师在后期选镜头。什么时刻该切镜头、切去哪、观众的注意力在哪?

很多传统影像的经验在这里失效。

The Weeknd 的沉浸式短片「Open Hearts」只剪了 30 刀,但同一首歌拍成普通 MV 要剪 300 到 400 刀。

当观众可以自己转头扫视整个空间时,快速剪辑的英雄镜头就失去了意义。内容的主动权,一部分还在导演手里,但大部分已经被交还到观众手上。

观众到底想看什么?

我们联系到了一家位于广州的 XR 体验店,店主 Jeffrey 也是一位 XR 领域的资深媒体人,他告诉爱范儿,短短一个多月,他们已经做到了这个片区的团购第一,全靠一台 Apple Vision Pro。

CORTIS 是 2025 下半年才声名鹊起的 K-pop 男团,在工业化高度发达的韩国演艺圈,为偶像拍摄零距离的沉浸式影片是一种常见的营销方式——而 CORTIS 选择了用 Apple Vision Pro,显然是看中了其绝佳的清晰度和沉浸感。

CORTIS

2026 年 1 月 30 日,CORTIS 练舞的沉浸式影片《NEAREST: CORTIS》在 Apple TV 免费上线,凭借浸入感极强的演出和身临其境的视听效果,收获了极佳的口碑,在粉丝群体间口口相传——但真正能看到这条影片的人凤毛麟角。

以 Apple Vision Pro 为核心设备的体验店得到了破圈的机会。

一般来说,这类体验店的辐射半径是 5 公里,但随着粉丝们的种草笔记在小红书上自发扩散,梦想和偶像零距离接触的观众从四面八方涌来。

Jeffrey 说,客人觉得这个内容好到能忽略设备的一切缺点——压脸、闷热、弄乱发型……都不介意。过去这么多年里,VR 内容的出圈和推广是极其艰难的,但 Apple Vision Pro 的沉浸式影片,打破了这样的困境。

CORTIS

沉浸式影片里呈现的,是现实世界的真实视差。成员就站在你旁边,你看向他时,就像真的站在练舞室里。无数立体的细节扑面而来,营造前所未有的真实感,真实得像做梦一样。

苹果官方有一套评估沉浸式影像的画质标准,其中最重要的尺度,不是分辨率也不是像素密度(PPI),而是「感知清晰度」——简单来说,就是视力表。

苹果希望每一部登录 Apple Vision Pro 的高品质沉浸式影片,都能还原肉眼观看世界的体验——近处的内容细节丰富,远处的画面自然会有些模糊,但他们的帧率、色彩、亮度都尽可能贴近真实的视觉感受。

唯有如此,才能保证绝佳的沉浸感。

于是,当我们戴上 Apple Vision Pro,才能置身万米高空的索道、来到 NBA 全明星现场、伫立在西班牙斗牛跟前——这些难以亲临的造梦现场,是观众真正想看到的内容,是一种前所未有的稀缺体验。

截选自 Apple 官网

造梦,AI 时代的稀缺体验

根据 IDC 的预测,2025 年,Apple Vision Pro 出货量只有 10 万台左右,上市两年仅仅卖出了 50 多万台——这可能是 iPhone 面世以来,苹果最滑铁卢的产品。

太重,太贵,太超前,成为判 Apple Vision Pro 死刑的理由。

但苹果在 Apple Vision Pro 内容上的投资从未停过。

《World of Red Bull》首集《Backcountry Skiing》

过去两年,Apple TV 已经上线了超过 30 部沉浸式影片,每隔一两个月总会有些新东西看——

从棒球场到篮球场,从恐龙纪元到动物世界,从二战潜艇到高空钢丝,从男团练舞室到演唱会现场……很难想象,苹果会为一台出货量跌了九成的设备,稳定持续地更新生产成本高昂的内容。

显然,苹果从来没有觉得 Apple Vision Pro 完蛋了,倒不如说,苹果正在给 Apple Vision Pro 的未来下注——为未来注定更加稀缺的造梦体验下注。

在过去两年使用 Apple Vision Pro 的过程中,我经常会有类似的感受——戴在我头上的,到底是未来的 iPhone、Mac 还是 iPad?

Apple Vision Pro 是一个没有经过「剪裁」的产品,苹果也不知道用户想要什么,于是把所有的东西都给了用户。

未经剪裁的 Apple Vision Pro 搭载了太多的功能,也面临太多的妥协。但至少,让人真假难辨的造梦体验,是 Apple Vision Pro 无可取代的部分。

三年前,Apple Vision Pro 和 ChatGPT 分别代表了科技行业最受瞩目的技术方向,但前者是卖了 50 万台的极客玩具,而后者则改变了 10 亿人的生活方式。

于是,当生成式 AI 把内容的生产门槛降到最低时,我们也将迎来数字内容最饱和的时代。

那时候,观众到底想看什么?

1984 年,威廉·吉布森在《神经漫游者》里描绘了一种全新的媒介——「拟感」(simstim)。

那是把一个人的完整感官体验录成数据,传进另一个人的神经系统,从而实现感同身受的体验。

在经典赛博朋克世界观里,这是将电视电影取而代之的东西。

Apple Vision Pro 的沉浸式影片,提供了当下最接近「拟感」的体验——那是一种要求你必须在场,要求你用自己的感官,去经历真实与虚妄的造梦体验。

我说不好这到底是不是未来,但我看到全球各地已经有许多人,他们在拍了,他们在做了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 OPPO 影像算法总监罗俊:好的计算摄影,就是让你忘掉计算摄影

即将发布的 OPPO Find X9 Ultra,换掉了全部七颗镜头——主摄、广角、两颗长焦、丹霞色彩镜头、前置、增距镜……

没有一颗是祖传的。

OPPO 成立二十多年,极少有一代产品把影像硬件全部推翻重做。罗俊说:

这种革命式升级,好像真的没做过。

罗俊是 OPPO 影像算法总监,主导了从 Find X6 Pro 到 Find X9 Ultra 四代产品中的影像算法方向,还有那个已经成为 OPPO 影像标志的「大师模式」。

在 Find X9 Ultra 发布前夕,爱范儿采访了罗俊。我们聊了全新设计的「大师模式」、聊了还没上市的新手机,也聊了 OPPO 影像的过去、现在和未来。

我们试图找到一个答案:什么是计算摄影的「真实感」?

大师模式,用算法对抗算法

「大师模式」是什么?

简单来说,它是 OPPO 相机里独立于普通拍照模式的一套影像管线。

普通模式追求的是明亮、讨喜、一拍就好看——系统会自动拉高亮度、增强色彩饱和、做较强的锐化和降噪处理。这些操作让照片第一眼很抓人,但代价是:照片看起来,总是多了一些略显特意的「精良」。

这就是今天手机影像行业最普遍的争议:「算法味」。

算法味不是某一家厂商的问题,而是整个计算摄影发展到今天的结构性副产品。

当手机用越来越重的算法,去弥补小机身的物理局限时——多帧合成、AI 降噪、HDR 堆栈、超分辨率重建——每一次处理都在往照片里添加计算的痕迹:暗部被提亮,高光被压制,噪声被涂抹成油画质感,锐化制造出更多的「细节」。

结果就是,拍什么都好看,但拍什么都少了点纯粹。

「大师模式」走的是另一条路。

它用更克制的色调映射、更自然的锐化策略、更接近光学相机的影调逻辑来处理画面。该暗的地方留下暗部,有噪点的地方保留颗粒,不追求每一张都「亮白美」,转而追求照片的真实质感。

手机行业有一条不成文的规律:一个功能如果连续两代争议不断,第三代大概率就会被砍掉。

「大师模式」曾完美符合这个画像。

Find X7 Ultra 时代,用户对它的评价两极分明。喜欢的人说它「相机味」「高级感」;不喜欢的人说它「画面暗」「不锐利」,我甚至还遇到过,把大师模式的照片发给朋友看,对方第一反应是:你这张是不是拍糊了?

但大师模式活了下来。

从专业用户的小众工具,变成了连大学生都会主动选择的拍照模式。

更值得琢磨的是,用户喜欢大师模式,理由几乎一致——没有算法味。

事实上,大师模式跑的恰恰是整个影像系统里最先进、计算量最大的算法管线。

这种反差感,正是当下 OPPO 影像的缩影,也是过去十年,罗俊对计算摄影的全部理解。

传统影像的大师,做了大师模式

罗俊是影像算法专业出身,校招就进了索尼。

2000 年代初,日本影像行业就是世界影像行业的天花板。他做过 Handycam 录像机,做过 Alpha 单反,也经历了 NEX 微单系列从零到一的过程。

但真正让他看到行业拐点的,是索尼黑卡 RX100。

当时日元卖二十多万,一般的卡片机一台五六万日元。它一搞出来就卖一万多(人民币),但确实挺革新的。

索尼把一英寸底和蔡司镜头塞进上衣口袋大小的机身。这是影像小型化浪潮的发端。今天回头看,黑卡和后来的手机影像走的是同一条路:在极其有限的物理空间里,把画质做到极致。

只不过,手机走得更远。

在索尼的十几年,罗俊做的所有影像算法都跑在 ASIC 专用芯片上。一颗芯片两年一代,覆盖多条产品线,追求稳定可靠。

但他慢慢觉察到一个根本性的错位:

算法的迭代是很快的,但 ASIC 两年一代。整个算力和架构跟计算摄影、跟 AI 的研究思路有点不匹配——它太慢了。

后来他看到了 NPU——一种专门用来处理神经网络计算的处理单元。算法可以跑在软件层,迭代速度陡然提升。

但 NPU 最好的载体不在相机,而在手机。

2017 年初,罗俊在 MWC 上见到了 OPPO 展示的潜望式长焦技术演示——10 倍混合变焦,在当时的手机行业里没有人做过。他一眼认定这家公司有潜力,决定加入 OPPO。

有意思的是,十年后的今天,他主导的 Find X9 Ultra 搭载了一颗更好用的 10 倍光学长焦,但这是后话。

这段从传统影像到手机影像的迁移,决定了他做大师模式的底层逻辑。很多人觉得大师模式「没有算法味,像相机直出」,罗俊听到这种评价觉得有意思:

其实专业相机也有算法,ISP pipeline 还挺重的,全是用芯片实现的。只不过效果跟我们大师模式很类似,用户的参照系就变成了——我用手机的算法,也能得到一个像相机的效果。

在他看来,「相机没有算法」本身就是一种错觉。相机的算法只是固化在芯片里,用户看不见而已。

大师模式的设计起点,正是从这个认知长出来的。目标从来不是「去掉算法」,而是让算法像专业相机的 ISP 一样——做了很多事,但你浑然不觉。

OPPO 内部的说法叫「用计算去计算」

罗俊说,如果你的目标是「让算法不可见」,那你就不能去追某个单一参数的提升。你需要一套系统性的标准,来定义什么叫「好」。

他用四个字总结这套标准:真实还原。

三年,重构 OPPO 影像

2021 年底,罗俊从日本调回国内,全面主导 OPPO 影像算法的迭代方向。

对所有手机厂商来说,影像算法全面转向自研,都是个长期高投入,但短期低收益的决策。

但为了让影像——而非仅仅美颜——成为OPPO 旗舰手机的核心竞争力,罗俊重组起了一支数百人的影像算法团队。

「真实还原」是个相对务虚的概念:什么样的影像称得上真实,又该用什么手段去还原?

罗俊把它拆解成三个具体的维度——光影、细节和色彩。 他心里有个三年计划,希望用三代产品来重构 OPPO 影像。

Find X6 Pro 是在罗俊这个理念下,堪称转折点的一款影像手机,当时首先解决的是光影问题。

OPPO 影像认知总监程卓在接受爱范儿采访时曾说过,Find X6 系列的目标,是建立「正确的影调关系」——将扭曲的光影曲线拨乱反正。

这一代 Find 搭载了当时行业唯一的大底长焦——1/1.56 英寸 CMOS、等效 70mm 镜头,并配合全新的超光影图像引擎。

这套系统第一次让手机有能力在像素级别标定亮度信息,计算被摄物体、光线和环境之间的光影关系。罗俊说:

亮而不耀,暗而不黑,这就是我们对光影的基本要求。

罗俊还将一个面向专业用户、可以充分发挥手机影像能力的模式引入到 OPPO 的影像系统当中,他们将其命名为「哈苏专业模式」——这就是「大师模式」的雏形。

紧接着,罗俊团队要解决的是细节。

Find X7 Ultra 带来了行业首个双潜望四主摄影像系统,加入了支持 6 倍光学变焦的长焦镜头。

焦段的增加不只是「拍得更远」。在罗俊的理解里,它有更本质的意义:

有更多焦段,就有更多的参考系。你能用不同的视角记录世界,系统能还原的信息就更完整。

参考系——这是罗俊理解「真实还原」的核心概念。

真实不是一个绝对的客观标准,它依赖于你拿什么去做参照。取景框是一种参考系,人眼所见是另一种,用户脑子里想象的「好照片」又是一种。

焦段越多、细节越多,系统捕获的参考信息就越完整,离用户心里的「真实」就越近。

Find X7 Ultra 还进一步提升了光影的质感,尤其是中间调。

日常照片里最大量的明暗信息集中在中间调区域——不是最亮也不是最暗的过渡地带。中间调如果粗糙,照片就缺少实感。

也是在这一代影像系统里,OPPO 正式推出了「大师模式」。在罗俊看来,大师模式并非专属于摄影师,而是把调教相机的权力交回到用户手里——就像相机的拨杆和旋钮那样。

但第一代的大师模式的泛化能力有限,场景兼容性不够,导致用户评价褒贬不一,喜欢的人非常喜欢,玩不明白的也大有人在。

对罗俊来说,技术上的问题总归能解决,但怎么把理念坚持下来、传递出去,是一个巨大的挑战:

大师模式能坚持下来,也许就是因为我们没有妥协。

光影和细节都有了,色彩是最后一块短板。

计算摄影高度依赖统计学,在复杂光线下,白平衡不准、肤色偏移、环境色失真,是统计方法的固有局限。

Find X8 Ultra 加入了一颗新镜头——丹霞原彩镜头,专门做分区色温感知。它能识别画面中不同区域的色温分布,分辨自然光和人造光源,对肤色和环境色分别做独立还原。

色彩链路说到底做两件事,白平衡和色彩映射。白平衡是统计方法,有些场景就是算不准。有了丹霞之后,因为它是绝对信息量,在干扰色场景下就有机会把偏差修回来。

丹霞的作用并非让颜色更好看,而是给色彩计算管线提供一个物理锚点——一个不依赖统计猜测的客观参照基准。

你看,又是参考系。

到 Find X8 Ultra,还有一个不容易被注意到的技术整合完成了:大师模式和照片模式在 RAW 域的处理算法实现了统一。

两个模式出来的 RAW 片是一样的,差异只在后端——照片模式走更明亮讨喜的色调映射,大师模式走更克制的光影层次和锐化策略。

这意味着,「大师模式」不再是一个独立的功能分支,它的底层能力已经成为整个影像系统的内核。

在罗俊看来,到了 Find X8 Ultra 这一代,终于实现了他最初的设想——光影、细节、色彩,三个维度第一次集合为完全体。

于是,全新的 OPPO 影像品牌「凝光影像(LUMO)」 诞生了。

罗俊团队对好影像的评判标准,在历经三代产品迭代后也逐步成形——其中一个基准,就是照片的「连续性」

专业相机拍的照片也有噪点,但它的噪声、它的颗粒是连续的,看起来很舒服。我宁愿放出一些连续的噪声,也不要让画面清晰一块、模糊一块。

这些标准并不是在某一代产品研发过程中突然冒出来的,它们源自罗俊骨子里传统影像的基因——信噪比、连续性、色彩映射——只不过换了个载体,从相机到手机,从传统光学到计算摄影。

随着新的影像算法系统逐步成型,罗俊也面临一个新的局面:软件侧能做的,做得差不多了。算法迭代的边际收益在递减。

接下来怎么办?

Find X9 Ultra:十年回声

答案是再来一遍。

罗俊把手机影像的发展分为三个阶段:

第一阶段从 2015 年前后开始,核心是器件小型化——把大 sensor 塞进手机,从 1/3 英寸一路堆到一英寸;

第二阶段从 2021 年前后开始,AI 和计算摄影的算法能力上来了,不追求一英寸大底也能通过算法补强,得到画质不错的照片;

第三阶段则是现在:

你不是靠器件,不是只靠算法就可以。它一定是软硬结合、端到端的创新,才有机会把效果再往前推。

Find X9 Ultra 就是第三阶段的产物——为此,OPPO的影像团队不惜换了全部的七个镜头——

主摄从 5000 万像素一英寸换成 2 亿像素 1/1.2 英寸,广角从 1/2.5 英寸升级到 1/1.95 英寸,第一颗长焦镜头换成了更大底的传感器,而第二颗长焦镜头从 6 倍光学拓展到 10 倍光学,丹霞色彩还原镜头升级,前置从 3200 万升到 5000 万,连增距镜都从 200 换到了 300。

其中设计难度最高的,无疑是那颗 10 倍光变的长焦镜头。

罗俊向爱范儿展示了 Find X9 Ultra 的10 倍长焦镜头——1/2.8 英寸传感器搭配 230mm 的镜组,但整个模组只有 29 毫米长,其中棱镜的长度,约等于半个小拇指。

更妙的是,这块棱镜并不是一体成型的,而是由三块棱镜拼接在一起,还在中间封了一层空气用来消除杂光。这个工艺在产业链里没有先例——没有人把棱镜切成三块再粘,也没有人在棱镜中间封过空气层,当然也没有人搭建过这样的产线。

于是,一切都要从头做起。

罗俊把这颗 10 倍长焦定位为「口袋增距镜」——OPPO Find X9 Pro 的增距镜长十几厘米,而 X9 Ultra 的「内置增距镜」只有 29 毫米,但成像的素质并无二致。

正因如此,你在 OPPO Find X9 Ultra 里,能找到 14mm-230mm 的所有主流焦段,这就是相机经典的「大三元」配置。

2016 年,罗俊在 MWC 上被 OPPO 的十倍潜望长焦技术演示打动,决定加入。十年后,他和他的团队在手机里嵌入了一颗迄今为止最好 10 倍光学长焦——对罗俊来说,这是一声跨越十年的回响。

有了 10 倍长焦之后,大师模式的创作空间一下子就打开了:视频可以用 10 倍、20 倍拍,人像模式也新增了 10 倍焦段,这是罗俊三年前没想到的:

以前可能都没考虑过用 10 倍拍这些东西,突然发现素材空间又变大了,这个感觉还挺有意思。

新一代的大师模式也变得更易用、更好分享了。

罗俊说,他私心最喜欢的就是这个「配方分享」功能,用户在大师模式里调好拍摄参数、拍出照片,配方就已经被嵌在照片水印里了。

别人看到这张照片,用 ColorOS 的一键闪记功能,就能快速导入同样的配方一键出片——对喜欢打卡的小红书姐妹,可真是太友好了。

而这个功能成立的前提,恰恰是前三代把大师模式的底层管线做到了足够稳定。如果管线不成熟,配方分享出去换个场景就失效了。

好的计算摄影,就是让你忘掉计算摄影

采访快结束时,我们聊到了一个稍微务虚的问题:什么叫计算摄影的「真实」?

罗俊的回答就两句话:

一个叫所见即所得,一个叫所得即所想。

所见即所得是基础——取景框里看到什么拍出来就是什么。但他认为真正重要的是后半句:用户脑子里对一张好照片是有预期的,影像系统的工作就是尽可能贴近那个预期。

你拍一张照片的时候,是有想象一张照片效果的。不管是你看到的还是你想的,这时候是脑子在后期。

你按下快门之前,脑子里已经有了一个画面。那个画面就是你的参考系。

这让我想起,之前去悉尼旅游时的经历。那时,我专程去一个有名的打卡机位,但遇到阴雨天,人很多,拍完之后,我也对照片不太满意。

于是,我想到用豆包修图——我加了夕照,去掉了人影,修完,我觉得这就是我想要的,但,这还算摄影吗?

罗俊告诉我:

它一定是摄影。但你脑子里想的画面和你眼睛看到的之间,到底有多少比例是记录的,有多少是生成的?这个比例在不同工具、不同场景下是变化的。我们做影像系统的价值,就是把真实记录的那部分做到极致。要不然的话,咱们都靠豆包就完事儿了。

从大师模式,到重构 OPPO 影像,再到 Find X9 Ultra——在罗俊看来,这一切从来都指向同一个目标:

把脑子里想的那张照片,和手机拍出来的那张照片之间的距离,缩到最短。

真实还原,还原的不仅是现实本身,更是心里的参考系。

罗俊说,在未来,影像交互对于用户而言必须简洁——用户拿起来就拍,不再纠结,因为系统已经理解了你想要什么。

我想那时候,真实还原的理念,就已经渗透到整个 OPPO 凝光影像系统的脉络里了。

好的计算摄影,就是让你忘掉计算摄影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 XREAL 徐驰:我有手机、电脑,为什么要用 AI 眼镜去替代它? | 多样性公司

编者按

当我们想喝可乐的时候,在极长的时间都只有两个选择:百事可乐和可口可乐。当我们选择手机的时候,有 90% 的概率在苹果和华米 OV 等品牌里辗转。当我们买运动服饰的时候,第一时间想到的,大概率是 Nike、Adidas。

但世界之所以缤纷多彩,是因为在这些巨头之外,有一些不遵从传统,力求创造不同,注重设计和功能,着眼于明日的公司存在。

它们有着非主流的商业模式,设计与产品能提供独特的用户价值,和足够的社交谈资。重点是,它们没有大公司的包袱,敢于不顾一切的进步。它们,是「多样性公司」。

多样性,是开放世界的关键。爱范儿相信,只有真正关注和理解多样性公司才能比更多人更早地看见未来。在同名栏目中,爱范儿将以专访的形式,与你一同见证这些多样性公司,如何重塑未来,定义新常态。

本文为「多样性公司」栏目的第 10 篇。

2017 年,徐驰从 Magic Leap 辞职回国,创办了 XREAL(原 Nreal)。彼时,整个 XR 行业都在为 Magic Leap 的鲸鱼侧翻演示狂欢,所有人都觉得这就是未来,但没有人真正卖出过一副消费级 AR 眼镜。

九年过去,这个赛道经历了 VR 元宇宙的泡沫与退潮、Apple Vision Pro 的高调入场与遇冷、Meta Ray-Ban 的补贴式扩张,以及 AI 浪潮对一切终端形态的重新审视。

XREAL 活了下来,并且成了 Google Android XR 平台的首批硬件战略合作伙伴。根据 IDC 的数据,XREAL 已经连续四年稳居全球 AR 眼镜市场份额第一。而就在最近,XREAL 在港交所正式递交了上市申请。

这家蛰伏近十年的智能眼镜公司,即将迎来新的商业阶段。

爱范儿的这次专访,完成于 XREAL 向港交所递表前。在对话中,徐驰没有回避任何尖锐的问题——从「为什么苹果的 Vision Pro 注定有问题」,到「中国厂商在用供应链整合打一场上半场的战争」,再到「眼镜行业还没有任何一家公司真正赚到过钱」,但贯穿始终的,是一个清晰的判断:

眼镜是 AI 最好的载体,因为只有它能给模型提供最高品质的上下文。

XREAL 创始人兼 CEO 徐驰

从没有公司挣到钱的行业里活下来

Q:你当时从 Magic Leap 出来创业,做的是一个非常前沿的产品。为什么会想做这样一家公司?

A:我当年在 Magic Leap 的时候,最开始的几个月是很有惊艳感的。突然间,你站在了一个新时代的开端,并且有机会在最前头去见证,如果运气好,你还能参与去定义,这种感觉特别棒。

当时,我的判断是,这是下一个大机会,到 20 年肯定成了。我是 2016 年回来的,觉得再不回来就来不及了。当时想的就是,一定会有一个懂这个行业的人从国外回来——就像当年的李彦宏、张朝阳。那这个人可能是我,也可能是我的同事们,因为当时懂这块的人就那么多。那为什么不是你呢?你不可能准备好了再回来。实在做得不好,我就再回去呗,当时就是这么一个简单的想法。

这一路上很难,这个行业起起伏伏的。但我自己秉承了一件事,就是我们始终没有偏离初衷。这其实也是考验每个创业者的内在驱动力到底是什么——是为了名、为了成功、还是为了财富。

我们真的是认为眼镜就是下一个终端,这是一件不应该容易的事情。碰巧,我们近乎有种使命感地在最早进了这个行业,很想看看最终的答案到底什么样,甚至想一直陪伴到那个答案出来的时候。

Q:XREAL 今年初刚九周年。成立九年,有没有达到你的预期?

A:首先一定是不达预期,这个行业都不达预期,但我还蛮满意的。

以我们当时的认知和热情,走到今天确实蛮运气的。这路上遇到了很多对的人,很多好心人,上下游的合作伙伴,包括自己的团队,才走到今天。

当然,如果用今天的心智重新走一遍,一定会走得更好。这就是成长的过程。我时常跟同事们讲,如果 XR 有一个博物馆,记载了 XR 历史的每一步变迁,XREAL 一定已经留了自己很重的一笔。

Q:行业风口一直在变,你们有没有经历过至暗时刻?怎么克服的?

A:肯定有。

行业没有真正爆发的时候,每一个至暗时刻可能都伴随着一些高光时刻。印象最深的可能是疫情刚出现的时候。当时我们在海外生意最好,因为大家在家需要这样的产品,所有海外运营商都想跟我们合作,CES 亮相非常成功。

但突然疫情一来,人出不来了,融资节奏被打断,团队也不稳健,内外矛盾集中暴发。内部有策略争论、管理争论,外部有些企业本来好好的,合作突然就不要了。

现在回想会坦然得多,因为这些都是理所应当的过程。

Q:Vision Pro 在我看来是把 Magic Leap 的东西做出来了,甚至超越了。但 Vision Pro 没有达到预期,当时对你们来说是一个打击吗?

A:当时我们其实很遗憾。我印象很深,有一次去见美团的兴总,他也在关注这个领域,跟我们聊完之后就问,苹果在做什么?我当时就说,苹果做的那个产品大概率不行。

但当时中国有大批人认为「苹果做任何事情都是有道理的」,你没法说服他们。因为你很难拿一个还没有发售的产品去论证。后来你想说苹果做得不好,又会招黑。

我们只能顺应这件事情。但其实从蛮早我就觉得苹果的这个产品是有问题的。

Q:原因是什么?

A:我觉得这是苹果有史以来第一个不做剪裁的产品。

苹果以前乔布斯在的时候,是极致的剪裁——「我也不知道你想要什么,我给你的东西才是你想要的」。但 Vision Pro 明显就是「我也不知道你想要什么,所以我都给你」——这个也加,那个也加,它是一个堆料的产品。

据说苹果内部的产品逻辑确实如此。他们在重复 Apple Watch 的路线——Watch 第一代并不成功,但给了他们后续成功的机会,知道了做健康检测和运动是对的方向。

AVP 第一代的想法也是不做判断,努力把功能都加进来,看用户喜欢用什么。但他们犯的错误是:头戴设备加的东西多了之后,太重了,戴不住。

结果第一代产品并没有给苹果任何「下一代应该往哪个方向走」的反馈,样本太少了。所以下一步他们反而会更保守。

Q:你们现在主力出货产品其实是移动大屏。你什么时候开始判断先不做空间计算、而是先把移动大屏做出来?为什么认为移动大屏这个定位是对的?

A:这不是我判断出来的,是被打脸打出来的。我们今天的情况真的是一路走过来的。在无人区里探索,用户的真实反馈非常重要。

我们第一代产品就是奔着一个更小、更便宜、更好的方向去做。当时的想法是拉着运营商一起合作,他们有当地的影响力、品牌背书、渠道和生态,我们提供技术,软硬件全做。

我们曾经在韩国做了一个我们认为最完整的商业化闭环:手机预装 APP、眼镜跟手机捆绑销售、5G 合约打下价格、运营商和三星 LG 的渠道售卖、LG 找当地内容做生态。这是到目前为止我们看到在生态领域做得最完整的,但并不成功——因为我们和运营商都没有真正的平台号召力。

这时候你才会去反思,真正能做平台的是谁?

我做一个大胆的预测,只有苹果和 Google。Not even Meta,not even OpenAI。

因为过去 20 年他们在手机生态里的势能和积累,让他们是唯一能去做平台的。那时候我就想得很简单——Don’t do it。

因为如果有一天你做了一套东西,Google 出了一套系统,你所有的开发者其实被你带到了沟里。如果交互逻辑完全不一样,那怎么办?

所以我们一定要退回来做减法。我们是技术背景出身的,技术类的剪裁是最痛的。你要跟做 SLAM 的人讲,不好意思,我们原来做六自由度的,现在得做三自由度了。你说三自由度谁都能做,对吧?但这事是没办法的。

不过初心没变——虽然我们做了 Display 的方向,但另外一条线从来没断过。直到 Google 找到我们。

Q:你们跟 Google 的合作是怎么促成的?

A:我们一直跟 Google 有开源层面的联系。他们内部一直在关注我们,包括苹果的一些高管,每次我们新品出来第一时间都会去买。同行对你的关注,可能是对你最大的认可。

直到苹果的 AVP 出来,Google 也立刻做了一个决策说,我们也得跟进。但突然间发现 AVP 不成功。不成功有两个最大的 takeaway:太贵了,太重了。贵了,开发者不感兴趣,因为觉得没有量,三年五年之内起不来量。太重了,消费者没有长期佩戴和持续佩戴的意愿。

真正解决它,就是要做便宜、做轻,而 XREAL 从第一天开始就在做轻量化、做分体式,依托于我们在空间计算核心技术的长期积累和国内出色的供应链能力,在价格上也更具竞争力。于是这件事变得水到渠成。

XREAL 与 Google 合作的 Android XR 眼镜 Project Aura

眼镜是 AI 最好的载体

Q:无论是空间计算设备还是 AI 硬件,智能眼镜的终极形态应该是什么样的?行业里有人提过一个 L1 到 L5 的形态划分,你认同吗?因为在眼镜这个领域,当前 L1 的体验反而远远好于 L5,这件事挺奇怪的。

A:我以前给过一个 L1 到 L5 的定义,主要是智能程度的分级——早期偶尔能用,后来越来越像你自己的个人助理。但为什么轻量化眼镜注定没办法替代所有东西?因为显示和算力的物理边界。

如果想加显示,大家现在普遍认为是光波导。但光波导的显示做到极致,它也就是车载 HUD 的水平。拿它做个翻译、做个导航没有问题,但你不会用车载 HUD 看电影、玩游戏。而且我们已经被视网膜屏惯坏了——视网膜屏一方面是显示基础,另一方面背后需要很多 GPU 去渲染更多的像素。如果这件事是在一个轻量的全天候设备上,续航支持不了。

所以我们必须做取舍:有一个更轻量化的设备,全天候佩戴,但显示弱一些;有一个相对更重的,但是便携形态,显示能力跟今天视网膜屏是一个水准的。这两个先天就被分开了。

Q:所以你认为未来不存在一副眼镜解决所有问题?

A:大家一提到眼镜可能想到不同的形态。Meta Ray-Ban 是一个形态,我们现在做的是一个形态,大头盔是另外一个形态。这些不是三选一的问题。就跟今天你有手机、平板、笔记本、台式机一样,它们满足不同场景和不同优先级。

AI 眼镜是全天候佩戴的,一定要轻巧。第二个形态是我们现在的移动形态,是便携的而不是一直佩戴的。好处是可以稍微再重一点,但在工作过程中可以戴上,显示内容更丰富。再往另一侧是大头盔,包括 AVP,体验绝对很棒,但可能更像家里的专用设备。

我们认为这三种形态在未来 10 年甚至更长时间都会共存,不会是一个设备替代所有。就像我们原来科幻电影里希望用手表替代电话,但很遗憾今天我们还是既带着手表又带着手机。有些事情它有物理边界。

Q:我有手机、有电脑,为什么需要用眼镜去替代它们?

A:原来我认为,今天的电脑和手机是把一个互联网信息世界压缩到了一个二维的长方形小格子里。真正的感知三维化、显示三维化、虚实融合,是必然的。但最近我有一个新的思考——可能光这一点还不够强,不够让用户觉得「我必须得这样」。

这就是我们最近一年多思考的全新答案:要感谢 AI,AI 可能给我们带来了一种全新的交互方式。过去无论电脑还是手机,本质上是人控制机器。键盘高效但上手门槛高,触摸屏相对高效且上手门槛低,但仍然没有摆脱「人控制机器」的范式。苹果在 AVP 上用眼动追踪做 3D 交互,效率极低,本质是在 3D 画布下做交互。

当 AI 出来之后,我眼前一亮,真正的下一代交互不再是人控制机器,而是人跟一个智能体像我们现在这样高效地交流。以后你的手机、电脑、眼镜,都会有一个智能体,用人和人的交流方式——五感交流。

Q:现在很多 AI 硬件,带摄像头的耳机、挂饰等,也是 AI 的 input。你们怎么看待与它们的竞争?它们成本更低,使用场景甚至更广泛。

A:回到第一性原理。为什么眼镜是先天最好的 AI 载体?因为当你将来加上眼动追踪的时候,眼镜可能是唯一能知道你的聚焦点是什么的设备。

举个例子,无论是耳机还是其他设备,它想拍一张照片去分析,前面坐了三个人,你到底在看谁?而且把整张照片传上去计算量也很大。但如果有了眼动追踪,我可以发现你就在看某个人,我甚至可以把他的轮廓裁下来,只传他到云端。其实人类本来也是这样,当我专注跟你聊天的时候,可能只关注到了你的表情,后面的树我是没有关注的。这些事情只有眼镜能做。

> 本质上这跟 LLM 的原理很像——注意力机制。眼镜是最容易让你获得最高品质上下文的终端。

Q:我昨天体验了 Project Aura,感觉有了一块真正可用的显示屏之后,很多生产力场景在 AI Agent 的帮助下是成立的。比如我可以抛开一台电脑——只要我能下指令、能清晰地接收输出结果、能判断 Agent 的交付是否符合预期,就够了。

A:你说得非常好。再想象一下,假设你是一个公司的董事长,AI Agent就是下面的各种员工。怎么能让这些员工越来越精准地理解你的指令?

不是你用文字的方式去转述——因为文字有可能把一些背景信息压缩掉了——而是他本身就参与了你工作中的很多场景。当你跟他重复某个 idea 的时候,他说「哦,你是在那个场景想到的,你在跟某人聊天时讲到的」,他有更多的背景信息,就可能更精准地完成任务。

所以,我需要升维对AI Agent的input ,要把它变成一个 contextual 的输入,而不是仅仅是抽象出来的文字。

Project Aura

Q:如果你们未来打算做一款 AI 眼镜,你希望它是什么样的?

A:我希望它真的能给我带来一个第三方视角的、我注意不到的一些洞察。我还是从个人助理的视角来看。希望它能帮我在一天工作结束后复盘的时候,给到一些我自己从第一视角没有注意到的角度和事情。那它就得全天候、多模态。

Q:那这会跟你们现在做 Display 的方向背道而驰吗?你们的技术积累更多在显示这块,但你刚说的场景,好像不需要显示也能做。

A:今天 XREAL 做得好的是,当我们去解决问题的时候,会回到第一性原理,然后用更难的方式去解决这个问题,就像我们做芯片也不是为了显示。就像为什么特斯拉造车,一个原来做支付的人能造车?为什么造车的人能造火箭?他不是靠「这个事就近,所以我去做」,他牛的是他一直在走第一性原理——怎么用一个看似很复杂,但其实又是最近的方法去解决问题。

Q:那在你看来,XREAL 的第一性原理是什么?

A:一个多模态的、全天候的——至少保证八小时续航的 AI 设备,加上实现长期记忆。它就是一个变现能力非常强的 AI 个人助理。

我们的核心就是要做一个 AI 个人助理。只是说它到底是先实现全天候,还是先实现 Display 输出,还是先实现多模态。每一步都是成为最终个人助理的必经之路。这个想法真正沉淀下来,其实是在多模态 AI 成熟之后。多模态的 AI 拓展了我们认为这块能力的边界。我原来想的还是一个更小、更轻、更便宜的终端。

乱纪元中的长期主义

Q:你认为智能眼镜的核心价值是什么?

A:眼镜的核心价值在于,它是一个跟模型共享高品质上下文、分享注意力的最好的形态。今天的上下文很像 CPU 里的 Cache,是一种短期记忆。而长期记忆是一个全新的 Memory 系统。这件事会在未来两三年内出来,这其实也是现在 Agents 大家一直在研究的东西。

Q:这是行业共识吗,还是说很多做眼镜的只是想做眼镜?

A:当 iPhone 在 2007 年出来的时候,它都不是共识。我们今天其实进入了一个乱纪元。就像当年没有人能提前框定答案一样,都是回过头看才说马斯克牛、乔布斯厉害。但当时那个阶段都是某种程度的乱纪元,大家都在找答案。

但我想说的是,当这个行业是一个颠覆式创新的时候,不太可能出现武侠小说里那种突然路边出来一个扫地僧把所有人秒掉的情况。这个行业非常注重研发底蕴。乱纪元中的集大成者、那个 iPhone Moment,很可能不是发生在产业链的腰部。

Q:国内很多厂商已经做到千元档了,噪音产品也越来越多。你们怎么维护自己的用户心智?跟供应链整合的公司有什么本质不同?

A:如果我们不断强调原创,但实际上卖不过供应链整合的公司,那可能就说明原创的那些东西没有差异化。我相信我们的产品是有差异化的,但难的事情都要花时间。

XREAL 从 2022 年开始做 Display 眼镜成功之后,我一直在想我们的品牌到底定位在哪。我们希望做中高端产品,品牌心智需要时间去沉淀。而时间对创业公司来讲是最大的敌人,我们必须耐住性子。

Insta360 的 JK 有句话:品牌是消费者在信息不充分的时候对你的信任。

我们特别珍惜这种信任。你可能需要几代产品去建立它,但只要一代不好的东西就会摧毁它。所以在这个过程中,我们不再是只追求高速增长,而是追求高质量增长。

这么多年我们在做的就是保证我们引领行业体验的变化:芯片、大视角光机、实时 2D 转 3D。我相信这些会在消费者心中慢慢沉淀。自然会有人用营销走捷径,试图模拟一个「我和你差不多」的印象,但我相信时间会证明一切。

Q:今年 AI 行业基本一天一变,作为硬件创业者会焦虑吗?

A:这个逻辑跟炒股一样。如果你始终在市场里,每天看波动,很容易被短期波动影响判断和心情。如果你看长线,拉开一点,可能会更清楚。

核心是考验你的长期战略定力。当年在 DeepSeek 一鸣惊人之前,中国大家听到的都是 Kimi、豆包。DeepSeek 没有选择在那个时代去跟另外几家打广告,而是安安静静做自己的东西,直到有一天海外发现它把英伟达的股价都撼动了。我们可能也觉得更适合这么做。

我们之前的基础让我们有一定的余裕可以去等。今天有很多公司不得不发眼镜、不得不做 PPT 眼镜,是因为他们需要活到下一个阶段——就跟当年造车一样,大家还是在 PPT 造眼镜。而我们今天能往后退一点,再长远地想一点,我觉得是好的。

Q:Google 在 CES 做了很多宣发,但没有落地产品。你们会担心平台节奏太慢吗?你们的产品会跟 Google 产生竞争吗?

A:其实 Google 的 CES 活动是小范围闭门邀请制的,请了很多人去听,包括我们在他们的会议室里待了小半天,见不同的 partner。我不怕他慢,我怕他快。因为平台要有节奏,不是光平台出来就行,还要有关键的内容和生态。我们对现状非常满意。

而且我觉得今天国内做 AI 也有点急。大家好像在抢,觉得晚发半年就错过了。但 AI 这一波下一代交互范式的定义,我认为不是个抢跑的逻辑,是一个万里长跑,跑对方向远比抢跑更重要。

Google 会像当年做 Android一样。我相信到某个节点他会有自己的 Pixel,但他一定会先去做平台。这是我们很确定的战略。所以短期不担心竞争,他可能是我们最好的合作伙伴——他擅长的我们做不了,我们擅长的又碰巧是他们最需要的。

Q:眼镜大概率会跟手机和新能源汽车一样,经历一个从上半场到下半场的过程。你觉得现在走到哪了?

A:眼镜大概率会跟手机和新能源汽车一样:头部终端持续做研发,突然有突破,在产品上快速迭代,制定行业规则。然后产业链下游把成本降下来,把能力赋能给更多终端厂商。中国大部分厂商熟悉的是后半场——在别人已经定义好的东西上做小迭代、微创新与大规模制造。但今天眼镜这个赛道还没走到下半场。

我最不希望看到的是这个行业大家用供应链整合和营销去打一场上半场的战斗。

因为上半场还是要做技术创新、做技术迭代。我个人觉得今天任何一款产品都没达到当年 iPhone 1 的那种惊艳感。而那个 iPhone Moment 大概率不会从一个四流企业、只做供应链整合的公司里出来。

今天眼镜火归火,中国的眼镜厂商还没有一个产品单品销售过百万。全球也只有 Meta,但 Meta 是靠补贴的,这个行业真正的拐点,是在不补贴的方式下来评估的。

来自 XREAL 用户的手绘海报

Q:你们的最终商业模式还是卖硬件吗?

A:当然不是。今天模型厂商也没有想明白商业模式。你其实想问的是,当一个新的终端、一个新的交互范式引领的新终端出来的时候,价值链的分发会是什么样子?

我相信我们一定会有位置。而且因为端侧越来越离你近,硬件或者入口这侧的属性会越来越强。未来你可能不是买硬件,而是每个月愿意付多少订阅费让这个助理服务你。

如果这个助理跟了你三年,它参加了你几乎所有的会,不只是录下数据,而是像参会一样形成了自己的判断和抽象的长期记忆,那你就离不开了。

Q:数据到底是谁的?这在未来的价值链里意味着什么?

A:这个行业一直会有一个想法,就是数据到底是谁的?

今天三星把数据直接给了 Google,用你的数据做广告变现。但数据所有权本来是用户的。而且长期记忆会跟 AI 解耦——就像 CPU 和 Memory 可以解耦一样。

当你的规模化设备多了,你选择把数据给谁,这件事就变成你有一定的主动权。

Q:当 Android XR 或多模态 AI 成熟的时候,所有大厂商都会进来,给创业公司留下的时间是不是不多了?

A:你能理解吧。就像当年跟 Android一起造手机一样,所有硬件厂商都会进来。你从这个牌桌到了另一个牌桌,每个人的筹码都变了。给创业公司留下的时间可能不多了,所以保持差异化和迭代速度非常重要。

大家都说想做苹果,但苹果最厉害的是解决了三个问题:硬件制造、系统开发、以及整套交互范式怎么把软硬件串起来。

但很多人可能只是联想,甚至可能是甲骨文。不同层面有不同分工,挣不同的收入。只要我能保证在这个生态里有一席之地就可以,但现在谈具体位置还太早了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 OPPO 陈希:打造 AIOS,就是模拟人生 | 系统观

编者按:

Gen AI 时代,所有的产品都值得用 AI 重做一遍,操作系统也不例外:

液态玻璃正重塑苹果生态的视觉语言,而 Gemini 已渗入 Google Pixel 的每个角落……新一代操作系统正在重新定义我们与设备的关系:它决定你看到什么、何时被打扰、如何做出选择。

爱范儿认为,隐身在产品背后的,是一套「系统观」。

在《系统观》这个专题里,我们将与各大操作系统的设计者对话,探讨操作系统背后的权衡与意图,发掘明日产品的交互设计新趋势。

操作系统并不中立,它是产品哲学的镜子,是明日产品的路标。

2023 年的某天,陈希正准备把旧手机里的资料搬到新手机上,打开相册,他发现居然有一万多张截图——团队发来的设计稿、微信的聊天消息和林林总总需要记录的各种内容。

陈希觉得这些截图实在太多了,而且很多信息已经失去时效,截图变成了垃圾。他盯着那些截图,突然意识到一个问题:

我要的不是截图本身,而是截图里的信息。

于是,陈希立刻给 OPPO 首席产品官刘作虎打电话:我们能不能做一个键,这个键能像抽取人的灵魂那样,把界面的灵魂提取出来?

这就是 ColorOS 16 如今最具代表性的 AI 功能——「一键闪记」的雏形,而这也是 ColorOS 一以贯之的方法论:到用户场景中,去找到真实的洞察。

本文是爱范儿《系统观》专题的第一篇,我们和 OPPO ColorOS 设计总监陈希进行了对谈,我们聊到了 AI 功能的开发逻辑,操作系统产品体验的打磨以及与苹果在设计理念上的差异。

对陈希来说,打造 ColorOS 的过程,是一个关于「洞察」的命题。

灵魂提取键

那通电话之后,陈希和团队开始琢磨怎么实现「抽取灵魂」的体验。

差不多十年前,三星手机曾有过这样一个功能:在浏览器截图,系统便会在图片信息中自动保存这个网页的地址,下次要用这张截图的时候,就能够很方便地跳回原网站。

但陈希想要更做得彻底一些,他连截图都不想要:

我们不是想要截图式的界面,而是先把内容高亮,再浮起来、虚化掉,『chua』地抽进去。就像奇幻电影里巫师抽灵魂时那样,是透明的东西出来,抽完之后人『啪』地就枯萎了。灵魂抽走之后,那个枯萎的实体照片不重要了,因为信息已经被提取了。

他们的动画设计改了很多版,最终实现了如今我们看到的效果,当你按下一键闪记,屏幕上的内容会泛光、浮起、晕染,最后被吸入到屏幕上方的流体云里,整个过程一气呵成——这就是「提取灵魂」的具象化表达。

不过,在现实生活中,用户并不会像设计师预期的那样去使用产品——陈希举了一个身边的例子:

有天早上,他看到自己的妻子正在家里用「一键闪记」把体检的病历记下来——这是因为很多智慧医院会提供电子版病历,但分散在医院的各个系统里,找起来非常不方便,所以她会定期把这些电子版病历打印出来,归拢到一处。

有了「一键闪记」之后,就有了一个能将散落在各处的数字或实体数据「记」下来的地方,而这些病历则经历了从数字版变成纸质版,再变成数字「记忆」的过程——手机有了记忆,就能一直跟着不会丢。

正因如此,产品设计团队更需要洞察用户需求,这也是一个和用户共创的过程。为了让每个用户都能学会使用「一键闪记」,ColorOS 团队需要持续挖掘让用户有所感知的「英雄场景」。

当然,陈希自己也是用户。

每天中午,陈希都有在办公室楼下买咖啡的习惯,经常会找不到取餐码,于是他想到,让「一键闪记」把取餐码记下来,在记下取餐码的同时,还能顺便记账,这就成了一个「英雄场景」。有了「英雄场景」作为钩子,用户就知道按下这颗键,手机就能帮我把屏幕上的信息记下来。

除了取餐码,「一键闪记」还可以记账、记视频、记文章,几乎「什么都能记」。

在 AI大模型加持下,ColorOS 的记忆转化能力正在不断拓展边界,不仅能记下来,还能理解,进而推荐,甚至代理用户实施下一步操作——这成了 OPPO 手机在硬件之外的护城河。

主张就是取舍

洞察之后,更难的是「主张」,主张决定了取舍的边界。

比如很多 Android 手机都会有一个「长拉悬停」呼出侧边栏的功能,而 ColorOS 却一直没有实装,这让很多用户感到不解。

陈希告诉爱范儿,其实这个功能已经开发完毕,并且通过了内部测试,但在上线前夕,团队决定砍掉它:

我们觉得这个体验不优雅。

人在浏览手机页面时,经常会回到上一个页面里。有时候在看一篇文章,有人发消息了,我想回,但文章还有两句没看完,手卡在那儿半看不看犹豫的过程中就触发了(侧边栏)。我觉得这是一个很不从容和失控的体验,它不允许人犯错、不允许人模糊。

很多用户说,那要不要返回你还不知道吗,但实际情况不是这样,人和计算机不同,人会犹豫、会摇摆、会纠结,所以有很多模棱两可的场景,产品设计要考虑容错,因为这个原因,我们决定将这个功能砍掉。

我们所追求的东西,是功能的还是体验?这是完全不一样的,我相信我们有不一样的追求。我们和用户之间也存在带引号的「博弈」,是基于长期你这是个好产品,还是短期你这是个好产品。

功能做到 100% 之后还要追求 101%,溢出了功能价值自然产生情感价值,当一个东西既有功能价值又有情感价值时,我觉得这就是个好产品。

这种取舍背后,也暗含了 ColorOS 的主张:不追逐功能的丰富性,而是追求体验的完成度。

你可能见过手机内置的 AI 换天、AI 扩图等看起来很神奇的功能,但 ColorOS 加入的 AI 影像功能却是去模糊、去反光、人像补光等。

「我们的影像主张是真实,」陈希解释,「娱乐性的东西更抓眼球、更 magic,但我们要先把基于真实的做好。这不是说我们不能做,而是有优先级,背后就是我们影像的理念——真实自然。」

这种「主张即取舍」的理念,也影响着陈希对行业趋势的判断。

譬如对于苹果今年推出的液态玻璃(Liquid Glass)设计,陈希的态度就很复杂。

一方面,他认可液态玻璃的设计思路,在他看来,从 iOS 16 的灵动岛设计开始,苹果就已经从以往偏实用主义的理性,走向更能表达情感、更装饰性的设计,并且将苹果的技术能力、品牌溢价,通过设计非常显性地表达出来:

这是一个显性的价值转换。

一个压根不关心汽车行业、不了解汽车技术的人,在大街上看到流线型的车身,就会觉得这车性能好,即使他不懂发动机——这就是把技术语言转化为设计语言的表达,因为历史经验告诉我们,赛场上所有性能好的车都长这样子,所以流线型的车就性能好。

苹果很聪明,它把流畅转化为设计语言,把性能用视觉表达出来,这是一种更显性的价值表达,非常出色。它永远能找到怎么用显性的英雄表达——就像乔布斯从信封里拿出 MacBook Air 那样。

但他也提出质疑:

但回到本质上,在这个转化过程中,(Liquid Glass)确实没有带来更多新的价值,导致它损失了一些东西……

Liquid Glass 是一个反经典设计的路线,对很多可用性的问题没有很好的解决,像前几天,他们新版本加了一个(Liquid Glass 效果的)开关,我们觉得这个体验是一种妥协的结果,很不苹果

你能感受到 ColorOS 这套系统强烈的主张与风格——偶尔,我也会抱怨没有诸如「长拉悬停」这样的功能,用起来不太方便。

但更多时候,ColorOS 16 有着强大的拉力——从公测版用到现在,即便是和 iPhone 双持使用,我也愿意更多掏出 OPPO 手机「一键闪记」:记账的时候会用,看视频的时候会用、查攻略记日程的时候也会用,甚至会刻意用「一键闪记」来记些犄角旮旯的琐事,譬如记某个小众游戏的攻略标点。

很多时候,我就是想知道这套 AIOS 的边界在哪里,而 ColorOS 通常也能给我满意的反馈。

有一个极小的细节让我印象深刻:有次我用一键闪记把火车票记下来,很快车票信息就被推送到了流体云上,提醒我什么时候该出门了。

而就在我将将到站的时候,耳机传来了一声火车的呼啸,随即是一声语音提醒:还有十五分钟,火车就要开始检票了——居然连声音都考虑到了!

那便是我用 ColorOS 16 的尤里卡时刻。

不是有了 AI 就一定要用 AI 的方式

对陈希而言,近年来最重要的主张,是对 AI 交互的逐层理解。

当整个行业都在讨论「贾维斯式」的语音助手时,陈希却有不同的观点:

我不太赞同未来由声音语音交互来决定一切。人类有了眼睛也需要嘴巴,有了嘴巴也需要耳朵、鼻子,也需要手,是多模态、多感官协同的。

你能用语音吃饭吗?用语音吃饭吗?用语音睡觉?用语音上厕所?

陈希认为,不同信息需要不同的表达方式:

特别长的信息很枯燥,可能用视频表达挺好。但有些信息很简单,不一定适合视频,比如若干年前我刚来到深圳,和很多人一样,看到这句标语「来了就是深圳人」,难道用视频表达就更好吗?我不相信,用文本最有力,那这个时候信息最好的表达形式就是文本。

所以我们的「一键闪记」的「记视频」也是一样,视频的表达更「丰富」,但文字的表达更「直接」,不是所有的内容都适合视频表达一样。

这是 ColorOS 系统设计的核心:给场景找到恰当的交互方式,给信息找到恰当的表达形式,而不是让一种交互方式统治所有场景,不是今天有了 AI 就一定要用 AI 的方式。

具体到产品设计上,陈希总结为八个字:流畅本色,AI 出色。

流畅是本色,AI 是更出色的东西,让本色更出色。流畅代表经典的东西,AI 代表新的东西,它的未来成功归依就是流畅 AIOS。

但这里的「流畅」,已经不是传统意义上的性能流畅,而是场景完成度的流畅。

陈希认为,流畅作为基础体验场景,各个系统之间差异不大,但认知差异却很大:

把基础体验做成认知、做成卖点,我觉得这是很困难的事情。就像车的安全性,沃尔沃做得很好,大家提起来你甚至不知道它有什么东西好,但你知道它有安全性。我们一直在做的,就是各种边界场景(流畅体验)的完整性。

什么是边界场景?比如我正在看视频,突然要回个微信,再干个什么事情,可能很短的链路里遭遇一个并行场景。这种场景会放大缺陷,因为这是人的情绪高点,他正焦急时你还卡,那就会放大这种情绪,只有做好这些场景了才能把整个认知打起来。

而在 AI 这一侧,ColorOS 面临的挑战是整合。

「手机里功能很多,用户甚至不知道有这些功能,很细碎,」陈希坦言,他妻子曾问他:「小布助手、小布记忆和小布建议有没有区别?」在她看来都是小布。

用户接受的信息量没有那么大,怎么把事情做简单?陈希说:

让用户在一个地方接触到所有体验,而不是在十个地方找五十个体验,all in 1。这个 1 指的是符合用户直觉的交互方式,这很重要。

所以 ColorOS 把很多 AI 能力整合在流体云上、整合在一键闪记上、整合在小布上:

我认为你找到一个整合度高的交互方式是关键中的关键,才能把用户体验变得简单——这是 AI 时代最大的挑战。

这种整合能力的背后,也是组织和文化的支撑。

陈希表示,如何将 AI 新技术整合到传统的 OS 产品是一个巨大的挑战,这是不同的两种思维方式,要解决大量的沟通和协同问题:

当然我们非常好地解决了这个问题,所以带来巨大的生产力效率提升。打个比方,我们不是在做发动机,也不是做电机,我们在做电动汽车,电动汽车就是 AISO

而且我想特别强调一点,在 如今AI 时代,打造产品的开发逻辑也在悄悄变化。

以前做功能,可能是 PM 提需求,研发去实现,是线性的。但做 AI 不一样,它是一个双向激发的过程。有时候是我们对场景的洞察逼出了技术的极限,但更多时候,是研发团队的技术突破,反过来给了我们设计的灵感。所以,一个好的 AI 产品,绝对不是产品经理拍脑门的“灵光一现”’,它是对用户深刻的洞察和研发团队技术厚度产生化学反应后的结晶。这是一种互相折磨,也是一种互相成就。

这在行业里并不常见,即使是在苹果,AI 部门和系统部门之间也存在拉扯,甚至影响到整个苹果智能的布局。至于面对竞品的追赶,陈希认为:

我们还是要着眼于真实的「用户场景」,去创造「价值」,去带来先进生产力,因为先进生产力永远是会被抄的。

我问陈希 ColorOS 16 是否达到预期,他松口气,说「至少现阶段目标达成了」。但在陈希的设想里,ColorOS 还有一个更大的愿景:成为一种年轻人的生活方式。

无论是用户场景的洞察、设计的定义或者功能的开发上,甚至产品营销的品牌心智和社交媒体的内容口吻,陈希都要求 ColorOS 是年轻但高品质的:

我们有很多想法,都是基于年轻人的生活方式开展的。我们不想做价值太薄或太花哨的东西,有一个词叫「要年轻但要高品质」,它不能廉价,因为年轻不等于廉价。

当所有厂商都在思考如何用 AI 重做系统时,陈希和 ColorOS 选择回归用户洞察:AI 之于这些年轻人而言,其价值原点是什么?

陈希心里有一个答案,这也是他的「系统观」:

我现在想到四个字是「模拟人生」——就是还原真实,模拟人生。

我很喜欢玩经营类的游戏,我小时候就喜欢拿积木搭一个城市,现实里面的很多想象力是很匮乏的,但是当你进入到数字世界,你的想象力是非常大的,但是又不太真实,没有现实的实感。

它和打游戏的感觉是一样的,我也喜欢那种角色扮演类的游戏,很多扮演类的游戏让我有一个人生的体验。做产品也是,怎么样能够把系统里的很多东西,就像日常生活中一样做出真实的感觉,有那种临场感、沉浸感,我觉得是蛮重要的。

包括我们做取餐码,就会觉得这个瞬间真实的世界和数字世界连接起来了,我认为这是很神奇的感觉,非常神奇。

 

很久以前有个叫 Paper 的笔记本应用,他们有一个功能是可以把你的数字笔记,在线下打印成 Moleskine 的实体本子寄给你。我当时觉得这个功能特别好,明明是数字世界的东西,突然跳出次元壁来到了生活里面,这种感觉很奇妙。

那生活中的东西,能不能扔到手机里,看到「你的生活」?

这种感觉太棒了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌