普通视图

发现新文章,点击刷新页面。
昨天 — 2026年5月27日爱范儿

雷鸟 GT Max 体验:267 英寸的私人影院,搬家带走只需一秒

作者 郑廷旭
2026年5月27日 20:32

我们去电影院,当然不只是为了那块更大的银幕。

真正让人愿意买票进场的,是灯暗下来之后,画面、声音和注意力一起被收拢的状态。银幕越大,外界越远,人也越容易进入电影本身。

很多人都想把这种体验搬回家。但家庭影院从来不只是买一台设备。

对很多在城市里生活的年轻人来说,客厅不一定属于自己,卧室也很难留出一整面墙。大电视看着痛快,搬家时却很麻烦;投影仪看似灵活,又绕不开亮度、幕布、摆位和墙面。

所以过去很长一段时间里,「在家看巨幕」默认需要一个稳定、宽敞,也适合改造的空间。

雷鸟创新这次发布的雷鸟 GT 系列,解决问题的方式更直接:不再依赖墙面、客厅和摆位,而是把巨幕体验放进一副眼镜里。

它不需要腾出一面墙,也不需要重新安排客厅。戴上之后,观影体验更多取决于眼前这副设备,而不是房子的大小、墙面的条件,或者是不是合租。

两千多元的价格,也让它更像一件可以随身使用的消费电子产品,而非一套围着房子布置的家庭影音方案。

如果说过去的巨幕体验,多少都要先准备一个合适的空间,那雷鸟 GT 系列想解决的,就是先把这个前提拿掉。

把 IMAX 与杜比影院同时揣进口袋

戴上、点亮屏幕的第一眼,最直观的改变是「视野」。

如果你之前用过雷鸟 Air 4 Pro ,换到 GT Max 后会明显感觉到画面变得更加开阔。如果说前代还是「把电视戴在头上」,那么 59° 的超大视场角,则让 GT Max 直接把一座专属的巨幕影院塞进了眼镜里,大幅缓解了以往那种边缘「压眼睛」的局促感。

杜比视界这个画质标准,以往在手机和平板上见得多了,但这次,雷鸟直接把它塞进了这副轻巧的 AR 眼镜里,打造出了全球首款杜比视界 AR 眼镜。

连上雷鸟魔盒 2 ,点开原生支持杜比的《阿凡达:水之道》,你只需要看上几秒钟,眼睛就会直接告诉你答案

当剧情推进到孩子们夜潜入海那一幕,深海背景是纯粹的黑,而纳威人皮肤上的荧光斑点、发光的奇异生物,在画面中呈现出强烈的明暗反差。雷鸟 GT Max 能让黑色的地方彻底沉下去,同时让动物发出的荧光足够明亮,却又完全没有过曝或泛白。阳光穿透水面打在海底的沙子上,丁达尔效应清晰可见,画面的每个细节都一览无余。

除了画质本身足够打动人,眼镜在显示交互上也充分照顾到了实际的动态场景。在右边镜腿的上方,雷鸟设计了一颗物理按键,用于在固定、随行、防抖三个 3DoF 空间模式之间自由切换。在这当中,最让我惊喜的是这个「防抖」模式。

在大多数情况下,它的画面会像一台实体显示器一样相对固定在环境中;但当你要切换姿势——比如从坐姿换成躺姿,动作幅度更大一些的时候,画面又会跟随着你的视线一起缓缓移动。

它完全没有了传统「随行」模式下那种完全跟着头晃、容易导致眩晕的死板感,整个调校非常神奇,体验类似于手机长焦镜头上的那种光学防抖,它能判断什么时候需要「稳」、什么时候又需要重新移动构图。

有了优秀的视觉表现,听觉自然不能拖后腿。雷鸟携手 B&O 打造了这套包含四扬声器与头部追踪的空间音频系统,实际听感有惊喜。

戴上它观看影片时,声音的立体感和空间包裹感相当出色。就拿刚才那段《阿凡达:水之道》的海底夜潜来说,配合影片标配的杜比全景声音轨,当角色潜入水中时,你能清晰地听到头顶海浪的暗流涌动,以及身边鱼群游过时细微的窸窣声。

低频的下潜具备不错的量感,人物的对白也清晰自然。声音的方位感与画面的荧光闪烁同步,真正做到了听声辨位。而且这种开放式的声学设计完全解放了耳朵,你终于可以摘下戴了整天的入耳式耳机,摆脱随之而来的健康隐患。

同时,它的防漏音控制得不错,哪怕是在安静的合租或宿舍环境里,你也可以肆无忌惮地沉浸在自己的私人影院中,完全不用担心会打扰到隔壁的室友。

一块「充电宝」,一个打开沉浸观影体验的「潘多拉魔盒」

雷鸟 GT Max 的惊艳体验,离不开它的「好搭子」雷鸟新版魔盒 2。

它的形态类似一个日常的充电宝,比 iPhone 17 标准版略小也略轻,长时间握持不会坠手。铝合金机身配合正面大面积的 AG 玻璃触控板,滑动起来是高级的磨砂触感,整体质感到位。

它的交互逻辑贯彻了「盲操」和「沉浸」:重力感应移动光标,触控板的交互与手机的全面屏手势一致,支持侧滑返回、底部上滑回主页;右下角贴心地给了一个 TF 卡槽,方便装载自己珍藏的电影资源;

侧边右上角的功能键长按可开启防误触,确保在观影高潮时不会因为误碰而跳出。它底部配备了两个 Type-C 接口,左侧连眼镜,右侧可同时充电,长时间观影也不会有电量焦虑;配合内置的 4000 mAh 电池,不插电情况下也能看完两部电影。

当然,出门在外如果不带魔盒,眼镜也可以直接连接其他设备。无论是插上 Mac 码字,还是通勤路上连上 Switch 沉浸式地推游戏,它都能瞬间化身为一块高素质、大尺寸的「沉浸式」便携屏。

在自带的专为空间计算开发的空间计算芯片 Zone 360 加持下,配合前面提到的三种空间模式,无论是高铁微晃的座椅还是躺平的被窝,都能找到最舒适的观看姿态。

令人惊讶的是,在塞入如此多硬核配置后,雷鸟 GT Max 的重量仅有 78g (标准版雷鸟 GT 更是低至行业最轻的 68g),佩戴起来几乎没有负担。

不过,目前杜比视界功能的体验也有些局限:它被强绑定在了「雷鸟魔盒 2 + 视频平台 TV 端会员」这套组合上。如果你习惯在 Mac 上存放下载好的高清杜比片源,直接拿一根 Type-C 线连上电脑或手机,目前是无法点亮杜比视界的。

此外,受限于棱镜 BirdBath 光学方案的物理特性,在观看高对比度画面时,边缘仍有轻微的光学色散;初次上手,视频平台的扫码登录流程还略显繁琐,需要摘下眼镜,把手机摄像头凑到棱镜前,使用体验确实不够优雅。好在登录好了之后几乎就不用再管了;

魔盒的机身按键略微晃动,且重力光标的指向精度也需要花一点时间去适应。最后的微小遗憾,是目前眼镜和前端播放设备之间,依然无法摆脱一根 Type-C 实体线缆的连接。虽然盲插的设计已经尽力降低了操作门槛,但这种物理上的牵绊,多少还是限制了绝对的自由。

最后来看看价格,雷鸟 GT Max 定价 2599 元,在动辄上探到 4K 档的旗舰 AR 眼镜市场中,还算是相当克制且有诚意的。

它当然不能完全替代电影院。影院里的空间感、声音和那种被迫专注的仪式感,仍然有自己的位置。

但对于更多日常场景来说,雷鸟 GT Max 至少提供了另一种选择:不需要一间影音室,也不需要一面大墙,只要戴上它,就能把一块足够大的银幕带到眼前。

巨幕体验,也能在狭小空间里发生,我想这就够了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

再访 XREAL 徐驰:做眼镜是场万米长跑,靠运气也靠打怪升级

作者 杜晨
2026年5月27日 16:26

XREAL 把今年的第一场发布会,留给了一个之前没听说过的新牌子:xbx。

内部的全称是 x, by XREAL。

考虑 1699 的定价,xbx 的第一款产品 a01 的性价比相当不错:50° 视场角,tandem OLED 显示模组的亮度高达 1600 尼特,等效 4 米左右 147 英寸大屏,支持 HDR10 和在至高 120Hz 帧率下的空间防抖。

但参数远没有颜值和戴起来轻松更重要。62g,半透明未来感机身,可替换的多种个性化镜框。CEO 徐驰说,「颜值就是正义,只管玩就好。」

这是成立十年来一直在拼了命地往「上」冲的 XREAL,第一次「向下」。

过去这些年,徐驰和他创立的 XREAL 从来没有走过容易的道路。尽管中国的消费电子供应链资源足够好,以至于整合能力成为了成功的硬件创业者必备的素质——XREAL 却是不搞纯粹的「供应链整合」的。

正相反,XREAL 一直都在往上走,做最贵、最难、最「极客」的产品。为此,XREAL 不惜做极高比例,同时也是同行中最高比例的自研,甚至不惜因为过去两三年里的国际半导体波动,而损失相当一部分利润率。

这才是为什么去年 XREAL 能和硅谷巨头 Google 联合推出 Project Aura,一台令行业人士刮目相看,也让消费者打破对现有「智能眼镜」刻板印象的原型机(今年将正式面市)。徐驰毫不收敛地将 Project Aura 称为他所在的行业体验的「天花板」。

能做出这样的产品,断不可能靠整合供应链。为什么只有 XREAL 能做到,为什么谷歌选择了,LG、ROG 等也都选择了 XREAL?

徐驰说,答案是 XREAL 的 A 面:内敛、冷峻、长期主义、押注绝对的技术创新。

那么,XREAL 的 B 面又是什么?

在徐驰带领着公司一往无前地朝着头戴式显示技术的性能优化与极致轻量化冲刺的同时,他的背后险象环生:

在通过 Apple Vision Pro 试水也试错了之后,苹果立项了更多轻量级 AI/AR 眼镜产品,如无意外将于 26H2-27 全年逐步问世;小米、阿里千问、Rokid、VITURE 等纷纷杀入市场。

它们当中,有的用 AR 显示眼镜围攻 XREAL 占据已久的光明顶,更多的则是用 AI 眼镜(屏显/无屏)来提前抢占行业领头者尚未明确布局的新空间——无论何种产品定义,价格都被压得越来越低。

对此徐驰并不紧张。在和他深聊过后,爱范儿得出这样的感觉:XREAL 的 A 面朝前太久了,以至于同行们似乎误认为它没有或者不屑于展现另一面。

「怎么说呢,A 面没立住的时候,就没有 B 面。我们现在来了,虽迟但到。」

XREAL 主品牌的势能已经积攒到位,徐驰和他的产品团队终于腾得出手去做另一种风格的产品——一个更年轻、外放、价格也更亲民的牌子 xbx。

这就是 XREAL 的 B 面,与那个永远创新不止的 A 面,互为映照。

他说,自从创业以来,见到了 VR/AR 的泡沫,破了;然后元宇宙来了,也破了。一路走来,这次创业越来越像一场万米长跑——这也是从一开始他就坚信的赛制。「抢跑一点都不重要,跑对方向才重要。」

所以,徐驰看起来并不担心这些新来的竞争者。问他怕不怕大厂和其它创业公司一拥而上,他答:「我们最怕的,是这个行业只有自己。如果没有别人,没准说明我们走错了方向。所以热闹一点挺好的。」

2016 年,徐驰离开混合现实先驱企业 Magic Leap,回国草创,做一副在当时没人看好的眼镜。

快十年过去了,他庆幸 XREAL 能活到今天,运气占了相当大的因素。

「感谢这个赛道前十年的起起伏伏,让我有机会不断打怪升级……等到真的要跟大厂掰手腕的时候,不至于一上来就是总决赛。」

爱范儿等与徐驰、XREAL 产品负责人刘宗楷进行了一次专访,从全新的子品牌 xbx 和第一副价格打到 1699 元的 AR 眼镜产品 a01 聊起,一路聊到他怎么看待竞争,如何比较自己与同行之间的资本效率、AI 眼镜会不会最终取代手机,以及一个第一次创业的人,凭什么活到今天。

「年轻人最好的,就是不迷信传统」

爱范儿:XREAL 这些年的特质就是高端化,为什么要在这个时间点推出 xbx 这个品牌?

徐驰:我们一直说,今天的智能眼镜行业很像 05、06 年的手机行业,很碎片化,系统、应用生态、交互范式都不统一。在这个相对早期的阶段,没有哪个品牌能够覆盖所有的价位段。所以我们就想,有没有可能做两种风格不一样的产品,像 A 面与 B 面一样。

这个行业充满波折,是出了名的难做。很长一段时间里,大家都在摸索,我们自己也(一段时期内)没有一个特别清楚的定位。但是「XREAL 」在我心里就是那个极致创新的品牌,更冷酷、更经典。但是,一个品牌尚未立住的时候,我没办法再去做一个更大众、更宏观的东西。

慢慢地,XREAL 成为了我想要的那种更内敛的品牌,这时候,就可以有一个更绽放的品牌跟它相互映照了。这就是我说的 A 面与 B 面。A 面没立住的时候,就没有 B 面。

这件事虽迟但到。从今往后,我们不只是一家叫 XREAL 的公司,还是一家 x by XREAL 的公司。

爱范儿:年轻人想要什么样的 AR 眼镜?难道年轻人就不想要极致的产品?

刘宗楷:对年轻人来说,个性与自我表达是每个人心里的渴望。市面上不管是 AR 眼镜、AI 眼镜、还是 XR 头盔,很多人下意识觉得这东西就该不好看、不轻便。但我们偏要反着来,为什么不先做出一副好看、够轻、年轻人愿意戴在头上的眼镜?一副愿意戴出门的眼镜,是所有事情的第一步。

徐驰:年轻人最好的,就是不迷信那些传统的大道理。颜值就是正义,好看就好,好用就好。我们希望用 a01 这副眼镜让大家明白,一千多块的价格也可以做到两千多块的体验。我们会把它长期做下去。

爱范儿:必须戴到外面,才能影响更多潜在受众。

徐驰:没错就是这样。我们希望这个产品可以在地铁上,在咖啡馆里,在飞机上,在各个地方,更多的年轻人把它戴到外面,而且是不尴尬的。所以我们做了极致的轻量化和个性化设计。

爱范儿:轻量化肯定有取舍。一个产品想做更高的分辨率、帧率、视场角,模组就会变大;模组大了,重量就会大、配重也会失衡。

刘宗楷:做轻的同时还要保证体验,真的非常难。镜片和外壳的厚度能不能再降一点,但强度还能保住。每一个器件既要轻还要保住性能,我们抠了很多细节。

这条路没有尽头,就是一个个夜晚,一次次较劲和争吵。当然,我们觉得还可以做得更好。

爱范儿:AR 眼镜能做到的 FoV(视场角)物理极限是多少?以及不考虑极限,只说在不同场景下人类佩戴的人体工学舒适度,最优解是多少?

徐驰:我给你个最直接的答案,最好的视场角应该是在 85° 左右,但这是在不计成本堆料、不考虑重量的前提下。

在 Project Aura 上,我们做到了 70°,在这个产品形态下已经是非常不错了,但是仍然有差距。什么时候我们能做到 85°,并且仍然是轻量化的,那么我们会觉得至少在显示端做到极致了。

刘宗楷:根据场景来看,比如你戴上 VR 头显去火星,画面主体是一艘宇宙飞船,背景则是宇宙星空——你需要同时看到主体和背景才能获得最大的沉浸感。但是对于 AR 眼镜,最好的背景其实是真实世界。如果是打游戏或者看球赛可能就不需要很大的角度;但如果是看电影,或者附着在真实环境里的 AR 显示,那么宽视角的沉浸感就更重要。所以最终还是取决于内容是否沉浸。

至于人眼的注意力聚焦视角,从眼科学上来说的确有极限,一般就是水平方向的 50° 左右,垂直的 30-40°这个区域内。

视场角并不是唯一的关键因素,还有电致变色、性能续航等等。在我们定义不同产品的时候,会有无数个取舍的拨杆,往不同的方向去拨。

「我们最怕的,是这个行业只有自己」

爱范儿:苹果也入场了,国内大厂的竞品也已经上市,价格越压越低。你怎么看?

徐驰:大家进来,我认为是好事。我们最怕的是什么?是这个行业只有我们自己——那说明这个赛道没人关注,没人看好。

我们始终认为,眼镜是最有机会替代手机的下一代计算终端。虽然已经创业十年了,我们也才刚刚开始,我们的渗透率可能还不到 1%,后面还有百倍甚至更大的成长空间,所以大家一起来把蛋糕做大是件好事。

我们这个行业是有泡沫的,但泡沫不一定是坏事,说明大家对行业的期待值很高。过去在每个阶段,都有过想挣快钱的人,发现不好赚就走了。泡沫褪去,受害的其实是消费者。而真正推动行业往前走的,是那些把「用户期待」和「产品体验」之间的差距一点点缩小的人。

打个比方,今天的 AI 眼镜就像五岁小孩,而我们定义的全天候佩戴的 AI 眼镜就像贾维斯。这中间的差距得靠底层创新去一点点推动。这些创新不会无缘无故发生,背后一定有人负重前行。

问:你们跟 Meta 的距离还有多少?

徐驰:举个不那么恰当的对比:2025 年 Meta 的 Reality Labs 业务营收是 22 亿美元,亏损接近 200 亿美元。我们今年做到了 2 亿美元营收,差不多是它的十分之一,但我们的亏损不到 2000 万美元。

十分之一的营收,千分之一的亏损,我觉得我们的资本利用效率还可以,这也是我们的优势。

爱范儿:你们有自己的全栈自研芯片、光学,但 Project Aura 的部分算力还是用的骁龙,两者这两者是什么关系?将来 XREAL 会否提高核心算力的自主性?

徐驰:X1S 是一颗完整的 SoC。在 Aura 上,所有对延迟和带宽敏感的计算,放在我们的 X1S 芯片上,其它的给骁龙。

我们的芯片就是纯端侧计算,骁龙芯片放在 puck(外挂的计算单元) 上。这两者不是处理器和协处理器的关系,而更像是「端侧」和「云」之间的关系。有些计算需要发生在离你更近的地方,更加及时。

我们一直说眼镜会取代手机。在可预见的将来,puck 会消失,直接换成你的手机就行了;更长远来看,如果眼镜真的取代手机,它需要自己能够处理所有的计算。这才是我们为什么押注自主芯片的意义所在。

前段时间美国出台禁令,先进制程的晶圆不能直接运进中国大陆。这件事挺流氓的,我们的芯片在这个范畴内,本来要在大陆做封装,结果必须在台湾封装完才能运回大陆。当时国内一大批芯片厂商都在争抢台湾的封装资源,造成了一次性的短缺,跟今天的内存短缺很像。为此,我们的业绩也少了蛮大一块,否则去年 Q3、Q4 的增长会很明显。

但从长远看,这反而驱动我们继续往前走。还好我们今天销量不是很大,总比卖了几百万台突然被卡脖子要好(笑)。我们希望中国有越来越多的先进制程握在自己手里,谁也卡不住。

爱范儿:Project Aura 在国内能上吗?你们会选择哪些国内模型厂商一起探索?

徐驰:因为 Android XR 和 Gemini 强绑定,而 Gemini 在国内用不了。所以很遗憾,要不你海淘吧(笑)。

我们不会放弃国内市场,如果 Android XR 能够和 Gemini 解耦,连上国内 AI,就是 Project Aura 进入国内市场的时候,但不是今天。就像当年 iPhone 也不是刚问世就进入中国。我觉得这个结果我们可以接受。It’s okay.

对我们来说,阿里是我们的股东,我们也一直跟字节跳动保持交流。在模型方面,我们不会排斥任何一家。我们的终极理想,是 AI 能像搜索引擎一样换着用。未来的大模型会变成基建,谁家的 token 效果好就用谁,可以无缝切换。

「眼镜凭什么取代手机?」

爱范儿:你自己也说,AR 眼镜这个品类存在很多年了,但渗透率仍然很低。让更多人接纳它的「入门毒药」会是一个怎样定义的产品?

徐驰:大概率还是主流两大类:更加全天候的 AI 眼镜、带显示但不够全天候的 AR 眼镜。

这个「全天候」(always-on) 有两层意思:一是全天候佩戴,二是全天候使用。今天的问题是,AI 眼镜的主要场景不是 AI,而是听歌拍照;你打开相机拍个 30 分钟,产品就没电了。如果说眼镜是你的个人助理,但它每天只能睁眼 30 分钟……那就不是一个全天候的助理。

在将来的某个时间点,会有一款 35g 以下、全天候续航的产品,作为 AI 交互的载体。这样的产品,我认为是能做到的。如果做到了,它绝对会是人手一个的设备。

另一条路就是 AR 眼镜,追求更高清、更多内容。这个路线今天还是分体机形态,能做到 60g,但终极形态可能会是一体机。

这两种产品,一个像 iPhone,人手一台,整个品类可能是每年十多亿台的出货量;另一个像我们现在的设备,做到终极形态可能是平板和笔记本电脑加起来的体量,一年 1.5 到 2.5 亿台,也很不错;以及传统头显,可能体量会像台式机——这三者会长期共存。

至于那个彻底引爆品类,将眼镜真正推上「取代手机」道路的产品是什么,我认为到 2027、28 年,我们会看到更清晰的答案。

爱范儿:即便做到了极致的轻量化,你怎么说服那些仍然嫌重的客群?

徐驰:我认为今天大家太容易先行代入刻板印象,比如「没有 35g 绝对不戴」。今天的行业里,抛开补贴的产品,还没有不吃国补、销量过百万的产品。如果真能达到 35g,早就是 15 亿台的水平了。

我们得一步步来:先把一个单品做到百万,再做到千万,再做到一个亿、15 亿。中间有好多级台阶。我相信在今天,一副体验足够好的眼镜,50g 也不妨碍它卖一个亿。影响接受度、卡住销量的只是体验还没有打磨足够好。

爱范儿:手机厂商觉得未来 5-10 年里手机仍是主角。但与此同时手机厂商也在做眼镜。你看到的未来竞争格局是怎样的?

徐驰:的确,今天存在的东西,很长时间内仍然会存在。但核心是谁能站在价值链的最高点。就好比曾几何时我们觉得互联网大厂的超级 app 太牛了,但今天它们的风头一定没有 AI 公司更盛。手机也是一样。随着科技发展,总有一些新的领域、企业,会站到价值链更高的位置。

我们相信未来两年内会形成共识:眼镜是离 AI 最好的原生终端,它可能是离多模态 AI 最近的东西。这也是为什么我们跟谷歌一起去畅想未来的全新交互范式,以及新范式下的终端长什么样。

这件事令我非常兴奋,一是因为它难,二是如果做对了,会非常 rewarding。

爱范儿:其它形态的 AI 硬件,比如 pin、带摄像头的耳机,不如眼镜吗?

徐驰:不光我这么想,Demis Hassabis 也说眼镜绝对是所有 AI 里最中心的设备。因为只有眼镜能够拿到人的关注点这一关键上下文信息。

你戴了一个 pin,它能看到你面前有一堆人,但眼镜在未来会有眼动追踪,它能知道我当下到底在看什么,周围的信息可能没那么重要。只有眼镜能带来端到端闭环的数据链路,其它终端都不具备这个能力。当然别的形态可以辅助,但眼镜一定是最关键的入口。

「靠运气,也要打怪升级」

爱范儿:创业者、企业家会有不同恐惧来源,可能是内部的组织效率跟不上时代,可能来自同业的竞争,可能来自异业的颠覆。足以让你从睡梦中惊醒的恐惧是什么?

徐驰:做企业和做人一样,做人也会迷茫,有人给你指点,让你找到对标。但我觉得说到底,烦恼都是自己给的。

我相信伟大的企业全是价值观驱动的。最核心的就是找到一个组织舒服的状态,让全公司都认可你的这套价值观——无论离开还是留下,都会继续在这套价值观的规范下做事。只要这件事做到了,竞争也好,别的也好,其实都还好。

我个人睡眠还挺好的,我觉得这是创业者得有的一个特质(笑)。

要说真有什么让我担忧,那就是我所崇尚的价值观,是否真的能够百分百贯彻执行?我怕的是 XREAL 变大了,文化会被稀释掉。我需要大家打心底里相信一件事:我们要当创新者、引领者。这不容易,在中国尤其不容易。在中国大家的习惯是服从等级制度,「老板说的都对」,可我还是希望,大家既能自下而上,又能自上而下,形成一个扁平高效的机制。

爱范儿:就像你说的,几轮泡沫起起伏伏,XREAL 还是活到今天了。

徐驰:2016 年我从 Magic Leap 回国,到今天整整十年了。那时候真是草根创业,我就是想做一副眼镜。能活到今天,回头看真是运气挺好。这是我的第一次创业,也感谢这一路的投资人(以及其他同行者),让我在这个过程里慢慢理解了怎么去运作一家企业,一个组织,一门生意。

说实话,如果这个行业发展再快一点,起势再猛一点,没机会把自己磨练好,去应对巨头杀进赛道时那种强烈的竞争,可能我们就没了。

每个创业公司大概都得经历这么一段:你得先打怪升级才能站上更大的舞台。如果一上来就是总 boss,来一帮阿里字节那样的对手就没得打了。所以我其实挺感谢这个赛道前十年的起起伏伏,才有一天让我能跟大厂掰一掰手腕。

AR 行业是出了名的难做,我又干得有点久了,所以对这些事现在看淡了。只要大家都还在牌桌上,这就是一件长期主义的事情。

我认为 AR 是一场万米长跑,跑对方向比抢跑更重要。如果行业还在早期但所有人都往一个地方冲,那个所谓的共识可能就是泡沫。反而是早期非共识的东西,最后被时间验证是对的。历史无数次这样告诉我们。

文|杜晨

采访|杜晨

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前爱范儿

谷歌用 AI 「杀死」谷歌,这场发布会看得人缺氧

作者 张子豪
2026年5月20日 05:52

Gemini App 月活超 9 亿,月 Token 处理量每月 3200 万亿,Nano Banana 生成超过 500 亿张图片……

在今天凌晨刚刚结束的 Google I/O 大会上,Google CEO  Pichai Sundar上来就抛出了这些数字。

过去一年,AI 成了所有行业的主旋律,Gemini 在 Google 的定位,也开始从一个独一的 App,成了所有 Google 产品里的最重要的 AI 底层能力。

这次发布会也先从模型开始,进一步带到 Coding 和 Agent 产品。

Gemini Omni 把 Google 的视频生成推向「世界模型」方向,Gemini 3.5 Flash 则是和 AI 编程工具一起推向 Agent 开发平台。

这两个能力随后进入 Google 的完整生态,搜索、Gemini App、Flow、Spark、Chrome、XR 眼镜和电商场景。

Gemini Omni 登场,视频界的「Nano Banana」时刻来了

发布会最先被重点展开的是 Gemini Omni。

DeepMind CEO 将 Gemini Omni 描述为一个能够「从任何输入创造任何内容」的新模型。它把 Gemini 的推理能力与 Google 既有的生成式媒体模型结合起来,目标是提升模型对世界的理解、多模态生成能力和编辑能力。

Google 强调,Veo、Nano Banana、Genie 等模型已经能生成视频、图片和交互式模拟,但 Gemini Omni 更进一步,开始处理动能、重力等更接近物理世界的问题。

发布会现场展示的案例包括蛋白质折叠解释视频。用户只需要输入类似「生成一个关于蛋白质折叠的黏土动画解释」的提示,Omni 就能把抽象科学概念转化成视频内容。

它还支持更自然的视频编辑。用户可以上传自己的视频,再用对话方式修改风格、加入元素、调整细节,甚至把一个普通圆形转成黑洞,把夜晚散步场景变成更具戏剧感的画面。

Google 的说法是,Gemini Omni 先从视频开始,之后会逐步走向「任意输入到任意输出」。这也是 Google 一直把 Gemini 设计成多模态模型的原因。

首个 Omni 家族模型 Gemini Omni Flash 已在上线到 Google 产品中,Omni Pro 会在之后公布更多信息。Gemini App 中的 Omni 功能也面向 Google AI Plus、Pro 和 Ultra 订阅用户开放。

这意味着,Gemini Omni 不只是一个视频生成模型。Google 想把它放进「世界模型」的叙事里:模型不仅生成画面,还要理解画面中的物理关系、运动关系和场景逻辑。

在进入 Gemini App、Google Flow 和 YouTube Shorts 这些应用之后, Omni 也会让 Google 的生成式创作工具从图片编辑扩展到视频编辑。

Gemini 3.5 Flash 上线,AI 写代码进入极速模式

如果 Gemini Omni 对应的是生成和编辑,Gemini 3.5 Flash 对应的就是速度、成本和执行能力。

Google 在发布会上推出 Gemini 3.5 Flash,称它是 Gemini 3.5 系列第一批模型之一,重点面向 agentic coding、长周期任务和真实工作流。

相比 3.1 Pro,3.5 Flash 在几乎所有基准测试中提升明显,尤其是代码能力,以及 GDPVal 这类更接近真实经济任务的评测。

Google 还强调,3.5 Flash 在输出 tokens 速度上比其他前沿模型快 4 倍,在 Antigravity 中经过专门优化后,速度可达到 12 倍。

值得一提的是,今年 3 月,Google 内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已经超过每天 3 万亿 tokens。Google 把这称为一个反馈循环,用大规模真实使用继续改进 3.5 Flash。

与模型同步推出的是 Antigravity 2.0。

它从原来的 agent powered IDE,升级为一个独立桌面应用,重点转向 agent first。用户不再只是让 AI 在编辑器里辅助写代码,而是通过 Agent 对话、Agent 产物和多 Agent 协同来完成开发任务。

Antigravity 2.0 加入完整 CLI、Antigravity SDK、Gemini 音频模型原生语音支持,并集成 Android、Firebase、Google AI Studio 等服务。Antigravity 2.0 作为独立桌面应用,也已经面向全球用户开放。

Google 在现场用一个高强度演示解释 Antigravity 2.0 的方向:让 Agent 从零构建一个可运行操作系统。这个任务由 93 个子 Agent 并行执行,持续 12 小时,发起超过 1.5 万次模型请求,处理 26 亿 tokens,从空项目生成调度器、内存管理、文件系统等核心模块。

Google 称,这件事在 Gemini 3.1 Pro 上无法完成,而使用 Gemini 3.5 Flash 消耗不到 1000 美元 API credits。

现场还演示了这个系统运行 SL 小火车程序和 Doom。由于系统最初缺少视频和键盘驱动,Antigravity 又继续生成相关代码并修复,让 Doom 能够运行。Google 还称,类似方式已经测试过照片编辑套件、实时消息应用、多用户协作平台等项目,原本需要多天的工程工作被压缩到数小时甚至更短。

Gemini 3.5 Flash 已面向所有用户开放,覆盖 Google 产品和 API。Gemini 3.5 Pro 仍在内部使用和改进中,预计下个月开放。

从搜索框到信息 Agent,Google 重做 AI 搜索

模型和开发工具之后,Google 把重点转向搜索。Google 搜索也就是 AI 搜索。

Google 表示,AI Mode 已经超过 10 亿月活,查询量自推出以来每季度翻倍。

今天起,AI Mode 升级到 Gemini 3.5。新的智能搜索框也从当天开始推送。它支持文本、图片、文件和视频输入,并在用户输入问题时给出 AI 建议。

AI Overviews 和 AI Mode 也被合并成更连续的 AI 搜索体验。用户可以先在主搜索结果页看到 AI 回答,再进入 AI Mode 继续追问,上下文会被保留。这个新搜索体验已在发布会当天面向全球桌面端和移动端上线。

更大的变化是搜索 Agent。

Google 表示,用户今年夏天可以在 Search 中创建信息 Agent,让它持续跟踪某类信息。例如,用户可以让它监控市盈率低于 15、现金流为正、负债较低的大型生物科技股票;也可以让它长期跟踪租房信息、球鞋联名和商品上新。当条件变化时,Agent 会给用户发送综合更新。

Google 还把 Antigravity 的 agentic coding 能力带入搜索。

之后搜索不只返回网页、摘要或卡片,也能为具体问题生成交互界面。比如用户问「黑洞如何影响时空」,Search 可以生成一个交互式视觉组件;继续追问「双黑洞如何产生引力波」,Search 会重新生成一个可调参数的动态界面。Generative UI with Antigravity 将在今年夏天面向所有用户免费推出。

更复杂的自定义体验也在路上。

Google 现场展示了一个周末计划器,Search 会结合天气、地图、用户偏好、Gmail、Calendar 等信息,生成一个可以继续修改、分享和同步日历的小型工具。这类自定义体验将在未来几个月先面向订阅用户开放。

关机也能跑,Gemini Spark 把 Agent 能力搬进个人生活

消费端最重要的新产品是 Gemini Spark。

Gemini Spark 是一个个人 AI Agent,运行在 Google Cloud 的专用虚拟机上,可以全天候执行任务。它由 Gemini 3.5 和 Antigravity harness 驱动,支持长时间后台任务。

用户关掉电脑后,Spark 仍能继续工作。它先接入 Google 自家工具,未来几周会通过 MCP 接入第三方工具。

发布会展示了 Spark 的几个典型场景。

用户可以让它汇总过去一周 Gemini Live 的发布和进展,从 Docs、Gmail 和聊天记录里提取信息,再用个人写作风格生成团队邮件。也可以让它管理街区派对,维护 Google Sheets RSVP 表格,跟踪谁带了什么东西,给没报名的邻居生成提醒邮件草稿,并自动生成 Google Slides 宣传页。

Spark 还支持手机端语音输入。

用户可以一次说出多项任务,比如把所有与 Sundar 的会标成亮粉色,给新邻居写邀请信,创建孩子学年结束前待办文档。Spark 会把这些内容分成多个独立任务,并在后台执行,结果可以在手机和电脑之间同步。

Gemini Spark 本周面向可信测试者开放,下周以 beta 形式面向美国 Google AI Ultra 订阅用户推出。

Google 同时推出每月 100 美元的新 Ultra 计划,并把最高档 Ultra 计划从每月 250 美元降至 200 美元。今年夏天晚些时候,Spark 将进入 Chrome,成为能在网页中执行任务的智能体浏览器。

Gemini App 大改版,还有 Google 版「AI 晨报」

Gemini App 本身也迎来了一次脱胎换骨的大改版。

Google 引入了全新的设计语言 Neural Expressive,加入流体动画、鲜艳色彩、新字体和触觉反馈。

新版 Gemini App 不再把回答呈现为大段文字,而是会根据内容实时生成更适合阅读和操作的布局,包括交互图片、时间线、嵌入式视频等。Neural Expressive 现在已经在 Android、iOS 和网页端全球推送。

Gemini Live 也被重做,打开后可以直接进入实时对话。区域口音选择将在未来几周推出。

Gemini App 还加入 Daily Brief。这是一个面向早晨使用的个性化摘要 Agent,会综合 Gmail、Calendar、Tasks 等信息,整理用户当天需要关注的事项,并给出下一步行动入口。

Daily Brief 今天起面向美国 Google AI Plus、Pro 和 Ultra 订阅用户推出。

在更大的 Gemini 叙事之外,Google 也更新了几个日常产品。

Google Maps 最近完成十年来最大升级,并加入 Ask Maps。它允许用户提出更长、更复杂的问题。例如,发布会举了一个场景:孩子掉进鸭塘,婚礼 30 分钟后开始,用户想知道哪里可以步行买到新裙子。

Docs 也获得新的语音创建能力。用户不需要输入精确提示词,可以直接用语音把想法说出来,让 Gemini 从 Drive 调取简历,从 Gmail 找到活动信息,再生成 Google Docs 草稿。这个能力将在今年夏天面向 Pro 和 Ultra 订阅用户推出,同类语音能力也会进入 Gmail。

生成能力升级后,内容来源识别也变得愈发重要。

Google 称,SynthID 推出三年来,已为超过 1000 亿张图片和视频,以及相当于 6 万年时长的音频加上不可见水印。接下来,SynthID 和内容凭证验证会扩展到 Search 和 Chrome。

用户可以通过圈选搜索,或者在 Chrome 中右键询问内容是否由 AI 生成,系统会显示内容来自 AI、相机,还是曾被生成式 AI 工具编辑。

Google 还宣布,OpenAI、Kakao 和 ElevenLabs 将采用 SynthID 2。此前英伟达已经加入 SynthID 体系。对 Google 来说,SynthID 不只是安全功能,也是争取 AI 内容透明标准的一部分。

Google 创作全家桶,开始围攻图片、设计和视频

在创意工具领域,Google 密集发布了多款重磅产品。

Google Pics 是 Google Workspace 中的新图片创建和编辑产品,面向派对海报、信息图、宣传图等场景。用户可以从一张基础图开始,删除元素、调整对象大小、编辑文字和翻译文字。Pics 生成内容会带有 SynthID 水印。Google Pics 将在今年夏天推出。

设计产品 Stitch 也迎来更新。用户可以通过一句 prompt 生成网站或应用界面,再通过文字或语音继续修改,比如放大标题、调整菜单、突出更多披萨选项。Stitch 支持把设计导出为代码,或直接发布网站,相关更新现已发布。

Google Flow 的更新尤为关注。Gemini Omni 进入 Flow 后,用户可以基于原始视频改变环境、添加视觉效果、加入新角色,同时尽量保留原有表演。

Flow 还加入新 Agent,支持一次执行多个动作。比如从单张图片生成 16 个不同机位的视频,或把一组清晨场景批量改成深夜场景。

Flow Tools 则允许用户在 Flow 中创建自己的创意工具,比如视频特效、手绘动画和文字分层工具,并支持分享和 remix。

Google Flow Music 可以把一段钢琴 riff 扩展成带风格方向的音乐 demo。Google Flow 和 Google Flow Music 的这些新功能已上线。

押注智能眼镜,Google 再闯下一代入口

硬件部分,Google 也把 Android XR 这个操作系统级平台,从头显、XR 设备,进一步扩展到智能眼镜形态。

Android XR 是 Google 与三星合作,并针对 Qualcomm Snapdragon 优化的平台。

Google 表示,AI 眼镜会分成两类:一类是带小型镜片的显示眼镜,另一类是音频眼镜。显示眼镜去年已在 I/O 展示,今年首批开发者已经开始创建显示体验,可信测试者计划将在今年晚些时候扩大。

更早上市的是音频眼镜。

Google 宣布,首批音频眼镜将在今年秋季推出,由三星参与硬件和体验构建,Warby Parker 与 Gentle Monster 负责眼镜设计。这些眼镜连接手机,支持 Android 和 iOS。Gemini 的回答通过耳机私密播放,而不是显示在镜片上。

发布会上,演示者可以通过眼镜让 Gemini 导航到上周和朋友见面的地方,中途加入咖啡店;也可以让 Gemini 打开 DoorDash 自动下单咖啡,等待用户确认;

还可以让它总结静音消息,并把家庭晚餐写入日历。眼镜还可以与手表配合,让用户拍摄现场照片,并用 Nano Banana 生成卡通图像,再在手表上预览。

发布会最后,Gemini 的使用场景也延伸到了网络安全场景。

Google 介绍了 CodeMender。它是一个代码安全 Agent,能够自动寻找和修复关键软件漏洞。Google 将邀请一批专家测试 CodeMender API,之后会更广泛推出。

整场发布会看下来,信息量大到让人有些缺氧。只是当这些 AI 功能真正开放给几千万、几亿人使用时,一个最现实的算账问题就直接摆在了面前:这笔庞大的算力开销,Google 要怎么挣回来?

过去二十多年,Google 代表的是一种典型的免费互联网模式。用户用注意力和数据换服务,Google 用广告和分发赚钱。这套模式让 Google 成为互联网时代最强的基础设施公司。

但大模型推理的成本,和查询一次搜索结果完全不在一个量级。

长上下文记忆、多模态生成、跨应用 Agent、企业级自动化,这些能力背后都是持续运行的算力消耗。AI 越深入,Google 越难继续用「免费功能升级」的方式来消化成本。

这就是为什么整场发布会下来, Google I/O 看似讲的是体验升级,背后指向的却是订阅、企业合同、算力账单和长期服务费。

免费入口当然不会消失,因为那仍然是 Google 获取用户、数据和生态位置的基础。但在这些入口之上,Google 正在叠加一个新的智能服务层:更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行,以及更稳定的企业级服务。

换言之,Google 正在从免费互联网服务公司,进一步变成 AI 订阅基础设施公司。

只是,问题也随之而来,用户愿意为搜索付费吗?通常情况下,不会。

可是,如果这是一个能替你全天候处理邮件、统筹任务、分析报表、接管智能家居,甚至还能帮你写代码开发 App 的「超级全能助理」呢?你愿意为它每月掏出几十上百美元吗?

这,正是今年 Google I/O 迫切想要验证的核心商业命题。而环顾如今狂热的市场,答案似乎早已不言而喻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Markdown 已死,HTML 当立?

作者 张子豪
2026年5月12日 14:15

人类花了半个世纪把文档从打字机搬到 Word,又花了二十年搬到云端。结果 AI 时代真正的通用格式,是一门 2004 年发明的纯文本语言—— Markdown。

最近 Claude Code 工程师 Thariq 又提出了新的观点,说自己已经不用Markdown,HTML 才是未来,引发了大量讨论。

▲ Claude Code 工程师 Thariq 分享的用 HTML 替代 Markdown 文章,当前该内容已在 X 上获得千万次浏览

文章里,他提出了 HTML 格式的输出,是比 Markdown 文本更好的形态。对 AI 来说,从输出 Markdown 到输出 HTML,转换的过程基本无痛,但对用户来说却是实打实的体验优化。

Karpathy 在今天凌晨也转发了这篇文章,分享了他对于 HTML 的看法。

在他看来,音频是大语言模型最好的输入,视觉是最好的输出。在他畅想的路线里,HTML 之后还有交互动画、神经网络直接生成的视频、最终某种人机之间真正的感知融合。

在 Vibe Coding 和 Agent 产品成为主流的背景下,HTML 和 Markdown 对大多数 AI 玩家可能并不陌生。

▲ 在 DeepSeek 内要求它做一个小游戏,会直接给我们一段能运行的 html 代码文件

想做一个小游戏,告诉 ChatGPT,「帮我做一个贪吃蛇的单页 HTML 网页」。ChatGPT 会将代码打包成成一个后缀名为 html 的文档,双击打开,我们就能在浏览器里看到一个可交互、有动效、图文丰富的成果。

甚至在浏览器里面,任何一个网页下,按下 CTRL+S,保存下来的本地文件,都有一个 .html 的文档。

而 Markdown 从 AI 要获取网页上下文的年代,就有大量的工具,直接将各种文件类型的文档转成 Markdown 格式。

微软自己作为办公三件套之王,有着 docx、pptx、xlsx 等职场常用的文件,早前也开源了一个将这些办公文档转成 Markdown 格式的项目,目前在 GitHub 上已经收获超过 12 万 Stars。

▲ 项目地址:https://github.com/microsoft/markitdown

OpenClaw 爆火之后,各种 AGENT.md、SOUL.md、CLAUDE.md、MEMORY.md……甚至是 Skills 工程里面,每个 Skill 也是一个 Skill.md 的文档。

从记忆的保存、到提示词和 Agent 的控制,Markdown 格式几乎成为了 AI 获取丰富上下文的不二选择。

▲ OpenClaw 智能体会通过多个不同的 Markdown 文件来搭建最终的工作区|图片由 AI 生成

我们日常工作中最常使用的 PDF、DOC、以及 PPT 反而在 AI 时代成了「最不被待见」的格式。

但现在冒出来的 HTML 的又是怎么一回事,它会有机会取代 Markdown 成为 AI 时代的新通用语言吗?

Markdown 为什么最适合 AI

先说说为什么 Markdown 成为了 AI 时代的 Word,无论是 AI 的回答,还是我们丢给 AI 的上下文,现在大多都是以 Markdown 为主。

这门语言诞生于 2004 年,灵感来自 2000 年代电子邮件的文本排版惯例——竖线分隔、80 字符换行、星号表示强调。它的目标是「写起来像纯文本,渲染出来像 HTML」。足够简单,足够便携,不需要任何工具,任何文本编辑器都能处理。

▲ Markdown 语法速查表|图片由 AI 生成

这套设计哲学在博客时代是完美的。2008 年前后随着 Github 崛起,Markdown 直接成为程序员的标准写作格式。各类技术文档、Stack Overflow 回答、Github README、技术博客,Markdown 几乎在所有这些场景里都工作得很好。

然后大语言模型来了。

一边是刚好训练数据里有大量 Markdown 格式的文本,模型学会了用它表达结构。即训练数据上,那些技术博客论坛里「聪明人写的东西」大量是 Markdown。模型学到的不只是格式,还有「用 Markdown 写作 = 认真、结构化、专业」这个关联。

另一边是 Markdown 的结构信号非常局部化,一个标题只需要一个 #,一个列表只需要一个 -,** 出现就是加粗。模型也不需要看很远的上下文就能判断当前 token 的语义角色。

▲ 同样一篇文章,HTML 意味着繁多的标签、各种区块的分隔,以及样式控制等

对比 HTML 的标题和列表<h1> </h1> 或者 <li> </li> 要省得多,此外,HTML 的 <div class=”section”> 要等到 </div> 才闭合,语义跨度长,模型生成时需要「记住」更远的状态。对模型生成来说负担更重,出错概率更高。

所以无论是从大语言模型注意力机制的技术角度,还是 Token 经济学的角度,「能用 Markdown 就不用 HTML」在长文档、多轮对话、大量 API 调用的场景里,成了工程师和模型双方的偏好。

总结下来,Token 效率高、结构清晰、解析简单的核心价值,让模型天然爱 Markdown,它爱 Markdown 格式的输入,也爱 Markdown 格式的输出。

这种偏好在大语言模型训练时,也变得更加明显。

模型通过人类反馈强化学习 RLHF 的时候,标注员给高分的回答大概率是:有清晰标题、有分点列举、结构一目了然的回答。而这种视觉结构,在纯文本环境里就是 Markdown。

于是模型学到的奖励信号也是:用 Markdown 格式化 = 看起来更认真、更完整、更值得高分。即使问题根本不需要列表,模型也会倾向于加列表。

▲ 知名的 Markdown 编辑器 Typora

这大概也是为什么我们随便问 ChatGPT 一个问题,它都想给三个要点、加粗关键词、再来个小结。以及大多数时候,在 AI 的对话界面,复制 AI 的回答,粘贴到其他输入框,都会发现自动多了 #、**、—、等 Markdown 标识。

我们看到的每一条 AI 回复的文字消息,基本上都是以 Markdown 的格式在渲染。

为什么不是 PDF、Word、PPT

Markdown 好用,但是我们日常生活中使用的文档格式,大多还是 PDF 和 Word。老板发来一个文件,我丢给 AI 去处理,这个文件往往要比我直接复制粘贴,消耗更多的时间。

本质原因还是模型只认识 token,不认识文件。

大语言模型的输入,在进入模型之前必须先被转换成 token 序列。模型看不到「一个 PDF」,它看到的是 PDF 被解析出来的文本内容,然后再切成 token。所以哪种格式在解析成纯文本之后,损失的信息最少、引入的噪声最少,这种格式就是更好的格式。

▲ Claude 官方的 PDF Skill,需要调用专门的工具库才能实现 PDF 文件读取

PDF 设计的目标是「打印出来好看」,不是「机器好读」。在 PDF 内部存储的是每个字符的坐标位置,而不是文本的逻辑顺序。一个两列布局的 PDF,解析出来的文本顺序很可能是左列第一行、右列第一行、左列第二行、右列第二行,直接就完全乱掉。

表格更糟糕。PDF 里的表格通常是用绝对坐标定位的文本块,没有任何「这是一行」「这是一列」的语义信息。对 AI PDF 解析器来说,只能靠猜。

扫描版 PDF 就更不用说了,直接是图片,要先过 OCR 文本识别,而 OCR 的错误率直接进入模型上下文。

.docx 和 .pptx 本质上是 ZIP 压缩包,里面是一堆 XML(可扩展标记语言)文件。解析出来的原始内容里有大量样式标记,字体、颜色、段落间距、主题、修订记录,这些对模型理解内容毫无帮助,但会占用大量 token,稀释真正有用的信息。

对 PPT 来说,信息密度本来就低,一张幻灯片可能只有一句话、几个关键词,解析出来是碎片化的文本,没有上下文连接,模型很难重建完整的逻辑。

有人会说那 TXT 呢,其实 Markdown 和 Word 这类文本,本质上都可以转成 TXT 文档,它没有额外的噪声,但也没有任何结构信号。

模型很难定位到哪里是标题、哪里是列表、哪里是代码块、哪里是引用。对于长文档,还意味着模型要靠自然语言线索去猜结构,准确率不稳定。

▲ 图片由 AI 生成

类似的语言还有 JSON/XML,它们确实对机器更友好,但「机器」指的不是语言模型。

JSON 和 XML 是为程序解析设计的,键值对、层级结构、严格语法。传统软件读 JSON 很舒服,因为它可以直接 json.parse(),得到一个结构化对象。

而语言模型的「理解」是通过 token 之间的统计关联实现的。对语言模型来说,读 JSON 和读自然语言的方式是一样的,逐 token 处理,靠注意力机制建立关联。把这种严格结构化的格式喂给一个为模糊输入设计的系统,本身是一种错配。

Markdown 刚好在这两者之间,它是纯文本,但带有轻量结构信号。

▲ 部分工具像 Jina Reader,在网页 URL 前添加 r.jina.ai 前缀,就能将任何网页转换为 LLM 友好的 Markdown

解析 Markdown 不需要任何特殊工具,直接读文本就行,不会有 PDF 那种坐标混乱,不会有 Word 那种 XML 噪声。同时 # ** – 这些符号给了模型足够的结构线索,让它知道这段是标题、这段是列表、这段是代码。

这些符号本身就在 token 词表里,模型直接处理,不需要任何预处理步骤。

Markdown 也要过时了?

在 Claude Code 工程的那篇文章里,细数了 HTML 的几大优点。

▲ 图片由 AI 生成

信息密度更高,HTML 能传达的信息远比 Markdown 丰富。它能做基础的文档结构、标题格式,但它还能表示各种其他信息,像是 CSS 样式、SVG 图片、canvas 空间数据、流程图、img 标签插入图片等等。

他还提到,Claude 能处理越来越复杂的工作,它写的需求文档和计划也越来越长。而超过 100 行的 Markdown 文件根本读不下去,更别说让其他人去读。

但 HTML 文档的阅读体验就更轻松。Claude 可以用标签页、插图、链接等方式把结构组织得清晰易导航。它甚至能做到响应式布局,在不同设备上都能舒服地阅读。

在分享这点上,他也认为 HTML 的传播要比 Markdown 容易。 把 HTML 文件随便放到某个云平台上,发这个链接给朋友和发一份 Markdown 文档,一定是点开链接阅读的几率更大。

就像现在做报告,展示几十页的 PPT,不然直接打开一个网页。市面上常见的深度研究产品,在生成 PPT 时,所采用的格式也是从渲染 HTML 网页开始。

还有 HTML 的交互性,我们可以点击不同的按钮、使用滑块或旋钮来调节不同的信息展示。

在提到 Markdown 输出的 Token 要比 HTML 少时,以及更耗时间时,他说 HTML 可能比 Markdown 慢 2-4 倍,但觉得值得;而 HTML 带来的表达力提升、以及真正去读它的概率大幅提高,最终产出反而更好。

我们也尝试把 Thariq 这篇长文转成 HTML 的格式,相较于 X 推文的长截图,HTML 呈现的内容会对读者更友好。

针对 HTML 更合适给人阅读这点,文章所列的优点听起来确实 Markdown 很难做到,但直接把 HTML 描绘成新的 AI 通用语言,还为时尚早。

难道我们未来的会话,每一次都要等 AI 输出一个所谓样式精美、交互友好的网页吗?

我想我们和朋友闲聊的时候,不会希望它盛装打扮,更不会想他要化妆一小时,要我们原地等待他。

更不用说,在大多数用户接触到的 AI,即那些不针对编程、设计等特定领域的 AI,全部都是以对话的形式在交互,我们的会话或许并不需要一份精美的 HTML,现有的 Markdown 就已经足够了。

Claude Code 工程师这篇文章里也提到了 HTML 适用于哪些项目,例如要求 AI 生成一份详细的需求文档,包括规划项目和探索不同的设计方案、或是可视化代码审查和理解、制作交互原型,比如动画和动作效果、以及研究报告等使用场景。

而这些场景本来就是适合网页呈现的场景,用它来挑战 Markdown 的地位稍微有点胜之不武。

作者在最后得出的论点是 HTML 作为 AI 交付给人类的最终产物更好读。但他并没有主张用 HTML 作为 AI 的工作记忆或上下文格式,因为 Markdown 在这一领域目前就是所有 AI 的唯一解决方案。

Markdown 还是 AI 时代的 Word,那 Markdown 最终会走向哪里?

Markdown 是 AI 的工作语言,是上下文的载体,是 agent 之间传递信息的格式,但它可能不需要是用户最终看到的东西。HTML 或者未来某种更好的格式,是 Markdown 被渲染之后的界面。

HTML 挑战不用挑战 Markdown 的地位,它只需要承担补上 Markdown 从来就不需要承担的那个角色。

Markdown 可以是 HTML 的一部分,我们在网页上和 AI 聊天,AI 给我们的回复使用 Markdown,它此时是被嵌入到了 HTML 里。

未来的 Markdown 就像一块积木一样,它会被嵌入到 HTML、甚至是某种更精美的 XTML 语言里。

▲ 图片由 AI 生成

格式会一直往前走。HTML 是此刻的前台,但也只是此刻的。下一站可能是可交互的 3D 空间,再下一站可能是直接写进视网膜的信号流。

但无论前台换成什么,后台跑的还是 Markdown。它不会被取代,只会被遗忘。而在技术的世界里,被所有人遗忘,恰恰是一种格式最终胜利的方式。

每一代人都在争论下一个界面是什么。但真正活下来的,从来不是界面,是协议。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

smart 精灵 6 号开启预售:从城市小车到豪华掀背,smart 变大了,也变得更复杂了丨北京车展

作者 刘学文
2026年4月27日 13:28

在很多人的记忆里,smart 曾经是城市小车的代名词。

它小巧、灵活、带着一点玩具感,也带着一种很明确的都市生活方式表达。那时候的 smart,并不试图覆盖所有用车场景,它更像是一台适合在欧洲老城、上海弄堂、北京胡同之间穿行的小车。它的价值不在于「大而全」,而在于用一种足够鲜明的姿态,回答城市交通中「小而精」的问题。

但今天的 smart,已经不再只是一家小车品牌,奔驰负责设计底蕴,吉利提供新能源制造和工程体系,smart 也从过去的燃油小车,逐渐转向新奢智能电动车品牌。这种变化,在 2026 北京车展上表现得尤其明显。

一边是 smart 精灵 2 号概念车亮相,它试图回应 smart 经典两座小车的精神,让小车继续向精品化进化;另一边,smart 品牌首款豪华掀背轿车精灵 6 号正式开启预售,预售价 18.99 万元起。

这两款车放在一起,刚好构成 smart 当前的两条产品线索:小车继续负责灵动和个性,大车则要进入更主流、更复杂的家庭和长途出行场景。精灵 6 号,就是后者。

从城市小车到豪华掀背,smart 开始处理更复杂的用车需求

过去 smart 的核心印象是「小」,但精灵 6 号要面对的用户,显然不再只是单人通勤或双人城市出行。它需要满足一家人的空间需求,需要有长途出行能力,也需要在 20 万元左右的价格区间里,与一批更成熟、更卷配置的新能源轿车和混动车竞争。所以,精灵 6 号并没有把自己包装成传统意义上的运动掀背车,而是用了「新一代豪华掀背轿车」这个定位。

从设计上看,它依然试图保留 smart 的个性。车辆由梅赛德斯-奔驰全球设计团队操刀,灵感来自鲨鱼,整体姿态强调流线、低趴和力量感。相比传统三厢轿车,掀背结构天然带来更强的整体感,也让车尾拥有更大的开口和更强的功能性。

更有辨识度的是灯光系统。精灵 6 号搭载 PixelTalk 智感交互光阵,前后大灯共内嵌 10666 颗 LED 毫米级微点阵,支持官方灯效和用户自定义灯语。过去,车灯更多承担照明和辨识功能;现在,很多新能源车开始把车灯当成对外交流界面。比如迎宾、告别、充电提示,甚至一些简单情绪表达,都可以通过灯光完成。

这类设计是否必要,取决于用户是否愿意把车当作一种个性表达。但至少可以看出,精灵 6 号仍然没有完全放弃 smart 过去那种「有点好玩」的品牌性格。

进入车内,精灵 6 号的重点不只是屏幕,而是氛围。它的座舱被称为「全感超享生活舱」,其中有几个比较有 smart 特征的配置:星光涡轮出风口、近 800 处发光点、迈巴赫同款 256 色环抱式氛围灯,以及汽车行业首创的「飞碟」造型悬浮升降高频扬声器。

这些配置放在一起,形成的不是传统豪华车那种木纹、皮革和镀铬堆叠出来的庄重感,而是一种更年轻、更偏情绪价值的座舱表达。比如夜晚下班后上车,解锁、开门、扬声器升起、氛围灯亮起,这些动作未必会改变车辆的基础功能,但会改变人进入座舱那一刻的感受。对于今天的新能源用户来说,车不再只是从 A 点到 B 点的工具,也越来越像一个移动的私人空间。灯光、声音、屏幕、香氛、座椅,都会参与塑造这个空间的情绪。

音响方面,精灵 6 号搭载森海塞尔典范音响系统,全车 20 个扬声器,并且可以与氛围灯联动。对于一台主打年轻家庭和品质用户的车来说,音乐场景非常重要。它既可能发生在一个人通勤的路上,也可能发生在周末郊游返程时,后排家人休息,前排轻声播放一张熟悉的专辑。

相比简单强调屏幕数量,这种围绕听觉和氛围展开的座舱体验,更符合 smart 想要表达的「新奢」方向。

传统掀背轿车经常会遇到一个矛盾:外观姿态好看,但后排头部空间容易被压缩;尾门开口大,但车内垂直空间和后备箱规整度未必理想。尤其当这台车要进入家庭场景时,空间就不能只停留在参数上。

精灵 6 号延续了 smart 过去「四轮四角」的设计思路,官方给出的空间利用率达到 86%。后排头部空间为 963mm,后排膝部空间为 135mm,后排靠背支持最大 122° 电动调节。这些数字对应到实际场景里,大概是这样的:后排乘客不必用过于直立的坐姿换取头部空间;长途行驶时,靠背角度可以更放松;一家人出门时,后排不再只是临时坐人的位置,而是可以长时间乘坐的区域。

后备箱则是掀背车的优势所在。

精灵 6 号采用 SUV 式大开口尾门,开启高度接近 1.9m,开口宽度超过 1m,常规后备箱容积为 525L。满员状态下,它可以放下多个行李箱;放倒后排后,能够形成纵深接近 2m、接近纯平的储物空间。

这意味着它可以覆盖不少真实生活场景:周末带孩子骑车,把儿童自行车放进后备箱;短途露营时塞进折叠椅、天幕和收纳箱;搬家或采购时,放下几件大件物品。对于一台轿车来说,这种装载能力会显著拓宽它的使用半径。这也是精灵 6 号选择掀背形态的重要原因。它不是单纯为了好看,而是想在轿车姿态和 SUV 实用性之间找一个折中点。

动力方面,精灵 6 号采用雷神电混 EVO 发动机,热效率 47.26%。官方资料显示,车辆 CLTC 综合续航最高可达 1810km,馈电油耗为 3.9L/100km,并且只需要使用 92 号汽油。补能方面,电量从 30% 充至 80% 最快 15 分钟。

如果只是城市通勤,精灵 6 号可以更接近一台电动车使用。按照官方给出的场景,每天 20km 左右通勤,满电状态下可以覆盖较长时间的日常出行。用户可以在家里或单位完成低成本补能,减少加油频率。

到了长途场景,混动系统的优势会更明显。比如从北京去海边、从上海去周边城市,或者节假日跨省出行,用户不需要把路线完全绑定在充电站上。服务区排队、冬季续航衰减、目的地充电条件不确定,这些纯电车用户熟悉的问题,在长续航混动车上会被明显弱化。

动力方面,精灵 6 号搭载 P3 高性能驱动电机,峰值功率 200kW,峰值扭矩 380N·m,并具备 7 种智能混动模式。它并不是只追求低油耗,而是希望在城市、快速路、高速和亏电等不同工况下,自动选择更合适的工作模式。对于 18.99 万元起售的车型来说,这种「可电、可油、可长途」的能力,会是它进入主流家庭市场的重要基础。

底盘和安全,则是 smart 想补齐的另一面。精灵 6 号强调由梅赛德斯-奔驰全球专家团队联合调校,并配备采埃孚在国内首发的闭环转向系统、FSD 液压可变阻尼减振器,以及 4 档智能可调电动尾翼。

这些配置共同指向一个目标:让一台近 5 米长的大车,开起来不要显得笨重。

对于用户来说,底盘感受通常不会在短视频里被直观看到,但会在日常使用里持续出现。比如城市高架上的连续变道,车身是否有多余晃动;高速巡航时,方向是否足够稳;过减速带和破损路面时,悬架能否过滤震动;雨天急刹时,车辆是否能保持姿态稳定。

官方资料显示,精灵 6 号全系标配 255mm 宽轮胎,百公里干地制动距离为 33.87m,80km/h-0 湿地制动距离为 26.6m。车辆还以 131km/h 的速度通过 ISO 3888-1 标准高速麋鹿测试。这些数据需要在实际试驾中验证体感,但至少说明,smart 并不只想把精灵 6 号做成一台空间更大的家用车,也希望它保留一部分德系驾驶质感。

安全方面,精灵 6 号整车高强钢与铝合金占比达到 85%,热成型硼钢占比 16%,并采用笼式车身和神盾电池安全系统。针对掀背车型尾部结构,车辆加入「蜂巢抗侵环」结构,对 C 柱区域进行加固和结构优化。这类结构设计,尤其会影响后排和尾部碰撞场景下的保护能力。掀背车因为尾门开口更大,尾部结构天然更复杂,如何在造型和装载能力之外保证车身刚性,是它必须回答的问题。

智能化层面,精灵 6 号的一个关键信息是:全系标配激光雷达。官方资料显示,它搭载依托 WAM 世界行为模型的千里浩瀚智能驾驶辅助方案,高速场景下,全系标配高速 NSP,可实现自动变道超车、智能出入匝道;城市道路中,全系标配端到端城市无图 NSP,不依赖高精地图,也能处理部分复杂道路场景。

此外,精灵 6 号还提供智能泊车能力,覆盖垂直、平行、断头路、狭窄机械车位等场景。离车泊入过程中,用户可以中途介入,比如取放物品或乘员上下车,系统可识别并恢复泊车流程。这类功能对新手司机和家庭用户都很实际。很多时候,用户对智能驾驶的第一需求并不是「多激进」,而是它能否在高速长途中减轻疲劳,在陌生停车场里降低停车压力,在复杂城区里减少误判和紧张感。

18.99 万元起,精灵 6 号要面对的竞争比想象中激烈

从产品形态来看,精灵 6 号并不是一台特别容易被归类的车。它不是传统三厢轿车,也不是 SUV;它有接近 5 米的车长、掀背尾门、长续航混动系统、德系设计和底盘调校,还把激光雷达、智能驾驶和大空间作为核心卖点。它试图在个性、实用、长途、智能和豪华氛围之间找到平衡。

这也决定了它面对的竞争不会轻松。18.99 万元起的价格区间,正是中国新能源市场最拥挤的位置。这里既有主流自主品牌的插混轿车和 SUV,也有一批配置极高的纯电车型,还有越来越多强调智能驾驶、空间和家庭体验的新势力产品。消费者的选择很多,价格也被压得很紧。

在这样的市场里,smart 精灵 6 号不能只靠「奔驰设计」和品牌个性说服用户。它需要证明自己的混动系统足够高效,底盘调校足够成熟,智能驾驶足够稳定,座舱体验足够有记忆点,空间也确实能覆盖家庭使用。

它的机会在于,20 万元左右的市场并不缺大车,但缺少足够有个性的产品。很多车型把空间、续航、配置和价格做得很满,却很难让人记住。smart 精灵 6 号如果能把掀背造型、座舱氛围、长续航混动和德系驾控真正整合起来,就可能在高度同质化的市场中找到一条差异化路径。从这个意义上说,精灵 6 号是 smart 变大的结果,也是 smart 变复杂的开始。

它不再只是城市里灵巧的小车,而是一台要承担家庭、长途、智能和品质感的主流产品。对于 smart 来说,这一步能否走稳,将决定它能不能从「有个性的品牌」进一步变成「有规模的品牌」。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌