普通视图

发现新文章，点击刷新页面。

昨天以前爱范儿

爱范儿
新乐道 L60 上市发布，换电 13.58 万元起，不再做「Model Y 杀手」，要做蔚来的旗舰技术普及者刘学文
2026年6月12日 11:24

新乐道 L60 上市发布，换电 13.58 万元起，不再做「Model Y 杀手」，要做蔚来的旗舰技术普及者

爱范儿

作者刘学文

2026年6月12日 11:24

两年前，乐道 L60 第一次站到台前时，身边总有一个绕不开的影子：Model Y。

先是在 2024 年 5 月 15 日，乐道品牌正式发布，L60 亮出 21.99 万元预售价，比当时的 Model Y 便宜 3 万元。那场发布会选在了一个并不被多数人知道的节日–国际家庭日，几个月后，L60 正式上市，价格又往下走了一步。标准版 20.69 万元，长续航版 23.59 万元；如果采用电池租用方式购买，车价来到 14.99 万元起。那时外界看乐道，最容易记住两个标签：比 Model Y 便宜，以及背靠蔚来的换电体系。

到了 2026 年 6 月 11 日，新乐道 L60 上市并开启全国交付，随着蔚来公司整体经营状况向好，L60 取代 Model Y 的野心也不再那么赤裸，但产品力革新并未收着，因为市场竞争的焦点已经不是定点围殴特斯拉了，而是从一超多强的局面，变成了群雄混战。

高配版比前代入门版还便宜，新 L60 搭载 ES9 同款辅助驾驶技术

新乐道 L60 整车购买 19.28 万元起，采用 BaaS 电池租用方式购买的话，车价 13.58 万元起。新车提供 Pro、Max+ 和 Ultra+ 三个版型，围绕外观内饰、智能驾驶、二排舒适、能耗、补能和个性化配置做了六大维度 106 项升级。

先看价格和版型。

Pro 版指导价 19.28 万元起，BaaS 方式 13.58 万元起，标配全域 900V 高压架构、外后视镜辅助驾驶小蓝灯、高通骁龙 8295P 座舱芯片、29 个高感知智能硬件和女王副驾座椅，继续搭载英伟达 Orin X 芯片，采用纯视觉智驾方案。

Max+ 版整车购买 20.28 万元起，BaaS 方式 14.58 万元起。它在 Pro 版基础上，标配蔚来自研神玑 NX9031 智驾芯片、高精度激光雷达，并搭载最新蔚来世界模型 NWM。

Ultra+ 版整车购买 22.28 万元起，BaaS 方式 16.58 万元起，进一步加入 20 英寸轮圈、高性能四驱系统、Nappa 主题豪华内饰和后排舒享娱乐套装。

在 2026 年 6 月 30 日（含）前大定并锁单的用户，还可享至高价值 53000 元的首发权益，包括限时选装 6 折、5000 元选装基金、0 首付起 3 年免息金融方案、乐道智能辅助驾驶 5 年免费使用权和 3000 提车积分等。

3 个款车型分工明确：Pro 负责把门槛压低，Max+ 负责把「蔚来旗舰智能」放进 20 万出头，Ultra+ 负责给那些想一步到位的人一个相对完整的答案。

对于真正有选购需求的人群来说，新乐道 L60 Max+ 版本毫无疑问是最具性价比的。这个版本 20.28 万元的售价，比初代 L60 入门版的售价，还便宜 4100 元。

增配降价不是最重要的，因为它新增的配置，本质上是把蔚来过去旗舰叙事的几样东西下放到了 20 万级中型 SUV 上：神玑 NX9031、激光雷达、蔚来世界模型 NWM，以及 SkyOS·天枢。

上代乐道 L60 全系都采用纯视觉系统，而且均采用英伟达 Orin X 芯片，在传感器配置和算力上都不算顶尖。不过对用户来说，芯片不是信仰，激光雷达也不是车头上的荣誉勋章。用户在乎一些实际的场景：比如夜晚能不能看得清，窄路会不会慌，城市路口是不是像新手司机一样犹豫，泊车能不能不折腾，高速领航能不能少让人精神紧绷。

而在新乐道 L60 发布会现场，李斌宣布新乐道 L60 智能辅助驾驶完成极窄溶洞隧道 0 接管挑战。按照官方描述，这条隧道全程 540 米，最窄处限宽 2.5 米，并且有连续急弯。这是一个极端且集大成的场景，能解释暗光感知、也可以直接提现环境理解和推理能力的价值。

L60 不再做「Model Y 杀手了」，它更应该成为一个五座爆款

再看空间和舒适。

两年前乐道 L60 亮相的时候，有个细节是横跨整个后排的大桌板，因为它不只是一个配件，更多的是在展示一件事：如果后排不够大，你连这种略显夸张的家庭场景都没法成立。此外还有 52L 后备箱冰箱、70 多个原生配件、磁吸式遮阳帘、后备箱收纳组合。

这些东西听起来不如芯片高级，却很像真正的家庭车。因为家庭用车的现实，本来就不是高概念，而是一堆具体麻烦。孩子要看动画，老人怕晒，路上要放水和零食，露营要带食材，过年要装海鲜，宠物、行李和人的情绪都要被安排好。车企讲家庭时很容易讲成温柔滤镜，但用户每天面对的，其实是这些鸡零狗碎的具体场景。

新乐道 L60 继续把这个方向往前推。它在中型 SUV 尺寸里强调越级空间，同时加入 17.3 英寸 3K 影院级天空娱乐屏、前后两段式车顶遮阳帘、6L 智能冷暖箱、二排右侧折叠小桌板。官方称 Pro、Max+ 用户可通过限时权益价选装后排舒享娱乐套装，Ultra+ 则直接标配。

这不是豪华最传统的样子，却是 20 万级家庭 SUV 里越来越重要的豪华：木纹、皮革和香氛这些固然可以告诉你这车很贵，但是让后排的人少抱怨一点多舒服一些，才是家庭车的豪华感。

纯电底子上，新乐道 L60 延续全域 900V 高压架构。官方披露，后驱版 CLTC 能耗低至 11.9kWh/100km，85kWh 长续航电池 CLTC 续航可达 740km；整车轻量化系数低至 2.22，后驱版整备质量 1885kg，相比同级纯电车型普遍轻 300kg 以上。

在电动车早期，用户最关心续航；后来关心充电；再后来，越来越多人开始关心能耗。因为续航解决的是焦虑，能耗解决的是日常算账。它不像百公里加速那么好传播，却会在每一次高速、每一次开空调、每一次补能时慢慢体现出来。

而换电，依然是乐道最特殊的牌。

2024 年正式上市时，乐道可用换电站数量还是 304 座，并计划到当年年底超过 1000 座。到了这次新乐道 L60 发布，官方给出的数据是：截至 6 月 11 日，蔚来能源已在全国建成 8968 座充换电站，其中高速公路换电站超过 1043 座，平均 180km 就有一座换电站。

蔚来过去几年做了很多重的事：换电网络、服务体系、自研芯片、整车操作系统、销售服务网络。这些投入在高端市场可以变成品牌体验，在资本市场也可能变成成本压力。乐道的任务，就是把这些重资产翻译成主流市场里的效率。

如果蔚来的旗舰技术和补能体系只服务 30 万、40 万以上车型，它们是高端品牌的壁垒；但如果这些能力能进入 20 万级家庭 SUV，并被更多用户高频使用，它们才有机会从成本变成规模。

所以，新乐道 L60 从来都不是更便宜的蔚来，而是蔚来公司整个体系里让商业模式正常运转起来的重要部分。

这也是它和 Model Y 之间真正有意思的差异化地方。

两年前，乐道对标 Model Y，重点还是价格、空间、能耗、补能和家庭定位。Model Y 是电动车时代最成功的中型 SUV，它证明了一个基本事实：家庭用户愿意为电动化、智能化和品牌确定性付钱。

但今天的竞争已经变了。

20 万级纯电 SUV 的问题，不再是谁更像 Model Y，而是谁能给出 Model Y 之后的新答案。这个答案可能包括更完整的后排体验、更本地化的辅助驾驶、更灵活的补能方式、更低的五年使用成本，也包括一个用户看不见但每天都在受益的公司体系。

蔚来这家公司有趣的地方在于，车越贵卖得越好，ES8 连续大半年都是公司内部的销冠车型，乐道品牌内也是 L90 比 L60 卖得更好。新乐道 L60 凭借较低的 BaaS 价格，以及满血级别的蔚来辅助驾驶能力，有希望扭转一下这种局面，虽然大六座 SUV 是车企进行品牌和技术升级的必经之路，但五座 SUV 仍是市场主流。

蔚来想要跻身主流车企行列，把年销量做到百万级，那么新乐道 L60 的战略意义就比想象中更重要了。

刘学文

稳中向好。

邮箱新浪微博 1

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

世界模型赛道，VAST 选了一条还没有人走过的路

爱范儿

作者张子豪

2026年6月1日 17:05

今年除了 Agent 赛道，世界模型也成为 AI 行业新的必争之地，前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资，世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派，它们有着不同的技术路线，如杨立昆的 JEPA 派，是做抽象表征预测；李飞飞的空间智能派，用 World Labs 的 Marble 在做显式 3D 重建；DeepMind 的学习型仿真派，推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者，甚至是 AI 教父/教母，都在说大语言模型的文本训练范式已到瓶颈，AI 要理解物理世界必须靠世界模型，但到底要做什么样的「世界模型」，没有一个达成共识的定义。

这几天，AI 公司 VAST 完成了 A+ 及 A++ 轮的融资，合计金额近 2 亿美元。而在今年三月初，VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST，可能会有点陌生，但是 Tripo 3D 生成是不是很耳熟？我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法，就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片，转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示，从第一天开始，VAST 真正在做的，就是解锁下一代互动内容的底层基础设施，也是为通用人工智能打造专属世界底座。

这件事被拆成了两步，第一步完成「造万物」；第二步实现动态「造世界」，为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物，是用 AI 3D 生成那些符合管线标准的资产；造世界，才是世界模型要干的事，理解空间尺度、状态演化，从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界，曹炎培认为，资产只是「世界底层的状态」，离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于，过去的世界模型把状态和画面压在一个模型里一起预测，VAST 把这两件事拆开，底层单独维护一个世界状态，上层按需渲染画面。

这样做的好处是，状态独立存在，物体离开镜头不会消失；一个状态可以同时给多个人渲染不同视角，多人交互并发自然成立；用户对世界的改变会真实留在状态里，下一个进来的人看到同样的结果。

VAST 推出的 Project Eden，正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了，世界模型的状态和画面为什么要拆开，又为什么是 VAST 先采取这样的方式？

画面流畅不等于世界在运转

视频生成做得更流畅，可以叫世界模型。静态 3D 场景能走动，叫世界模型。能控制视角，也能叫世界模型。

世界模型这个词，似乎什么都能往里装了。

Google Genie 的演示视频里，玩家在里面操控一个角色，往前走，画面跟着生成。但可能一转身，背后的场景就改变了，或者出现从没存在过的东西，因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型，本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派，在他们的技术实现里，世界模型就是预测下一帧，给模型喂动作输入，让它生成接下来的画面，反复接龙，就能模拟一个世界。

曹炎培管这种叫「一镜到底」，空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开，那个位置的状态没人保管，等你回头，模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了，它记住的不是世界，是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World，可以被称为空间智能派，能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来，让 AI 真正理解几何和物理关系，再谈其他。

例如，World Labs 的 Marble 能生成一段有限范围的世界，我们可以在里面自由游览。在这个生成的固定世界里，视角一致性解决了，因为 3D 资产是静态的。但同时，这个世界也丢失了时间维度，场景永远停在生成那一刻，没有物理变化，没有事件发生，没有因果关系。

▲ 生成的世界是固定的，灯不会随着时间的流逝熄灭，天也不会亮

我们能走进去，但什么都改变不了，也没有什么会因为我们的行为而变化。

对 VAST 来说，世界模型不能只是去生成像素，也不能只是一个静态空间。

一个可交互的世界模型，必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态，而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里，那就彻底把它们拆开。

就像我们玩的大世界游戏一样，游戏的服务器会维护着一套世界状态，谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态，结合本地文件夹里上百 G 的游戏文件，做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统，有人进入我们的大世界，大家还是共享同一个静态文件的底层世界，各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的，就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑，设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态，管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑，完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作，系统首先更新的就是这套底层状态。

中间是转换层，它会根据「当前是谁在观察、从哪个视角观察」，把世界状态转换成一组局部条件信息。像是做了这个动作之后，这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染，基于这些条件，把画面真正「画」出来，补足光照、材质、动态细节。

这么一分拆，视频模型的职责就只剩一件事：当一个高质量的渲染器。它不用记住整个世界，也不用猜某个物体还在不在，那些都交给底层状态。它擅长的本来就是画得好看，现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后，训练数据也跟着变了。

在 Project Eden 的定义里，真正适合训练世界模型的数据，得同时包含两层信息：底层的推演状态，和高质量的视觉画面。两层对不齐，就不算「原生数据」。

数据从哪来？

VAST 利用 Tripo 长期积累的 3D 基础模型能力，对海量的互联网 2D 视频进行反向解构，恢复深度、相机位姿、几何轨迹等信息，重新还原背后的空间状态。

曹炎培直言，如果没有这套 3D 理解和生成能力，「我们可能都没法开始做世界模型」。

另一方面，从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据，形成「状态-结果」的完全对应数据，模型便能学到，一个动作发生之后，世界状态会如何演化。

互联网视频负责泛化和广度，引擎数据负责精准和控制，缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后，这种架构层面的差异，在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景，往前走或是做出其他动作，都是在原有的场景上进行活动。底层状态一直在那里，从没消失过，不需要从历史帧重建。

这件事听起来平淡，对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界，也是同样的道理。两个玩家进入同一个底层状态，玩家 A 推动箱子到达了点位，玩家 B 看到的也是同步的箱子位置。在这套解耦架构里，多个玩家共享的是同一个世界底座，状态只有一份，渲染各算各的。

根据一些 Demo 的表现，VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速（不同屏幕）的场景。在纯视频框架下，几乎没有办法做这件事，它必须依靠一个唯一的全局状态。

打靶的例子更能说明问题。当玩家用水枪发射，系统可以确定性地判断当前朝向和靶子的相对位置，精确计算是否击中，记录得分，这个结果永久留在状态里。

同样一件事丢给视频生成，它能生成一段「水柱击中靶子」的画面，却无法把这个结果可靠地存下来。

视频生成模型擅长的是像不像，不是对不对。世界模型要的恰恰是后者，曹炎培说，一个模型如果没法对动作做出正确的预测和推演，「也很难叫它世界模型」。

还有动作类型的泛化。以往大多数世界模型能支持的动作，说白了就是上下左右加跳跃，方向键能做的那几种。

在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势，状态推演只需要学「给定这个动作，下一个状态是什么」，不用同时学「这个过程看起来怎样」，比搅在一起学省力得多。

这些能力拼在一起，才像一个真正在运转的世界，而不是一段画质很高的动态视频。

Eden 的架构，为世界模型提供了新可能

虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览，但其背后的架构选择，为行业提供了一条值得长期关注的探索方向。

世界模型这个词现在人人都在说，但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展，除了有算力和融资量的因素，路线本身也在筛选玩家。

纯视频路线的世界模型，消耗的算力可能是生成一段 Sora 视频的成百倍，结局可能会像 Sora 一样在商业上此路不通。

但如果状态维护放云端，画面渲染做到端侧，像本地图形渲染一样，用户不必为每一帧付费，事情就不一样了。

VAST 提到他们现有的 3D 生成技术积累，恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构，提取深度和几何轨迹，把普通视频转化成带状态标注的训练数据。

而随着 Project Eden 的推进，在未来，随着多人并发问题在工程层面进一步解决，它或许还将颠覆现有的传统 DCC 工具，如 Blender，与类似 UE、Unity 等游戏引擎。

世界模型将不再按单次生成收费，是作为基础设施在内容分发、运行时进行，类似游戏引擎或云服务商的座席模式。

一方面，它是一个 AI 原生的沙盒平台，用户只需要通过自然语言或简易动作，就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界，极大地降低了内容创作的门槛。

VAST 想做的，是把造世界这件事的门槛，压到拍照那么低。类似于 UGC 互动内容平台，生成的世界也可能像短视频一样进入我们的生活，成为新的互动娱乐生态。

另一方面针对科研和产业，它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境，能成为适配具身智能训练与性能评测的高质量仿真基座。

世界模型，就这样越来越接近一个真正持续运转的世界底座。

曹炎培在内部把路线划成三个里程碑：

第一步，验证状态推演和画面呈现真能完美解耦，Project Eden 放出的 Demo 就是在交这份答卷；

第二步，攻克状态预测的泛化，让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果；

第三步，才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化，他预计是一件非常中长期的事。

与最早人们还会争论 AI 生成的图片/视频像不像，到现在 AI 可以一次性直出，海报、宣传视频，AI 都能搞定这件事一样，世界模型大概也在这条路上，从谁的画面更真实，变成谁的世界能够持续运转、更稳定承载多人交互，以及沉淀越来越多用户创造的内容。

从预测下一帧像素，到推演下一个状态，世界模型的终点开始清晰了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。