普通视图

发现新文章,点击刷新页面。
昨天以前首页

从智能驾驶到「智能一切移动」,卓驭想做移动物理 AI 的底层基座丨北京车展

作者 刘学文
2026年4月26日 17:13

过去几年,智能驾驶行业的关键词一直在快速变化。

从高精地图到无图 NOA,从感知、预测、规划、控制的模块化架构,到端到端模型,再到最近行业频繁讨论的 VLA、世界模型和物理 AI,智能驾驶已经不再只是「让汽车自己开」这么简单。它正在成为一个更大的技术问题:AI 如何理解真实物理世界,并把这种理解转化为稳定、可靠、可泛化的移动能力。

汽车只是其中最早、也最复杂的载体之一。因为车辆必须在开放道路中面对行人、车辆、红绿灯、施工、极端天气和不同国家的交通规则,它需要同时处理感知、决策、控制和安全冗余。也正因为如此,智能驾驶过去几年积累的技术、数据和工程能力,正在向商用车、无人物流、Robotaxi,甚至更广义的移动机器人外溢。

在 2026 北京车展上,卓驭科技以「智能一切移动」为主题举办发布会,正式推出面向移动物理 AI 的原生多模态基础模型,并展示了其在乘用车、商用车、无人物流和 Robotaxi 等多个垂类的规模化落地进展。相比单纯发布一套智驾方案,这次发布会更像是卓驭对自身定位的一次更新:从智能驾驶供应商,继续向移动物理 AI 公司延展。

原生多模态基础模型,把智能移动能力做成通用底座

智能驾驶进入下半场后,一个关键问题开始浮现:系统能力能否从单一车型、单一城市、单一场景,迁移到更多载体和更多区域。

早期的小模型方案,主要依赖感知模型、高精地图和规则算法。它可以在特定区域做到相对稳定,但每进入一个新城市,都需要大量适配工作。后来端到端模型提升了通用基础能力,减少了规则依赖,也让 NOA 的体验更加接近人类驾驶习惯。不过,面对海外市场、商用车、无人配送车、Robotaxi 等不同垂类时,端到端系统仍然需要大量重新泛化。

卓驭这次发布的原生多模态基础模型,正是试图解决这一问题。按照卓驭的说法,这套模型面向「移动物理 AI」构建,在底层完成对物理世界通用规律的预训练,支持视频、文本、动作、语音、地图等多模态统一表征。它的训练数据不只来自智能驾驶,还覆盖互联网数据和各类移动机器人第一视角数据,并注入跨领域、跨国家知识。

这意味着,卓驭希望把移动智能的能力从「车」抽象到「移动载体」。当模型具备对物理世界更底层的理解后,不同国家、不同道路、不同平台之间的适配成本有机会被降低。它的目标,是实现 Zero Shot 零数据知识迁移,做到跨垂类开箱即用,或至少大幅减少泛化工作。

这也是它与部分 VLA 方案的区别。常见 VLA 路径往往需要从传感器输入到语义理解,再到动作输出,中间存在显式语义翻译环节。卓驭强调,其原生多模态基础模型是在统一框架下完成训练,避免语义翻译带来的延迟和信息损耗,让语义理解与物理理解更紧密地结合在一起。

从行业角度看,这一路径的价值不只在于提升智能驾驶体验,更在于为多种移动机器人提供统一能力底座。乘用车、重卡、客车、无人物流车和 Robotaxi 面对的场景差异很大,但它们都需要理解空间、运动、规则、风险和目标。如果底层模型可以沉淀出通用能力,智能移动的规模化部署将不再完全依赖逐一项目制适配。

当然,基础模型只是第一步。真正进入量产,还需要后训练、蒸馏、部署、芯片适配、传感器融合和安全冗余。卓驭此次开放了原生多模态基础模型的乘用车试乘体验,体验车基于英伟达 Thor 平台,采用 11V 视觉方案与激目 2.0 系统。按照规划,该模型将于今年内推送至乘用车与商用重卡,并作为卓驭智能驾驶出海的基础模型。

从乘用车到重卡、客车和 Robotaxi,规模化交付决定技术上限

如果说原生多模态基础模型代表技术趋势,那么卓驭这次在北京车展上展示的另一条主线,是规模化交付。

智能驾驶行业过去并不缺概念,真正稀缺的是把技术放进量产车、真实道路和长期使用场景里的能力。卓驭在 2025 年提出「移动智能基座」构想,本质上就是希望通过软硬一体方案,把智能驾驶能力做成可以跨车型、跨价位、跨场景复用的基础设施。

在乘用车领域,卓驭目前累计量产车型超过 50 款,定点车型达到三位数。它强调的是「油电同智、中外同频、舱驾同芯、行泊同优」:无论燃油车还是新能源车,自主品牌还是合资品牌,都能共享同一梯队的智能化体验。

这背后也反映出一个变化:智能驾驶正在从高端新能源车型的专属配置,逐步向更大价格带、更大车型范围下沉。卓驭基于高通 8775 芯片打造了单芯片舱驾一体方案,试图用更高集成度降低智能化部署门槛。今年 4 月起,所有搭载高通 8650 和 8775 芯片的车型,将陆续升级至高悟性端到端 4.0;搭载 TI TDA4-VH 芯片的中低算力平台,也将逐步升级至高悟性端到端 3.0。

商用车是卓驭这次发布会的另一个重点。重卡对智能驾驶的需求很实际:安全、油耗、长途驾驶疲劳和运营效率。卓驭已经与中国 TOP 6 商用车品牌建立合作,搭载高悟性端到端 4.0 商用重卡版的车型,将于今年 6 月起陆续量产交付。

重卡方案中,卓驭引入了激目 2.0 系统,也就是舱内激光视觉前融合方案。它针对重卡尺寸大、清洁维护不便、安全冗余要求高等特点设计,可以在不同速度场景下调整感知能力:低速城区场景覆盖更大范围交通参与者,高速场景则提升远距离探测能力和点云密度。搭载该方案的车型计划于今年 9 月正式量产交付,功能覆盖高速 NOA、城区 NOA 和自主泊车。

客车方面,卓驭已与宇通客车达成战略合作,双方将联合开发面向商用客车的 NOA 智能驾驶解决方案。该方案搭载激目 2.0 系统、自研自产补盲激光雷达「知周」、基于英伟达 Thor 芯片的高性能控制器,并应用下一代原生多模态基础模型。对于客车而言,智能驾驶的优先级并不只是效率,更关乎公共交通场景下的安全和稳定。

无人场景也在同步推进。卓驭计划于今年 7 月启动无人物流车试运营,并与生态伙伴推进 L4 级 Robotaxi 系统落地,预计今年下半年开启试运行。Robotaxi 将搭载下一代原生多模态基础模型,并配备卓驭自研自产、基于双英伟达 Thor 芯片打造的三冗余 L4 级控制器。

截至目前,卓驭已携手 34 家客户,合作车型突破 130 款。这个数字的意义不只是客户规模,更在于真实道路数据和工程反馈。对智能驾驶公司来说,模型能力往往来自数据闭环,工程能力则来自量产压力。只有经历不同品牌、不同车型和不同用户场景,技术路线才有机会持续迭代。

本次发布会上,卓驭还宣布与中国一汽达成深度战略合作。在乘用车领域,红旗与卓驭联合开发的红旗司南组合驾驶辅助已在红旗 HS6、天工 05、天工 06 等车型量产,高悟性端到端 4.0 模型将在今年上半年通过 OTA 升级上线。车展亮相的红旗天工 S 概念车,则采用基于卓驭原生多模态基础模型的新一代架构,并搭载 L3 / L4 智驾解决方案。

商用车领域,一汽解放与卓驭的合作也已进入产品落地阶段。基于激目 2.0 系统与高悟性端到端 4.0 模型打造的解放 J7、鹰途和 J6 重卡高速 NOA 产品,将于今年下半年上市。

从这些布局来看,卓驭想讲的并不是单一智驾版本升级,而是一个更大的移动智能网络:乘用车提供规模,商用车验证高强度运营,Robotaxi 和无人物流探索无人化边界,车载无人机则把移动载体从地面进一步扩展到近地空间。

智能驾驶过去常常被看作汽车行业的一项配置,但从北京车展释放的信息来看,它正在变成一类新的基础能力。未来,竞争的焦点会逐步从「某个城市能不能开」转向「能不能跨场景、跨品类、跨地区复用」。谁能把能力做成底座,谁就有机会进入更大的移动机器人时代。

对卓驭而言,原生多模态基础模型只是这条路径上的起点。真正的挑战在后面:如何把模型能力稳定部署到不同算力平台,如何在真实道路中保持安全边界,如何在海外市场减少泛化成本,如何让商用车、无人物流和 Robotaxi 都形成可持续商业闭环。

当 AI 开始进入物理世界,移动会是最先被重塑的领域之一。汽车、卡车、客车、配送车、无人机,本质上都在回答同一个问题:机器如何理解世界,并安全地抵达目的地。卓驭这次提出「智能一切移动」,野心正在于此。能否真正做到,还要由量产规模、用户体验和长期安全表现共同验证。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,姚顺雨腾讯首秀来了!三个月重建混元新模型,实测到底什么水平

作者 张子豪
2026年4月23日 17:08

这周,中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布,月之暗面的 Kimi 2.6 就马上登场,DeepSeek V4 也箭在弦上。

刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。

姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。

从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。

这个大版本升级的混元模型,在短时间内,不仅对底层基础设施进行了系统性重建,还包括预训练和强化学习在内的底层框架,全部推倒重来。

最后的答卷是一个快慢思考融合的 MoE(混合专家)语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。

在这个行业动辄吹嘘万亿(1T+)参数的时代,Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡,让模型能更好落地在不同场景。

而 300B 这个量级,复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活;如果继续强行扩大规模到万亿参数,一边是训练时间加倍,在实际的表现上,也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。

不过,姚顺雨也提到,他们在继续扩大预训练和强化学习的规模,提升模型的智能上限。

在多个真实生产和生活场景 benchmark,以及腾讯混元的 CL-bench 上表现对比前代,提升幅度明显。

因此,Hy3 preview 这次的定位非常明确,要到真实世界去解决复杂工程问题。

为了验证 Hy3 preview 是否能在真实世界去解决各种问题,具体的模型表现如何,APPSO 也提前拿到了内测资格,在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。

编程和 Agent,混元开始接住真实的工程需要

编程能力目前还是各家大模型发力的重点,前几天还有外媒报道,谷歌正在成立一个新的团队,专攻 AI Coding。

这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上,能够适用于编程和现在热门的智能体场景。

例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例,来看看 Hy3 preview 的具体表现。

▲提示词:创建一个超写实的旧金山金门大桥交互式 3D 体验,允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景,并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角(包括近距离结构穿梭和大场景俯瞰)平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时,务必从多个距离和角度环绕大桥飞行,验证导航的平稳性与稳定性,并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”,必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成,如果需要,即使耗时一小时也可以。请不断迭代,直至完美。

虽然最后的结果并不是非常写实,主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑,我们能使用 WASD 键来控制自己第一人称视角的飞行,同时 Hy3 preview 也自动写了一些默认视角。

而在让它写一些简单的小游戏时,像是同样来自 GPT-5.4 的提示词,做一个游乐场的经营类小游戏。

▲提示词:创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格,并生成全套游戏资产,包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现,艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动,同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法,以及简单的公园管理系统(如资金、清洁度、排队和满意度)。确保整体体验充满趣味、逻辑清晰且完整,而非粗糙的原型。在优先级上,趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时,务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅,确认游客对公园布局及景点的反应,并确保视觉效果、UI 以及交互体验稳定且统一。

还是不可免俗的使用了「渐变紫」的套装,只能说界面审美这一块,除了编程能力的提升,还是需要额外的一些微调。

好在整个游戏是能玩的,我们可以真实的经营这个游乐场,通过铺路、放置新的游乐设施以及服务设施等场地,来赚取收入,控制人流。

而经典的「骑自行车的鹈鹕」测试,我们把它换成了更难一点的,开着汽车的长颈鹿。生成的 SVG 画面是动态的,太阳、云朵和车子都在移动,基础的 SVG 元素都能做到。

这些关于编程能力的测试,我们都是在腾讯前段时间推出的智能体应用 WorkBuddy 内完成。

而除了代码开发的任务,我们还可以使用 WorkBuddy 进行文档处理、数据分析可视化、深度研究等方面的日常办公。

由于 WorkBuddy 也是一个本地 Agent 产品,和 Claude Code、Codex 之类的应用一样,我们可以让它直接访问本地文件夹的文件。

要求它访问电脑上 Hy3 文件夹里面的全部文件,并根据文件的内容,创建一个类似于 Wiki 的网页,能够直接索引到不同的文件。

WorkBuddy 读到了我们创建的不同项目,例如要求它完成的落地页、3D 金门大桥、个人博客、运营游戏等项目,并分类总结好。

再要求它把其中一个香港国际电影节的 PDF 文件转成 HTML,要求它 1:1 复刻精美的杂志效果,显然太为难它,但是 Hy3 preview还是能在非常规排版的 PDF 文件里,准确定位到信息,并整理成网页。

而在深度研究的调研任务上,我们要求他写一份关于内存市场洞察报告,给出的文档内容详细,使用的数据来源也全是权威机构。

继续用 WorkBuddy 内的数据分析及可视化任务来测试时,要求 Hy3 preview 基于联合国人口司的数据,做一次全球人口结构变迁的可视化分析,Hy3 preview 花了非常长的时间进行调研,最后给出的研究报告,可以说能直接拿过来用。

▲部分可视化图表截图

这些编程和智能体的能力,配合 WorkBuddy 能发挥到最大。在元宝 App 内,现在我们也可以让它生成一些小型的网页游戏,在对话框里就能预览打开。

闲聊,要做到「活人感」不容易

前段时间,一个短视频在网上传播,视频内容是一位乘客看到前排的司机,在手机上和 AI 助手聊天,他告诉 AI 自己一天收入,AI 会给他一些反馈。

有网友在下面留言,说以前这些聊天都是 200 块一小时的心理咨询,现在手机发条消息就能做到。

无论模型在代码开发、解数学题、科学研究上取得了多少成功,大多数人用 AI 的场景,占比较多的还是各种类型的角色扮演。

我们也测试了腾讯混元新一代大模型 Hy3 preview 在日常聊天以及创意写作上的表现。

没有「不躲不逃不藏的只用最直接」的方式跟我说,有的是真实地能解决问题的文字。打开元宝 App,点击深度/快速思考,选择模型 Hy3 Preview,问它「为什么我在广州找不到爱情」。

它的回复是客观和主观两方面并行的,会分析除我之外的原因,也会告诉我应该要怎么做。

在聊到一些可能找到明显原因的困惑时,Hy3 preview 还会自动生成对应的表格,来解释 AI 并不是只会顺从。

创意写作的任务上,Hy3 preview 模型的表现,也要比前代更有文采和个性化风格,即便是简单的生活文案,人情味也更明显了。

我们找了一些基础的风格模仿任务、叙事节奏的续写、语言的创作力和情绪张力等题目,来测试它。

生成的写作结果,在独特性、执行精确度,以及风格稳定性上的表现,确实要更符合我们人类写作的特点,没有 AI 那种明显的套话。

那道经典的走路去还是开车去洗车问题,Hy3 preview 也答上来了。

当所有人在做一套卷子,混元开始出卷

过去两年多,中国 AI 行业有一种集体焦虑:所有人都在做同一件事。同样的架构,同样的训练范式,同样的榜单,同样的新闻稿模板。模型发布会的 PPT 换个 logo 就能通用,「全球领先」「性能登顶」这些词被用到通货膨胀。

腾讯曾经也在这个队列里。别人打榜它也打榜,别人堆参数它也堆参数,别人做什么功能它追什么功能。结果是混元的技术投入不少,但市场感知始终模糊。你问用户「混元跟别家有什么区别」,大概率答不上来。

Hy3 preview 的意义,可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。

此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断:模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。

榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。

所以在 Hy3 preview 上, 就能看到混元开始把这个逻辑翻了过来:不追榜单,追场景。

▲去年一份报告就曾指出, AI 在各类基准测试上的分数一路飙升,benchmark 过于饱和,这些成绩往往并不能真实反映它对现实世界的实际影响。

295B 的参数量说明它不打算在模型尺寸上硬碰硬。不上公开榜单说明它不打算在刷分上继续内卷。Co-design 的研发模式说明它开始把注意力从「别人做了什么」转向「我的用户需要什么」。

这里就不得不来看看腾讯这家公司的核心业务场景,社交、游戏、广告、企业服务,每一个都有极强的领域特殊性。微信的对话流是碎片化的、高密度的;游戏需要模型根据实时局势做即时反应;企业微信和腾讯会议需要基于私有文档的精准分析。

▲ Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

这些场景对模型的要求,跟通用智能榜单上考核的那些指标并不完全匹配。一个在 MMLU 上排名前三但在微信群聊里读不懂语境的模型,对腾讯来说毫无意义。

换句话说,腾讯可能是中国大厂里最不应该去追通用榜单的那一个。它手里攥着的场景足够独特、足够复杂、足够有商业价值,完全可以走出一条自己的路。

Co-design 就是这条路的起点。模型在真实业务里跑,业务用真实数据反哺模型,腾讯对 AI 的巨额投入能得到场景的快速验证,同时获得商业上的闭环。这个飞轮一旦转起来,产生的壁垒比榜单上的排名坚固得多。

当所有人都在比谁的模型更「全能」的时候,谁的模型在自己的场景里最「好用」,可能才是真正的胜负手。

当然,「找到节奏」和「赢下比赛」之间还隔着相当的距离。

Hy3 preview 是混元重整后的第一个模型,三个月的研发周期说明执行力在线,但也意味着大量的优化空间。55% 到 56% 的盲评胜率说明它够用,距离拉开差距还早。更大尺寸的模型在路上,正式版还在根据 Preview 阶段的用户反馈持续打磨。

但至少有一件事变了:混元不再追着别人的地图跑了。它开始画自己的地图,标自己的路。

大模型竞争走到今天,同质化才是最大的风险。当所有人都在用同一把尺子量身高的时候,有人开始造自己的尺子,量自己真正需要的维度。

这件事本身,比任何一榜单参数都值得关注。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌