普通视图
云南蓝莓实现重点地区“次日达”
深圳水贝下架“投资金”
长安汽车:获得首块L3级自动驾驶专用正式号牌
美国旧金山大规模停电,超12万居民受影响
中国机器人在格斗机器人大赛中夺冠
王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访
文|富充
编辑|苏建勋
四天前,“大晓机器人”的小红书发了一条视频,标题是:晓刚老师养了十只狗。
视频中,大晓机器人董事长,也是商汤科技的联合创始人王晓刚,站在十个不同形态的机器狗后面,他没有拿遥控器,手一挥,说着“任务已下发,出发”。
机器狗们闻声而动:有的去路面寻找车辆违停,拍照并回传;有的去城市禁飞区域排查违规无人机信号,且在找到操作者后发出语音警告。
“过去的一条狗,可能要两三个人工作人员‘伺候’。未来,一个人在远端控制室,就能管理一支队伍。” 王晓刚描述到。
在12月18日“大晓机器人”的发布会上,王晓刚也给出了大晓机器狗的落地场景:可以作为机器狗“城管”进行街面巡查,目前就正在与徐汇公安探讨这份城市治理的新方案。
![]()
△出发执行任务的四足狗“汪汪队”,来自不同本体品牌,背上统一搭载大晓具身超级大脑模组A1,图源:企业提供
王晓刚把“让狗突然能干活”的功劳,指向此次两项新发布:
一是具身超级大脑模组A1,相当于一个聪明的AI大脑,可以搭载于宇树、智元、云深处等不同品牌的本体。装入A1模组之后,原本只有运动能力的机器狗,也具备了“空间智能”和“自主决策”能力。
而驱动这个大脑的核心,是本次的另一个发布——“开悟”世界模型3.0。简单来说,世界模型就是在AI模型中建立了物理世界的运行规律。有了它,就像是把与世界交互的能力放进机器人大脑。
这样一来,机器人可以更快学会物理世界中的不同任务,还能适应未去过的新环境。就像是学会了“开门”这件事后,无论是家中的入户门,还是初次探店的餐厅大门,都可以打开。
除此之外,世界模型还能应用在不同机器人身上。四足狗、双足人形等等多样构型的本体,都可以通过世界模型,具备理解世界、对后续状态进行预测的能力。
不过,世界模型并非一个凭空而来的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遇到的本质瓶颈:
VLA更像一个“超级模仿者”,靠海量“画面—指令—动作”配对数据,让机器人学习特定技能;但它很难真正理解物理规律,所以换个环境、换个对象,成功率就会下降。
因此,VLA需要堆大量数据,让模型“看过”不同的案例,才能完成越来越多的任务。但当前的数据量却难以为继:自动驾驶可轻易积累数百万小时行车数据,而具身智能还需要工作人员遥控机器人采集数据,至今仍困在10万小时的量级。
世界模型则让机器人的大脑可以从“死记硬背例题”转向“掌握通用公式”,从而大幅降低对特定场景、海量真机数据的依赖。
发布会现场,《智能涌现》试用了“开悟”世界模型3.0:只需要输入一段文字描述,然后选择相机机位、不同机器人本体等信息,世界模型就会生成以这款机器人为第一视角的动作画面。
这些生成的画面与动作决策,可以教会机器人大脑与物理世界交互的方法,在背后指挥机器人完成每一次行动。
![]()
△现场试用中,“开悟”世界模型3.0可以根据使用者在右侧输入的空间、动作文字描述,生成画面,图源:作者拍摄
正因如此,世界模型成为近期大热的技术趋势。包括特斯拉在内,近期的技术分享中,越来越多智能驾驶和具身智能公司展示了世界模型的布局进展。
但王晓刚也强调,世界模型真要做到有效,必须有下游验证的闭环。
他回忆起,2024年11月,自己就曾主导发布过智能驾驶世界模型,但彼时行业对这项技术的态度是“不太信”。
原因是,包括英伟达Cosmos世界模型在内,当时不少公司把世界模型当“数据生成器”。虽然可以在实验室里生成一堆看起来成立的场景画面,但缺少下游真实落地验证,没人能回答“这些数据到底好不好用”,很难建立信任。
王晓刚的解法,是把推出的智能驾驶世界模型放进自身的止驾算法业务里。例如与上汽智己的合作中,这项能力被用于攻克“过环岛”、“大车加塞”等高风险博弈场景。
过去采集这类数据危险又贵,甚至得协调“演员车”上路复现。商汤则可以先在世界模型里规模化生成大量场景画面与解决策略后,再用上汽智己的实车对世界模型的决策进行检验、校准,让模型能力在真实反馈里越练越准。
同样的方法论搬到具身智能上,大晓选择用“机器狗上街”做商业化第一站:四足狗硬件更成熟、进入场景的商业化路径更短,能在任务执行中验证世界模型的能力,在真实场景里持续迭代。
王晓刚也给出了大晓的商业化路线图:先用四足在道路世界跑起来,探索四足还未充分开拓的增量市场;2—3年后,通过轮式双臂机器人将业务延展到无人物流仓;再往后,则考虑双足人形与更复杂的家庭场景。
在这个过程中,大晓并非从头开始。商汤过去11年的积累,给大晓机器人的商业落地带来可复用的资源。
比如商汤旗下“方舟”视觉平台已在城市中落地大量事件检测应用,这让大晓有可能快速切入安防、巡检等场景;此外,商汤在海外市场的布局,也为大晓机器人未来卖到其他国家提供了现成的通道。
近期,《智能涌现》对王晓刚进行了专访,聊了聊他对世界模型的判断,以及大晓的技术细节。以下对话经作者整理。
![]()
△大晓机器人董事长王晓刚,图片:企业提供
赛道升级:VLA到世界模型
智能涌现:从VLA到世界模型的“升级”,你认为这是同一个技术方向的逐渐演变,还是一个很大的转折?
王晓刚:这条线是一脉相承的。我把世界模型、端到端、强化学习看成同一条技术链路在不同阶段的延伸。
从自动驾驶到具身智能,核心都是让模型理解并预测真实世界的演化,再把这种能力用于决策与控制。
行业的变化在于,大家开始把“模型能不能在物理世界里闭环生效”当成第一性问题,而不只是做几个演示动作。
你也能看到像特斯拉近期披露的一些细节里,世界模型被用作仿真器,这就是技术发展一路走到今天的结果。
智能涌现:你说去年11月就主导发布过世界模型,但当时大家“不相信”世界模型。后来商汤用上汽智己的智驾业务做了验证,具体验证了什么?
王晓刚:上汽智己会挑高风险、高复杂度场景来验证我们世界模型的能力,比如过环岛、大车加塞这类博弈问题。
过去在这些危险场景要采集真实数据,危险、成本高,甚至需要找演员去制造场景。但用了世界模型后,能生成更多这类场景的数据与策略,帮助智能驾驶提升相应任务的处理能力。
智能涌现:世界模型解决了哪些VLA的短板问题?
王晓刚:VLA更偏短序动作、技能的学习,通常不承载复杂的物理规律注入与长链推理。因缺少对物理世界的结构化理解,也容易“会做一些看起来对但无效的动作”。
世界模型的目标更大,它学会了环境与交互的规律,支持预测、推理、规划,并能在不同任务、场景中形成泛化。
比如VLA学会开一个白色的冰箱门以后,换成了黑色的冰箱它可能就不认识了。世界模型可以理解冰箱门是怎么被打开的,那换了一个房间、换了一台外观很不同的冰箱,它依然知道这里面的物理规律。
我们还希望把世界模型尽可能放端侧,这样也可以提升机器人从思考到执行的同步效率。
智能涌现:你为什么强调“世界模型要与强化学习结合”?
王晓刚:强化学习擅长在可反复试错的环境里找策略,但现实世界试错成本太高,所以可以把一部分试错与推演搬到世界模型里做,再把策略迁回真机。
智能涌现:Sora这种生成式世界模型,和大晓推出的具身世界模型,之间的区别是什么?
王晓刚:Sora是一个出色的视频生成器,但它本质上是一个“黑盒”。它生成的视频可能看起来很真实、酷炫,但模型内部并不理解视频里物体之间的物理关系和因果规律。
Sora没法把场景里的物体拆成可交互、可替换的对象去编辑。比如画面里瓶子、桌子和周围环境粘在一起,都是一整块“背景”,你不能把瓶子单独拿出来、换位置,再让它和其他动态对象发生真实交互。
具身世界模型要解决的是另一类问题:它不是为了生成一段好看的视频,而是为了让机器人能在真实世界里推理、规划、做决策。
比如桌子上有一堆积木,你让世界模型控制机器人把它们以最快速度搭成“ACE” 三个字母的形状。这个任务里,机器人得先理解每块积木的位置、形状、可移动性,推演出一个最优的移动序列:先动哪块、后动哪块,用什么抓取方式,才能用最少步骤完成。
智能涌现:所以大晓推出的世界模型,有哪些能力可以帮助具身智能更好地执行任务?
王晓刚:所以我们做的具身世界模型要包括三块多模块能力:
第一是多模态理解,去理解世界本身,不仅是视频的内容,还包括相机位姿、3D 轨迹、力学属性等更深层的东西;
第二是多模态生成,要能生成可训练的数据和场景,比如在一个生成的世界画面里换背景、换本体、换机械臂;
第三是多模态预测,比如我下达指令是“拿起手机”,但它要能预测用左手和右手会有不一样的动作轨迹。
而且,我们的平台允许用户选择不同机器人本体。因为你最终是要让机器人“去干活”的——你在生成仿真数据、构建训练场景时,要对应到具体本体,才能把世界模型真正接进下游训练闭环里。
智能涌现:你如何判断一个世界模型好不好?
王晓刚:行业有一些Benchmark,但我更看重影响力和应用解决问题的能力。
单看榜单不够,要看能不能跟机器人系统结合、在真实问题里被大量使用、持续迭代。我们也会把世界模型开源,让大家用起来。用得多、能解决问题,本身就是一种更硬的评价体系。
![]()
△搭载大晓模组的机器狗可以识别路口红灯,实现自主导航、避障,图片:企业提供
世界模型的数据方法论
智能涌现:“开悟”世界模型3.0包含一个怎样的架构?训练数据从哪里来?
王晓刚:我们把架构拆成三个层次,不同的层次采集不同的数据
1)最底层是对这个世界的描述。比如为什么是苹果熟了会掉下来,这里面它的物理规律是什么。这些关于世界物理规律的描述都是文本的。
2)第二个层次是人类行为,即人如何与这个物理世界交互。要让模型理解机器人跟物理世界交互的时候,位姿是怎��变的;施加的力是什么样的;触觉是怎样的等等。
这是以人为主体进行的数据采集,比如让人头戴摄像机,拍摄第一视角的视频;或者人戴上数采手套去捕捉手部动作;周围也有摄像头进行第三视角的拍摄。从不同的视角把人与世界交互的动作记录下来。
3)第三个层次真机动作。具体而言,有些本体是十几个自由度,也有几十个自由度的本体,它们所看到的世界是不一样因此。因此,也要再配合采集不同本体的真机数据。
智能涌现:为什么你们强调主要的数据要“以人为中心”采集,而不是“以机器为中心”?
王晓刚:以机器人为中心会带来一个问题:不同构型本体的数据难以跨本体复用,而且人操作机器人做动作、采数据效率非常低。
但人自己做动作的数据更容易规模化采集。所以我们先采人的数据,训练一个有物理常识的大脑,再迁到不同机器人上。
智能涌现:有了世界模型以后,对真机数据的需求似乎可以减少?到底还需要多少真机数据?
王晓刚:截止到现在,自动驾驶里真实数据精挑数据能做到数百万小时,而机器人真机采集数据往往只有1万到10万小时。
但如果先用人体和环境数据做大盘,再用少量真机数据校准,真机部分可以从万小时级别进一步往下压。很多情况下不必额外大规模采,只要把现有真机数据放进去即可。
智能涌现:物理规律那么多,世界模型中如何全部覆盖这么多的知识?
王晓刚:物理规律不可能无条件穷尽,所以世界模型一定有场景边界。比如做自动驾驶不关心家庭内的场景,做家庭场景的不关心海里苹果怎么漂。
大晓的做法是先从身边道路开始做起,中期做无人物流仓,未来再扩到家庭,逐步扩大边界。
![]()
△大晓机器狗在识别违停车辆,图片:企业提供
从街上的四足狗先跑通商业化
智能涌现:大晓这次发布的“大脑模组”是什么?包含什么?
王晓刚:模组可以理解为一个盒子:集成传感器、通信、计算等能力,用来把世界模型能力装到本体上。
模组也包括全景相机,这可以提升视野,检测很多周围世界里的事件。
智能涌现:为什么先选机器狗的形态承载这个模组,而不是直接研发人形?
王晓刚:机器狗的技术更成熟,稳定性更高,我们希望用它先进入真实场景跑起来。
智能涌现:大晓要做像苹果的软硬一体,还是更开放的生态?
王晓刚:我们会做软硬一体。但和苹果不同之处在于,苹果的软件和硬件都只给自己用,我们会选择性自研关键部分,也需要生态合作伙伴。
具体而言,自己能做好的就做,借助生态更快的部分就去合作。关键是最终交付的是可用的产品方案,把成本降下来,把稳定性和安全性提上去。
智能涌现:大晓未来的商业计划,更偏向把世界模型卖给本体厂商,还是直接面对场景客户?
王晓刚:我们会希望直接进入场景。
一来,场景客户这边我们更熟,商汤在城市、文旅等场景做了多年,知道客户需求是什么样的。二来,很多本体厂商时间短,也不一定愿意投入资源进场景。
所以我们更有条件直接打场景,并利用既有资源把进入场景的成本摊薄。
![]()
△通过轮式双臂机器人将业务延展到无人物流仓是大晓的未来商业规划,目前正与合作本体厂商进行该场景训练,图片:企业提供
智能涌现:大晓和具身本体公司之间,既可以合作又可能存在竞争,怎么协调?
王晓刚:当下最大的问题还不是竞争,因为场景还没完全打开。
我们在策略上以场景为导向,优先找增量:不去抢别人已经稳定跑通的存量,比如电力巡检等。找到场景后,本体厂商反而愿意配合,因为他们过去不敢投入产能,本质也是不确定场景与订单量。
智能涌现:大晓主要To B还是To C?
王晓刚:先做to B。
To C市场的量确实巨大,但正因如此,它对产品的可靠性、安全性和耐久性有着极其苛刻的要求。
这不是说技术原理上做不到,而是整个产业链在没有明确的大规模应用场景驱动前,不愿意也没有动力去投入巨大的成本来攻克这些工程和质量难关。
所以,我们的策略是先通过To B场景,来驱动整个产业链的成熟。在智慧城市、园区管理、文旅导览等这些对自主移动能力有迫切需求的领域,机器狗作为一个可管理的“数字员工”,它的价值是明确的,并且能够容忍一个逐步迭代和优化的过程。
智能涌现:会考虑做出海吗?
王晓刚:会。更像跟着体系走,我们在东南亚、中东等有海外资源和团队,可以顺势推进。
湖南:前11个月规模以上工业增加值同比增长6.1%
美飞行器成功发射,搭载“轮椅使用者”进入太空
乐乐茶致歉:核査全国门店苹果糖系列出品,不符合标准的产品立即下架
韩国监管机构:已准备好采取先发制人措施稳定市场
海南三亚机场2025年旅客吞吐量创通航以来历史新高
我国海上最大油田年产油气突破4000万吨
薪酬方案裁决落地 埃隆・马斯克成全球首位身家超7000亿美元人士
我国成功发射通信技术试验卫星二十三号
电影《阿凡达3 》上映3天,总票房破3亿
具身智能老炮再获数亿融资,移动多臂机器人已批量工业落地|36氪首发
作者丨欧雪
编辑丨袁斯来
硬氪获悉,具身智能机器人公司飒智智能近期连续完成A++轮及A+++轮融资,累计金额达数亿元。我们总结了最新两轮融资信息和该公司几大亮点:
![]()
融资金额及领投机构
融资轮次:A++轮及A+++轮
融资金额:数亿元
投资方:海通开元和国元直投
资金用途:40%用于技术研发,30%用于海外市场拓展,15-20%用于智能制造产线建设,剩余用于流动资金补充
![]()
公司基本信息
成立时间:2018年
公司总部:上海
核心产品:单臂、双臂、四臂机器人;AMR移动机器人;
技术亮点:飒智智能自主研发的SAGE-OS机器人操作系统与一体化控制器SAGE-Brain,实现了从感知、决策、规划到控制的低延迟实时闭环,从根本上解决了传统工业自动化在柔性化、智能化方面的瓶颈。
在自主作业方面,公司构建了“本体智能-群体智能-规模化智能”三层技术体系,通过融合视觉、力学、语音等多模态感知实现复杂工件的识别与定位,并借助自研的VLAS大模型、底层运动控制算法与多臂协同规划,在动态工业环境下完成毫米级(±0.05mm)精度的装配与检测作业。
应用场景:在高端离散制造领域,可用于汽车零部件(如线束检测、精密装配、电驱制造、热交换器加工)、3C电子(如SMT飞达上下料、主板检测)、生物制药(无菌分拣、实验室自动化)等行业的柔性产线与智能化升级。
公司当前以汽车、电子等行业的头部制造企业为突破口,通过“抓龙头、立标杆、拓渠道”的策略实现规模化复制,并同步向新能源、高端食品药品等更广阔的工业场景拓展。
![]()
飒智智能四臂机器人(图源/企业)
![]()
市场体量
工业机器人市场正处于从“固定自动化”向“移动智能化”转型的关键阶段。从第三方行业报告看到,当前全球工业机器人市场规模已达千亿级,但传统机器人主要服务于仅占生产环节约30%的连续结构化场景。而占制造业70%的离散制造场景因对柔性化、智能化的高要求,自动化渗透率仍处于低位,构成了巨大的存量替代空间。
随着新能源汽车、高端电子等行业加速向“小批量、多品种”的柔性制造模式转型,对能够自主移动、多空间作业的智能机器人需求持续爆发。
![]()
公司业绩
飒智智能已实现多年盈利,近年来营收保持50%-120%的年增速,明年预期增长将达300%。公司当前年出货量约千台,产能正积极扩建,目标提升至5000台年产能。目前,公司已成功为理想汽车、强生、三菱等头部客户打造项目,并带动了广泛的中腰部客户拓展,形成了可复制的规模化增长路径。
![]()
团队背景
公司创始人兼CEO张建政为上海交通大学机器人方向博士,拥有21年研发经验,曾任职于全球工业机器人巨头发那科(FANUC),主导开发了国内首套应用于汽车行业的3D视觉手眼协调系统。团队其他核心成员也多曾在罗克韦尔自动化、ABB等自动化和机器人企业担任关键技术职务,平均从业年限超过15年。
![]()
创始人思考
硬氪:与传统的工业机器人相比,飒智的差异化优势在哪里?
张建政:传统机器人是固定式作业,适合连续生产,比如汽车焊接、喷涂。但现在新势力造车是混线生产,工艺每年都在迭代变化。况且整个制造业中离散制造占70%,需要多批量小品种的柔性作业,传统方式做不了。
我们判断,机器人要完全替代人,必须解决移动作业和多元多空间作业的问题。不是在固定地方干活,而是像人一样在智能化工厂的多个空间里干不同的事。这需要在开放、非结构化的场景下,自主辨识场景、规划路径、感知作业变化并调整作业效果。所以,我们的机会是用具备移动作业能力的具身智能机器人,在离散制造环节或连续多变环节替换掉固定机器人。本质上,我们和他们不是同一类产品,我们解决的是他们解决不了的问题。
硬氪:目前公司已经实现盈利,这是怎么做到的?
张建政:我们被很多投资者贴过标签——“唯一能盈利的工业智能机器人公司”。实际上,我们多年有净利润,也证明我们的商业模式是成立的。定价上,我们按“代替人工”来算,让客户用1.5到2年的工人工资回收机器人成本。技术上,我们自研操作系统和控制器,硬件不足算法补,模块化设计像搭乐高,成本更低。
硬氪:公司在技术和市场方面接下来有哪些具体的发展规划?
张建政:在技术方面,我们将重点推进“本体智能、群体智能、规模化智能”三大方向。我们计划明年发布新一代具身智能机器人,进一步提升机器人在复杂作业场景中的多任务协同能力。
在市场方面,我们将加快全球布局。目前海外收入占比已超过20%,未来目标提升至50%左右。我们正在加强东南亚、墨西哥、欧洲、中东等地区的本地化团队建设,建立销售、技术支持和服务中心。
![]()
投资人思考
海通开元表示:飒智智能在推进全球战略的同时,以其高超的技术能力和深厚的场景经验,其具身智能机器人已成功进入多家世界巨头客户的供应商体系,验证了其技术方案在真实工业场景中的可靠性与实用性,我们看好其在智能制造这一广阔蓝海中的技术领先优势和工程化落地能力。随着全球制造业向柔性化转型加速,飒智具身智能机器人将成为智能制造的核心生产力之一,为实体经济带来真正的效率革命。