普通视图
九洲药业:收到化学原料药上市申请批准通知书
接手北京现代重庆工厂?深蓝汽车回应:有计划
恒指收涨1.97%,恒生科技指数涨2.78%
重估爱奇艺:从“长视频平台”到“IP 生态体”的价值跃迁
11 月 18 日,爱奇艺发布了2025年第三季度的财报,其总收入录得66.8 亿元人民币,其中会员服务收入 42.1 亿元,环比增长 3% ;在线广告服务收入 12.4 亿元;内容发行收入 6.4 亿元;其他收入 5.9 亿元。
可以看到,本季度业绩驱动力已经呈现出积极的结构性变化——爱奇艺国际版日均会员数创历史新高,会员收入同比高速增长超 40%,海外业务正在成为爱奇艺的第二增长极。
财报发布后,资本市场反馈积极。中金、瑞银等多家投行上调了公司四季度的营收预期。瑞银指出,得益于国内监管环境的改善和海外业务的快速增长,爱奇艺正迎来关键的业绩转折点。
爆款IP持续发力,基本面拐点已现
本季度,爱奇艺会员服务收入录得42.1亿元,环比增长3%,收入曲线呈现企稳改善迹象,彰显了核心业务的增长韧性。
季度内,爱奇艺继续在内容赛道保持头部竞争力,供给上呈现出“长短结合、IP 联动、多品类爆发”的特征,显著扩大了用户触达,提升了付费意愿。
例如,热门剧集《生万物》《朝雪录》热度值均破万,《生万物》更是实现网台双爆;出品的院线电影《捕风追影》票房、口碑双丰收,院线票房破 12 亿元。
综艺内容表现同样亮眼,《喜剧之王单口季》第二季爱奇艺内容热度值超 8000 ,云合市占率领跑同类内容;自制动漫《神国之上》持续热播,而头部 IP 《苍兰诀》第二季的回归带动忠实用户追看,有效支撑了用户留存。
此外,《缘起三生》《饲养夜色》等头部微剧日均播放时长与日均会员拉新收入均实现环比两位数增长,进一步丰富了平台的内容类型,成为长视频内容生态的补充和新增长点。
出色表现延续至四季度,公司重点IP系列长剧《唐朝诡事录之长安》播出,目前站内最高热度已破万,云合长剧播放市占率连日位居榜首。《唐诡》等爆款IP有望对平台优质内容供给的稳定性和用户黏性产生积极影响,带动会员收入实现同环比双增。根据中金预测,25Q4,公司会员收入有望达到42.2亿元,同比增长 3%。与此同时,考虑到年末电商营销节点的赋能,预计广告收入也有企稳回暖的动力。
综合来看,在宏观环境承压、行业竞争加剧的当下,爱奇艺仍能维持基本盘的韧性,这背后是公司长期深耕内容赛道所铸就的头部竞争力。而目前这种竞争力正转化为深耕IP战略,持续拓宽爱奇艺的增长版图。
横向拓展,更进一步
将 IP 生态从国内拓展到海外是爱奇艺深耕 IP 战略的关键一步。
近两年,国内内容产业链的不断成熟,产生了大量优质内容供给,但主流平台普遍迈过 “会员过亿” 时代,使得流媒体竞争转向存量博弈,向外突破寻找新的增量成为巨头们的共识。
东南亚市场凭借庞大的人口基数、年轻化的年龄结构和互联网发展增速等阶段性红利,成为内容出海中的新增量。据 Statista 预测,到 2030 年 东南亚流媒体市场规模将增长到 68 亿美元,较 2024 年有 49% 的显著增幅。
更关键的是,相比欧美等市场,东南亚与中国文化共性强、壁垒低,使得当地用户对华语内容有着天然的熟悉感和高接受度。这也让其成为国内流媒体巨头出海的首选。
但是,海外市场的扩张也并非坦途。巨大的增长空间意味着巨头绞杀的升级,这里不仅有来自国内巨头的白热化竞争,更要直面 Netflix等国际巨头的强势厮杀。
这种背景下,2019年以来,爱奇艺深入布局海外市场,走出了一条从内容输出到平台输出,再到文化输出的立体化出海路径。
经过数年的精细运营,爱奇艺的出海战略逐渐显效。三季度,国际版日均会员数创新高,会员收入同比增长40%。事实上,爱奇艺国际版会员收入和会员规模已经连续9个季度维持高速扩张,海外业务正在成为其新的增长曲线。
那么,能在激烈的国际厮杀中取得成功,爱奇艺的优势是什么?
首先,爱奇艺以优秀原创能力为基础,打造丰富的王牌华语剧集,这是其获取海外用户认可、完成付费转化和保持用户黏性的关键筹码。
今年三季度,爱奇艺推出了多部高品质华语剧集,其中古装探案剧《朝雪录》成为海外市场热播爆款,在泰国、马来西亚、中国香港、韩国、越南5个市场,位列谷歌趋势热度第一,并登顶爱奇艺国际版13个市场热播榜。值得关注的是,泰语配音版《朝雪录》的播放时长和收入峰值,均刷新了爱奇艺国际版泰语配音剧集的纪录。
当然,译制内容的快速供给,同样离不开 AI 技术的深度赋能。爱奇艺通过Agent化的“AI译制厂”工作流程显著提高出海内容译配效率,降低本地化成本的同时,显著提升内容转化速度,这也奠定了爱奇艺的效率,成为其扩大海外市场份额的关键。
其次,深耕本土化,以情感为纽带链接跨文化认同,书写全球化新叙事。随着流媒体的不断发展,国产剧译制剧已经不能完全满足东南亚用户的多元化需求,深耕本土化则成为巨头形成差异化竞争的最佳方式。
爱奇艺深入洞察东南亚用户的文化特征和受众喜好,深度介入本土原创制作,打通了从上游IP获取、选角到下游本土语言宣发的本地内容产业链。三季度,爱奇艺推出的泰语剧集《灵魂重生》成为2025年现象级作品,会员收入创下爱奇艺国际版泰剧纪录,并登顶谷歌和推特(X)相关榜单。
最后,以长剧为基础,创新内容形式,实现广泛受众的触达。除了在长剧赛道的多线并进外,爱奇艺也通过碎片化、高效率的微剧等形式,进一步丰富海外内容矩阵,加速受众覆盖。三季度,国际版由微剧带来的会员收入环比增长140%,爱奇艺自制微剧《成何体统》在海外展现优异长尾效应。
纵深延展,再下一城
除了海外市场的开拓外,爱奇艺深耕IP战略的另一个关键支柱,是IP 生态从线上到线下的纵深延展。
目前,爱奇艺积极布局 IP 衍生品和线下乐园等体验业务。三季度爱奇艺扬州和开封乐园建设稳步推进,第三家爱奇艺乐园也已官宣落地北京。
线下体验业务除了创造增量业绩来源之外,其长期价值是多层次的:一方面,它能有效提升 IP 的生命周期和商业价值,更好地塑造品牌影响力;另一方面,线下体验可以提供线上内容无法比拟的沉浸感和情感连接,有助于激活粉丝经济,深化用户忠诚度,进而反哺线上,提升会员续订和 ARPU ,进一步拔高爱奇艺的业绩天花板。
强大的精品内容储备是IP生态建设的根基。近年来,爱奇艺出品了包括 《狂飙》《莲花楼》《我的阿勒泰》《唐诡》 等众多现象级作品,这些丰富、优质的内容储备,为 IP 战略的衍生奠定了底层基础。
发力AIGC,从降本增效到扩大商业边界
爱奇艺深耕 IP 战略的成功离不开 AI 赋能所带来的内容创作与消费变革。伴随大模型的迭代升级,AIGC 应用已深度渗透内容行业的全链路工作流程,持续驱动爱奇艺的降本增效和运营优化。
在内容生产环节,“剧本工坊”“影像工坊”等辅助创作系统,有效减少了平台的开发成本,缩短了制作周期,提高内容投资回报率;在内容分发与传播环节,通过AI自动生成海报、文案、短视频等物料,赋能内容运营和用户增长;在用户体验方面,“速看”“跳看”“桃豆”等功能,强化了用户交互,提升了用户使用体验,对完播率和使用时长的改善意义重大。
此外,AI技术对货币化率的优化也发挥了关键作用。在广告侧,AI 高效生成创意素材并优化投放算法,提高了广告投放的精准度和转化率。根据公开披露数据,由 AI 优化的视频广告点击率提升了 20%。
整体来看,AI技术已深度融入爱奇艺的业务运营中,构建起了“技术—内容—变现”的正循环。
但长远来看,AIGC 对内容行业的赋能远不止降本增效,而是通过重塑核心生产要素——创作者力,从根本上重构内容生态,打破传统内容的创新壁垒。正如电话会中CEO龚宇所强调的“AI给爱奇艺带来的机会,堪比20年前互联网技术之于在线视频。”
为了在AI时代继续保持核心竞争力,爱奇艺从生产力和生产流程两方面积极布局。
一方面,爱奇艺聚焦创新人才培养,以此反哺内容生态重塑。通过 AI 短片创作大赛、“鲍德熹·爱奇艺 AI 剧场” 等活动,持续发掘并培养新一代AI 创作者,一方面为未来锁定了优质的内容源头,而且也为AI内容生态注入专业的艺术审美,构建一个创新、健康的内容生态系统。
另一方面,爱奇艺着力于生产流程的创新,以效率激发活力。通过向外开放AI能力,并与合作伙伴一起在漫剧、动漫、知识、纪录片和网络电影上尽快产出AI 为主导的内容,在降低制作门槛和试错成本的同时快速填充内容储备,并为剧集、电影等长篇内容的实践积累经验。
迈入新纪元
综上所述,爱奇艺的三季报不仅向市场展现出了一份基本盘企稳向好的成绩单,业绩动力的切换更标志着公司已迈入以IP为核心、技术与生态双轮驱动的新纪元。
这一转型的本质是公司商业逻辑的重构。爱奇艺通过“技术—内容—变现”的闭环,持续将爆款IP转化为最有价值的资产,在夯实内容基本盘的同时,也通过深耕海外市场、拓展线下体验业务持续开拓商业版图,放大IP价值,最终构建起一个以IP为轴心、覆盖多场景、触达全球用户的生态体系。
三季度,在优质内容打底和 AI 赋能下,公司内容基本盘企稳向好,而深耕 IP 战略,公司海外业务也连续九个季度实现高增长,为公司开辟了新的增量曲线。
展望未来,深耕IP战略带来的巨大想象空间,正在彻底改变爱奇艺的估值逻辑,有望引发资本市场对爱奇艺的价值重估。
最爱喝奶茶的AI科学家,要做最能懂你的“智能体”
文|富充
编辑|苏建勋
无论是在学校的科研中,还是在与蚂蚁集团这样大公司的合作项目里,吴翼都希望他的团队能保持创业心态:不怕踩坑,快速迭代。
作为清华大学交叉信息学院助理教授,AReaL项目负责人,吴翼聚焦强化学习算法和AI应用创新。其清华团队和蚂蚁研究院一起于2025年5月开源了首个异步强化学习训练框架AReaL-lite,能显著提升AI训练效率,减少GPU的浪费。
作为90后的技术负责人,吴翼要求团队“在试错中成长”。他现在最不喜欢的借口就是“没有资源,所以工作没法做”,因为从0到1的本质,正是创造资源。
今年9月的外滩大会上,吴翼阐述的产品观也体现了这一点:做出来就赶紧发布,即使市场反馈不好,也要知道问题在哪里并做出相应改善,不要等待一个完美开局。
这份对创新的体悟,源于吴翼此前的创业经历。2023年,他的团队创办了基于强化学习的AI Agent公司边塞科技,这也是AReaL的前身。
因在AI领域相似的背景与研究经历,吴翼与星动纪元创始人陈建宇、千寻智能联创高阳、星海图首席科学家许华哲三位留美AI学者并称为“伯克利四子”。
鲜为人知的是,吴翼是四人中最早决定回国的,也正是他的建议与推动,促成了其他三位的归来。
吴翼喜欢做有开创性的事情。在清华,他常告诫学生“创新就是要到无人区去”。他坚信,AI创新不能靠多点布局“赌一把”,而是要源于深度的思考与长期的坚持。
他对AI的未来有独特判断:智能体必将能理解���类的模糊意图,完成长程任务,并最终从数字世界走向物理世界,成为具身智能的“大脑”。
今年WAIC上的演讲中,他举例描述,未来只需对机器人说“整理一下房间”,它便能花上数小时,妥善完成。
对于这个目标,吴翼认为,自己正在从事的强化学习训练方法,将是大幅提升AI的智能水平的关键。
因为强化学习的训练的特点是让AI在实践中自主学习,并培养出探索的能力。而之前的监督学习,需要人一直告诉AI如何工作,这种方法难以适用于长时间执行的任务。
![]()
△在杭州参加机器人学术会IROS后,吴翼发了个小红书,照片里他手捧奶茶笑得很开心,图片:采访人提供
在专业领域态度严谨的吴翼,在社交媒体上却展现出另一面。
这位自称的“高能量I人博导”,经常在小红书上分享科研进展,也乐于回复有关AI求职与发展的提问。
因为喜欢喝奶茶,吴翼不仅会认真评选Top5奶茶口味,还会专门拍照打卡喜欢的奶茶品牌。
![]()
△吴翼喜欢奶茶,在小红书上发的招聘信息,配图也是一杯奶茶,图片:网络截图
近日,吴翼接受了《智能涌现》的专访,分享了很多对AI前景、创业的思考,其中也包括帮自己快速决策、提升团队效率的方法。内容经作者整理:
AI的未来是聪明的智能体
智能涌现:目前AI还没有出现在大规模普及的应用,你认为AI产品的未来机遇在哪里?它会如何服务大众的生活?
吴翼:我觉得让AI实现长程任务是一个不可逆的趋势。此外,人对AI表达的命令会越来越简单、含糊。
现在还很难讲最终的产品形态,但AI产品上最终出现“从用户需要主动驱动AI,到AI提前猜到用户想要什么并完成”的变化。
这个事情在移动互联网上就出现过。比如在搜索引擎时代,是人们有了需求主动去找信息。然后有了知乎,再有了字节的各个产品,算法可以把用户想要的内容推送过来,让用户被动接受信息。
所以我想,最终人们会慢慢忘记主动搜索的对话框。聪明的AI可以越来越多服务“懒”人的需求。
最终一定会出现这样一个全新的产品,它是一个大的时代的机遇。
智能涌现:你在WAIC等活动上都提到,当智能体(Agent)有了身体子以后,就变成了具身智能体(Embodied Agent),可以与物理世界交互。简而言之,这就是AI机器人。具身智能体能做什么样的工作?
吴翼:聪明的具身智能体(Agent)仅凭模糊的指令,就能准确推测用户的意图,高质量完成任务,甚至还能主动考虑到用户尚未意识到的需求。
比如,你在家里跟机器人说,我的充电宝找不到了,它就会自己推理、行动,根据你的使用习惯和它记忆中你上次用过充电宝的位置帮你寻找。
智能涌现:聪明的具身智能体也能多机协作吗?多具身智能体是如何配合的呢?
吴翼:具身智能体可以一起配合,完成更复杂的任务。
比如在机器人足球队里,机器人们和人类球员一样,当遇到训练过的情况时,互相眼神一对,就知道该组成什么阵型了。
如果有了多个聪明好用的智能体,那多出来的一步就是定义他们之间怎么沟通。
在数字世界里面,智能体沟通的方式可能是有一个Master Agent去驱动很多小的Agent。你可以用不同的模型,你也可以用一个模型,但结构上像是有一个人在不断做规划,很多人在同时围绕规划做执行,这就所谓的Multi-Agent System。
我常举的一个例子是 Claude Code和Gemini 的协作。
Claude Code的代码能力很强,但上下文短、成本高;而 Gemini 虽然笨,但能处理大量内容。于是就可以让Gemini先读完整个Code Base,筛出最关键的内容,再交给Claude Code写代码。
相当于一个聪明但身体不好的人,和一个体力无限的傻子,两者协作,就形成了一个多智能体Multi-Agent System的高效组合。
放到具身智能体干活的场景,比如需要几个机器人一起打扫空间。大家“沟通”之后会有一个任务规划,谁负责扫地、谁负责擦地,一起配合完成。
智能涌现:从数字世界的智能体到物理世界的具身智能体,怎么过渡?
吴翼:从数字世界到物理世界的过渡,需要多模态数据,训练环境也从电脑里来到现实世界。
在数字世界里面用的工具,就基本上是Bits,这是一个执行成功率很高的东西。那么你基本上你去写一段代码就能执行相应的功能了,确定性比较高。当然,怎么写代码这件事本身并不容易。
而真的到了物理世界用工具的话,比如说拎包开门,机器人去执行这个任务时,失误率目前还是很高的。因此具身智能的发展会更复杂,也会更慢。
但是,我觉得站在宏观上看长远的发展,如果有一天智能体的底层物理世界已经数字化改造得差不多了,各种智能体的核心技术挑战最终是统一的。
比如,当我们真的有一个机器可以对大部分物理世界工具形成100%成功调用,那么在此之上构造一个能自主运行一整天的具身智能体,从技术上就和Bits世界的智能体其实没什么区别。
![]()
△今年WAIC上,吴翼和伯克利时期导师Stuart Russell的合影,图片:采访人提供
AI创新不能靠“赌一把”
智能涌现:你本身在字节实习过,自己的团队创办了边塞科技,后来又选择和大厂合作推动强化学习技术,走了这么一大圈,回头看有什么思考吗?
吴翼:早期的边塞科技团队,其实选人上踩了不少坑。当时有不少员工其实是抱着上班的心态来工作的,并没有意识到创业意味着什么。客观来看,整个团队确实不大ready,不大符合AI时代的创业精神。当然,大家都是第一次,踩坑也不可避免。
我现在很不喜欢的一句话是,“没有资源,我没法做某件事”。创业团队并没有丰富的条件,人们都是创造资源去做自己目标的事情。
所以,创业团队其实更需要有创新的火苗,以及相应的觉悟的人。
创新是没有Bet(“赌一把”)之说的,创业需要对所做的事情有坚信,我们没有那么多的资源去押注不同的赛道,赌一个能跑出来的未来,这样会造成很多中庸的方案。
创业精神是,我坚信有些事情即使我没做成,但它是对的,总有一天会被实现的,哪怕不是我。
智能涌现:“伯克利四子”(指吴翼、高阳、许华哲和陈建宇四位毕业自加州大学伯克利分校的青年学者,目前皆活跃于AI、具身智能领域)种你是最先决定回清华任教的,然后你带动了其他人回国。这是为什么?
吴翼:2018年8月份我结束在北京的字节实习。我虽然在Berkeley读的PhD,但我其实受字节影响不小。
从2016年开始,我就断断续续在北京字节的不同团队实习,也是字节AI Lab最早的成员之一,恰巧见证了中国移动互联网的尾巴。2018年8月,我结束最后一段字节的实习之后,就想清楚了我要回国。
一方面是感到了中国发展的巨大机会,另一方面也是明显感觉到华人在美国的天花板。除非你变成一个美国人,那么就回到了一个根本的问题:如果你想做出有影响力的事情,那么你想成为中国人还是美国人。我发现我并不想妥协成为一个美国人。
面对选择时,很多人会说,“我现在不Ready,要等未来准备好了再如何如何”。比如,关于回国这件事,就会有人说“我在美国再发展一段时间,过几年我再回国”。
但我有一个理论:如果你未来确定想做一件事情,最好的时间是过去,其次是现在。于是我觉得,那不如就选择回国吧。
回国做什么呢?我想了一个月之后拒绝了字节的Return Offer;2018年10月,我敲开了姚先生办公室的门,选择回清华做老师。
然后我就跟当时的几个Berkeley的同学分享了我的想法,说大家赶紧回,是有机会的。我的想法也很简单,看到好的机会我就想和大家分享,也确实影响到了一些人。
我们站在这么多年后去会看,确实对于回国这件事来说,那个时间点是个好的Timing,我们也确实作为早期回国的学者享受到了一些红利。
智能涌现:印象里你总会做一些挑战,然后一边学习一边调整,才走到了后来的路上。比如博士先选到了不喜欢的专业后才改到了强化学习;比如同批回国的学者里你似乎又是先开始创业的,等到同一批的同学都开始创业了,你又选择和大厂合作。你的经历听起来也像是一个强化学习的过程?
吴翼:对,我真是一路强化学习,一路踩坑,我能把我能想到的坑全部快速的踩了一遍。哈哈,我自己感觉通过踩坑学习比SFT(监督微调)学得要深刻一些,泛化得好一些。
做产品其实也类似。我常说做出一个产品要赶紧拿出来,AI时代,酒香也怕巷子深,要赶紧把产品拿到巷子口让大家用起来,得到反馈。即使市场反馈是失败的,也知道坑在哪里,快速试错迭代。
当然,这里也是要和大家说一下,如果能有高质量SFT数据的话,再去做强化学习可以学习效率高一些。因为强化学习的探索得到负反馈还是挺消耗的,所以我也希望把我的经历和看法做一些分享给大家,让大家能够进步的快一些。
智能涌现:开创性的机会往往意味着没有那么多可参考的经验,你是如何说服自己下决心的?
吴翼:遇到需要下决心的事情时,我有一套快速决策的方法:先抛个硬币。硬币落地之前,其实心理就已经知道答案了。
我总是那个先抛硬币的人。
智能涌现:对你来说,是想做的事情重要,还是光环重要?如果可以实现理想做出伟大的成绩,但要隐姓埋名你愿意吗?
吴翼:我愿意。
我想过这个问题:如果我能从0到1建立一个好的创业公司,后来这家公司进入1到100的阶段、组织迅速变大,而我不再是最被光环围绕的管理者。这件事我能不能接受?答案是可以。
到那个拐点,我很可能会引入职业经理人,自己再去做下一个0到1。原因很简单,从1到10甚至1到100往往需要上百人协作,这么庞大的管理不是我最享受的工作。
不过我现在也确实在反思,是不是被这种理想主义的状态限制住了。也许真的那个时间点到来的时候,我会做不一样的选择。但如果你现在问我,我可能倾向于一直做那个0到1。
强化学习是通往AI未来的钥匙
智能涌现:AReaL团队所做的强化学习,为什么能很好地服务于AI的训练?
吴翼:强化学习的训练特点是让AI自己在实践中学习,这更能训练出很聪明的人工智能。
之前的所谓监督学习、SFT(监督微调)的方式,是人去告诉AI这个事情怎么做。但这是很难的,因为它的可能性很多,人不能在10小时里一直下指令。
而且,人给的指令可能和AI想的不一样,很多时候指令给多了,AI死记硬背后不见得真的会“理解”,于是模型很可能泛化能力会很差。
所以,我们希望通过强化学习技术,让AI主动跟环境交互,甚至做到在自己拿不准的时候能学会问问题。这种鼓励AI自我迭代的训练模式,本质上是在培养AI自己探索的能力,这只有通过强化学习才可以做到,
智能涌现:我们下面来聊一聊技术的Know How。你之前说,要做好强化学习,技术上有三个要素很重要,就是奖励机制(Reward Model)、搜索和探索,还有Prompt(提示词),但三点都很难做好。都很难的话,怎么解决?
吴翼:我现在的感觉其实最重要的是Prompt,如何创造大量高质量的Prompt。
这三点可以用一个具体的例子解释,比如老师想辅导高中生做数学题,Prompt相当于老师出的题,搜索和探索是学生自己解题的能力和过程,Reward model是老师给学生的反馈。
什么样的题可以把学生的水平提高很重要。比如给中学生高等代数的题,可能会太难;如果给太简单的题又得不到提高。如何出恰到好处的题,是非常重要的。
这也是强化学习框架下对于数据的最大挑战:量大并不管用,核心是要合适,才能提高模型能力
智能涌现:强化学习和具身智能体间有什么关系,强化学习是如何让聪明的机器人为人类服务的?
吴翼:强化学习和具身智能体的关系其实有两个方向,一个是Locomotion,也就是运动控制,这里的强化学习技术成熟的比较早,并且完全不需要预训练。
还有一个是长程推理和规划相关,一般和经过预训练的大模型结合。这个方向随着ChatGPT的诞生才逐渐普及,相对比较新。
这两个方面其实代表着具身智能的一个谱线,从高频率控制完成短的控制任务,到抽象的任务规划完成更复杂的推理任务。
传统的强化学习解决控制问题是不需要预训练的,比如各种跑酷的机器狗,比如控制机器人跑跳。这些都是直接通过微小尺寸的神经网络,直接在物理仿真环境里面进行强化学习训练后,直接迁移到现实中的,并不依赖预训练。
在这里,强化学习通过算法训练神经网络,输出对于机器人每个关节的底层控制信号,以此控制机器人运动。这些任务的特点就是控制频次很高,同时任务完成周期很短:比如跑跳可能是通过几十次关节控制在几秒钟内完成了任务。
那么,ChatGPT,Deepseek R1所代表的强化学习技术,就是和大模型预训练紧密结合的:先要有一个经过预训练的基础模型;预训练完成后再通过强化学习做后训练,去激发模型强大的思考和推理能力。
比如Deepseek R1就是这样。最近OpenAI和Gemini去比IMO、IOI这些数奥竞赛,也是通过强化学习增强了模型的推理能力去实现的。
经过强化学习训练的大模型,可以做分钟级到小时级的思考,可以有常识,可以把复杂的问题进行任务拆解,可以调用工具。不过目前推理强化学习的成功实践还是在数字世界,没有广泛影响物理世界。
但这其中是有中间态的,就是具身智能常说的VLA(Vision-Language-Action model)。
智能涌现:那如何从VLA的中间态,推进到具身智能体的最终态?
吴翼:VLA是大家尝试用预训练的思想,解决物理世界问题的方法。
人们收集很多数据,去尝试预训练一个针对物理世界的大模型,让物理世界的模型不光能够完成几秒钟的跑跳任务,也能有足够的泛化能力去完成几分钟级别的人物,比如叠毛巾,比如给杯子倒水。
那再往后发展呢?如果我们希望完成一个更长程的任务,比如做个饭、打扫卫生。
这些任务可能需要几个小时才能完成,中间需要非常非常多的机器人的控制,也需要很抽象和常识性的分解和规划,甚至和人做交互——就像数字世界的智能体一样,只不过是在物理世界里。
所以我会把这样的智能体叫做具身智能体。我个人觉得,具身智能体恐怕是需要把Locomotion的强化学习或者VLA看成物理世界的工具或者小脑,并且把类似ChatGPT这种完全基于预训练的强化学习技术看成大脑。两部分需要结合起来。
和数字世界的智能体LLM(大语言模型) Agent的爆火不同,物理世界的智能体概念大家还关注的比较少。大部分人还是更关注硬件,更关注底层控住,在关注杯子能不能抓问,分拣能不能准确。当然这些也确实是具身智能和LLM的不同之处——改造物理世界总是困难的。
因为我自己更关注强化学习和智能体技术本身,所以我会先关注大脑的部分,思考怎么让智能体能够稳定可靠地完成10小时的事情。然后再去和物理世界的强化学习技术结合。
智能涌现:所以,在具身智能这件事上,你的强化学习和VLA将如何、在哪个节点配合起来?
吴翼:我们现在给的方案就是分层。
这也是我WAIC讲的一件事情,就是你看这个世界的两端越往上越需要人类世界的知识,越往下越不需要。
往下的部分可能是一些直觉的反应,比如说拿一个杯子,可能具备一些力反馈,或者一些简单直观的物理知识,就可以办这件事。
但往上就需要一些先验知识。
那上下之间的切割点在哪里,就是把涉及物理世界和数字世界Agent之间可以做一个区别。
我并不认为VLA是最终范式,因为VLA预训练的规模并不能支撑它直接成为一个很好的智能体。
所以我会先做好这个数字世界的智能体。同时有其他的从业者在做具身与物理世界相关的探索,之后再在合适的机会做结合。
智能涌现:你在外滩大会上说,在自己负责的AReaL团队上也在寻求一种全新的、极简的组织形态。这是为什么?
吴翼:互联网时代,要做一个产品,高低得找四五个人,一个前端、一个后端,一个产品经理。
但在AI时代,这些工作也许是一个人和AI就可以的。
过去有很多小的组织,会找外包团队。而AI时代,不仅组织内部会被AI简化,外包的部分也可以节省。
我认为如果组织内可以做到大量AI化,那能力一定是可以溢出的。因为如果是AI的方式来服务自己,那它也可以服务别人,这个一定会带来新的产品机会。
AReaL团队现在有6个人,但从外部而言会需要一些支持团队。如果把所有外部的同学都算进AReaL大团队,那肯定还可以调整做到更精简。我希望团队保持一个AI时代的极简状态,这也是AReaL核心团队人一直很少的原因。
智能涌现:不过大公司的组织形态会是比较庞大的,你具体是如何在一个大公司里实现AReaL团队的组织简化?
吴翼:首先,作为一个现代的Agent团队,一定自己每天要使用大量的agent才可以。
此外,我让算法和Infra团队组合在一起,形成全栈团队。
传统的组织团队,会把算法和系统团队分开,还会有别的工程团队,比如数据团队去做数据收集和清洗工作等等。传统的组织方式做模型时会强调分工,强调投入,让这些工程团队去支持算法团队。所以好像算法团队是个甲方,工程团队是个做“脏活累活”的乙方。
这个事情的问题在于,一旦你做了乙方,就失去了创新的空间;而一旦习惯做甲方,就很容易不愿意做脏活累活,这会很容易失去对于技术最底层的观察,感知,和创新所需要的自驱力。
OpenAI其实并没有发明什么震惊世界的算法,它是把很多细节做到很强。
所以我觉得,要做好Infa、做好数据,把细节堆出来,下了这个苦功,算法就可能有很好的表现。
因此,算法和Infra是不能脱离成两个团队的。两者不能有边界,要共同设计,协同演进就可以形成一支小而有战斗力的团队。
大的团队管理问题在于,如果这个组织里有200个人,就不可能没有边界。因为人的沟通带宽是有限的,所以必然会走向职责划分和管理,然后人类糟糕低效的Context Sharing能力就成为了整个团队的效率瓶颈。
所以极小的组织形式和全栈的创新能力是相辅相成的。我觉得大家要忘掉200人的组织,反正AI时代都是0到1,要激进一些做全新的尝试。
韩能源公司SK earthon收购印尼油气区块股权
仲量联行:11月香港中环甲级写字楼租金自2022年5月以来首次上升
格力集团旗下香溪建设开发公司增资至23.79亿,增幅约14%
罗永浩的下一个路口,是什么?
![]()
![]()
图片来源:《罗永浩的十字路口》 B 站截图
细心的朋友们,可能已经从我们之前发的神秘嘉宾海报中猜出来了。
没错,他来了。那个男人,他来了。
![]()
从锤子科技到电商直播到脱口秀,这些年来辗转在无数舞台上的罗永浩,这次又来到了极客公园的舞台。
今年 6 月,在极客公园 Founder Park 的 AGI Playground 大会上,一句梁文锋「你『靠嘴吃饭』的能力,绝对是全国顶尖」,老罗动了做播客的心思,8 月到 11 月,短短 3 个月时间,《罗永浩的十字路口》在 B 站已经做到了 74.1 万(发稿前更新)粉丝。
他对谈了很多名人,跟各界大牛聊科技、人文、世界、时代、以及人生所有的十字路口,每一期都是能把屁股坐麻的 3-5 小时深谈,在这些深谈里,他跟嘉宾一起给观众打开了更丰富的世界。
过去半年,他还去了好几次深圳,见了很多年轻人。他觉得现在年轻人非常厉害,甚至哪怕他不再做科技产品了,这些人可能也会比他要厉害。
很难想象又在意料之中的是,罗永浩已经到了五十知天命的年纪,他经历了许多大风大浪,从英语培训到锤子科技、电商直播再到如今的视频播客,视频播客似乎是他现在的港湾,但罗永浩从这个港湾又将驶向何方,他会在 AI 领域大展拳脚吗?
在罗永浩聊过的十几位大牛里,谁是他印象最深的,又是谁给他启发最多?
上一次「罗永浩的十字路口」到底要多少门票费?
很多人年轻的时候很崇拜罗永浩,但罗永浩是怎么看现在的年轻人的?
这场 AI 革命里,罗永浩在乎的是胜利,还是胜利在我?
五十知天命,对 54 岁的老罗来说,怎么不成为一个「老登」?
下一个十年,什么会让罗永浩兴奋?
12 月 7 日,极客公园创新大会 2026「『新东西』,新力量」板块场,只要你来,就能听到这位曾经的「最牛产品经理」罗永浩与极客公园创始人 & 总裁张鹏,100 分钟 1v1 深度对谈,在经历无数大风大浪后——一个理想主义者的下半场如何展开。
蓝思科技长沙公司增资至34.57亿美元,增幅约11%
极客公园创新大会 2026 全议程公布!
![]()
16 年初心不改,极客公园始终与创新者同行。
今年,站在 AI 重塑一切的临界点上,
我们发现,真正的稀缺是人,是判断,是行动。
因此,IF 2026 要谈的不仅是「AI 会带来什么」,而是「我们要怎么走」。
极客公园编辑部精挑细选的这个时代「最有料的人」,已经集结完毕!
他们不只谈共识,更敢于说出非共识。
两天时间,超高密度,在 IF 2026 这个场子里,
我们将听见下一个技术周期「原点」的声音,
结识正在定义行业的人,
找到 2026 做出一次重要选择的理由。
它是我们集中「面试」未来新 Boss 和新团队的最佳契机,
也是每个人主动选择未来的窗口。
带上你的问题、野心和好奇心,来 IF 2026,
和向上的趋势站在一起,和向上的人站在一起!
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()