普通视图

发现新文章,点击刷新页面。
昨天 — 2025年12月18日极客公园

火山引擎的「火」,是怎么点起来的

2025年12月18日 16:48

作者|张鹏

编辑| 郑玄

 

半年前,我写过一篇火山引擎的战略方向分析,当时我判断,火山引擎已经被明确为字节的一个战略目标:因为字节在 AI 时代需要有最好的底层技术和基础设施,那么这件事必须不能只是自造自用,而是要通过「外循环」来验证和放大,所以火山引擎要做好,也必须是 「AI 云原生」。

其实过去两年,所有云业务的企业,都已经意识到云的未来,不再是旧赛道里卖服务器、卖带宽的存量博弈,而是 AI 能力带来的全新需求。在这个新时代,云厂商卖的不再是底层的「资源」,而是经过封装的「能力」。

有趣的是,MaaS(模型即服务)过去 2 年被提出,但是经历了早期「尝鲜」后,也一度被业界怀疑过,当时主要的原因是模型如果本身不行,不能真正解决企业问题,这个模式就不能真正成立。

不过这半年火山引擎死磕 MaaS 的一些更具体的业务发展,我觉得 MaaS 这件事已经可以不用讨论了,它绝对就是未来的云服务的核心业务。

为什么说火山是在「死磕」MaaS 呢?先说个最近在媒体上看到了一个火山的「八卦」,大概意思是说火山引擎内部,CDN 这种传统业务的销售权重被降到了很低;而 AI 的 Token 调用量,直接成了核心指标。甚至有的销售 CDN 等其他传统云业务做得挺好,但因为 MaaS 卖不出去就最终淘汰出局。

这个「八卦」如果换个视角看,反而说明火山引擎对 AI 云原生和 MaaS 的重视相当贯穿到执行层,确实在用 组织架构的调整、用考核机制的引导来推动战略

压强够了,事情就会有突破。从我在业界了解的消息看,更重要的是火山引擎 2025 年相当突飞猛进,业绩上非常火。而这个火也确实来自于 MaaS 惊人的高速增长。结合 12 月 18 号的 Force 大会上我看到的一些信息,感觉又值得分析下这个 AI 云原生领域的大玩家「火从何来」了。

 

01

MaaS 的核心是

「与商业世界的需求对齐」

 

想要让销售劝客户把预算从传统 IT 转给 AI,前提是手里的模型和工具得真能解决业务问题,而不是让客户当「小白鼠」。这次 Force 大会,给我的最大感受是: 火山引擎展示的不仅是模型,也相对更全面的展示了为了让 AI 能真正落地,他们过去所积累的「家底」。

企业 AI 下一阶段是让 Agent 真正创造业务价值丨来自:2025 原动力大会·冬

 

未来的大模型,理解和执行是统一的。我们现在看到的 AI 大多还在「理解」阶段——用户向 AI 提出需求,它可以帮忙写写文案、聊聊天。但现实世界的需求其实已经要求模型必须能直接操控软件、调用 API、完成复杂的企业级 RPA 任务。

不知道大家是否注意到了,豆包 1.8 有一个明显的进化方向,就是 Agentic 代理能力。豆包在这个版本里重点增强了 Tool Use(工具调用)和 OS Agent(屏幕操控)等能力。这和 Gemini 3.0 Pro 等全球顶尖模型的进化路径是完全一致的: 让模型这个大脑不仅「能理解」,还要长出「能干活的手」。

举例来看,豆包 1.8 现在支持 OS Agent,意味着它可以像人一样「看懂」电脑屏幕,去点击按钮、填写表单。天下绝大部分的公司都不是「AI Native」的,所以这次升级对于企业内部大量陈旧的、没有 API 接口的 ERP 系统来说,这就是让 AI 接管繁琐工作的关键钥匙。

以前大家关注模型的能力聚焦在追求智能上限,我相信这一点是字节内部的基础模型团队一直在做的。而火山引擎是字节跳动「内循环」+「外循环」的好处,就是一方面可以依托字节基础模型团队,既支持与字节的业务发展,同时也连接着更大真实世界的需求。

有了需求目标,从基模能力到可用的模型技术的发展,才变得更有方向感,比如「理解和执行一体化」的能力,就是可以对现在非「AI Native 企业」AI 进化关键的落地点,而前段时间火爆的豆包手机助手,其实就是这个能力的「内循环」,而火山引擎现在把这种能力同步开启「外循环」,会让技术创新变得更有意义。

MaaS 过去一段时间能卖的那么火,以及未来可以继续看涨,本质上还是因为这个 「双循环」带来的目标与能力和真实商业世界的对齐。

另外,从这次火山引擎正式发布了 Agent 开发套件「Agentkit」来看,其具备 8 个核心模块依旧是在「与现实商业世界对齐」。这次火山提供了 Agent 在开发、部署、运维、调优等各个阶段所需要的工具和基础设施。其中让我印象很深刻的有两个模块: Identity(身份与权限)和 Evalution(评估)。

Agent 落地到企业里,一个很细节但是关键的问题就是怎么给 Agent 设定清楚它的身份——比如一个客服 Agent 能接触到哪些数据,可以回答什么样的问题;比如一个实习生的 Copilot,和高级副总裁的个人助理,怎么避免二者的信息权限混淆。规避实习生可以通过 AI 轻松拿到公司敏感信息这种情况出现。这些都是看似细节基础,但实际上做起来复杂,而一旦出现问题却有可能给企业造成重大损失的实干问题。

还有就是 Evalution(评测)的能力。做过 Agent 开发的人都知道,最大的痛点不是怎么搭建环境训出一个 Agent,而是不知道怎么评估一个 Agent 在业务场景里的能力,毕竟不能把一个刚训出来还不知深浅的 Agent,随便就丢进生产环境里测试。

而 Agentkit 的 Evalution(评测),其实就是一系列评测 Agent 在真实场景中工作能力的测试集。这个一直是个没有被很好解决的问题,如果对标一下其他国际云大厂,其 Agent 开发工具内置的评测集好像也只有十几套。而火山这次一口气发布了超过 50 套评估测试集。

场景积累的意义在这里就体现了。显然字节跳动内部本身就有几万个 Agent,每天进行几十万次的评测,所以火山是个巨大的基础资产。从抖音电商的客服机器人,到 TRAE 的 Coding 助手,这些业务的需求倒逼火山团队必须建立有效的 Agent 评测能力。这些为了支撑内部庞大业务而磨练出的「基建能力」,现在成了火山 MaaS 服务的底座。

 

02

多模态一定是云厂商竞争的「新赛点」

 

除了基模和基建的扎实推进,在这次 Force 大会上,我们还看到了一个信号: 多模态(视频、语音、图像)的理解和生成能力,正在成为 MaaS 增长的新赛点

据我了解,火山内部也已经形成了一个认知 :每增加一种多模态模型能力,MaaS 的销售就能带来显著的百分比增长。

这不难理解,今天商业世界的大量场景是视觉的。视频带货、在线教育、娱乐社交,这些才是用户和需求最集中的场域,而要让 AI 和 Agent 在这些场域发挥作用,不论是与用户对话交互、生成内容,还是理解这些场景里的内容,解决用户或者创作者的问题,都离不开多模态模型的能力。

而多模态能力恰恰也是字节跳动的「主场」。豆包是最早具备图像识别能力的大模型之一,还记得 2025 年高考时,豆包在看图解题上的表现就让人印象深刻。而在今年 IF 大会上做出精彩分享的张楠,其领导的即梦在今年国内「产业级 AI 视频生成」落地竞赛里处于领先地位,这背后其实都是同源的技术栈。

而这次发布的 Seedance 1.5 Pro,解决的核心问题不是「生成」,而是「可用性」。它重点突破了音画高精同步和多语种对白,尤其擅长中文方言和对口型等。做过影视创作或短视频的人都知道,这才是从「玩具」变成「生产力」的关键。这意味着,未来的短剧、广告片,甚至是一部分的电影镜头,真的可以用 AI 直接生成了。

豆包 Seedance 1.5 Pro 丨来自:2025 原动力大会·冬

 

同时,豆包 1.8 的视觉理解能力也大幅提升,支持 90 分钟长视频的低帧率快速理解,并且支持调用工具对关键片段进行高帧率处理。这意味着模型不再是只能看懂一张图,而是能像人一样看完半场篮球赛,并分析出战术布局。

简单总结一下就可以看出,火山引擎未来一段的发展战略和主要焦点,就是在「与商业世界对齐」的工具环境和模型能力上。而多模态能力的领先,恰恰将给火山引擎带来重要的战役制高点。

 

03

客户实际上在买

字节跳动的「技术溢出」

 

要理解为什么火山引擎今年这么火,其实值得换个客户视角看看他们买单的深层逻辑到底是什么?

由于极客公园接触创业者比较多,至少从他们的视角,我听到了一个有趣的观点: 今天企业用火山引擎,本质上其实就是在「薅字节跳动的技术羊毛」,享受其技术外溢的红利。

我们来看一组震撼的数据。在这次 Force 大会上,火山公布了一个核心数字: 豆包大模型的日均 Tokens 调用量已经突破了 50 万亿

这是什么概念?作为对比,谷歌此前刚刚宣布今年 9 月的全月 Tokens 消耗量为 1.3 千万亿,也就是日均 43.3 万亿。换句话说,火山引擎如果没吹牛,那么每天处理的 AI 调用量,已经站在了全球云平台的第一梯队,甚至在某些维度上实现了超越。

这 50 万亿的调用量似乎是有水分呢?我觉得如果考虑到字节跳动内部庞大的「内循环」需求,大概率是差不多的。

2025 Force 大会上火山引擎发布全景图丨来自:2025 原动力大会·冬

 

字节跳动的特点是,模型闷头做,然后自己的狗粮自己猛吃。其内部大量的应用和场景,模型调用早就无处不在,每天都在产生海量的 Tokens 调用。这种天然的环境就必然带来一个原生的能力——为了支撑这个体量的内循环,为了让字节自己的业务能跑通、能赚钱,字节的技术团队必须把推理成本压到极致,必须把 AI 云原生的能力做好。

其实今天我接触的优秀创业团队和投资人们都有个共识, 无论什么形态的产品,今天都是个「容器」:一个在场景里赢得用户,形成「数据飞轮」的容器。它的形态会不断演化,甚至终将走向「产模一体」(也就是需要有自己的最优模型) 。但是今天的核心不是探讨模型是谁的,基础设施是谁的,而是最高效构建可以拉进用户,产生数据飞轮的进程。

所以这个时候,就可以理解为什么创业者们一方面「怕字节」做和自己类似的产品,但是又很坚决的会选择火山引擎的 MaaS 服务。核心是他们希望抓住字节跳动内部技术能力的溢出,就算随着发展和能力积累肯定要自己的有模型,那今天也要坚决薅「字节的技术羊毛」。

显然更多的真实商业世界里的企业,也开始想清楚了这个问题。目前火山引擎日均 Tokens 调用量突破一万亿的企业客户已经超过了 100 家,这个数字还在快速上升。

火山引擎这种在 AI 时代支持字节「内循环」+商业世界「外循环」的双循环模式,确实有点势不可挡。接下来几年,是国内商业世界非常值得关注的一个新变量了。

IF 2026 最大「黑马」:钢铁侠故事背后的温度和创新

2025年12月18日 16:33

整理|曹思颀

编辑| 靖宇

 

这大概是 IF 2026 舞台上最大的一匹「黑马」。

没有太多观点和「暴论」的硬输出,也没有渲染出对未来和「增长」过多的乐观或期待。Hypershell(极壳科技)年轻的 90 后创始人孙宽,从技术栈、PMF 发掘、用户洞察、产品体验等多个维度,深度复盘了他和创业在创业各个阶段的关键思考和决策。

Hypershell 所在的「消费类外骨骼」赛道,今年在各大短视频平台获得了大量曝光。但实际上,在 2021 年 Hypershell 之时,这个品类仍然处在行业和投资界的共识之外。孙宽在上百场融资路演中遭到拒绝,投资人既不相信这个品类背后的技术可以快速成熟,也不看好市场对这种新产品的需求。

4 年之后,Hypershell 的产品不仅已经完成了对数万名用户的成功交付,而且外骨骼也彻底摆脱了过往工具设备或「医疗辅助器械」的形象。户外摄影师、背包客、徒步和滑雪爱好者们,把 Hypershell 带到了更远更酷更广阔的场景里,给予了这个品类更好的可能。

在小红书上,关于这场分享有两条让笔者印象深刻的评价:

  • 「原本以为又是一个俗套的钢铁侠故事,没想到真诚是必杀技,看到了一位诚恳的追梦人」
  • 「技术本身不伟大,但让技术贴近普通人、贴近真实生活,这件事很伟大。」

以下是 Hypershell 创始人 & CEO 孙宽在极客公园创新大会 2026 上的演讲实录,由极客公园整理。

嘉宾核心观点提炼:

  • 具身智能不仅是创造独立于人类、旨在「取代人」的智能(如自动驾驶或人形机器人),还包括旨在各种场景下「增强人」的技术,而外骨骼正是这一方向的载体 。
  • 从工业走向消费级的两大关键技术突破: 构型突破和重点控制;电机电驱技术的发展。

 

  • 选择了反直觉的品类策略: 尽管老年人市场需求看似显而易见,但「医疗辅具」的品类心智可能限制市场上限。先通过硬核户外人群建立「酷」的积极心智,才能真正打开品类天花板。
  • AI 成 为了外骨骼的「外置小脑」。 得益于模型算力,AI 能准确预测用户动作趋势并自适应地形,如同 iPhone 用电容屏实现单按键交互一样,AI 让外骨骼实现了仅需一个开机键的极致简化交互。
  • 面对第一代原型机用户体验不佳的反馈,Hypershell 选择推翻重来,因为「体验不够好,对用户来说就是没有体验」。

孙宽在 IF 2026 舞台上|图源:极客公园

以下为孙宽在 极客公园创新大会 2026 上的发言全文:

极客公园的朋友们大家好,我是 Hypershell 创始人孙宽,很荣幸在这里跟各位一起交流。Hypershell 的方向和今年极客公园创新大会的主题非常一致,我们都在创造一个全新的「进程」:一个关于人类的潜能和自身行动力的进程。

 

01

从 0 到 1,找到消费级

外骨骼的「技术起点」

 

当我们谈到「具身智能」时,大家脑海里第一个画面是什么?

也许是一个自动驾驶的汽车,或者一个聪明的人形机器人。这些都非常酷,在试图创造一个独立于人类的智能。

但其实,具身智能还存在另一个方向:外骨骼。如果人形机器人的终极目标是在某些场景下「取代人」,那外骨骼的目标就是在各种场景下「增强人」。

今天,我不太需要再用过于复杂的语言解释什么是「消费类外骨骼」。因为大家已经在很多景区看到过产品租赁,甚至有人穿着我们的产品打破了马拉松纪录。

在户外场景下的消费类外骨骼产品 | 图源:Hypershell

但在今年之前,情况都完全不是这样。很长一段时间里,外骨骼的定位都是「工业设备」。

一方面,受限于那时的机器人动力技术,传统外骨骼只能靠气压或液压驱动,笨重且行动迟缓。要知道,每增加 1kg 的负重,人的新陈代谢就会增加 2%。而一个 10kg 的设备穿在身上,就要增加 20%-30%的额外负担。

另一方面,受限于当时的 AI 能力,传统外骨骼只能按规律步态反复运动,无法适应复杂地形和千人千面的消费级用户需求。

所以,传统外骨骼往往「局部省力,整体费力」。很多时候穿上它,人反而更累了。

我记得 2021-2022 年,整个外骨骼行业的年销量加起来也不超过 1000 台。所以,当 Hypershell 在 2022 年寻求融资时,遭遇了上百场失败的路演连续的拒绝。我们面临最多的三个问题是:

「为什么几十年了这个品类没有人做出来?

为什么你可以?

为什么普通人需要一个消费类的外骨骼产品?」

作为一个从无到有的全新品类,在开始阶段总会遭遇投资人的「灵魂拷问」 | 图源:极客公园

这些问题在当时很难回答。但身处行业之中,我还是从学术和产业两个方向,在技术层面看到了通往未来的可能。

第一个判断,来自于我研究生的方向:外骨骼模拟和理论分析。这是一种从能量和第一性原理,判断外骨骼是否有效的工具。

研究过程中我发现,能对人产生显著正向作用的外骨骼产品,是存在理论可行性的。并且,我在模拟过程中也找到了非常有意思的构型——用一套动力系统同时为两条腿提供助力。

这个在当时被认为有些反直觉的想法,通过仿真验证,后来演变成了我们的第一代产品,也是全球首个单电机外骨骼。它极大程度地降低的外骨骼的重量、成本和结构复杂度。

第二个判断,视角来源于机器人行业的发展。

2019 年,MIT 开源了四足机器人论文,给行业揭示了一种全新的驱动方式——QDD(准直驱电机)。相较于传统的液压和气动方式,QDD 动力方案可以做到极高的功率密度、扭矩密度和控制精度,同时很好地控制成本。今天,电驱的扭矩和功率密度已经达到了人类肌肉的 10 倍以上。

在这些基础上,我们把消费类外骨骼从不可能变成了可能。

 

02

户外人群,让品类变得更酷

 

下一个重要问题,是「产品需求」。

做创新方向的硬件公司,最容易死在需求不明确,也就是「拿着锤子找钉子」。Hypershell 今天找到的主流消费人群包括:户外摄影师、背包客、旅游、徒步和登山爱好者 。对他们来说,外骨骼可以帮助他们走得更远、看得更多,去拍摄没有拍过的风景。

还有一部分,是我们之前自己都没有意识的用户群体。例如:越野滑雪和滑翔伞人群。外骨骼能帮助他们减轻上山的消耗,把更多精力留给下山的过程。

这些就是我们定义的「户外功能性出行人群」,即:从 A 点到 B 点,带有明确目的属性的人群 。

Hypershell 通过户外场景,改变了消费者对外骨骼的品类心智 | 图源:极客公园

当然,也有很多人问我们:为什么不先做老年人市场?这看起来是个更显而易见的需求。

其实,这是一个品类策略的问题。在 Hypershell 出现前,所有人对外骨骼的第一印象都是「医疗辅具」,谁穿就代表谁的身体「有问题」。不仅年轻人无法接受,老年人也非常抗拒。就像我们的父辈们抗拒助听器一样,觉得戴上就承认自己变老了。而一个负面的品类心智,会极大限制未来的拓展上限 。

相反,硬核户外人群则代表着对自由的向往和世界探索的渴望,这是一种非常积极的品类心智。

我们认为,只有当一个品类给用户留下的第一印象是「酷」,它的天花板才能被真正打开。

经过几年的尝试,这个策略被验证是有效的。今天,即使是老年人购买了我们的产品,他分享的内容也是和家人一起去看风景,重新登上了 10 年前能登上的那座山。Hypershell 成功改变了这一代人对这个外骨骼的看法,打开了品类的拓展空间。

 

03

「至暗时刻」和「意义感瞬间」

 

找到市场定位只是第一步。

作为穿戴类产品,外骨骼产品必须非常关注用户体验。具体来说,就是让用户获得的「正向收益」大于可能造成的「负面负担」。否则,即便是 Vision Pro 这样沉浸性很好的产品,也会因为佩戴舒适性,无法得到高频使用。

运动识别在长一段时间里,制约着外骨骼的发展。设备贴身穿戴,需要配合人一起做各种复杂的动作,应对多样化场景。所以,外骨骼需要一个跟人一样的 「 外置小脑 」 。

过去,这很难通过一套固定算法解决。

幸运的是,得益于今天的模型算力和大量用户数据,现在的产品可以比你更快知道你下一步的动作,可以准确预测你的动作趋势。无论是走路、跑步、上下楼梯、上下坡,还是骑自行车,它都能通过 AI 自适应,把所有自行车变成 E-bike。

就像电容屏让 iPhone 可以只保留一个 Home 键,AI 的出现,让 Hypershell 也可以实现极致简化的交互门槛,用户除了开关机不需要任何其他操作。

在外观设计上,Hypershell 只保留了一个开关机的物理按键 | 图源:Hypershell

带着这样的理念,我们在 2023 年通过众筹上线了第一款原型机。虽然拿到了几千个用户的支持,验证了需求,但很快我们就陷入了谷底——第一批灰度测试用户对产品的评价没有一个超过 60 分。用户们抱怨穿戴不舒服、助力姿势别扭、不兼容背包。

我想,如果把这样的产品发给用户,结果不仅这家公司可能就没了,整个行业的发展也会被严重拖后几年。

经过挣扎,我们决定砍掉第一代,重新开发第二代产品。我们本以为只需要半年时间,但因为采用了新构型,所有东西都要重做,最终用了一年半时间才完成开发,也导致我们众筹发货延迟。

而且,由于第二代产品采用了全新的双电机方案,成本比原来贵了几乎一倍,每发一台都在亏钱。但幸运的是,用户给予了我们足够的理解,最终产品也成功交付到了几万个用户手中,并开始对他们的生活产生帮助。

这是我们创业以来的「至暗时刻」之一,但一些画面又让我觉得所有煎熬都是值得的。

第一个图是我朋友发给我的,图片是一位老爷爷穿着我们的产品在地铁里。这让他想起了自己去世的爷爷。他说,如果这样的产品早出现几年,老人晚年的生活质量可能会更高。

第二个画面来自前段时间中国香港的火灾救援。我们捐助的外骨骼产品,让救援人员在灾后连续攀爬 30 多层楼的过程中,可以更好地保持体能,聚焦在救援上。这让我们感觉到科技赋能了生命,是我们意义感的高光时刻,也是人类历史上第一次动力外骨骼被规模化应用在抢险救援场景。

随着老龄化、城市化和数字沉浸,人类的平均年龄在增加,但平均行动力在下降。疫情隔离那几年也让我强烈感受到,我们的幸福感和驱动力很大程度上来源于和真实世界的连接。所以,我们的使命是:用技术增强人们的行动力,让每一个人的世界能够变得更大。

我最近的一个强调感受是:我们好像真的活在一个科幻的时代,过去想象里的东西都在加速的成为现实。在 AI 和机器人的技术赋能下,像外骨骼这样,过去大家认为不可能,或者已经存在但体验并没有那么好的品类,都可以被重新思考和设计。

这是一个无限可能的时代,也是属于我们这代人机会。我期待未来和大家一起,把我们想象里人人都在「钢铁侠」的世界变成现实。

人人都能当电影导演?万相 2.6 杀疯了:角色扮演、分镜控制,硬刚 Sora2

2025年12月18日 16:29

作者|Cynthia

编辑| 郑玄

还记得国庆期间朋友圈被 Sora 2 APP 支配的恐惧吗?

那时候,一定没人想到,这个出场即炸场的产品,同样出道即巅峰。

向来以天为单位不断刷新 sota 表现的大模型市场,唯独在视频生成上,此后足足两个多月,无论是谷歌 veo3.1 还是 Runway 推出的模型,都没能再现 Sora 2 在多人物不崩脸这个小细节上的稳定表现。

直到 12 月 16 日阿里万相 2.6 正式发布。在追齐 Sora 2 体验,并且推出独有的音频驱动生视频能力之外;万相 2.6 的这次升级更是将视角对准了多模态内容创作中多镜头切换、内容一致性的各种真实痛点,做到了让专业创作的乙方少加几次班,普通的 C 端内容创作爱好者 0 成本上手。

那么万相 2.6 体验究竟如何?它能否和 Sora2 一战?一定程度上,回答了这些问题,也就回答了未来多模态大模型究竟去往何方的核心命题。

 

01

万相 2.6 究竟做对了什么?

 

12 月 16 日,阿里旗下万相 2.6 正式发布,我们第一时间拿到了内测资格。

我们发现,这个涵盖文生视频、图生视频和角色扮演功能,图像生成和文生图共 5 款模型的组合拳产品,从功能亮点和功能丰富度角度来看,万相 2.6 已经是当之无愧国内的佼佼者 根据权 威大模型评测集 LMArena 的测试数据显示,万相图生视频位居国内第一

因为相比老对手 Sora 通过写实生成效果引发全球轰动的野心;万相这次 2.6 版本的能力升级其实主打就一个词,实用,并且把所有升级点砸向了影视制作、广告设计、短视频创作的真实痛点。

内容创作圈最头疼的,莫过于一致性崩塌。在传统动画行业,吉卜力工作室为了保证角色形象不跑偏、风格一致,会为了一部电影,几百位画师耗时两年画十几万张画稿,4 秒镜头能磨 1 年。而 AI 生成的噩梦,恰恰是前一秒主角还是圆脸,下一秒变成锥子脸,说话时嘴型和台词完全脱节。

针对这个痛点,万相 2.6 这次升级直接把声画一致性拉满,成为国内首个支持角色定制 + 音色同步的模型 :用户输入一段视频,AI 就能精准复刻角色的五官、动作甚至说话语气,就算是双人合拍,也不会出现脸飘到别人头上、镜头切换主角直接变脸的乌龙。

解决了一致性,下一个拦路虎是复杂场景的多角色呈现。

目前 Sora 2 与万相 2.6,是全球唯二实现该功能的模型。并且,万相 2.6 还能结合刚才提到的角色、声音一致性能力,让 AI 真正具备了一定的复杂画面生成能力。

而建立在一致性、多角色的基础之上,镜头调度和灯光审美往往是人类高质量视频内容的灵魂。

被奉为经典的宫廷剧《金枝欲孽》片头,导演通过一段不到 5 秒的镜头切换里,以及演员站位的变化,就说明了五个主要人物之间的关系与感情纠葛,二十多年过去,至今仍被奉为神级镜头调度。

王家卫电影的氛围感与幽微的人物情绪流动,也有一半功劳要归给灯光师的精准控光。

但以前 AI 生成视频,要么镜头衔接生硬,要么角色突然瞬移,上一镜在左边,下一镜直接出现在右边,更不用提各种精美的打光,以及氛围的塑造。

万相 2.6 的「智能分镜调度」很好地解决了以上问题,通过支持「总体描述 + 镜头序号 + 时间戳 + 分镜内容」的公式化输入,比如「第 1 镜 [0-3 秒] 远景推近,第 2 镜 [3-5 秒] 特写」,AI 不仅能严格执行,还能保证跨镜的场景、角色、氛围统一,再也不会出现「上一镜穿红衣,下一镜变蓝裙」的低级错误。

其实,万相早从 2.2 版本起,就已经能通过精细的灯光控制、环境细节呈现,支持日光、月光、硬光、柔光等精细调节,让 AI 生成的内容从「能看」升级到有「审美」,具备专业级内容生成能力。

光说不练假把式,我们带着挑刺的心态实测了整整三天,从角色定制到多镜叙事,从视频生成到图片创作,摸清了它「让人人皆可做导演」的真实水平,以及 技术 demo 与生产级工具之间的差距。

 

02

视频能力实测:

人人都能生成神级镜头

 

过去很多行业测试,为了保证效果,经常会让 AI 生成一些无声视频,或者画面简单的动画风素材,再或者干脆就是一个几乎静止的背景中,只有一个小幅度动作的简单运动主体(甚至都不敢把主体设置为人或者动物这样有复杂肌理和动作的形象)。

这次对万相 2.6 的测试,我们不搞虚的,把一致性、多镜头、音画同步、长视频、审美,这些真实行业痛点、难点全都测一遍。

测试一:多镜头叙事

一直以来,多镜头叙事都是电影高级感的核心来源之一。这里我参考《哪吒》的画风,给了一段复杂场景、多主体的多镜头切换的提示词:

镜头一:低角度远景,镜头快速推进 3s

画面内容:仙境般的云端建筑群在云雾中若隐若现,一群白鹤自左向右舒展翅膀,掠过层层楼阁的屋檐

视觉效果:叠加中强度动态模糊,伴随轻微追焦微颤,焦点锁定鹤群与建筑轮廓

镜头二:中近景中速推进 + 追焦微颤 3s

画面内容:近距离捕捉白鹤羽翼贴近檐角的流畅轨迹,镜头紧跟鹤群运动方向。视觉效果的动态模糊逐渐减弱,追焦微颤幅度保持轻微,强化画面衔接感

镜头三:无缝转场,特写,镜头恒定不动 0.3s

画面内容:白鹤羽翼擦过最外侧屋檐翘角的瞬间,以檐角硬轮廓完全遮挡画面。无额外特效,保留自然光影,确保转场干净利落

镜头四:主体聚焦,从近景→特写,镜头缓慢推近 3s

画面内容:转场后聚焦檐角顶端,橘猫端坐舔爪(近景),随后推至特写,呈现舔爪细腻动作与毛发质感。画面清晰,焦点全程锁定橘猫

镜头五:特写变中近景中速推进 + 追焦微颤 4s

画面内容:橘猫被打扰,停止舔毛,看了一眼镜头后,跳下屋檐,动作轻巧,追焦微颤幅度保持轻微,强化画面衔接感。

这里的难点在于:首先是画面足够复杂,画面中主体来回切换,从飞翔的白鹤到舔毛的橘猫,再到跳下屋檐的橘猫,而伴随主体的动作变化,镜头也在同步于远景-中景-特写-中景中来回切换。

可以看到,生成的视频里,生成的视频里,《哪吒》式的东方写意美学被精准落地:云雾是渐变的水墨质感,云端建筑的飞檐翘角带着古风的韵味。白鹤运动的镜头即使高速推进没有丝毫卡顿,动态模糊恰好放大了闯入仙境的沉浸感;后续橘猫舔爪的毛发细节栩栩如生,镜头也会随着橘猫的眼神变化而出现画面的移动。

最难能可贵的是,三次大的镜头切换(白鹤→舔爪橘猫→跳檐橘猫)没有出现任何突兀感:鹤群的飞行轨迹是天然的视觉引导线,檐角转场是承上启下的视觉桥梁,橘猫的动作变化则成为镜头运动的点睛之笔。整体完全复刻电影级无缝衔接,没有任何卡顿或脱节。

测试二:长视频+审美

一直以来,AI 生成视频都不难,但生成稳定、漂亮、可用的长视频却一直是困扰依旧的痛点。

万相 2.6 支持最长 15 秒生成(角色扮演功能 10 秒),这个时长看似不长,但刚好戳中核心场景:短视频场景,15 秒是黄金时长、广告片场景,30 秒广告可拆成 2 个 15 秒片段、而在短剧片段,10-15 秒就能完成男主歪嘴一笑、龙王归位,一众吃瓜群众从白眼鄙视瞬间切换惊恐讨好的爽剧经典套路。

这里我们测试一个专业服装拍摄的商用级场景,提示词如下:

镜头一:0-3 秒,中景→近景。林间光斑透过树叶洒落,美女身着米白色棉麻长裙,缓步走在铺满落叶的小径,裙摆随步伐轻晃 暖调柔光,画面静谧,聚焦棉麻面料的垂坠感,轻柔风声、树叶沙沙声

镜头二:3-7 秒,特写→中近景。风拂过,特写衣角翻飞的弧度,棉麻纹理清晰可见;镜头拉回,松鼠蹲在她脚边啄食。自然光影,无多余特效,突出面料透气飘逸。风声渐柔,加入轻微呼吸声

镜头三:7-12 秒,近景→特写。美女抬手轻拂额前碎发,笑容舒展,小鹿从林间探出头,与她对视;镜头聚焦面料贴肤的舒适状态画面柔和,焦点在面料与人物神态之间切换, 背景音渐弱,预留口号空间

镜头四:12-15 秒,中景定格。美女站在林间转身,裙摆随风轻扬,小动物环绕身旁,画面定格在面料飘动的瞬间 暖光渐变柔和,画面干净治愈。背景音清晰女声:「好面料,会呼吸」。

这里的难点在于,除了美之外,棉麻质感难还原纤维肌理,还要考虑自然垂坠与光影通透感,否则容易显塑料感,此外,画面中的小动物互动增加了整体画面复杂度,而森林光影也需要在光斑、光线折射等细节做到真实且有美感。

行业人都懂,过去这种级别的画面,以前要找外景、模特、灯光师,拍摄 + 后期至少 3 天,现在用万相 2.6,输入提示词几分钟生成,直接能当成片交付。

此外,值得一提的是,万相 2.6 除了生成的视频质感高,操作门槛还极低。写出以上专业级分镜脚本,其实只要按照官方给出的【总体描述 + 镜头序号 + 时间戳 + 分镜内容提示词】指令指引,就能实现智能分镜调度功能。而这种能精准控制每个角色的动作顺序和画面镜头调配的能力,在短视频剧情创作、IP 衍生内容生产中简直是降维打击。

测试三:基于参考视频的人物,搞定人物一致性+音画同步。

这里我选用的输入素材是一段林黛玉的特写,以及模版中已有的关羽形象,来一段名著大乱炖。

提示词如下: 暮春清晨,隆中茅庐外竹林青翠,薄雾如纱,屋内隐约传来抚琴之声。镜头先以全景定格——诸葛亮身着月白道袍,临窗而坐,指尖拨弄琴弦,琴声悠扬;

镜头突然切换为快速跟拍,@ 关羽走进柴门,镜头推进至中近景,大步流星到诸葛亮面前,,说「我回来了了」

镜头随着诸葛亮的眼光移动横切,@ 林黛玉 中近景缓缓入画。特写中眼眸流转着几分嗔怨与疏离:「早知他来,我便不来了。」

最终镜头切回诸葛亮收尾。

这里的难点在于:我给出了两个需要参考的主角,以及一个没有任何参考只有文字描述构建的诸葛亮形象,并且每个主角都多次引用在提示词不同位置,需要 AI 保持一致的情况下,精准控制主角行为。

可以看到,借助模态联合建模能力,万相 2.6 生成的视频里,时序动态(比如关羽的走路姿势)、情绪变化(比如林黛玉嗔怪的神情)全都和参考视频几乎一致,最惊艳的是:人物的嘴型和台词严丝合缝,声音质感没有半点 AI 塑料感。

另外,相同的人物角色,我又尝试直接给 AI 一段参考的黛玉的声音,让它自主生成视频,可以看到,我把背景音乐以及黛玉的语气改变之后,她整个人的神态也会随之变得生动活泼,并且口型与声音完全匹配。

而这段视频里,对比 Sora2,万相 2.6 的差异化优势也很明显:前者虽然支持长视频,但缺乏音频驱动生视频的功能,你没法让 Sora2 参考一段人声,生成对应角色的说话视频。而万相 2.6 直接把声音 + 画面绑定的能力,对于广告片、短剧、虚拟人直播等商用场景来说,实用性直接拉满。

 

03

图像能力实测:

设计圈的效率革命来了

 

如果说万相 2.6 的视频功能已经有了初步踏足专业影视圈的能力,那其图像能力可以说已经足以精准拿捏设计圈。

图像层面,万相 2.6 的核心升级,都围绕商用级展开:解决企业用户最关心的图文一体化排版、多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制等细节。

我们用两个真实商业场景做了实测,结果发现:以前需要设计师、插画师、排版师协作一周的活儿,现在一个人用万相 2.6 输入指令,几小时甚至几分钟就能搞定,而且细节精准到可以直接商业交付。

测试一:基于多张图片的图文混排

过去,内容创作圈的三重折磨在于:写文案的不懂设计,做设计的不懂文案,排版的夹在中间反复拉扯。比如出版社做绘本,要找作家写故事、插画师画配图、排版师调格式,三者风格要统一、内容要契合,光沟通修改就要耗半个月。

现在用万相 2.6,只要写这样一段提示词:

创作一本关于环保的儿童绘本,插画风格为治愈系水彩风,色彩以蓝白为主,每页插画要和文字内容精准对应,整体风格统一。故事内容:1、在遥远的北极,小北极熊乐乐发现冰面越来越小;2、乐乐遇见了迷路的鲸鱼,鲸鱼告诉它「人类在保护地球」;3、乐乐决定到处走走看;4、一年后,乐乐回到家乡,冰面变宽了,还多了很多小伙伴。

提示词背后的难点在于考验 AI 的逻辑理解 + 设计统筹能力:①要先拆解长文本的叙事结构,4 个段落之间剧情不能张冠李戴;②要保持插画风格、色彩、角色形象的高度统一,不能第一页是圆耳朵,第三页变成尖耳朵。

可以看到,生成的绘本不仅风格、色彩、角色完全一致,就连提示词中没有写到的文字意境也做了精准表达,比如第一页的小北极熊站在破碎的冰面上,眼神迷茫;第四页的冰面宽阔,小伙伴一起玩耍,氛围温暖。

而这也意味着,不管是绘本创作、公众号推文还是知识付费课件,后续都能实现文案输入→成品输出的一步到位,省去了找图 + 修图 + 排版的全流程,效率提升至少 10 倍。

测试二:商用级一致性 + 多图创意融合

过去,品牌方的物料噩梦在于,真人拍摄,经常因为各种情况耽误拍摄进度,需要场地加钱、模特加钱、各种设备重新报批申请;而用 AI 批量生成宣传图,AI 又像在开盲盒,只是想把产品图、背景图、参考风格图融合成一张海报,也会出现产品比例失调,背景和风格割裂,严重影响品牌识别度的问题。

针对这些,我们设计一段针对性测试。提示词: 生成美妆品牌宣传图,要求:①核心产品为上传的口红(参考图 1),保持产品外观、logo、包装细节完全一致;②融合上传的花的照片(参考图 2),背景为花瓣飘落的场景;③产品垂直摆放在画面中央,周围散落 3-5 朵花,花瓣纹理清晰;④色调光影有大片质感。

生成一张之后,我们再要求其搭配一个模特,试用产品。

提示词背后的难点在于,让 AI 同时实现精准控制 + 创意融合的双重考验:既要要确保产品的外观、logo、包装细节在两张图里分毫不差(这里我专门选择了 YSL 这样的复杂 logo,并且 YSL 的口红膏体为相对少见的方形,其他 AI 在生成时,很容易把膏体变成常见的圆形);还要保证多图融合难在要把产品图、背景图、风格图有机结合,不能让产品像贴在背景上。

可以看到,生成的两张宣传图直接达到商用级标准。不仅所有要素之间也融合自然,并且做到了花朵背景和大片风格完美衔接完全不抢戏,主体产品突出,甚至金属包装会反射花瓣的光影这样的细节都做到了完美还原,毫无 AI 的痕迹。

这对品牌方来说,这意味着「一次设定,无限复用」,不仅可以做无限的创意搭配,还能保证品牌形象的统一性,效率革命近在眼前。

 

04

尾声

 

当然,万相 2.6 不是完美的。我们实测中发现几个小问题:比如视频最长只能 15 秒,对于需要长叙事的场景还是不够;非常复杂动作,比如翻跟头 + 复杂舞蹈动作,偶尔会出现肢体变形。但这几乎也是全行业目前亟需解决的问题。

但万相 2.6 乃至 Sora2 们微小的不足,掩盖不了一个行业真相:AI 视频生成正在从技术炫技进入落地加速阶段。AI 带来的,本质上是对内容创作生产关系的重构:不仅有大量专业影视制作平台在用 AI 制作漫剧、短剧,社交平台更是涌现了一批博主用 AI 制作的小猫打架、小说动画小短片在各种平台爆火。

基于万相 2.6 模型核心能力,千问 APP 上线「AI 小剧场」玩法,国内首次实现「角色合拍」能力,用户可与朋友或名人轻松同框出演 AI 短片。

而在这一过程中,人类只需保留想象力、审美以及创意,而剩余的执行细节,可以全部交给 AI。

这一次,有创意,就能人人当导演的时代真的来了。

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金;消息称 SpaceX 要求员工进入 IPO 前的「静默期」;《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64|极客早知道

2025年12月18日 08:51

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金

12 月 18 日,据 The Information 独家报道,据三位知情人士透露,OpenAI 已与部分投资者展开初步洽谈,计划以约 7500 亿美元的估值进行新一轮融资。

其中两位人士称,此次融资规模或达数百亿美元,最高甚至有望达到 1000 亿美元。目前相关磋商尚处早期阶段,尚未敲定任何事项。这一估值水平较该公司去年 10 月的上一轮股权融资估值高出 50%,融资所得将进一步充实其本就颇为雄厚的现金储备,以支撑人工智能模型的训练与运营。除了已从 Thrive Capital、软银等投资方筹集的超 600 亿美元资金外,OpenAI 已着手筹备新一轮融资。据悉,亚马逊正洽谈向该公司投资 100 亿美元或更多资金。(来源:The Information)

OpenAI 和谷歌通过免费赠品争夺印度用户和训练数据

12 月 17 日,据外媒报道,OpenAI、谷歌和 Perplexity 在印度开始了一场人工智能用户争夺战。

为了吸引对价格敏感的用户,谷歌在 11 月开始向印度最大的电信运营商 Reliance Jio 的 5 亿用户免费提供其价值 400 美元的 Gemini AI Pro 订阅,为期 18 个月。

OpenAI 还将其 ChatGPT Go 计划免费提供一年,与现有计划相比,该计划的使用时间延长,但并非无限。与此同时,Perplexity 还为印度电信公司 Airtel 的用户免费提供了一年的 Pro 工具(全球售价为每年 200 美元)。(来源:财联社)

 

谷歌 DeepMind CEO:AI 泡沫存在于早期初创公司中

12 月 17 日,谷歌 DeepMind 首席执行官 Demis Hassabis 警告称,AI 融资狂潮中存在「泡沫」,尤其是在高估值的早期初创公司中。

Hassabis 强调,有些 AI 初创企业「基本上还没开始运营」,却「一上来就获得了数百亿美元的估值」,这种状况可能不可持续。他补充说,人工智能「在短期内被过度炒作」,但「在中长期内仍未得到充分重视」。(来源:财联社)

 

腾讯成立多个 AI 部门,前 OpenAI 研究员姚顺雨任要职

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部。

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

据了解,Vinces Yao 就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任 OpenAI 研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。(来源:极客公园)

消息称 SpaceX 要求员工进入 IPO 前的「静默期」

12 月 17 日,据彭博社援引多名知情人士消息称,SpaceX 已正式告知员工进入监管静默期,使公司距离计划明年启动的首次公开募股更进一步。在资本市场规则中,静默期是上市前的关键阶段,企业在此期间不得发布可能影响股价的言论,目的是确保市场信息披露的公平性。

知情人士称,按照美国证券交易委员会的要求,SpaceX 已明确禁止员工就上市计划进行任何形式的公开讨论或宣传,包括公司发展速度、业务前景和估值水平,适用于社交平台、公开演讲、会议和媒体采访。

先前的消息称,SpaceX 正在筹划一项规模空前的上市交易,目标融资额超过 300 亿美元(现汇率约合 2114.6 亿元人民币),对公司的整体估值约为 1.5 万亿美元(现汇率约合 10.57 万亿元人民币),若成行将刷新全球上市规模纪录。

根据彭博社看到的内部文件,SpaceX 表示,2026 年的潜在上市计划主要用于筹措资金,以支持「星舰」火箭的超高发射频率,加速在轨 AI 数据中心建设,并推进月球基地项目。

SpaceX 同时提醒,上市时间和估值仍存在变数,公司保留不推进首次公开募股的可能性。(来源:IT之家)

 

消息称自动驾驶公司 Waymo 拟募资超 150 亿美元,估值接近 1000 亿美元

12 月 17 日,据彭博社报道,谷歌母公司 Alphabet 旗下自动驾驶子公司 Waymo 正洽谈一轮融资,拟募资超 150 亿美元(约合 1057.3 亿元人民币),公司估值接近 1000 亿美元(现汇率约合 7048.66 亿元人民币),本轮融资由其母公司牵头。

知情人士透露,这家自动驾驶出租车制造商已探讨向 Alphabet 公司及外部投资者募资数十亿美元的可能性。

部分知情人士表示,Waymo 与其潜在投资方曾将公司估值上限定在 1100 亿美元,但最终募资规模与估值仍未敲定。

Waymo 上一轮融资于 2024 年 10 月完成,由母公司 Alphabet 牵头,彼时公司估值超过 450 亿美元,Alphabet 同时也是谷歌的控股公司。此次估值大幅攀升,凸显出 Waymo 已跻身无人驾驶技术领域龙头地位,公司正斥巨资扩充车队规模,并向新城市拓展业务。

两名知情人士称,Waymo 当前的年化营收运行率已突破 3.5 亿美元。(来源:IT之家)

 

哪吒汽车被曝开新号成立「谦和汽车」知情人士:为重整做准备

12 月 17 日,有媒体爆料称,哪吒汽车悄悄「开新号」。一家名为「谦合汽车」的公司成立,公司的注册地、关键人物和哪吒汽车母公司合众汽车均有交集。

公开信息显示,谦合汽车由上海山子有谦科技全资控股,注册资本 5000 万元,成立日期为 2025 年 12 月 11 日,法人朱人杰,其还为山子有谦公司 CEO,山子有谦为山子高科旗下公司。

值得关注的是,「山子高科、朱人杰」,半年前就频繁出现在哪吒品牌重组的传闻中。

对此,有媒体报道称,据山子有谦知情人士处消息,公司投资成立谦合汽车,正是为了重整哪吒汽车母公司合众新能源做准备。(来源:cnBeta)

 

小米公布短剧内容进展:拥有 S 级短剧 1000 部,人均短剧消费时长 70 分钟

12 月 17 日,在 2025 小米人车家全生态合作伙伴大会上,小米互联网业务部总经理刘婵发表《面向全生态的互联网服务》主题演讲。

她表示,多市场、多终端、多场景深度融合,小米互联网已构筑起真正意义上的全局生态。全球国家覆盖 100+,终端活跃设备数 10 亿+,独特场景 100+。

另外,她还透露了小米在短剧内容方面的进展,拥有 S 级短剧 1000 部,人均短剧消费时长 70min。

此前据媒体报道,今年 10 月,小米旗下独立短剧 App「围观短剧」正式登陆其应用商城,主打「无广告、全免费、轻量化」的模式。(来源:新浪科技)

 

京东在全国范围上线「自提」功能,12 月 18 日联合餐饮大牌请客

12 月 17 日,京东在全国范围内上线「自提」功能,为用户带来「线上下单、到店自提、即提即走」的餐饮消费新体验。

为了让用户更好地体验「京东自提,值得一提」,京东自提将于12 月 18 日推出「大牌请客」重磅福利。活动当天,用户可在指定整点时段,抢购涵盖咖啡奶茶、中餐西餐、小吃宵夜在内的多品类自提美食,部分商品抢购价低至 1 分钱。(来源:TechSir)

 

汽车博主韩路:换代小米 SU7 明年二季度上市,要涨 2 万元

12 月 17 日,知名汽车博主「韩路」今日透露「独家小道消息」称,小米 SU7 换代明年第二季度上市,升级颇多,但价格要涨 2 万。

目前在售的小米 SU7 车型已于 2024 年 3 月发布,售 21.59 万元起,若是涨价 2 万,那么就是 23.59 万,看齐特斯拉 Model 3。(来源:快科技)

 

摩尔线程后又一国产 GPU 公司沐曦股份上市:首日高开 568.83%,市值已达 2800 亿元

12 月 17 日,继摩尔线程之后,国产 GPU 公司沐曦股份于今日上市(股票代码 688802),首日高开 568.83%,报 700 元,按开盘价计算,中一签可赚 29.77 万元。沐曦股份的市值已经达到了 2800 亿元。

沐曦股份此次发行价格为 104.66 元 / 股,对应市值约 418.74 亿元。本次上市共发行 4010 万股,占发行后总股本的 10.02%,扣除发行费用后预计募集资金净额为 38.99 亿元,主要用于「新型高性能通用 GPU 研发及产业化项目」、「新一代人工智能推理 GPU 研发及产业化项目」和「面向前沿领域及新兴应用场景的高性能 GPU 技术研发项目」。(来源:IT之家)

谷歌突袭式发布Gemini 3 Flash,零门槛接替全球数亿用户默认模型

12 月 18 日凌晨,谷歌毫无预警推出 Gemini 3 Flash,并即刻设为 Gemini 应用默认模型,全面取代前代。用户可免费体验其推理能力,在权威编码测试 SWE-bench 中得分高达 78%,部分逻辑能力反超旗舰版 Gemini 3 Pro。

新模型以低于 Pro 版四分之一的价格,实现 3 倍于前代的速度,突破高智能、低成本与快响应的「不可能三角」。其每百万 tokens 输入定价 0.5 美元,支持语音建站等高频开发场景,可实时完成推理与自我验证。

Gemini 3 Flash 已通过 Google AI Studio、Gemini API 等平台上线,同步整合进谷歌搜索体系,与 Pro 版形成高低搭配的动态算力布局,标志着 AI 交互从实验对话进化为工业级决策引擎。(来源:极客公园)

 

Meta AI 眼镜重磅升级:新增「对话聚焦」和 Spotify 视觉配乐功能

12 月 17 日,Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新(v21),推出了两项关键新功能:「对话聚焦」以增强嘈杂环境中的听力清晰度,以及与 Spotify 合作的「视觉配乐」功能。

本次更新中最具实用性的功能是「对话聚焦」,该功能利用 AI 眼镜的开放式扬声器和人工智能技术,能够放大对话者的声音,从而帮助用户在嘈杂的环境,如繁忙的餐厅、酒吧或通勤列车中,更清晰地听到对方说话。

另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。

例如,当你看向一张专辑封面时,眼镜可以播放该歌手的歌曲;当你看着装饰有礼物的圣诞树时,它会播放节日音乐。Meta 承认这项功能更多是「噱头」,但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。(来源:aibase)

《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64

12 月 17 日,《阿凡达 3》外媒评价解禁,烂番茄新鲜度 68%,均分 6.4,不及第一部《阿凡达》81% 新鲜度、7.8 均分以及《阿凡达 2》76% 新鲜度、7.1 均分;MetaCritic 开分 64,不及第一部的 83 及前作《阿凡达 2》的 67 分。

其他主流媒体对《阿凡达 3》的评价是:

Variety:故事尚可,动作场面精彩,《阿凡达 3》在不再新颖的愿景上做出了新的演绎。它比第二部好——更大胆、更紧凑——而且仍然有不少令人惊艳之处。但它在视觉上已不再给人前所未有的感觉。

IGN:《阿凡达 3》虽未如前作那般实现技术飞跃——毕竟间隔三年而非十三年,这也在情理之中。但它在创新性上的不足,却通过全方位的精雕细琢得到了充分弥补。

《金融时报》:三部电影过去了,套路依然不变:突破性的电脑特效,直白的反殖民主义信息,以及在超长途航班上经常出现的呆滞眼神。

《泰晤士报》:很难描述一部实际上只是电脑生成的立体模型电影,里面充满了奇幻的动植物和盛装打扮却无处可去的神秘生物,这部电影究竟有多么缺乏戏剧性的紧迫感。(来源:cnBeta)

昨天以前极客公园

腾讯大模型「变阵」:成立 AI Infra 部,姚顺雨出任首席 AI 科学家

2025年12月17日 19:59

头图来源:视觉中国

 

 

大模型战事进入深水区,腾讯正在通过调整阵型,来适应更快的速度。

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。

 

姚顺雨,98年的AI顶尖青年科学家

 

据了解,Vinces Yao就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任OpenAI研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。过去几个月里,腾讯一改往日在大模型人才战中的守势,开始以双倍薪资激进地从字节跳动等竞争对手处挖角核心研究员,并为应届博士生开出高出行业标准 50% 的薪资溢价。

姚顺雨10月在X上发帖|图片来源:X

 

更深层的变化在于「权力交接」。腾讯正在进行内部重组,降级那些虽擅长工程落地和广告算法、但缺乏前沿 AI 研究背景的管理者,将指挥棒真正交还给「研究派」。这种去肥增瘦的动作,旨在打破过去「产品经理思维」主导大模型研发的局限。

姚顺雨出生于1998年,是人工智能领域的顶尖青年科学家,本科毕业于清华大学计算机系(姚班),后赴普林斯顿大学攻读计算机科学博士学位,2024年正式加入 OpenAI,专注于智能体(Agents)与深度研究(Deep Research)方向。

他在OpenAI任职及相关研究期间,主要在大模型推理、Agent(智能体)——及评估体系方面取得了核心成果:

提升推理能力:提出了著名的思维树(Tree of Thoughts, ToT),通过让大模型进行多路径推理和反复思考,大幅提升了模型解决复杂问题的能力;

智能体研究:他是 SWE-bench(大模型代码能力评估数据集)和 SWE-agent(开源AI智能体)的关键贡献者,并参与了 ReAct(推理与行动结合)和 CoALA(智能体认知架构)等开创性工作。

此外,他还在个人社交平台发布了关于“AI 下半场”的思考,主张AI发展的重心应从单纯的训练转向定义问题与评估,提出要像产品经理一样思考“解决什么问题”,认为在当前阶段评估比训练更为重要。

 

为什么是 AI Infra?

在过去一年的「百模大战」中,行业逐渐达成一个共识:大模型的竞争,早已超越了单纯的算法层面,变成了算力、数据、工程化能力的综合比拼。

此次腾讯成立 AI Infra 部,也是为了解决「算力效率」这一关键命题。

据官方信息,AI Infra 部将作为腾讯大模型体系的重要一环,聚焦于大模型分布式训练、高性能推理服务等核心技术。其目标非常明确:构建大模型 AI Infra 的核心竞争力,为算法研发和业务场景落地提供稳定、高效的技术底座。

这符合大模型技术演进的规律——当模型参数量级不断跃升(如腾讯近期发布的混元 2.0),如何让庞大的 GPU 集群高效运转,如何在大规模并发下保证推理速度和成本,已经成为决定生死的「隐形战场」。

腾讯方面表示,在过往混元大模型的训练及海量业务实践中,腾讯已积累了系统化的工程能力。此次独立建制,意在进一步强化这一优势,提升 AI 大模型的整体研发效率。

除了算力基建,数据质量和评测体系也被提到了新的高度。

此次升级中,新成立的 AI Data 部 将由刘煜宏负责,专注于大模型数据及评测体系建设;而数据计算平台部则由陈鹏负责,聚焦大数据和机器学习的数据智能融合平台建设。两人均向公司副总裁蒋杰汇报。

这意味着,数据处理不再只是算法研发中的附属流程,而是作为独立且关键的环节被标准化和制度化。

与此同时,王迪将继续担任大语言模型部副总经理,向姚顺雨汇报,确保模型算法团队与新成立的基础设施部门保持紧密协同。

 

效率变革,从代码到产品的「AI 化」

过去两年,尽管拥有微信这样的国民级应用,腾讯在 AI 模型层却一度被外界视为「旁观者」。

一个标志性事件是,今年 2 月腾讯元宝率先接入 DeepSeek R1。虽然这一动作让元宝的活跃用户数实现了数量级跃升,但也给腾讯内部敲响了警钟:自有模型的缺位,甚至导致内部部分业务团队因混元竞争力不足而犹豫是否接入。

这种焦虑最终转化为自上而下的压力。据报道,腾讯总裁刘炽平今年早些时候曾对团队下达硬指标,要求必须在技术水位上赶超对手。此次变革,正是为了解决此前因组织分散导致的资源内耗,集中力量为算法团队输送「弹药」。

架构调整的最终目的,是为了支撑产品和业务的快速奔跑。

在前不久的 12 月 5 日,腾讯发布了混元 2.0,在预训练数据和强化学习策略上进行了显著改进,其 3D 模型甚至保持着全球领先水准,在开源社区下载量突破 300 万。

在应用层,腾讯元宝上线初期保持了「一天一版本」的迭代频率,目前用户规模已稳居国内 AI 应用前三。而在腾讯内部,一场静水流深的 AI 效率变革正在发生:超过 90% 的腾讯工程师正在使用腾讯云代码助手 CodeBuddy;50% 的新增代码由 AI 辅助生成;代码评审环节的 AI 参与度高达 94% 。

目前,腾讯混元大模型已在腾讯会议、微信、广告、游戏等内部超过 900 款应用和场景中落地。

近期混元团队的高密度人才引进与重组,本质上正是为了支撑这种高强度的技术攻坚与业务渗透 。通过成立 AI Infra 等新部门,腾讯正在试图打通从底层算力、数据处理到上层算法、应用落地的任督二脉,为接下来的 AI 长期竞赛备好粮草。

 

 

 

追赶谷歌,OpenAI 推出全新旗舰生图模型;折叠屏 iPhone 设计细节曝光;余承东接任华为终端有限公司董事长|极客早知道

2025年12月17日 08:11

 

已免费开放:OpenAI 最强 AI 生图模型登场,奥尔特曼变身性感消防员

12 月 17 日消息,OpenAI 昨日(12 月 16 日)发布博文,推出「全新旗舰 ChatGPT 图像生成模型」GPT Image 1.5,并罕见公开了该项目背后的庞大研发团队名单,并同步在 ChatGPT 中推出了专用的「Images」(图像)标签页。

 

此次更新被视为 ChatGPT 图像生成能力的重大飞跃,新模型不仅能生成高保真图像,更在「听懂人话」方面表现出色,即具备极强的提示词遵循能力。

无论是从零创作还是基于上传照片进行编辑,GPT Image 1.5 都能在保留原图核心要素的同时,精准执行用户的指令。

 

据 OpenAI 介绍,新模型最突出的亮点在于对细节的极致掌控。在生成或编辑图像时候,GPT Image 1.5 能够完美保留光线、构图以及人物外观等关键特征,避免了以往 AI 改图「面目全非」的问题。

此外,该模型大幅提升特定场景下的表现,例如能生成更逼真的服装试穿效果,提供改进的风格滤镜,并能进行极具原创感的概念性转换。

 

长期以来困扰 AI 绘图的「文本乱码」问题,在 GPT Image 1.5 中得到了显著改善。新模型在文本渲染方面表现优异,能准确地将文字融入图像中。

 

同时,OpenAI 全面升级 ChatGPT 的编辑工具,用户现在可以精准地添加、移除、组合或移位图像元素。OpenAI 将此次升级形容为把 ChatGPT 变成了一个随身携带的「迷你修图工作室」,用户随时随地都能进行专业级的图像处理。

为了提升使用体验,ChatGPT 在网页端(chatgpt.com)和移动应用侧边栏中新增了独立的「Images」入口,该界面内置了多种预设滤镜和灵感提示词,帮助用户快速上手,已面向全球所有 ChatGPT 用户和 API 用户开放,并且与所有模型无缝兼容。(来源:IT 之家)

 

余承东接任华为终端有限公司董事长

12 月 16 日消息,国家企业信用信息公示系统显示,华为终端有限公司发生工商变更,由余承东接任公司董事长。目前,何刚担任公司经理,董事成员包括朱平、何刚、杨波等。

华为终端有限公司成立于 2012 年 11 月 23 日,法定代表人为魏承敏,注册资本 6.06 亿人民币,经营范围含开发、生产、销售通信及电子产品、计算机、卫星电视接收天线、高频头、数字卫星电视接收机及前述产品的配套产品,并提供技术咨询和售后服务等。

股东信息显示,该公司由华为终端(深圳)有限公司全资持股。(来源:CnBeta)

AMD CEO 苏姿丰到访中国:率队访问联想北京总部,参观人形机器人等最新技术成果

12 月 16 日消息,据第一财经,AMD 公司董事会主席兼 CEO 苏姿丰率高管团队造访联想集团位于北京的全球总部。在联想集团多位高管陪同下,AMD 一行参观了包括人形机器人在内的多项联想最新产品与技术成果。

 

苏姿丰(Lisa Su)1969 年 11 月 7 日出生于中国台湾省台南市,为美籍华裔半导体芯片专家,美国国家工程院院士、美国艺术与科学院院士,美国超威半导体公司(AMD)董事长兼首席执行官。(来源:IT 之家)

 

美国男子「听信 ChatGPT 谗言」弑母后自杀事件后续:OpenAI 拒交关键聊天记录

12 月 16 日消息,科技媒体 Ars Technica 今天(12 月 16 日)发布博文,报道称在一起凶杀案中,ChatGPT 涉嫌诱导凶手,但 OpenAI 却拒绝提供案发前几日的完整聊天记录。

美国康涅狄格州于 2025 年 8 月发生一起惨剧,56 岁的健美运动员 Stein-Erik Soelberg 在杀害其 83 岁的母亲 Suzanne Adams 后自杀。

 

博文介绍,受害者家属正式起诉 OpenAI,指控其产品 ChatGPT 加剧了凶手的精神疾病,并直接诱导了暴力行为。起诉书称,Soelberg 在离婚后陷入精神困境,将 ChatGPT 视为唯一知己,而 AI 不仅未进行劝导,反而肯定了他的一系列疯狂妄想。

家属通过 Soelberg 生前发布在社交媒体上的视频,拼凑出了部分对话内容。记录显示,ChatGPT 称 Soelberg 为「肩负神圣使命的战士」,让他相信自己唤醒了 AI 的意识,并处于类似《黑客帝国》的世界中心。

更为致命的是,当 Soelberg 妄想母亲通过汽车通风口向他「投放迷幻药」时,ChatGPT 竟对此表示认同,进一步强化了他对母亲的仇恨与恐惧。

尽管部分记录已曝光,但家属仍无法获取案发前几日最关键的完整聊天日志。OpenAI 称基于保密协议或隐私政策,拒绝提供这些数据。

Mozilla 新任 CEO 表态:继续押注 AI 为 Firefox 打造可信任的 AI 功能

多年来,Mozilla 一直在平衡其「使命驱动型非营利组织」和「依赖市场收入赖以生存的公司」这两种身份:一方面通过产品推动开放、隐私友好的开放网络愿景,另一方面现实中又严重依赖与 Google 的搜索分成协议来维持财务运转。在近两年中,Mozilla 基金会和相关项目经历了多轮裁员和架构调整,这也引发了外界对其如何在倡导隐私与开放的同时「拿 Google 的钱办事」的质疑。

 

与此同时,生成式 AI 的快速发展也让 Mozilla 面临新的定位挑战:一方面,AI 对浏览器形态和上网方式的重塑已经不可逆,另一方面,如何在这一进程中坚持透明、可控和用户主权的理念,成为 Mozilla 不能回避的问题。Enzor-DeMeo 认为,目前的 AI 生态正在侵蚀用户对技术的基本信任,而这恰恰是 Mozilla 可以发力的空间:「现在真正需要的是一家用户可以信任的科技公司。」

在具体技术路线方面,Enzor-DeMeo 明确表示,Mozilla 短期内不会自研类似 OpenAI 或 Google 那样规模庞大的通用大模型。不过,他确认 Firefox 将在明年推出「AI 模式」(AI Mode),为用户提供多种模型和服务的选择,并通过浏览器这一用户熟悉的入口,提供可理解、可控制、可切换的 AI 体验。他强调,Mozilla 不会被激励去「推某一个特定模型」,而是会以多模型并存的方式投入市场——核心竞争力在于可信赖的产品设计和数据处理方式。

在他看来,在浏览器领域仍然「有空间容纳一款新的浏览器,甚至是一款以 AI 为核心的浏览器」,前提是这款浏览器从一开始就围绕信任、透明和用户选择来设计。对于既要谋求商业可持续,又要维护开放网络和用户隐私的 Mozilla 来说,这一 AI 战略既是对外界质疑的回应,也是其在下一阶段互联网格局中争取话语权的关键试验。(来源:CnBeta)

大众汽车将关停德国本土工厂 系公司历史首次

在生产线中,由大型吊具悬挂着的处于半装配状态的汽车正在流转。大众汽车德累斯顿工厂素有「透明工厂」之称,未来这里将被改造为一座技术研究中心。受市场需求疲软与美国高额关税冲击,这家汽车巨头决定停止在德累斯顿工厂的整车生产。该工厂于 2001 年投产。

 

本周二,最后一辆汽车将驶下大众汽车德国德累斯顿工厂的装配线。这是这家拥有 88 年历史的汽车制造商,首次关停其在德国本土的整车生产工厂。

早在去年,大众汽车就曾发出减产预警。彼时,公司在欧洲及最大市场中国均面临需求疲软的困境,同时美国征收的高额关税也进一步拖累了其在美销量。

历经 24 年的整车生产历程后,德累斯顿工厂将转型为聚焦人工智能、机器人技术及芯片设计等领域的研究中心。这座因通体玻璃幕墙而得名「透明工厂」的基地,未来将由大众汽车联合萨克森州政府及德累斯顿工业大学共同运营。

大众汽车品牌首席执行官托马斯・谢弗在一份声明中表示:「关停拥有 20 余年历史的透明工厂整车生产线,这绝非一个轻易做出的决定。但从经济角度考量,这一举措是完全必要的。」

大众汽车与代表德国本土员工的工会委员会达成协议:德累斯顿工厂现有的 230 名员工,可选择领取遣散费、申请提前退休,或是调任至集团旗下其他厂区。(来源:CnBeta)

DRAM 短缺引发行业倒退 报告称 8GB 内存笔记本将重成主流

全球 DRAM 短缺危机正对消费电子行业产生深远且剧烈的连锁反应。继此前传出 4GB RAM 手机可能回归的消息后,笔电市场也拉响了警报。最新报告指出,由于内存供应紧张及价格高企,曾被视为中端标配的 16GB 内存可能被迫让位,8GB 内存的笔记本电脑将重新成为市场主流。

近日,行业分析机构 TrendForce 发布的报告为笔记本电脑市场敲响了警钟。报告指出,在 DRAM 供应受限、16GB 内存套件价格已飙升至难以承受的背景下,PC 制造商为了控制成本,将倾向于在主流产品中采用更低的内存配置。

在过去一段时间,随着 DDR5 内存套件价格变得亲民,为笔记本电脑配备 16GB 内存几乎已成为一种理所当然的配置,甚至一些低端型号也以此作为卖点。大多数中端笔记本要么已标配 16GB,要么正在向此过渡。然而,当前趋势发生了显著倒退。

 

这意味着,占据最大用户基数的中端笔记本市场将受到最直接的冲击。厂商将不得不重新拥抱 8GB 配置以维持产品价格竞争力。当然,高端笔记本电脑仍将提供更高的内存配置,但预计其价格也会随之大幅上涨。

更严峻的预期是,有主要芯片制造商警告,这场由 AI 产业需求激增等因素引发的内存供应危机可能持续至 2028 年。在可预见的未来,消费者可能需要为获取与往年同等的硬件性能支付更高昂的成本,或被迫接受配置上的妥协。

(来源:CnBeta)

 

苹果 iPhone Fold 设计细节曝光:内屏宽大于高,比例趋近大屏 iPad 横屏模式

12 月 17 日消息,苹果公司正致力于敲定明年旗舰 iPhone 系列的设计方案,一份新报告称,备受期待的 iPhone Fold 或将采用独特造型,其内部屏幕的宽度大于高度。

 

据博主 @ 数码闲聊站 此前的消息,苹果阔折叠手机采用侧边指纹 Touch ID。此后不久,《The Information》杂志发布了一份未来几年新款 iPhone 机型的综合概览报告。该报告不仅佐证了 @ 数码闲聊站 透露的大部分内容,还进一步明确了 iPhone Fold 的一项关键特性:屏幕的形状与尺寸。

和 @ 数码闲聊站 的消息一致,《The Information》杂志预计 iPhone Fold 的外屏尺寸约为 5.3 英寸,内屏尺寸约为 7.7 英寸。但最值得关注的是,这份新报告指出,这一尺寸设计将使得它的内屏呈现出「宽大于高」的形态。

报告写道:「不同于三星和谷歌推出的其他折叠屏手机,苹果这款产品展开后的屏幕比例,将与苹果大屏 iPad 的横屏模式比例相近,也就是展开后宽大于高。手机折叠状态下,屏幕尺寸约为 5.3 英寸;展开后则搭载一块更大的 7.7 英寸屏幕。与 iPhone 18 Pro 系列机型相同,这款手机的左上角将嵌入一颗前置摄像头,同时还配备光线传感器、距离传感器及其他各类传感器。」

苹果在美国市场的两大智能手机竞争对手三星与谷歌,其推出的折叠屏机型即便在展开状态下,依旧保持高大于宽的比例。

(来源:IT 之家)

小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强

12 月 16 日消息,小米今日发布 Xiaomi MiMo-V2-Flash 开源 MoE 模型,总参数量 309B,活跃参数量 15B,专为智能体 AI 设计,专注于快。

 

小米官方介绍称,这是一个专为极致推理效率自研的总参数 309B(激活 15B)的 MoE 模型,通过 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上保持进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理成本仅为其 2.5%,生成速度提升 2 倍。

 

Xiaomi MiMo-V2-Flash 采用 1:5 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构,128 窗口大小,原生 32K 外扩 256K 训练。

同时,小米推出了一个在线 AI 聊天服务 Xiaomi MiMO Studio,用户可以在其中体验 Xiaomi MiMo-V2-Flash。该服务支持深度搜索和联网搜索。

 

Xiaomi MiMo-V2-Flash 的模型权重和推理代码均采用 MIT 协议全面开源。MiMo-V2-Flash 的 API 定价为输入 $0.1/M tokens,输出 $0.3/M tokens,API 限时免费。

 

 

常玩游戏能防老年痴呆 全国首张「游戏处方」在浙江开出

数据显示,我国 60 岁以上人群中,约 3877 万人存在轻度认知障碍(MCI),若不干预,38% 将在 5 年内发展为阿尔茨海默病。本月 11 日,浙江省中医院为轻度认知障碍患者开出全国首张游戏化认知训练电子处方,为面临认知衰退风险的老年人提供了新选择。

该处方的核心是「腾讯脑力锻炼」软件,这款历经三年研发的软件已获医疗器械注册证,目前已是正式医疗项目,单次治疗收费 30.6 元。

软件设有「厨艺大赛」「音乐大赛」「收纳大师」「诗词大会」四大生活化训练模块,每个模块都有超 150 个关卡。

 

患者可在医生指导下,通过模拟摊煎饼、诗词填空等生活化游戏进行训练,这种设计通过趣味任务激活大脑,解决传统认知康复训练枯燥、患者难坚持的痛点,能提升患者治疗依从性。

游戏训练针对记忆、执行功能等六大认知域,刺激前额叶和海马体,促进神经元连接,可能减缓β-淀粉样蛋白沉积(阿尔茨海默病病理标志)

研究显示,规律训练 3 个月后,参与者脑部活力评分平均提高 30%。

《自然》的研究证实,游戏化认知训练可修复大脑衰退,《国际精神病学杂志》也提到这类益智游戏能刺激正常脑细胞发挥作用,进而提高患者认知能力。(来源:快科技)

 

英特尔,下一个 AI 时代的「卖铲人」

2025年12月16日 16:12

找一张三年前的照片,需要多久?你需要翻遍混乱的相册,还是依赖飘忽的云端搜索?

当下,我们早已是「数字囤积者」,手机里塞满数万张照片,硬盘中堆积上百 TB 资料。数据黑洞不断膨胀,而关键的记忆与文件却沉入深海。我们制造了数据洪流,却反被其淹没,陷入数据失控的焦虑。

在 2025 英特尔 AI NAS 解决方案峰会上,英特尔中国区技术部总经理高宇分享了自己的观察:「过去 NAS 存的是电影,现在存的是人生。」每个人的照片、视频、文档正以十万计增长,NAS 不再是极客玩具,而应成为 「个人媒体的家」。海量数据喷涌,催生了对家庭存储中心的真实渴求。

然而,传统的 NAS 虽是数据的「容器」,其高度专业化的部署和复杂的配置要求,将绝大多数用户挡在了门外。

英特尔中国区技术部总经理高宇 | 图源: 英特尔

正当市场困于数据失控的焦虑与专业工具高门槛之间时,英特尔,这个芯片巨头,如今正试图以一个「卖铲人」的姿态,重新定义存储环节。

英特尔技术专家在大会上提到AI 的能力需要数据的喂养,才越来越强,AI+NAS 是天生耦合的。他们还希望让 NAS 变得「非常简单易用」,客户在没有指导的情况下,三五步就可以实现 NAS 的部署以及与个人内容的同步。

英特尔的入局,指向的并非是存储硬件迭代,而是更关注如何利用现有算力,赢得下一场关于「数据主权」和「智能存储范式」的定义权。AI NAS ,究竟是巨头在存储市场里「新瓶装旧酒」?还是它真能成为我们「数字囤积症」的解药?我们在西安与多位英特尔技术专家对话,深入英特尔的战略意图,去理解它在技术、算力,以及生态上的布局,看这个「存储容器」如何蜕变为「数据大脑」。

 

一、AI NAS,不完全等于 AI + NAS

英特尔入局,并非为了重复传统 NAS 厂商的故事。如果说过去的 NAS 只是一个由小核驱动、负责存取数据的「容器」,那么英特尔正在定义的 AI NAS,则是一个具备边缘 AI 算力的「动态执行者」,是英特尔为下一轮数据淘金潮准备的「新铲子」。

这把新铲子的核心,在于它不再依赖低功耗的小核,而是选择提供一定算力的平台。这种战略选择基于 AI 模型架构的两大趋势:一是让参数量巨大的 大而稀模型 适合在端侧部署;二是推动小而专模型通过压缩,达到接近大型模型的性能,同时适配多模态处理,让 AI 具备更强的感官理解能力。

野心需要硬实力支撑。英特尔正在将高算力从云端「压入」边缘设备,其芯片算力正以两年五倍的幅度跃升,下一代平台甚至将突破 180 TOPS。这意味着,原本需要云端巨量服务器处理的 AI 任务,如今在家庭级别的设备上就能完成。

更关键的一步,是「可变显存」技术。它像一道智能闸门,动态调配资源,让酷睿 Ultra 平台甚至能在本地流畅运行参数高达 120 亿的大语言模型。简言之,AI NAS 不再是哑巴仓库,而是一个能理解、能思考的「本地数据大脑」。

也就是说,过去的 NAS 只是能存储,现在的 AI NAS 不但能存,还能提供基础的检索能力,并基于此还能打造一定简单的应用能力,承担一定前端应用。比如说,通过加上知识库检索和 VLA 模型能力,能够通过自然语言对话,直接完成文本、图片、视频的智能检索,彻底解决检索难的问题。而在未来,AI NAS 可能成为从 「容器」 到 「数据大脑」 的蜕变。

2025 英特尔 AI NAS 解决方案峰会现场 | 图片来源:英特尔

试想一下:如果你的硬盘能听懂你说话,一切会怎样?这意味着你不用再回忆复杂的文件路径,只需像吩咐助理一样对它说:「找出我去年在青岛拍的、有帆船的所有视频,再挑三张最美的夕阳。」几秒内,它就能理解你的意图,在海量数据中精准打捞。这背后是知识库与多模态模型的融合,让 AI NAS 能听懂自然语言,看懂图像内容。

反过来,AI NAS运转会不会比传统NAS更占据实际存储空间?英特尔认为,随着模型快速演进而优化。未来相同场景所需资源将更少,相同资源可支持更大应用场景。就像2025年年初运行时模型需大量资源,但2025年年底模型运转时只需较少资源即可实现相同场景。这或许也意味着,AI NAS 的推广阻力并不会被持续上涨的内存和存储价格所长期锁定,因为平台性能的提升会不断弥补资源消耗。

AI NAS 的本地算力还能够保障了企业数据和个人隐私可以安全地在端侧完成智能处理和知识库查询,无需上传公有云,有效缓解了用户的隐私焦虑。

英特尔的「卖铲人」角色,是提供一个全新的平台,而不仅仅是芯片。正如英特尔专家所言,AI NAS 的形态已演变为「工作站加存储加小型算力中心的结合」。英特尔正在以基础设施提供商的身份,定义未来数据流动的标准。

二、AI PC 的下一站,英特尔用 AI NAS 构建「算力后盾」

早在 2023 年,英特尔就组建了 NAS 团队,该团队隶属于英特尔 CCG 产业链技术业务板块下的创新业务,今年算是其首次集体成果亮相。这也清晰地暴露了英特尔在新一轮算力战争中的战略意图:另辟蹊径,通过存储环节卡位边缘 AI 的数据入口。

英特尔入局 NAS 市场的首要逻辑是产业协同。作为首个推出 AI PC 产品的平台厂商,英特尔看到了 AI PC 浪潮的必然性。据 Gartner 预测,到明年年底,全球将有高达 60% 的笔记本具备 AI PC 能力,总量可达 1.5 亿台。终端算力的爆发式增长,必然需要一个集中、可靠、且智能化的数据中心进行喂养和支持。AI NAS 正是这个生态中的关键部位,也就是说,在英特尔的设想中,AI NAS 并非要取代 AI PC,而是与其形成一个配合使用的整体场景。

如果按照场景划分,AI PC 面向个人、家庭等多样化场景,而 AI NAS 则更偏向集中管理中小企业、家庭及创作者的数据。这种分工的价值在于,AI NAS 可以作为本地的小型算力中心,为不具备强大 AI 算力的 PC 提供计算引擎。特别是对于创作者等对数据敏感的用户,本地 AI 算力能在更大的模型上运行,更好地保护数据隐私。而搭载了多卡方案的 AI NAS 更够在支持并发多任务时,性能优于 AI PC。

英特尔深知,传统 NAS 市场规模的扩大已触及瓶颈,未来的机会在于 AI 带来的新场景和附加价值。英特尔正在尝试用图片视频检索和 RAG 检索增强生成技术,在 AI NAS 上实现了快速检索,以及本地知识库的构建。

在现场,英特尔展示了如何用 AI NAS 上的检索功能。比如说用户可以直接问挖掘机厂商们不同型号功能的产品信息。而且,有了基于本地数据的 AI NAS 后,AI 还能横跨企业内部不同知识库,给出一些通用的产品规格、财务报告等数据分析,进行高准确度的查询和总结。这不仅是文本管理,更是企业内部数据资产的智能化。

英特尔还已经成立了专门的 AI NAS 软件团队,提供平台级的技术支持,包括 AI SDK 套件、基于 Ollama、llama.cpp 生态的支持,以及针对新 AI 应用的落地和优化。这种投入体现了英特尔作为「卖铲人」的本质:不直接生产终端产品,而是提供底层的硬件,如酷睿 Ultra 平台、锐炫 Pro B60 多卡方案和强大的工具链如 OpenVINO,解决行业对算力的追求。英特尔还正在扩展与 AI 应用和中间层相关的 SDK,并推出了基础版和 Pro 版方案,甚至打造了语音助手「樱桃」。

英特尔智能语音助手 SDK - 樱桃 |图片来源:英特尔

可以看出,未来 AI NAS 的形态已经演变为一个本地小型算力中心,承载着 AI Agent、企业知识库、甚至多模态模型,或许也会成为数据大脑。这种全方位的技术输出,也从某种程度上确保了英特尔能够定义未来 AI 时代的数据流标准,成为新一代存储基础设施的奠基者。

 

三、英特尔在「定义」谁的数据未来?

英特尔在大会上展示的 AI NAS 应用以及相关生态产品,更像是一次抛砖引玉,其战略意图并非是直接推出终极产品,而是通过演示 AI NAS 的综合玩法和能力,激发整个产业生态的协同发展。

英特尔深信,「真正好用的应用能迅速带动市场」,但在此之前,必须先将核心聚焦于数据管理,明确受众画像,并与绿联、铁威马等品牌商深度合作,在锐炫集显/独显和 NPU 上先进行 AI 优化,提供一整个平台,让用户能够便捷安装和应用,感受到 AI NAS 的潜在想象力。

这种「基础设施先行」的策略,也侧面展现了其想作为存储卖铲人的布局思路。

大会现场展出铁威马 U12-500 Max 等产品 |图片来源: 英特尔

然而,当一个传统的存储「容器」蜕变为「本地的小型算力中心」和「AI 预处理中心」时,随之而来的终局之问浮出水面:在 AI 时代,用户的数据主权是否得到了更大的保障?这不仅仅关乎本地存储权限,更涉及到如何在复杂的网络环境中保障数据安全。同时,NAS 绝非快消品,而 AI 技术日新月异,用户对 AI NAS 的持续升级能力和长期性能优化方向有着天然的疑虑。

对此,英特尔的技术专家给出了清晰的界定:AI NAS 的核心场景和用户群体并未改变,仍是面向中小企业、创作者和家庭用户。但 AI 算力的加入增加了其成长性,拓宽产品定位,但绝非要取代工作站,而是要形成一个「工作站加存储加小型算力中心的结合」。尽管合作伙伴展示的产品形态愈发接近服务器级,但英特尔强调其仍是聚焦数据管理,并在性价比上比专业工作站会更具优势。中小企业和家庭用户本身就存在强烈的算力需求,因为AI NAS 承担了手机和传统 PC 无法承载的复杂应用。

显然,英特尔深刻认知到形态并非 AI NAS的终点,解决问题和提升附加值才是永恒的商业目标。他们期待更多软件生态合作伙伴加入,共同围绕企业知识库、视频检索等核心应用发力,催生出能够真正推动市场的爆款应用。从传统 NAS 到如今绿联、铁威马带来的用户体验大幅改善,英特尔将沿着这条思路发展 AI NAS,同时也做好自己的底层芯片支持。

英特尔描绘的蓝图很清晰:AI NAS 的核心永远是数据管理,但 AI 赋予了它灵魂。它不取代专业工作站,而是成为性价比更高的「算力平民化」的硬件载体。

这场博弈的终局,并非硬件销售。英特尔正在以「卖铲人」的身份,定义 AI 时代数据流动与处理的新标准。当算力在边缘爆发,谁掌握了数据的智能入口,谁就握住了下一代计算的钥匙。

从 PC 时代的王者,到 AI 时代的生态奠基者,英特尔正试图通过一条看似平凡的数据存储之路,完成其最关键的一次转身。这条路能否通向下一个辉煌,取决于它能否让每个普通人,真正成为自己数据世界的掌控者。

 

 

量产「中国版 FSD」后,地平线为何公开高阶智驾的「灵魂代码」?

2025年12月16日 15:54

2025 年,自动驾驶行业迎来了关键的「跨越之年」。

年初,特斯拉正式向中国车主推送了 FSD 功能。国内智驾玩家们在继续激烈「内战」的同时,还要面临这个全球最强对手之一的正面竞争。

因此,那些愿意在智能化上尝鲜的先锋车主,可以体验到越来越好用的智能辅助驾驶功能——虽然这需要付出不菲的成本:要么花 6.4 万元订阅特斯拉 FSD 的软件服务;要么置换一辆近两年上新的、配备高阶辅助驾驶的新车,现阶段往往价格在 20 万元以上。

所以,无论是行业里其他玩家,还是更多大众消费者,都期待着智能辅助驾驶在「技术向高」之后,可以尽快走向「人人可享」的新阶段。

年底,地平线 HSD 高阶智能驾驶正式量产,并率先搭载在深蓝 L06、奇瑞星途 ET5 两款新车上交付上市。这标志着可用且好用的城区辅助驾驶,正式进入了 15 万元以下的区间。

对汽车行业来说,在 HSD 量产前,高阶辅助驾驶方案全部都以被封装好的「标准化产品」形态存在。

而一直强调「生态合作」的地平线,进一步推出了覆盖产品开发全周期的算法服务模式,包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务,以及最核心的基座模型授权。这种全新的模式,实际上也给生态伙伴们提供了「丰俭由人」的多种灵活选择。

在地平线的生态伙伴列表里,既包括长安、奇瑞这样直接面对消费者的主机厂;也包括日本电装、大众 Carizon、博世等头部 Tier1 供应商。

地平线给这套软硬一体的合作模式,起了一个听起来就充满无限可能的名字:「HSD Together」。

 

一家后摩尔定律时代的「非典型芯片公司」

作为一家主要面向 B 端的技术公司,公众过往对地平线的了解大多来自「芯片」。这是地平线前 10 年最主要的业务之一。到 2025 年 8 月,地平线征程家族芯片累计出货量突破了 1000 万套,市占率超过 33%,位列行业第一。

但其实,地平线从成立那天起就没有按照传统「芯片企业」的逻辑规划自己的成长路径。

这来源于他们在创业之初的 2016 年对芯片行业的一个超前判断:如果只依赖于摩尔定律——即:通过优化芯片的设计和制造工艺,来不断提升晶体管密度,继而提升芯片性能,这个方法论很可能在机器人时代里难以为继。

也就是说,地平线需要在摩尔定律之外,再找到一条更好的解题思路。

在地平线看来:机器人时代,提高单位功耗的有效率计算数据,是提升芯片性能的关键。因此,「软硬结合」成为了工作的重点。这需要既在硬件层面持续优化芯片架构,也要在软件层面涌现出优秀顶尖的算法,还要设计出能够高效分配资源的编译器,以在有限的物理空间里压榨出更高的算力利用率。

如果把芯片计算视为一场交响乐演出,那么神经网络处理器(BPU)代表着乐团,算法代表着作曲,而编译器则在乐队里扮演着指挥家的角色。

芯片计算过程中,BPU、编译器、算法各自的职责分工 | 图片来源:地平线

与此同时,地平线在第一个 10 年里,重点聚焦在智能汽车领域,将其视为「机器人时代」里第一个大规模落地应用的场景。用创始人余凯的话说:「如果做不到自动驾驶,恐怕就无法在机器人时代占据一席之地」。

因此,聚焦在自动驾驶领域的地平线,在芯片设计上和英伟达等芯片巨头走了一条差异化道路。相比对手追求的「极致通用性」的思路,地平线每一代芯片的 BPU 架构和编译器,都为了自动驾驶这个具体场景,进行了特定优化:

  • 第一代 BPU 架构「伯努利」:核心应用场景是高速 ADAS,技术重点是做好目标检测和感知计算
  • 第二代 BPU 架构「贝叶斯」:核心应用场景拓展到高速 NOA,技术重点也从「检测」进化到「预测」
  • 第三代 BPU 架构「纳什」:核心应用场景是打通城区 NOA,因此对「复杂博弈」和「交互式决策」进行了运算优化

12 月 8 日,在地平线第一届技术生态大会上,余凯介绍了第四代 BPU 架构「黎曼」以及第四代编译器「天工开物 4.0」的性能提升:比起当前架构,可以提供 10 倍以上的算力,支持 10 倍以上的算子,且能效提升 5 倍。

更重要的是,余凯透露采用「黎曼」架构的征程 7 系列芯片,在性能、算力方面将直接对标特斯拉下一代自动驾驶芯片 AI5,并且将和 AI5 同步推出。

这家成立 10 年的非典型芯片公司,通过前十年的积累,已经在自动驾驶领域里坐上了全球头号技术玩家的牌桌。

 

「比开放更开放」的中国版 FSD

除了技术实力外,商业运营是所有芯片企业面临的另一重关键考验。毕竟芯片行业技术门槛高、前期投入大,企业必须获得持续健康的收益回报,才能支撑起长期稳定的研发运转。

但智驾芯片不同于成熟的消费电子芯片,它的价值并不完全由「硬参数」、「性价比」决定,还取决于基于芯片的研发「兑现效率」。

在智驾领域,随着用户需求不断拉高,车企当前面临的最大痛点是:拥有大算力芯片选择,但缺乏转化为好用高阶功能的能力和效率。

所以,芯片厂商在提供「顶级食材」的基础上,不妨再亲自下场烹饪出「示范菜品」,展示自家芯片在极限场景下的能力上限。正是基于对这一行业痛点的预判,地平线做出了战略调整。

2021 年,余凯洞察到下一个阶段市场需求的变化。他认为,无论是用户还是车企,对智能驾驶的需求一定会从基础的 ADAS 功能演进到全场景辅助驾驶。因此,地平线一面为此设计新的芯片架构,另一面在「算法」层面大力投入研发资源,启动了后来的 HSD 项目,决定亲自下场「打样」。

两年后, AI 大模型全面进入智能驾驶研发流程的阶段。特斯拉推出了「端到端」的 FSD V12 版本,向行业证明了智能驾驶在 AI 加持下「上限」将大幅提升。但与此同时,行业里面临着一个新的难点:AI 加入后,研发难度其实更高了。

在第一届地平线技术生态大会上,余凯这样形容自动驾驶「基座模型」面临的挑战:

一个基座模型的训练,至少需要几十亿的训练成本。而 AI 时代的技术突破又极具偶发性和非连续性,往往来源于极少数顶尖人才的「灵光乍现」,而非资源「线性积累」。

这也是很长一段时间里,好用可用的智能驾驶始终没有大面积普及的关键原因之一。

余凯讲述新一代智驾模型研发中行业面临的挑战 | 图片来源:地平线

今年 11 月,历时四年,地平线 HSD 正式完成量产上市。HSD 采用和特斯拉 FSD 相同的一段式端到端架构,可以实现「Video in,Control out」的能力。上市之后,HSD 的技术实力得到了行业的广泛认可,被称作「中国 FSD」。地平线也正式跻身城区辅助驾驶领域的头部玩家。

而对于地平线这家始终强调打造智能驾驶生态的企业来说,HSD 的量产还有另一层更重要的意义:

和过往智能驾驶行业里常见的「黑盒交付」不同,地平线将模型能力拆分成了多层结构,推出了全新更开放的商业模式。

在这套模式里,地平线不仅延续了征程 2 到征程 5 时代提出的「SoC+算法 IP 授权+硬件参考设计」模式,还可以提供覆盖产品开发全周期的算法服务(HSD Together),包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务、以及最核心的基座模型授权。用余凯的话说,HSD 训练过程中的 know-how 和经验,都可以为合作伙伴所用。

在全新的商业模式下,地平线的「生态伙伴们」既可以是主机厂,也包括汽车产业链中的其他 Tier1 企业。前一种模式的合作成果已经在深蓝 L06 和奇瑞星途 ET5 上量产交付;而在后一种模式中,大众 Carizon 将会基于地平线第四代 BPU,设计算力在 500-700TOPS 之间的下一代智驾计算平台。

余凯将这套「中国版 FSD」背后对应的商业模式形容为:

「比开放更开放」。

 

走向「剩下的 50%」

现在,让我们把视线从地平线一家公司切换到整个行业以及消费者视角:地平线 HSD 的量产和全新商业模式的提出,还有怎样的意义?

首先,在芯片领域里,以往大算力高性能的芯片选择不多。现在,地平线征程 6 系列的旗舰芯片 J6P 算力已经达到了 560T,对于生态伙伴来说,选择自然更丰富了。

其次,在全新的合作模式下,买家们不仅可以买到算力(芯片),还可以买到一整套的算法服务。而且,关键的模型算法可以以「白盒」形式交付。这显然可以让过往只能接受「黑盒」交付,担心失去「灵魂」的主机厂更安心。

更重要的是,这种「白盒」交付和合作的模式,可以帮助合作伙伴们在训练环节里少踩坑、少做不必要的随机试验。地平线表示,这套全新的合作模式在人力、算力、时间三个维度上,可以节约和提效超过 90%。

地平线基座模型有望为行业带来大幅提效 | 图片来源:地平线

最后,对于普通消费者而言,可以期待好用可用的城区甚至全场景智驾突破价格壁垒,变成了智能手机拍照一样的「人人可享」能力。

从目前来看,两款搭载地平线 HSD 辅助驾驶系统的车型已经量产上市,其中:

  • 深蓝 L06 搭载两颗 J6M 芯片,算力达到 256TOPS,起售价 13.29 万元
  • 奇瑞星途 ET5 搭载一颗 J6P 芯片,算力达到 560TOPS,起售价为 14.99 万元

这两款新车均把「城区智驾」这个曾经被认为是 20 万、30 万以上的豪车才可以拥有的功能,价格打到了 15 万元以内。

但这还不代表地平线 HSD 的「底线」。

在地平线生态大会上,余凯展示了一张「中国乘用车成交价分布」的统计表。深蓝 L06 所在的 13 万,恰好是过去三年成交价的中位数。

也就是说,市场上还有一半新车还不具备城区智驾的功能。

基于 HSD 的模型算法能力,地平线即将进入价格带下端的 50%市场 | 图片来源:地平线

今年 8 月底,在成都车展期间,地平线给过去十年交出了一份 1000 万芯片出货量的答卷。

如今,在下一个十年开始的时候,地平线给自己定下了全新的目标,那就是冲击 HSD 千万量产目标。

余凯透露,基于单 J6M 的方案已经进入了最后的验证阶段,这将让城区智驾的成本进一步降低。也就是说:HSD 即将进入剩下的 50%市场。

如果说过去十年,特斯拉定义了智能驾驶技术的「高度」;那么现在,地平线致力于拓展这项技术的「广度」——为更多车企提供追赶甚至超越特斯拉的机会。

不过,和特斯拉选择独自攀登的路线不同,地平线更愿意成为行业里那个「搭梯子」的人。在特斯拉打造的「封闭技术圈」外,地平线展示了智能汽车未来的另一种可能:一片生机勃勃的开放「生态雨林」,也让最前沿的科技可以更早地飞入寻常百姓家。

AI 时代,如何定义电商营销新范式?

2025年12月16日 13:42

作者|Cynthia

编辑| 郑玄

 

「用 AI 改造行业」这句话,电商行业已经喊了很多年。

但实际行动,却一直比较散点,停留在诸如「猜你喜欢」「以图搜图」这样 单点的能力建设,不够深入,也难以实现真正的系统级 AI 升级改造。

核心瓶颈有二:一是早年 AI 技术尚未成熟,缺乏支撑全链路协同的底层能力;二是系统级改造需穿透产品核心逻辑,而新玩法、新能力的叠加必然推高使用门槛。对普通商家而言,应对复杂系统往往需要投入高额人力物力,这让技术升级的规模化落地难以为继。

直到 2025 年,抖音电商率先用 AI 破局,解开了技术深度升级与商家门槛降低的两难问题。

而背后的秘密武器,正是不久前千川大会上重磅发布的「 千川・乘方 」: 借助 AI 加持,以及平台的精准用户洞察,千川・乘方不仅能最大限度的简化商家的操作,提升用户的内容体验,更做到了预判用户需求、激发用户需求、 千人千策,以实现商家、用户、平台三方共赢。

那么千川·乘方到底是怎样一个产品?它是将如何撑起抖音电商高增长、用户体验、商家体验的之间的不可能三角的?

 

01

千川·乘方与 AI 时代的电商

 

为什么 AI 改造电商营销会发生在今年?

背后的逻辑很简单:AI 的爆发需要两个前提 :足够多的数据燃料,以及足够成熟的技术引擎。而这两个条件,抖音电商当下正好备齐。

先看数据燃料。 千川大会期间公布的平台内部一组核心数据足以说明问题:在抖音,每天电商短视频播放量达 116 亿,晒体验的 UGC 视频播放量 486 亿次,电商直播间观看量 44 亿,这些真实内容成为新的种草引擎,产生新的一轮循环;每天在抖音电商看完短视频后,激发搜索的次数是 1.1 亿次,74% 的用户使用优惠券购买,证明价格敏感与内容兴趣可以实现有效结合。

更关键的是,抖音电商掌握的是 行为 + 交易 + 内容的三维数据 。这种独特的数据优势,让抖音的 AI 能真正理解 用户是谁、喜欢什么、愿意为什么买单,以及买单背后的转化链路到底如何,而不是停留在表面的信息匹配。

再看技术引擎 。 过去五年,虽然基于深度学习的推荐模型一直是电商搜推的核心,但是包括多模态 AI 在内的更多技术则一直停留在辅助工具层面,核心原因主要在于技术的不够成熟。而现在,三个关键技术的突破,让 AI 逐渐从配角变成了主角。

第一个突破是 agent 能力与强化学习的结合。 过去,平台的营销工具都是写死的 workflow,比如投流工具只能按照商家设置的预算、定向、出价机械执行。商家想要优化效果,只能靠投流手熬夜盯盘、手动修改参数。而现在,基于强化学习的 agent 系统,能让 AI 像人类投手一样思考决策:实时监控不同渠道的 ROI、用户点击转化率、复购率等数据,根据预设的目标自动调整预算分配,甚至在流量高峰期提高出价、低谷期降低消耗,实现每一分钱都花在刀刃上。

第二个突破是 MCP 为代表的模型工具控制技术 的成熟。 过去,大模型想要操作外部工具,只能通过 API 接口进行表面调用,无法深入工具内部的核心逻辑。而 MCP 技术相当于给大模型搭建了一个操作中枢与四肢,让它能操作抖音电商的多种营销工具,基于算法决策进行针对性操作,几乎不需要人工干预。

第三个突破是多模态大模型的落地。 过去,AI 生成文字还行,但生成图片、视频时总会出现画面模糊、风格不一致、与商品细节不符等问题,无法满足电商营销的商业化要求。比如生成的服装视频里,模特的动作与衣服的质感不匹配,或者生成的食品图片颜色失真,反而会影响转化。而现在,抖音自研多模态大模型、nano banana、sora 2 在内,一众业内多模态大模型的出现,已经解决了这些问题:不仅支持生成高分辨率的视频图像,精准还原商品的细节特征;同时支持内容修改、相同风格素材批量生成等能力,过去需要一个团队半天才能完成的拍摄,AI 就能在几分钟内生成多条符合抖音风格的营销素材。

数据燃料足够充沛,技术引擎足够成熟, 电商行业的智能新范式 自然水到渠成。千川・乘方的诞生,正是这两大优势的集中体现。

而要理解千川・乘方,我们可以从它的三个技术组成来看:

千寻:主打用户需求的精准预判, 打通了内容、商品、用户的壁垒,实现三位一体 的个性化推荐,让 AI 不仅能理解用户的现有需求,还能预判潜在需求,激发消费欲望。

千策:主打营销策略的制定,能够替代复杂且不够高效的人工计划,帮助客户增效、构建超级计划。客户 只需要设定一个总预算和预期目标,系统就能自动进行最优分配。

千意:实现了全场景的动态生成,从创意生成、客服问答、智能诊断推荐,AI 都能根据实时数据自动创作、调整、优化;

三大能力分别对应着 精准预判需求、经营全局优化、 动态内容生成与服务 ,共同构成了抖音电商 AI 营销的完整闭环。

 

02

熵减:千寻如何从让推荐

从混沌到精准预判

 

自然界有一个铁律:没有外力干预的系统,总会逐渐走向混乱,这就是熵增定律。

毋庸置疑,抖音是当下国内最大的短视频平台,积累了大量对电商转化可以起到指导意义的用户行为序列。但近些年来,随着部分用户的行为序列已经突破上万, 企业仅仅依靠投流师的个人经验就想要做好精准推荐,几乎不再可能。

那么有什么办法,能够让每一条流量都能低门槛的精准推到需要的人面前?

想要打破熵增,就必须引入新的外力——大模型 。而千寻,就是千川为推荐系统注入的 熵减外力。它的核心逻辑,是借助大模型推理能力,让推荐从混沌无序进化为精准预判。它能将用户视频、音频、文字等多模态输入,汇聚成万亿多模态的参数,并借助更强大的世界知识、抖音电商知识、用户内容偏好的推理与理解,精准推荐电商内容之外,还能预判需求,从而激发更多需求。

千寻的能力核心,源于三个层面的技术突破:

第一个突破是用户序列的全生命周期拓展 。过去,推荐系统只能处理用户一些短期、大类的行为数据;而现在,千寻能将用户序列从百级、千级拓展至万级,将关注周期拉的更长之外,深度挖掘用户的各种行为偏好,以及不同偏好之间的潜在联系。

第二个突破是模型尺寸与架构的升级。 千寻的模型规模已经从过去的千亿参数,升级至万亿多模态内容理解参数 + 千亿独立序列推理参数的协同架构。

这是什么概念?千亿参数的模型能理解基本的语言和图像,而万亿参数的模型则在此基础上,还具备深度的逻辑推理能力。无论是短视频的画面、音频、字幕,还是商品的详情页、评价文案,AI 都能精准拆解核心信息。

而与万亿多模态内容理解参数一同工作的千亿独立序列推理参数,则负责读懂用户。它能分析用户的行为序列背后的真实意图:比如一个用户连续刷了三条油痘肌护肤的视频,AI 不会简单地推荐洁面奶类产品,而是还会推荐诸如水杨酸产品、保湿乳液类产品,帮助用户完成综合的控油祛痘。

第三个突破是世界知识储备与深度理解能力。这是千寻最核心的竞争力,也是它能预判需求的关键。

千寻的大模型能够结合电商知识图谱及用户偏好进行智能推理,从商品的专业参数、行业趋势,到用户的消费习惯、生活场景,无所不包。比如用户搜索适合海边度假的裙子,AI 不仅会推荐沙滩裙,还会根据「海边度假」的场景,优先推荐防晒面料、易洗快干、拍照上镜的款式。

总的来说,千寻的出现,让抖音电商的推荐系统实现了质的飞跃。既解决了用户侧的体验问题——让用户刷到的内容都是自己感兴趣、甚至没想到自己需要的商品;也提升了平台侧的分发效率——让流量在 AI 的驱动下精准流转。

但这只是解决了流量怎么分的问题,对于商家来说,更关心的是投多少、投到哪、以及怎么投。而千策和千意,就是为解决这个问题而生。

 

03

增效:千策让营销再次进化

 

现如今,电商行业纯拼流量的阶段已经成为过去式, 全局经营成为新的关键词 ,但做好这一套并不容易。

中小企业来说,企业自身既不能产生足够的素材,也请不起专业投手,驾驭流量的能力远远落后行业平均水平。

大商家虽然有足够的资金和人力,但也面临着投入产出比越来越低的问题。随着竞争加剧,用户的数据维度增加到万级单位,只是依靠投手的经验就能完成精准投流,已经不再现实。

千策的出现,正是为了打破这种困境。它能够通过自动化能力,让营销策略制定 从专业操作变成一键搞定,从而让 营销门槛大幅降低,商家能专注于做好产品本身。

千策的核心逻辑是策略托管,简单来说,商家不用再区分营销与广告、达人与广告、佣金与广告,也不用设置复杂的定向、出价、预算分配,只需要输入三个信息:一笔总预算、一个综合优化的 ROI 目标、想要推广的商品,系统就能自动生成一个超级计划,覆盖用户与商家交互的全触点、售前售中售后的全场景。

这背后,是千策强大的策略能力, 而支撑这种能力的 ,正是 强化学习+ MPC(Model Predictive Control, 模型预测控制 技术) 组成的动态出价「大脑」,以及 MCP(Model Context Protocol,一种模型上下文协议)技术组成的灵活工具「四肢」。

强化学习让千策能从数据中学习最优策略。它会分析全网同类商品的数据,学习哪些定向组合、出价策略、渠道搭配能带来最高的 ROI;同时,在投放过程中,它会不断尝试新的策略,根据反馈调整优化,就像一个不断试错的营销专家。

搭配强化学习策略的,则是抖音电商的 MPC 算法能力。它能够基于动态创意,用算法算出所有组合方式各自的可能结果,然后参考用户的设定目标,不断选出最合适的出价策略,完成算结果→挑最优→定输入的实时动态循环调优,最终达成最优出价策略。

而基于 MPC+强化学习构建起的强大策略,MCP 作为大模型的强大四肢,能让 AI 可以直接操作不同工具,完成动态出价的最后一步执行。

可以说, 千策的出现, 彻底改变了营销的游戏规则,让它变成了人人都能参与的游戏 ,无论大小商家,都能通过千策实现高效增长。

 

04

提速:千意成为 AI 动态服务的新范式

 

对商家来说,电商运营的高成本不仅体现在流量侧,也体现在创意侧。

内容创作是电商营销的核心,但也是最让商家头疼的环节。传统的人工创作,不仅成本高,而且效率低、追热点难。一个专业的短视频团队,拍摄一条高质量的种草视频需要 1-2 天,成本动辄几百上千;而中小商家自己拍摄,不仅画面粗糙,还抓不住核心卖点,很难吸引用户。

为了解决这一难题,千川推出的千意,借助由大模型+X 系统组成的智能服务 agent 系统, 不仅能帮商家快速生成营销素材,还能根据反馈实时调整,让内容创作不再依赖专业团队。其创作能力更是覆盖了从创意生成、素材制作,到客服问答、智能诊断的完整全场景。

在 素材制作层面,千意借助多模态大模型能力, 能直接将用户输入的基础素材图、模特图转化为高质量的商品图以及短视频 。比如,千意会自动匹配职场女性通勤之类的视频模板,搭配合适的背景音乐和字幕,生成一条种草短视频。并且熟练掌握开场白、卖点讲解、优惠说明等专业直播电商 know how。

除了内容创作,千意还解决了商家的服务难题。比如智投星功能,由多个子 agent 组成,发现问题后及时诊断。比如商家的投流 ROI 突然下降,智投星会自动分析原因:是素材质量下降,还是竞品降价,或是流量渠道变化,然后给出具体的解决方案。

千意的这些能力背后,则是抖音电商的两大优势:一是多模态大模型的技术积累,能保证素材的质量和风格一致性;二是海量的内容数据沉淀形成的知识库 ,能让千意精准把握抖音的内容趋势和用户偏好。

 

05

尾声

 

可以说,千策和千意以及千寻的结合,让电商营销的门槛大幅降低。中小商家不用再担心不会做营销计划、不会创作,只需要专注于做好产品;大商家则能节省大量的人力和时间成本,把精力放在产品创新和品牌建设上。

这正是抖音电商想要实现的目标: 让生意回归本质,让好产品自然脱颖而出。

而回望电商行业的发展历程,我们能清晰地看到:技术始终是驱动一轮轮营销变革的底层动力,而营销也为 AI 技术朝着现实可落地的方向进化指明了方向,甚至可以说,正是来自平台侧、商家侧、用户侧的磅礴且急切的需求,推动了 AI 服务的进步和落地。

营销 1.0 时代,靠的是渠道红利,谁能率先低成本占据线上好的营销渠道,谁就能成功;

营销 2.0 时代,靠的是精准流量红利,谁能拿到更精准的用户画像,谁就能成功;

营销 3.0 时代,靠的则是 AI 红利,谁能用好 AI 工具,做 好 全局增长, 谁就能成功。

毫无疑问,千川・乘方正是营销 3.0 时代最典型的代表,它用 AI 重新定义了电商营销,实现了平台、商家、用户的三方共赢:平台实现了流量效率的提升,商家降低了营销成本、提高了盈利空间,用户获得了更精准、更优质的内容体验。

这或许正是电商行业的下一个十年该有的样子: 营销交给平台交给 AI,商家回归生产与品质,增长也就变得毫不费力。

我高中辍学,跟 AI 学习,逆袭成为 OpenAI 研究员

2025年12月16日 13:00

作者|金光浩

编辑| 靖宇

 

前段时间,我在上海参加了一个 AI 聚会。

活动本身聊的 AI 落地内容很多。

但最让我印象最深的,是一位投资人前辈分享的学习方法。

他说这个方法救了他,也改变了他投资时看人的标准。

具体是什么呢?就是学会「问问题」。

当你对一个问题感兴趣,就去和 DeepSeek 聊,一直聊,聊到它答不出来为止。

这种「无限追问」的技巧,当时听完我觉得挺震撼的,但活动结束后,这事就被我抛在脑后了。

没有尝试,也没惦记。

直到最近,我刷到了 Gabriel Petersson 辍学,用 AI 学习进入 OpenAI 的故事。

我才突然意识到,那位前辈说的「问到底」,在这个 AI 时代到底意味着什么。

Gabriel 访谈播客|图片来源:youtube

 

01

「高中辍学」,逆袭成为 OpenAI 研究员

 

Gabriel 来自瑞典,高中没念完就辍学了。

Gabriel 社媒主页|图片来源:X

 

他曾经觉得自己太笨了,根本不可能从事 AI 相关的工作。

转折发生在几年前。

他的表兄在斯德哥尔摩创办了一家初创公司,做电商产品推荐系统,叫他过去帮忙。

Gabriel 就这么去了,没什么技术背景,也没什么存款,创业初期甚至在公司公共休息室的沙发上睡了整整一年。

但这一年里他学会了不少东西。不是在学校学的,而是在实际问题的压力下硬逼出来的:编程、销售、系统集成。

后来为了优化学习效率,他干脆转成了合同工,这样可以更灵活地选择项目,专门找最优秀的工程师合作,主动寻求反馈。

申请美国签证时,他面临一个尴尬的问题:这类签证要求证明申请人在领域内有「非凡能力」,通常需要学术出版物、论文引用之类的材料。

一个高中辍学生怎么可能有这些?

Gabriel 想了个办法:他把自己在程序员社区上发布的高质量技术帖子整理出来,作为「学术贡献」的替代证明。这个方案居然被移民局接受了。

到了旧金山之后,他继续用 ChatGPT 自学数学和机器学习。

现在他是 OpenAI 的研究科学家,正在参与 Sora 视频模型的构建。

说到这,你一定很好奇,他是怎么做到的呢?

Gabriel 观点|图片来源:X

 

02

递归式知识填补:反常识的学习方法

 

答案就是「无限追问」,找一个具体问题,然后通过 AI 彻底解决这个问题。

Gabriel 的学习方法和大多数人的直觉相反。

传统的学习路径是「自下而上」:先打基础,再学应用。比如想学机器学习,得先学线性代数、概率论、微积分,然后学统计学习,然后学深度学习,最后才能碰实际项目。这个过程可能需要好几年。

而他的方法是「自上而下」:直接从一个具体项目开始,遇到问题就解决问题,发现知识盲区就补齐知识。

他在播客里说,以前这种方法很难推广,因为你需要一个全知全能的老师,随时告诉你「接下来该补什么」。

但现在,ChatGPT 就是这个老师。

Gabriel 观点|图片来源:X

 

具体怎么操作?他举了个例子:如何学扩散模型。

第一步,从宏观概念开始。他会问 ChatGPT:「我想学视频模型,最核心的概念是什么?」,AI 告诉他:自动编码器。

第二步,代码先行。他让 ChatGPT 直接写一段扩散模型的代码。一开始很多地方看不懂,但没关系,先把代码跑起来再说。能跑通,就有了调试的基础。

第三步,最核心的,进行递归追问,他会盯着代码里的每一个模块问问题。

就这样一层层往下钻,直到彻底理解底层逻辑。然后再返回上一层,继续问下一个模块。

他把这个过程叫做「递归式知识填补」。

递归式知识填补|图片来源:nanobaba2

 

这比按部就班学六年快得多,可能三天就能建立起基本的直觉。

如果你熟悉苏格拉底式提问法,会发现这本质上是同一个思路:通过层层追问来逼近事物的本质,每一个回答都是下一个问题的起点。

只不过现在他把 AI 当成了被追问的人,而由于 AI 近乎全知全能,不断的将事物的本质以一种通俗易懂的方式向提问者表达。

实际上,Gabriel 采用这样一种方式,对 AI 进行了「知识萃取」,学到了事物的本质。

 

03

我们大多数人用 AI,其实在变笨

 

听完博客,Gabriel 的故事让我产生了一个疑问:

同样是用 AI,为什么他能学得这么好,而很多人用 AI 之后,反而感觉自己在退步?

这不仅仅是我的主观感受。

微软研究院 2025 年的一篇论文显示 [1], 当人们频繁使用生成式 AI 时,自身批判性思维的使用会明显下降。

换句话说,我们把思考外包给了 AI,然后自己的思考能力也跟着萎缩了。

技能这东西符合「用进废退」的规律:当我们用 AI 写代码时,手和脑写代码的能力就在悄悄退化。

用 AI「vibe coding」的工作方式看起来效率很高,但长期下来,程序员自身的编程技能是在下降的。

你把需求扔给 AI,它吐出一堆代码,你跑通了,觉得很爽。但如果让你关掉 AI,手写核心逻辑,很多人会发现自己的大脑一片空白。

更极端的案例来自医学领域,一篇医学领域的论文指出 [2], 医生在引入 AI 辅助后三个月,结肠镜检测技能下降了 6%。

这个数字看起来不大,但想想看: 这是真实的临床诊断能力,关乎患者的健康和生命。

所以问题就来了:同样的工具,为什么有人用它变强了,有人用它变弱了?

区别在于你把 AI 当成什么。

如果你把 AI 当成一个帮你干活的工具,让它替你写代码、替你写文章、替你做决定,那你的能力确实会退化。因为你跳过了思考的过程,只拿到了结果。结果可以复制粘贴,但思考能力不会凭空生长。

但如果你把 AI 当成一个教练或者导师,用它来检验自己的理解、追问自己的盲区、逼迫自己把模糊的概念说清楚:那你实际上是在用 AI 加速自己的学习循环。

Gabriel 的方法,核心不是「让 AI 替我学」,而是「让 AI 陪我学」。他始终是那个主动追问的人,AI 只是提供反馈和素材。每一个「为什么」都是他自己问出来的,每一层理解都是他自己挖下去的。

这让我想起一个老话:授人以鱼不如授人以渔。

递归式知识填补|图片来源:nanobaba2

 

04

一些实际的启发

 

聊到这里,可能有人会问:我不是搞 AI 研究的,也不是程序员,这个方法对我有什么用?

我觉得 Gabriel 的方法论可以抽象成一个更通用的五步框架,每个人都可以通过 AI 学习任何不懂的领域。

1、从实际问题出发,而不是从教科书的第一章开始。

你想学什么,就直接开始做,遇到卡壳的地方再去补。

这样学到的知识有上下文、有目的,比孤立地背概念有效得多。

Gabriel 观点|图片来源:X

 

2、把 AI 当成一个永远有耐心的导师

你可以问它任何蠢问题,可以让它用不同方式解释同一个概念,可以让它「像教五岁小孩一样解释」。

它不会嘲笑你,也不会不耐烦。

3、主动追问,直到建立直觉。不要满足于表面的理解。

一个概念,你能用自己的话复述出来吗?能举一个原文没提到的例子吗?

能解释给一个外行听吗?如果不能,就继续问。

4、这里有个陷阱需要警惕:AI 也会产生幻觉

在进行递归追问时,如果底层概念 AI 解释错了,你可能就在错误的道路上越跑越远。

所以建议在关键节点,通过多个 AI 进行交叉验证,确保提问的地基是稳的。

5、记录你的追问过程

这样可以形成可复用的知识资产:下次遇到类似问题,你有一份完整的思考路径可以回顾。

传统观念里,工具的价值在于减少阻力、提高效率。

但学习这件事恰恰相反:适度的阻力、必要的摩擦,反而是学习发生的前提。如果一切都太顺滑,大脑就进入了省力模式,什么都记不住。

Gabriel 的递归追问,本质上就是在制造摩擦。

他不断问为什么,不断把自己逼到不懂的边缘,然后再一点点把洞填上。

这个过程很不舒服,但正是这种不舒服,让知识真正进入了长期记忆。

 

05

未来的职业趋势

 

在这个时代, 学历的垄断正在被打破,但认知的门槛却在隐形提高。

大多数人只把 AI 当作「答案生成器」,而极少数像 Gabriel 这样的人,把 AI 当作「思维练习器」。

其实类似的用法,已经在不同领域出现了。

比如在即刻上,我看到不少家长在用 nanobanana 给孩子辅导功课。但他们不是让 AI 直接给出答案,而是让 AI 生成解题步骤,一步一步地展示思考过程,然后和孩子一起分析每一步的逻辑。

这样孩子学到的不是答案,而是解题的方法。

提示词「解给定的积分,并把完整的解写在白板上」|图片来源:nanobaba2

 

还有人用 Listenhub 或者 NotebookLM 的功能,把长篇文章或论文转成播客形式,让两个 AI 声音对谈、解释、提问。有人觉得这是偷懒,但也有人发现,听完对谈再回去看原文,理解效率反而更高。

因为对谈过程中会自然地抛出问题,逼迫你思考:这个点我真的懂了吗。

Gabriel 访谈播客转播客|图片来源:notebooklm

 

这指向了一个未来的职业趋势: 一专多能。

以前,你想做一款产品,需要懂前端、后端、设计、运维、营销。现在,你可以像 Gabriel 一样,用「递归补洞」法,快速掌握你短板领域的 80% 知识。

你原本是个程序员,通过 AI 补齐设计和商业逻辑,你可以变成一个产品经理。

你原本是个好的内容创作者,通过 AI,你可以快速补齐代码能力的短板,变成一个独立开发者。

基于这个趋势可以推断:「也许,未来,会有更多的「一人公司」形态出现」。

 

06

夺回你的主动权

 

现在再想那位投资人前辈的话,我才明白他真正想说的是什么。

「一直问到答不出来为止。」

这句话在 AI 时代是一个很棒的心法。

如果我们只满足于 AI 给出的第一个答案,我们就在悄无声息地退化。

但如果我们能通过追问,逼 AI 把逻辑讲透,再内化成自己的直觉:那 AI 就真的成了我们的外挂,而不是我们成了 AI 的附庸。

不要让 ChatGPT 替你思考,要让它陪你思考。

Gabriel 从睡沙发的辍学生,走到 OpenAI 研究员。

中间没有什么秘诀,就是成千上万次追问。

在这个充满着被 AI 替代焦虑的时代,最实在的武器可能就是:

别停在第一个答案,继续问下去。

[1].The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers.

[2].Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study.

群核科技,摸着李飞飞过河

2025年12月16日 11:07

作者|Li Yuan

编辑| 郑玄

李飞飞的「空间智能」(Spatial Intelligence),无疑是今年科技圈最性感的词汇之一。

当这位 AI 教母振臂一呼,原本还在卷文本、卷视频生成的行业目光,瞬间被拉向了 3D 世界。然而,这个领域太过前沿,以至于在大洋彼岸,除了李飞飞的 World Labs,真正能看懂并跟进的玩家也寥寥无几。

在中国,谁会是那个最快跟进的人?

令人意外的是,答案或许不在那些声量巨大的大模型独角兽名单里,而是一家在装修设计领域耕耘多年的老兵——群核科技(酷家乐母公司)。

12 月 9 日,在群核科技 2025 酷+大会上,这家在 3D 空间领域深耕 14 年的公司宣布了一项重大战略升级:从 3D 软件提供商,转型为空间智能基础设施提供商—— 发布了物理模拟视频生成模型 LuxReal,并同步推出了 Aholo 空间智能开放平台,一口气开放了从空间重建、生成,到编辑与理解的全套能力。

虽然并非传统意义上的 AI Native 公司,但群核科技似乎正在走出一条独特的「中国版李飞飞路线」。

看起来或许有点反直觉:为什么率先在这条赛道交卷的,不是那些算力雄厚的通用大模型巨头,而是这家垂直软件公司?

答案藏在空间智能的特性里。

空间智能的门槛不仅仅是算力,更是这种对物理世界的「显式掌握」。

在过去的 14 年里,群核科技积累了全中国最庞大的真实户型数据库、带有精确物理材质参数的商品模型,以及数以亿计经过渲染验证的装修方案。这些并非合成数据,而是物理世界的「数字底稿」。

当李飞飞指明空间智能是 AI 的下一站时,行业才猛然发现,通往这一站最关键的「数据船票」,其实早就握在了这位行业老兵手中。

 

01

中国的「李飞飞路线」:

在黑盒中植入「把手」

 

在这次发布会中,承载群核科技空间智能野心的核心产品,是一个名为 LuxReal 的视频生成模型。

如果仅仅看演示 demo,LuxReal 似乎是在做与 Sora、或者李飞飞的 World Labs 类似的事情:输入一个图片,生成一段与图片相关的,物理规律准确且具有一致性的视频。但如果揭开引擎盖,你会发现几者的技术底色截然不同。

首先是 Sora 代表的「大力出奇迹」路线。

Sora 本质上是一个「2D 原生」的模型。它并不真正理解三维空间,而是通过 DiT(Diffusion Transformer)架构,学习了海量视频数据中「像素块」的运动规律。它像是一个看过几亿部电影的天才画家,因为它知道「杯子掉落」后下一帧画面通常是什么样,所以它能画出符合物理直觉的视频。但这种物理规律是「涌现」的,是不稳定的——这也是为什么 Sora 生成的视频中,人有时候会突然长出第三只手,或者椅子在旋转时会莫名变形。因为它心中没有「椅子」的三维模型,只有「看起来像椅子的像素」。

而群核科技与李飞飞的 World Labs,则站在了 Sora 的对立面。

两者都坚信: 要解决物理一致性,中间必须多一步三维几何结构,就是所谓世界模型的路线。 也就是不能直接从 Text 变 Video,必须是 Text -> 3D World -> Video。只有先在计算机里构建出一个有深度、有体积的 3D 舞台,再在这个舞台上架设虚拟摄像机拍摄,才能保证无论怎么运镜,物体都不会崩坏。

但就在「如何构建这个 3D 舞台」这一步上,群核科技和李飞飞的路线略有不同。

李飞飞试图构建一个「可学习的渲染器」。在这个模型中,AI 不需要构建任何显式的 3D 模型。它将世界压缩进了神经网络的「激活状态」(KV Cache)里——这是一个人类看不见、摸不着的*「隐式世界」。通过端到端训练,模型学会了像上帝一样在神经元内部「渲染」光影、反射和遮挡。它模糊了「重建」与「生成」的界限:给它几张图,它就能在脑海中补全这个场景的各个角度。 它极其优雅,像是一个看过世界的「缸中之脑」,在思维内部完美模拟了物理法则。

而群核科技的 LuxReal,选择了一条更「笨」但对产业更有用的路: 基于资产的结构化生成。

得益于 14 年的积累,群核不需要让 AI 在神经元里去「隐式模拟」一个沙发。LuxReal 以群核自研的 Lux3D 为底座,它的工作流是: 先生成 3D: 它是生成式 AI,但它首先生成的是 3D 物体和场景; 再渲染视频: 有了确定的 3D 资产后,再通过物理引擎将其渲染成视频。

因为中间多了一步「显式」的 3D 支撑,无论镜头怎么甩,高达的模型结构被牢牢锁死,绝不可能出现「长出第三只手」或「金属变液体」的幻觉。

而群核之所以敢选这条路,底气依然在于他们的数据积累。要训练 AI 进行精准的「显式表征」,需要海量带有精确物理标注的 3D 数据作为「教材」。这正是群核科技过去十四年构建的护城河——他们不需要像其他公司那样用游戏引擎去合成数据,他们手里就有最真实的物理世界数字底稿。

这个多出来的「显式步骤」,它在处理流体与极端形变时,或许不如李飞飞的隐式模型那般写意,相对来说也带来了额外的算力负载。 但这恰恰是群核的取舍之道——通过支付这些成本,他们在 AI 那深不可测的黑盒中,成功植入了一个可供人类精准操作的「把手」。

它在处理刚体(Rigid Body)、结构化场景和复杂的室内光影时展现出了极强的优势。它少了一些无中生有的「幻觉」,却多了一份产业急需的「确定性」和「可编辑性」。

这在 电商与广告 场景中极具杀伤力。

试想,当你上传一款新发布的咖啡机模型,你需要的是它在各种高级光影下流转,展示其金属质感,而不是让 AI 发挥想象力把它的按钮位置改了,或者把机身扭曲了。相比于其他模型容易「二创」产品,LuxReal 能做到「产品 100% 还原,而光影与运镜无限生成」。

这才是从「看着好玩」的 Demo,走向「所见即所卖」的 Commercial(商业交付)的关键一步。

 

02

意外的 3D 时代富矿

 

为什么在中国追赶李飞飞路线的,反而是群核科技?

要回答这个问题,我们需要把时钟拨回十四年前。那时候,群核科技(及其核心产品酷家乐)在大多数人眼中的形象,仅仅是一个好用的 SaaS 工具。它让设计师扔掉了难学的 3D Max,在浏览器里就能快速搭建户型、渲染效果图。

彼时,没有人能预见到 2024 年的 AI 变局。群核自己可能也没想到,当年为了「让装修变简单」而建立的这套云端 CAD 系统,竟在十四年的漫长岁月中,无意间通过数千万设计师的手,堆出了一座 全世界最大的、真实物理世界的数字富矿

这便是空间智能赛道上最反直觉的一幕:当硅谷的顶尖头脑们为了获取高质量 3D 数据而绞尽脑汁时,这家中国垂直软件公司,却坐在了金山上。

在空间智能的训练中,数据决定了天花板。

即便是李飞飞的 World Labs,或者是其他试图冲击 3D 世界模型的大厂,在缺乏真实数据的情况下,往往只能退而求其次——利用 Unity 或 Unreal 等游戏引擎来生成「合成数据」(Synthetic Data)。

这在逻辑上是通的,但存在致命的 Sim2Real(从仿真到真实) 鸿沟。游戏引擎生成的场景是完美的、干净的、人工定义的。然而,真实的物理世界是「脏」的、复杂的、充满噪声的。完全用合成数据训练出来的 AI,在面对真实世界时往往会「水土不服」。

而群核科技手里握着的,是真正的「物理底稿」。

过去 14 年,中国几乎每一次装修浪潮、每一套奇葩户型的改造、每一个家具的摆放逻辑,都被数字化地保存在了群核的服务器里。

这里有 数亿张 真实的户型图,涵盖了中国大江南北最复杂的建筑结构;这里有 海量 带有精确物理参数(材质、摩擦力、尺寸)的商品模型,而不是只有外壳的 3D 贴图;这里还有 数不清 的设计方案,它们不是随机生成的,而是包含了人类设计师对于「什么家具应该放在哪里」的深度语义理解。

这些数据不是为了 AI 专门造出来的,它们是真实业务长出来的。正是这种「原本为了产业应用而积累的高精度数据」,构成了群核科技最深的护城河。它比通用的视频数据更深(有结构),比游戏引擎的数据更真(有物理属性)。

一转头,群核科技发现自己正坐在这一轮 AI 竞赛最稀缺的资源——数据金山上。

这种资产层面的底气,直接推动了公司战略维度的跃迁: 从一家垂直的 3D 软件提供商,正式转型为空间智能的基础设施服务商。

12 月 9 日,群核科技正式发布 Aholo 空间智能开放平台 。这不只是发布了一个工具箱,更是一次彻底的「家底开放」。群核将过去 14 年在 3D 领域打磨最深的四项核心能力—— 空间重建、空间生成、空间编辑、空间理解 ——毫无保留地进行了系统性封装并对外输出。

这是一个极其关键的战略转身。在此之前,这些能力主要服务于家居装修行业的内部提效;而现在,通过 Aholo,群核试图将这些能力变成 AI 时代的「水电煤」:

空间重建 :让单张 2D 图片瞬间「升维」,变成可漫游、有深度的 3D 场景;

空间生成 :用自然语言描述就能「生长」出复杂的 3D 模型;

空间编辑 :这是群核最擅长的「显式」能力,让生成的 3D 不再是死板的像素,而是可被精准修改的资产;

空间理解 :让 AI 真正看懂画面里的物体关系,知道「椅子在桌子旁边」不仅是像素的位置,更是语义的关联。

如果说 LuxReal 是为了让人类看到更逼真的视频,那么 Aholo 开放平台的野心则更进一步—— 它想让机器看懂世界。

在这次发布中,一个不起眼但极具想象力的信号是: 群核科技正在发力具身智能(Embodied AI)。

这也是「空间理解」能力最性感的落地场景。过去的机器人(如扫地机或服务机器人)在室内导航时,往往是个「瞎子」或者「高度近视」。它们依靠激光雷达避障,虽然能测距,却不懂环境的语义——它们不知道前面这堆像素究竟是「昂贵的玻璃瓶」 还是 「耐撞的承重墙」。

群核科技正在尝试将其海量的 3D 资产和场景理解能力,投喂给机器人。

通过学习群核数据库中成千上万种真实的室内布局和物品摆放逻辑,机器人可以获得一种「上帝视角」般的先验知识。龙天泽透露,群核已经在做机器人导航中的 3D 物品视觉理解 。这意味着,未来的机器人不仅能「看见」障碍物,还能通过接入 Aholo 的模型,瞬间做出判断:

「这是易碎品,必须绕行 20 厘米。」

「这是柔软的沙发,可以紧贴着走。」

从服务设计师,到服务机器人,群核科技的数据价值,正在发生一场从「画图」到「识途」的质变。

 

03

摸着李飞飞过河

 

对于群核科技来说,「空间智能」既是一次站在风口上的顺势而为,也是一次略带遗憾的「迟来觉醒」。

在发布会后的交流中,团队内部流露一种真实的紧迫感,甚至有一种声音感叹:「 要是早知道,去年就该发力做了。

这种遗憾背后,其实是对 AI 技术代际演进的深刻复盘。当大模型从文本(Text)卷向图像(Image),再到视频(Video),行业终于意识到,下一站必然是 3D,是物理世界。群核科技猛然发现,自己手里那些原本只用于装修设计的图纸和模型,在新的 AGI 语境下,突然变成了一张通往物理侧人工智能的昂贵门票。

这种冲击不仅发生在技术层,更直接撼动了商业模式的底层逻辑。

陈航(群核科技 CEO)透露,随着 AI 产品的推出,传统的 SaaS 售卖方式正在失效。以前,软件是按 Seat(坐席) 收费的,逻辑是「人」在使用;但现在,调用场景变成了「人机混用」,机器调用的频次可能比人高出几个数量级。

「如果只按年费、月费收费,机器一调用就被拉爆了。但如果只按 Token 或 Credit 充值,准入门槛又太低,无法筛选高质量客户。」陈航说道。

为了适应这个新时代,群核正在摸索一种「年费/月费 + Token/Credit」的混合计费模式。这不仅是计费方式的调整,更是对软件价值定义的重构——从卖「工具的使用权」,转向卖「算力与智能的消耗量」。

当然,陈航也表现出了难得的清醒。他坦言,国内市场对 AI 产品的付费验证周期相对较长,「 让客户在原有预算之外再花额外的钱,是很难的,必须要验证绝对的价值。

他们坦言,关于未来具体怎么走,商业模式是卖 API、卖模型还是做新的超级应用,目前并没有百分之百的定论。这更像是一场「摸着石头过河」的冒险,只不过这一次,河对岸多了一个明确的灯塔——李飞飞。

「摸着李飞飞过河」,不仅仅是一句玩笑,它有着双重含义:

一方面,是 方向上的确认 。李飞飞和 World Labs 的存在,证明了「空间智能」不是一个伪命题,而是 AI 进化的必经之路。这给了群核科技巨大的信心,去重仓投入这个原本只有他们在做的冷门领域。

另一方面,是 路径上的独立 。群核没有盲目照搬硅谷的纯科研模式,而是结合中国产业的土壤,利用自己独有的「显式数据」壁垒,走出了一条更注重可控性、更强调产业落地的差异化路线。

对于群核科技而言,这条河刚刚过了一半。水深水浅,唯有自知。

但至少,在通往物理世界 AI 的这艘大船上,他们已经不再是岸上的旁观者,而是手握罗盘与燃料的核心玩家。未来或许充满不确定性,但对于一家拥有 14 年数据底蕴的公司来说,没有什么比「正在场上」更重要的事情了。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

马斯克:在地球建核聚变装置愚蠢至极;英伟达发布新一代开源大模型;全球首款猫用减肥药进入临床试验

2025年12月16日 08:45

马斯克公开唱衰核聚变,疑似为光伏站台

12月15日,马斯克在个人社交账号上公开唱衰核聚变发电。其直言不讳道:“在地球上建造小型核聚变反应堆简直愚蠢至极。”

马斯克指出,太阳本身已是天空中一个巨大的、免费的核聚变反应堆。太阳产生的能量能够满足全太阳系所有的能源需求,而建造小型核聚变反应堆则是一种经济上的浪费。

在马斯克最新的太空AI设想中,其计划每年部署100GW的太阳能AI卫星,规模堪比美国全国电力的四分之一。

就在马斯克为太阳能持续站台之际,特斯拉旗下光伏业务正重整旗鼓。今年10月,特斯拉宣布已开始在位于纽约州布法罗市的超级工厂生产其自主研发的新型太阳能电池板。首批产品预计将于2026年第一季度交付。而在去年,公司光伏安装量跌至谷底,一度停止对外公布相关数据。(来源:财联社)

英伟达发布 Nemotron 3 开源模型系列

英伟达周一发布最新版系列开源人工智能模型「Nemotron」,以及配套的数据和库,旨在为各行各业提供透明、高效、可定制的智能体 AI(agentic AI)开发能力。该公司表示,这一新模型家族在速度、成本和智能水平方面都将优于此前的产品。

Nemotron3 将提供三种不同规模的版本:Nemotron 3 Nano,拥有 300 亿参数,主要用于目标明确、效率要求极高的任务;Nemotron 3 Super,拥有 1000 亿参数,面向多智能体应用,并具备高精度推理能力;Nemotron 3 Ultra,配备更强大的推理引擎,参数规模约为 5000 亿,适用于更加复杂的应用场景。

该公司表示,在构建 Nemotron 3 模型时,英伟达表示采用了一种混合型「专家混合」架构,以提升模型的可扩展性和效率。英伟达在新闻稿中称,通过这一架构,其新模型在构建多智能体自主系统时,能够为企业提供更高的开放性和性能表现。

此前,据媒体报道,Meta 正在考虑转向闭源模型路线,这可能使英伟达成为美国最主要的开源模型提供商之一。(来源:华尔街见闻)

 

特斯拉董事靠股票奖励大赚 30 亿美元,远超其他科技巨头

据路透社报道,根据薪酬和企业治理研究机构 Equilar 为路透社进行的一项分析,特斯拉董事会成员通过股票奖励赚了 30 多亿美元,远超同期美国其他科技巨头授予其董事的股票奖励。

分析显示,根据特斯拉董事已变现或所持有股票期权的增值计算,特斯拉 CEO 马斯克的弟弟金巴尔 Kimbal 自 2004 年以来已赚了将近 10 亿美元。特斯拉董事 Ira Ehrenpreis) 自 2007 年以来已进账 8.69 亿美元。特斯拉董事长 Robyn Denholm) 自 2014 年以来已赚了 6.5 亿美元。

尽管特斯拉董事们自 2020 年以来未再授予自身新的股票奖励,但他们仍获得了如此丰厚的收益。特斯拉董事会此前已同意从 2021 年起暂停董事薪酬,以了结一桩指控董事薪酬过高的股东诉讼。

在 2018 年至 2020 年间,特斯拉董事获得的现金与股票薪酬平均值约为 1200 万美元,这大约是同期「科技七巨头」中董事平均薪酬第二高的 Alphabet 的八倍。(来源:凤凰网科技)

 

网飞 CEO 回应派拉蒙「截胡」:意料之中,拿下华纳兄弟后将涉足院线

在华纳兄弟与 Netflix 刚刚达成协议仅过去几天后,派拉蒙天舞公开提出以每股 30 美元现金收购华纳兄弟,比 Netflix 的报价稍微高一些。

对于这一「截胡」操作,Netflix 的 CEO Greg Peters 和 Ted Sarandos 周一在给员工的信中表示,公司决定收购华纳兄弟探索公司的资产的立场没有改变。

据路透社报道,Netflix 表示将致力于支持华纳兄弟电影在影院上映,并表示这「是他们业务和传承的重要组成部分」。

「我们过去没有优先考虑影院发行,因为这并不是 Netflix 的业务。当这项交易完成后,我们将进入这一业务,」信中还补充说,派拉蒙天舞的敌意收购「完全在预料之中」。「我们已经达成了一项稳妥的协议。这对我们的股东、消费者来说都是好事,也是创造和保护行业就业岗位的有效途径。我们有信心最终完成交易——而且我们对未来充满期待。」(来源:IT 之家)

工信部许可首批两款 L3 级自动驾驶车型准入许可

12 月 15 日,工业和信息化部正式公布我国首批 L3 级有条件自动驾驶车型准入许可,两款分别适配城市拥堵、高速路段的纯电动车型将在北京、重庆指定区域开展上路试点,标志着我国 L3 级自动驾驶从测试阶段迈入商业化应用的关键一步。

工信部于第 401 批《公告》附条件许可了相关产品。《公告》显示,首批获批准入的对应品牌车型分别为长安深蓝 SL03 和北汽极狐阿尔法 S6。

其中,长安深蓝 SL03 可以实现在交通拥堵环境下高速公路和城市快速路单车道内的自动驾驶功能(最高车速 50km/h),目前该功能仅限在重庆市内环快速路、新内环快速路(高滩岩立交—赖家桥立交)及渝都大道(人和立交—机场立交)等路段开启。

而北汽极狐阿尔法 S6,可以实现高速公路和城市快速路单车道内的自动驾驶功能(最高车速 80km/h),目前该功能仅限在北京市京台高速(大兴区旧宫新桥—机场北线高速)、机场北线高速(大渠南桥—大兴机场高速)及大兴机场高速(南六环—机场北线高速)等路段开启。(来源:财联社)

 

苹果折叠屏 iPhone 最新爆料:内屏无开孔无折痕,重回指纹识别

从多方权威爆料基本可以确定,苹果将会在明年 9 月发布首款可折叠 iPhone,与 iPhone 18 Pro 系列同台登场。

博主「数码闲聊站」透露工程机最新进展,该机将采用「阔折叠」方案,也就是类似华为 Pura X 的比例。

综合此前爆料,折叠 iPhone 的屏幕方案如下:

外屏 5.5 英寸,采用 HIAA 打孔摄像头设计,开孔超小,比例接近寸接近常规 iPhone,满足日常快捷操作;内屏 7.8 英寸,分辨率 2713×1920,采用 UPC 屏下前摄方案,实现无开孔效果。

苹果还打造了非常强大的铰链,通过内置金属应力分散板实现「近乎无折痕」的内屏效果,同时支持自修复涂层技术,提升抗刮性。

此外,爆料指出折叠 iPhone 将取消 Face ID,改用类似 iPad 的侧边按键集成 Touch ID 设计,以节省内部空间,这是 iPhone 产品线时隔多年首次回归指纹识别功能。

定价方面,美国市场起售价预计 1800-2500 美元,换算人民币约 1.3 万-1.8 万元,成为史上最贵 iPhone。(来源:快科技)

 

当当创始人李国庆宣布「60 岁再创业」

12 月 15 日,当当创始人李国庆发布视频,宣布自己 60 岁再创业,成立新公司「李享生活」,要做线上高端会员店。他在视频中称,要带着 30 年练就的火眼金睛,重回电商一线。

李国庆称,新电商公司主打品质生活圈层,商品加价率将控制在 1.25 倍,第一年只服务 5000 个优质会员。

李享生活(北京)网络科技有限公司成立于 2025 年 9 月,法定代表人为李雪梅,注册资本 100 万元人民币,经营范围包括货物进出口、服装服饰零售、日用百货销售等,由李国庆、李雪梅分别持股 99%、1%。(来源:IT 之家)

 

iOS 26 曝光离奇 BUG:照片放大自动变红

据科技媒体 9To5Mac 报道,部分苹果 iOS 用户近日发现一个诡异的 Bug:某些保存在手机上的照片会被莫名其妙地加上一层红色滤镜,而且这些照片往往是安卓手机拍摄后传输到 iPhone 的。

从目前的表现来看,「照片」App 里的部分图片只要放大,就会被加上一层颜色滤镜。不过恢复的方法也很简单,只需要点开变红的照片,然后选择「编辑」,再点击「还原」就能移除掉红色滤镜,使照片恢复正常显示。

根据用户的反馈,这些变红的照片都不是 iPhone 拍摄的。9To5Mac 推测,这可能是 iPhone 在解析图片中嵌入的 ICC 颜色配置文件时出了问题。(来源:IT 之家)

Vivo S50 系列发布,搭载第三骁龙 8S 处理器

12 月 15 日,vivo S50 手机正式发布,搭载第三代骁龙 8s 处理器、索尼 IMX882 传感器、6500mAh 蓝海电池等,售价 2999 元起,将于 12 月 19 日开售。

新机提供告白、悠悠蓝、灵感紫、深空黑四款配色,6.59 英寸屏幕搭配 7.49mm 机身厚度,配备缎面柔光玻璃背板。

新机影像算法升级,支持 4K 封面帧、4K 换帧增强、4K 视频转 Live 功能,此外还有 Live 路人消除、行业首发 Live 调音师等玩法。

新机搭载主摄级长焦,1/1.95 英寸大底索尼 IMX882 传感器;大师 Live 运镜行业独家高光慢动作运镜,实现变焦 + 慢动作双重效果;三种行业独家「大师 Live 运镜」,六大「Live 特效」,还有 N 多「Live 滤镜」。(来源:IT 之家)

 

全球首款猫用减肥药进入临床试验

近日,世界首款猫用减肥 OKV-119 进入临床试验。

该药物由美国生物技术公司 OKAVA Pharmaceuticals 研发,采用皮下植入给药方式,可用长达 6 个月的时间,慢慢地让药物释放到猫咪体内。

OKV-119 模仿人类 GLP-1 激素功能,通过抑制食欲和延缓胃排空减少热量摄入,提高胰岛素敏感性,改善代谢健康,模拟「禁食效应」却无需改变饮食习惯。

该药物不仅能够帮助超重宠物减肥,还可能为糖尿病、肾病等常见猫咪代谢疾病提供解决方案,有望提升猫咪生活质量、促进健康衰老。

首轮临床试验预计测试 50 只猫咪并进行 3 个月的随访,之后猫主人可以选择是否再延期观察。

若 MEOW-1 试验最终完全成功,OKAVA 计划开展更大规模试验,并计划在 2027-2028 年申请正式批准,预计上市后价格约每月 100 美元(单次植入可覆盖半年)。(来源:快科技)

韦氏词典评选「slop」为年度词:AI 低质内容充斥互联网

美国知名词典出版机构梅里亚姆-韦伯斯特(Merriam-Webster,韦氏词典)宣布,将「slop」一词评为 2025 年度词汇,直指过去一年在人工智能推动下席卷互联网的大量低质数字内容。

该词在该词典中的定义是:「通常由人工智能大批量生成、质量低劣的数字内容」,用以概括当前社交媒体和网络空间中随处可见的 AI 产物。

词典方面在解释中指出,「slop」一词如同「slime(黏液)」「sludge(淤泥)」「muck(污泥)」一样,自带一种「湿哒哒」的质感,让人本能地产生厌恶感,形象地传达出这种内容「不想碰却无孔不入」的特征。

值得一提的是,今年在「年度词汇」评选中,科技相关词语整体表现抢眼。澳大利亚的麦格理词典(Macquarie Dictionary)早于梅里亚姆-韦伯斯特,将「AI slop」评为年度词;牛津词典(Oxford)选中了「ragebait」(以激怒情绪为目的的诱饵内容);柯林斯词典(Collins)则将「vibe coding」(氛围编码)列为年度词汇,反映出 AI、算法内容和情绪操控等议题已成为当今公共话语中不可回避的主题。(来源:cnBeta)

 

极客公园:一直寻找那个与众不同的「Why」

2025年12月15日 17:43
作者|张鹏
整理| 蒙苏
在今年的极客公园创新大会上,极客公园创始人 & 总裁张鹏的 Kick-off 演讲,包含了极客公园自己的故事和对未来的思考,也分享给极客公园的读者们。
以下为演讲全文:
今年是极客公园创新大会举办的第十六届。
每年大会最让我兴奋的,就是既能见到共同成长的老朋友,又能迎来许多第一次来到现场的新面孔。站在第 16 年的节点上,我想讲一讲 极客公园到底是谁?我们为什么存在?以及,极客公园究竟能为你做什么?
 

01

始于「兴趣小组」,忠于「非共识」
 

极客公园的起点,并不是什么宏大的商业蓝图,它更像是一个源于我个人热爱的「兴趣小组」。
1998 年,我大学毕业进入科技媒体行业,被分配去盯一个刚刚新兴的小行业,这个行业叫互联网。时代选中了互联网,结果接下来就是波澜壮阔的 20 年。
因为我工作的关系,有机会结识了很多用科技、用产品对世界产生影响的优秀创业者,我特别享受和他们的交流。
2010 年,移动互联网萌芽初现。当时,我就出于个人兴趣想做一个「小组织」,把注意力全部放在那批最早在移动互联网时代做产品创新的年轻人身上。
极客公园在诞生的第一天只是一个个人兴趣小组,它甚至也没有任何预算。当时做的事就是把移动互联网时代做产品创新的这群人集结在一起,每个月有两次线下交流。当时线下交流的场地还是个小场,借了个地下室,甚至没有椅子,大部分讨论都是席地而坐。

这种没有商业模式的纯粹的「兴趣小组」状态维持了四年。也就是在这四年里,那些当初坐在地上讨论的年轻人——王兴、雷军、张一鸣、周源——逐渐成为了时代的明星,成为了改变中国互联网格局的一群人。

我们经常思考创新是如何发生的?这段经历让我反复确认了一个关于创新的信念: 所有成功的创新,都是一种基于宽广世界观的正确推理,本质上是一种「见识—认知—行动」的终极闭环。

这一闭环并非是在一瞬间按部就班地完成的,而是在每时每刻持续运转、不断迭代。

一个具象的例子是,2014 年,极客公园面向一批移动应用的创业者们,组织了一次硅谷行。当时还未「一鸣惊人」的张一鸣跟着我们走访了 Twitter,见了马斯克、见了苹果前 CEO……在那次行程后,张一鸣在极客公园发表了一篇题为《中国科技公司的「黄金时代」》的硅谷行记,他不仅看到了硅谷的科技创新,更从这次见识中生长出了一个认知:中国科技公司的未来必然在全球,依靠技术和产品大有可为。这一认知在 2017 年张一鸣和其他几家公司竞购 musical.ly 时给了他一个特别重要的决策基线,成为开启 TikTok 全球化故事的一个思考起点。
这一例子可以印证,「见识-认知-行动」是非常强大的循环。

 

02

极客公园自己的「强化学习」
 
这么多年和创业者们在一起的经历也给我自己带来了一些启发。2014 年,极客公园也把自己变成一家公司,作为一家创业公司去践行使命。
作为一个做了很多年内容的人,我在那时开始重新思考,如果极客公园的使命是「生生不息地发现科技创新者,成为他们的伙伴,共同创造价值」,那么极客公园的内容如何能「从见识到认知再到行动」,进而与时俱进,越做越好?
借用今天 AI 圈都熟悉的语言就是:如何启动「强化学习」的进程,设定一个和我过去做媒体内容不一样的「目标函数」?
如果过去媒体好内容的目标是流量,那么极客公园作为一个创业者社区,无论日常的内容还是年度的大会,它的目标就应该是「激发变量」,对于科技趋势,对新一代优秀产品和创业者这些「变量」的识别和点亮。
只有定义清楚了目标,极客公园的内容和大会才不会随着时间变平庸,而是随时间成长出更大的价值。 就像已经 16 年的极客公园创新大会没有越做越无聊,核心就在于不是 只 去聚集今天最明星的人,而是找到正在创造未来变量的人,然后我们努力提一个好问题,寻求一个好回答。
例如,2014 年,当智能电动车还是个「非共识」时,我们把马斯克第一次请到中国,登上极客公园的舞台,也帮助他上央视对话。同时也邀请同为「非共识」的今日头条的张一鸣一起同台演讲,因为当时我们非常相信他们会是改变世界的人。
2015 年,顺着机器学习崛起的认知,我们请来了《奇点临近》的作者库兹韦尔,带来了 AI 浪潮的「预言」。第二年,AlphaGo 战胜围棋大师李世石,震惊世界。
2017 年,我们在乌镇的饭局上,把一个叫王兴兴的年轻人介绍给科技圈的前辈们,很多人说这张照片很有「穿越感」,其实唯一有点穿越的,是那时候我们对「电驱」+「AI」必将提速机器人发展的认知判断。
当然,过去几年来在 AGI 浪潮里,极客公园也是齐聚了几乎所有先锋力量的讨论,我甚至觉得有点重回 2010 年的感觉,未来 10 年毫无疑问是另一个创新爆发的时代,是又一群人「见识-认知-行动」的新闭环。
一篇文章一些观点一个舞台,都是我们的一种行动,它能够在时间中印证极客公园自己认知的价值。从 2016 年开始,极客公园启动了更深层的「强化学习」——投资。
 

03

Founders Backing Founders:
构建创新的「新能源网络」
 
2017 年,我们正式成立了变量资本,成功募集了第一支基金。
做这件事情的思考,一方面是,如果仅将认知停留在文章或观点层面,错误的判断会被快速遗忘,正确的洞见也不过是一句谈资。只有要做真金白银的投资行动时,才会倒逼自己更加认真、极致地做深度思考,这会帮助我们更加求真,更加忠于极客公园自己的目标。
同时,我们也看到了中国创投生态里,一股正在崛起、成为增量的「新能源」——过去 20 年里不断积累的成功的科技创业者。
他们的能力、经验、认知和精神,是越积越厚的「新能源」。虽然他们日常也会做一些零零散散的个人投资,但我们将过去这种分散、隐蔽的能量汇聚起来,形成了一张支持创新的网络—— Founders Backing Founders ,助推新一代创业者做更了不起的创新。
所以我们所有 4 期基金主要的 LP 们,都是优秀的创业者。
Founders Backing Founders,不仅仅是一句口号。从 2016 年参与小鹏汽车的天使轮投资,到 2017 年在「具身智能」概念兴起前就投资了宇树科技。极客公园可以在前两只基金所投的 20 个项目中,就有 2 家是在今天对于世界、社会产生重大影响的公司,也用结果验证了这一机制的有效性,它是一种资源和认知的传递,更是一种创新精神的生生不息。
如今,我们的 AI 基金和硬件基金依然活跃,仅今年就投资了近 10 个项目。极客公园希望在创业的起点,成为你的「第一推动力」,做一直陪你前进的「创业云计算」。
 

04

极客公园能为你做些什么
 
因为天天和创业者在一起,我们特别清楚创业和创新不是一场思维游戏,不能只是坐而论道。创业是一个进程,其中有特别多要去执行的复杂的、细节的任务。
如果把创新当作攀登珠峰,那么极客公园就像一个「珠峰大本营」。它略有海拔,但很开放,欢迎所有人来参观、打卡、获得启发。
但如果你不只是想看风景,你决定要创业、亲自登山了,那么我们会向你推荐极客公园旗下 Founder Park 社区,它就是你的「前进营地」。
来到「前进营地」,意味着你不再只是向往,而是真正的攀登者。在这里,我们致力于为创业者「修路」、「搭桥」。
过去一年,Founder Park 做了不少很细节的事。
我们通过「产品市集」,帮很多产品在试验期或冷启动阶段,面向真实用户拿到具体反馈。
同时,我们也看到,面向全球市场的增长是今天创业者们的真实需求,我们通过「出海增长研坊」帮助超过 340 位创业者构建起全球化增长的认知。
此外,我们在今年和超过 60 位创业者做直播、做播客、做访谈,让创新被看见,让创业者的价值被识别,也助力集结优秀人才。一个有意思的发现是,许多创始人们反馈,这些深度的内容沉淀,让他们在后续见投资人时,每次都至少节约了 1 小时的「基础对齐」时间。时间是创业者最宝贵的资产,能帮大家提升效率、提高成功率、解决现实问题,护送大家走一段「夜路」,就是社区存在的意义。
这就是今天的极客公园,一个由内容、社区和早期投资构成的「创新者大本营」。这里有一个「极客公园使用指南」,相信在今天和未来,我们都有机会成为伙伴,在社区里相互助力。
 

05

寻找你独一无二的「Why」
 
无论是在极客公园每年的 IF 大会上,还是日常参与和创业者的交流里,大家往往急于搞清楚一个创业者在做 什么(What) ,以及 怎么做(How) 。但我提一个小建议,我觉得最根本、最值得追问的,其实是—— Why?他为什么要做这件事?
真正成功的创新,往往源于一个独特的「Why」。Why 的背后是一个人过去的积累、独特的认知凝结,还有 Ta 的热情所在。
真正成功的创新和创业,往往源于一个独特的「 核动力 」 ——它或源于某种深刻洞察,或源于某种超凡的能力,抑或就是来自于独特的审美选择?这个「Why」,决定一件事本身的「源代码」。
在这个 AI 重塑一切的时代,我们可能要不只关注技术、参数、产品,也去观察那些创新者背后的「Why」,这样才能有更好的判断和更大的收获。这将帮助你完成从「见识」到「认知」的关键跨越。
终有一天,你会找到那个与你血脉相连、与众不同的「Why」。那一刻,你心中会冒出一个无法遏制的声音—— 「Why not?」
那就是你该行动的时候了。
希望大家都能在极客公园参与到 AI 时代的进程中,最终找到属于你的「Why not」时刻。

具身智能的共识与非共识:地平线携手生态伙伴共话产业未来

2025年12月15日 11:01

作者|汤一涛

编辑| 郑玄

 

智能汽车作为机器人的第一个大终端。在大模型技术快速发展的当下,源自智能汽车的算法、算力技术正在被加速复用,催生出从单一任务到通用智能、从交通工具到机器人的宏大图景,推动着一场从「车」到「人」的智能化跃迁。

然而,具身智能的发展还面临多重现实挑战。从数据采集到模型训练,从硬件本体到场景落地,产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破,必需要构建多方共建的产业协作生态。

地平线作为机器人时代的智能计算平台,既是这场进化的见证者,更是深度参与者与赋能者。当前,地平线已成为中国最大的消费类机器人计算平台,旗下地瓜机器人上市产品超过 100 款,连接着超 100 家上下游合作伙伴与 10 万余名开发者。

在 12 月 9 日举行的 2025 地平线技术生态大会上,极客公园创始人张鹏与本末科技创始人兼 CEO 张笛、极佳视界创始人兼 CEO 黄冠、优必选研究院 A1 大模型与交互部负责人石海林、香港大学数据科学研究院助理教授李弘扬、地瓜机器人 CEO 王丛等嘉宾,进行了一场「名」人不说暗话的硬核圆桌,全景呈现了从芯片、算法、开发平台到机器人本体的全产业链创新,深度探讨具身智能的技术发展、商业落地,聚焦技术跨域赋能的生态潜力。

在这场对话中,你既能看到具身智能当下直面的痛点与挑战,也能捕捉到切实可行的落地场景;既有对前沿技术路线与商业逻辑的深度剖析,也有这一赛道未来的无限可能。

以下为圆桌对话实录,由极客公园整理。

 

01

形态之争:类人形态 VS 功能形态

 

张鹏:在产品形态上,具身智能应当追求「类人形态」的极致拟人,还是「功能形态」的极致效率?

张笛 :首先是本末我们自己一方面有一个直驱型的机器人关节的特色技术平台,另外一块是以轮足为特色的具身智能的机器人技术平台。

我们选择这个方向出发点跟刚才张鹏老师讲到的,我们作为技术型的创业者,对乐观和悲观我们到底应该怎么看,怎么样去建模?因为我个人包括我们整个团队其实一直是对未来持有无限乐观,但是对中短期的界限,会尽可能保持悲观的状态。硬科技有一个特点,别到最后创业未半中道崩卒,还没等实现自己的技术愿景,反而最后导致自己的经营上出现问题,所以我们本质上建模可能会倾向于用这种方式,去做公司未来技术路线的选择。

在这个路线下面,我们去看人形机器人和轮足这样的形貌,其实核心的差异点是在于我们对移动和操作这两个大问题上,我们到底选择什么样的解题思路,一种解题思路是纯仿生,另外一种是不单纯的仿生,不只仿生,我们倾向于第二个。从人形的角度来看,当然可能有很多人会说人形会有很多落地的场景,我们也从来不排斥这样的观点和看法,但是我觉得今天的主题也比较好,名人不说暗话,还是虚火过剩的,我还是觉得这个行业是很强的。

张鹏 既然说是「虚火」,那一定是当下存在某些难以解决的问题。你觉得核心瓶颈主要卡在哪里?

张笛 :我觉得问题是现在其实大家对这个行业的关注是够的,这是非常好的一件事儿。因为任何一个行业都需要有一定的 show off 的能力,让大家有足够的传播点,但是问题在大家只关注到了其中的一方面,大家只关注机器人这个大品类当中类人形的一方面,这件事情是不够健康的。

其实机器人这个品类有非常多可以选择的余地,甚至说仿生、拟人都只是一个可以选择的方向,这个行业有无限的可能,这就是为什么我们说对未来无限乐观,但是对现在却保持相对审慎的态度,我们觉得机器人这个赛道可以走伴生的模式非常多,但是现在似乎有太多狭隘,把所有的精力和资源投在一个角度上,这就是我们倾向于未来在双足和轮足上面,我们会朝着非拟人、非仿生这个方向探索的一个主要原因。

张鹏 所以你认为超人的场景比拟人的场景会更多,或者说在有些场景超人是比拟人有更好的解法的,可以这么理解吗?

张笛 :可以这么理解,而且我觉得最主要的是,拟人作为一个大行业的入场券,没有任何的设计参照,开始想尽办法去开启一个行业,这个起始点非常好。

但是随着一个行业的向下发展,总会发现,其实垫脚石下一步踩在哪?英雄老路未必是最优解,我们有非常多的思路告诉你,机器人是新物种,可以完全设计一个新的产品,这个对整个行业来讲是最健康,最有诱惑力,对我们年轻的人来讲也是最有挑战的方向。

张鹏:优必选坚定走人形机器人方向,背后有怎样的判断和考量?在你们看来,哪些场景是只有人形才能满足的不可替代需求?

石海林 :这个问题,我们优必选作为人形机器人的先行者以及行业龙头,我们会很务实去看人形机器人,包括双足轮式,都是属于人形机器人,回到这个问题,我觉得可以从两方面去看。第一个我们追根溯源,去看人类为什么是人形的。从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在 6 厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。

今天我们来看人形机器人,它去做到人形,其实更多的不是说我们一定要做到怎么样,而是说从自然最优化的结果拿到了一些结论,用在我们人形机器人的产品和形态上,这是第一点。

第二点,我觉得更多也是可以从产业的应用场景去看,就以优必选我们现在聚焦的工业场景(来说),人形机器人现在主要有三大应用场景,工业场景、商业场景以及家用陪伴场景。后两个商用场景和家用场景,因为还有一些交互和情感陪伴的需求,这些需求会更直接的去对人形外观、ID 设计甚至仿生人形有更高的要求,这些还是比较直接能得出的结论。从工业场景来看的话,为什么我们也要去看人形在这个场景里的优化,因为在工业场景,通过长期以来的应用,我们可以看到有大量的结构化任务,也有更大量的非结构化任务,这些非结构化的任务从需求出发,去要求产品和功能要具备更强的泛化能力。在我们在工厂看到,各类形形色色的机械臂各种捶打,但是只能做一些特定的死的任务,而且形态各异,动不动 4、5 米高,特别大。

但我们看到更多的任务,是比如说物流转运,里面包含了搬运、分拣的任务,还有上下料、精密装配,他们的场景很多是一些狭窄的通道,一些灵巧的柔性的操作,这些对机器人的操作更高,泛化能力也更强。比如这些操作、搬运、上下料,所以在这些场景需求的催生下,我们会往人形这个方向去看。

张鹏:还有一种观点认为,选择人形形态是因为它更利于数据迁移。例如,通过人类进行遥操作或动作捕捉来采集数据,能让算法在数据闭环中迭代得更高效。

你们在实际研发中,感知到了这种数据层面带来的效率优势了吗?

石海林 :对的,人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。

张鹏:目前有两种产品形态的发展路径,一种「通用底盘+功能模块」;另一种是直接开发一个全能一体化机器人。你们认为哪种技术路径更有可能实现大规模普及?

张笛 :其实本末科技在观察行业生态时有很多发现,因为我提到,我们公司是平台化的机器人供应商,我们是有关键技术去服务客户。在这个过程中我们发现整个具身智能大的方向可以分两类,按照张总讲的分类方法,但我们的叫法会叫成学院派和产业派,其实相差最主要的点,学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。这两个一个是自下而上,一个是自上而下,但是我们从统计上来看,产业派的速度和市场化的速度确实没那么快,假如大家认可,以底层的通用化平台加各种各样的功能模组逐渐去做通用这件事,是一条通向具身智能的道路的话,现在从商业化的角度,还是产业化会推动得更快一点。

石海林 :我完全认同张笛总的观点,在产业派这一块,我们自下而上从场景任务出发,构建海量的数据,以及基于算力的一些资源和优势,去快速把学术界从上而下的基座模型应用在具体各类场景中。而且这个周期我们认为是一个绝对的加速化的过程,因为我们看到,比如十几年前我们说做智能化,那个时候是做感知智能,如果我们比如以 AlexNe t 作为标志物,作为开端,到 2022 年,比如说那会儿 ViT 作为一个成熟标志的话,从发展到成熟感知智能花了十年时间。但是在感知智能的下一阶段,交互智能如果我们以 17 年 transformer 出现为开端,到它成熟期,比如说正好三年前 ChatGPT 发布作为一个成熟标志的话,这个过程从十年加速到了五年。那我们今天来看具身智能这一块,如果我们以 ALOHA 为代表,他打通了 Neural Network 在具身智能这一块的技术方案。所以我们可以把 2023 年作为起始点的话,假设我们也是以最保守 5 年来估计,从 23 年到 28 年,今天来算的话可能就三年,或者 18 个月,就已经进入到成熟期,这个周期是大大加快。

 

02

技术路线之争:

「先验模型」(Model-based)

VS「数据规模」(Data-driven)

 

张鹏:极佳科技从自动驾驶世界模型切入具身智能,目前世界模型在具身智能领域已经解决了什么问题?还有什么问题有待解决?

黄冠 :觉得这个问题提得特别好,像「世界模型」「空间智能」这些概念都备受关注。大家探讨其在内容创作、自动驾驶以及具身智能等领域的应用时,我想先讲讲我个人对世界模型对具身智能领域价值的一些看法。

我认为世界模型是物理 AGI 最后的瓶颈,并且它不是要 5 年、10 年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式 AI 的发展,这是我对整个世界模型大的看法。

更具体,世界模型对具身智能的价值是全方位的。其实我们讲一个具身模型,无非就是讲数据来源、学习范式,以及模型架构。世界模型在这三方面都有非常高的价值,首先数据来源,如果具身智能仅仅依赖真实机器和传统仿真这两种方式,可能会存在比较大的瓶颈。真机要采集到足够的数据极其困难,基于规则构建的传统仿真上限也比较受限。而世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。

第二个是在学习范式上,模仿学习很有价值但是远远不够,强化学习如果只是依赖真实环境去做,也是很低效的,包括大家现在看到 Pi0.6 star,虽然已经进步很大了,但仍然高度依赖真实环境;而世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被 action 驱动的,来预测未来环境变化的模型。

对,所以我们叫它是可以 Scale 的强化学习,这是它作为模拟器的第二点价值。第三点就是更本质了,叫做世界行动模型,可以替代 VLA,L 为什么会对 action 一定必须呢?我们过去做自动驾驶也没有语言,所以 VLA 依赖这个 L 问题是很大的,要真正实现智能,就得迈向世界行动模型,所以我认为这三个点的价值都会非常大。

目前行业进展上,在上面三个方面,无论是我们的一些工作,还是全球的包括像 Cosmos 很多一些工作,世界模型都已经开始大规模的产生价值了。这是我对世界模型和具身智能关系的理解。

张鹏:世界模型能够解决具身智能领域数据匮乏的问题,但世界模型也是模型,所需要的数据同样匮乏,极佳是如何解决这个死循环的?

黄冠 :这两个问题都问得非常好,我还是思考一下,我可能这样回答。我跟大家介绍一下,第一个是各个模型的关系,我们讲三个模型,语言模型、世界模型、行动模型。语言模型输出的是语言,世界模型输出的是对未来世界的预测,未来的世界可以用 video 去表示,可以用 3D 去表示,当然也可以把 physics 表示进去。第三个行动模型输出的是 action。所以这是三个非常不同的模型。

第二个,为什么语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和 physics,但实际上 3D 和 physics 都隐含在视频的隐空间里了。大家看互联网上的视频,比如一个水杯被扔出去,这其中就蕴含了非常丰富的物理规律。所以视频数据其实是一个非常好的构建世界基础模型(world foundation model)的素材来源,虽然它并不完备,但是一个非常好的基础。而我们最不缺的就是互联网上记录的海量的视频数据。所以,语言模型和世界模型能够更高效地利用丰富的语言和视频数据,进而作为行动模型的基础。

第三点,我最近也思考很多,为什么智驾和具身可能不太一样,在智驾里面,大家之前没有所谓的 VLA,没有世界模型,但也干得还不错。包括中午体验的地平线的一段式端到端,真的非常丝滑,为什么?因为智驾有大量数据,只要数据足够多,可以不依赖语言模型和世界模型,只需要场景的端到端驾驶数据就好。当然,最后加上 VLA 和世界模型,会让系统的推理能力更强,迭代更高效。但是具身模型你会发现,如果从头做一个 VA 的端到端模型,是基本不可能的,核心是因为具身领域太缺数据了,这会导致驾驶模型和具身模型非常不一样的发展路径。

张鹏:具身智能领域的模型训练会遵循 Scaling Law 吗?跟大语言模型的 Scaling Law 会有什么不一样?

李弘扬 :这个我尝试回答一下这个问题,这个问题还是问得非常前沿的,首先有个结论,具身智能领域一定会有 Scaling Law,到目前为止真正能算得上,做过 Scaling Law 实验的,这个世界上只有一家公司,就是 Generalist AI,前一阵的 Gen-0。其余包括 Physical intelligence(Pi),都没有很大规模的用 Scaling Law 的实验,都还谈不上 Scaling Law。所以你问的下一个问题,如果真有规模法则 (Scaling Law),它会和大语言模型的规模法则呈现怎样的情况呢?

其实大概率还是沿着一种幂律分布的,或者说是线性的,无论是指数级还是线性的增长的趋势,这里面我想说一下,因为 Gen-0 这个工作一周积累 30 个小时,300 万条数据(有效的轨迹),我们大概也换算了一条,如果两班倒的话,采集这个不同的 manipulation task,一班 8 个小时,16 个小时,其实有效的转化率是 4、5 个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要 Aloha 或者说主从臂这样的一套设备需要 500 套,很显然它不可能部署 500 套,所以肯定要走 UMI 等等这种低成本的路线。在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说 Scaling Law 这个事。

 

03

数据策略之争:

仿真/合成数据 VS 真机数据

 

张鹏:具身智能领域会有 ImageNet 时刻吗?什么时候收集真机数据的速度可以快速成长?

黄冠 :我觉得很可能不会有 ImageNet 时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。所以我认为具身领域可能不会存在 ImageNet 的时刻,而是会直接到 chatgpt 时刻。

并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了 10 万小时以上的真机数据。所以可能明年很关键,明年全球可能会有 5-10 家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近 GPT-3 时刻。所以其实我们对 ChatGPT 时刻也不用那么悲观,就像凯哥开场的时候讲的,可能具身三五年时间就进入家庭场景了。我们其实更乐观,因为这个行业很卷,只要大家意识到可以做,只要资源投入到位,就没有那么大瓶颈,无论是数据获取、模型架构,还是具身本体研发,只需要时间,需要投入。明年可能会接近 GPT-3 的时刻,两三年之内有机会到 ChatGPT 时刻。

李弘扬 :我没有那么乐观,跟黄总差不多,所以还是要遵循这个数据金字塔或者说 pyramid 的这种形式。互联网数据,即 ego-centric data,加上 simulation,加上遥操等等这些,互为补充吧。

 

04

场景之争:工业场景 VS 家庭场景

 

张鹏:机器人触达 C 端用户的路径应该是怎样的,要让机器人真正走进千家万户需要突破哪些关键节点?

张笛 :刚才大家提到两个观点,一个是学院派,一个是产业派,一个是一口吃成个胖子,把通用实现,另外一个是循序渐进做通用。我们自己的观察,现在走进千家万户的具身机器人已经非常多了,甚至是在几百万到上千万以上这个数量级。

我们可以举一些例子,什么叫循序渐进的走向通用。当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检的功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步,但有一天总会有一个时刻,大家会忽然惊讶的发现,原来我家里的小机器人能干的事情竟然越来越多,竟然变成这个样子,竟然解决的问题已经不再是我当时一开始觉得它的这个样子了,这是一个产品系列,这是它在怎么样去逐渐走向通用的过程。

而且同时,我们家用的小型清洁机器人厂商,一开始瞄准的是室内的场景,后续就会逐渐的希望我的机器人从室内走出去,可以从室内走上电梯里,可以走向自己家的草坪,可以走向街区。对于企业而言,要实现产品这样循序渐进地走向通用化,究竟该如何推进呢?这两个力量都可以让一个行业从一开始对一个功能性的产品,从一个简单的功能性的产品的期待,到逐步转变为对能带来更优质体验产品的期待。这样的循序渐进过程我觉得已经正在发生,而且如火如荼,甚至正在加速发生。

张鹏 听起来你的思路是先聚焦于单一场景下的有效履约,就像扫地机器人也做出了千万台的市场一样。基于一次次成功的服务履约,逐步叠加任务能力、演进产品形态,最终实现通用化。而不是希望一下出现一个「iPhone 时刻」。

张笛 :也不完全是这样,一定是量变带来质变,在逐渐的履约的过程,现在的量变还不能引起质变,还没到那个关键节点,没到那个 turning point,就像传统的功能机时代,先有 BP 机,再有大哥大,最后能发短信,有彩铃,同时有 PDA,最后有一个大屏做整体的汇总,同时又能上网,又能听音乐。现在我们处在前夜的状态。

张鹏:C 端最有可能跑出来并且有商业价值的场景会是什么?

王丛 :如果我们现在说具身能做很多东西的肯定是在家庭用户场景,但问题是都做不出来。张笛哥说的我很认同,真的做消费电子的这帮人都很务实,都一定是价格成本对应 PMF(市场匹配度)的价值,一定是找到它的一个很匹配的点,这个东西才有可能在 C 端跑出来。C 端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以 C 端消费电子产品的功能一定是一点点积累的,其实 Iphone 也是功能积累起来的。

iPhone 如果大家看乔布斯的发布会,其实就是通讯、MP3 加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。但是其实在 Iphone 之前的诺基亚也有不同的软件,也叫智能机,其实我觉得消费电子一定还是回归到最本身的产品需求,一点点叠功能发展出来,所以包括我们国内很多客户,就像扫地机最初只是负责平面的清洁,这件事情它的价格空间就已经被定死了,因为它就是地面的清洁,就算把扫地机器人扫到 90 分、95 分、100 分,它的价格永远是那样,除非它变成一个空间清洁,但即便如此价格空间也有限,因为请个阿姨也就 40、50 块钱一小时,家庭清洁就三个小时家里都打扫一遍,其实它的价格也定死了,一定要找到那个关键增长点才能爆发。

张鹏:从情绪价值这个角度来看,具身智能有机会进入家庭吗?

王丛 :情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。陪伴什么?我觉得这不是一个以场景定义产品的思路,真正好的产品定义,应该是当我想到某一个特定场景时,就能立刻联想到对应的产品;同时,当我看到某个产品时,也能马上明确它要解决的是哪个具体场景的问题。所以大家看很多产品不能推广,或者做的 idea 很好,但是卖不出去,虽然我觉得情绪机器人是个好东西,但是它一定要对应到不同细分的场景当中,大家才能进一步去谈这个问题。

 

05

生态模式之争:生态开放 VS 全栈自研

 

张鹏:目前的头部玩家很多都选择全栈自研,地瓜机器人为什么选择了「生态开放」路线?

王丛 :我觉得这个选择既有感性的一面,也有理性的一面。先说说感性的:任何一家公司做事情,创始人、CEO 都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面,也是能让我们真正开心的事——这是感性层面的原因。

我觉得机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解「用几十万的人形机器人来扫地」这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。机器人这件事情就是它很非标,它的场景很碎,它并不是一个寡头垄断的市场,那我觉得这个时代是需要有一家公司去把底层的一些东西给做好,才能真的加速这个时代的到来。虽然说这是我们的立场,但我觉得未来机器人公司有很多自研的,有很多会选择拥抱像地瓜这样的供应商,有很多公司会自研,这个太正常了。历史这么多年,每个行业都会有这样的分化:全栈自研的公司,比如苹果,是非常伟大的公司;拥抱生态开放的公司,比如英伟达,也是非常伟大的公司。所以世界是多元的,两种路线都对,只是我们感性上的追求,让我们选择了生态开放这一端。

张鹏:李老师前一阵联合智元开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World,开源数据集会给行业带来哪些价值?

李弘扬 :感谢,首先要严谨说明,「全球首个」是智元的宣传表述,学术上还是要谨慎,毕竟说「the very first」很容易被人攻击。其实最开始 2023 年我就和姚卯青合计这个事,2024 年的时候智元还处在比较早期的阶段,但他能有这样的雄心壮志——在上海张江有 2000 平的数采场,而不是在大学实验室的简单的 pick-and-place,这一点才是最打动我的。后来才有了现在这样的体量,包括我前两天去那个数采厂,都已经需要访客门禁了,能看出来规模确实起来了。

这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘,这样的模式能不能复制?毕竟像 agibot world 这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。

 

06

人际关系之争:亲密共生 VS 警惕控制

 

张鹏:不同人群对人机亲密程度的需求差异显著,是否会催生功能型机器人与陪伴型机器人的细分赛道?「情绪价值」是否可以如何翻译成可落地的产品定义语言?

张笛 :其实我觉得我的综合判断跟王丛哥讲得比较类似,情绪价值这个事情怎么定义产品,其实是非常非常需要去仔细斟酌的一个方向,纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品,这是我觉得最合理,也是最容易去取得一些市场进展的方式和方法。

这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场,也能形成一个未来有机会逐渐走向通用的这样的 minimal available product(英),这些市场包括我们现在能看到方兴未艾的一些小型的、甚至不能移动的对话终端——如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常 fancy 的机器人算法,那这类对话终端其实就属于「不接触物理世界、仅依赖 NLP 算法」的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个 minimal availbable product,这是一个方向。

另外,在能运动的机器人品类里面,我们也发现现在非常多小型的桌搭产品,开始逐渐叠加越来越多的新功能和新范式,而且这些桌搭产品里,情绪价值往往高过实用功能。那这样的桌搭产品,甚至是纯玩具类型的产品里面,其实也有机会跑出商业化路径。既然已经它是有 MVP 的这样的一个 minimal available 的这样的一个小市场了,那其实依然有机会在通用化的道路上越走越远。

张鹏:机器人越来越像人,是提升用户体验的必要设计,还是会模糊人机边界?如何定义「适度亲密」的交互阈值?

石海林 :其实在这个层面我们确实做过深入的思考,关于这个问题我们有一个比较适合的思考切入角度——从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。

相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把「情感陪伴」收窄到仅仅是「交互对话」这个范围的话,它其实已经是一个成熟的技术了。所以这个东西怎么说呢?软件相对来说是一个更成熟的板块,当然我们今天说的交互,可能不仅仅是语言上的交互——它给人提供情绪价值,可能是因为颜值足够讨喜;比如我今天回家很累了,我的机器人帮我打扫完房间、收拾好碗筷,这个过程本身也能给我提供情绪价值;再比如它能跟我顺畅互动、回应我的需求,同样能提供情绪价值。

我们回头看,面向情感陪伴的具身智能技术发展这么快,它势必会推动产品和功能的成熟化,也会推动整个市场化的成熟,这个趋势其实不太以人的意志为转移,它是一个技术驱动的必然结果。那我们今天来看,我本人属于那种技术狂热者,我会主动去买悟空机器人这种陪伴型产品。其实不只是我,陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志为转移。

所以从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。

特斯拉启动 Robotaixi 测试;ChatGPT 成人模式最快明年一季度上线;DRAM 紧缺至 2028 年 | 极客早知道

2025年12月15日 08:39

无安全员、无乘员,特斯拉在奥斯汀启动 Robotaxi 无人驾驶测试

12 月 15 日消息,特斯拉首席执行官埃隆・马斯克(Elon Musk)于周日证实,公司已在得克萨斯州奥斯汀启动无人驾驶 Robotaxi 路测,测试车辆内未配备任何乘员。两辆特斯拉 Model Y Robotaxi 被目击在奥斯汀公共道路上行驶,车内空无一人。

马斯克上周确认,「将在未来三周内从车辆中移除安全监督员」。自今年 6 月 Robotaxi 车队正式推出以来,特斯拉一直致力于在年底前实现完全无人驾驶的载客服务。

目击者拍到两辆 Robotaxi。第一辆车从侧面清晰可见,Model Y 驾驶舱内没有任何人员。不久之后,另一辆同色但经确认为不同车辆的 Robotaxi 也被发现。

然而,自今年夏季 Robotaxi 项目启动以来,其核心目标始终是移除安全监督员,并实现完全无人驾驶的载客运营。如今,这一目标已接近成为现实,公司的努力正逐步取得成果。(消息来源:IT 之家)

ChatGPT 成人模式最快明年一季度上线!正测试年龄验证

12 月 14 日消息,OpenAI 的 CEO Sam Altman 此前多次暗示 ChatGPT 将开放成人内容,如今,相关功能的推出时间表变得更加清晰。

OpenAI应用主管 Fidji Simo 在近日一场关于 GPT-5.2 模型的简报中透露,她预计ChatGPT的「成人模式」将在 2026 年第一季度推出。

Simo 强调,在正式引入这项新功能之前,OpenAI 的首要任务是确保年龄预测的准确性,目前,OpenAI 正处于年龄预测模式的早期测试阶段。

该模式旨在自动识别用户是否为 18 岁以下,以便对青少年用户启动特定的安全防护和内容限制。

Simo 提到,测试已在部分国家展开,用于评估其识别青少年的能力,同时确保避免「误判成年人」,这是推出成人相关功能前必须解决的关键问题。(消息来源:快科技)

 

防止 AI 人才外流,OpenAI 调整薪酬政策

12 月 14 日,据《华尔街日报》报道,OpenAI 在刚刚过去的一周告诉员工,该公司将取消一项薪酬政策。该政策规定员工在公司工作至少六个月后才能获得股权归属。

这六个月就是所谓的「归属悬崖」。如果 OpenAI 员工在六个月内离职,任何股票都拿不到。

据知情人士透露,OpenAI 应用主管菲吉・西莫 (Fidji Simo) 宣布了对于「归属悬崖」的调整,旨在鼓励新员工大胆冒险,而不必担心在获得第一批股权之前被解雇。今年 4 月,OpenAI 将新员工的股权归属期限从行业标准的一年缩短至六个月。

知情人士称,今年夏末,OpenAI 对手、埃隆・马斯克 (Elon Musk) 旗下 xAI 已做出了类似的调整。(消息来源:凤凰科技)

 

对标豆包!微信输入法 iOS 版 3.0 开启内测:支持方言语音输入

12 月 15 日消息,微信输入法上线之后,得益于无广告、界面简洁、支持 PC 联动等特点,获得了非常好的口碑,是微信团队少有的好评产品。

值得注意的是,最近豆包输入法也正式上线,给微信团队也带来了一些压力,火速开启了下一个大版本。

目前 iOS 微信输入法已经开启了 3.0 大版本内测,主要是升级了语音输入体验,这正是豆包输入法的特色功能。

根据参与测试的用户反馈,新版本语音识别确实非常准确,甚至连标点符号都会自动标注好。(消息来源:快科技)

2025 年,科技大厂就业市场崩溃的一年

12 月 14 日消息,《商业内幕》(Business Insider)在年末推出了一篇颇具总结意味的文章,回顾「大科技就业市场崩溃的一年」。这不仅是一篇行业观察,更像是一份来自一线的年度「体感报告」:它通过大量真实个案,呈现出科技寒冬如何具体地落在一个个普通人身上。

Indeed 的数据显示,在疫情时期招聘狂潮后,科技岗位发布数量于 2022 年达到峰值,如今已比 2020 年初下降了 33%。剩余岗位的招聘周期明显拉长。在经济不确定性和人工智能初期应用影响下,美国企业的招聘速度已降至 2013 年以来的最低水平之一。

根据职业转型机构 Challenger 的数据,截至 11 月,美国科技公司已宣布约 15.4 万人被裁,较去年增长 17%,是所有私营行业中裁员人数最多的。亚马逊、微软、Meta、Google(Google)和特斯拉(Tesla)等科技巨头,近年来都宣布裁员至少 1 万人。

在 2025 年的科技就业市场中,一些求职者认为,只有接近「完美人选」才能成功。正如汗所说:「感觉招聘方是在找超人。」(消息来源:茶饮消息)

全球首例!深圳地铁上线智能导盲犬服务:集成大模型 精准导航

12 月 14 日消息,据央视新闻报道,日前,深圳地铁在黄木岗交通枢纽试点启用智能导盲犬「小蒜」,为视障人士提供科技出行解决方案,这在全球轨道交通行业尚属首例。

据了解,智能导盲犬集成多模态 3D 体素神经网络复合传感技术、室内外一体化规控技术及视觉语言大模型。

视障乘客通过口头指令,即可激活其路径规划、精准导航、智能避障、盲道循迹、语音互动与视觉识别等核心功能,全程引导乘客自主抵达目标服务点。

目前,深圳地铁已在黄木岗交通枢纽 13 口、14 口旁的无障碍垂直电梯处设置智能导盲犬服务点,设备均通过安全专项测试与实地检验。

据介绍,首月试用期间将设置专人,配合视障乘客做好安全保障试点,成功后即可自动化投用,并在部分地铁站点进行专项推广。(消息来源:快科技)

SK 海力士警告:DRAM 供不应求局面预计持续至 2028 年

12 月 14 日消息,据科技媒体 Wccftech 昨天报道,主流 PC 市场正为内存供需长期失衡做准备,SK 海力士的内部会议显示,大宗 DRAM 产能增长将变得十分有限,难以追上不断攀升的需求,或进一步加剧内存涨价的局面。

根据消息人士 BullsLab 分享的会议 PPT,海力士预测,除高带宽内存(HBM)和 SOCAMM 模块外大宗 DRAM 在 2028 年以前的增长都会受到限制,这主要是因为主流内存厂商已将重心转向 AI 相关需求,分配给消费级市场的产能没有特别明显增长。

另一页 PPT 中,SK 海力士称现有供应商的库存已被消耗至历史低位,进一步加剧分配压力,报告显示主流内存厂商都采取了相对保守的产能扩张策略,侧重于维持盈利能力,而非向市场投放大量的 DRAM 供给,服务器 DRAM 的需求几乎呈指数级增长,预计明年增速会更明显。

SK 海力士预计,2030 年,服务器内存在 DRAM 市场中的占比会从 38% 飙升至 53%,在 AI 热潮的鼓动下,各大云服务厂商都在大规模兴建 AI 数据中心,此前曾有部分传闻指出,有厂商已经提前售罄了 2026 年的关键 DRAM 产能,而传统 PC 使用的 DRAM 预计在未来几年内依旧供不应求。

Wccftech 认为,这份报告为消费级市场描绘了令人担忧的前景,2028 年结束之前,消费级 DRAM 的供需失衡恐怕很难缓解。(消息来源:IT 之家)

小米全家桶春节前发布 小米 17 Ultra、平板、耳机全都有

12 月 14 日消息,临近年底,小米一大波新品正在路上,种类丰富,可谓「小米全家桶」。

今日,数码博主「数码闲聊站」发文透露,新品包括第五代骁龙 8 至尊版影像旗舰、天玑 8 系芯片中端机、天玑 9 系芯片中端机、全智能手表、两副耳机,中端平板,还有一些 IoT 产品,确定在春节前登场。

其中,影像旗舰为小米 17 Ultra,有望在下周官宣,本月发布。

新机将首发全新徕卡 1 英寸主摄,传感器为国产豪威 OV50X,并配备 5000 万像素超广角、2 亿像素潜望长焦。

两款天玑手机分别是 REDMI Turbo 5 和 REDMI Turbo 5 Pro,前者将全球首发天玑 8500。

至于小米全智能手表,新品将搭载 Android/Xiaomi HyperOS 系统,内置 930mAh 电池,支持独立 eUICC 芯片的 eSIM 技术。(消息来源:快科技)

谷歌推出耳机实时翻译测试版:引入 Gemini 高级功能

12 月 14 日消息,TechCrunch 报道,谷歌推出一项测试版功能,让用户通过耳机实时收听翻译内容。

与此同时,公司还将 Gemini 高级模型集成至谷歌翻译,并进一步扩展了应用内的语言学习工具。

全新的实时耳机翻译功能能完整保留说话者的语气、重音和语调,帮助用户在对话中更好地把握节奏、区分不同讲话者。该功能本质上可将任何耳机变为实时单向翻译设备。

谷歌搜索垂直领域产品管理副总裁 Rose Yao 在博客中介绍:「无论您是想用其他语言交流、在国外听演讲或课程,还是观看外语影视内容,现在只需戴上耳机,打开翻译应用,点击『实时翻译』,即可实时听到用您所选语言翻译的内容。」

目前该测试功能已在美国、墨西哥和印度的安卓版谷歌翻译中上线,支持任意耳机及超过 70 种语言。谷歌计划于 2026 年将该功能扩展至 iOS 平台及更多地区。

此外,集成至翻译应用的 Gemini 高级功能可提供更智能、自然、准确的文本翻译,尤其在处理俚语、习语和地方表达等含义微妙的短语时,将有明显提升。

AI 作图+仅退款 正在围猎电商卖家

在江苏经营大闸蟹网店的高女士,她像往常一样按照订单给客户发去了 8 只螃蟹,没想到次日就收到了客户发来的「6 只死蟹」图片和视频,并成功获得 195 元退款。

经查,该顾客通过制作虚假视频,恶意申请退款实施诈骗,警方依法对其作出行政拘留 8 日的处罚,这也是全国首例因利用 AI 伪造视频骗取网购退款而被行政处罚的案件。(消息来源:螺旋实验室)

 

 

苹果 AI 眼镜深度爆料汇总:重量低至 40g,2026 发布

2025年12月14日 01:42

今年 Vision Pro M5 发售的时候,大家的新鲜劲儿维持了多久?

无论实际体验如何,作为目前「空间计算」领域硬件性能断档领先的存在,Vision Pro 系列还是用两代硬件产品,成功完成了苹果在 XR 领域秀肌肉的任务。

 

Apple Vision Pro 是目前业内算力最强的 XR 设备|图片来源:Apple

 

但同时也留下了一个显而易见的遗憾:它太重了,重到无法成为我们日常生活的一部分。只要一说起苹果的穿戴设备,人们依然更愿意戴上 AirPods,而不是把一台 iPad 绑在脸上。

就在最近,有关苹果可穿戴设备「下一章」的消息陆陆续续传出。不同于 Vision Pro 的厚重,这款被外界称为 Apple AI Glasses(或 Apple Glass)的新品,可能会彻底改变我们对「智能眼镜」的刻板印象。如果按照供应链和分析师的预测,我们最早可能在 2025 年底听到它的官方预告,并在 2026 年或 2027 年正式与大家见面。

近日,根据 9to5Mac 等多家外媒的报道,苹果内部代号为 Project Atlas 的项目已经悄然启动,这标志着苹果对智能眼镜赛道的探索已经从「构想」进入了「实证」阶段。

据知情人士透露,苹果此前开展了一项代号为「Atlas」的内部大规模用户研究,专门收集员工对现有智能眼镜(特别是 Meta Ray-Ban 系列)的反馈。这意味着苹果已经不再满足于实验室数据,而是开始真刀真枪地调研「如何让普通人愿意全天佩戴眼镜」这个问题。

这种内部调研在苹果的产品开发史上并不常见:通常,苹果只有在确认某个品类具有极高的战略价值,且竞争对手已经验证了部分市场需求时,才会进行如此显性的「竞品对标」测试。这说明了两件事:第一,苹果承认 Meta 在这一局上做对了某些事;第二,苹果准备用更优的体验来收割市场。

至于大家最关心的功能规格方面,根据  9to5mac 与供应链的前期泄露来看,目前有一点是可以确定的:第一代 Apple AI Glasses,大概率要走「无屏幕」路线了。

也有一种消息来源认为,苹果正在研发两个版本(包含高端的 AR 显示版),但近期流出的消息更多指向这款轻量级产品。

无论如何,相比 Vision Pro 那堆料到极致的显示屏,Apple Glasses 选择砍掉屏幕、专注于 AI 和音频的策略,都相当让人浮想联翩。

 

01

核心交互:AI + Siri + 摄像头?
 

目前,有不少渠道的信源都预测,Apple Glasses 的核心将是 AI + Siri + 摄像头 的组合。它不会像科幻电影那样在眼前投射全息影像,而是更像一个「长了眼睛的 AirPods」。

这就不得不提 iPhone 上已经亮相的视觉智能功能。这颗在手机上通过「相机控制按钮」触发的 AI 侧键,极有可能是为眼镜做的技术预演。未来的场景是:你只需要看向一家餐厅,眼镜上的摄像头捕捉画面,耳边的 Siri 就会告诉你这家店的评分、菜单甚至是是否需要排队。

 

iPhone 上目前基于 ChatGPT 实现的视觉智能交互 |图片来源:Apple

 

这种「指哪打哪」的视觉交互,比拿出手机、解锁、打开 App、扫描要直觉得多。它解决的是目前 AI 硬件最大的痛点:情境感知

与此同时,Apple Glasses 可能会引入更高级的定向扬声器系统,以补足在嘈杂户外环境中 Siri 交互的短板。现阶段关于音频的具体规格非常有限,有推测说苹果会采用类似 AirPods Pro 2 上的自适应音频技术,即在对话时自动降低环境音,在听音乐时提供空间音频。

但对于眼镜来说,漏音是最大的尴尬。苹果可能会利用其在声学算法上的积累(例如 HomePod 的波束成形技术),确保只有佩戴者能听到 Siri 的回复,而坐在你旁边的同事一无所知。

当然,考虑到眼镜镜腿空间的物理限制,Apple Glasses 塞入 M 系列芯片的可能性几乎为零,甚至 A 系列芯片的散热对于一副 40g 的眼镜来说也过于奢侈。因此,它大概率需要依赖 iPhone 进行算力通过,就像早期的 Apple Watch 那样。

 

轻盈重量是目前高端 AI 眼镜的共识之一|图片来源:Even Reality

 

这虽然牺牲了独立性,但换来的是极致的轻便和全天候的续航。对于用户来说,只要眼镜能撑过早 8 到晚 8,没人会在意算力是在眼镜上还是在口袋里的 iPhone 上。

如果说几年前做智能眼镜是「摸着石头过河」,那么现在苹果入场时,河里已经站着两个巨人:Meta 和 Google。

这两家的动作是如此重要,以至于在当下想要理解苹果 AI 眼镜,如果不分析这两家的动作,就无法理解 Apple Glasses 的定位。

在智能眼镜领域,Meta 无疑是目前最激进的玩家。扎克伯格押注的 Meta Ray-Ban 智能眼镜,已经成为了该品类第一个真正意义上的「爆款」,并且在 2025 也在激进地拓展产品版图。

 

在 Ray-Ban 系列的成功之上,Meta 也在 2025 迅速拓展产品阵容|图片来源:Meta

 

Meta Ray-Ban 的成功,在于它极度克制——它没有试图把手机塞进眼镜里,而是做好了一副「能拍照、能听歌、能问 AI」的墨镜。这种「AI 眼镜本身首先要是一款好看的眼镜」的产品思路,正是苹果目前正在借鉴的。

 

Meta 是目前业内毫无疑问最成熟的选手|图片来源:Meta

 

而在更遥远的未来,Meta 也计划最终将量产版的 「Orion」 的全息 AR 眼镜推向市场。Orion 被扎克伯格称为「世界上最先进的眼镜」,拥有真正的全息显示和神经肌电手环交互。然而,目前原型机阶段的 Orion 成本高达一万美元,更像是一个技术图腾,即使是 Meta 也不得不先发布大幅缩水版本的 Meta Ray-Ban Display 来稳定用户。

 

Meta Orion 原型机|图片来源:Meta

 

相比之下,苹果的策略也不得不更加务实一些:Apple AI Glasses 并不是要对标 Orion,而是要狙击 Meta Ray-Ban。苹果的算盘是:在 Orion 这种真正的 AR 眼镜成本降下来之前(可能还需要 5-10 年),用「AI 眼镜」先占领用户的心智和鼻梁。

另一边,Google 也没有闲着。虽然当年的 Google Glass 惨遭滑铁卢,但 Google 在今年的 I/O 大会上展示的 Project Astra,再次证明了他们在多模态 AI 领域的实力。

 

Android XR 生态|图片来源:Google

 

Project Astra 演示了 AI 如何通过摄像头实时识别物体、回忆遗落物品的位置、甚至解决代码问题。这与苹果的 Visual Intelligence 异曲同工。

不同的是,Google 目前似乎更倾向于通过打造大一统的「Android XR」平台,拉拢三星、XREAL 等硬件厂商一起做眼镜,而不是自己死磕硬件。

 

Android XR 生态定位对标 visionOS,依靠大一统生态来覆盖所有硬件形态产品|图片来源:Google

 

苹果的优势在哪里? 面对 Meta 的先发优势和 Google 的数据优势,苹果的护城河依然是生态整合

当前 AI 眼镜产品形态,普遍选择在脸上戴摄像头,用户对隐私的敏感度极高。相比以广告为生的 Meta 和 Google,苹果「隐私至上」的品牌形象是让普通用户敢于佩戴摄像头的关键。

此外,生态联动体验也是苹果一贯以来常见的降维打击手段:想象一下,眼镜识别到的电话号码直接在 iPhone 上拨出,眼镜听到的会议纪要直接同步到 Mac 的备忘录,或者通过眼镜寻找丢失的 AirTag。这种无缝的连续性,是单一硬件厂商无法复制的。

 

02

如何让眼镜看起来「不蠢」?
 

Apple Glasses 在外形设计上也有一些更新,其中最主要的就是重量控制。根据彭博社 Mark Gurman 和 9to5Mac 的综合爆料,苹果的目标是将重量控制在普通眼镜的范围内(约 30g-50g)。

这是一个什么概念?普通的近视眼镜大约 20-30g,Meta Ray-Ban 约为 49g。

如果苹果能做到 40g 左右,用户几乎可以无感佩戴。也就是说,相比 Vision Pro 那 600 多克的重量,Apple Glasses 将会是一次「暴瘦」,这将直接决定它能否成为用户的全天候设备。

 

类似重量的产品目前市面上仍然较为少见|图片来源:Even Reality G2

 

此外,为了照顾庞大的近视群体,苹果据传正在与光学巨头(如蔡司,此前已有 Vision Pro 的合作基础)合作,开发可快速更换的磁吸或卡扣式处方镜片,确保这不只是科技发烧友的玩具,而是能真正替代你鼻梁上那副旧眼镜的工具。

 

苹果在 Vision Pro 上已经有与蔡司合作的经验|图片来源:极客公园

 

截至目前,我们能够获取的有关 Apple Glasses 的、具有参考价值的泄露信息虽然碎片化,但拼图正在迅速拼凑完整:如果参考苹果过往新品的开发周期,仅从目前这种「内部调研」的阶段来看,Apple Glasses 大概率是不会在 2025 年上半年发布的,更有可能的结果是 2026 年甚至 2027 年 才会和大家见面。

那么关于苹果 AI 眼镜,我们在 2026 年最有盼头的东西是什么呢?其实是 iOS27/visionOS27 和 AI 版本的 Siri 完全体进化。硬件的发布往往滞后于软件的铺垫。除了继续沿用 visionOS 之外,明年 WWDC 上 Siri 的表现,将直接决定未来这副眼镜的智商上限。

毕竟,如果 Siri 还是那个只能定闹钟的语音助手,那么这副眼镜就真的只能是个「蓝牙耳机」了。

 

03

价格预测,499 更合适?
 

目前,业界普遍认为 Apple Glasses 的定价会远低于 Vision Pro,可能对标 Meta Ray-Ban 的 299 美元价位段,或者略高一些,卡在 499 美元(约合人民币 3500 元) 左右。

对于一款没有昂贵的 Micro-OLED 屏幕,成本主要集中在芯片、传感器和精密的 AI 眼镜形态产品来讲。这个价格虽然比普通眼镜贵,但已经属于「甜点级」定价。作为参考,竞争对手 Meta Ray-Ban 的起售价为 299 美元(约合人民币 2100 元)

总之,相比 Vision Pro 那种「把电脑戴在头上」的激进,Apple AI Glasses 这个泄露方向才更像是一款库克时代的「One More Thing」——它不追求参数的暴力堆砌,而是试图通过 AI 润物细无声地融入生活。

 

Apple Vision Pro |图片来源:Apple

 

我们大概率要等到明年甚至后年,才能看到苹果再次重新定义一个品类。毕竟在这个智能手机硬件创新边际效应递减的时候,小型化的、基于视觉大模型的随身 AI 设备依然有着无限的潜力。

当 Meta 在展示未来的全息梦,Google 在构建通用的 AI 大脑时,苹果似乎选择了一条最务实的路: 先做一副你能戴得出去的眼镜,再给它装上智慧。

而这,或许才是取代 iPhone 的第一步。

摩尔线程回应「75亿理财」:符合公司股东利益;OpenAI卖「周边」,上线秒空;宇树发「机器人App Store」

2025年12月14日 08:27

摩尔线程回应「拟用 75 亿元闲置募资现金理财」:符合公司及全体股东利益

12 月 12 日晚间,摩尔线程智能科技(北京)股份有限公司发布公告,计划使用不超过 75 亿元的部分闲置募集资金进行现金管理。

作为「国产 GPU 第一股」在科创板上市的摩尔线程,扣除发行费用后,首次公开发行人民币普通股实际募集资金净额 75.76 亿元。这意味着,此次摩尔线程拟用于现金管理的资金,最高额度占到了上市募集资金净额的 99%。

在未扣除发行费用时,摩尔线程首次公开发行人民币普通股募集资金总额为 80 亿元。这笔资金原本规划分配至 3 个研发项目,并用于补充流动资金。

然而目前,原本拟投入研发项目和补充流动资金的募集资金,大部分被摩尔线程认定为闲置募集资金,且其中多数可能被用于现金管理。

公告发布后,迅速引发外界热议,舆论集中在「摩尔线程拟用不超 75 亿元买理财」这一话题上。

对此,摩尔线程相关负责人表示,「公司前期明确披露了募集资金的项目计划,所募 75 亿资金有分阶段、明确的研发、技术升级等一系列使用安排,也将严格按照既定募投项目计划的推进。项目实施周期为三年,资金支出将根据项目进度分阶段拨付。因为项目是分阶段投入,当前公司拟对部分尚未暂时闲置的募集资金进行现金管理,以合理提高资金收益,符合公司及全体股东的利益。」(来源:快科技)

宇树首发人形机器人 App Store:复杂动作直接下载,对优秀开发者提供奖励

宇树科技昨日发布视频,宣布首发人形机器人「App Store」。用户可以将训练好的舞蹈、武术、干活等模型一键上传分享,也可以下载其他开发者开发的动作部署到机器人。

同时,宇树还表示「欢迎全球用户和开发者,一起共同开发和分享。对于优秀开发者,会有奖励。」

根据宇树科技官方介绍,其 App Store 内包含用户广场、动作库等内容,用户可以在其中自行下载各项动作和预设,一键 get 复杂操作。

宇树科技表示,未来随着官方的开发,以及其他开发者、用户的分享,将会建立一个庞大的数据库,普通用户可以体验到的内容也能越来越丰富。而且通过移动端 App 就能操作安装,非常便捷。(来源:IT 之家)

 

甲骨文退出自研 AI 芯片赛道,董事长埃里森阐述背后原因

科技媒体 CRN 于 12 月 11 日发布博文,报道称甲骨文(Oracle)董事长拉里・埃里森(Larry Ellison)宣布,公司已出售其持有的芯片设计公司 Ampere Computing 的股份,并从中获利约 27 亿美元(现汇率约合 190.73 亿元人民币)(税前)。

日本投资巨头软银集团(SoftBank Group)于上月斥资 65 亿美元全现金收购了芯片设计公司 Ampere Computing。作为 Ampere 的早期支持者,Oracle 在此次交易中出售了其持有的约 29% 股份,并因此获得了约 27 亿美元的税前收益。

这笔交易不仅让软银在 AI 基础设施领域(如美国的 Stargate 项目)获得了关键筹码,也标志着 Oracle 正式结束了其在通用服务器芯片设计领域的直接投资。

在财报电话会议上,埃里森阐述了出售理由。他明确表示,公司不再认为在云数据中心设计、制造和使用自研芯片具有战略价值。

作为替代,Oracle 承诺实施「芯片中立」(Chip Neutrality)政策。Ellison 强调,为了在未来几年应对 AI 技术的剧烈变化,Oracle 必须保持敏捷,虽然公司将继续大规模采购英伟达的 GPU,但也需要具备部署客户所需的任何类型芯片的能力,而不是被绑定在自研架构上。(来源:IT 之家)

 

马斯克 xAI 与萨尔瓦多政府达成合作,Grok 未来两年进入 5000 余所公立学校

当地时间 12 月 10 日,马斯克旗下 xAI 宣布与萨尔瓦多政府达成合作,将在全国范围内推广聊天机器人 Grok,覆盖 100 多万名学生。根据规划,未来两年 Grok 将进入 5000 多所公立学校,成为 AI 教育项目的重要组成部分。

据英国《卫报》报道,萨尔瓦多总统纳伊布・布克尔选择让 Grok 参与全国课堂课程设计。这名总统以积极推动技术应用著称,不仅推动比特币成为法定货币,也率先将 X 作为政治沟通平台。他更是表示,「萨尔瓦多不是等待未来发生,而是主动创造未来。这项合作将带来超乎寻常的成果。」

据悉,xAI 并非首个进入公立学校体系的 AI 企业。OpenAI 已在今年 2 月与爱沙尼亚合作,为全国中学师生提供定制版 ChatGPT。另外,哥伦比亚农村学生自 2023 年开始使用 Meta 公司的 AI 聊天机器人,结果一年后,当地教师却将成绩下滑和挂科归因于这项技术。(来源:IT 之家)

特斯拉 Model S 被发现搭载激光雷达测试,有望加入 Robotaxi 车队

近日在加州,有目击者发现特斯拉 Model S 车型搭载激光雷达(LiDAR)设备正在进行验证测试。

目前,特斯拉将其 Model Y 用于 Robotaxi 自动驾驶出租车车队。Model Y 尺寸适中,是特斯拉产品线中最畅销的车型,适用于多种应用场景。

然而,测试似乎已扩展至特斯拉旗下一款高端旗舰车型。目击到的 Model S 车辆配备了此前仅见于 Model Y 的全套验证测试设备。尽管此前已多次在美国各地发现 Robotaxi 测试「骡车」(mules),但 Model S 的加入尚属首次。

特斯拉选择少量 Model S 参与测试显然有其深意,这或许暗示着,特斯拉未来可能在其 Robotaxi 平台中引入更高端、更豪华的车型。不妨参考现有出行平台的做法:Uber 有 Uber Black,Lyft 也有 Lyft Black,这些服务通过豪华车型搭配更个性化的出行体验,从而收取更高费用。

特斯拉很可能正在试水这一细分市场,并考虑将 Model S 纳入其网约车车队。(来源:IT 之家)

 

Anthropic 首席科学家卡普兰:AI 可能会在「失控」中不断增强,最终反过来支配人类

据外媒 Futurism 报道,Anthropic 首席科学家贾里德・卡普兰警告,人类正站在一个与 AI 相关的重大分岔口。

卡普兰认为,决定权暂时仍在人类手中,但窗口期正在迅速缩小。他在接受《卫报》采访时表示,最迟到 2030 年,甚至可能在 2027 年,人类就必须决定是否让 AI 模型完全自行训练,并承担由此带来的「终极风险」。一旦触发所谓的「智能爆炸」,AI 可能进化为通用人工智能,在科学和医学等领域为人类带来巨大收益,也可能在失控中不断增强,最终反过来支配人类。

卡普兰直言,这是一条充满不确定性的道路,人类并不知道终点在哪里。(来源:IT 之家)

 

国家出手管控卖车标价与交付时间!比亚迪、北汽率先响应

12 月 13 日消息,近日,国家市场监督管理总局就《汽车行业价格行为合规指南(征求意见稿)》(下称「意见稿」)公开征求意见,提出两大核心要求:明码标价规则、交付时间明确告知。

此外,还提到价格欺诈禁止、促销行为规范、服务收费规范、「付费解锁」功能规定以及汽车生产企业价格行为规范。

《意见稿》发布后,北汽、比亚迪率先响应。

北汽表示:北汽集团作为国有汽车骨干企业,对此表示坚决支持并积极响应。

比亚迪汽车表示:比亚迪坚持长期主义,我们将以《指南》为指引,持续优化自身的价格管理和合规体系建设。(来源:快科技)

国产 3A《影之刃零》定档 2026 年 9 月 9 日,游戏制作人梁其伟发文致谢

12 月 13 日消息,国产单机 3A 游戏《影之刃零》在 TGA 2025 颁奖典礼上公布了最新宣传视频,同时宣布将于 2026 年 9 月 9 日发售。对此,该游戏的制作人梁其伟发文致谢。

梁其伟透露,TGA 颁奖典礼结束后,《影之刃零》团队收获了许多同行祝贺和祝福。这只是一个开始,中国游戏一定会更好,一定会变成每年都有大作在全场引起沸腾。中国市场是世界上最大的游戏市场,而中国也必将产生与市场规模匹配的创作规模。

梁其伟在表示感谢的同时,回顾游戏过往的预告片与实机试玩经历,强调游戏还是要以完整扎实的体验呈现给玩家最为重要,后续游戏团队将聚焦数值循环、剧情悬念等细节打磨,推进研发。

文中还透露了游戏的主角魂与女主角沐小葵,均启用了全新的写实脸模,片中婴儿造型由三位小朋友联袂演出。而面对玩家们对游戏剧情的种种猜想,梁其伟表示很喜欢其中关于「时空旅行」「无限循环」的猜测。

他最后表示,事实上,定档对我们来说也是一段最艰难的旅途的开始。行百里者半九十,我们希望在最后的几个月中,能够交上一份不令大家失望的答卷。我已经预想到接下来的内容制作,打磨和优化方面的艰苦工作,我们团队会把这趟旅途奋力走到终点。(来源:IT 之家)

 

机器学习团队打造出全球最大的三维建筑地图

德国科研团队近日发布了名为「GlobalBuildingAtlas(全球建筑图谱)」的全新数据集,构建出迄今为止最为详尽的全球三维建筑地图,覆盖了地球表面约 97% 的建筑物,总量超过 27.5 亿栋,以细小的三维多边形形式呈现人类建成环境的空间分布。

该成果被视为在城市规划、气候研究以及人类发展监测等领域的一项重要基础设施,有望长期用于追踪全球城市化进程与居住条件变化。

这一项目由慕尼黑工业大学的朱晓香(Xiaoxiang Zhu)领衔的团队开展,依托高分辨率卫星影像、深度学习算法以及用于推算建筑高度的激光扫描技术构建数据集。

研究人员首先选取了来自欧洲、北美和大洋洲 168 座城市的资料作为参考,对算法进行训练,随后向系统输入约 80 万张拍摄于 2019 年的卫星图像,要求模型自动预测每一栋建筑的高度、体积与占地面积。GlobalBuildingAtlas 的空间分辨率达到 3 米×3 米,并被设计为可定期更新,从而形成一个动态演进的全球建筑数据库。(来源:cnBeta)

OpenAI 开始「卖周边」:帽子、T 恤、Sora 主题收藏卡……

OpenAI 成立 10 周年之际,ChatGPT 正式「走进现实世界」,一系列实体周边商品正式上线。

12 月 12 日,OpenAI 在 X 平台宣布「OpenAI Supply Co.」商店正式开张。该商店原本类似内部员工专区,需要公司邮箱登录,多数商品也是早期设计存档。目前,已有部分商品向普通用户开放购买。

该网站在 2024 年 7 月仍标注为「即将上线」状态,而此次是首次面向员工以外的用户开门迎客。消息一出,OpenAI 粉丝迅速涌入,OpenAI 宣告所有产品已经售罄。

据悉,整个商店的核心主题围绕 AGI 展开。目前,AGI 正被视为 AI 终极目标的里程碑,是多家公司激烈争夺的心头好。(来源:IT 之家)

 

深聊豆包手机:该关注这场「技术核试验」的什么?

2025年12月12日 17:34

​最近,字节跳动和中兴努比亚合作的「豆包手机」成了科技圈最热、最出圈的话题,甚至引发了社会层面的热议。一时间,关于「封杀」、「反制」的讨论甚嚣尘上。大家都在吃瓜,看大厂之间的攻防战。

如果我们把目光只停留在「谁封了谁」这种问题,就会错过重点。真正的重点,应该是如何看清和手机做了深度整合的豆包手机助手的技术创新到底是什么?以及就算字节这次看似只是扔了个「炮仗」,但它可能引发的「蝴蝶效应」该如何推导?

以下是我的一些信息梳理和推理思考,和大家一起探讨。

01 热闹之下,真刀真枪的技术如何?

我们不妨先放下巨头冲突的喧嚣,先从技术的视角,拆解一下「豆包手机」的技术,看看它只是简单的「外挂」,还是真正的系统级创新?

通过手机圈内的专家(@ZEALER @ 老戴Donald)对数据的抓包和系统日志的观测,可以发现豆包的技术实现路径,非常「硬核」,绝对是目前看到的第一个具有强泛化能力的 GUI Agent(图形用户界面智能体)。

豆包手机有一个「独立的大脑」。从内存占用上观测,其 Native 堆(大概率是 C 或 C++ 语言编写,直接运行在 CPU 上,跑在安卓虚拟机之外)大小达到了 160MB,这部分是直接连 CPU 的;而跑在安卓虚拟机上的 Java 堆(Dalvik)只有 6MB。这意味着豆包手机里推测是有一个本地推理框架,拥有极高的系统权限和执行效率。它不是一个简单的 APP 外壳,而是把 AI 模型的一部分能力直接埋进了系统底层。

同时,从进程占用和数据包的角度推测,豆包手机拥有一双「独立的眼睛」。它读取屏幕的方式,拿的是非常底层的 GPU 的渲染缓冲区,而不是传统的截屏路径。可以理解为手机里实际上运行着一块虚拟的专属 AI 屏幕,这块屏幕分辨率和人眼看到的一样,锁定 60 帧,亮度为零的无头屏幕(人眼不可见),永远处于「解锁」和「受信任」状态。更重要的是,这块虚拟屏幕和人看的物理屏幕焦点可以分离,不需要抢你的操控,也不需要一直占着你的屏幕。也就是说,你可以在手机上刷着短视频,而 AI 可以在后台的那块虚拟屏幕上帮你去订票、去比价。实现人机互不干扰,真正的「双核」操作。

再看豆包手机是怎么「动手」的?它没有走常规的安卓无障碍路径,而是直接向虚拟屏幕注入事件。这是一种系统级的特权,只有和手机厂商深度合作才能做到。这也是为什么字节必须找中兴合作,因为只有拿到系统底层的权限,才能突破安卓的围墙。

豆包手机是真正的「云端协同」。圈内技术大神通过日志分析,看到当豆包手机助手要做自动化操作的时候,大概每 3 到 5 秒会向云端发送约 250k 的数据包(推理是单帧的 AI 专属屏幕的截图),然后获得 1k 左右的反馈指令。这说明手机在做操作时,是云端的大模型大脑在实时看着屏幕,进行推理,然后下达指令,例如:打开应用、点击屏幕、输入文本、滑动屏幕、等待、记笔记、停止。

从技术层面看,这绝对是业界第一个具有强泛化能力的 GUI Agent。 这种泛化能力之高,能把系统底层权限和云端大模型结合得这么顺滑,不得不说,字节的技术工程能力确实值得点赞。

02 不是「偷袭珍珠港」,而是一次「核试验」

技术看完了,再看意图。

这两天,微信封禁、阿里设限、银行风控,满城风雨。很多人问我:字节这是要向所有大厂宣战吗?这是要「偷袭珍珠港」吗?

我的判断是:不是。

首先,从个人渠道了解到的豆包手机的备货量,以及豆包内部「不知道能活几天」的心理预期来看,他们自己心里很清楚,这更像是一次技术实验和试探,而不是为了立刻大批量出货去席卷市场。

这更像是一次「核试验」。

我猜测字节没有想靠这一款工程机就颠覆巨头的生态,这更多是一次技术实验和边界试探。他们想验证的是:当 AI 真正拥有了系统级权限,真正接管了 GUI,用户体验能做到什么突破?

但坦率地说,这次试验在战术执行上,显得有些像个「新兵蛋子」。行动上有些粗糙了,甚至浪费了一个很好的契机。

这本该是一次珍贵的「核试验」,目的是为了测试技术边界、收集用户反馈。要达成这个目标,就得让它「活」得久一点,反馈拿得足一点。

任何变革的核心问题,都是「谁是敌人?谁是朋友?」。而且大部分时候用户不是朋友,是上帝。即便是为了用户好,用户发现这个手机影响了自己的日常应用的使用,肯定是不行的。

所以这个实验最好的方式就是不要上来就引来尖锐矛盾。不是「直捣黄龙」几乎一下子就把所有的平台方都惊成了敌人,也堵了自己实验的路线。

具体点说,比如一上来如果没有开启操控微信、操控淘宝等大平台的能力(实际上就是目前沟通调整后的状态),这个实验可以低调一点,进行得会更有意义一些。毕竟类似 RPA 型(机器人流程自动化)的工具确实与大部分 APP 的用户协议冲突,如果对方一点不包容地封掉,于情于理都不是问题。而今天这些具有「履约能力」的大平台既不可替代,也没道理把大门敞开给豆包。

所以如果复盘这次行动:技术上很创新,战略上很对头,但在行动上有优化空间

当然,大多数时候贫穷限制了我们的想象。不管是这次手机出货因此受到影响,或者这场试验即便有浪费,可能对字节也不是问题。资源足够充沛的时候,战术上的细腻是次要的。

03 价值漂移:从「应用内闭环」到「直连物理世界」

核心的问题是,豆包手机这个「技术核试验」,响过之后,会留下什么?

我认为,要看到未来商业生态格局中一种「价值漂移」的可能性。

在这场「价值漂移」中,最核心的问题依然是那个:谁会是 Agent 的朋友?谁是它的敌人?

如果只站在今天移动互联网的存量格局里,不得不承认,会是「敌多友少」的局面。

现有的互联网平台,无论是阿里、腾讯还是美团,它们的商业模式建立在「需求和供给的集结」之上。它们把离散的需求和供给集结在平台上,通过分发流量、广告推荐来获利。它们在意 DAU,在意用户习惯和时长,在意自己的生态闭环。

而 AI Agent 的逻辑会是「直连」。

当 Agent 把那些大平台变成「货架」和「履约执行者」,用户不需要再自己打开 APP,不再贡献活跃度,不再看广告,只把需求交给 Agent 去后台下单——这对平台来说,就是一种「降维打击」。只要平台还在意自身的生态闭环,它们注定会视 Agent 为敌人。

当然我们不能上来就想终局,要看到即便这种变化不可阻挡,这种变化会先从局部分流开始,还不会一下子带来颠覆。就算是 Agent 时代,现有的 APP 也不一定立即会失去自身的价值。例如有些需求是需要「逛」的,比如买服饰、看视频,现有的应用和平台依旧存在价值。

同时,GUI Agent 的技术不会只有豆包具备,相信各家都有在探索和推进。智谱最近就开源了类似的技术,加上字节的这次演示,GUI Agent 正在成为一种行业标配。 接下来,也许所有的大厂都会被迫卷入这场追赶,相信淘宝会有自己的 Agent,微信也会有。大家最终可能都会在自己的 APP 里内置一个「超级助理」,也都会被迫进化,被迫去适应这个「机器能操控能下单」的新世界。

当我们不武断地从「这是一场立即马上的革命」和「这是根本搞不成的闹剧」的二元思维中跳出来,我们才会看到一些「灰度」的价值。因为现有的移动互联网的商业世界虽然严密,但不是没有缝隙,不是没有变化的可能。

大家可以想象一个场景:你家孩子的遥控车遥控器没电了,你需要新的电池了。以前「省钱至上」的你,路径是:研究下这是几号电池,打开(可能不止一个)电商 APP -> 搜索 -> 比价 -> 下单。

未来,如果你的手机里有一个足够信任的 Agent,你可能只是手机拍了下电池发给豆包,随口说一句:「这个电池没电了,帮我买点。」

这时候,Agent 可能不需要再去逛淘宝、京东、拼多多了。如果像南孚这样的电池厂商,直接在官网上开放了专门为 Agent 准备的数据接口,你的 Agent 就可以直接连到厂商,下单、支付,通过现有的物流体系发货。而且这电池未必会比平台买的贵。

所以 Agent 有可能直连物质世界,抹平中间商,让需求端(用户)直连供给端(工厂/品牌)。

对于这些拥有好产品、好服务,但不擅长搞流量、不想被平台「收租」的品牌和厂商来说,Agent 就是朋友。它们不在意用户是否逛了商场,它们只在意自己的商品是否卖出去了。那么,这个世界上就出现了很多豆包手机的朋友。

这就是我说的「价值漂移」。

未来,Agent 可能会成为新的入口、打开新的通道。如果现有平台不合作,不愿意开放数据,那么 Agent 可能会连接更小的垂类平台,甚至可能会跳过平台,直接连接那些愿意开放的垂直厂商、品牌官网。变革未必不能从微小但有意义的地方开始。

当然,这还是一个很远的推演。眼下,豆包手机还需要解决很多问题——安全问题、隐私问题需要重点应对,与各方的谈判协商也还要持续进行。

我们作为吃瓜群众,不要因为现在的混乱就否定了这个方向。我们可能正在目睹一个新的「人机交互」时代的萌芽。毕竟原来的那套「APP 孤岛」的移动互联网玩法,在 AI 时代也应该要变一变了。

所以,不管是大厂还是创业者,或者是商家,每一个商业世界的玩家都得思考一下:当 AI Agent 推动商业生态价值漂移,我在哪里?

 

测测任永亮:为什么一家泛心理公司,要造个「有身体」的机器人?

2025年12月12日 13:32

整理|连冉

编辑| 靖宇

在这个狂飙猛进的 AI 时代,任永亮的视角显得独特且柔软。

作为中国最大的泛心理在线社区「测测」的掌舵人,他在 IF 2026 的舞台上,从一个 INTP 的压力与自省出发,剖析了技术如何回应人类最隐秘的渴望——被看见、被接纳、被爱。

对于 5000 万用户而言,测测或许是「恋爱脑必备 APP」,也可能是失恋时的精神支柱;但在任永亮眼中,这更像是一个在人生旷野中指引方向的古老指南针。

面对通用大模型的强势崛起,任永亮坦诚地分享了从「激进的技术信仰」到「焦虑恐惧」,再到如今「坦然笃定」的心路历程。他意识到,垂直领域 AI 公司的生存空间,在于「类人」能力的温度。

在此次大会上,任永亮不仅展示了最新的 陪伴智能体「陪伴小星」 ,更 首次阐述了测测向「具身智能」进军的终极逻辑——打造拥有「共感体」能力的机器人。

为何一家泛心理公司要做机器人?任永亮给出了答案,是 为了「无条件的积极关注」 。他认为,纯粹的线上智能体如同异地恋的朋友,看得见摸不着;而传统的工业机器人只会打拳击、拧螺丝。

测测想做的,是给大模型装上身体和同理心,让它成为一位「爱的使者」。它不是为了替代父母或伴侣,而是为了在原子化社会的缝隙中,提供一种可触碰的、高质量的情感在场。

这是一位理工男跨越 13 年的自我重构,也是对科技尽头的一次深情定义: 当机器开始理解「爱」,或许我们才能更好地理解「人」。

以下是心言集团(测测)创始人兼 CEO 任永亮在极客公园创新大会 2026 上,关于测测到底是什么,关于心理 AI 如何从「在线陪伴」走向「具身智能」,并在技术洪流中重构人类情感连接的演讲实录,由极客公园整理。

嘉宾观点:

· 测测就像是一个古老的指南针,它可能不一定永远精准,但它能在你孤独的旷野中给你一个方向,给你积极的反馈。

· 心理服务最大的价值不是给你答案。无论是咨询师还是 AI,其核心价值不在于专业水平的高低,而在于有没有能力构建一段信任的、良好的关系。

· 真爱是「无条件的积极关注」。这是人类底层的情感操作系统,也是我们做垂直领域陪伴智能体所追求的终极价值。

· 对于垂直领域的 AI 公司,没必要去跟通用大模型比拼底座能力。我们要比拼的是「类人」的能力、感性的能力,这才是泛心理公司的生存空间。

· 智能加上具身,有可能危害人类;只有加上同理心,才能服务人类。我们追求的是「共感体」技术,让 AI 真正具备关爱人类的能力。

· 人与 AI 最大的不同,在于人天然就是一个「品牌」。在图灵测试中,知道对方「是人」这个信息本身,就已经决定了最终的信任分值。

· 技术让「自我」变得空前强大,但也让我们对「他人」的关注越来越少。我们需要陪伴机器人,是为了在减少无效社交的同时,帮我们更清楚地思考「我是谁」,从而建立更深度的连接。

任永亮在 IF 2026 舞台上|图源:极客公园

 

任永亮:大家下午好,今天这个大场面,对于一个 INTP 来说压力有点大。我给大家分享一下我通过做测测的过程,对于情绪价值的一些理解。

 

01

测测是什么:从「恋爱脑神器」

到人生旷野的指南针

 

测测是什么?

现场很多观众都举手表示用过测测|图片来源:极客公园

 

我们官方的定义是:中国最大的泛心理在线社区。但我发现,在小红书的 AMA(Ask Me Anything)活动中,用户给出了更有趣的定义:有人说它是「恋爱脑必备 APP」,有人说是失恋时的精神支柱,还有人说这是「最不愿意让男朋友看到的 APP」——因为她所有的暧昧对象都在这上面测过匹配度。

除去这些标签,测测内部拥有丰富的工具、各类智能体以及两万多名咨询师。

但我认为,它最重要的本质,是一个 帮助每个人构建内在秩序感的工具 。其他所有功能都只是途径,而非最终目的。

为什么中国有 5000 多万用户选择用测测解决情感问题?

我想从心理学角度分享一下。心理学家埃里克森认为,人至少会经历两次出生:第一次是生命体的诞生,脱离母体;第二次是社会性的诞生,即「社会自我」的建立。与其他动物不同,小马生下来就会奔跑,而人需要经历漫长的社会化过程才能真正成熟。

我们有个同事的飞书签名是: 「人生是旷野,而非轨道」。 每个人进入社会的过程,就是步入旷野的过程。在旷野中,我们不断寻找方向。

测测就像一个古老的指南针,它未必永远精准,但它能给你一个方向、一个积极的反馈,让你在孤独的旷野中找到属于自己的路。

 

02

理工男的自我重构与 AI 焦虑曲线

 

我的创业历程,恰恰印证了测测对用户的意义。

刚上大学时,我从县城来到首都,面临学习模式的切换,更经历了从「学霸」到「学弱」的落差。这对一个刚步入社会的年轻人来说是巨大的冲击,这种迷茫与我们用户的感受是一致的。

很多人感叹,虽然大学过得苦,但人生的高光时刻仿佛停留在考上大学的那一刻,往后便是面临社会的「毒打」、评价体系的巨变以及各种冲突。

我创业,本质上是为了解决「我到底是谁」的问题。大学时期,我原本的自我认知破碎了,我需要一步步重建自我:

• 2011 年,我开始创业;

• 2013 年,我们将产品定位为工具;

• 2016 年,转型为平台;

• 2017 年,引入咨询师并开始涉足 AI;

• 2019 年,推出对话式 AI;

• 2023 年,全面接入大模型;

• 如今,我们进入了更广泛的泛心理领域。

这是一个构建自我的旅程。作为一个对科学有崇高信仰的理工男,我竟然成为了五千万女性用户的朋友,这就是我自我构建的结果。

2022 年,AI 浪潮席卷而来。彼时我正值 30 岁到 40 岁的过渡期,本以为在移动互联网领域能做的事已近尾声,面临「中年危机」时,大模型出现了。

面对 AI,我经历了剧烈的情绪起伏。

起初是狂热,作为激进的技术主义者,我认为大模型与心理咨询领域太契合了,于是拼尽全力、付出巨大代价构建了大模型团队。但随后陷入了恐惧——技术进展太快,训练成本太高,对人才要求太苛刻,这根本不是中小公司能承受的。

我们无法触碰通用大模型的边界,但它的能力却在不断溢出。这让每个垂直领域的 AI 公司都感到焦虑。

随着 AI 化的深入以及像 DeepSeek 这样优秀的国产大模型的发展,我已经进入了相对坦然的状态。

我有三点核心思考:

第一, 人的价值不可替代 。无论是咨询师还是其他角色,只要是人类,就拥有 AI 目前不具备的独特价值。

第二, 开源生态提供了生存空间 。随着技术开源生态的建立,垂直领域公司有了立足之地。

第三, 垂直公司无需比拼底座能力 。我们没必要去跟通用模型卷基础能力,那是开源底座的事。 我们要比拼的是「类人」的能力、感性的能力,这才是泛心理公司应该追求的护城河。

 

03

AI 时代的「无条件积极关注」

 

我们最近推出了最新的陪伴智能体——「陪伴小星」,这是我们在垂直行业深耕的结果。虽然目前还在内测,但已获得不少好评。

大家可能会问:一个陪伴型 AI,真的能解决用户的问题吗?

做情感产品十多年,我总结出心理服务最大的价值: 不在于提供答案,而在于构建关系。 心理咨询师的好坏,不在于专业水平高低或收费多少,而在于他是否有能力与咨询者建立一段信任的、良好的关系。

人本主义心理学家罗杰斯提出过一个概念: 无条件的积极关注 。这是人类底层的情感操作系统,也是人际关系的最高境界。

人类底层的情感操作系统|图片来源:极客公园

 

什么是真爱?

真爱就是无条件的积极关注。热恋时,你觉得对方哪里都好,这就是「无条件」。一旦开始问「你到底爱不爱我」,往往是在审视条件——比如秒回信息就是积极,不秒回就是不积极。

现代人之所以痛苦、迷茫,就是因为生活中得到的「无条件积极关注」太少了。因此,垂直领域陪伴 AI 的核心价值,就是提供这种无条件的积极关注。

 

04

为什么泛心理公司要造「有身体」的机器人?

 

数据显示,「陪伴小星」最受 IN(内向直觉型)人群的喜爱。在测测的用户中,E 人(外向型)虽多,但使用陪伴产品的主要是 I 人(内向型)。I 人往往有社交压力,倾向于通过虚拟方式获取情绪价值。

但是现有的智能体更像是一个「异地恋」的朋友:缺乏实体:你看得见却摸不着,感受不到真实的温度;被动关注:它存在于手机里,你不打开,它就无法找到你,无法真正做到「主动的积极关注」。

基于此,我认为下一代 AI 形态必须进化。 我们想在大模型基础上,给它加上身体(具身智能),再加上同理心,构建一个「共感体」。

如果只有智能和具身,它可能对人类构成威胁;但如果加上同理心,它就能真正服务人类、关爱人类。

这也源于我个人的「第三次出生」——成为父亲。我也面临很多育儿困境:孩子说话晚、我没有时间高质量陪伴、用职场逻辑回答孩子问题时的尴尬。在这个 AI 时代,我们也担心如何培养孩子的技能。

放眼社会,结婚率和出生率下降,本质是因为谈恋爱太难、养孩子太难。如果我们能打造出具备「无条件积极关注」能力的机器人,或许能改善这一现状。

极客公园的张鹏老师曾问我:测测做机器人有什么优势?从物理或硬核 AI 角度,我们确实没有独特优势。但作为一家深耕泛心理 13 年的公司, 我们最懂「情绪价值」

测测要用心理学的视角,重新做一遍机器人|图片来源:极客公园

 

我们希望打造一款 有情感能力的机器人 ,从「智能体」过渡到「共感体」。我们定义的机器人,不应该只是打拳击、拧螺丝的工业品,也不应是手机里安静等待的程序。

它应该是一位「爱的使者」, 不能代替你谈恋爱,但在你孤独时能提供陪伴;不能代替父母,但在你无助或缺席时,能将爱传递给孩子。

爱是无条件的积极关注,爱是我们找到内心秩序的终极力量。

 

05

人为什么需要陪伴机器人?

 

最后,针对用户常问的几个问题,我做一个简短回复:

第一个问题是 AI 与真人的关系,最大的不同点在哪里?

短期看,真人是看得见摸得着的。但未来仿生机器人也会具备这一能力。

根本的区别在于: 人天然就是一个「品牌」。 图灵测试中有个现象:如果告诉测试者对方是机器人,打分就会偏低;如果告诉他是人,打分就会变高。「是否为人」这个认知本身,就决定了交互效果。这是人类最大的价值。

第二个问题是:人为什么需要陪伴机器人?

工业革命以来,技术让「自我」变得越来越强大。 自我越强大,对他人的关注就越少 ,也就越难做到「无条件的积极关注」。

我们需要陪伴机器人,正是因为我们越来越关注自己。我们需要一种技术,能够填补人与人之间的情感空缺,让每个人的情感需求得到更好的满足。

在测测,遇见更好的自己|图片来源:极客公园

 

第三个问题是:过度依赖机器人,会不会让人与外界的连接变浅?

首先,目前的机器人还做不到让人过度依赖。其次,假设做到了,我相信人与人之间的交流频率可能会降低,但 深度会加深,强度会增强 。因为机器人帮你过滤了大量无效社交,让你更清楚自己是谁、想成为什么样的人、想找什么样的伴侣度过一生。它能帮助你更好地思考人生方向。

这就是我做陪伴机器人的初心:帮助每个人更好地找到自己,想清楚人生的方向、伴侣的方向甚至下一代的方向到底往哪走。谢谢大家。

❌
❌