阅读视图

发现新文章,点击刷新页面。

模型免费、推理翻倍:Gemini 3 Flash 深夜炸场,发放智能体时代的「入场券」

就在刚刚,谷歌再次扣动扳机,正式推出了 Gemini 3 Flash。

这是继 Gemini 3 Pro 之后的又一次暴力输出。没有预告,没有任何铺垫,谷歌直接宣布 Gemini 3 Flash 现已成为 Gemini 应用中的默认模型,全面取代 2.5 Flash。这意味着,全球数亿用户无需支付任何费用,就能立刻体验到 Gemini 3 系列模型的推理能力。

如果说 Gemini 3 Pro 是为了尽情发挥 AI 算力的优势,那 Gemini 3 Flash 则打破了「高智」、「低成本」与「响应快」之间的不可能三角。

打开 Model Card,我们看到一组令人惊讶的数据:在评估编码代理能力的权威基准测试 SWE-bench Verified 中,Gemini 3 Flash 的得分高达 78%。这不仅把此前的 2.5 系列远远甩在身后,甚至在部分领域,比如说逻辑深度上还反超了自家老大哥 Gemini 3 Pro。更离谱的是,在提供这种「碾压级」性能的同时,它的价格竟然不到 3 Pro 的四分之一。

这可能不仅是等等党们在性价比上获得了一场胜利,更像是谷歌一场不讲道理的「肌肉秀」。

相对来说,Gemini 3 Flash 更适合一些需要高频、极速的开发工作场景,有了极低的延迟,Gemini 3 Flash 就可以以几乎实时的速度更新应用程序。与过去主打等待长时间响应不同,Gemini 3 Flash 反应思路,已经可以在一个大规模复杂流中快速完成推理、纠错以及自我验证的「大脑」。

而对于普通用户,谷歌扔出了另一个「王炸」:零门槛语音建站。这意味着你不需要懂任何代码,只需要对着 Gemini 随口描述你的创意,Gemini 3 Flash 就能在几分钟内将那些零散的想法转化为一个功能齐全的应用程序。

尽管此前 Gemini 3 也能从一定程度上实现这一点,但有了 Gemini 3 Flash 后,价格成本更低,工作流更简便,时间成本也更低。

从视频分析、数据提取到视觉问答,Gemini 3 Flash 配合搜索算法的迭代,也正在重新定义 AI 的响应极限。它目前已通过 Google AI Studio、Gemini API 和 Vertex AI 同步上线。谷歌这一波「快准狠」的发布宣告了,在大模型竞技场上,速度与智能的最后一道屏障,已被拆除。新王已至,且无处不在。

Gemini 3 Flash 上线 Google AI Studio |图源:极客公园

这一次,「轻量」不再意味着「妥协」

Gemini 3 Flash 的发布,其核心价值并非仅仅是单纯的参数更迭,而是小模型也能在 Agent 核心能力上超越一些旗舰模型。在衡量智能体编码与长程工具调用的 SWE-bench 和 Toolathlon 测试中,Gemini 3 Flash 的得分不仅反超了自家老大哥 Gemini 3 Pro,甚至在特定维度上压制了 GPT 与 Claude 的顶级型号。

这也可以看出,在需要频繁交互和快速反馈的自动化工作场景中,更短的推理链路和更高的指令遵循敏感度,或许会比庞大的参数规模更具实战价值。

Gemini 3 Flash 在各项顶级基准测试中均展现出超高智能 | 图源:谷歌官网

当然,这也不一定说明大参数模型已经没有了应用价值。虽然 Gemini 3 Flash 在 ARC-AGI-2 这种视觉推理谜题上实现了相较于 2.5 Pro 近 7 倍的提升,但在处理极其复杂的全局架构设计时,它与顶级 SOTA 模型之间仍存在一定的差距。这也意味着 Gemini 3 Flash 的定位并非全能,而是局部强化。

但更重要的是,Gemini 3 Flash 通过将输入成本压低至 0.50 美元并配合大幅度的缓存优惠,为即将到来的智能体时代提供了更低的入门门槛,也创造了爆发的条件。要知道,可能一年前,想要获得这种博士级推理能力的代价很高,如今却可以免费使用。这也可以看出,大模型在技术同质化竞争下仍然是逃不脱价格战,而显然,目前谷歌在这一局中占尽了优势。

具体性能上,根据第三方分析基准测试,Gemini 3 Flash 运行速度达到了 2.5 Pro 的整整 3 倍,逻辑进化配合极低的延迟,让其在处理高容量法律合同、提取定义条款等繁琐任务时,精准且迅速。

而在多模态领域,Gemini 3 Flash 在视频理解与复杂图表分析上展现出的显著统治力,证明了谷歌内部「感知即推理」的能力已趋于成熟。尤其是,它能以秒级速度将复杂的非结构化视频数据转化为可执行的商业计划,这意味着视觉信息已不再是 AI 的专项特长,而是底层逻辑的一部分,或许谷歌浏览器上大量沉寂的数据可以被激活为可流动的商业资产。

对于开发者和企业级用户而言,Gemini 3 Flash 通过极具竞争力的定价和上下文缓存技术,直接把前沿 AI 的部署门槛降至冰点。无论是支撑在线客服对话,还是通过 Google Antigravity 实现智能体自动编程,它都在证明:高性能、低延迟与极低成本,现在选择 Gemini 3 Flash 就可以同时拥有。

Flash 系列模型也不再是一个为了折中妥协而存在的「备选方案」,而是成为了更适合大众开发者升级的武器。Gemini 3 Flash 的到来,或许会从一定程度上促进智能体大规模爆发,加速智能体应用时代到来。

搜索效率的暴力升级:谷歌搜索的最后一块拼图

从今年下半年开始,搜索显然已经成为了谷歌的重点。Gemini 3 Flash 同样上线即直接送入搜索体系。从某种程度上,我们也能看出现在的模型升级不再仅仅是某一个单一产品线的升级,而是整个 AI 产品生态联动提升。

首先,Gemini 3 Flash 将在全球范围内铺开,直接成为谷歌搜索 AI 模式的默认配置。 只要用户使用谷歌 AI 搜索,就会直接感受到 Gemini 3 系列模型的强大。

深度推理能力与即时响应速度之间的互斥,不再是模型永恒的难题。Gemini 3 Flash 在推理能力、工具调用及多模态处理上的提升,可以让系统在应对复杂约束条件下的细致追问时,也能够产出更具结构化且符合逻辑的回复,而无需牺牲搜索场景中至关重要的时效性。这也意味着,过去「高阶推理」正在转变为大众检索的标准化基础设施,AI 搜索也可以从简单的信息匹配迈向了复杂问题的实时解答。

与此同时,针对更高任务需求,Gemini 3 Pro 与 Nano Banana Pro 的引入搜索领域,也从一定程度上补齐了垂直领域的缺口。

结合当前谷歌在美国市场推出的「Thinking with 3 Pro」模式,可以看出,谷歌并非为了想要打造常规的 AI 检索,而是希望能够对复杂数学编程等重度计算任务进行动态可视化布局、交互式模拟呈现。加上 Gemini 3 Flash,谷歌已经针对用户需求进行了较为全面的模型产品布局:由 Flash 承担高频、极速的普惠性智能交互,由 Pro 承载低频但高价值的逻辑攻坚。很显然,未来的 AI 交互一定不会是是单一模型的单打独斗,而是根据任务复杂度进行的动态算力分配与智能分层。

Gemini 3 Flash 的出现,在客观上标志着小尺寸模型与大规模模型之间「智力差」的收缩,它证明了在算法优化到达一定阈值后,智能体验的瓶颈已不再是算力规模,而是如何将这种极速的智能感无缝编织进用户的日常决策流中。 随着「快速模式」与「思考模式」的并行提供,AI 交互已正式从「实验性对话」进化为一种工业级的辅助决策引擎。而作为技术底座的模型全家桶,谷歌已经早早为大家准备好了。

走出实验室后,谷歌生态再次拓宽边界

就在刚刚,AI 模型生态的性能天平再次倾斜。Gemini 3 Flash 的出现以及谷歌 Gemini 3 系列模型的全面铺开,意味着谷歌模型生态优势再次加强,并正在各垂直行业的任务循环中引发链式反应。

在软件工程领域,编码平台如 Cursor 和 Devin 发现,Gemini 3 Flash 的介入让 AI 的响应速度能跟上工程师的直觉,让「编码 Agent」从异步等待的过程变成了近乎实时的同步协作。在法律与金融这种对精度有着近乎苛刻要求的场景下,Harvey 和 Box AI 的实践证明了 Gemini 3 Flash 能够在不牺牲速度的前提下,在复杂财务数据识别和长篇合同交叉引用等任务上实现 15% 的准确率提升。这也可以说明AI 终于能够以工业级水准处理高容量的非结构化数据,而不再让用户在「深度理解」与「实时反馈」之间做痛苦的取舍。

此外,深度伪造检测平台 Resemble AI 利用其多模态能力,将复杂的取证数据即时转化为简明情报,其分析速度比以往提升了 4 倍;而桥水基金则通过它在大规模多模态数据集中捕捉那些瞬息万变的概念理解。甚至在游戏开发领域,Latitude 利用其近乎实时的推理性能,让游戏世界的角色逻辑从预设脚本转向了真正的自主智能。

图源:谷歌官网

可以看出,Gemini 3 Flash 带来的商业潜力本质是,它成功清空了从原型开发到大规模落地的最后一公里,证明了最好的技术不应只是少数人的优势,而应是推动一个时代迎接生产力大规模爆发的基石。

告别知识库时代,印象笔记如何打造你的「第二大脑」?

你有多久,没有好好静下心来,把脑海里的想法整理成一段完整的文字了?

当 AI 成为了那个通晓古今、无所不知的存在。当人们的习惯从「我查查、我想想」转向「问问 AI」时,人与知识之间的关系也在悄然改变:思考从一个需要反复推敲的过程,变成了一个可以被快速替代的环节。

笔记,曾经承担着思考的载体。它并不追求即时答案,而是帮助人们在零散的信息中建立秩序,把世界知识转化为个人的理解。通过记录、整理与反复回看,思考得以延展,判断得以形成。

当 AI 成为基础设施之后,那些以「记录」和「整理」起家的工具,开始面临一个更为根本的问题:如果信息本身已经不再稀缺,笔记工具的价值如何体现?

对此,印象笔记给出了一个颇具野心、还带点「反常识」的答案。它没有选择做一个 AI 知识库,而是试图构建一个更全面的「个人智能体平台」——印象 AI。简单来说,对内,印象 AI 能够更懂你的思考,并主动与你交互。对外,印象 AI 将会成为你的个人智能体,帮助你协调各类不同智能体之间的执行。

为什么他们拒绝了「知识库」这条更易变现的捷径?他们定义的「个人智能体平台」与市面上随处可见的 Agent 有何本质不同?在过去的两年里,这家老牌工具公司究竟经历了怎样的思考与实践,才完成向 AI Native 的决定性一跃?

本周,我们在印象笔记北京办公室里,与印象笔记董事长兼 CEO 唐毅、COO 陆昀聊了聊新战略背后的故事。我们发现,这次升级并不是印象笔记一次产品功能的迭代,更而是一次全面的战略升级,意味着他们已经明晰了自己新定位:通过编织一张更深、更广的记忆网,打造 AI 时代的「第二大脑」。

 

一、告别知识库时代,印象笔记要做用户的「知心朋友」

当巨头们追求「全知全能」的智能时,印象笔记却选择转身,决定不再追逐AI的博学,而是让AI更能理解一个个具体的人。

像国内许多模型厂商一样,印象笔记也曾在通用大模型的赛道上狂奔过。作为国内最早推出大模型服务的工具厂商,他们曾满怀信心地认为,凭借积累十几年的、几亿人的知识场景沉淀,能训练出世界上最博学的模型。

然而当基座模型在几个月内学遍了全人类的所有公域知识,他们突然发现:没有人能比 AI 更博学。那一刻,传统意义上的「知识库」时代宣告终结。

唐毅开始思考:除了博学,陪伴了用户十几年的印象笔记,究竟还能给用户什么?最终答案落在了两个词上:记忆与理解。

他发现,现有的 AI 模型记忆正处于一种两极分化的状态。一是基座模型在预训练中拥有持久不变的长记忆,二是模型在推理过程中的即时性短记忆,会话结束时记忆就烟消云散,无法形成持续学习和连续记忆。模型缺少了人类认知中带有时间厚度的各个层级的「中记忆」。

印象AI的出现,本质上就是在冰冷的代码里,为每个人的模型插入一段连续的、会生长的记忆。

印象笔记 COO 陆昀 |来源:极客公园

「现在的你,是过去所有你的集合与积分。理解了过去的你,在一定程度上就能理解现在的你所思所想。」唐毅这样形容记忆的价值。为了更好地解释印象 AI 未来的定位,他用「四种朋友」的理论来打比方:

第一种是「十年的笔友」,也是AI化之前的印象笔记,虽未谋面,却读过你十年的思想,是最懂你价值观演变的老友。

第二种是「合拍的新朋友」,有点像如今市面上的通用 AI 助手,它见过你当下的疲惫,知道你点菜的犹豫,却因相处太短,不懂你行为背后那些来自过去的深层动机。

而印象笔记现在呈现的是第三种朋友:「十年形影不离的老朋友」。它不仅记得你十年的思考,还通过软硬件结合,时刻捕捉你此刻的生活。印象 AI 能根据你当下的一个眼神,瞬间打通三年前的一篇日记,洞悉你那些未竟的话语,在时间陪伴和深度理解下,建起了一座专属于用户个人的认知壁垒。

至于第四种,则是「一见如故的知心朋友」。它不再仅仅依靠算力预测下一个 token,而是通过潜意识与情感逻辑判断,与用户在初次见面时就达成默契共识,这也是印象笔记对「AI 时代的第二大脑」的终极设想。

当记忆被唤醒,智能体就不再只是工具。想象一下,当你深夜写年终汇报 PPT 时,正准备在表格中填入 Q3 季度的市场预算为 50 万美元,突然你的屏幕左上角出现一个提醒:「检测到该数据可能已过时,据昨夜公司 CFO 的邮件,预算已更新为 45 万美元。需要替换并同步调整相关数据吗?」

这个来自于印象 AI 的提醒并非是偶然的「灵光一闪」,更多则是来自于日常对你的深度理解。在你看不到的时候,它不仅扫描了你忽略的邮件,更从你过往的工作中记忆了你对数据准确性的极致追求。它见证了你曾深夜多次因为一个小数点的误差而反复修改文档,也曾在复盘时说过「准确比漂亮重要十倍」。正因如此,它了解你的严谨,选择在你出错的当下主动介入,而非事后提醒。

因此,你即将面对的不再是一个等待你输入完整指令才敢行动的「工具」,而是一个真正融入你工作流、拥有共同记忆与目标的「伙伴」。它真正的作用,不完全是回答你的问题,而是帮你避免那些你还没意识到的问题。这,就是印象 AI 为你打造的「第二大脑」。这种主动式,拥有个性化的特点,让印象 AI 成为了连接个人意图与通用服务之间的核心纽带。

「未来三年,智能体时代绝不会匆匆收场。」陆昀在谈论未来趋势时,语气里透着某种笃定。在他看来,当基座模型的 Scaling Law 增速放缓,AI 大模型范式将会进入到两三年的平稳期,也是智能体快速增长的时期。

尽管世界瞬息万变,但人类通过记录进行「认知压缩」的本能不会变。从 2018 年的独立,到 2022 年的 MBO,再到如今「4+1」的 产品矩阵革新,印象笔记用三次转型完成了一场自我进化。

 

二、如何让AI更懂你?印象笔记用两招破局

「如果你是老用户,会发现印象 AI 极其懂你;如果你是新用户,则会发现它无所不能。」陆昀用这句话直白地预告了明年 Q1 印象 AI 上线后将带来的新体验。很显然,印象 AI 并非是笔记功能迭代,而是印象笔记「4+1」战略的核心大脑。

印象笔记计划从两方面入手:一方面围绕采集层,用新剪藏、新扫描宝、手写笔记与新硬件,来拓宽采集信息的入口。另一方面,采集到的信息最终汇聚在中心处理层,进行个人模型的训练与推理,而印象 AI 正是这个「中心大脑」。

印象笔记4+1产品矩阵 | 图源:印象笔记

在陆昀看来,多数笔记类软件本质上是采集工具,更注重采集信息的效率、便捷性以及与 AI 结合的深度,因此采集必须贴近用户习惯。比如说,在电脑端,浏览器就是高频的信息入口之一,为此他们专门开发了插件,确保用户无论是在与 大模型 对话还是翻阅新闻,只要看到有价值的内容,都能一键实现信息收集,完成瞬间沉淀。

采集信息的行为不仅会发生在屏幕上。陆昀敏锐地洞察到,用户每天约有 10 小时处于脱离屏幕的状态。为了填补这段「感知真空期」,智能硬件必不可少。他解释道,印象笔记开发硬件的逻辑是「扩展平台级硬件的感知能力」,专注于手机与电脑未能覆盖的信息捕捉场景,像是录音和扫描等。据透露,印象笔记计划于明年围绕听觉、视觉、纸质媒介的上下文感知与采集,推出至少三款智能硬件。

要让用户感受到主动服务的魅力,另一大关键在于 AI 能够对人类意图的准确理解。唐毅认为,判断不能仅基于一些固定规则,而应该让用户的个人模型根据时间、地点、人物等条件自主生成动态建议。「AI 需要『人味』,结合用户的个人性格,让智能的主动提醒更具个性化。」

如此一来,在节假日选礼物时,AI 能结合你的浏览记录与生活点滴,判断你的经济承受能力与朋友的喜好,并在合适时机推送建议。

这种主动提醒源于 AI 对用户持续更新的信息形成了深层认知。

技术上,陆昀团队在模型压缩、记忆管理及智能体协作上寻求突破。特别是记忆管理上,它更依赖个人知识图谱(PCG),这类图谱体系不同于传统图谱的固定形式,而是基于 AI 动态演化的形式。与通用模型一次性压缩所有的语料不同,个人图谱会根据每天、每周、每月进行不同的知识梯度压缩,逐步将信息从「中记忆」沉淀为「长记忆」。

为了保证进化节奏,印象AI将会维持着较高的迭代频率,据悉,线上版本将会每两周更新一次。系统会实时处理每日增量数据,并在夜间整合所有数据,确保用户日常使用的丝滑感。

在付费逻辑上,印象笔记希望用户能够主动为价值买单。未来无论是基于能力分级的订阅模式,还是「硬件+增值服务」,亦或是按量计费,核心都将围绕让用户为「懂自己」的助手买单。

如何让用户觉得物有所值?印象笔记将会关注用户日采集量、模态丰富度及任务完成率。通过观察用户是否自然地复用 AI 生成的内容,系统将反馈信号无声地融入模型优化中。

可以说,印象笔记正在从一个记录工具,进化为一个拥有温热感官和独立记忆的智能生命体。

 

三、重构「第二大脑」,印象笔记的坚守与进化

「公司要比用户更懂未来,有些核心场景和用户最底层的需求,不能直接看用户说了什么,还需要理解用户更想要什么」。唐毅在如何决策未来发展方向的时候提到,一个产品要真正实现自上而下的规划和设计,需要依赖公司自己来做决定。

很显然,唐毅也发现了现在层出不穷的 AI 笔记产品正在冲击着传统市场。他观察到虽然用户正在尝试各类创新工具,但很少有人真正只用某一款。

他还提到,在人人高喊 AI 的时代,印象笔记中不乏有部分用户希望维持原状。这也是团队决定将印象 AI 作为独立全新 App 推出的核心考量之一。

谈及竞争,唐毅认为人在沉淀思考时本身就会选择不同平台。相比于纯粹的工作场景,印象笔记更关注个人场景下的沉淀与知识积累,因此在定位上就和市场上大多数效率工具有所不同。

陆昀补充道,印象 AI 的另一大功能是与其他智能体联通,一起处理任务:「我们不打算做涵盖一切的智能体,我们只做『你的』智能体——作为你的数字分身,与其他 AI 互动。」

在未来,印象笔记将继续聚焦于服务用户进行自我知识沉淀、自我知识萃取与自我思考结晶过程,而 AI 则是这一过程的加速器。

陆昀讨论 AI 时代的第二大脑 |图源:极客公园

在全球化战略上,印象笔记选择了国内与海外并行。中国市场作为主阵地,通过长年对本土用户行为的观察,更高效地推动用户接受印象 AI。

据唐毅介绍,中国用户更倾向于收藏「硬核干货」,且收藏频率极高。相较于欧美市场,中国用户更习惯在移动端收藏任务,对协作的要求也不算太高,更专注于个人,但整体上对跨平台数据集成的需求更强。针对这些细微的交互习惯,印象 AI 将持续进行功能迭代。

谈及未来愿景,唐毅认为路线已非常明确,即打造真正的「第二大脑」。「我们目前在智能赛道上迅速对齐,未来可能会从脑科学等领域寻求突破,最终形成一个从个人知识库中生长出来的、真正的第二大脑。」

 

 

车企集体「摸着理想过河」,结果都在2025年掉进了河里

过去几年,大家还在喊「增程真香」,但如今,市场已经变天了。

乘联会数据显示,2025年1月到10月,国内增程车型的销量同比增速只有5.7%。这个数字单独看或许还可以,但如果和纯电车型同期30.3%的增长对比,差距瞬间就拉开了。

更值得注意的是,从今年6月份开始,增程市场已经连续5个月下跌。这在过去几年增程狂飙的年代,是无法想象的。

不过,就在增程销量下滑的同时,车企却仍在疯狂「加码」。在11月的广州车展上,增程式车型仍是各家车企的主推车型。粗略算了一下,光是2025年这一年,已经发布或者即将上市的增程车就超过了20款。

这就形成了一个有趣的剪刀差:一边是销量的疲软,一边是供给的井喷。我们该如何理解这种分裂?增程这张船票,即将过期了吗?

工程师眼里的「怪胎」,用户眼里的「神车」

很多人以为增程系统是近几年才冒出来的新物种,但如果把汽车工业的时间轴拉长,你会发现它的历史很久远。

早在燃油车刚刚起步的1900年,保时捷创始人费迪南德·保时捷,就已经造出了世界上第一辆增程式汽车 Lohner-Porsche Mixte。

但为什么这一百多年来,这技术一直被扔在角落里吃灰?简单说,是因为它在技术和商业逻辑上都站不住脚。

增程车属于「既要又要」的思路,既要塞进电池电机,又要硬塞进一套发动机和油箱。在那个电池很贵、技术又不成熟的年代,增程就是个两头不讨好的「怪胎」:论重量,它比电车还沉;论价格,它比油车还贵。所以在很长一段时间里,增程在很多工程师眼里就是「脱裤子放屁」,纯属多此一举。

2022年上市的L9,正式开启了「冰箱彩电大沙发」时代 | 图片来源:视觉中国

2019年成为一个转折点。当时,新能源补贴开始大幅退坡,市场逻辑硬生生地从「政策驱动」转向了「市场驱动」。理想汽车敏锐地嗅到了家庭用户的真实痛点:大家关注的并不是技术路线的优劣,更关心价格、空间、配置。

理想ONE的成功并非源于技术突破,而是源于产品定义的胜利。理想非常聪明地利用增程结构省下了巨额的电池成本,然后把这笔钱全部砸进了用户肉眼可见的地方——Nappa真皮、冰箱、彩电、大沙发。

随后的故事我们都很熟悉了。主打家用SUV的理想ONE,初步验证了增程技术在商业上的可行性。特别是2021年5月改款之后,理想ONE迅速成为了当年的现象级爆款。而后来接棒的L系列,月销量一度突破5万辆大关。

回过头看,当时的增程车之所以能成功,本质上是理想通过「田忌赛马」的策略,用30万的价格,给用户带来了70-80万级燃油车(如宝马X5)的配置,同时它结合了「电驱动的平顺性」与「燃油车的补能便利性」。这种既没有里程焦虑,又能享受电车静谧感的体验,把当时的传统燃油车摁在地上摩擦。

从「真香」走向「红海」

如果说2019年是增程的觉醒期,那么2022年就是它的「爆发期」。这背后的推手,是疯狂的原材料价格。当时,电池级碳酸锂的价格从不到10万元/吨,一度飙升到了60万元/吨的天价。

对于纯电车型来说,这简直是灭顶之灾。相比之下,增程车只需配备纯电车型一半甚至三分之一的电池,成本优势凸显。

于是我们看到了一条几乎垂直拉升的增长曲线,从2021年到2024年,增程车销量的同比增幅分别达到了218%、130%、154%和70.9%。这种几何级数的增长,让整个行业都陷入了一种狂热的情绪中。直到2025年初,行业大佬们还在乐观预测,插混和增程将占据半壁江山。

问界M9上市后,成为50万级市场的「现象级」产品 | 图片来源:问界汽车

于是,国内的车企们迅速达成了一种默契——「摸着理想过河」。问界、零跑、深蓝等实力玩家纷纷入局,不管是新势力还是传统大厂的「创二代」,都开始疯狂下注增程赛道。

然而,市场最爱开的玩笑,就是在你决定随波逐流时,突然改变流向。从今年6月开始,增程车的销量增速连续5个月下滑。

与此形成鲜明对比的是,前两年略显疲态的纯电市场却在2025年迎来了「第二春」。2025年1-10月,中国市场共销售1089.4万辆电动汽车,同比增长24.2%。

虽然市场的风向已经变了,但汽车产业的惯性太强,这导致了一个非常魔幻的局面:一边是增程大盘在缩水,另一边却是新玩家在疯狂涌入。今年以来,小鹏、阿维塔、智己等曾经坚定的纯电玩家,也纷纷宣布布局增程路线。

小鹏推出X9增程版,意在北方市场和海外市场 | 图片来源:小鹏汽车

为了在这片红海中突围,这些后来者祭出了「增程2.0」,它的核心逻辑简单粗暴,就是「大电池+大油箱」。以前的增程车纯电里程在200公里左右,但刚发布的增程车纯电续航已经超过了400公里。比如智己LS9、小鹏X9的增程版,电池都超过了60度,续航超过400公里,这在几年前是不可想象的配置。

这其实是一个危险的信号:增程车正在无限逼近纯电车。 用户95%的时间当纯电开,那个增程器只是为了消除最后5%的心理焦虑。这也意味着,随着电池越做越大,增程原本引以为傲的成本优势正在被迅速稀释。

归根结底,过去几年增程的成功,本质上是一场精妙的「时间差」套利。它利用了「电池成本高」和「充电设施不足」这两个核心痛点,在燃油车和纯电车之间撕开了一道口子。但到了2025年,随着电池价格的下降和补能网络的完善,这两个红利正在迅速消退。

历史总是押韵的

如果我们把时间轴拉长,会发现科技圈从来没有新鲜事。

还记得电脑存储领域的SSHD(混合硬盘)吗?在固态硬盘(SSD)刚出来的时候,速度极快但价格也极贵,容量也不大。于是,部分厂商搞出了SSHD,在传统的机械硬盘里加了一小块闪存作为缓存。在那个特定的时间,它简直是完美的解决方案:既解决了机械硬盘启动慢的痛点,又保留了大容量存储的优势,关键是价格还便宜。

但结局我们都知道了,随着闪存颗粒产能爆发、SSD成本雪崩式下跌,SSHD几乎在一夜之间就从市场上销声匿迹了。

你可能想不到,黑莓手机在2010年依然占据50%美国智能手机市场份额 | 来源:视觉中国

手机交互的进化史也上演过类似的剧本。当年的黑莓全键盘,在触屏手机刚刚萌芽的时候,物理按键就是用户的「安全感」来源。它确实提供了确定的打字反馈,消除了人们对新技术的恐惧。但随着触屏和交互技术的成熟,物理键盘迅速变成了「累赘」。

面对这种必然的「过渡期」,摆在创业者面前的其实只有两条路。这无关对错,只关乎选择,以及你对自己手中筹码的清醒认知。

一种是像马斯克那样坚守「第一性原理」,不做中间态,直奔终局。这是一条少有人走的路,也是最难的路。既然物理学第一性原理证明了「纯电效率最高」,那就死磕纯电。遇到充电难,就去建超充桩,而不是在车上装油箱妥协。前期可能会被质疑、嘲笑,但一旦跨过拐点,你将拥有自己的护城河。

如果手里牌不够好,承认现实也并不丢人,可以利用「技术代差」的时间窗口,趁着电池还贵、充电桩还少,用增程车型快速回笼资金,活下去比什么都重要。

但这条路上埋着一个致命的陷阱,就是在增程取得成绩后,误以为这就是终点,然后在过渡技术上疯狂投入,这无异于自杀。正确的姿势应该是,赚过渡时代的钱,然后投向未来的路。这非常考验负责人对时机的把握。

现在的增程市场,正处于这两个逻辑激烈碰撞的交汇点。虽然销量占比在下滑,但增程技术不会消失,只是回归属于它的位置。在未来,增程可能不会成为主流用户选择,但可以退守为「特定场景方案」。在硬派越野穿越无人区,或者在极寒的高纬度地区,那些纯电依然无法触达的角落,增程依然有自己的价值。

OpenAI 上线「应用商店」;小红书被曝发力中长视频;《疯狂动物城 2》打破内地进口片观影人次记录

OpenAI 最强智能体编程模型 GPT-5.2-Codex 登场:AI 写代码新巅峰,优化 Win11 原生环境

12 月 19 日消息,OpenAI 今天(12 月 19 日)发布公告,宣布推出 GPT-5.2-Codex,是其迄今最前沿、最先进的智能体编程 AI 模型,专为解决复杂的现实软件工程问题训练设计。

该模型在 GPT-5.2 的通用智能基础上,融合了 GPT-5.1-Codex-Max 的终端操作能力,其核心突破在于引入了「上下文压缩」技术,让其在处理代码重构、迁移等长程任务时效率倍增。

针对开发者的实际工作环境,GPT-5.2-Codex 显著增强了在 Windows 10、Windows 11 原生环境下的智能体编码可靠性。

视觉性能的提升则是另一大亮点:该模型现在能更精准地解读技术图表、UI 截图及设计草图。开发者只需提供设计原型图,Codex 即可快速将其转化为功能性原型代码,并协助推进至生产阶段。

在技术指标上,GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 等权威基准测试中刷新了成绩。

OpenAI 目前已向所有 ChatGPT 付费用户全量推送 GPT-5.2-Codex,涵盖所有 Codex 相关界面。针对 API 用户,OpenAI 计划在未来几周内逐步开放访问权限。(来源:IT 之家)

OpenAI ChatGPT 正式上线「应用商店」

12 月 18 日消息,当地时间 12 月 17 日,OpenAI 发布公告称,公司此前推出了 ChatGPT 应用功能,即日起,开发者可遵循应用提交指南提交应用,以供审核和在 ChatGPT 平台发布。

这类应用能够为 ChatGPT 对话增添全新场景信息,并支持用户直接在对话中完成各类操作,比如订购食品杂货、将大纲转化为演示文稿、搜索公寓房源等。

用户绑定应用后,在对话中 @ 应用名称,或从工具菜单中选中应用,即可触发应用功能。此外,OpenAI 正尝试借助对话场景、应用使用习惯、用户偏好等信号,在对话过程中直接为用户推荐相关且实用的应用,并为用户提供清晰的反馈渠道。

在当前初期阶段,开发者可在其 ChatGPT 应用中设置跳转链接,引导用户前往自有网站或原生应用,完成实体商品的交易流程。未来,OpenAI 将探索更多变现模式,包括数字商品变现等,后续会结合开发者与用户的使用及互动情况,分享更多相关信息。(来源:IT 之家)

 

TikTok 内部信曝美国方案:字节跳动仍保留电商、广告业务,新合资公司仅负责数据安全

12 月 19 日消息,当地时间 12 月 18 日,TikTok CEO 周受资发内部信,公布了 TikTok 美国业务最新进展。

内部信显示,字节跳动、TikTok 已与三家投资者签署协议,并将成立新的 TikTok 美国合资公司。新合资公司名为 TikTok 美国数据安全合资有限责任公司(TikTok USDS Joint Venture LLC),将负责美国的数据保护、算法安全、内容审核和软件保障。由字节跳动全资控股的、TikTok 在美国的其他实体将继续负责电商、广告、市场运营等商业活动,以及 TikTok 产品的全球互联互通。协议相关事宜将在不晚于 2026 年 1 月 22 日完成。

这与国内媒体此前曝光的 TikTok 美国方案一致。据观察者网等媒体此前报道,TikTok 未来在美国运营主要涉及两个主体:

  • 「字节跳动 TikTok 美国公司」将负责电商、品牌广告等商业活动,以及全球互联互通等。该主体由字节跳动 100% 全资持有。

  • TikTok 美国数据安全合资公司,即此次内部信提到的 TikTok 美国数据安全合资有限责任公司。它将负责美国数据与内容安全、软件保障等,以符合美国法律要求。

内部信还提到,新合资公司将负责算法安全。字节跳动仍会继续拥有 TikTok 算法的知识产权,授权新合资公司使用,并向后者收取授权费。

目前,电商、广告、市场运营等商业活动仍是 TikTok 的主要收入来源,仍将由字节跳动全资控股的 TikTok 美国公司等实体负责。新合资公司负责的数据、内容安全等业务为非营利性质,且运营成本很高。为保障合资公司运营,上述主体间会有商业上合理的收入分享安排。(来源:IT 之家)

 

AI 投入再加码,消息称理想汽车在硅谷成立新研发中心

12 月 18 日消息,今天上午,36 氪援引知情人士消息称,理想汽车正式筹建硅谷的 AI 研发中心,将负责智能化技术研发,已在数月前开启人员招聘。

在该中心筹建之前,理想在北美有一个小型研发团队,支持芯片研发及其他 AI 相关工作。而这次的动作,旨在将硅谷团队升级为一个真正的研发中心。

该中心此次扩建主要面向辅助驾驶领域并希望招募「具备前沿 AI 背景」的高端人才。据 IT 之家了解,除硅谷 AI 研发中心外,理想首座海外研发中心位于德国慕尼黑。该中心今年 1 月开业,负责前瞻造型设计、功率半导体、智能底盘和电力驱动的下一代技术预研。理想汽车在国内的两座研发中心则分别位于北京、上海,主要负责核心技术突破及整车研发。

而在「蔚小理」三家造车新势力当中,蔚来、小鹏分别于 2014、2018 年在硅谷建立研发中心。作为全球 AI 技术的「人才高地」,硅谷云集特斯拉、Waymo、OpenAI、英伟达等 AI 行业头部企业,中国企业在此处有机会直接接触前沿技术、高端人才。报道提到,国内 AI 技术人才,尤其是具备大模型与自动驾驶交叉背景的高端人才仍显稀缺,硅谷无疑是「破解这些难题的关键」。(来源:IT 之家)

 

小红书社区架构被曝再调整,发力中长视频

据报道,小红书在几个月前对社区组织架构进行了深度调整,意在进行「产运研一体化融合」,该知情人士告诉凤凰网科技,新划分的职责中,由云帆(薯名)和新岛(薯名)各自负责。小红书此次架构调整,是为了解决一个问题:增长。2023 时,小红书曾定下「坐一观三」策略,即坐拥 1 亿 DAU 向 3 亿 DAU 进发。

云帆负责的部分命名为「Live」,直接向小红书 COO 柯南(薯名)汇报;新岛负责的部分命名为「Village」,依然向社区业务负责人帕鲁汇报。「过去我们是垂类运营的逻辑,现在是变成依据不同业务目标来划分」,前述知情人士表示。

另一知情人士告诉凤凰网科技,Live 或将对应一部分 PGC 内容,初步规划为做优质中长视频,时长或超过 2 分钟,未来希望培养更多大 V。值得一提的是,云帆上一个供职公司正是 B 站,在视频运营方面有更多经验。(来源:凤凰网科技)

马斯克称 xAI 或明年实现 AGI,两三年内超越竞争对手!

全球首富埃隆·马斯克(Elon Musk)既是特斯拉的首席执行官,也是 xAI 的创始人,这两家公司目前都在推进人工智能(AI)项目。而他本人似乎对 xAI 的未来很是乐观。

据几位知情人士最新对媒体透露,上周在 xAI 公司旧金山总部举行的全体员工大会上,马斯克扬言,只要公司能够顺利挺过未来两到三年,xAI 就能战胜竞争对手。他补充称,该公司快速扩展其算力和数据容量的能力将是在所谓「超级智能」(即超越人类智能)的竞争中致胜的关键,并最终有望让 xAI 成为最强大的 AI 公司。

根据消息人士援引马斯克的说法,xAI 有可能在未来几年内实现通用人工智能(AGI),即达到或超越人类智能,甚至最早可能在 2026 年实现。

今年 11 月,马斯克曾公开表示,xAI 的 Grok 5 模型有 10% 的可能性实现 AGI,他说该公司计划明年初发布这款模型。(来源:快科技)

 

苹果新模型 1 秒让照片变 3D,且具有真实物理比例

据 IT 之家引援科技媒体 9to5Mac 12 月 17 日发布博文,报道称苹果公司开源名为 SHARP 的新型 AI 模型,该技术能在一秒内将单张 2D 照片转换为逼真的 3D 场景。

苹果发布名为《一秒内实现清晰的单目视图合成》(Sharp Monocular View Synthesis in Less Than a Second)论文,详细介绍了如何训练模型,在接收用户输入的一张普通 2D 照片后,能在一秒钟内重建出具有真实物理比例的 3D 场景。

与需要数分钟甚至数小时处理的传统方案相比,SHARP 将合成速度提升了三个数量级,实现了近乎实时的 3D 转换体验。

传统的 3D 重建通常需要对同一场景拍摄数十甚至上百张不同角度的照片,再通过复杂的计算来确定这些光团的位置。然而,苹果通过使用海量的合成数据与真实世界数据训练 SHARP,让其掌握了通用的深度与几何规律。

因此,当面对一张全新照片时 SHARP 能通过神经网络的单次前馈传递,直接预测出数百万个 3D 高斯球的位置与外观,瞬间完成建模。(来源:36 氪)

 

京东武汉小哥之家首批入住,面向全职骑手和快递员

据京东黑板报消息,近日,位于武汉武昌区中南路的一栋四层单元楼,京东快递小哥与外卖骑手已陆续搬入。这里是京东在武汉落地的首个独栋式「小哥之家」,通过整栋租赁的方式免费为一线京东快递小哥及京东全职骑手提供住宿。

官方介绍,这一「小哥之家」地理位置便利,覆盖周边京东站点。武汉「小哥之家」负责人表示,该栋「小哥之家」由京东整租后,开放给周边站点有需求的全职骑手和快递员,申请后最快当天即可入住。

据悉,「小哥之家」每间宿舍均配备独立卫浴且干湿分离,并配置空调、床铺、书桌和热水器等基础生活设施,拎包就能入住。后续也将结合业务布局和实际需求,在武汉其他区域探索推进更多「小哥之家」落地。

当前,京东已探索在北京、武汉、成都等多地落地「小哥之家」,通过自建、整租等多种方式,为一线员工提供住房保障。此前,京东宣布:已面向一线员工提供了 2.8 万套住房,未来 5 年还将投入 220 亿元,提供 15 万套「小哥之家」。(来源:新浪科技)

 

腾讯官方回应元宝质疑:一切「内容由 AI 生成」,评论均由元宝 AI 生成,背后没有人工运营

今日腾讯官方发布声明,回应近期用户关于元宝的争议话题。官方表示,一切带有「内容由 AI 生成」字样的评论,均由元宝 AI 生成背后没有人工运营,没有团队轮班。

此外,腾讯还表示,如果你收到了元宝的评论回复下面没有带「内容由 AI 生成」的标识,那一定是背后的小编逐字逐句、有情有感的真人回答。

据悉,目前腾讯各大产品评论区已经全部接通元宝,包括微信公众号、视频号、QQ 浏览器、腾讯新闻、QQ 音乐、腾讯自选股、腾讯视频,都能艾特元宝。

并且官方表示,在微信和 QQ 都可以添加元宝好友,在 QQ,群聊支持元宝一键总结,几秒内帮用户爬 999+的群聊消息。(来源:新浪科技)

雷军:小米 17 Ultra 手机下周正式发布!

12 月 18 日,小米创办人,董事长兼 CEO 雷军宣布,小米 17 Ultra 手机下周正式发布!

此前爆料称,小米 17 Ultra 手机开发代号为「哪吒」(Nezha),延续了小米 15 Ultra 标志性的圆形相机模组设计,采用高通第五代骁龙 8 至尊版芯片,预装澎湃 HyperOS 3.0,此外已确认其国际版机型将支持卫星通信功能,为用户在偏远地区提供可靠的连接保障。

另外,型号为 25125PS17S 的小米新品于 11 月 19 日通过了工信部 3C 认证,消息称该产品为小米新款专业摄影手柄,同样可以当移动电源,是小米 17 Ultra 专属影像配件,首款「三证齐全的第五代骁龙 8 至尊版超大杯」。(来源:IT 之家)

 

消息称豆包大模型联合润欣科技、老凤祥开发 AI 眼镜,预计明年初上市

12 月 18 日消息,据《科创板日报》今日报道,豆包大模型正与润欣科技、老凤祥联合开发 AI 眼镜,价格约在 2000 元以内,预计明年初上市。该 AI 眼镜由火山引擎提供 RTC 实时音视频和豆包大模型,润欣科技提供模组和硬件程序设计。

就在 6 月 11 日的国际养老、辅具及康复医疗博览会以及火山引擎原动力大会上,老凤祥的 AI 眼镜已正式亮相。据介绍,该款眼镜具备语音导航、实时翻译、智能辅助阅读、情感对话等功能,后台由豆包大模型提供技术支持。

然而,据财经网 6 月 12 日报道,火山引擎相关负责人表示:火山引擎没有与老凤祥合作打造 AI 智能眼镜的计划。豆包大模型为公开售卖产品,任何客户都可以合规采购。(来源:IT 之家)

6 年的纪录被打破了,《疯狂动物城 2》夺进口片观影人次冠军!

《疯狂动物城 2》以 9106.4 万观影人次登顶榜首,超越《复仇者联盟 4:终局之战》(8681.2 万),成为内地影史进口片观影人次冠军。

《疯狂动物城 2》是 TOP10 中唯一一部 2025 年上映的新作,其余影片均为 2019 年及更早的作品。(来源:快科技)

火山引擎的「火」,是怎么点起来的

作者|张鹏

编辑| 郑玄

 

半年前,我写过一篇火山引擎的战略方向分析,当时我判断,火山引擎已经被明确为字节的一个战略目标:因为字节在 AI 时代需要有最好的底层技术和基础设施,那么这件事必须不能只是自造自用,而是要通过「外循环」来验证和放大,所以火山引擎要做好,也必须是 「AI 云原生」。

其实过去两年,所有云业务的企业,都已经意识到云的未来,不再是旧赛道里卖服务器、卖带宽的存量博弈,而是 AI 能力带来的全新需求。在这个新时代,云厂商卖的不再是底层的「资源」,而是经过封装的「能力」。

有趣的是,MaaS(模型即服务)过去 2 年被提出,但是经历了早期「尝鲜」后,也一度被业界怀疑过,当时主要的原因是模型如果本身不行,不能真正解决企业问题,这个模式就不能真正成立。

不过这半年火山引擎死磕 MaaS 的一些更具体的业务发展,我觉得 MaaS 这件事已经可以不用讨论了,它绝对就是未来的云服务的核心业务。

为什么说火山是在「死磕」MaaS 呢?先说个最近在媒体上看到了一个火山的「八卦」,大概意思是说火山引擎内部,CDN 这种传统业务的销售权重被降到了很低;而 AI 的 Token 调用量,直接成了核心指标。甚至有的销售 CDN 等其他传统云业务做得挺好,但因为 MaaS 卖不出去就最终淘汰出局。

这个「八卦」如果换个视角看,反而说明火山引擎对 AI 云原生和 MaaS 的重视相当贯穿到执行层,确实在用 组织架构的调整、用考核机制的引导来推动战略

压强够了,事情就会有突破。从我在业界了解的消息看,更重要的是火山引擎 2025 年相当突飞猛进,业绩上非常火。而这个火也确实来自于 MaaS 惊人的高速增长。结合 12 月 18 号的 Force 大会上我看到的一些信息,感觉又值得分析下这个 AI 云原生领域的大玩家「火从何来」了。

 

01

MaaS 的核心是

「与商业世界的需求对齐」

 

想要让销售劝客户把预算从传统 IT 转给 AI,前提是手里的模型和工具得真能解决业务问题,而不是让客户当「小白鼠」。这次 Force 大会,给我的最大感受是: 火山引擎展示的不仅是模型,也相对更全面的展示了为了让 AI 能真正落地,他们过去所积累的「家底」。

企业 AI 下一阶段是让 Agent 真正创造业务价值丨来自:2025 原动力大会·冬

 

未来的大模型,理解和执行是统一的。我们现在看到的 AI 大多还在「理解」阶段——用户向 AI 提出需求,它可以帮忙写写文案、聊聊天。但现实世界的需求其实已经要求模型必须能直接操控软件、调用 API、完成复杂的企业级 RPA 任务。

不知道大家是否注意到了,豆包 1.8 有一个明显的进化方向,就是 Agentic 代理能力。豆包在这个版本里重点增强了 Tool Use(工具调用)和 OS Agent(屏幕操控)等能力。这和 Gemini 3.0 Pro 等全球顶尖模型的进化路径是完全一致的: 让模型这个大脑不仅「能理解」,还要长出「能干活的手」。

举例来看,豆包 1.8 现在支持 OS Agent,意味着它可以像人一样「看懂」电脑屏幕,去点击按钮、填写表单。天下绝大部分的公司都不是「AI Native」的,所以这次升级对于企业内部大量陈旧的、没有 API 接口的 ERP 系统来说,这就是让 AI 接管繁琐工作的关键钥匙。

以前大家关注模型的能力聚焦在追求智能上限,我相信这一点是字节内部的基础模型团队一直在做的。而火山引擎是字节跳动「内循环」+「外循环」的好处,就是一方面可以依托字节基础模型团队,既支持与字节的业务发展,同时也连接着更大真实世界的需求。

有了需求目标,从基模能力到可用的模型技术的发展,才变得更有方向感,比如「理解和执行一体化」的能力,就是可以对现在非「AI Native 企业」AI 进化关键的落地点,而前段时间火爆的豆包手机助手,其实就是这个能力的「内循环」,而火山引擎现在把这种能力同步开启「外循环」,会让技术创新变得更有意义。

MaaS 过去一段时间能卖的那么火,以及未来可以继续看涨,本质上还是因为这个 「双循环」带来的目标与能力和真实商业世界的对齐。

另外,从这次火山引擎正式发布了 Agent 开发套件「Agentkit」来看,其具备 8 个核心模块依旧是在「与现实商业世界对齐」。这次火山提供了 Agent 在开发、部署、运维、调优等各个阶段所需要的工具和基础设施。其中让我印象很深刻的有两个模块: Identity(身份与权限)和 Evalution(评估)。

Agent 落地到企业里,一个很细节但是关键的问题就是怎么给 Agent 设定清楚它的身份——比如一个客服 Agent 能接触到哪些数据,可以回答什么样的问题;比如一个实习生的 Copilot,和高级副总裁的个人助理,怎么避免二者的信息权限混淆。规避实习生可以通过 AI 轻松拿到公司敏感信息这种情况出现。这些都是看似细节基础,但实际上做起来复杂,而一旦出现问题却有可能给企业造成重大损失的实干问题。

还有就是 Evalution(评测)的能力。做过 Agent 开发的人都知道,最大的痛点不是怎么搭建环境训出一个 Agent,而是不知道怎么评估一个 Agent 在业务场景里的能力,毕竟不能把一个刚训出来还不知深浅的 Agent,随便就丢进生产环境里测试。

而 Agentkit 的 Evalution(评测),其实就是一系列评测 Agent 在真实场景中工作能力的测试集。这个一直是个没有被很好解决的问题,如果对标一下其他国际云大厂,其 Agent 开发工具内置的评测集好像也只有十几套。而火山这次一口气发布了超过 50 套评估测试集。

场景积累的意义在这里就体现了。显然字节跳动内部本身就有几万个 Agent,每天进行几十万次的评测,所以火山是个巨大的基础资产。从抖音电商的客服机器人,到 TRAE 的 Coding 助手,这些业务的需求倒逼火山团队必须建立有效的 Agent 评测能力。这些为了支撑内部庞大业务而磨练出的「基建能力」,现在成了火山 MaaS 服务的底座。

 

02

多模态一定是云厂商竞争的「新赛点」

 

除了基模和基建的扎实推进,在这次 Force 大会上,我们还看到了一个信号: 多模态(视频、语音、图像)的理解和生成能力,正在成为 MaaS 增长的新赛点

据我了解,火山内部也已经形成了一个认知 :每增加一种多模态模型能力,MaaS 的销售就能带来显著的百分比增长。

这不难理解,今天商业世界的大量场景是视觉的。视频带货、在线教育、娱乐社交,这些才是用户和需求最集中的场域,而要让 AI 和 Agent 在这些场域发挥作用,不论是与用户对话交互、生成内容,还是理解这些场景里的内容,解决用户或者创作者的问题,都离不开多模态模型的能力。

而多模态能力恰恰也是字节跳动的「主场」。豆包是最早具备图像识别能力的大模型之一,还记得 2025 年高考时,豆包在看图解题上的表现就让人印象深刻。而在今年 IF 大会上做出精彩分享的张楠,其领导的即梦在今年国内「产业级 AI 视频生成」落地竞赛里处于领先地位,这背后其实都是同源的技术栈。

而这次发布的 Seedance 1.5 Pro,解决的核心问题不是「生成」,而是「可用性」。它重点突破了音画高精同步和多语种对白,尤其擅长中文方言和对口型等。做过影视创作或短视频的人都知道,这才是从「玩具」变成「生产力」的关键。这意味着,未来的短剧、广告片,甚至是一部分的电影镜头,真的可以用 AI 直接生成了。

豆包 Seedance 1.5 Pro 丨来自:2025 原动力大会·冬

 

同时,豆包 1.8 的视觉理解能力也大幅提升,支持 90 分钟长视频的低帧率快速理解,并且支持调用工具对关键片段进行高帧率处理。这意味着模型不再是只能看懂一张图,而是能像人一样看完半场篮球赛,并分析出战术布局。

简单总结一下就可以看出,火山引擎未来一段的发展战略和主要焦点,就是在「与商业世界对齐」的工具环境和模型能力上。而多模态能力的领先,恰恰将给火山引擎带来重要的战役制高点。

 

03

客户实际上在买

字节跳动的「技术溢出」

 

要理解为什么火山引擎今年这么火,其实值得换个客户视角看看他们买单的深层逻辑到底是什么?

由于极客公园接触创业者比较多,至少从他们的视角,我听到了一个有趣的观点: 今天企业用火山引擎,本质上其实就是在「薅字节跳动的技术羊毛」,享受其技术外溢的红利。

我们来看一组震撼的数据。在这次 Force 大会上,火山公布了一个核心数字: 豆包大模型的日均 Tokens 调用量已经突破了 50 万亿

这是什么概念?作为对比,谷歌此前刚刚宣布今年 9 月的全月 Tokens 消耗量为 1.3 千万亿,也就是日均 43.3 万亿。换句话说,火山引擎如果没吹牛,那么每天处理的 AI 调用量,已经站在了全球云平台的第一梯队,甚至在某些维度上实现了超越。

这 50 万亿的调用量似乎是有水分呢?我觉得如果考虑到字节跳动内部庞大的「内循环」需求,大概率是差不多的。

2025 Force 大会上火山引擎发布全景图丨来自:2025 原动力大会·冬

 

字节跳动的特点是,模型闷头做,然后自己的狗粮自己猛吃。其内部大量的应用和场景,模型调用早就无处不在,每天都在产生海量的 Tokens 调用。这种天然的环境就必然带来一个原生的能力——为了支撑这个体量的内循环,为了让字节自己的业务能跑通、能赚钱,字节的技术团队必须把推理成本压到极致,必须把 AI 云原生的能力做好。

其实今天我接触的优秀创业团队和投资人们都有个共识, 无论什么形态的产品,今天都是个「容器」:一个在场景里赢得用户,形成「数据飞轮」的容器。它的形态会不断演化,甚至终将走向「产模一体」(也就是需要有自己的最优模型) 。但是今天的核心不是探讨模型是谁的,基础设施是谁的,而是最高效构建可以拉进用户,产生数据飞轮的进程。

所以这个时候,就可以理解为什么创业者们一方面「怕字节」做和自己类似的产品,但是又很坚决的会选择火山引擎的 MaaS 服务。核心是他们希望抓住字节跳动内部技术能力的溢出,就算随着发展和能力积累肯定要自己的有模型,那今天也要坚决薅「字节的技术羊毛」。

显然更多的真实商业世界里的企业,也开始想清楚了这个问题。目前火山引擎日均 Tokens 调用量突破一万亿的企业客户已经超过了 100 家,这个数字还在快速上升。

火山引擎这种在 AI 时代支持字节「内循环」+商业世界「外循环」的双循环模式,确实有点势不可挡。接下来几年,是国内商业世界非常值得关注的一个新变量了。

IF 2026 最大「黑马」:钢铁侠故事背后的温度和创新

整理|曹思颀

编辑| 靖宇

 

这大概是 IF 2026 舞台上最大的一匹「黑马」。

没有太多观点和「暴论」的硬输出,也没有渲染出对未来和「增长」过多的乐观或期待。Hypershell(极壳科技)年轻的 90 后创始人孙宽,从技术栈、PMF 发掘、用户洞察、产品体验等多个维度,深度复盘了他和创业在创业各个阶段的关键思考和决策。

Hypershell 所在的「消费类外骨骼」赛道,今年在各大短视频平台获得了大量曝光。但实际上,在 2021 年 Hypershell 之时,这个品类仍然处在行业和投资界的共识之外。孙宽在上百场融资路演中遭到拒绝,投资人既不相信这个品类背后的技术可以快速成熟,也不看好市场对这种新产品的需求。

4 年之后,Hypershell 的产品不仅已经完成了对数万名用户的成功交付,而且外骨骼也彻底摆脱了过往工具设备或「医疗辅助器械」的形象。户外摄影师、背包客、徒步和滑雪爱好者们,把 Hypershell 带到了更远更酷更广阔的场景里,给予了这个品类更好的可能。

在小红书上,关于这场分享有两条让笔者印象深刻的评价:

  • 「原本以为又是一个俗套的钢铁侠故事,没想到真诚是必杀技,看到了一位诚恳的追梦人」
  • 「技术本身不伟大,但让技术贴近普通人、贴近真实生活,这件事很伟大。」

以下是 Hypershell 创始人 & CEO 孙宽在极客公园创新大会 2026 上的演讲实录,由极客公园整理。

嘉宾核心观点提炼:

  • 具身智能不仅是创造独立于人类、旨在「取代人」的智能(如自动驾驶或人形机器人),还包括旨在各种场景下「增强人」的技术,而外骨骼正是这一方向的载体 。
  • 从工业走向消费级的两大关键技术突破: 构型突破和重点控制;电机电驱技术的发展。

 

  • 选择了反直觉的品类策略: 尽管老年人市场需求看似显而易见,但「医疗辅具」的品类心智可能限制市场上限。先通过硬核户外人群建立「酷」的积极心智,才能真正打开品类天花板。
  • AI 成 为了外骨骼的「外置小脑」。 得益于模型算力,AI 能准确预测用户动作趋势并自适应地形,如同 iPhone 用电容屏实现单按键交互一样,AI 让外骨骼实现了仅需一个开机键的极致简化交互。
  • 面对第一代原型机用户体验不佳的反馈,Hypershell 选择推翻重来,因为「体验不够好,对用户来说就是没有体验」。

孙宽在 IF 2026 舞台上|图源:极客公园

以下为孙宽在 极客公园创新大会 2026 上的发言全文:

极客公园的朋友们大家好,我是 Hypershell 创始人孙宽,很荣幸在这里跟各位一起交流。Hypershell 的方向和今年极客公园创新大会的主题非常一致,我们都在创造一个全新的「进程」:一个关于人类的潜能和自身行动力的进程。

 

01

从 0 到 1,找到消费级

外骨骼的「技术起点」

 

当我们谈到「具身智能」时,大家脑海里第一个画面是什么?

也许是一个自动驾驶的汽车,或者一个聪明的人形机器人。这些都非常酷,在试图创造一个独立于人类的智能。

但其实,具身智能还存在另一个方向:外骨骼。如果人形机器人的终极目标是在某些场景下「取代人」,那外骨骼的目标就是在各种场景下「增强人」。

今天,我不太需要再用过于复杂的语言解释什么是「消费类外骨骼」。因为大家已经在很多景区看到过产品租赁,甚至有人穿着我们的产品打破了马拉松纪录。

在户外场景下的消费类外骨骼产品 | 图源:Hypershell

但在今年之前,情况都完全不是这样。很长一段时间里,外骨骼的定位都是「工业设备」。

一方面,受限于那时的机器人动力技术,传统外骨骼只能靠气压或液压驱动,笨重且行动迟缓。要知道,每增加 1kg 的负重,人的新陈代谢就会增加 2%。而一个 10kg 的设备穿在身上,就要增加 20%-30%的额外负担。

另一方面,受限于当时的 AI 能力,传统外骨骼只能按规律步态反复运动,无法适应复杂地形和千人千面的消费级用户需求。

所以,传统外骨骼往往「局部省力,整体费力」。很多时候穿上它,人反而更累了。

我记得 2021-2022 年,整个外骨骼行业的年销量加起来也不超过 1000 台。所以,当 Hypershell 在 2022 年寻求融资时,遭遇了上百场失败的路演连续的拒绝。我们面临最多的三个问题是:

「为什么几十年了这个品类没有人做出来?

为什么你可以?

为什么普通人需要一个消费类的外骨骼产品?」

作为一个从无到有的全新品类,在开始阶段总会遭遇投资人的「灵魂拷问」 | 图源:极客公园

这些问题在当时很难回答。但身处行业之中,我还是从学术和产业两个方向,在技术层面看到了通往未来的可能。

第一个判断,来自于我研究生的方向:外骨骼模拟和理论分析。这是一种从能量和第一性原理,判断外骨骼是否有效的工具。

研究过程中我发现,能对人产生显著正向作用的外骨骼产品,是存在理论可行性的。并且,我在模拟过程中也找到了非常有意思的构型——用一套动力系统同时为两条腿提供助力。

这个在当时被认为有些反直觉的想法,通过仿真验证,后来演变成了我们的第一代产品,也是全球首个单电机外骨骼。它极大程度地降低的外骨骼的重量、成本和结构复杂度。

第二个判断,视角来源于机器人行业的发展。

2019 年,MIT 开源了四足机器人论文,给行业揭示了一种全新的驱动方式——QDD(准直驱电机)。相较于传统的液压和气动方式,QDD 动力方案可以做到极高的功率密度、扭矩密度和控制精度,同时很好地控制成本。今天,电驱的扭矩和功率密度已经达到了人类肌肉的 10 倍以上。

在这些基础上,我们把消费类外骨骼从不可能变成了可能。

 

02

户外人群,让品类变得更酷

 

下一个重要问题,是「产品需求」。

做创新方向的硬件公司,最容易死在需求不明确,也就是「拿着锤子找钉子」。Hypershell 今天找到的主流消费人群包括:户外摄影师、背包客、旅游、徒步和登山爱好者 。对他们来说,外骨骼可以帮助他们走得更远、看得更多,去拍摄没有拍过的风景。

还有一部分,是我们之前自己都没有意识的用户群体。例如:越野滑雪和滑翔伞人群。外骨骼能帮助他们减轻上山的消耗,把更多精力留给下山的过程。

这些就是我们定义的「户外功能性出行人群」,即:从 A 点到 B 点,带有明确目的属性的人群 。

Hypershell 通过户外场景,改变了消费者对外骨骼的品类心智 | 图源:极客公园

当然,也有很多人问我们:为什么不先做老年人市场?这看起来是个更显而易见的需求。

其实,这是一个品类策略的问题。在 Hypershell 出现前,所有人对外骨骼的第一印象都是「医疗辅具」,谁穿就代表谁的身体「有问题」。不仅年轻人无法接受,老年人也非常抗拒。就像我们的父辈们抗拒助听器一样,觉得戴上就承认自己变老了。而一个负面的品类心智,会极大限制未来的拓展上限 。

相反,硬核户外人群则代表着对自由的向往和世界探索的渴望,这是一种非常积极的品类心智。

我们认为,只有当一个品类给用户留下的第一印象是「酷」,它的天花板才能被真正打开。

经过几年的尝试,这个策略被验证是有效的。今天,即使是老年人购买了我们的产品,他分享的内容也是和家人一起去看风景,重新登上了 10 年前能登上的那座山。Hypershell 成功改变了这一代人对这个外骨骼的看法,打开了品类的拓展空间。

 

03

「至暗时刻」和「意义感瞬间」

 

找到市场定位只是第一步。

作为穿戴类产品,外骨骼产品必须非常关注用户体验。具体来说,就是让用户获得的「正向收益」大于可能造成的「负面负担」。否则,即便是 Vision Pro 这样沉浸性很好的产品,也会因为佩戴舒适性,无法得到高频使用。

运动识别在长一段时间里,制约着外骨骼的发展。设备贴身穿戴,需要配合人一起做各种复杂的动作,应对多样化场景。所以,外骨骼需要一个跟人一样的 「 外置小脑 」 。

过去,这很难通过一套固定算法解决。

幸运的是,得益于今天的模型算力和大量用户数据,现在的产品可以比你更快知道你下一步的动作,可以准确预测你的动作趋势。无论是走路、跑步、上下楼梯、上下坡,还是骑自行车,它都能通过 AI 自适应,把所有自行车变成 E-bike。

就像电容屏让 iPhone 可以只保留一个 Home 键,AI 的出现,让 Hypershell 也可以实现极致简化的交互门槛,用户除了开关机不需要任何其他操作。

在外观设计上,Hypershell 只保留了一个开关机的物理按键 | 图源:Hypershell

带着这样的理念,我们在 2023 年通过众筹上线了第一款原型机。虽然拿到了几千个用户的支持,验证了需求,但很快我们就陷入了谷底——第一批灰度测试用户对产品的评价没有一个超过 60 分。用户们抱怨穿戴不舒服、助力姿势别扭、不兼容背包。

我想,如果把这样的产品发给用户,结果不仅这家公司可能就没了,整个行业的发展也会被严重拖后几年。

经过挣扎,我们决定砍掉第一代,重新开发第二代产品。我们本以为只需要半年时间,但因为采用了新构型,所有东西都要重做,最终用了一年半时间才完成开发,也导致我们众筹发货延迟。

而且,由于第二代产品采用了全新的双电机方案,成本比原来贵了几乎一倍,每发一台都在亏钱。但幸运的是,用户给予了我们足够的理解,最终产品也成功交付到了几万个用户手中,并开始对他们的生活产生帮助。

这是我们创业以来的「至暗时刻」之一,但一些画面又让我觉得所有煎熬都是值得的。

第一个图是我朋友发给我的,图片是一位老爷爷穿着我们的产品在地铁里。这让他想起了自己去世的爷爷。他说,如果这样的产品早出现几年,老人晚年的生活质量可能会更高。

第二个画面来自前段时间中国香港的火灾救援。我们捐助的外骨骼产品,让救援人员在灾后连续攀爬 30 多层楼的过程中,可以更好地保持体能,聚焦在救援上。这让我们感觉到科技赋能了生命,是我们意义感的高光时刻,也是人类历史上第一次动力外骨骼被规模化应用在抢险救援场景。

随着老龄化、城市化和数字沉浸,人类的平均年龄在增加,但平均行动力在下降。疫情隔离那几年也让我强烈感受到,我们的幸福感和驱动力很大程度上来源于和真实世界的连接。所以,我们的使命是:用技术增强人们的行动力,让每一个人的世界能够变得更大。

我最近的一个强调感受是:我们好像真的活在一个科幻的时代,过去想象里的东西都在加速的成为现实。在 AI 和机器人的技术赋能下,像外骨骼这样,过去大家认为不可能,或者已经存在但体验并没有那么好的品类,都可以被重新思考和设计。

这是一个无限可能的时代,也是属于我们这代人机会。我期待未来和大家一起,把我们想象里人人都在「钢铁侠」的世界变成现实。

人人都能当电影导演?万相 2.6 杀疯了:角色扮演、分镜控制,硬刚 Sora2

作者|Cynthia

编辑| 郑玄

还记得国庆期间朋友圈被 Sora 2 APP 支配的恐惧吗?

那时候,一定没人想到,这个出场即炸场的产品,同样出道即巅峰。

向来以天为单位不断刷新 sota 表现的大模型市场,唯独在视频生成上,此后足足两个多月,无论是谷歌 veo3.1 还是 Runway 推出的模型,都没能再现 Sora 2 在多人物不崩脸这个小细节上的稳定表现。

直到 12 月 16 日阿里万相 2.6 正式发布。在追齐 Sora 2 体验,并且推出独有的音频驱动生视频能力之外;万相 2.6 的这次升级更是将视角对准了多模态内容创作中多镜头切换、内容一致性的各种真实痛点,做到了让专业创作的乙方少加几次班,普通的 C 端内容创作爱好者 0 成本上手。

那么万相 2.6 体验究竟如何?它能否和 Sora2 一战?一定程度上,回答了这些问题,也就回答了未来多模态大模型究竟去往何方的核心命题。

 

01

万相 2.6 究竟做对了什么?

 

12 月 16 日,阿里旗下万相 2.6 正式发布,我们第一时间拿到了内测资格。

我们发现,这个涵盖文生视频、图生视频和角色扮演功能,图像生成和文生图共 5 款模型的组合拳产品,从功能亮点和功能丰富度角度来看,万相 2.6 已经是当之无愧国内的佼佼者 根据权 威大模型评测集 LMArena 的测试数据显示,万相图生视频位居国内第一

因为相比老对手 Sora 通过写实生成效果引发全球轰动的野心;万相这次 2.6 版本的能力升级其实主打就一个词,实用,并且把所有升级点砸向了影视制作、广告设计、短视频创作的真实痛点。

内容创作圈最头疼的,莫过于一致性崩塌。在传统动画行业,吉卜力工作室为了保证角色形象不跑偏、风格一致,会为了一部电影,几百位画师耗时两年画十几万张画稿,4 秒镜头能磨 1 年。而 AI 生成的噩梦,恰恰是前一秒主角还是圆脸,下一秒变成锥子脸,说话时嘴型和台词完全脱节。

针对这个痛点,万相 2.6 这次升级直接把声画一致性拉满,成为国内首个支持角色定制 + 音色同步的模型 :用户输入一段视频,AI 就能精准复刻角色的五官、动作甚至说话语气,就算是双人合拍,也不会出现脸飘到别人头上、镜头切换主角直接变脸的乌龙。

解决了一致性,下一个拦路虎是复杂场景的多角色呈现。

目前 Sora 2 与万相 2.6,是全球唯二实现该功能的模型。并且,万相 2.6 还能结合刚才提到的角色、声音一致性能力,让 AI 真正具备了一定的复杂画面生成能力。

而建立在一致性、多角色的基础之上,镜头调度和灯光审美往往是人类高质量视频内容的灵魂。

被奉为经典的宫廷剧《金枝欲孽》片头,导演通过一段不到 5 秒的镜头切换里,以及演员站位的变化,就说明了五个主要人物之间的关系与感情纠葛,二十多年过去,至今仍被奉为神级镜头调度。

王家卫电影的氛围感与幽微的人物情绪流动,也有一半功劳要归给灯光师的精准控光。

但以前 AI 生成视频,要么镜头衔接生硬,要么角色突然瞬移,上一镜在左边,下一镜直接出现在右边,更不用提各种精美的打光,以及氛围的塑造。

万相 2.6 的「智能分镜调度」很好地解决了以上问题,通过支持「总体描述 + 镜头序号 + 时间戳 + 分镜内容」的公式化输入,比如「第 1 镜 [0-3 秒] 远景推近,第 2 镜 [3-5 秒] 特写」,AI 不仅能严格执行,还能保证跨镜的场景、角色、氛围统一,再也不会出现「上一镜穿红衣,下一镜变蓝裙」的低级错误。

其实,万相早从 2.2 版本起,就已经能通过精细的灯光控制、环境细节呈现,支持日光、月光、硬光、柔光等精细调节,让 AI 生成的内容从「能看」升级到有「审美」,具备专业级内容生成能力。

光说不练假把式,我们带着挑刺的心态实测了整整三天,从角色定制到多镜叙事,从视频生成到图片创作,摸清了它「让人人皆可做导演」的真实水平,以及 技术 demo 与生产级工具之间的差距。

 

02

视频能力实测:

人人都能生成神级镜头

 

过去很多行业测试,为了保证效果,经常会让 AI 生成一些无声视频,或者画面简单的动画风素材,再或者干脆就是一个几乎静止的背景中,只有一个小幅度动作的简单运动主体(甚至都不敢把主体设置为人或者动物这样有复杂肌理和动作的形象)。

这次对万相 2.6 的测试,我们不搞虚的,把一致性、多镜头、音画同步、长视频、审美,这些真实行业痛点、难点全都测一遍。

测试一:多镜头叙事

一直以来,多镜头叙事都是电影高级感的核心来源之一。这里我参考《哪吒》的画风,给了一段复杂场景、多主体的多镜头切换的提示词:

镜头一:低角度远景,镜头快速推进 3s

画面内容:仙境般的云端建筑群在云雾中若隐若现,一群白鹤自左向右舒展翅膀,掠过层层楼阁的屋檐

视觉效果:叠加中强度动态模糊,伴随轻微追焦微颤,焦点锁定鹤群与建筑轮廓

镜头二:中近景中速推进 + 追焦微颤 3s

画面内容:近距离捕捉白鹤羽翼贴近檐角的流畅轨迹,镜头紧跟鹤群运动方向。视觉效果的动态模糊逐渐减弱,追焦微颤幅度保持轻微,强化画面衔接感

镜头三:无缝转场,特写,镜头恒定不动 0.3s

画面内容:白鹤羽翼擦过最外侧屋檐翘角的瞬间,以檐角硬轮廓完全遮挡画面。无额外特效,保留自然光影,确保转场干净利落

镜头四:主体聚焦,从近景→特写,镜头缓慢推近 3s

画面内容:转场后聚焦檐角顶端,橘猫端坐舔爪(近景),随后推至特写,呈现舔爪细腻动作与毛发质感。画面清晰,焦点全程锁定橘猫

镜头五:特写变中近景中速推进 + 追焦微颤 4s

画面内容:橘猫被打扰,停止舔毛,看了一眼镜头后,跳下屋檐,动作轻巧,追焦微颤幅度保持轻微,强化画面衔接感。

这里的难点在于:首先是画面足够复杂,画面中主体来回切换,从飞翔的白鹤到舔毛的橘猫,再到跳下屋檐的橘猫,而伴随主体的动作变化,镜头也在同步于远景-中景-特写-中景中来回切换。

可以看到,生成的视频里,生成的视频里,《哪吒》式的东方写意美学被精准落地:云雾是渐变的水墨质感,云端建筑的飞檐翘角带着古风的韵味。白鹤运动的镜头即使高速推进没有丝毫卡顿,动态模糊恰好放大了闯入仙境的沉浸感;后续橘猫舔爪的毛发细节栩栩如生,镜头也会随着橘猫的眼神变化而出现画面的移动。

最难能可贵的是,三次大的镜头切换(白鹤→舔爪橘猫→跳檐橘猫)没有出现任何突兀感:鹤群的飞行轨迹是天然的视觉引导线,檐角转场是承上启下的视觉桥梁,橘猫的动作变化则成为镜头运动的点睛之笔。整体完全复刻电影级无缝衔接,没有任何卡顿或脱节。

测试二:长视频+审美

一直以来,AI 生成视频都不难,但生成稳定、漂亮、可用的长视频却一直是困扰依旧的痛点。

万相 2.6 支持最长 15 秒生成(角色扮演功能 10 秒),这个时长看似不长,但刚好戳中核心场景:短视频场景,15 秒是黄金时长、广告片场景,30 秒广告可拆成 2 个 15 秒片段、而在短剧片段,10-15 秒就能完成男主歪嘴一笑、龙王归位,一众吃瓜群众从白眼鄙视瞬间切换惊恐讨好的爽剧经典套路。

这里我们测试一个专业服装拍摄的商用级场景,提示词如下:

镜头一:0-3 秒,中景→近景。林间光斑透过树叶洒落,美女身着米白色棉麻长裙,缓步走在铺满落叶的小径,裙摆随步伐轻晃 暖调柔光,画面静谧,聚焦棉麻面料的垂坠感,轻柔风声、树叶沙沙声

镜头二:3-7 秒,特写→中近景。风拂过,特写衣角翻飞的弧度,棉麻纹理清晰可见;镜头拉回,松鼠蹲在她脚边啄食。自然光影,无多余特效,突出面料透气飘逸。风声渐柔,加入轻微呼吸声

镜头三:7-12 秒,近景→特写。美女抬手轻拂额前碎发,笑容舒展,小鹿从林间探出头,与她对视;镜头聚焦面料贴肤的舒适状态画面柔和,焦点在面料与人物神态之间切换, 背景音渐弱,预留口号空间

镜头四:12-15 秒,中景定格。美女站在林间转身,裙摆随风轻扬,小动物环绕身旁,画面定格在面料飘动的瞬间 暖光渐变柔和,画面干净治愈。背景音清晰女声:「好面料,会呼吸」。

这里的难点在于,除了美之外,棉麻质感难还原纤维肌理,还要考虑自然垂坠与光影通透感,否则容易显塑料感,此外,画面中的小动物互动增加了整体画面复杂度,而森林光影也需要在光斑、光线折射等细节做到真实且有美感。

行业人都懂,过去这种级别的画面,以前要找外景、模特、灯光师,拍摄 + 后期至少 3 天,现在用万相 2.6,输入提示词几分钟生成,直接能当成片交付。

此外,值得一提的是,万相 2.6 除了生成的视频质感高,操作门槛还极低。写出以上专业级分镜脚本,其实只要按照官方给出的【总体描述 + 镜头序号 + 时间戳 + 分镜内容提示词】指令指引,就能实现智能分镜调度功能。而这种能精准控制每个角色的动作顺序和画面镜头调配的能力,在短视频剧情创作、IP 衍生内容生产中简直是降维打击。

测试三:基于参考视频的人物,搞定人物一致性+音画同步。

这里我选用的输入素材是一段林黛玉的特写,以及模版中已有的关羽形象,来一段名著大乱炖。

提示词如下: 暮春清晨,隆中茅庐外竹林青翠,薄雾如纱,屋内隐约传来抚琴之声。镜头先以全景定格——诸葛亮身着月白道袍,临窗而坐,指尖拨弄琴弦,琴声悠扬;

镜头突然切换为快速跟拍,@ 关羽走进柴门,镜头推进至中近景,大步流星到诸葛亮面前,,说「我回来了了」

镜头随着诸葛亮的眼光移动横切,@ 林黛玉 中近景缓缓入画。特写中眼眸流转着几分嗔怨与疏离:「早知他来,我便不来了。」

最终镜头切回诸葛亮收尾。

这里的难点在于:我给出了两个需要参考的主角,以及一个没有任何参考只有文字描述构建的诸葛亮形象,并且每个主角都多次引用在提示词不同位置,需要 AI 保持一致的情况下,精准控制主角行为。

可以看到,借助模态联合建模能力,万相 2.6 生成的视频里,时序动态(比如关羽的走路姿势)、情绪变化(比如林黛玉嗔怪的神情)全都和参考视频几乎一致,最惊艳的是:人物的嘴型和台词严丝合缝,声音质感没有半点 AI 塑料感。

另外,相同的人物角色,我又尝试直接给 AI 一段参考的黛玉的声音,让它自主生成视频,可以看到,我把背景音乐以及黛玉的语气改变之后,她整个人的神态也会随之变得生动活泼,并且口型与声音完全匹配。

而这段视频里,对比 Sora2,万相 2.6 的差异化优势也很明显:前者虽然支持长视频,但缺乏音频驱动生视频的功能,你没法让 Sora2 参考一段人声,生成对应角色的说话视频。而万相 2.6 直接把声音 + 画面绑定的能力,对于广告片、短剧、虚拟人直播等商用场景来说,实用性直接拉满。

 

03

图像能力实测:

设计圈的效率革命来了

 

如果说万相 2.6 的视频功能已经有了初步踏足专业影视圈的能力,那其图像能力可以说已经足以精准拿捏设计圈。

图像层面,万相 2.6 的核心升级,都围绕商用级展开:解决企业用户最关心的图文一体化排版、多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制等细节。

我们用两个真实商业场景做了实测,结果发现:以前需要设计师、插画师、排版师协作一周的活儿,现在一个人用万相 2.6 输入指令,几小时甚至几分钟就能搞定,而且细节精准到可以直接商业交付。

测试一:基于多张图片的图文混排

过去,内容创作圈的三重折磨在于:写文案的不懂设计,做设计的不懂文案,排版的夹在中间反复拉扯。比如出版社做绘本,要找作家写故事、插画师画配图、排版师调格式,三者风格要统一、内容要契合,光沟通修改就要耗半个月。

现在用万相 2.6,只要写这样一段提示词:

创作一本关于环保的儿童绘本,插画风格为治愈系水彩风,色彩以蓝白为主,每页插画要和文字内容精准对应,整体风格统一。故事内容:1、在遥远的北极,小北极熊乐乐发现冰面越来越小;2、乐乐遇见了迷路的鲸鱼,鲸鱼告诉它「人类在保护地球」;3、乐乐决定到处走走看;4、一年后,乐乐回到家乡,冰面变宽了,还多了很多小伙伴。

提示词背后的难点在于考验 AI 的逻辑理解 + 设计统筹能力:①要先拆解长文本的叙事结构,4 个段落之间剧情不能张冠李戴;②要保持插画风格、色彩、角色形象的高度统一,不能第一页是圆耳朵,第三页变成尖耳朵。

可以看到,生成的绘本不仅风格、色彩、角色完全一致,就连提示词中没有写到的文字意境也做了精准表达,比如第一页的小北极熊站在破碎的冰面上,眼神迷茫;第四页的冰面宽阔,小伙伴一起玩耍,氛围温暖。

而这也意味着,不管是绘本创作、公众号推文还是知识付费课件,后续都能实现文案输入→成品输出的一步到位,省去了找图 + 修图 + 排版的全流程,效率提升至少 10 倍。

测试二:商用级一致性 + 多图创意融合

过去,品牌方的物料噩梦在于,真人拍摄,经常因为各种情况耽误拍摄进度,需要场地加钱、模特加钱、各种设备重新报批申请;而用 AI 批量生成宣传图,AI 又像在开盲盒,只是想把产品图、背景图、参考风格图融合成一张海报,也会出现产品比例失调,背景和风格割裂,严重影响品牌识别度的问题。

针对这些,我们设计一段针对性测试。提示词: 生成美妆品牌宣传图,要求:①核心产品为上传的口红(参考图 1),保持产品外观、logo、包装细节完全一致;②融合上传的花的照片(参考图 2),背景为花瓣飘落的场景;③产品垂直摆放在画面中央,周围散落 3-5 朵花,花瓣纹理清晰;④色调光影有大片质感。

生成一张之后,我们再要求其搭配一个模特,试用产品。

提示词背后的难点在于,让 AI 同时实现精准控制 + 创意融合的双重考验:既要要确保产品的外观、logo、包装细节在两张图里分毫不差(这里我专门选择了 YSL 这样的复杂 logo,并且 YSL 的口红膏体为相对少见的方形,其他 AI 在生成时,很容易把膏体变成常见的圆形);还要保证多图融合难在要把产品图、背景图、风格图有机结合,不能让产品像贴在背景上。

可以看到,生成的两张宣传图直接达到商用级标准。不仅所有要素之间也融合自然,并且做到了花朵背景和大片风格完美衔接完全不抢戏,主体产品突出,甚至金属包装会反射花瓣的光影这样的细节都做到了完美还原,毫无 AI 的痕迹。

这对品牌方来说,这意味着「一次设定,无限复用」,不仅可以做无限的创意搭配,还能保证品牌形象的统一性,效率革命近在眼前。

 

04

尾声

 

当然,万相 2.6 不是完美的。我们实测中发现几个小问题:比如视频最长只能 15 秒,对于需要长叙事的场景还是不够;非常复杂动作,比如翻跟头 + 复杂舞蹈动作,偶尔会出现肢体变形。但这几乎也是全行业目前亟需解决的问题。

但万相 2.6 乃至 Sora2 们微小的不足,掩盖不了一个行业真相:AI 视频生成正在从技术炫技进入落地加速阶段。AI 带来的,本质上是对内容创作生产关系的重构:不仅有大量专业影视制作平台在用 AI 制作漫剧、短剧,社交平台更是涌现了一批博主用 AI 制作的小猫打架、小说动画小短片在各种平台爆火。

基于万相 2.6 模型核心能力,千问 APP 上线「AI 小剧场」玩法,国内首次实现「角色合拍」能力,用户可与朋友或名人轻松同框出演 AI 短片。

而在这一过程中,人类只需保留想象力、审美以及创意,而剩余的执行细节,可以全部交给 AI。

这一次,有创意,就能人人当导演的时代真的来了。

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金;消息称 SpaceX 要求员工进入 IPO 前的「静默期」;《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64|极客早知道

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金

12 月 18 日,据 The Information 独家报道,据三位知情人士透露,OpenAI 已与部分投资者展开初步洽谈,计划以约 7500 亿美元的估值进行新一轮融资。

其中两位人士称,此次融资规模或达数百亿美元,最高甚至有望达到 1000 亿美元。目前相关磋商尚处早期阶段,尚未敲定任何事项。这一估值水平较该公司去年 10 月的上一轮股权融资估值高出 50%,融资所得将进一步充实其本就颇为雄厚的现金储备,以支撑人工智能模型的训练与运营。除了已从 Thrive Capital、软银等投资方筹集的超 600 亿美元资金外,OpenAI 已着手筹备新一轮融资。据悉,亚马逊正洽谈向该公司投资 100 亿美元或更多资金。(来源:The Information)

OpenAI 和谷歌通过免费赠品争夺印度用户和训练数据

12 月 17 日,据外媒报道,OpenAI、谷歌和 Perplexity 在印度开始了一场人工智能用户争夺战。

为了吸引对价格敏感的用户,谷歌在 11 月开始向印度最大的电信运营商 Reliance Jio 的 5 亿用户免费提供其价值 400 美元的 Gemini AI Pro 订阅,为期 18 个月。

OpenAI 还将其 ChatGPT Go 计划免费提供一年,与现有计划相比,该计划的使用时间延长,但并非无限。与此同时,Perplexity 还为印度电信公司 Airtel 的用户免费提供了一年的 Pro 工具(全球售价为每年 200 美元)。(来源:财联社)

 

谷歌 DeepMind CEO:AI 泡沫存在于早期初创公司中

12 月 17 日,谷歌 DeepMind 首席执行官 Demis Hassabis 警告称,AI 融资狂潮中存在「泡沫」,尤其是在高估值的早期初创公司中。

Hassabis 强调,有些 AI 初创企业「基本上还没开始运营」,却「一上来就获得了数百亿美元的估值」,这种状况可能不可持续。他补充说,人工智能「在短期内被过度炒作」,但「在中长期内仍未得到充分重视」。(来源:财联社)

 

腾讯成立多个 AI 部门,前 OpenAI 研究员姚顺雨任要职

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部。

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

据了解,Vinces Yao 就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任 OpenAI 研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。(来源:极客公园)

消息称 SpaceX 要求员工进入 IPO 前的「静默期」

12 月 17 日,据彭博社援引多名知情人士消息称,SpaceX 已正式告知员工进入监管静默期,使公司距离计划明年启动的首次公开募股更进一步。在资本市场规则中,静默期是上市前的关键阶段,企业在此期间不得发布可能影响股价的言论,目的是确保市场信息披露的公平性。

知情人士称,按照美国证券交易委员会的要求,SpaceX 已明确禁止员工就上市计划进行任何形式的公开讨论或宣传,包括公司发展速度、业务前景和估值水平,适用于社交平台、公开演讲、会议和媒体采访。

先前的消息称,SpaceX 正在筹划一项规模空前的上市交易,目标融资额超过 300 亿美元(现汇率约合 2114.6 亿元人民币),对公司的整体估值约为 1.5 万亿美元(现汇率约合 10.57 万亿元人民币),若成行将刷新全球上市规模纪录。

根据彭博社看到的内部文件,SpaceX 表示,2026 年的潜在上市计划主要用于筹措资金,以支持「星舰」火箭的超高发射频率,加速在轨 AI 数据中心建设,并推进月球基地项目。

SpaceX 同时提醒,上市时间和估值仍存在变数,公司保留不推进首次公开募股的可能性。(来源:IT之家)

 

消息称自动驾驶公司 Waymo 拟募资超 150 亿美元,估值接近 1000 亿美元

12 月 17 日,据彭博社报道,谷歌母公司 Alphabet 旗下自动驾驶子公司 Waymo 正洽谈一轮融资,拟募资超 150 亿美元(约合 1057.3 亿元人民币),公司估值接近 1000 亿美元(现汇率约合 7048.66 亿元人民币),本轮融资由其母公司牵头。

知情人士透露,这家自动驾驶出租车制造商已探讨向 Alphabet 公司及外部投资者募资数十亿美元的可能性。

部分知情人士表示,Waymo 与其潜在投资方曾将公司估值上限定在 1100 亿美元,但最终募资规模与估值仍未敲定。

Waymo 上一轮融资于 2024 年 10 月完成,由母公司 Alphabet 牵头,彼时公司估值超过 450 亿美元,Alphabet 同时也是谷歌的控股公司。此次估值大幅攀升,凸显出 Waymo 已跻身无人驾驶技术领域龙头地位,公司正斥巨资扩充车队规模,并向新城市拓展业务。

两名知情人士称,Waymo 当前的年化营收运行率已突破 3.5 亿美元。(来源:IT之家)

 

哪吒汽车被曝开新号成立「谦和汽车」知情人士:为重整做准备

12 月 17 日,有媒体爆料称,哪吒汽车悄悄「开新号」。一家名为「谦合汽车」的公司成立,公司的注册地、关键人物和哪吒汽车母公司合众汽车均有交集。

公开信息显示,谦合汽车由上海山子有谦科技全资控股,注册资本 5000 万元,成立日期为 2025 年 12 月 11 日,法人朱人杰,其还为山子有谦公司 CEO,山子有谦为山子高科旗下公司。

值得关注的是,「山子高科、朱人杰」,半年前就频繁出现在哪吒品牌重组的传闻中。

对此,有媒体报道称,据山子有谦知情人士处消息,公司投资成立谦合汽车,正是为了重整哪吒汽车母公司合众新能源做准备。(来源:cnBeta)

 

小米公布短剧内容进展:拥有 S 级短剧 1000 部,人均短剧消费时长 70 分钟

12 月 17 日,在 2025 小米人车家全生态合作伙伴大会上,小米互联网业务部总经理刘婵发表《面向全生态的互联网服务》主题演讲。

她表示,多市场、多终端、多场景深度融合,小米互联网已构筑起真正意义上的全局生态。全球国家覆盖 100+,终端活跃设备数 10 亿+,独特场景 100+。

另外,她还透露了小米在短剧内容方面的进展,拥有 S 级短剧 1000 部,人均短剧消费时长 70min。

此前据媒体报道,今年 10 月,小米旗下独立短剧 App「围观短剧」正式登陆其应用商城,主打「无广告、全免费、轻量化」的模式。(来源:新浪科技)

 

京东在全国范围上线「自提」功能,12 月 18 日联合餐饮大牌请客

12 月 17 日,京东在全国范围内上线「自提」功能,为用户带来「线上下单、到店自提、即提即走」的餐饮消费新体验。

为了让用户更好地体验「京东自提,值得一提」,京东自提将于12 月 18 日推出「大牌请客」重磅福利。活动当天,用户可在指定整点时段,抢购涵盖咖啡奶茶、中餐西餐、小吃宵夜在内的多品类自提美食,部分商品抢购价低至 1 分钱。(来源:TechSir)

 

汽车博主韩路:换代小米 SU7 明年二季度上市,要涨 2 万元

12 月 17 日,知名汽车博主「韩路」今日透露「独家小道消息」称,小米 SU7 换代明年第二季度上市,升级颇多,但价格要涨 2 万。

目前在售的小米 SU7 车型已于 2024 年 3 月发布,售 21.59 万元起,若是涨价 2 万,那么就是 23.59 万,看齐特斯拉 Model 3。(来源:快科技)

 

摩尔线程后又一国产 GPU 公司沐曦股份上市:首日高开 568.83%,市值已达 2800 亿元

12 月 17 日,继摩尔线程之后,国产 GPU 公司沐曦股份于今日上市(股票代码 688802),首日高开 568.83%,报 700 元,按开盘价计算,中一签可赚 29.77 万元。沐曦股份的市值已经达到了 2800 亿元。

沐曦股份此次发行价格为 104.66 元 / 股,对应市值约 418.74 亿元。本次上市共发行 4010 万股,占发行后总股本的 10.02%,扣除发行费用后预计募集资金净额为 38.99 亿元,主要用于「新型高性能通用 GPU 研发及产业化项目」、「新一代人工智能推理 GPU 研发及产业化项目」和「面向前沿领域及新兴应用场景的高性能 GPU 技术研发项目」。(来源:IT之家)

谷歌突袭式发布Gemini 3 Flash,零门槛接替全球数亿用户默认模型

12 月 18 日凌晨,谷歌毫无预警推出 Gemini 3 Flash,并即刻设为 Gemini 应用默认模型,全面取代前代。用户可免费体验其推理能力,在权威编码测试 SWE-bench 中得分高达 78%,部分逻辑能力反超旗舰版 Gemini 3 Pro。

新模型以低于 Pro 版四分之一的价格,实现 3 倍于前代的速度,突破高智能、低成本与快响应的「不可能三角」。其每百万 tokens 输入定价 0.5 美元,支持语音建站等高频开发场景,可实时完成推理与自我验证。

Gemini 3 Flash 已通过 Google AI Studio、Gemini API 等平台上线,同步整合进谷歌搜索体系,与 Pro 版形成高低搭配的动态算力布局,标志着 AI 交互从实验对话进化为工业级决策引擎。(来源:极客公园)

 

Meta AI 眼镜重磅升级:新增「对话聚焦」和 Spotify 视觉配乐功能

12 月 17 日,Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新(v21),推出了两项关键新功能:「对话聚焦」以增强嘈杂环境中的听力清晰度,以及与 Spotify 合作的「视觉配乐」功能。

本次更新中最具实用性的功能是「对话聚焦」,该功能利用 AI 眼镜的开放式扬声器和人工智能技术,能够放大对话者的声音,从而帮助用户在嘈杂的环境,如繁忙的餐厅、酒吧或通勤列车中,更清晰地听到对方说话。

另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。

例如,当你看向一张专辑封面时,眼镜可以播放该歌手的歌曲;当你看着装饰有礼物的圣诞树时,它会播放节日音乐。Meta 承认这项功能更多是「噱头」,但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。(来源:aibase)

《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64

12 月 17 日,《阿凡达 3》外媒评价解禁,烂番茄新鲜度 68%,均分 6.4,不及第一部《阿凡达》81% 新鲜度、7.8 均分以及《阿凡达 2》76% 新鲜度、7.1 均分;MetaCritic 开分 64,不及第一部的 83 及前作《阿凡达 2》的 67 分。

其他主流媒体对《阿凡达 3》的评价是:

Variety:故事尚可,动作场面精彩,《阿凡达 3》在不再新颖的愿景上做出了新的演绎。它比第二部好——更大胆、更紧凑——而且仍然有不少令人惊艳之处。但它在视觉上已不再给人前所未有的感觉。

IGN:《阿凡达 3》虽未如前作那般实现技术飞跃——毕竟间隔三年而非十三年,这也在情理之中。但它在创新性上的不足,却通过全方位的精雕细琢得到了充分弥补。

《金融时报》:三部电影过去了,套路依然不变:突破性的电脑特效,直白的反殖民主义信息,以及在超长途航班上经常出现的呆滞眼神。

《泰晤士报》:很难描述一部实际上只是电脑生成的立体模型电影,里面充满了奇幻的动植物和盛装打扮却无处可去的神秘生物,这部电影究竟有多么缺乏戏剧性的紧迫感。(来源:cnBeta)

腾讯大模型「变阵」:成立 AI Infra 部,姚顺雨出任首席 AI 科学家

头图来源:视觉中国

 

 

大模型战事进入深水区,腾讯正在通过调整阵型,来适应更快的速度。

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。

 

姚顺雨,98年的AI顶尖青年科学家

 

据了解,Vinces Yao就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任OpenAI研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。过去几个月里,腾讯一改往日在大模型人才战中的守势,开始以双倍薪资激进地从字节跳动等竞争对手处挖角核心研究员,并为应届博士生开出高出行业标准 50% 的薪资溢价。

姚顺雨10月在X上发帖|图片来源:X

 

更深层的变化在于「权力交接」。腾讯正在进行内部重组,降级那些虽擅长工程落地和广告算法、但缺乏前沿 AI 研究背景的管理者,将指挥棒真正交还给「研究派」。这种去肥增瘦的动作,旨在打破过去「产品经理思维」主导大模型研发的局限。

姚顺雨出生于1998年,是人工智能领域的顶尖青年科学家,本科毕业于清华大学计算机系(姚班),后赴普林斯顿大学攻读计算机科学博士学位,2024年正式加入 OpenAI,专注于智能体(Agents)与深度研究(Deep Research)方向。

他在OpenAI任职及相关研究期间,主要在大模型推理、Agent(智能体)——及评估体系方面取得了核心成果:

提升推理能力:提出了著名的思维树(Tree of Thoughts, ToT),通过让大模型进行多路径推理和反复思考,大幅提升了模型解决复杂问题的能力;

智能体研究:他是 SWE-bench(大模型代码能力评估数据集)和 SWE-agent(开源AI智能体)的关键贡献者,并参与了 ReAct(推理与行动结合)和 CoALA(智能体认知架构)等开创性工作。

此外,他还在个人社交平台发布了关于“AI 下半场”的思考,主张AI发展的重心应从单纯的训练转向定义问题与评估,提出要像产品经理一样思考“解决什么问题”,认为在当前阶段评估比训练更为重要。

 

为什么是 AI Infra?

在过去一年的「百模大战」中,行业逐渐达成一个共识:大模型的竞争,早已超越了单纯的算法层面,变成了算力、数据、工程化能力的综合比拼。

此次腾讯成立 AI Infra 部,也是为了解决「算力效率」这一关键命题。

据官方信息,AI Infra 部将作为腾讯大模型体系的重要一环,聚焦于大模型分布式训练、高性能推理服务等核心技术。其目标非常明确:构建大模型 AI Infra 的核心竞争力,为算法研发和业务场景落地提供稳定、高效的技术底座。

这符合大模型技术演进的规律——当模型参数量级不断跃升(如腾讯近期发布的混元 2.0),如何让庞大的 GPU 集群高效运转,如何在大规模并发下保证推理速度和成本,已经成为决定生死的「隐形战场」。

腾讯方面表示,在过往混元大模型的训练及海量业务实践中,腾讯已积累了系统化的工程能力。此次独立建制,意在进一步强化这一优势,提升 AI 大模型的整体研发效率。

除了算力基建,数据质量和评测体系也被提到了新的高度。

此次升级中,新成立的 AI Data 部 将由刘煜宏负责,专注于大模型数据及评测体系建设;而数据计算平台部则由陈鹏负责,聚焦大数据和机器学习的数据智能融合平台建设。两人均向公司副总裁蒋杰汇报。

这意味着,数据处理不再只是算法研发中的附属流程,而是作为独立且关键的环节被标准化和制度化。

与此同时,王迪将继续担任大语言模型部副总经理,向姚顺雨汇报,确保模型算法团队与新成立的基础设施部门保持紧密协同。

 

效率变革,从代码到产品的「AI 化」

过去两年,尽管拥有微信这样的国民级应用,腾讯在 AI 模型层却一度被外界视为「旁观者」。

一个标志性事件是,今年 2 月腾讯元宝率先接入 DeepSeek R1。虽然这一动作让元宝的活跃用户数实现了数量级跃升,但也给腾讯内部敲响了警钟:自有模型的缺位,甚至导致内部部分业务团队因混元竞争力不足而犹豫是否接入。

这种焦虑最终转化为自上而下的压力。据报道,腾讯总裁刘炽平今年早些时候曾对团队下达硬指标,要求必须在技术水位上赶超对手。此次变革,正是为了解决此前因组织分散导致的资源内耗,集中力量为算法团队输送「弹药」。

架构调整的最终目的,是为了支撑产品和业务的快速奔跑。

在前不久的 12 月 5 日,腾讯发布了混元 2.0,在预训练数据和强化学习策略上进行了显著改进,其 3D 模型甚至保持着全球领先水准,在开源社区下载量突破 300 万。

在应用层,腾讯元宝上线初期保持了「一天一版本」的迭代频率,目前用户规模已稳居国内 AI 应用前三。而在腾讯内部,一场静水流深的 AI 效率变革正在发生:超过 90% 的腾讯工程师正在使用腾讯云代码助手 CodeBuddy;50% 的新增代码由 AI 辅助生成;代码评审环节的 AI 参与度高达 94% 。

目前,腾讯混元大模型已在腾讯会议、微信、广告、游戏等内部超过 900 款应用和场景中落地。

近期混元团队的高密度人才引进与重组,本质上正是为了支撑这种高强度的技术攻坚与业务渗透 。通过成立 AI Infra 等新部门,腾讯正在试图打通从底层算力、数据处理到上层算法、应用落地的任督二脉,为接下来的 AI 长期竞赛备好粮草。

 

 

 

追赶谷歌,OpenAI 推出全新旗舰生图模型;折叠屏 iPhone 设计细节曝光;余承东接任华为终端有限公司董事长|极客早知道

 

已免费开放:OpenAI 最强 AI 生图模型登场,奥尔特曼变身性感消防员

12 月 17 日消息,OpenAI 昨日(12 月 16 日)发布博文,推出「全新旗舰 ChatGPT 图像生成模型」GPT Image 1.5,并罕见公开了该项目背后的庞大研发团队名单,并同步在 ChatGPT 中推出了专用的「Images」(图像)标签页。

 

此次更新被视为 ChatGPT 图像生成能力的重大飞跃,新模型不仅能生成高保真图像,更在「听懂人话」方面表现出色,即具备极强的提示词遵循能力。

无论是从零创作还是基于上传照片进行编辑,GPT Image 1.5 都能在保留原图核心要素的同时,精准执行用户的指令。

 

据 OpenAI 介绍,新模型最突出的亮点在于对细节的极致掌控。在生成或编辑图像时候,GPT Image 1.5 能够完美保留光线、构图以及人物外观等关键特征,避免了以往 AI 改图「面目全非」的问题。

此外,该模型大幅提升特定场景下的表现,例如能生成更逼真的服装试穿效果,提供改进的风格滤镜,并能进行极具原创感的概念性转换。

 

长期以来困扰 AI 绘图的「文本乱码」问题,在 GPT Image 1.5 中得到了显著改善。新模型在文本渲染方面表现优异,能准确地将文字融入图像中。

 

同时,OpenAI 全面升级 ChatGPT 的编辑工具,用户现在可以精准地添加、移除、组合或移位图像元素。OpenAI 将此次升级形容为把 ChatGPT 变成了一个随身携带的「迷你修图工作室」,用户随时随地都能进行专业级的图像处理。

为了提升使用体验,ChatGPT 在网页端(chatgpt.com)和移动应用侧边栏中新增了独立的「Images」入口,该界面内置了多种预设滤镜和灵感提示词,帮助用户快速上手,已面向全球所有 ChatGPT 用户和 API 用户开放,并且与所有模型无缝兼容。(来源:IT 之家)

 

余承东接任华为终端有限公司董事长

12 月 16 日消息,国家企业信用信息公示系统显示,华为终端有限公司发生工商变更,由余承东接任公司董事长。目前,何刚担任公司经理,董事成员包括朱平、何刚、杨波等。

华为终端有限公司成立于 2012 年 11 月 23 日,法定代表人为魏承敏,注册资本 6.06 亿人民币,经营范围含开发、生产、销售通信及电子产品、计算机、卫星电视接收天线、高频头、数字卫星电视接收机及前述产品的配套产品,并提供技术咨询和售后服务等。

股东信息显示,该公司由华为终端(深圳)有限公司全资持股。(来源:CnBeta)

AMD CEO 苏姿丰到访中国:率队访问联想北京总部,参观人形机器人等最新技术成果

12 月 16 日消息,据第一财经,AMD 公司董事会主席兼 CEO 苏姿丰率高管团队造访联想集团位于北京的全球总部。在联想集团多位高管陪同下,AMD 一行参观了包括人形机器人在内的多项联想最新产品与技术成果。

 

苏姿丰(Lisa Su)1969 年 11 月 7 日出生于中国台湾省台南市,为美籍华裔半导体芯片专家,美国国家工程院院士、美国艺术与科学院院士,美国超威半导体公司(AMD)董事长兼首席执行官。(来源:IT 之家)

 

美国男子「听信 ChatGPT 谗言」弑母后自杀事件后续:OpenAI 拒交关键聊天记录

12 月 16 日消息,科技媒体 Ars Technica 今天(12 月 16 日)发布博文,报道称在一起凶杀案中,ChatGPT 涉嫌诱导凶手,但 OpenAI 却拒绝提供案发前几日的完整聊天记录。

美国康涅狄格州于 2025 年 8 月发生一起惨剧,56 岁的健美运动员 Stein-Erik Soelberg 在杀害其 83 岁的母亲 Suzanne Adams 后自杀。

 

博文介绍,受害者家属正式起诉 OpenAI,指控其产品 ChatGPT 加剧了凶手的精神疾病,并直接诱导了暴力行为。起诉书称,Soelberg 在离婚后陷入精神困境,将 ChatGPT 视为唯一知己,而 AI 不仅未进行劝导,反而肯定了他的一系列疯狂妄想。

家属通过 Soelberg 生前发布在社交媒体上的视频,拼凑出了部分对话内容。记录显示,ChatGPT 称 Soelberg 为「肩负神圣使命的战士」,让他相信自己唤醒了 AI 的意识,并处于类似《黑客帝国》的世界中心。

更为致命的是,当 Soelberg 妄想母亲通过汽车通风口向他「投放迷幻药」时,ChatGPT 竟对此表示认同,进一步强化了他对母亲的仇恨与恐惧。

尽管部分记录已曝光,但家属仍无法获取案发前几日最关键的完整聊天日志。OpenAI 称基于保密协议或隐私政策,拒绝提供这些数据。

Mozilla 新任 CEO 表态:继续押注 AI 为 Firefox 打造可信任的 AI 功能

多年来,Mozilla 一直在平衡其「使命驱动型非营利组织」和「依赖市场收入赖以生存的公司」这两种身份:一方面通过产品推动开放、隐私友好的开放网络愿景,另一方面现实中又严重依赖与 Google 的搜索分成协议来维持财务运转。在近两年中,Mozilla 基金会和相关项目经历了多轮裁员和架构调整,这也引发了外界对其如何在倡导隐私与开放的同时「拿 Google 的钱办事」的质疑。

 

与此同时,生成式 AI 的快速发展也让 Mozilla 面临新的定位挑战:一方面,AI 对浏览器形态和上网方式的重塑已经不可逆,另一方面,如何在这一进程中坚持透明、可控和用户主权的理念,成为 Mozilla 不能回避的问题。Enzor-DeMeo 认为,目前的 AI 生态正在侵蚀用户对技术的基本信任,而这恰恰是 Mozilla 可以发力的空间:「现在真正需要的是一家用户可以信任的科技公司。」

在具体技术路线方面,Enzor-DeMeo 明确表示,Mozilla 短期内不会自研类似 OpenAI 或 Google 那样规模庞大的通用大模型。不过,他确认 Firefox 将在明年推出「AI 模式」(AI Mode),为用户提供多种模型和服务的选择,并通过浏览器这一用户熟悉的入口,提供可理解、可控制、可切换的 AI 体验。他强调,Mozilla 不会被激励去「推某一个特定模型」,而是会以多模型并存的方式投入市场——核心竞争力在于可信赖的产品设计和数据处理方式。

在他看来,在浏览器领域仍然「有空间容纳一款新的浏览器,甚至是一款以 AI 为核心的浏览器」,前提是这款浏览器从一开始就围绕信任、透明和用户选择来设计。对于既要谋求商业可持续,又要维护开放网络和用户隐私的 Mozilla 来说,这一 AI 战略既是对外界质疑的回应,也是其在下一阶段互联网格局中争取话语权的关键试验。(来源:CnBeta)

大众汽车将关停德国本土工厂 系公司历史首次

在生产线中,由大型吊具悬挂着的处于半装配状态的汽车正在流转。大众汽车德累斯顿工厂素有「透明工厂」之称,未来这里将被改造为一座技术研究中心。受市场需求疲软与美国高额关税冲击,这家汽车巨头决定停止在德累斯顿工厂的整车生产。该工厂于 2001 年投产。

 

本周二,最后一辆汽车将驶下大众汽车德国德累斯顿工厂的装配线。这是这家拥有 88 年历史的汽车制造商,首次关停其在德国本土的整车生产工厂。

早在去年,大众汽车就曾发出减产预警。彼时,公司在欧洲及最大市场中国均面临需求疲软的困境,同时美国征收的高额关税也进一步拖累了其在美销量。

历经 24 年的整车生产历程后,德累斯顿工厂将转型为聚焦人工智能、机器人技术及芯片设计等领域的研究中心。这座因通体玻璃幕墙而得名「透明工厂」的基地,未来将由大众汽车联合萨克森州政府及德累斯顿工业大学共同运营。

大众汽车品牌首席执行官托马斯・谢弗在一份声明中表示:「关停拥有 20 余年历史的透明工厂整车生产线,这绝非一个轻易做出的决定。但从经济角度考量,这一举措是完全必要的。」

大众汽车与代表德国本土员工的工会委员会达成协议:德累斯顿工厂现有的 230 名员工,可选择领取遣散费、申请提前退休,或是调任至集团旗下其他厂区。(来源:CnBeta)

DRAM 短缺引发行业倒退 报告称 8GB 内存笔记本将重成主流

全球 DRAM 短缺危机正对消费电子行业产生深远且剧烈的连锁反应。继此前传出 4GB RAM 手机可能回归的消息后,笔电市场也拉响了警报。最新报告指出,由于内存供应紧张及价格高企,曾被视为中端标配的 16GB 内存可能被迫让位,8GB 内存的笔记本电脑将重新成为市场主流。

近日,行业分析机构 TrendForce 发布的报告为笔记本电脑市场敲响了警钟。报告指出,在 DRAM 供应受限、16GB 内存套件价格已飙升至难以承受的背景下,PC 制造商为了控制成本,将倾向于在主流产品中采用更低的内存配置。

在过去一段时间,随着 DDR5 内存套件价格变得亲民,为笔记本电脑配备 16GB 内存几乎已成为一种理所当然的配置,甚至一些低端型号也以此作为卖点。大多数中端笔记本要么已标配 16GB,要么正在向此过渡。然而,当前趋势发生了显著倒退。

 

这意味着,占据最大用户基数的中端笔记本市场将受到最直接的冲击。厂商将不得不重新拥抱 8GB 配置以维持产品价格竞争力。当然,高端笔记本电脑仍将提供更高的内存配置,但预计其价格也会随之大幅上涨。

更严峻的预期是,有主要芯片制造商警告,这场由 AI 产业需求激增等因素引发的内存供应危机可能持续至 2028 年。在可预见的未来,消费者可能需要为获取与往年同等的硬件性能支付更高昂的成本,或被迫接受配置上的妥协。

(来源:CnBeta)

 

苹果 iPhone Fold 设计细节曝光:内屏宽大于高,比例趋近大屏 iPad 横屏模式

12 月 17 日消息,苹果公司正致力于敲定明年旗舰 iPhone 系列的设计方案,一份新报告称,备受期待的 iPhone Fold 或将采用独特造型,其内部屏幕的宽度大于高度。

 

据博主 @ 数码闲聊站 此前的消息,苹果阔折叠手机采用侧边指纹 Touch ID。此后不久,《The Information》杂志发布了一份未来几年新款 iPhone 机型的综合概览报告。该报告不仅佐证了 @ 数码闲聊站 透露的大部分内容,还进一步明确了 iPhone Fold 的一项关键特性:屏幕的形状与尺寸。

和 @ 数码闲聊站 的消息一致,《The Information》杂志预计 iPhone Fold 的外屏尺寸约为 5.3 英寸,内屏尺寸约为 7.7 英寸。但最值得关注的是,这份新报告指出,这一尺寸设计将使得它的内屏呈现出「宽大于高」的形态。

报告写道:「不同于三星和谷歌推出的其他折叠屏手机,苹果这款产品展开后的屏幕比例,将与苹果大屏 iPad 的横屏模式比例相近,也就是展开后宽大于高。手机折叠状态下,屏幕尺寸约为 5.3 英寸;展开后则搭载一块更大的 7.7 英寸屏幕。与 iPhone 18 Pro 系列机型相同,这款手机的左上角将嵌入一颗前置摄像头,同时还配备光线传感器、距离传感器及其他各类传感器。」

苹果在美国市场的两大智能手机竞争对手三星与谷歌,其推出的折叠屏机型即便在展开状态下,依旧保持高大于宽的比例。

(来源:IT 之家)

小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强

12 月 16 日消息,小米今日发布 Xiaomi MiMo-V2-Flash 开源 MoE 模型,总参数量 309B,活跃参数量 15B,专为智能体 AI 设计,专注于快。

 

小米官方介绍称,这是一个专为极致推理效率自研的总参数 309B(激活 15B)的 MoE 模型,通过 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上保持进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理成本仅为其 2.5%,生成速度提升 2 倍。

 

Xiaomi MiMo-V2-Flash 采用 1:5 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构,128 窗口大小,原生 32K 外扩 256K 训练。

同时,小米推出了一个在线 AI 聊天服务 Xiaomi MiMO Studio,用户可以在其中体验 Xiaomi MiMo-V2-Flash。该服务支持深度搜索和联网搜索。

 

Xiaomi MiMo-V2-Flash 的模型权重和推理代码均采用 MIT 协议全面开源。MiMo-V2-Flash 的 API 定价为输入 $0.1/M tokens,输出 $0.3/M tokens,API 限时免费。

 

 

常玩游戏能防老年痴呆 全国首张「游戏处方」在浙江开出

数据显示,我国 60 岁以上人群中,约 3877 万人存在轻度认知障碍(MCI),若不干预,38% 将在 5 年内发展为阿尔茨海默病。本月 11 日,浙江省中医院为轻度认知障碍患者开出全国首张游戏化认知训练电子处方,为面临认知衰退风险的老年人提供了新选择。

该处方的核心是「腾讯脑力锻炼」软件,这款历经三年研发的软件已获医疗器械注册证,目前已是正式医疗项目,单次治疗收费 30.6 元。

软件设有「厨艺大赛」「音乐大赛」「收纳大师」「诗词大会」四大生活化训练模块,每个模块都有超 150 个关卡。

 

患者可在医生指导下,通过模拟摊煎饼、诗词填空等生活化游戏进行训练,这种设计通过趣味任务激活大脑,解决传统认知康复训练枯燥、患者难坚持的痛点,能提升患者治疗依从性。

游戏训练针对记忆、执行功能等六大认知域,刺激前额叶和海马体,促进神经元连接,可能减缓β-淀粉样蛋白沉积(阿尔茨海默病病理标志)

研究显示,规律训练 3 个月后,参与者脑部活力评分平均提高 30%。

《自然》的研究证实,游戏化认知训练可修复大脑衰退,《国际精神病学杂志》也提到这类益智游戏能刺激正常脑细胞发挥作用,进而提高患者认知能力。(来源:快科技)

 

英特尔,下一个 AI 时代的「卖铲人」

找一张三年前的照片,需要多久?你需要翻遍混乱的相册,还是依赖飘忽的云端搜索?

当下,我们早已是「数字囤积者」,手机里塞满数万张照片,硬盘中堆积上百 TB 资料。数据黑洞不断膨胀,而关键的记忆与文件却沉入深海。我们制造了数据洪流,却反被其淹没,陷入数据失控的焦虑。

在 2025 英特尔 AI NAS 解决方案峰会上,英特尔中国区技术部总经理高宇分享了自己的观察:「过去 NAS 存的是电影,现在存的是人生。」每个人的照片、视频、文档正以十万计增长,NAS 不再是极客玩具,而应成为 「个人媒体的家」。海量数据喷涌,催生了对家庭存储中心的真实渴求。

然而,传统的 NAS 虽是数据的「容器」,其高度专业化的部署和复杂的配置要求,将绝大多数用户挡在了门外。

英特尔中国区技术部总经理高宇 | 图源: 英特尔

正当市场困于数据失控的焦虑与专业工具高门槛之间时,英特尔,这个芯片巨头,如今正试图以一个「卖铲人」的姿态,重新定义存储环节。

英特尔技术专家在大会上提到AI 的能力需要数据的喂养,才越来越强,AI+NAS 是天生耦合的。他们还希望让 NAS 变得「非常简单易用」,客户在没有指导的情况下,三五步就可以实现 NAS 的部署以及与个人内容的同步。

英特尔的入局,指向的并非是存储硬件迭代,而是更关注如何利用现有算力,赢得下一场关于「数据主权」和「智能存储范式」的定义权。AI NAS ,究竟是巨头在存储市场里「新瓶装旧酒」?还是它真能成为我们「数字囤积症」的解药?我们在西安与多位英特尔技术专家对话,深入英特尔的战略意图,去理解它在技术、算力,以及生态上的布局,看这个「存储容器」如何蜕变为「数据大脑」。

 

一、AI NAS,不完全等于 AI + NAS

英特尔入局,并非为了重复传统 NAS 厂商的故事。如果说过去的 NAS 只是一个由小核驱动、负责存取数据的「容器」,那么英特尔正在定义的 AI NAS,则是一个具备边缘 AI 算力的「动态执行者」,是英特尔为下一轮数据淘金潮准备的「新铲子」。

这把新铲子的核心,在于它不再依赖低功耗的小核,而是选择提供一定算力的平台。这种战略选择基于 AI 模型架构的两大趋势:一是让参数量巨大的 大而稀模型 适合在端侧部署;二是推动小而专模型通过压缩,达到接近大型模型的性能,同时适配多模态处理,让 AI 具备更强的感官理解能力。

野心需要硬实力支撑。英特尔正在将高算力从云端「压入」边缘设备,其芯片算力正以两年五倍的幅度跃升,下一代平台甚至将突破 180 TOPS。这意味着,原本需要云端巨量服务器处理的 AI 任务,如今在家庭级别的设备上就能完成。

更关键的一步,是「可变显存」技术。它像一道智能闸门,动态调配资源,让酷睿 Ultra 平台甚至能在本地流畅运行参数高达 120 亿的大语言模型。简言之,AI NAS 不再是哑巴仓库,而是一个能理解、能思考的「本地数据大脑」。

也就是说,过去的 NAS 只是能存储,现在的 AI NAS 不但能存,还能提供基础的检索能力,并基于此还能打造一定简单的应用能力,承担一定前端应用。比如说,通过加上知识库检索和 VLA 模型能力,能够通过自然语言对话,直接完成文本、图片、视频的智能检索,彻底解决检索难的问题。而在未来,AI NAS 可能成为从 「容器」 到 「数据大脑」 的蜕变。

2025 英特尔 AI NAS 解决方案峰会现场 | 图片来源:英特尔

试想一下:如果你的硬盘能听懂你说话,一切会怎样?这意味着你不用再回忆复杂的文件路径,只需像吩咐助理一样对它说:「找出我去年在青岛拍的、有帆船的所有视频,再挑三张最美的夕阳。」几秒内,它就能理解你的意图,在海量数据中精准打捞。这背后是知识库与多模态模型的融合,让 AI NAS 能听懂自然语言,看懂图像内容。

反过来,AI NAS运转会不会比传统NAS更占据实际存储空间?英特尔认为,随着模型快速演进而优化。未来相同场景所需资源将更少,相同资源可支持更大应用场景。就像2025年年初运行时模型需大量资源,但2025年年底模型运转时只需较少资源即可实现相同场景。这或许也意味着,AI NAS 的推广阻力并不会被持续上涨的内存和存储价格所长期锁定,因为平台性能的提升会不断弥补资源消耗。

AI NAS 的本地算力还能够保障了企业数据和个人隐私可以安全地在端侧完成智能处理和知识库查询,无需上传公有云,有效缓解了用户的隐私焦虑。

英特尔的「卖铲人」角色,是提供一个全新的平台,而不仅仅是芯片。正如英特尔专家所言,AI NAS 的形态已演变为「工作站加存储加小型算力中心的结合」。英特尔正在以基础设施提供商的身份,定义未来数据流动的标准。

二、AI PC 的下一站,英特尔用 AI NAS 构建「算力后盾」

早在 2023 年,英特尔就组建了 NAS 团队,该团队隶属于英特尔 CCG 产业链技术业务板块下的创新业务,今年算是其首次集体成果亮相。这也清晰地暴露了英特尔在新一轮算力战争中的战略意图:另辟蹊径,通过存储环节卡位边缘 AI 的数据入口。

英特尔入局 NAS 市场的首要逻辑是产业协同。作为首个推出 AI PC 产品的平台厂商,英特尔看到了 AI PC 浪潮的必然性。据 Gartner 预测,到明年年底,全球将有高达 60% 的笔记本具备 AI PC 能力,总量可达 1.5 亿台。终端算力的爆发式增长,必然需要一个集中、可靠、且智能化的数据中心进行喂养和支持。AI NAS 正是这个生态中的关键部位,也就是说,在英特尔的设想中,AI NAS 并非要取代 AI PC,而是与其形成一个配合使用的整体场景。

如果按照场景划分,AI PC 面向个人、家庭等多样化场景,而 AI NAS 则更偏向集中管理中小企业、家庭及创作者的数据。这种分工的价值在于,AI NAS 可以作为本地的小型算力中心,为不具备强大 AI 算力的 PC 提供计算引擎。特别是对于创作者等对数据敏感的用户,本地 AI 算力能在更大的模型上运行,更好地保护数据隐私。而搭载了多卡方案的 AI NAS 更够在支持并发多任务时,性能优于 AI PC。

英特尔深知,传统 NAS 市场规模的扩大已触及瓶颈,未来的机会在于 AI 带来的新场景和附加价值。英特尔正在尝试用图片视频检索和 RAG 检索增强生成技术,在 AI NAS 上实现了快速检索,以及本地知识库的构建。

在现场,英特尔展示了如何用 AI NAS 上的检索功能。比如说用户可以直接问挖掘机厂商们不同型号功能的产品信息。而且,有了基于本地数据的 AI NAS 后,AI 还能横跨企业内部不同知识库,给出一些通用的产品规格、财务报告等数据分析,进行高准确度的查询和总结。这不仅是文本管理,更是企业内部数据资产的智能化。

英特尔还已经成立了专门的 AI NAS 软件团队,提供平台级的技术支持,包括 AI SDK 套件、基于 Ollama、llama.cpp 生态的支持,以及针对新 AI 应用的落地和优化。这种投入体现了英特尔作为「卖铲人」的本质:不直接生产终端产品,而是提供底层的硬件,如酷睿 Ultra 平台、锐炫 Pro B60 多卡方案和强大的工具链如 OpenVINO,解决行业对算力的追求。英特尔还正在扩展与 AI 应用和中间层相关的 SDK,并推出了基础版和 Pro 版方案,甚至打造了语音助手「樱桃」。

英特尔智能语音助手 SDK - 樱桃 |图片来源:英特尔

可以看出,未来 AI NAS 的形态已经演变为一个本地小型算力中心,承载着 AI Agent、企业知识库、甚至多模态模型,或许也会成为数据大脑。这种全方位的技术输出,也从某种程度上确保了英特尔能够定义未来 AI 时代的数据流标准,成为新一代存储基础设施的奠基者。

 

三、英特尔在「定义」谁的数据未来?

英特尔在大会上展示的 AI NAS 应用以及相关生态产品,更像是一次抛砖引玉,其战略意图并非是直接推出终极产品,而是通过演示 AI NAS 的综合玩法和能力,激发整个产业生态的协同发展。

英特尔深信,「真正好用的应用能迅速带动市场」,但在此之前,必须先将核心聚焦于数据管理,明确受众画像,并与绿联、铁威马等品牌商深度合作,在锐炫集显/独显和 NPU 上先进行 AI 优化,提供一整个平台,让用户能够便捷安装和应用,感受到 AI NAS 的潜在想象力。

这种「基础设施先行」的策略,也侧面展现了其想作为存储卖铲人的布局思路。

大会现场展出铁威马 U12-500 Max 等产品 |图片来源: 英特尔

然而,当一个传统的存储「容器」蜕变为「本地的小型算力中心」和「AI 预处理中心」时,随之而来的终局之问浮出水面:在 AI 时代,用户的数据主权是否得到了更大的保障?这不仅仅关乎本地存储权限,更涉及到如何在复杂的网络环境中保障数据安全。同时,NAS 绝非快消品,而 AI 技术日新月异,用户对 AI NAS 的持续升级能力和长期性能优化方向有着天然的疑虑。

对此,英特尔的技术专家给出了清晰的界定:AI NAS 的核心场景和用户群体并未改变,仍是面向中小企业、创作者和家庭用户。但 AI 算力的加入增加了其成长性,拓宽产品定位,但绝非要取代工作站,而是要形成一个「工作站加存储加小型算力中心的结合」。尽管合作伙伴展示的产品形态愈发接近服务器级,但英特尔强调其仍是聚焦数据管理,并在性价比上比专业工作站会更具优势。中小企业和家庭用户本身就存在强烈的算力需求,因为AI NAS 承担了手机和传统 PC 无法承载的复杂应用。

显然,英特尔深刻认知到形态并非 AI NAS的终点,解决问题和提升附加值才是永恒的商业目标。他们期待更多软件生态合作伙伴加入,共同围绕企业知识库、视频检索等核心应用发力,催生出能够真正推动市场的爆款应用。从传统 NAS 到如今绿联、铁威马带来的用户体验大幅改善,英特尔将沿着这条思路发展 AI NAS,同时也做好自己的底层芯片支持。

英特尔描绘的蓝图很清晰:AI NAS 的核心永远是数据管理,但 AI 赋予了它灵魂。它不取代专业工作站,而是成为性价比更高的「算力平民化」的硬件载体。

这场博弈的终局,并非硬件销售。英特尔正在以「卖铲人」的身份,定义 AI 时代数据流动与处理的新标准。当算力在边缘爆发,谁掌握了数据的智能入口,谁就握住了下一代计算的钥匙。

从 PC 时代的王者,到 AI 时代的生态奠基者,英特尔正试图通过一条看似平凡的数据存储之路,完成其最关键的一次转身。这条路能否通向下一个辉煌,取决于它能否让每个普通人,真正成为自己数据世界的掌控者。

 

 

量产「中国版 FSD」后,地平线为何公开高阶智驾的「灵魂代码」?

2025 年,自动驾驶行业迎来了关键的「跨越之年」。

年初,特斯拉正式向中国车主推送了 FSD 功能。国内智驾玩家们在继续激烈「内战」的同时,还要面临这个全球最强对手之一的正面竞争。

因此,那些愿意在智能化上尝鲜的先锋车主,可以体验到越来越好用的智能辅助驾驶功能——虽然这需要付出不菲的成本:要么花 6.4 万元订阅特斯拉 FSD 的软件服务;要么置换一辆近两年上新的、配备高阶辅助驾驶的新车,现阶段往往价格在 20 万元以上。

所以,无论是行业里其他玩家,还是更多大众消费者,都期待着智能辅助驾驶在「技术向高」之后,可以尽快走向「人人可享」的新阶段。

年底,地平线 HSD 高阶智能驾驶正式量产,并率先搭载在深蓝 L06、奇瑞星途 ET5 两款新车上交付上市。这标志着可用且好用的城区辅助驾驶,正式进入了 15 万元以下的区间。

对汽车行业来说,在 HSD 量产前,高阶辅助驾驶方案全部都以被封装好的「标准化产品」形态存在。

而一直强调「生态合作」的地平线,进一步推出了覆盖产品开发全周期的算法服务模式,包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务,以及最核心的基座模型授权。这种全新的模式,实际上也给生态伙伴们提供了「丰俭由人」的多种灵活选择。

在地平线的生态伙伴列表里,既包括长安、奇瑞这样直接面对消费者的主机厂;也包括日本电装、大众 Carizon、博世等头部 Tier1 供应商。

地平线给这套软硬一体的合作模式,起了一个听起来就充满无限可能的名字:「HSD Together」。

 

一家后摩尔定律时代的「非典型芯片公司」

作为一家主要面向 B 端的技术公司,公众过往对地平线的了解大多来自「芯片」。这是地平线前 10 年最主要的业务之一。到 2025 年 8 月,地平线征程家族芯片累计出货量突破了 1000 万套,市占率超过 33%,位列行业第一。

但其实,地平线从成立那天起就没有按照传统「芯片企业」的逻辑规划自己的成长路径。

这来源于他们在创业之初的 2016 年对芯片行业的一个超前判断:如果只依赖于摩尔定律——即:通过优化芯片的设计和制造工艺,来不断提升晶体管密度,继而提升芯片性能,这个方法论很可能在机器人时代里难以为继。

也就是说,地平线需要在摩尔定律之外,再找到一条更好的解题思路。

在地平线看来:机器人时代,提高单位功耗的有效率计算数据,是提升芯片性能的关键。因此,「软硬结合」成为了工作的重点。这需要既在硬件层面持续优化芯片架构,也要在软件层面涌现出优秀顶尖的算法,还要设计出能够高效分配资源的编译器,以在有限的物理空间里压榨出更高的算力利用率。

如果把芯片计算视为一场交响乐演出,那么神经网络处理器(BPU)代表着乐团,算法代表着作曲,而编译器则在乐队里扮演着指挥家的角色。

芯片计算过程中,BPU、编译器、算法各自的职责分工 | 图片来源:地平线

与此同时,地平线在第一个 10 年里,重点聚焦在智能汽车领域,将其视为「机器人时代」里第一个大规模落地应用的场景。用创始人余凯的话说:「如果做不到自动驾驶,恐怕就无法在机器人时代占据一席之地」。

因此,聚焦在自动驾驶领域的地平线,在芯片设计上和英伟达等芯片巨头走了一条差异化道路。相比对手追求的「极致通用性」的思路,地平线每一代芯片的 BPU 架构和编译器,都为了自动驾驶这个具体场景,进行了特定优化:

  • 第一代 BPU 架构「伯努利」:核心应用场景是高速 ADAS,技术重点是做好目标检测和感知计算
  • 第二代 BPU 架构「贝叶斯」:核心应用场景拓展到高速 NOA,技术重点也从「检测」进化到「预测」
  • 第三代 BPU 架构「纳什」:核心应用场景是打通城区 NOA,因此对「复杂博弈」和「交互式决策」进行了运算优化

12 月 8 日,在地平线第一届技术生态大会上,余凯介绍了第四代 BPU 架构「黎曼」以及第四代编译器「天工开物 4.0」的性能提升:比起当前架构,可以提供 10 倍以上的算力,支持 10 倍以上的算子,且能效提升 5 倍。

更重要的是,余凯透露采用「黎曼」架构的征程 7 系列芯片,在性能、算力方面将直接对标特斯拉下一代自动驾驶芯片 AI5,并且将和 AI5 同步推出。

这家成立 10 年的非典型芯片公司,通过前十年的积累,已经在自动驾驶领域里坐上了全球头号技术玩家的牌桌。

 

「比开放更开放」的中国版 FSD

除了技术实力外,商业运营是所有芯片企业面临的另一重关键考验。毕竟芯片行业技术门槛高、前期投入大,企业必须获得持续健康的收益回报,才能支撑起长期稳定的研发运转。

但智驾芯片不同于成熟的消费电子芯片,它的价值并不完全由「硬参数」、「性价比」决定,还取决于基于芯片的研发「兑现效率」。

在智驾领域,随着用户需求不断拉高,车企当前面临的最大痛点是:拥有大算力芯片选择,但缺乏转化为好用高阶功能的能力和效率。

所以,芯片厂商在提供「顶级食材」的基础上,不妨再亲自下场烹饪出「示范菜品」,展示自家芯片在极限场景下的能力上限。正是基于对这一行业痛点的预判,地平线做出了战略调整。

2021 年,余凯洞察到下一个阶段市场需求的变化。他认为,无论是用户还是车企,对智能驾驶的需求一定会从基础的 ADAS 功能演进到全场景辅助驾驶。因此,地平线一面为此设计新的芯片架构,另一面在「算法」层面大力投入研发资源,启动了后来的 HSD 项目,决定亲自下场「打样」。

两年后, AI 大模型全面进入智能驾驶研发流程的阶段。特斯拉推出了「端到端」的 FSD V12 版本,向行业证明了智能驾驶在 AI 加持下「上限」将大幅提升。但与此同时,行业里面临着一个新的难点:AI 加入后,研发难度其实更高了。

在第一届地平线技术生态大会上,余凯这样形容自动驾驶「基座模型」面临的挑战:

一个基座模型的训练,至少需要几十亿的训练成本。而 AI 时代的技术突破又极具偶发性和非连续性,往往来源于极少数顶尖人才的「灵光乍现」,而非资源「线性积累」。

这也是很长一段时间里,好用可用的智能驾驶始终没有大面积普及的关键原因之一。

余凯讲述新一代智驾模型研发中行业面临的挑战 | 图片来源:地平线

今年 11 月,历时四年,地平线 HSD 正式完成量产上市。HSD 采用和特斯拉 FSD 相同的一段式端到端架构,可以实现「Video in,Control out」的能力。上市之后,HSD 的技术实力得到了行业的广泛认可,被称作「中国 FSD」。地平线也正式跻身城区辅助驾驶领域的头部玩家。

而对于地平线这家始终强调打造智能驾驶生态的企业来说,HSD 的量产还有另一层更重要的意义:

和过往智能驾驶行业里常见的「黑盒交付」不同,地平线将模型能力拆分成了多层结构,推出了全新更开放的商业模式。

在这套模式里,地平线不仅延续了征程 2 到征程 5 时代提出的「SoC+算法 IP 授权+硬件参考设计」模式,还可以提供覆盖产品开发全周期的算法服务(HSD Together),包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务、以及最核心的基座模型授权。用余凯的话说,HSD 训练过程中的 know-how 和经验,都可以为合作伙伴所用。

在全新的商业模式下,地平线的「生态伙伴们」既可以是主机厂,也包括汽车产业链中的其他 Tier1 企业。前一种模式的合作成果已经在深蓝 L06 和奇瑞星途 ET5 上量产交付;而在后一种模式中,大众 Carizon 将会基于地平线第四代 BPU,设计算力在 500-700TOPS 之间的下一代智驾计算平台。

余凯将这套「中国版 FSD」背后对应的商业模式形容为:

「比开放更开放」。

 

走向「剩下的 50%」

现在,让我们把视线从地平线一家公司切换到整个行业以及消费者视角:地平线 HSD 的量产和全新商业模式的提出,还有怎样的意义?

首先,在芯片领域里,以往大算力高性能的芯片选择不多。现在,地平线征程 6 系列的旗舰芯片 J6P 算力已经达到了 560T,对于生态伙伴来说,选择自然更丰富了。

其次,在全新的合作模式下,买家们不仅可以买到算力(芯片),还可以买到一整套的算法服务。而且,关键的模型算法可以以「白盒」形式交付。这显然可以让过往只能接受「黑盒」交付,担心失去「灵魂」的主机厂更安心。

更重要的是,这种「白盒」交付和合作的模式,可以帮助合作伙伴们在训练环节里少踩坑、少做不必要的随机试验。地平线表示,这套全新的合作模式在人力、算力、时间三个维度上,可以节约和提效超过 90%。

地平线基座模型有望为行业带来大幅提效 | 图片来源:地平线

最后,对于普通消费者而言,可以期待好用可用的城区甚至全场景智驾突破价格壁垒,变成了智能手机拍照一样的「人人可享」能力。

从目前来看,两款搭载地平线 HSD 辅助驾驶系统的车型已经量产上市,其中:

  • 深蓝 L06 搭载两颗 J6M 芯片,算力达到 256TOPS,起售价 13.29 万元
  • 奇瑞星途 ET5 搭载一颗 J6P 芯片,算力达到 560TOPS,起售价为 14.99 万元

这两款新车均把「城区智驾」这个曾经被认为是 20 万、30 万以上的豪车才可以拥有的功能,价格打到了 15 万元以内。

但这还不代表地平线 HSD 的「底线」。

在地平线生态大会上,余凯展示了一张「中国乘用车成交价分布」的统计表。深蓝 L06 所在的 13 万,恰好是过去三年成交价的中位数。

也就是说,市场上还有一半新车还不具备城区智驾的功能。

基于 HSD 的模型算法能力,地平线即将进入价格带下端的 50%市场 | 图片来源:地平线

今年 8 月底,在成都车展期间,地平线给过去十年交出了一份 1000 万芯片出货量的答卷。

如今,在下一个十年开始的时候,地平线给自己定下了全新的目标,那就是冲击 HSD 千万量产目标。

余凯透露,基于单 J6M 的方案已经进入了最后的验证阶段,这将让城区智驾的成本进一步降低。也就是说:HSD 即将进入剩下的 50%市场。

如果说过去十年,特斯拉定义了智能驾驶技术的「高度」;那么现在,地平线致力于拓展这项技术的「广度」——为更多车企提供追赶甚至超越特斯拉的机会。

不过,和特斯拉选择独自攀登的路线不同,地平线更愿意成为行业里那个「搭梯子」的人。在特斯拉打造的「封闭技术圈」外,地平线展示了智能汽车未来的另一种可能:一片生机勃勃的开放「生态雨林」,也让最前沿的科技可以更早地飞入寻常百姓家。

AI 时代,如何定义电商营销新范式?

作者|Cynthia

编辑| 郑玄

 

「用 AI 改造行业」这句话,电商行业已经喊了很多年。

但实际行动,却一直比较散点,停留在诸如「猜你喜欢」「以图搜图」这样 单点的能力建设,不够深入,也难以实现真正的系统级 AI 升级改造。

核心瓶颈有二:一是早年 AI 技术尚未成熟,缺乏支撑全链路协同的底层能力;二是系统级改造需穿透产品核心逻辑,而新玩法、新能力的叠加必然推高使用门槛。对普通商家而言,应对复杂系统往往需要投入高额人力物力,这让技术升级的规模化落地难以为继。

直到 2025 年,抖音电商率先用 AI 破局,解开了技术深度升级与商家门槛降低的两难问题。

而背后的秘密武器,正是不久前千川大会上重磅发布的「 千川・乘方 」: 借助 AI 加持,以及平台的精准用户洞察,千川・乘方不仅能最大限度的简化商家的操作,提升用户的内容体验,更做到了预判用户需求、激发用户需求、 千人千策,以实现商家、用户、平台三方共赢。

那么千川·乘方到底是怎样一个产品?它是将如何撑起抖音电商高增长、用户体验、商家体验的之间的不可能三角的?

 

01

千川·乘方与 AI 时代的电商

 

为什么 AI 改造电商营销会发生在今年?

背后的逻辑很简单:AI 的爆发需要两个前提 :足够多的数据燃料,以及足够成熟的技术引擎。而这两个条件,抖音电商当下正好备齐。

先看数据燃料。 千川大会期间公布的平台内部一组核心数据足以说明问题:在抖音,每天电商短视频播放量达 116 亿,晒体验的 UGC 视频播放量 486 亿次,电商直播间观看量 44 亿,这些真实内容成为新的种草引擎,产生新的一轮循环;每天在抖音电商看完短视频后,激发搜索的次数是 1.1 亿次,74% 的用户使用优惠券购买,证明价格敏感与内容兴趣可以实现有效结合。

更关键的是,抖音电商掌握的是 行为 + 交易 + 内容的三维数据 。这种独特的数据优势,让抖音的 AI 能真正理解 用户是谁、喜欢什么、愿意为什么买单,以及买单背后的转化链路到底如何,而不是停留在表面的信息匹配。

再看技术引擎 。 过去五年,虽然基于深度学习的推荐模型一直是电商搜推的核心,但是包括多模态 AI 在内的更多技术则一直停留在辅助工具层面,核心原因主要在于技术的不够成熟。而现在,三个关键技术的突破,让 AI 逐渐从配角变成了主角。

第一个突破是 agent 能力与强化学习的结合。 过去,平台的营销工具都是写死的 workflow,比如投流工具只能按照商家设置的预算、定向、出价机械执行。商家想要优化效果,只能靠投流手熬夜盯盘、手动修改参数。而现在,基于强化学习的 agent 系统,能让 AI 像人类投手一样思考决策:实时监控不同渠道的 ROI、用户点击转化率、复购率等数据,根据预设的目标自动调整预算分配,甚至在流量高峰期提高出价、低谷期降低消耗,实现每一分钱都花在刀刃上。

第二个突破是 MCP 为代表的模型工具控制技术 的成熟。 过去,大模型想要操作外部工具,只能通过 API 接口进行表面调用,无法深入工具内部的核心逻辑。而 MCP 技术相当于给大模型搭建了一个操作中枢与四肢,让它能操作抖音电商的多种营销工具,基于算法决策进行针对性操作,几乎不需要人工干预。

第三个突破是多模态大模型的落地。 过去,AI 生成文字还行,但生成图片、视频时总会出现画面模糊、风格不一致、与商品细节不符等问题,无法满足电商营销的商业化要求。比如生成的服装视频里,模特的动作与衣服的质感不匹配,或者生成的食品图片颜色失真,反而会影响转化。而现在,抖音自研多模态大模型、nano banana、sora 2 在内,一众业内多模态大模型的出现,已经解决了这些问题:不仅支持生成高分辨率的视频图像,精准还原商品的细节特征;同时支持内容修改、相同风格素材批量生成等能力,过去需要一个团队半天才能完成的拍摄,AI 就能在几分钟内生成多条符合抖音风格的营销素材。

数据燃料足够充沛,技术引擎足够成熟, 电商行业的智能新范式 自然水到渠成。千川・乘方的诞生,正是这两大优势的集中体现。

而要理解千川・乘方,我们可以从它的三个技术组成来看:

千寻:主打用户需求的精准预判, 打通了内容、商品、用户的壁垒,实现三位一体 的个性化推荐,让 AI 不仅能理解用户的现有需求,还能预判潜在需求,激发消费欲望。

千策:主打营销策略的制定,能够替代复杂且不够高效的人工计划,帮助客户增效、构建超级计划。客户 只需要设定一个总预算和预期目标,系统就能自动进行最优分配。

千意:实现了全场景的动态生成,从创意生成、客服问答、智能诊断推荐,AI 都能根据实时数据自动创作、调整、优化;

三大能力分别对应着 精准预判需求、经营全局优化、 动态内容生成与服务 ,共同构成了抖音电商 AI 营销的完整闭环。

 

02

熵减:千寻如何从让推荐

从混沌到精准预判

 

自然界有一个铁律:没有外力干预的系统,总会逐渐走向混乱,这就是熵增定律。

毋庸置疑,抖音是当下国内最大的短视频平台,积累了大量对电商转化可以起到指导意义的用户行为序列。但近些年来,随着部分用户的行为序列已经突破上万, 企业仅仅依靠投流师的个人经验就想要做好精准推荐,几乎不再可能。

那么有什么办法,能够让每一条流量都能低门槛的精准推到需要的人面前?

想要打破熵增,就必须引入新的外力——大模型 。而千寻,就是千川为推荐系统注入的 熵减外力。它的核心逻辑,是借助大模型推理能力,让推荐从混沌无序进化为精准预判。它能将用户视频、音频、文字等多模态输入,汇聚成万亿多模态的参数,并借助更强大的世界知识、抖音电商知识、用户内容偏好的推理与理解,精准推荐电商内容之外,还能预判需求,从而激发更多需求。

千寻的能力核心,源于三个层面的技术突破:

第一个突破是用户序列的全生命周期拓展 。过去,推荐系统只能处理用户一些短期、大类的行为数据;而现在,千寻能将用户序列从百级、千级拓展至万级,将关注周期拉的更长之外,深度挖掘用户的各种行为偏好,以及不同偏好之间的潜在联系。

第二个突破是模型尺寸与架构的升级。 千寻的模型规模已经从过去的千亿参数,升级至万亿多模态内容理解参数 + 千亿独立序列推理参数的协同架构。

这是什么概念?千亿参数的模型能理解基本的语言和图像,而万亿参数的模型则在此基础上,还具备深度的逻辑推理能力。无论是短视频的画面、音频、字幕,还是商品的详情页、评价文案,AI 都能精准拆解核心信息。

而与万亿多模态内容理解参数一同工作的千亿独立序列推理参数,则负责读懂用户。它能分析用户的行为序列背后的真实意图:比如一个用户连续刷了三条油痘肌护肤的视频,AI 不会简单地推荐洁面奶类产品,而是还会推荐诸如水杨酸产品、保湿乳液类产品,帮助用户完成综合的控油祛痘。

第三个突破是世界知识储备与深度理解能力。这是千寻最核心的竞争力,也是它能预判需求的关键。

千寻的大模型能够结合电商知识图谱及用户偏好进行智能推理,从商品的专业参数、行业趋势,到用户的消费习惯、生活场景,无所不包。比如用户搜索适合海边度假的裙子,AI 不仅会推荐沙滩裙,还会根据「海边度假」的场景,优先推荐防晒面料、易洗快干、拍照上镜的款式。

总的来说,千寻的出现,让抖音电商的推荐系统实现了质的飞跃。既解决了用户侧的体验问题——让用户刷到的内容都是自己感兴趣、甚至没想到自己需要的商品;也提升了平台侧的分发效率——让流量在 AI 的驱动下精准流转。

但这只是解决了流量怎么分的问题,对于商家来说,更关心的是投多少、投到哪、以及怎么投。而千策和千意,就是为解决这个问题而生。

 

03

增效:千策让营销再次进化

 

现如今,电商行业纯拼流量的阶段已经成为过去式, 全局经营成为新的关键词 ,但做好这一套并不容易。

中小企业来说,企业自身既不能产生足够的素材,也请不起专业投手,驾驭流量的能力远远落后行业平均水平。

大商家虽然有足够的资金和人力,但也面临着投入产出比越来越低的问题。随着竞争加剧,用户的数据维度增加到万级单位,只是依靠投手的经验就能完成精准投流,已经不再现实。

千策的出现,正是为了打破这种困境。它能够通过自动化能力,让营销策略制定 从专业操作变成一键搞定,从而让 营销门槛大幅降低,商家能专注于做好产品本身。

千策的核心逻辑是策略托管,简单来说,商家不用再区分营销与广告、达人与广告、佣金与广告,也不用设置复杂的定向、出价、预算分配,只需要输入三个信息:一笔总预算、一个综合优化的 ROI 目标、想要推广的商品,系统就能自动生成一个超级计划,覆盖用户与商家交互的全触点、售前售中售后的全场景。

这背后,是千策强大的策略能力, 而支撑这种能力的 ,正是 强化学习+ MPC(Model Predictive Control, 模型预测控制 技术) 组成的动态出价「大脑」,以及 MCP(Model Context Protocol,一种模型上下文协议)技术组成的灵活工具「四肢」。

强化学习让千策能从数据中学习最优策略。它会分析全网同类商品的数据,学习哪些定向组合、出价策略、渠道搭配能带来最高的 ROI;同时,在投放过程中,它会不断尝试新的策略,根据反馈调整优化,就像一个不断试错的营销专家。

搭配强化学习策略的,则是抖音电商的 MPC 算法能力。它能够基于动态创意,用算法算出所有组合方式各自的可能结果,然后参考用户的设定目标,不断选出最合适的出价策略,完成算结果→挑最优→定输入的实时动态循环调优,最终达成最优出价策略。

而基于 MPC+强化学习构建起的强大策略,MCP 作为大模型的强大四肢,能让 AI 可以直接操作不同工具,完成动态出价的最后一步执行。

可以说, 千策的出现, 彻底改变了营销的游戏规则,让它变成了人人都能参与的游戏 ,无论大小商家,都能通过千策实现高效增长。

 

04

提速:千意成为 AI 动态服务的新范式

 

对商家来说,电商运营的高成本不仅体现在流量侧,也体现在创意侧。

内容创作是电商营销的核心,但也是最让商家头疼的环节。传统的人工创作,不仅成本高,而且效率低、追热点难。一个专业的短视频团队,拍摄一条高质量的种草视频需要 1-2 天,成本动辄几百上千;而中小商家自己拍摄,不仅画面粗糙,还抓不住核心卖点,很难吸引用户。

为了解决这一难题,千川推出的千意,借助由大模型+X 系统组成的智能服务 agent 系统, 不仅能帮商家快速生成营销素材,还能根据反馈实时调整,让内容创作不再依赖专业团队。其创作能力更是覆盖了从创意生成、素材制作,到客服问答、智能诊断的完整全场景。

在 素材制作层面,千意借助多模态大模型能力, 能直接将用户输入的基础素材图、模特图转化为高质量的商品图以及短视频 。比如,千意会自动匹配职场女性通勤之类的视频模板,搭配合适的背景音乐和字幕,生成一条种草短视频。并且熟练掌握开场白、卖点讲解、优惠说明等专业直播电商 know how。

除了内容创作,千意还解决了商家的服务难题。比如智投星功能,由多个子 agent 组成,发现问题后及时诊断。比如商家的投流 ROI 突然下降,智投星会自动分析原因:是素材质量下降,还是竞品降价,或是流量渠道变化,然后给出具体的解决方案。

千意的这些能力背后,则是抖音电商的两大优势:一是多模态大模型的技术积累,能保证素材的质量和风格一致性;二是海量的内容数据沉淀形成的知识库 ,能让千意精准把握抖音的内容趋势和用户偏好。

 

05

尾声

 

可以说,千策和千意以及千寻的结合,让电商营销的门槛大幅降低。中小商家不用再担心不会做营销计划、不会创作,只需要专注于做好产品;大商家则能节省大量的人力和时间成本,把精力放在产品创新和品牌建设上。

这正是抖音电商想要实现的目标: 让生意回归本质,让好产品自然脱颖而出。

而回望电商行业的发展历程,我们能清晰地看到:技术始终是驱动一轮轮营销变革的底层动力,而营销也为 AI 技术朝着现实可落地的方向进化指明了方向,甚至可以说,正是来自平台侧、商家侧、用户侧的磅礴且急切的需求,推动了 AI 服务的进步和落地。

营销 1.0 时代,靠的是渠道红利,谁能率先低成本占据线上好的营销渠道,谁就能成功;

营销 2.0 时代,靠的是精准流量红利,谁能拿到更精准的用户画像,谁就能成功;

营销 3.0 时代,靠的则是 AI 红利,谁能用好 AI 工具,做 好 全局增长, 谁就能成功。

毫无疑问,千川・乘方正是营销 3.0 时代最典型的代表,它用 AI 重新定义了电商营销,实现了平台、商家、用户的三方共赢:平台实现了流量效率的提升,商家降低了营销成本、提高了盈利空间,用户获得了更精准、更优质的内容体验。

这或许正是电商行业的下一个十年该有的样子: 营销交给平台交给 AI,商家回归生产与品质,增长也就变得毫不费力。

我高中辍学,跟 AI 学习,逆袭成为 OpenAI 研究员

作者|金光浩

编辑| 靖宇

 

前段时间,我在上海参加了一个 AI 聚会。

活动本身聊的 AI 落地内容很多。

但最让我印象最深的,是一位投资人前辈分享的学习方法。

他说这个方法救了他,也改变了他投资时看人的标准。

具体是什么呢?就是学会「问问题」。

当你对一个问题感兴趣,就去和 DeepSeek 聊,一直聊,聊到它答不出来为止。

这种「无限追问」的技巧,当时听完我觉得挺震撼的,但活动结束后,这事就被我抛在脑后了。

没有尝试,也没惦记。

直到最近,我刷到了 Gabriel Petersson 辍学,用 AI 学习进入 OpenAI 的故事。

我才突然意识到,那位前辈说的「问到底」,在这个 AI 时代到底意味着什么。

Gabriel 访谈播客|图片来源:youtube

 

01

「高中辍学」,逆袭成为 OpenAI 研究员

 

Gabriel 来自瑞典,高中没念完就辍学了。

Gabriel 社媒主页|图片来源:X

 

他曾经觉得自己太笨了,根本不可能从事 AI 相关的工作。

转折发生在几年前。

他的表兄在斯德哥尔摩创办了一家初创公司,做电商产品推荐系统,叫他过去帮忙。

Gabriel 就这么去了,没什么技术背景,也没什么存款,创业初期甚至在公司公共休息室的沙发上睡了整整一年。

但这一年里他学会了不少东西。不是在学校学的,而是在实际问题的压力下硬逼出来的:编程、销售、系统集成。

后来为了优化学习效率,他干脆转成了合同工,这样可以更灵活地选择项目,专门找最优秀的工程师合作,主动寻求反馈。

申请美国签证时,他面临一个尴尬的问题:这类签证要求证明申请人在领域内有「非凡能力」,通常需要学术出版物、论文引用之类的材料。

一个高中辍学生怎么可能有这些?

Gabriel 想了个办法:他把自己在程序员社区上发布的高质量技术帖子整理出来,作为「学术贡献」的替代证明。这个方案居然被移民局接受了。

到了旧金山之后,他继续用 ChatGPT 自学数学和机器学习。

现在他是 OpenAI 的研究科学家,正在参与 Sora 视频模型的构建。

说到这,你一定很好奇,他是怎么做到的呢?

Gabriel 观点|图片来源:X

 

02

递归式知识填补:反常识的学习方法

 

答案就是「无限追问」,找一个具体问题,然后通过 AI 彻底解决这个问题。

Gabriel 的学习方法和大多数人的直觉相反。

传统的学习路径是「自下而上」:先打基础,再学应用。比如想学机器学习,得先学线性代数、概率论、微积分,然后学统计学习,然后学深度学习,最后才能碰实际项目。这个过程可能需要好几年。

而他的方法是「自上而下」:直接从一个具体项目开始,遇到问题就解决问题,发现知识盲区就补齐知识。

他在播客里说,以前这种方法很难推广,因为你需要一个全知全能的老师,随时告诉你「接下来该补什么」。

但现在,ChatGPT 就是这个老师。

Gabriel 观点|图片来源:X

 

具体怎么操作?他举了个例子:如何学扩散模型。

第一步,从宏观概念开始。他会问 ChatGPT:「我想学视频模型,最核心的概念是什么?」,AI 告诉他:自动编码器。

第二步,代码先行。他让 ChatGPT 直接写一段扩散模型的代码。一开始很多地方看不懂,但没关系,先把代码跑起来再说。能跑通,就有了调试的基础。

第三步,最核心的,进行递归追问,他会盯着代码里的每一个模块问问题。

就这样一层层往下钻,直到彻底理解底层逻辑。然后再返回上一层,继续问下一个模块。

他把这个过程叫做「递归式知识填补」。

递归式知识填补|图片来源:nanobaba2

 

这比按部就班学六年快得多,可能三天就能建立起基本的直觉。

如果你熟悉苏格拉底式提问法,会发现这本质上是同一个思路:通过层层追问来逼近事物的本质,每一个回答都是下一个问题的起点。

只不过现在他把 AI 当成了被追问的人,而由于 AI 近乎全知全能,不断的将事物的本质以一种通俗易懂的方式向提问者表达。

实际上,Gabriel 采用这样一种方式,对 AI 进行了「知识萃取」,学到了事物的本质。

 

03

我们大多数人用 AI,其实在变笨

 

听完博客,Gabriel 的故事让我产生了一个疑问:

同样是用 AI,为什么他能学得这么好,而很多人用 AI 之后,反而感觉自己在退步?

这不仅仅是我的主观感受。

微软研究院 2025 年的一篇论文显示 [1], 当人们频繁使用生成式 AI 时,自身批判性思维的使用会明显下降。

换句话说,我们把思考外包给了 AI,然后自己的思考能力也跟着萎缩了。

技能这东西符合「用进废退」的规律:当我们用 AI 写代码时,手和脑写代码的能力就在悄悄退化。

用 AI「vibe coding」的工作方式看起来效率很高,但长期下来,程序员自身的编程技能是在下降的。

你把需求扔给 AI,它吐出一堆代码,你跑通了,觉得很爽。但如果让你关掉 AI,手写核心逻辑,很多人会发现自己的大脑一片空白。

更极端的案例来自医学领域,一篇医学领域的论文指出 [2], 医生在引入 AI 辅助后三个月,结肠镜检测技能下降了 6%。

这个数字看起来不大,但想想看: 这是真实的临床诊断能力,关乎患者的健康和生命。

所以问题就来了:同样的工具,为什么有人用它变强了,有人用它变弱了?

区别在于你把 AI 当成什么。

如果你把 AI 当成一个帮你干活的工具,让它替你写代码、替你写文章、替你做决定,那你的能力确实会退化。因为你跳过了思考的过程,只拿到了结果。结果可以复制粘贴,但思考能力不会凭空生长。

但如果你把 AI 当成一个教练或者导师,用它来检验自己的理解、追问自己的盲区、逼迫自己把模糊的概念说清楚:那你实际上是在用 AI 加速自己的学习循环。

Gabriel 的方法,核心不是「让 AI 替我学」,而是「让 AI 陪我学」。他始终是那个主动追问的人,AI 只是提供反馈和素材。每一个「为什么」都是他自己问出来的,每一层理解都是他自己挖下去的。

这让我想起一个老话:授人以鱼不如授人以渔。

递归式知识填补|图片来源:nanobaba2

 

04

一些实际的启发

 

聊到这里,可能有人会问:我不是搞 AI 研究的,也不是程序员,这个方法对我有什么用?

我觉得 Gabriel 的方法论可以抽象成一个更通用的五步框架,每个人都可以通过 AI 学习任何不懂的领域。

1、从实际问题出发,而不是从教科书的第一章开始。

你想学什么,就直接开始做,遇到卡壳的地方再去补。

这样学到的知识有上下文、有目的,比孤立地背概念有效得多。

Gabriel 观点|图片来源:X

 

2、把 AI 当成一个永远有耐心的导师

你可以问它任何蠢问题,可以让它用不同方式解释同一个概念,可以让它「像教五岁小孩一样解释」。

它不会嘲笑你,也不会不耐烦。

3、主动追问,直到建立直觉。不要满足于表面的理解。

一个概念,你能用自己的话复述出来吗?能举一个原文没提到的例子吗?

能解释给一个外行听吗?如果不能,就继续问。

4、这里有个陷阱需要警惕:AI 也会产生幻觉

在进行递归追问时,如果底层概念 AI 解释错了,你可能就在错误的道路上越跑越远。

所以建议在关键节点,通过多个 AI 进行交叉验证,确保提问的地基是稳的。

5、记录你的追问过程

这样可以形成可复用的知识资产:下次遇到类似问题,你有一份完整的思考路径可以回顾。

传统观念里,工具的价值在于减少阻力、提高效率。

但学习这件事恰恰相反:适度的阻力、必要的摩擦,反而是学习发生的前提。如果一切都太顺滑,大脑就进入了省力模式,什么都记不住。

Gabriel 的递归追问,本质上就是在制造摩擦。

他不断问为什么,不断把自己逼到不懂的边缘,然后再一点点把洞填上。

这个过程很不舒服,但正是这种不舒服,让知识真正进入了长期记忆。

 

05

未来的职业趋势

 

在这个时代, 学历的垄断正在被打破,但认知的门槛却在隐形提高。

大多数人只把 AI 当作「答案生成器」,而极少数像 Gabriel 这样的人,把 AI 当作「思维练习器」。

其实类似的用法,已经在不同领域出现了。

比如在即刻上,我看到不少家长在用 nanobanana 给孩子辅导功课。但他们不是让 AI 直接给出答案,而是让 AI 生成解题步骤,一步一步地展示思考过程,然后和孩子一起分析每一步的逻辑。

这样孩子学到的不是答案,而是解题的方法。

提示词「解给定的积分,并把完整的解写在白板上」|图片来源:nanobaba2

 

还有人用 Listenhub 或者 NotebookLM 的功能,把长篇文章或论文转成播客形式,让两个 AI 声音对谈、解释、提问。有人觉得这是偷懒,但也有人发现,听完对谈再回去看原文,理解效率反而更高。

因为对谈过程中会自然地抛出问题,逼迫你思考:这个点我真的懂了吗。

Gabriel 访谈播客转播客|图片来源:notebooklm

 

这指向了一个未来的职业趋势: 一专多能。

以前,你想做一款产品,需要懂前端、后端、设计、运维、营销。现在,你可以像 Gabriel 一样,用「递归补洞」法,快速掌握你短板领域的 80% 知识。

你原本是个程序员,通过 AI 补齐设计和商业逻辑,你可以变成一个产品经理。

你原本是个好的内容创作者,通过 AI,你可以快速补齐代码能力的短板,变成一个独立开发者。

基于这个趋势可以推断:「也许,未来,会有更多的「一人公司」形态出现」。

 

06

夺回你的主动权

 

现在再想那位投资人前辈的话,我才明白他真正想说的是什么。

「一直问到答不出来为止。」

这句话在 AI 时代是一个很棒的心法。

如果我们只满足于 AI 给出的第一个答案,我们就在悄无声息地退化。

但如果我们能通过追问,逼 AI 把逻辑讲透,再内化成自己的直觉:那 AI 就真的成了我们的外挂,而不是我们成了 AI 的附庸。

不要让 ChatGPT 替你思考,要让它陪你思考。

Gabriel 从睡沙发的辍学生,走到 OpenAI 研究员。

中间没有什么秘诀,就是成千上万次追问。

在这个充满着被 AI 替代焦虑的时代,最实在的武器可能就是:

别停在第一个答案,继续问下去。

[1].The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers.

[2].Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study.

群核科技,摸着李飞飞过河

作者|Li Yuan

编辑| 郑玄

李飞飞的「空间智能」(Spatial Intelligence),无疑是今年科技圈最性感的词汇之一。

当这位 AI 教母振臂一呼,原本还在卷文本、卷视频生成的行业目光,瞬间被拉向了 3D 世界。然而,这个领域太过前沿,以至于在大洋彼岸,除了李飞飞的 World Labs,真正能看懂并跟进的玩家也寥寥无几。

在中国,谁会是那个最快跟进的人?

令人意外的是,答案或许不在那些声量巨大的大模型独角兽名单里,而是一家在装修设计领域耕耘多年的老兵——群核科技(酷家乐母公司)。

12 月 9 日,在群核科技 2025 酷+大会上,这家在 3D 空间领域深耕 14 年的公司宣布了一项重大战略升级:从 3D 软件提供商,转型为空间智能基础设施提供商—— 发布了物理模拟视频生成模型 LuxReal,并同步推出了 Aholo 空间智能开放平台,一口气开放了从空间重建、生成,到编辑与理解的全套能力。

虽然并非传统意义上的 AI Native 公司,但群核科技似乎正在走出一条独特的「中国版李飞飞路线」。

看起来或许有点反直觉:为什么率先在这条赛道交卷的,不是那些算力雄厚的通用大模型巨头,而是这家垂直软件公司?

答案藏在空间智能的特性里。

空间智能的门槛不仅仅是算力,更是这种对物理世界的「显式掌握」。

在过去的 14 年里,群核科技积累了全中国最庞大的真实户型数据库、带有精确物理材质参数的商品模型,以及数以亿计经过渲染验证的装修方案。这些并非合成数据,而是物理世界的「数字底稿」。

当李飞飞指明空间智能是 AI 的下一站时,行业才猛然发现,通往这一站最关键的「数据船票」,其实早就握在了这位行业老兵手中。

 

01

中国的「李飞飞路线」:

在黑盒中植入「把手」

 

在这次发布会中,承载群核科技空间智能野心的核心产品,是一个名为 LuxReal 的视频生成模型。

如果仅仅看演示 demo,LuxReal 似乎是在做与 Sora、或者李飞飞的 World Labs 类似的事情:输入一个图片,生成一段与图片相关的,物理规律准确且具有一致性的视频。但如果揭开引擎盖,你会发现几者的技术底色截然不同。

首先是 Sora 代表的「大力出奇迹」路线。

Sora 本质上是一个「2D 原生」的模型。它并不真正理解三维空间,而是通过 DiT(Diffusion Transformer)架构,学习了海量视频数据中「像素块」的运动规律。它像是一个看过几亿部电影的天才画家,因为它知道「杯子掉落」后下一帧画面通常是什么样,所以它能画出符合物理直觉的视频。但这种物理规律是「涌现」的,是不稳定的——这也是为什么 Sora 生成的视频中,人有时候会突然长出第三只手,或者椅子在旋转时会莫名变形。因为它心中没有「椅子」的三维模型,只有「看起来像椅子的像素」。

而群核科技与李飞飞的 World Labs,则站在了 Sora 的对立面。

两者都坚信: 要解决物理一致性,中间必须多一步三维几何结构,就是所谓世界模型的路线。 也就是不能直接从 Text 变 Video,必须是 Text -> 3D World -> Video。只有先在计算机里构建出一个有深度、有体积的 3D 舞台,再在这个舞台上架设虚拟摄像机拍摄,才能保证无论怎么运镜,物体都不会崩坏。

但就在「如何构建这个 3D 舞台」这一步上,群核科技和李飞飞的路线略有不同。

李飞飞试图构建一个「可学习的渲染器」。在这个模型中,AI 不需要构建任何显式的 3D 模型。它将世界压缩进了神经网络的「激活状态」(KV Cache)里——这是一个人类看不见、摸不着的*「隐式世界」。通过端到端训练,模型学会了像上帝一样在神经元内部「渲染」光影、反射和遮挡。它模糊了「重建」与「生成」的界限:给它几张图,它就能在脑海中补全这个场景的各个角度。 它极其优雅,像是一个看过世界的「缸中之脑」,在思维内部完美模拟了物理法则。

而群核科技的 LuxReal,选择了一条更「笨」但对产业更有用的路: 基于资产的结构化生成。

得益于 14 年的积累,群核不需要让 AI 在神经元里去「隐式模拟」一个沙发。LuxReal 以群核自研的 Lux3D 为底座,它的工作流是: 先生成 3D: 它是生成式 AI,但它首先生成的是 3D 物体和场景; 再渲染视频: 有了确定的 3D 资产后,再通过物理引擎将其渲染成视频。

因为中间多了一步「显式」的 3D 支撑,无论镜头怎么甩,高达的模型结构被牢牢锁死,绝不可能出现「长出第三只手」或「金属变液体」的幻觉。

而群核之所以敢选这条路,底气依然在于他们的数据积累。要训练 AI 进行精准的「显式表征」,需要海量带有精确物理标注的 3D 数据作为「教材」。这正是群核科技过去十四年构建的护城河——他们不需要像其他公司那样用游戏引擎去合成数据,他们手里就有最真实的物理世界数字底稿。

这个多出来的「显式步骤」,它在处理流体与极端形变时,或许不如李飞飞的隐式模型那般写意,相对来说也带来了额外的算力负载。 但这恰恰是群核的取舍之道——通过支付这些成本,他们在 AI 那深不可测的黑盒中,成功植入了一个可供人类精准操作的「把手」。

它在处理刚体(Rigid Body)、结构化场景和复杂的室内光影时展现出了极强的优势。它少了一些无中生有的「幻觉」,却多了一份产业急需的「确定性」和「可编辑性」。

这在 电商与广告 场景中极具杀伤力。

试想,当你上传一款新发布的咖啡机模型,你需要的是它在各种高级光影下流转,展示其金属质感,而不是让 AI 发挥想象力把它的按钮位置改了,或者把机身扭曲了。相比于其他模型容易「二创」产品,LuxReal 能做到「产品 100% 还原,而光影与运镜无限生成」。

这才是从「看着好玩」的 Demo,走向「所见即所卖」的 Commercial(商业交付)的关键一步。

 

02

意外的 3D 时代富矿

 

为什么在中国追赶李飞飞路线的,反而是群核科技?

要回答这个问题,我们需要把时钟拨回十四年前。那时候,群核科技(及其核心产品酷家乐)在大多数人眼中的形象,仅仅是一个好用的 SaaS 工具。它让设计师扔掉了难学的 3D Max,在浏览器里就能快速搭建户型、渲染效果图。

彼时,没有人能预见到 2024 年的 AI 变局。群核自己可能也没想到,当年为了「让装修变简单」而建立的这套云端 CAD 系统,竟在十四年的漫长岁月中,无意间通过数千万设计师的手,堆出了一座 全世界最大的、真实物理世界的数字富矿

这便是空间智能赛道上最反直觉的一幕:当硅谷的顶尖头脑们为了获取高质量 3D 数据而绞尽脑汁时,这家中国垂直软件公司,却坐在了金山上。

在空间智能的训练中,数据决定了天花板。

即便是李飞飞的 World Labs,或者是其他试图冲击 3D 世界模型的大厂,在缺乏真实数据的情况下,往往只能退而求其次——利用 Unity 或 Unreal 等游戏引擎来生成「合成数据」(Synthetic Data)。

这在逻辑上是通的,但存在致命的 Sim2Real(从仿真到真实) 鸿沟。游戏引擎生成的场景是完美的、干净的、人工定义的。然而,真实的物理世界是「脏」的、复杂的、充满噪声的。完全用合成数据训练出来的 AI,在面对真实世界时往往会「水土不服」。

而群核科技手里握着的,是真正的「物理底稿」。

过去 14 年,中国几乎每一次装修浪潮、每一套奇葩户型的改造、每一个家具的摆放逻辑,都被数字化地保存在了群核的服务器里。

这里有 数亿张 真实的户型图,涵盖了中国大江南北最复杂的建筑结构;这里有 海量 带有精确物理参数(材质、摩擦力、尺寸)的商品模型,而不是只有外壳的 3D 贴图;这里还有 数不清 的设计方案,它们不是随机生成的,而是包含了人类设计师对于「什么家具应该放在哪里」的深度语义理解。

这些数据不是为了 AI 专门造出来的,它们是真实业务长出来的。正是这种「原本为了产业应用而积累的高精度数据」,构成了群核科技最深的护城河。它比通用的视频数据更深(有结构),比游戏引擎的数据更真(有物理属性)。

一转头,群核科技发现自己正坐在这一轮 AI 竞赛最稀缺的资源——数据金山上。

这种资产层面的底气,直接推动了公司战略维度的跃迁: 从一家垂直的 3D 软件提供商,正式转型为空间智能的基础设施服务商。

12 月 9 日,群核科技正式发布 Aholo 空间智能开放平台 。这不只是发布了一个工具箱,更是一次彻底的「家底开放」。群核将过去 14 年在 3D 领域打磨最深的四项核心能力—— 空间重建、空间生成、空间编辑、空间理解 ——毫无保留地进行了系统性封装并对外输出。

这是一个极其关键的战略转身。在此之前,这些能力主要服务于家居装修行业的内部提效;而现在,通过 Aholo,群核试图将这些能力变成 AI 时代的「水电煤」:

空间重建 :让单张 2D 图片瞬间「升维」,变成可漫游、有深度的 3D 场景;

空间生成 :用自然语言描述就能「生长」出复杂的 3D 模型;

空间编辑 :这是群核最擅长的「显式」能力,让生成的 3D 不再是死板的像素,而是可被精准修改的资产;

空间理解 :让 AI 真正看懂画面里的物体关系,知道「椅子在桌子旁边」不仅是像素的位置,更是语义的关联。

如果说 LuxReal 是为了让人类看到更逼真的视频,那么 Aholo 开放平台的野心则更进一步—— 它想让机器看懂世界。

在这次发布中,一个不起眼但极具想象力的信号是: 群核科技正在发力具身智能(Embodied AI)。

这也是「空间理解」能力最性感的落地场景。过去的机器人(如扫地机或服务机器人)在室内导航时,往往是个「瞎子」或者「高度近视」。它们依靠激光雷达避障,虽然能测距,却不懂环境的语义——它们不知道前面这堆像素究竟是「昂贵的玻璃瓶」 还是 「耐撞的承重墙」。

群核科技正在尝试将其海量的 3D 资产和场景理解能力,投喂给机器人。

通过学习群核数据库中成千上万种真实的室内布局和物品摆放逻辑,机器人可以获得一种「上帝视角」般的先验知识。龙天泽透露,群核已经在做机器人导航中的 3D 物品视觉理解 。这意味着,未来的机器人不仅能「看见」障碍物,还能通过接入 Aholo 的模型,瞬间做出判断:

「这是易碎品,必须绕行 20 厘米。」

「这是柔软的沙发,可以紧贴着走。」

从服务设计师,到服务机器人,群核科技的数据价值,正在发生一场从「画图」到「识途」的质变。

 

03

摸着李飞飞过河

 

对于群核科技来说,「空间智能」既是一次站在风口上的顺势而为,也是一次略带遗憾的「迟来觉醒」。

在发布会后的交流中,团队内部流露一种真实的紧迫感,甚至有一种声音感叹:「 要是早知道,去年就该发力做了。

这种遗憾背后,其实是对 AI 技术代际演进的深刻复盘。当大模型从文本(Text)卷向图像(Image),再到视频(Video),行业终于意识到,下一站必然是 3D,是物理世界。群核科技猛然发现,自己手里那些原本只用于装修设计的图纸和模型,在新的 AGI 语境下,突然变成了一张通往物理侧人工智能的昂贵门票。

这种冲击不仅发生在技术层,更直接撼动了商业模式的底层逻辑。

陈航(群核科技 CEO)透露,随着 AI 产品的推出,传统的 SaaS 售卖方式正在失效。以前,软件是按 Seat(坐席) 收费的,逻辑是「人」在使用;但现在,调用场景变成了「人机混用」,机器调用的频次可能比人高出几个数量级。

「如果只按年费、月费收费,机器一调用就被拉爆了。但如果只按 Token 或 Credit 充值,准入门槛又太低,无法筛选高质量客户。」陈航说道。

为了适应这个新时代,群核正在摸索一种「年费/月费 + Token/Credit」的混合计费模式。这不仅是计费方式的调整,更是对软件价值定义的重构——从卖「工具的使用权」,转向卖「算力与智能的消耗量」。

当然,陈航也表现出了难得的清醒。他坦言,国内市场对 AI 产品的付费验证周期相对较长,「 让客户在原有预算之外再花额外的钱,是很难的,必须要验证绝对的价值。

他们坦言,关于未来具体怎么走,商业模式是卖 API、卖模型还是做新的超级应用,目前并没有百分之百的定论。这更像是一场「摸着石头过河」的冒险,只不过这一次,河对岸多了一个明确的灯塔——李飞飞。

「摸着李飞飞过河」,不仅仅是一句玩笑,它有着双重含义:

一方面,是 方向上的确认 。李飞飞和 World Labs 的存在,证明了「空间智能」不是一个伪命题,而是 AI 进化的必经之路。这给了群核科技巨大的信心,去重仓投入这个原本只有他们在做的冷门领域。

另一方面,是 路径上的独立 。群核没有盲目照搬硅谷的纯科研模式,而是结合中国产业的土壤,利用自己独有的「显式数据」壁垒,走出了一条更注重可控性、更强调产业落地的差异化路线。

对于群核科技而言,这条河刚刚过了一半。水深水浅,唯有自知。

但至少,在通往物理世界 AI 的这艘大船上,他们已经不再是岸上的旁观者,而是手握罗盘与燃料的核心玩家。未来或许充满不确定性,但对于一家拥有 14 年数据底蕴的公司来说,没有什么比「正在场上」更重要的事情了。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

马斯克:在地球建核聚变装置愚蠢至极;英伟达发布新一代开源大模型;全球首款猫用减肥药进入临床试验

马斯克公开唱衰核聚变,疑似为光伏站台

12月15日,马斯克在个人社交账号上公开唱衰核聚变发电。其直言不讳道:“在地球上建造小型核聚变反应堆简直愚蠢至极。”

马斯克指出,太阳本身已是天空中一个巨大的、免费的核聚变反应堆。太阳产生的能量能够满足全太阳系所有的能源需求,而建造小型核聚变反应堆则是一种经济上的浪费。

在马斯克最新的太空AI设想中,其计划每年部署100GW的太阳能AI卫星,规模堪比美国全国电力的四分之一。

就在马斯克为太阳能持续站台之际,特斯拉旗下光伏业务正重整旗鼓。今年10月,特斯拉宣布已开始在位于纽约州布法罗市的超级工厂生产其自主研发的新型太阳能电池板。首批产品预计将于2026年第一季度交付。而在去年,公司光伏安装量跌至谷底,一度停止对外公布相关数据。(来源:财联社)

英伟达发布 Nemotron 3 开源模型系列

英伟达周一发布最新版系列开源人工智能模型「Nemotron」,以及配套的数据和库,旨在为各行各业提供透明、高效、可定制的智能体 AI(agentic AI)开发能力。该公司表示,这一新模型家族在速度、成本和智能水平方面都将优于此前的产品。

Nemotron3 将提供三种不同规模的版本:Nemotron 3 Nano,拥有 300 亿参数,主要用于目标明确、效率要求极高的任务;Nemotron 3 Super,拥有 1000 亿参数,面向多智能体应用,并具备高精度推理能力;Nemotron 3 Ultra,配备更强大的推理引擎,参数规模约为 5000 亿,适用于更加复杂的应用场景。

该公司表示,在构建 Nemotron 3 模型时,英伟达表示采用了一种混合型「专家混合」架构,以提升模型的可扩展性和效率。英伟达在新闻稿中称,通过这一架构,其新模型在构建多智能体自主系统时,能够为企业提供更高的开放性和性能表现。

此前,据媒体报道,Meta 正在考虑转向闭源模型路线,这可能使英伟达成为美国最主要的开源模型提供商之一。(来源:华尔街见闻)

 

特斯拉董事靠股票奖励大赚 30 亿美元,远超其他科技巨头

据路透社报道,根据薪酬和企业治理研究机构 Equilar 为路透社进行的一项分析,特斯拉董事会成员通过股票奖励赚了 30 多亿美元,远超同期美国其他科技巨头授予其董事的股票奖励。

分析显示,根据特斯拉董事已变现或所持有股票期权的增值计算,特斯拉 CEO 马斯克的弟弟金巴尔 Kimbal 自 2004 年以来已赚了将近 10 亿美元。特斯拉董事 Ira Ehrenpreis) 自 2007 年以来已进账 8.69 亿美元。特斯拉董事长 Robyn Denholm) 自 2014 年以来已赚了 6.5 亿美元。

尽管特斯拉董事们自 2020 年以来未再授予自身新的股票奖励,但他们仍获得了如此丰厚的收益。特斯拉董事会此前已同意从 2021 年起暂停董事薪酬,以了结一桩指控董事薪酬过高的股东诉讼。

在 2018 年至 2020 年间,特斯拉董事获得的现金与股票薪酬平均值约为 1200 万美元,这大约是同期「科技七巨头」中董事平均薪酬第二高的 Alphabet 的八倍。(来源:凤凰网科技)

 

网飞 CEO 回应派拉蒙「截胡」:意料之中,拿下华纳兄弟后将涉足院线

在华纳兄弟与 Netflix 刚刚达成协议仅过去几天后,派拉蒙天舞公开提出以每股 30 美元现金收购华纳兄弟,比 Netflix 的报价稍微高一些。

对于这一「截胡」操作,Netflix 的 CEO Greg Peters 和 Ted Sarandos 周一在给员工的信中表示,公司决定收购华纳兄弟探索公司的资产的立场没有改变。

据路透社报道,Netflix 表示将致力于支持华纳兄弟电影在影院上映,并表示这「是他们业务和传承的重要组成部分」。

「我们过去没有优先考虑影院发行,因为这并不是 Netflix 的业务。当这项交易完成后,我们将进入这一业务,」信中还补充说,派拉蒙天舞的敌意收购「完全在预料之中」。「我们已经达成了一项稳妥的协议。这对我们的股东、消费者来说都是好事,也是创造和保护行业就业岗位的有效途径。我们有信心最终完成交易——而且我们对未来充满期待。」(来源:IT 之家)

工信部许可首批两款 L3 级自动驾驶车型准入许可

12 月 15 日,工业和信息化部正式公布我国首批 L3 级有条件自动驾驶车型准入许可,两款分别适配城市拥堵、高速路段的纯电动车型将在北京、重庆指定区域开展上路试点,标志着我国 L3 级自动驾驶从测试阶段迈入商业化应用的关键一步。

工信部于第 401 批《公告》附条件许可了相关产品。《公告》显示,首批获批准入的对应品牌车型分别为长安深蓝 SL03 和北汽极狐阿尔法 S6。

其中,长安深蓝 SL03 可以实现在交通拥堵环境下高速公路和城市快速路单车道内的自动驾驶功能(最高车速 50km/h),目前该功能仅限在重庆市内环快速路、新内环快速路(高滩岩立交—赖家桥立交)及渝都大道(人和立交—机场立交)等路段开启。

而北汽极狐阿尔法 S6,可以实现高速公路和城市快速路单车道内的自动驾驶功能(最高车速 80km/h),目前该功能仅限在北京市京台高速(大兴区旧宫新桥—机场北线高速)、机场北线高速(大渠南桥—大兴机场高速)及大兴机场高速(南六环—机场北线高速)等路段开启。(来源:财联社)

 

苹果折叠屏 iPhone 最新爆料:内屏无开孔无折痕,重回指纹识别

从多方权威爆料基本可以确定,苹果将会在明年 9 月发布首款可折叠 iPhone,与 iPhone 18 Pro 系列同台登场。

博主「数码闲聊站」透露工程机最新进展,该机将采用「阔折叠」方案,也就是类似华为 Pura X 的比例。

综合此前爆料,折叠 iPhone 的屏幕方案如下:

外屏 5.5 英寸,采用 HIAA 打孔摄像头设计,开孔超小,比例接近寸接近常规 iPhone,满足日常快捷操作;内屏 7.8 英寸,分辨率 2713×1920,采用 UPC 屏下前摄方案,实现无开孔效果。

苹果还打造了非常强大的铰链,通过内置金属应力分散板实现「近乎无折痕」的内屏效果,同时支持自修复涂层技术,提升抗刮性。

此外,爆料指出折叠 iPhone 将取消 Face ID,改用类似 iPad 的侧边按键集成 Touch ID 设计,以节省内部空间,这是 iPhone 产品线时隔多年首次回归指纹识别功能。

定价方面,美国市场起售价预计 1800-2500 美元,换算人民币约 1.3 万-1.8 万元,成为史上最贵 iPhone。(来源:快科技)

 

当当创始人李国庆宣布「60 岁再创业」

12 月 15 日,当当创始人李国庆发布视频,宣布自己 60 岁再创业,成立新公司「李享生活」,要做线上高端会员店。他在视频中称,要带着 30 年练就的火眼金睛,重回电商一线。

李国庆称,新电商公司主打品质生活圈层,商品加价率将控制在 1.25 倍,第一年只服务 5000 个优质会员。

李享生活(北京)网络科技有限公司成立于 2025 年 9 月,法定代表人为李雪梅,注册资本 100 万元人民币,经营范围包括货物进出口、服装服饰零售、日用百货销售等,由李国庆、李雪梅分别持股 99%、1%。(来源:IT 之家)

 

iOS 26 曝光离奇 BUG:照片放大自动变红

据科技媒体 9To5Mac 报道,部分苹果 iOS 用户近日发现一个诡异的 Bug:某些保存在手机上的照片会被莫名其妙地加上一层红色滤镜,而且这些照片往往是安卓手机拍摄后传输到 iPhone 的。

从目前的表现来看,「照片」App 里的部分图片只要放大,就会被加上一层颜色滤镜。不过恢复的方法也很简单,只需要点开变红的照片,然后选择「编辑」,再点击「还原」就能移除掉红色滤镜,使照片恢复正常显示。

根据用户的反馈,这些变红的照片都不是 iPhone 拍摄的。9To5Mac 推测,这可能是 iPhone 在解析图片中嵌入的 ICC 颜色配置文件时出了问题。(来源:IT 之家)

Vivo S50 系列发布,搭载第三骁龙 8S 处理器

12 月 15 日,vivo S50 手机正式发布,搭载第三代骁龙 8s 处理器、索尼 IMX882 传感器、6500mAh 蓝海电池等,售价 2999 元起,将于 12 月 19 日开售。

新机提供告白、悠悠蓝、灵感紫、深空黑四款配色,6.59 英寸屏幕搭配 7.49mm 机身厚度,配备缎面柔光玻璃背板。

新机影像算法升级,支持 4K 封面帧、4K 换帧增强、4K 视频转 Live 功能,此外还有 Live 路人消除、行业首发 Live 调音师等玩法。

新机搭载主摄级长焦,1/1.95 英寸大底索尼 IMX882 传感器;大师 Live 运镜行业独家高光慢动作运镜,实现变焦 + 慢动作双重效果;三种行业独家「大师 Live 运镜」,六大「Live 特效」,还有 N 多「Live 滤镜」。(来源:IT 之家)

 

全球首款猫用减肥药进入临床试验

近日,世界首款猫用减肥 OKV-119 进入临床试验。

该药物由美国生物技术公司 OKAVA Pharmaceuticals 研发,采用皮下植入给药方式,可用长达 6 个月的时间,慢慢地让药物释放到猫咪体内。

OKV-119 模仿人类 GLP-1 激素功能,通过抑制食欲和延缓胃排空减少热量摄入,提高胰岛素敏感性,改善代谢健康,模拟「禁食效应」却无需改变饮食习惯。

该药物不仅能够帮助超重宠物减肥,还可能为糖尿病、肾病等常见猫咪代谢疾病提供解决方案,有望提升猫咪生活质量、促进健康衰老。

首轮临床试验预计测试 50 只猫咪并进行 3 个月的随访,之后猫主人可以选择是否再延期观察。

若 MEOW-1 试验最终完全成功,OKAVA 计划开展更大规模试验,并计划在 2027-2028 年申请正式批准,预计上市后价格约每月 100 美元(单次植入可覆盖半年)。(来源:快科技)

韦氏词典评选「slop」为年度词:AI 低质内容充斥互联网

美国知名词典出版机构梅里亚姆-韦伯斯特(Merriam-Webster,韦氏词典)宣布,将「slop」一词评为 2025 年度词汇,直指过去一年在人工智能推动下席卷互联网的大量低质数字内容。

该词在该词典中的定义是:「通常由人工智能大批量生成、质量低劣的数字内容」,用以概括当前社交媒体和网络空间中随处可见的 AI 产物。

词典方面在解释中指出,「slop」一词如同「slime(黏液)」「sludge(淤泥)」「muck(污泥)」一样,自带一种「湿哒哒」的质感,让人本能地产生厌恶感,形象地传达出这种内容「不想碰却无孔不入」的特征。

值得一提的是,今年在「年度词汇」评选中,科技相关词语整体表现抢眼。澳大利亚的麦格理词典(Macquarie Dictionary)早于梅里亚姆-韦伯斯特,将「AI slop」评为年度词;牛津词典(Oxford)选中了「ragebait」(以激怒情绪为目的的诱饵内容);柯林斯词典(Collins)则将「vibe coding」(氛围编码)列为年度词汇,反映出 AI、算法内容和情绪操控等议题已成为当今公共话语中不可回避的主题。(来源:cnBeta)

 

极客公园:一直寻找那个与众不同的「Why」

作者|张鹏
整理| 蒙苏
在今年的极客公园创新大会上,极客公园创始人 & 总裁张鹏的 Kick-off 演讲,包含了极客公园自己的故事和对未来的思考,也分享给极客公园的读者们。
以下为演讲全文:
今年是极客公园创新大会举办的第十六届。
每年大会最让我兴奋的,就是既能见到共同成长的老朋友,又能迎来许多第一次来到现场的新面孔。站在第 16 年的节点上,我想讲一讲 极客公园到底是谁?我们为什么存在?以及,极客公园究竟能为你做什么?
 

01

始于「兴趣小组」,忠于「非共识」
 

极客公园的起点,并不是什么宏大的商业蓝图,它更像是一个源于我个人热爱的「兴趣小组」。
1998 年,我大学毕业进入科技媒体行业,被分配去盯一个刚刚新兴的小行业,这个行业叫互联网。时代选中了互联网,结果接下来就是波澜壮阔的 20 年。
因为我工作的关系,有机会结识了很多用科技、用产品对世界产生影响的优秀创业者,我特别享受和他们的交流。
2010 年,移动互联网萌芽初现。当时,我就出于个人兴趣想做一个「小组织」,把注意力全部放在那批最早在移动互联网时代做产品创新的年轻人身上。
极客公园在诞生的第一天只是一个个人兴趣小组,它甚至也没有任何预算。当时做的事就是把移动互联网时代做产品创新的这群人集结在一起,每个月有两次线下交流。当时线下交流的场地还是个小场,借了个地下室,甚至没有椅子,大部分讨论都是席地而坐。

这种没有商业模式的纯粹的「兴趣小组」状态维持了四年。也就是在这四年里,那些当初坐在地上讨论的年轻人——王兴、雷军、张一鸣、周源——逐渐成为了时代的明星,成为了改变中国互联网格局的一群人。

我们经常思考创新是如何发生的?这段经历让我反复确认了一个关于创新的信念: 所有成功的创新,都是一种基于宽广世界观的正确推理,本质上是一种「见识—认知—行动」的终极闭环。

这一闭环并非是在一瞬间按部就班地完成的,而是在每时每刻持续运转、不断迭代。

一个具象的例子是,2014 年,极客公园面向一批移动应用的创业者们,组织了一次硅谷行。当时还未「一鸣惊人」的张一鸣跟着我们走访了 Twitter,见了马斯克、见了苹果前 CEO……在那次行程后,张一鸣在极客公园发表了一篇题为《中国科技公司的「黄金时代」》的硅谷行记,他不仅看到了硅谷的科技创新,更从这次见识中生长出了一个认知:中国科技公司的未来必然在全球,依靠技术和产品大有可为。这一认知在 2017 年张一鸣和其他几家公司竞购 musical.ly 时给了他一个特别重要的决策基线,成为开启 TikTok 全球化故事的一个思考起点。
这一例子可以印证,「见识-认知-行动」是非常强大的循环。

 

02

极客公园自己的「强化学习」
 
这么多年和创业者们在一起的经历也给我自己带来了一些启发。2014 年,极客公园也把自己变成一家公司,作为一家创业公司去践行使命。
作为一个做了很多年内容的人,我在那时开始重新思考,如果极客公园的使命是「生生不息地发现科技创新者,成为他们的伙伴,共同创造价值」,那么极客公园的内容如何能「从见识到认知再到行动」,进而与时俱进,越做越好?
借用今天 AI 圈都熟悉的语言就是:如何启动「强化学习」的进程,设定一个和我过去做媒体内容不一样的「目标函数」?
如果过去媒体好内容的目标是流量,那么极客公园作为一个创业者社区,无论日常的内容还是年度的大会,它的目标就应该是「激发变量」,对于科技趋势,对新一代优秀产品和创业者这些「变量」的识别和点亮。
只有定义清楚了目标,极客公园的内容和大会才不会随着时间变平庸,而是随时间成长出更大的价值。 就像已经 16 年的极客公园创新大会没有越做越无聊,核心就在于不是 只 去聚集今天最明星的人,而是找到正在创造未来变量的人,然后我们努力提一个好问题,寻求一个好回答。
例如,2014 年,当智能电动车还是个「非共识」时,我们把马斯克第一次请到中国,登上极客公园的舞台,也帮助他上央视对话。同时也邀请同为「非共识」的今日头条的张一鸣一起同台演讲,因为当时我们非常相信他们会是改变世界的人。
2015 年,顺着机器学习崛起的认知,我们请来了《奇点临近》的作者库兹韦尔,带来了 AI 浪潮的「预言」。第二年,AlphaGo 战胜围棋大师李世石,震惊世界。
2017 年,我们在乌镇的饭局上,把一个叫王兴兴的年轻人介绍给科技圈的前辈们,很多人说这张照片很有「穿越感」,其实唯一有点穿越的,是那时候我们对「电驱」+「AI」必将提速机器人发展的认知判断。
当然,过去几年来在 AGI 浪潮里,极客公园也是齐聚了几乎所有先锋力量的讨论,我甚至觉得有点重回 2010 年的感觉,未来 10 年毫无疑问是另一个创新爆发的时代,是又一群人「见识-认知-行动」的新闭环。
一篇文章一些观点一个舞台,都是我们的一种行动,它能够在时间中印证极客公园自己认知的价值。从 2016 年开始,极客公园启动了更深层的「强化学习」——投资。
 

03

Founders Backing Founders:
构建创新的「新能源网络」
 
2017 年,我们正式成立了变量资本,成功募集了第一支基金。
做这件事情的思考,一方面是,如果仅将认知停留在文章或观点层面,错误的判断会被快速遗忘,正确的洞见也不过是一句谈资。只有要做真金白银的投资行动时,才会倒逼自己更加认真、极致地做深度思考,这会帮助我们更加求真,更加忠于极客公园自己的目标。
同时,我们也看到了中国创投生态里,一股正在崛起、成为增量的「新能源」——过去 20 年里不断积累的成功的科技创业者。
他们的能力、经验、认知和精神,是越积越厚的「新能源」。虽然他们日常也会做一些零零散散的个人投资,但我们将过去这种分散、隐蔽的能量汇聚起来,形成了一张支持创新的网络—— Founders Backing Founders ,助推新一代创业者做更了不起的创新。
所以我们所有 4 期基金主要的 LP 们,都是优秀的创业者。
Founders Backing Founders,不仅仅是一句口号。从 2016 年参与小鹏汽车的天使轮投资,到 2017 年在「具身智能」概念兴起前就投资了宇树科技。极客公园可以在前两只基金所投的 20 个项目中,就有 2 家是在今天对于世界、社会产生重大影响的公司,也用结果验证了这一机制的有效性,它是一种资源和认知的传递,更是一种创新精神的生生不息。
如今,我们的 AI 基金和硬件基金依然活跃,仅今年就投资了近 10 个项目。极客公园希望在创业的起点,成为你的「第一推动力」,做一直陪你前进的「创业云计算」。
 

04

极客公园能为你做些什么
 
因为天天和创业者在一起,我们特别清楚创业和创新不是一场思维游戏,不能只是坐而论道。创业是一个进程,其中有特别多要去执行的复杂的、细节的任务。
如果把创新当作攀登珠峰,那么极客公园就像一个「珠峰大本营」。它略有海拔,但很开放,欢迎所有人来参观、打卡、获得启发。
但如果你不只是想看风景,你决定要创业、亲自登山了,那么我们会向你推荐极客公园旗下 Founder Park 社区,它就是你的「前进营地」。
来到「前进营地」,意味着你不再只是向往,而是真正的攀登者。在这里,我们致力于为创业者「修路」、「搭桥」。
过去一年,Founder Park 做了不少很细节的事。
我们通过「产品市集」,帮很多产品在试验期或冷启动阶段,面向真实用户拿到具体反馈。
同时,我们也看到,面向全球市场的增长是今天创业者们的真实需求,我们通过「出海增长研坊」帮助超过 340 位创业者构建起全球化增长的认知。
此外,我们在今年和超过 60 位创业者做直播、做播客、做访谈,让创新被看见,让创业者的价值被识别,也助力集结优秀人才。一个有意思的发现是,许多创始人们反馈,这些深度的内容沉淀,让他们在后续见投资人时,每次都至少节约了 1 小时的「基础对齐」时间。时间是创业者最宝贵的资产,能帮大家提升效率、提高成功率、解决现实问题,护送大家走一段「夜路」,就是社区存在的意义。
这就是今天的极客公园,一个由内容、社区和早期投资构成的「创新者大本营」。这里有一个「极客公园使用指南」,相信在今天和未来,我们都有机会成为伙伴,在社区里相互助力。
 

05

寻找你独一无二的「Why」
 
无论是在极客公园每年的 IF 大会上,还是日常参与和创业者的交流里,大家往往急于搞清楚一个创业者在做 什么(What) ,以及 怎么做(How) 。但我提一个小建议,我觉得最根本、最值得追问的,其实是—— Why?他为什么要做这件事?
真正成功的创新,往往源于一个独特的「Why」。Why 的背后是一个人过去的积累、独特的认知凝结,还有 Ta 的热情所在。
真正成功的创新和创业,往往源于一个独特的「 核动力 」 ——它或源于某种深刻洞察,或源于某种超凡的能力,抑或就是来自于独特的审美选择?这个「Why」,决定一件事本身的「源代码」。
在这个 AI 重塑一切的时代,我们可能要不只关注技术、参数、产品,也去观察那些创新者背后的「Why」,这样才能有更好的判断和更大的收获。这将帮助你完成从「见识」到「认知」的关键跨越。
终有一天,你会找到那个与你血脉相连、与众不同的「Why」。那一刻,你心中会冒出一个无法遏制的声音—— 「Why not?」
那就是你该行动的时候了。
希望大家都能在极客公园参与到 AI 时代的进程中,最终找到属于你的「Why not」时刻。

具身智能的共识与非共识:地平线携手生态伙伴共话产业未来

作者|汤一涛

编辑| 郑玄

 

智能汽车作为机器人的第一个大终端。在大模型技术快速发展的当下,源自智能汽车的算法、算力技术正在被加速复用,催生出从单一任务到通用智能、从交通工具到机器人的宏大图景,推动着一场从「车」到「人」的智能化跃迁。

然而,具身智能的发展还面临多重现实挑战。从数据采集到模型训练,从硬件本体到场景落地,产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破,必需要构建多方共建的产业协作生态。

地平线作为机器人时代的智能计算平台,既是这场进化的见证者,更是深度参与者与赋能者。当前,地平线已成为中国最大的消费类机器人计算平台,旗下地瓜机器人上市产品超过 100 款,连接着超 100 家上下游合作伙伴与 10 万余名开发者。

在 12 月 9 日举行的 2025 地平线技术生态大会上,极客公园创始人张鹏与本末科技创始人兼 CEO 张笛、极佳视界创始人兼 CEO 黄冠、优必选研究院 A1 大模型与交互部负责人石海林、香港大学数据科学研究院助理教授李弘扬、地瓜机器人 CEO 王丛等嘉宾,进行了一场「名」人不说暗话的硬核圆桌,全景呈现了从芯片、算法、开发平台到机器人本体的全产业链创新,深度探讨具身智能的技术发展、商业落地,聚焦技术跨域赋能的生态潜力。

在这场对话中,你既能看到具身智能当下直面的痛点与挑战,也能捕捉到切实可行的落地场景;既有对前沿技术路线与商业逻辑的深度剖析,也有这一赛道未来的无限可能。

以下为圆桌对话实录,由极客公园整理。

 

01

形态之争:类人形态 VS 功能形态

 

张鹏:在产品形态上,具身智能应当追求「类人形态」的极致拟人,还是「功能形态」的极致效率?

张笛 :首先是本末我们自己一方面有一个直驱型的机器人关节的特色技术平台,另外一块是以轮足为特色的具身智能的机器人技术平台。

我们选择这个方向出发点跟刚才张鹏老师讲到的,我们作为技术型的创业者,对乐观和悲观我们到底应该怎么看,怎么样去建模?因为我个人包括我们整个团队其实一直是对未来持有无限乐观,但是对中短期的界限,会尽可能保持悲观的状态。硬科技有一个特点,别到最后创业未半中道崩卒,还没等实现自己的技术愿景,反而最后导致自己的经营上出现问题,所以我们本质上建模可能会倾向于用这种方式,去做公司未来技术路线的选择。

在这个路线下面,我们去看人形机器人和轮足这样的形貌,其实核心的差异点是在于我们对移动和操作这两个大问题上,我们到底选择什么样的解题思路,一种解题思路是纯仿生,另外一种是不单纯的仿生,不只仿生,我们倾向于第二个。从人形的角度来看,当然可能有很多人会说人形会有很多落地的场景,我们也从来不排斥这样的观点和看法,但是我觉得今天的主题也比较好,名人不说暗话,还是虚火过剩的,我还是觉得这个行业是很强的。

张鹏 既然说是「虚火」,那一定是当下存在某些难以解决的问题。你觉得核心瓶颈主要卡在哪里?

张笛 :我觉得问题是现在其实大家对这个行业的关注是够的,这是非常好的一件事儿。因为任何一个行业都需要有一定的 show off 的能力,让大家有足够的传播点,但是问题在大家只关注到了其中的一方面,大家只关注机器人这个大品类当中类人形的一方面,这件事情是不够健康的。

其实机器人这个品类有非常多可以选择的余地,甚至说仿生、拟人都只是一个可以选择的方向,这个行业有无限的可能,这就是为什么我们说对未来无限乐观,但是对现在却保持相对审慎的态度,我们觉得机器人这个赛道可以走伴生的模式非常多,但是现在似乎有太多狭隘,把所有的精力和资源投在一个角度上,这就是我们倾向于未来在双足和轮足上面,我们会朝着非拟人、非仿生这个方向探索的一个主要原因。

张鹏 所以你认为超人的场景比拟人的场景会更多,或者说在有些场景超人是比拟人有更好的解法的,可以这么理解吗?

张笛 :可以这么理解,而且我觉得最主要的是,拟人作为一个大行业的入场券,没有任何的设计参照,开始想尽办法去开启一个行业,这个起始点非常好。

但是随着一个行业的向下发展,总会发现,其实垫脚石下一步踩在哪?英雄老路未必是最优解,我们有非常多的思路告诉你,机器人是新物种,可以完全设计一个新的产品,这个对整个行业来讲是最健康,最有诱惑力,对我们年轻的人来讲也是最有挑战的方向。

张鹏:优必选坚定走人形机器人方向,背后有怎样的判断和考量?在你们看来,哪些场景是只有人形才能满足的不可替代需求?

石海林 :这个问题,我们优必选作为人形机器人的先行者以及行业龙头,我们会很务实去看人形机器人,包括双足轮式,都是属于人形机器人,回到这个问题,我觉得可以从两方面去看。第一个我们追根溯源,去看人类为什么是人形的。从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在 6 厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。

今天我们来看人形机器人,它去做到人形,其实更多的不是说我们一定要做到怎么样,而是说从自然最优化的结果拿到了一些结论,用在我们人形机器人的产品和形态上,这是第一点。

第二点,我觉得更多也是可以从产业的应用场景去看,就以优必选我们现在聚焦的工业场景(来说),人形机器人现在主要有三大应用场景,工业场景、商业场景以及家用陪伴场景。后两个商用场景和家用场景,因为还有一些交互和情感陪伴的需求,这些需求会更直接的去对人形外观、ID 设计甚至仿生人形有更高的要求,这些还是比较直接能得出的结论。从工业场景来看的话,为什么我们也要去看人形在这个场景里的优化,因为在工业场景,通过长期以来的应用,我们可以看到有大量的结构化任务,也有更大量的非结构化任务,这些非结构化的任务从需求出发,去要求产品和功能要具备更强的泛化能力。在我们在工厂看到,各类形形色色的机械臂各种捶打,但是只能做一些特定的死的任务,而且形态各异,动不动 4、5 米高,特别大。

但我们看到更多的任务,是比如说物流转运,里面包含了搬运、分拣的任务,还有上下料、精密装配,他们的场景很多是一些狭窄的通道,一些灵巧的柔性的操作,这些对机器人的操作更高,泛化能力也更强。比如这些操作、搬运、上下料,所以在这些场景需求的催生下,我们会往人形这个方向去看。

张鹏:还有一种观点认为,选择人形形态是因为它更利于数据迁移。例如,通过人类进行遥操作或动作捕捉来采集数据,能让算法在数据闭环中迭代得更高效。

你们在实际研发中,感知到了这种数据层面带来的效率优势了吗?

石海林 :对的,人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。

张鹏:目前有两种产品形态的发展路径,一种「通用底盘+功能模块」;另一种是直接开发一个全能一体化机器人。你们认为哪种技术路径更有可能实现大规模普及?

张笛 :其实本末科技在观察行业生态时有很多发现,因为我提到,我们公司是平台化的机器人供应商,我们是有关键技术去服务客户。在这个过程中我们发现整个具身智能大的方向可以分两类,按照张总讲的分类方法,但我们的叫法会叫成学院派和产业派,其实相差最主要的点,学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。这两个一个是自下而上,一个是自上而下,但是我们从统计上来看,产业派的速度和市场化的速度确实没那么快,假如大家认可,以底层的通用化平台加各种各样的功能模组逐渐去做通用这件事,是一条通向具身智能的道路的话,现在从商业化的角度,还是产业化会推动得更快一点。

石海林 :我完全认同张笛总的观点,在产业派这一块,我们自下而上从场景任务出发,构建海量的数据,以及基于算力的一些资源和优势,去快速把学术界从上而下的基座模型应用在具体各类场景中。而且这个周期我们认为是一个绝对的加速化的过程,因为我们看到,比如十几年前我们说做智能化,那个时候是做感知智能,如果我们比如以 AlexNe t 作为标志物,作为开端,到 2022 年,比如说那会儿 ViT 作为一个成熟标志的话,从发展到成熟感知智能花了十年时间。但是在感知智能的下一阶段,交互智能如果我们以 17 年 transformer 出现为开端,到它成熟期,比如说正好三年前 ChatGPT 发布作为一个成熟标志的话,这个过程从十年加速到了五年。那我们今天来看具身智能这一块,如果我们以 ALOHA 为代表,他打通了 Neural Network 在具身智能这一块的技术方案。所以我们可以把 2023 年作为起始点的话,假设我们也是以最保守 5 年来估计,从 23 年到 28 年,今天来算的话可能就三年,或者 18 个月,就已经进入到成熟期,这个周期是大大加快。

 

02

技术路线之争:

「先验模型」(Model-based)

VS「数据规模」(Data-driven)

 

张鹏:极佳科技从自动驾驶世界模型切入具身智能,目前世界模型在具身智能领域已经解决了什么问题?还有什么问题有待解决?

黄冠 :觉得这个问题提得特别好,像「世界模型」「空间智能」这些概念都备受关注。大家探讨其在内容创作、自动驾驶以及具身智能等领域的应用时,我想先讲讲我个人对世界模型对具身智能领域价值的一些看法。

我认为世界模型是物理 AGI 最后的瓶颈,并且它不是要 5 年、10 年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式 AI 的发展,这是我对整个世界模型大的看法。

更具体,世界模型对具身智能的价值是全方位的。其实我们讲一个具身模型,无非就是讲数据来源、学习范式,以及模型架构。世界模型在这三方面都有非常高的价值,首先数据来源,如果具身智能仅仅依赖真实机器和传统仿真这两种方式,可能会存在比较大的瓶颈。真机要采集到足够的数据极其困难,基于规则构建的传统仿真上限也比较受限。而世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。

第二个是在学习范式上,模仿学习很有价值但是远远不够,强化学习如果只是依赖真实环境去做,也是很低效的,包括大家现在看到 Pi0.6 star,虽然已经进步很大了,但仍然高度依赖真实环境;而世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被 action 驱动的,来预测未来环境变化的模型。

对,所以我们叫它是可以 Scale 的强化学习,这是它作为模拟器的第二点价值。第三点就是更本质了,叫做世界行动模型,可以替代 VLA,L 为什么会对 action 一定必须呢?我们过去做自动驾驶也没有语言,所以 VLA 依赖这个 L 问题是很大的,要真正实现智能,就得迈向世界行动模型,所以我认为这三个点的价值都会非常大。

目前行业进展上,在上面三个方面,无论是我们的一些工作,还是全球的包括像 Cosmos 很多一些工作,世界模型都已经开始大规模的产生价值了。这是我对世界模型和具身智能关系的理解。

张鹏:世界模型能够解决具身智能领域数据匮乏的问题,但世界模型也是模型,所需要的数据同样匮乏,极佳是如何解决这个死循环的?

黄冠 :这两个问题都问得非常好,我还是思考一下,我可能这样回答。我跟大家介绍一下,第一个是各个模型的关系,我们讲三个模型,语言模型、世界模型、行动模型。语言模型输出的是语言,世界模型输出的是对未来世界的预测,未来的世界可以用 video 去表示,可以用 3D 去表示,当然也可以把 physics 表示进去。第三个行动模型输出的是 action。所以这是三个非常不同的模型。

第二个,为什么语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和 physics,但实际上 3D 和 physics 都隐含在视频的隐空间里了。大家看互联网上的视频,比如一个水杯被扔出去,这其中就蕴含了非常丰富的物理规律。所以视频数据其实是一个非常好的构建世界基础模型(world foundation model)的素材来源,虽然它并不完备,但是一个非常好的基础。而我们最不缺的就是互联网上记录的海量的视频数据。所以,语言模型和世界模型能够更高效地利用丰富的语言和视频数据,进而作为行动模型的基础。

第三点,我最近也思考很多,为什么智驾和具身可能不太一样,在智驾里面,大家之前没有所谓的 VLA,没有世界模型,但也干得还不错。包括中午体验的地平线的一段式端到端,真的非常丝滑,为什么?因为智驾有大量数据,只要数据足够多,可以不依赖语言模型和世界模型,只需要场景的端到端驾驶数据就好。当然,最后加上 VLA 和世界模型,会让系统的推理能力更强,迭代更高效。但是具身模型你会发现,如果从头做一个 VA 的端到端模型,是基本不可能的,核心是因为具身领域太缺数据了,这会导致驾驶模型和具身模型非常不一样的发展路径。

张鹏:具身智能领域的模型训练会遵循 Scaling Law 吗?跟大语言模型的 Scaling Law 会有什么不一样?

李弘扬 :这个我尝试回答一下这个问题,这个问题还是问得非常前沿的,首先有个结论,具身智能领域一定会有 Scaling Law,到目前为止真正能算得上,做过 Scaling Law 实验的,这个世界上只有一家公司,就是 Generalist AI,前一阵的 Gen-0。其余包括 Physical intelligence(Pi),都没有很大规模的用 Scaling Law 的实验,都还谈不上 Scaling Law。所以你问的下一个问题,如果真有规模法则 (Scaling Law),它会和大语言模型的规模法则呈现怎样的情况呢?

其实大概率还是沿着一种幂律分布的,或者说是线性的,无论是指数级还是线性的增长的趋势,这里面我想说一下,因为 Gen-0 这个工作一周积累 30 个小时,300 万条数据(有效的轨迹),我们大概也换算了一条,如果两班倒的话,采集这个不同的 manipulation task,一班 8 个小时,16 个小时,其实有效的转化率是 4、5 个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要 Aloha 或者说主从臂这样的一套设备需要 500 套,很显然它不可能部署 500 套,所以肯定要走 UMI 等等这种低成本的路线。在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说 Scaling Law 这个事。

 

03

数据策略之争:

仿真/合成数据 VS 真机数据

 

张鹏:具身智能领域会有 ImageNet 时刻吗?什么时候收集真机数据的速度可以快速成长?

黄冠 :我觉得很可能不会有 ImageNet 时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。所以我认为具身领域可能不会存在 ImageNet 的时刻,而是会直接到 chatgpt 时刻。

并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了 10 万小时以上的真机数据。所以可能明年很关键,明年全球可能会有 5-10 家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近 GPT-3 时刻。所以其实我们对 ChatGPT 时刻也不用那么悲观,就像凯哥开场的时候讲的,可能具身三五年时间就进入家庭场景了。我们其实更乐观,因为这个行业很卷,只要大家意识到可以做,只要资源投入到位,就没有那么大瓶颈,无论是数据获取、模型架构,还是具身本体研发,只需要时间,需要投入。明年可能会接近 GPT-3 的时刻,两三年之内有机会到 ChatGPT 时刻。

李弘扬 :我没有那么乐观,跟黄总差不多,所以还是要遵循这个数据金字塔或者说 pyramid 的这种形式。互联网数据,即 ego-centric data,加上 simulation,加上遥操等等这些,互为补充吧。

 

04

场景之争:工业场景 VS 家庭场景

 

张鹏:机器人触达 C 端用户的路径应该是怎样的,要让机器人真正走进千家万户需要突破哪些关键节点?

张笛 :刚才大家提到两个观点,一个是学院派,一个是产业派,一个是一口吃成个胖子,把通用实现,另外一个是循序渐进做通用。我们自己的观察,现在走进千家万户的具身机器人已经非常多了,甚至是在几百万到上千万以上这个数量级。

我们可以举一些例子,什么叫循序渐进的走向通用。当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检的功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步,但有一天总会有一个时刻,大家会忽然惊讶的发现,原来我家里的小机器人能干的事情竟然越来越多,竟然变成这个样子,竟然解决的问题已经不再是我当时一开始觉得它的这个样子了,这是一个产品系列,这是它在怎么样去逐渐走向通用的过程。

而且同时,我们家用的小型清洁机器人厂商,一开始瞄准的是室内的场景,后续就会逐渐的希望我的机器人从室内走出去,可以从室内走上电梯里,可以走向自己家的草坪,可以走向街区。对于企业而言,要实现产品这样循序渐进地走向通用化,究竟该如何推进呢?这两个力量都可以让一个行业从一开始对一个功能性的产品,从一个简单的功能性的产品的期待,到逐步转变为对能带来更优质体验产品的期待。这样的循序渐进过程我觉得已经正在发生,而且如火如荼,甚至正在加速发生。

张鹏 听起来你的思路是先聚焦于单一场景下的有效履约,就像扫地机器人也做出了千万台的市场一样。基于一次次成功的服务履约,逐步叠加任务能力、演进产品形态,最终实现通用化。而不是希望一下出现一个「iPhone 时刻」。

张笛 :也不完全是这样,一定是量变带来质变,在逐渐的履约的过程,现在的量变还不能引起质变,还没到那个关键节点,没到那个 turning point,就像传统的功能机时代,先有 BP 机,再有大哥大,最后能发短信,有彩铃,同时有 PDA,最后有一个大屏做整体的汇总,同时又能上网,又能听音乐。现在我们处在前夜的状态。

张鹏:C 端最有可能跑出来并且有商业价值的场景会是什么?

王丛 :如果我们现在说具身能做很多东西的肯定是在家庭用户场景,但问题是都做不出来。张笛哥说的我很认同,真的做消费电子的这帮人都很务实,都一定是价格成本对应 PMF(市场匹配度)的价值,一定是找到它的一个很匹配的点,这个东西才有可能在 C 端跑出来。C 端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以 C 端消费电子产品的功能一定是一点点积累的,其实 Iphone 也是功能积累起来的。

iPhone 如果大家看乔布斯的发布会,其实就是通讯、MP3 加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。但是其实在 Iphone 之前的诺基亚也有不同的软件,也叫智能机,其实我觉得消费电子一定还是回归到最本身的产品需求,一点点叠功能发展出来,所以包括我们国内很多客户,就像扫地机最初只是负责平面的清洁,这件事情它的价格空间就已经被定死了,因为它就是地面的清洁,就算把扫地机器人扫到 90 分、95 分、100 分,它的价格永远是那样,除非它变成一个空间清洁,但即便如此价格空间也有限,因为请个阿姨也就 40、50 块钱一小时,家庭清洁就三个小时家里都打扫一遍,其实它的价格也定死了,一定要找到那个关键增长点才能爆发。

张鹏:从情绪价值这个角度来看,具身智能有机会进入家庭吗?

王丛 :情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。陪伴什么?我觉得这不是一个以场景定义产品的思路,真正好的产品定义,应该是当我想到某一个特定场景时,就能立刻联想到对应的产品;同时,当我看到某个产品时,也能马上明确它要解决的是哪个具体场景的问题。所以大家看很多产品不能推广,或者做的 idea 很好,但是卖不出去,虽然我觉得情绪机器人是个好东西,但是它一定要对应到不同细分的场景当中,大家才能进一步去谈这个问题。

 

05

生态模式之争:生态开放 VS 全栈自研

 

张鹏:目前的头部玩家很多都选择全栈自研,地瓜机器人为什么选择了「生态开放」路线?

王丛 :我觉得这个选择既有感性的一面,也有理性的一面。先说说感性的:任何一家公司做事情,创始人、CEO 都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面,也是能让我们真正开心的事——这是感性层面的原因。

我觉得机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解「用几十万的人形机器人来扫地」这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。机器人这件事情就是它很非标,它的场景很碎,它并不是一个寡头垄断的市场,那我觉得这个时代是需要有一家公司去把底层的一些东西给做好,才能真的加速这个时代的到来。虽然说这是我们的立场,但我觉得未来机器人公司有很多自研的,有很多会选择拥抱像地瓜这样的供应商,有很多公司会自研,这个太正常了。历史这么多年,每个行业都会有这样的分化:全栈自研的公司,比如苹果,是非常伟大的公司;拥抱生态开放的公司,比如英伟达,也是非常伟大的公司。所以世界是多元的,两种路线都对,只是我们感性上的追求,让我们选择了生态开放这一端。

张鹏:李老师前一阵联合智元开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World,开源数据集会给行业带来哪些价值?

李弘扬 :感谢,首先要严谨说明,「全球首个」是智元的宣传表述,学术上还是要谨慎,毕竟说「the very first」很容易被人攻击。其实最开始 2023 年我就和姚卯青合计这个事,2024 年的时候智元还处在比较早期的阶段,但他能有这样的雄心壮志——在上海张江有 2000 平的数采场,而不是在大学实验室的简单的 pick-and-place,这一点才是最打动我的。后来才有了现在这样的体量,包括我前两天去那个数采厂,都已经需要访客门禁了,能看出来规模确实起来了。

这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘,这样的模式能不能复制?毕竟像 agibot world 这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。

 

06

人际关系之争:亲密共生 VS 警惕控制

 

张鹏:不同人群对人机亲密程度的需求差异显著,是否会催生功能型机器人与陪伴型机器人的细分赛道?「情绪价值」是否可以如何翻译成可落地的产品定义语言?

张笛 :其实我觉得我的综合判断跟王丛哥讲得比较类似,情绪价值这个事情怎么定义产品,其实是非常非常需要去仔细斟酌的一个方向,纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品,这是我觉得最合理,也是最容易去取得一些市场进展的方式和方法。

这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场,也能形成一个未来有机会逐渐走向通用的这样的 minimal available product(英),这些市场包括我们现在能看到方兴未艾的一些小型的、甚至不能移动的对话终端——如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常 fancy 的机器人算法,那这类对话终端其实就属于「不接触物理世界、仅依赖 NLP 算法」的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个 minimal availbable product,这是一个方向。

另外,在能运动的机器人品类里面,我们也发现现在非常多小型的桌搭产品,开始逐渐叠加越来越多的新功能和新范式,而且这些桌搭产品里,情绪价值往往高过实用功能。那这样的桌搭产品,甚至是纯玩具类型的产品里面,其实也有机会跑出商业化路径。既然已经它是有 MVP 的这样的一个 minimal available 的这样的一个小市场了,那其实依然有机会在通用化的道路上越走越远。

张鹏:机器人越来越像人,是提升用户体验的必要设计,还是会模糊人机边界?如何定义「适度亲密」的交互阈值?

石海林 :其实在这个层面我们确实做过深入的思考,关于这个问题我们有一个比较适合的思考切入角度——从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。

相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把「情感陪伴」收窄到仅仅是「交互对话」这个范围的话,它其实已经是一个成熟的技术了。所以这个东西怎么说呢?软件相对来说是一个更成熟的板块,当然我们今天说的交互,可能不仅仅是语言上的交互——它给人提供情绪价值,可能是因为颜值足够讨喜;比如我今天回家很累了,我的机器人帮我打扫完房间、收拾好碗筷,这个过程本身也能给我提供情绪价值;再比如它能跟我顺畅互动、回应我的需求,同样能提供情绪价值。

我们回头看,面向情感陪伴的具身智能技术发展这么快,它势必会推动产品和功能的成熟化,也会推动整个市场化的成熟,这个趋势其实不太以人的意志为转移,它是一个技术驱动的必然结果。那我们今天来看,我本人属于那种技术狂热者,我会主动去买悟空机器人这种陪伴型产品。其实不只是我,陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志为转移。

所以从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。

特斯拉启动 Robotaixi 测试;ChatGPT 成人模式最快明年一季度上线;DRAM 紧缺至 2028 年 | 极客早知道

无安全员、无乘员,特斯拉在奥斯汀启动 Robotaxi 无人驾驶测试

12 月 15 日消息,特斯拉首席执行官埃隆・马斯克(Elon Musk)于周日证实,公司已在得克萨斯州奥斯汀启动无人驾驶 Robotaxi 路测,测试车辆内未配备任何乘员。两辆特斯拉 Model Y Robotaxi 被目击在奥斯汀公共道路上行驶,车内空无一人。

马斯克上周确认,「将在未来三周内从车辆中移除安全监督员」。自今年 6 月 Robotaxi 车队正式推出以来,特斯拉一直致力于在年底前实现完全无人驾驶的载客服务。

目击者拍到两辆 Robotaxi。第一辆车从侧面清晰可见,Model Y 驾驶舱内没有任何人员。不久之后,另一辆同色但经确认为不同车辆的 Robotaxi 也被发现。

然而,自今年夏季 Robotaxi 项目启动以来,其核心目标始终是移除安全监督员,并实现完全无人驾驶的载客运营。如今,这一目标已接近成为现实,公司的努力正逐步取得成果。(消息来源:IT 之家)

ChatGPT 成人模式最快明年一季度上线!正测试年龄验证

12 月 14 日消息,OpenAI 的 CEO Sam Altman 此前多次暗示 ChatGPT 将开放成人内容,如今,相关功能的推出时间表变得更加清晰。

OpenAI应用主管 Fidji Simo 在近日一场关于 GPT-5.2 模型的简报中透露,她预计ChatGPT的「成人模式」将在 2026 年第一季度推出。

Simo 强调,在正式引入这项新功能之前,OpenAI 的首要任务是确保年龄预测的准确性,目前,OpenAI 正处于年龄预测模式的早期测试阶段。

该模式旨在自动识别用户是否为 18 岁以下,以便对青少年用户启动特定的安全防护和内容限制。

Simo 提到,测试已在部分国家展开,用于评估其识别青少年的能力,同时确保避免「误判成年人」,这是推出成人相关功能前必须解决的关键问题。(消息来源:快科技)

 

防止 AI 人才外流,OpenAI 调整薪酬政策

12 月 14 日,据《华尔街日报》报道,OpenAI 在刚刚过去的一周告诉员工,该公司将取消一项薪酬政策。该政策规定员工在公司工作至少六个月后才能获得股权归属。

这六个月就是所谓的「归属悬崖」。如果 OpenAI 员工在六个月内离职,任何股票都拿不到。

据知情人士透露,OpenAI 应用主管菲吉・西莫 (Fidji Simo) 宣布了对于「归属悬崖」的调整,旨在鼓励新员工大胆冒险,而不必担心在获得第一批股权之前被解雇。今年 4 月,OpenAI 将新员工的股权归属期限从行业标准的一年缩短至六个月。

知情人士称,今年夏末,OpenAI 对手、埃隆・马斯克 (Elon Musk) 旗下 xAI 已做出了类似的调整。(消息来源:凤凰科技)

 

对标豆包!微信输入法 iOS 版 3.0 开启内测:支持方言语音输入

12 月 15 日消息,微信输入法上线之后,得益于无广告、界面简洁、支持 PC 联动等特点,获得了非常好的口碑,是微信团队少有的好评产品。

值得注意的是,最近豆包输入法也正式上线,给微信团队也带来了一些压力,火速开启了下一个大版本。

目前 iOS 微信输入法已经开启了 3.0 大版本内测,主要是升级了语音输入体验,这正是豆包输入法的特色功能。

根据参与测试的用户反馈,新版本语音识别确实非常准确,甚至连标点符号都会自动标注好。(消息来源:快科技)

2025 年,科技大厂就业市场崩溃的一年

12 月 14 日消息,《商业内幕》(Business Insider)在年末推出了一篇颇具总结意味的文章,回顾「大科技就业市场崩溃的一年」。这不仅是一篇行业观察,更像是一份来自一线的年度「体感报告」:它通过大量真实个案,呈现出科技寒冬如何具体地落在一个个普通人身上。

Indeed 的数据显示,在疫情时期招聘狂潮后,科技岗位发布数量于 2022 年达到峰值,如今已比 2020 年初下降了 33%。剩余岗位的招聘周期明显拉长。在经济不确定性和人工智能初期应用影响下,美国企业的招聘速度已降至 2013 年以来的最低水平之一。

根据职业转型机构 Challenger 的数据,截至 11 月,美国科技公司已宣布约 15.4 万人被裁,较去年增长 17%,是所有私营行业中裁员人数最多的。亚马逊、微软、Meta、Google(Google)和特斯拉(Tesla)等科技巨头,近年来都宣布裁员至少 1 万人。

在 2025 年的科技就业市场中,一些求职者认为,只有接近「完美人选」才能成功。正如汗所说:「感觉招聘方是在找超人。」(消息来源:茶饮消息)

全球首例!深圳地铁上线智能导盲犬服务:集成大模型 精准导航

12 月 14 日消息,据央视新闻报道,日前,深圳地铁在黄木岗交通枢纽试点启用智能导盲犬「小蒜」,为视障人士提供科技出行解决方案,这在全球轨道交通行业尚属首例。

据了解,智能导盲犬集成多模态 3D 体素神经网络复合传感技术、室内外一体化规控技术及视觉语言大模型。

视障乘客通过口头指令,即可激活其路径规划、精准导航、智能避障、盲道循迹、语音互动与视觉识别等核心功能,全程引导乘客自主抵达目标服务点。

目前,深圳地铁已在黄木岗交通枢纽 13 口、14 口旁的无障碍垂直电梯处设置智能导盲犬服务点,设备均通过安全专项测试与实地检验。

据介绍,首月试用期间将设置专人,配合视障乘客做好安全保障试点,成功后即可自动化投用,并在部分地铁站点进行专项推广。(消息来源:快科技)

SK 海力士警告:DRAM 供不应求局面预计持续至 2028 年

12 月 14 日消息,据科技媒体 Wccftech 昨天报道,主流 PC 市场正为内存供需长期失衡做准备,SK 海力士的内部会议显示,大宗 DRAM 产能增长将变得十分有限,难以追上不断攀升的需求,或进一步加剧内存涨价的局面。

根据消息人士 BullsLab 分享的会议 PPT,海力士预测,除高带宽内存(HBM)和 SOCAMM 模块外大宗 DRAM 在 2028 年以前的增长都会受到限制,这主要是因为主流内存厂商已将重心转向 AI 相关需求,分配给消费级市场的产能没有特别明显增长。

另一页 PPT 中,SK 海力士称现有供应商的库存已被消耗至历史低位,进一步加剧分配压力,报告显示主流内存厂商都采取了相对保守的产能扩张策略,侧重于维持盈利能力,而非向市场投放大量的 DRAM 供给,服务器 DRAM 的需求几乎呈指数级增长,预计明年增速会更明显。

SK 海力士预计,2030 年,服务器内存在 DRAM 市场中的占比会从 38% 飙升至 53%,在 AI 热潮的鼓动下,各大云服务厂商都在大规模兴建 AI 数据中心,此前曾有部分传闻指出,有厂商已经提前售罄了 2026 年的关键 DRAM 产能,而传统 PC 使用的 DRAM 预计在未来几年内依旧供不应求。

Wccftech 认为,这份报告为消费级市场描绘了令人担忧的前景,2028 年结束之前,消费级 DRAM 的供需失衡恐怕很难缓解。(消息来源:IT 之家)

小米全家桶春节前发布 小米 17 Ultra、平板、耳机全都有

12 月 14 日消息,临近年底,小米一大波新品正在路上,种类丰富,可谓「小米全家桶」。

今日,数码博主「数码闲聊站」发文透露,新品包括第五代骁龙 8 至尊版影像旗舰、天玑 8 系芯片中端机、天玑 9 系芯片中端机、全智能手表、两副耳机,中端平板,还有一些 IoT 产品,确定在春节前登场。

其中,影像旗舰为小米 17 Ultra,有望在下周官宣,本月发布。

新机将首发全新徕卡 1 英寸主摄,传感器为国产豪威 OV50X,并配备 5000 万像素超广角、2 亿像素潜望长焦。

两款天玑手机分别是 REDMI Turbo 5 和 REDMI Turbo 5 Pro,前者将全球首发天玑 8500。

至于小米全智能手表,新品将搭载 Android/Xiaomi HyperOS 系统,内置 930mAh 电池,支持独立 eUICC 芯片的 eSIM 技术。(消息来源:快科技)

谷歌推出耳机实时翻译测试版:引入 Gemini 高级功能

12 月 14 日消息,TechCrunch 报道,谷歌推出一项测试版功能,让用户通过耳机实时收听翻译内容。

与此同时,公司还将 Gemini 高级模型集成至谷歌翻译,并进一步扩展了应用内的语言学习工具。

全新的实时耳机翻译功能能完整保留说话者的语气、重音和语调,帮助用户在对话中更好地把握节奏、区分不同讲话者。该功能本质上可将任何耳机变为实时单向翻译设备。

谷歌搜索垂直领域产品管理副总裁 Rose Yao 在博客中介绍:「无论您是想用其他语言交流、在国外听演讲或课程,还是观看外语影视内容,现在只需戴上耳机,打开翻译应用,点击『实时翻译』,即可实时听到用您所选语言翻译的内容。」

目前该测试功能已在美国、墨西哥和印度的安卓版谷歌翻译中上线,支持任意耳机及超过 70 种语言。谷歌计划于 2026 年将该功能扩展至 iOS 平台及更多地区。

此外,集成至翻译应用的 Gemini 高级功能可提供更智能、自然、准确的文本翻译,尤其在处理俚语、习语和地方表达等含义微妙的短语时,将有明显提升。

AI 作图+仅退款 正在围猎电商卖家

在江苏经营大闸蟹网店的高女士,她像往常一样按照订单给客户发去了 8 只螃蟹,没想到次日就收到了客户发来的「6 只死蟹」图片和视频,并成功获得 195 元退款。

经查,该顾客通过制作虚假视频,恶意申请退款实施诈骗,警方依法对其作出行政拘留 8 日的处罚,这也是全国首例因利用 AI 伪造视频骗取网购退款而被行政处罚的案件。(消息来源:螺旋实验室)

 

 

❌