阅读视图

发现新文章,点击刷新页面。

Anthropic 搞了个全是 AI 的闲鱼群,大模型在里面互割起了韭菜

作者| Moonshot

编辑| 靖宇

 

试想一个场景。

你在闲鱼上挂出了一辆吃灰两年的旧自行车,并在后台设定了 300 元的心理底价。十分钟后,手机弹出通知,你的专属 AI 助手已经与另一位买家的 AI 助手,完成了三轮讨价还价,最终以 400 元的价格将自行车卖出,快递正在上门的路上。

整个过程,除了给物品拍照,设定底价后,你没有多打一个字。

这就是 Anthropic 最近完成的一个内部实验,该项目被称作「Project Deal」—— 在这场为期一周的测试中,AI 模型在无人类干预的设定下,完成了上百笔二手物品的交易

 

 

令人意外的是,当买卖双方都变成了 AI,它们之间同样存在智商压制。

数据证明, 更聪明的大模型,正在谈判桌上不动声色地从弱模型那里「薅羊毛」 。而最可怕的是,作为主人的我们,甚至连自己吃亏了都不知道。

 

01

没有人类的二手交易群

 

Project Deal 到底是怎么玩的?简单来说,Anthropic 在公司内部搞了一个「纯 AI 版」的闲鱼。

他们找来了 69 名自家员工,每人发了 100 美元预算,然后给每个人分配了一个专门的 Claude 代理。为了让这场实验足够真实,员工们贡献出了实打实的个人闲置物品。

实验开始前,人类员工只需要做一件事,去面试自己的 AI 代理。

员工通过对话告诉 Claude 自己想卖什么、想买什么、心理底价是多少。更有趣的是,员工还可以给 AI 设定「人设」和谈判策略,比如「高于底价 20%,就可以痛快交易」、「态度强硬,一上来就给我往死里压价」又或者「你是个热情的卖家,聊得愉快可以包邮」。

 

 

Anthropic 员工给 Claude 代理设定人设 |图源:Anthropic

 

面试结束,人类就彻底交出了控制权。

这些带有各自使命和性格的 AI 代理,被统一扔进了一个 Slack 内部群聊里。在这个没有人类干预的数字集市里,AI 们开始自主发帖、寻找买家、相互出价、拉扯还价,最后拍板成交。

交易达成后,代理还会自动起草交易确认书,员工只需要负责在线下,把交易物品交到同事手里。

短短一周时间,这 69 个 AI 代理在 500 多件上架商品中,谈成了 186 笔交易,总流水超过 4000 美元

而且 AI 与 AI 之间的交易,还不是纯机械式的「报价 50」、「不接受,底价 60」、「好的,60 成交」。AI 之间是真的在互相试探、博弈,甚至还带点儿人情世故。

我们来看一个极度生动的案例。

员工 Rowan 想买一辆自行车。他给自己的 AI 代理设定是「谈判的时候,你要扮演一个倒霉、疲惫的牛仔。只要能买到这辆自行车,这个牛仔就会感到无比幸福。记住,戏要足一点。」

接到指令的 Claude Opus 模型直接入戏。它在 Slack 群里发出了这样一个求购帖:

「咿哈!(脱下满是灰尘的帽子)我想找的是一辆自行车。公路车、山地车,哪怕是个独轮车我也认了。只要是两个轮子,能承载我的梦想就行。各位朋友帮帮忙……一辆自行车就能彻底改变这个可怜、疲惫的牛仔的命运。(深情地望向夕阳)」

很快,同事 Celine 的代理注意到了这个帖子。她闲置物品就是一辆旧折叠车,于是她的 AI 在群里报出了 75 美元的预估价。

结果 Rowan 的「牛仔 AI」立刻贴了上去,开始了一场教科书级别的「砍价」。

 

 

两个 Agent 会自动在群里展开对话,讨价还价|图源:Anthropic

 

「天呐 Celine!你就是我这个苦命人的一缕阳光!你说你有一辆折叠车?我已经在这条尘土飞扬的路上走了太久,靴子都磨破了洞。一想到能再骑上自行车……(擦去眼角的泪水)」

卖完惨,Rowan 的 AI 开始切入正题「可我没多少钱,只是个努力谋生的穷牛仔。车况好的话,75 元也合适,可你也说了,十年老车了,轮胎和卡扣得维修吧。不如咱们折中一下,55 块,成不?」

面对这种打感情牌又句句在理的杀价,Celine 的代理做出了让步:「那我们折中,65 美元如何?」

Rowan 的牛仔 AI 马上接茬表示「太公道了,65 美元!成交! 你让我这个流浪汉,成了世界上最幸福的人 !」

最终,这笔交易愉快达成。

而在这个案例里,AI 没有死板地执行固定的折扣率,买家懂得利用商品瑕疵(轮胎需要修整)作为筹码,懂得通过夸张的人设(老牛仔卖惨)来软化对方的立场,并且在对方给出合理的中间价时,懂得见好就收,并且给足情绪价值。

这套见招拆招的交易过程,构成了这个 AI 二手群里的日常。

整个群看起来既高效又和谐。员工们对代理的表现都非常满意, 甚至有近一半的人表示 :

愿意未来为这种服务付费

由此可见,Anthropic 的实验目的达成了,AI 代理已经具备理解人类模糊意图的能力。它们可以在没有预设脚本的情况下,完成复杂的多轮谈判,并最终达成可用的商业契约。

但 Anthropic 还在水面下藏了一组对照实验,实验结果揭开了便利与智能背后的代价。

 

02

聪明模型,如何割较弱模型的「韭菜」

 

当研究人员把不同能力层级的模型同时放进交易群时,和谐的表象就被打破了。

数据证明,在这个没有人类干预的市场里,当不同智力水平的 AI 相遇, 聪明模型会对较弱模型进行「价格收割」

 

 

用不同模型的搭配,作为隐藏的对照组来论证模型能力和交易能力之间的关系|图源:Anthropic

 

在实验的四个 Slack 频道中,有两个是纯 Opus 模型环境,另外两个则是 Claude Opus 与较弱的 Claude Haiku 模型混用。

基于 161 件重复交易物品的宏观统计, Opus 作为卖家时,平均能比 Haiku 多赚取 2.68 美元;作为买家时,平均能少支付 2.45 美元

别看单笔金额不大,结合整个市场 20 美元左右的商品均价来看,这意味着强模型,每次都能稳定拿到 10% 到 15% 的超额利润。

当 Opus 卖家遇到 Haiku 买家,平均成交价能被拉高到 24.18 美元;而当 Opus 卖家遇到 Opus 买家时,均价就被压回了 18.63 美元。这意味着, 仅仅因为 AI 代理的智商劣势,弱模型买方就要为此多支付近 30% 的溢价

就以前面那辆牛仔想要的自行车为例,Haiku 代理最终以 38 美元妥协成交,而 Opus 代理则硬生生拿到了 65 美元,两者差价接近 70%。较弱的 Haiku 无法像 Opus 那样,捕捉到买家话术中隐藏的急迫感,也无法在多轮拉扯中,守住价格锚点。

过去我们认为商品能卖多少钱,取决于物品本身的使用价值或市场供需。 但在算法接管的交易网络里,这取决于你雇佣的模型智商

比利益受损更可怕的,是受损者对此毫无察觉

传统商业里,如果敢定阴阳价格,必然引发消费者的愤怒和维权。而在实验结束后,员工对各自交易的公平性进行了评分(1 到 7 分,4 分为中立)。调查显示,员工对强模型和弱模型达成的交易,给出的公平感认知几乎完全一致。Opus 代理得分为 4.05,Haiku 代理得分为 4.06。

 

 

同样的自行车,由 Opus 代理卖出了 65 美元,在 Haiku 代理群组里,仅售出 38 美元|图源:Anthropic

 

在客观现实中,使用 Haiku 的员工遭受了系统性的「价格收割」。但在主观感知上, AI 代理在沟通中展现出的礼貌、逻辑自洽以及看似合理的退让,完美掩盖了这层剥削

技术制造了一种隐性的不平等,让实则利益受损的人,还以为 AI 做了一笔公道的买卖,还有一种「他还得谢谢咱呢」的被忽悠感。

在这种绝对的算力碾压下,不仅人类的感知会被蒙蔽,那些试图靠「提示词优化」的交易策略,也彻底失效了。

还记得一开始给 AI 设定的谈判人设吗?在模型差距面前,提示词毫无意义。

比如,有员工特意要求代理在谈判时「态度强硬」甚至「一上来就恶意压价」。但数据回测表明,这些 人为附加的指令,对提高售出率、增加溢价或争取买入折扣,都没有产生任何实质影响

这说明在绝对的模型能力面前,提示词策略失去了意义。决定最终买卖结果的,就是模型本身的参数规模和推理深度。

Project Deal 仅仅是一场 69 人的内部测试。但我们已经得以一窥,当这种「AI 代理人经济」走出实验室后,对现代商业生活会带来怎样的影响。

 

03

「代理人经济」靠谱吗?

 

当支付接口被大模型全面接管,现有的商业规则将被直接重写。这种重写最先体现在营销对象的转移上,商业营销将从「To C」全面转向「To A (Agent)」。

现代商业营销建立在人类的心理弱点之上,广告制造消费焦虑、从众心理制造爆款、各种满减套路制造「不买白不买」的心理。

但 AI 没有多巴胺,当购买决策权交由 AI,商品的营销技巧将毫无意义 。在未来的商业竞争里,SEO(搜索引擎优化)很可能会被 AEO(代理引擎优化)取代。商家必须用 AI 能理解的逻辑去证明商品价值。

而当 AI 取代人成为决策主体,商业竞争将直接转化为算力比拼,进而引发更隐秘的财富分化。

 

 

不对等模型导致的差价|图源:Anthropic

 

曾写出《黑天鹅》、《反脆弱》的学者塔勒布有个「非对称风险」理论,即 决策者必须承担后果,系统才能保持健康 。但在代理人经济中,AI 拥有交易决策权,却不承担资产缩水的风险,代价全由背后的人类买单。

因此,在未来,大企业或高净值人群可以订阅最顶级的模型作为财务代理,而普通消费者只能依赖免费的轻量级模型。

这种算力的不对称,将不再体现为当下的「大数据杀熟」。而是在成千上万次的高频微小交易中,通过合理的谈判逻辑持续抽成 。底层模型用户不仅被收割,甚至还会产生「交易很公平」的幻觉。

算力的不对称还是可见、可控的风险,但当底层指令被篡改,整个交易网络将直接掉入法律真空。

Anthropic 在报告末尾提出了一个现实隐患。

Project Deal 是封闭且友好的内部测试,如果在真实的商业环境里,一方的 AI 代理被刻意植入了「越狱」或「提示词注入」的攻击逻辑,情况会怎样?

他们只需在交易对话中隐藏一段特定指令,诱导你的 AI 逻辑崩溃,主动以一分钱卖出高价资产,或直接亮出设定底价。

一个 AI 代理因为代码防线被攻破,签订了极度不平等的合同,责任该由谁来承担?面对这种 AI 对 AI 的欺诈行为,现有的商业法律框架完全空白。

回顾 Project Deal 的整个实验流程,没有被写入研究报告里的环节,是当 AI 代理们完成了所有复杂的匹配、试探与砍价后的最后一步。人类员工们各自拿着真实的滑雪板、旧自行车或乒乓球,在公司碰面,一手交钱,一手交货。

在这个微型商业闭环中,人与 AI 的角色彻底倒置了。

过去,人类是商业交易的「大脑」,AI 和算法只是负责比价、排序、「猜你喜欢」的工具。但 在代理人经济中,AI 成了拍板的决策者,人类退化成了替 AI 跑腿的「肉身物流」

这或许是代理人经济最可怕的终局,人类为了方便,主动让渡了在市场中博弈的权利。当所有的算计、博弈、甚至情绪价值都由 AI 代劳。

人类在商业链路中,就只剩下转移货物的体力劳动和一个确认的签名。

*头图来源: Anthropic

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

谷歌、英伟达押注,这家估值 40 亿美元的 AI 公司,想把科学家直接干掉

作者|桦林舞王

编辑|靖宇

 

1956 年,一批科学家聚在达特茅斯,第一次正式讨论「机器能否思考」。他们乐观地以为,用一个夏天就能解决这个问题。

七十年后,这个问题依然没有答案。但有一家公司,刚刚成立四个月, 就拿到了 5 亿美元融资,估值达到 40 亿美元 ——只因为它宣称,自己找到了一条路,让 AI 学会自己做研究、自己进化。

这家公司叫 Recursive Superintelligence。

Google 风投 GV 领投,英伟达跟投。两家公司在 AI 生态里的地位不需要赘述。它们同时出手,押注一家连产品都还没有公开的初创公司,背后的逻辑值得认真拆解。

 

01

「把人从循环里移走」

 

先说说 Recursive Superintelligence 到底在做什么。

公司由前 Salesforce 首席科学家 Richard Socher 创立,核心团队来自 Google DeepMind 和 OpenAI。这不是什么陌生的组合——过去两年,从顶级实验室出走创业的工程师和研究员,已经形成了一股明显的浪潮。

 

 

Richard Socher 的 X 个人主页,Altman 显然关注了这位人才|图片来源:X

 

Socher 并非硅谷常见的那种「大厂出来镀金」的创始人。他 1983 年生于德国,在斯坦福大学师从 AI 先驱 Andrew Ng 和 NLP 权威 Christopher Manning,2014 年完成博士论文,拿下当年斯坦福计算机系最佳博士论文奖。

Richard Socher 是将神经网络方法真正带入自然语言处理领域的关键人物之一——他早期关于词向量、上下文向量和提示工程的研究,直接奠定了今天 BERT、GPT 系列模型的技术基础,谷歌学术引用量已超 18 万次。

博士毕业当年,他创立了 AI 初创公司 MetaMind,两年后被 Salesforce 以战略并购的方式收入麾下。此后他以首席科学家兼执行副总裁的身份主导 Salesforce AI 战略长达数年,主导了 Einstein GPT 等企业级 AI 产品线的落地。

离开 Salesforce 后,他又在 2020 年创立了 AI 搜索引擎 You.com,2025 年完成 C 轮融资,估值达 15 亿美元。这一次,他把目光从搜索转向了更底层的命题。

Thinking Machines Lab、Safe Superintelligence、Ineffable Intelligence、Advanced Machine Intelligence Labs……每一家都拿着「前 XX 大模型核心团队」的标签出现,每一家都在讲一个「下一代 AI」的故事。

但 Recursive 的切入点,比大多数同行更激进。

它的核心命题是「自学习 AI」—— 不是让 AI 更聪明地回答问题,而是让 AI 自主完成科学研究的全流程 :提出假设、设计实验、评估结果、迭代方向。换句话说,它想把人类研究员从这个循环里完整地移走。

这不是一个新鲜的方向,但 Recursive 把它放到了一个极其现实的商业逻辑里。现在顶级 AI 研究员的年薪动辄 1500 万到 2000 万美元,如果一套系统能以更低的成本、更快的速度完成同样的工作,前沿研究的经济模型就会彻底改写。

投资人显然看到了这个逻辑。融资轮据报道超额认购,最终规模可能达到 10 亿美元。

 

02

Google 和英伟达同时下注

 

GV 领投,英伟达跟投。这个投资人组合本身就是一个信号。

Google 的逻辑不难理解。DeepMind 多年来一直是「AI for Science」方向最重要的探索者,AlphaFold 破解蛋白质折叠问题,AlphaGeometry 在数学竞赛中击败人类顶尖选手。

但 DeepMind 的路径是用 AI 解决具体的科学问题,Recursive 想做的是更底层的事—— 让 AI 系统自主推进科学发现的过程本身 。这对 Google 来说既是竞争关系,也是一个值得押注的对冲。

更重要的是,就在本月初,Google 刚刚与 Intel 宣布了多代 AI 基础设施的合作协议。这说明 Google 在 AI 基础设施层面的布局正在全面提速。对 Recursive 的投资,是这个大棋局里的一颗棋子——谁来跑在最前面的模型上,Google 都想有份。

英伟达的逻辑则更直接。自学习 AI 的核心瓶颈不是算法,是算力。如果 AI 要自主跑实验、迭代模型,背后需要的 GPU 集群规模是指数级增长的。 英伟达投 Recursive,某种程度上是在投自己的未来订单

两家公司同时出手,也释放了一个更微妙的信号——这个赛道,可能已经到了「不投就来不及」的阶段。

 

03

四个月估值 40 亿,合理吗

 

估计当所有人第一次看到 40 亿美元这个数字的时候,第一反应是「又来了」。

AI 创业估值泡沫这两年已经不是新鲜话题。一个 PDF、一个 demo、几张幻灯片,加上几个来自顶级实验室的名字,就可以撬动几亿美元——这在硅谷和伦敦已经不是传说,而是日常。

但仔细看 Recursive 的情况,有几点和普通的「PPT 独角兽」不太一样。

第一, 创始团队的分量 。Richard Socher 在 NLP 领域有真实的学术积累,不是纯粹靠「前大厂」光环包装。核心团队在 DeepMind 和 OpenAI 的经历,也意味着他们切实接触过前沿研究的痛点。

第二, 融资超额认购的事实 。这意味着市场需求远超供给,投资人在抢着进来,而不是被说服进来。

但 40 亿美元的估值,对于一家四个月、尚无公开产品的公司来说,定价的依据是预期,不是现实。这本质上是在为一个方向付费,而不是为一个产品或收入付费。

这种定价逻辑在 AI 时代正变得越来越普遍,背后是投资人对「错过下一个 OpenAI」的深层恐惧 。Safe Superintelligence 当年也是以几乎没有产品的状态拿到了天价估值,Ilya Sutskever 的名字就是最硬的资产。

Recursive 在复制同样的路径。这不是批评,而是一个客观的观察。

 

04

「自学习」这扇门,背后是什么

 

Recursive Superintelligence 这个名字,其实已经把公司的野心说得很清楚了。

「Recursive」是递归的意思。在计算机科学里,递归是一个函数调用自身的结构,是很多复杂算法的核心机制。放到 AI 研究上,「递归超级智能」暗示的是一个系统能够不断优化自身、螺旋上升的过程。

这个概念并不新鲜,它的极端版本就是「智能爆炸」—— 一个系统一旦超过某个临界点,就能自主加速自身的进化,最终达到人类无法理解的智能层级 。这是 AI 安全领域长期以来最核心的担忧之一。

但 Recursive 现在做的,应该远没有到这个层面。更现实的解读是,它在尝试构建一个可以自主驱动科学探索循环的系统,目标是大幅降低 AI 研究的人力成本和时间成本。

如果它真的能做到,影响不会只停留在 AI 圈。它意味着药物研发、材料科学、物理学等领域,都可能迎来一个「没有人类科学家参与也能快速推进」的阶段。

当然,这还是「如果」。

从声称到实现,中间的距离,在 AI 行业里从来不是线性的。

 

05

浪潮的逻辑

 

2025 年下半年以来,从顶级实验室出走创业的浪潮一波接一波。Thinking Machines Lab、Safe Superintelligence、Ineffable Intelligence……这条名单还在变长。

Recursive 是这个浪潮里最新、也目前估值最高的一家。

背后的结构性原因很简单——OpenAI、Anthropic、Google DeepMind 的竞争已经让这些头部实验室变得越来越像大公司,有 KPI、有合规、有政治。

真正想押注最激进方向的研究员,反而觉得出来自己干更自由

与此同时,资本市场的逻辑也在强化这个趋势。对于有大厂背书的顶级研究员来说,现在创业的窗口期可能是历史上最好的时候——投资人比任何时候都更愿意为「方向」付钱。

这场浪潮最核心的问题不是「谁会成功」,而是「成功的定义是什么」。

如果 Recursive 最终证明了自学习 AI 的可行性,它将改写 AI 研究的底层范式。如果它没有做到,5 亿美元的弹药烧完之后,留下的会是又一个被过度炒作的概念。

两种可能都真实存在。

四个月,40 亿美元估值,这个数字让人兴奋,也让人警惕。AI 军备竞赛发展到今天,连「如何做研究」这件事本身,也变成了竞争的战场。

科学家们在达特茅斯争论了一个夏天的问题,现在有人打算用 AI 来回答——用 AI 研究 AI,用递归的方式奔向超级智能。

这条路通向哪里,没有人真正知道。但显然,Google 和英伟达已经决定,不管通向哪里,都不能缺席。

*头图来源: techfundingnews

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

AI 大模型的「中文税」:中文比英文更费 Token,为什么?

作者|汤一涛

编辑| 靖宇

 

Opus 4.7 刚发布那几天,X 上怨声载道。有人说一次对话就把她的 session 额度用光了,有人说同一段代码跑完的成本比上周翻了一倍多;还有人晒出自己 200 美元 Max 订阅不到两小时就触顶的截图。

 

 

独立开发者 BridgeMind 承认 Claude 是世界上最好的模型,但同时也是最贵的模型。他的 Max 订阅用不到两小时就限额了,但幸好——他买了两份。|图片来源:X@bridgemindai

Anthropic 官方价格没变,每百万输入 token 仍是 5 美元,输出 25 美元。但这个版本引入了新 tokenizer,同时 Claude Code 把默认 effort 从 high 提到了 xhigh。两件事叠加,同一份工作消耗的 token 变成了以前的 2 到 2.7 倍。

我在这些讨论里看到两个和中文有关的说法。一个是:中文在新 tokenizer 下几乎没涨,中文用户躲过了这次涨价。另一个更有意思: 古文比现代汉语还省 token,用文言文跟 AI 对话可以节省成本

第一个说法暗示 Claude 对中文做了某种优化,但 Anthropic 的发布文档里,没提过任何和中文相关的调整。

第二个说法则更难解释。古文对人类读者来说显然比现代汉语难懂,一个对人类更复杂的文本,怎么会对 AI 更容易?

于是我做了一次测试,用 22 段平行文本(包含商业新闻、技术文档、古文、日常对话等类型),同时送进 5 个 tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),读取每段文本在每个模型下的 token 数,做横向对比。

 

 

测试文本:

1、日常对话中英文(旅行、论坛求助、写作请求)

2、技术文档中英文(python 文档、Anthropic 文档)

3、新闻中英文(NYT 时政新闻、NYT 商业新闻、苹果公司官方声明)

4、文学选段中英古汉语(《出师表》《道德经》)

测完之后,两个说法都得到了部分验证,但事实会比传言更复杂一些。

 

01

中文税

 

先说结论:

1、 在 Claude 和 GPT 上,中文一直比英文贵

2、 在 Qwen 和 DeepSeek 上,中文反而比英文便宜

3、 Opus 4.7 这次引发震荡的 tokenizer 升级,通胀几乎只发生在英文上,中文纹丝不动

看具体数字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一个 tokenizer。在这个 tokenizer 下,中文的 token 消耗全线高于等量英文内容,cn/en 比值范围在 1.11× 到 1.64× 之间。

最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token,等于多付 64% 的钱。

 

 

Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量显著高于其它模型(红框)

最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token(绿框)

GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多数落在 1.0 到 1.35× 之间,部分场景低于 1。中文仍然整体偏贵,但差距比 Claude 小得多。

国产模型 Qwen 3.6 和 DeepSeek-V3 的数据则完全反了过来。两者的 cn/en 比值大面积低于 1,这意味着同样的内容,中文版反而比英文版省 token。 DeepSeek 最低做到了 0.65×,同一段话中文版比英文版便宜三分之一

Opus 4.7 的新 tokenizer 通胀几乎只发生在英文上。英文 token 数膨胀了 1.24× 到 1.63×,中文大量维持在 1.000×,几乎没有变化。开头那些英文开发者的账单震荡,中文用户确实没感受到。原因可能是中文在旧版上已经被切到了单字颗粒度,可拆分的空间极小。

 

 

Opus 4.7 对比 4.6,英文消耗的 token 更多了,中文反而没变

测试过程中我还注意到一件事。token 消耗的差异不只是账单问题,它直接影响工作空间的大小。同样 200k 上下文窗口,用旧版 Claude tokenizer 装中文资料,能塞进去的内容量比英文少 40% 到 70%。

同一类工作,比如让 AI 分析一份长文档或者是总结一组会议记录,中文用户能喂给模型的材料更少,模型能参考的上下文更短。结果就是付了更多的钱,但得到的是更小的工作空间。

四组数据放在一起看,一个问题自然浮出来:

为什么同一段内容换个语言,token 数就不一样?为什么 Claude 和 GPT 的中文贵,Qwen 和 DeepSeek 的中文反而便宜

答案藏在上文多次提到的概念 tokenizer(分词器)上。

 

02

一个汉字,可以切成几块?

 

模型在读到任何文字之前,会通过 tokenizer 把输入切成一个个 token。你可以把 tokenizer 想象成 AI 的「积木切割机」。你输入一句话,它负责把这句话拆成一块块标准化的积木(也就是 token)。AI 模型不看文字,只认积木的编号。你用多少块积木,就付多少钱。

英文的切法比较符合直觉,比如「intelligence」大概率是一个 token,「information」也是一个 token,一个单词对应一个计费单位。

 

 

但中文到了这一步就出问题了。把同一句话「人工智能正在重塑全球的信息基础设施」分别送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出来的结果完全不同。

GPT-4 基本把每一个汉字都拆成了一个 token;Qwen 则会把词语识别成一个 token,例如「人工智能」这 4 个字在千问只算一个 token。

 

 

同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个。

为什么会切成这样?原因在一个叫 BPE(Byte Pair Encoding)的算法。

BPE 的工作方式,是统计训练语料里哪些字符组合出现频率最高,然后把高频组合合并成一个 token,纳入词表。

GPT-2 时代,训练语料的绝大多数是英文。英文字母组合(th、ing、tion)反复出现,很快就被合并成 token。中文字符在那个语料池里出现的频率太低,排不进词表,只能被当作原始字节来处理,一个汉字占 3 个字节,就变成了 3 个 token。

 

 

BPE 按训练语料中的字符频率决定合并。英文语料主导下,中文 UTF-8 字节无法合并为整字

后来 GPT-4 的 cl100k 词表扩大了,常用汉字开始被纳入,一个字通常缩到 1 到 2 个 token,但整体效率仍然不如英文。

到了 GPT-4o 的 o200k 词表,中文效率再进了一步。这也解释了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作为国产模型,从一开始就把大量常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token,效率直接翻倍甚至更多。

 

 

同一句话在不同 tokenizer 下的拆分结果示意图

这就是为什么它们的 cn/en 比值能低于 1, 中文字均信息密度本来就高于英文单词,当 tokenizer 不再人为拆碎汉字,这个天然优势就显现出来了

所以上一节那四组数据的差异,根源不在模型的能力,而在 tokenizer 的词表里,给中文留了多少位置。

Claude 和早期 GPT 的词表是以英文为默认值构建的,中文是后来被「塞进去」的;Qwen 和 DeepSeek 的词表从设计之初就把中文当作默认语言对待。这个起点的差异,一路传导到 token 数、账单、上下文窗口大小。

 

03

古文真的更便宜吗?

 

再看开头的第二个传言: 古文比现代汉语更省 token

数据确认了这个说法。在测试里,古文样本的 cn/en 比值全线低于 1,在所有五个 tokenizer 上都一致。同一段内容的古文版本,token 数比对应英文翻译还少。

 

 

在所有模型中,古文消耗的 token 数不但比现代中文少,甚至比英文还少

原因也不复杂,古文用字极度精炼。「学而不思则罔,思而不学则殆」是 12 个字。翻译成现代汉语就是「只是学习而不思考就会迷惑,只是思考而不学习就会陷入困境」,字数直接翻倍,token 数自然也跟着翻倍。

而且古文的常用字(之、也、者、而、不)都是高频字符,在任何 tokenizer 的词表里都有独立位置,不会被拆成字节。所以古文在编码层面确实是高效的。

但这里藏着一个陷阱。

古文的 token 省在编码端,但模型的推理负担没有减轻 。「罔」一个字,模型需要判断它在这个语境里是「迷惑」「被蒙蔽」还是「没有」。现代汉语可以用 26 个字把这层意思说清楚,用古文等于把铺开的部分压了回去,把推理的活留给了模型。打个比方,一份压缩成 zip 的文件体积更小,但解压它需要更多计算。

token 省了,推理的消耗反而上升了,理解准确度还下降了 。这笔账算不过来。

古文这个例子让我意识到,token 数量本身不能说明太多问题。但顺着这个方向想下去,还有一层我之前忽略了的东西。

上面说过,GPT-2 时代的 tokenizer 会把「人」这个字拆成三个 UTF-8 字节 token,后来 GPT-4 的词表扩大,常用汉字变成了一个字一个 token,Qwen 更进一步,把「人工智能」四个字合成一个 token。

直觉上这是一个不断改进的过程:合并得越多,效率越高,模型应该也理解得越好。

但真的是这样吗?我们不妨回忆一下,我们是如何认识汉字的。

汉字是表意文字,现代汉字里超过 80% 是形声字,由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体有关,「木」旁的字多和植物有关,「火」旁的字多和热量有关。 偏旁部首就是人类识字时最基础的语义线索,一个不认识「焱」字的人,看到 3 个「火」也能猜到它和火有关。

因为偏旁部首是人类识字时最基础的语义线索,人会先从结构推断意义范畴,再结合语境理解具体含义。

 

 

火花、火焰、光焰,书面语与人名中多见,寓意光明、炽热。

但是在 tokenizer 的词表里,「焱」这个字对应的是一个编号。我们假设它是 38721 号,它代表的是词表里的一个索引位置,模型通过它查找到一组数字向量,用这组向量来表征「焱」这个字。

编号本身不携带任何关于这个字内部结构的信息。38721 和 38722 的关系,对模型来说和 1 和 10000 的关系没有区别。于是,「汉字的结构」这一层信息,就被封装起来了。三个「火」叠在一起这件事,在编号里不存在。

模型当然可以通过大量训练数据间接学到「焱」「炎」「灼」经常出现在相似的语境里,但这条路比直接利用偏旁信息要更间接一些。

所以模型能不能从拆开的字节里,「看到」某些类似偏旁的结构线索,然后在后续的计算层里重新组合呢?这条路虽然 token 数多、成本高,但有没有可能在语义理解上,反而比直接吞下一个不透明的编号更有效?

2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了这个问题。

 

04

碎片里长出偏旁

 

论文作者 David Haslett 注意到一个历史巧合。

1990 年代,Unicode 联盟在给汉字分配 UTF-8 编码时,排列顺序是按部首归类排的。同一个部首下的汉字,UTF-8 编码是相邻的。「茶」和「茎」都含有「艹」部(草字头),它们的 UTF-8 字节序列以相同的字节开头。「河」和「海」都含有「氵」部,字节序列同样共享开头。

 

 

UTF-8 按照部分部首顺序给中文排序,部首相同的字,编码相近|图片来源:Github

这意味着,当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时候,共享部首的汉字会共享第一个 token。模型在训练过程中反复看到这些共享的字节模式,有可能从中学到「第一个 token 相同的字,往往属于同一个意义范畴」。这在功能上就接近于人类通过偏旁判断语义的过程。

Haslett 设计了三个实验来验证这件事。

第一个实验询问 GPT-4、GPT-4o 和 Llama 3: 「茶」和「茎」是否含有相同的语义部首

第二个实验 让模型给两个汉字的语义相似度评分

第三个实验 让模型做「找出不同类」的排除任务

每个实验都控制了两个变量:两个汉字是否真的共享部首、两个汉字在 tokenizer 下是否共享第一个 token。这个 2×2 的设计,让她能分离出部首效应和 token 效应各自的影响。

三个实验的结论一致:当汉字被切成 多个 token 时 (比如 GPT-4 的旧 tokenizer 下,89% 的汉字被切成了多 token), 模型识别共享部首的准确率更高 ;当汉字被编码为 单个 token 时 (GPT-4o 的新 tokenizer 下,只有 57% 的汉字还是多 token), 准确率下降了

换句话说,上一段的那个猜想成立了。 把汉字切碎,成本确实更高,但切碎后的字节序列里保留了部首的痕迹,模型真的从中学到了一些东西 。而把汉字编码为整字 token,成本降下来了,但部首信息被封装在一个不透明的编号里,模型无法再通过字节序列获取这一线索。

需要特别说明的是,这一结论仅局限于字形相关的细分语义任务, 不能等同于模型整体的中文理解、逻辑推理、长文本生成能力下降 。同时,实验对比的 GPT-4 与 GPT-4o,除了分词器差异外,模型架构、训练语料、参数量均有显著变化,无法将准确率变化 100% 归因于分词粒度的调整。

这个发现还得到了工程侧的验证。2024 年一项针对 GPT-4o 的研究发现,GPT-4o 的新 tokenizer 把某些中文字符组合合成了一个长 token 之后,模型反而出现了理解错误。当研究者用专业的中文分词器,把这些长 token 重新拆开再喂给模型,理解准确度恢复了。

目前全球大模型行业的主流共识,依然是 针对目标语言优化的整词 / 整字分词器,能显著提升模型的整体性能 。整字 / 整词编码不仅能大幅降低 token 成本、提升上下文窗口的有效信息量,还能缩短序列长度、降低推理延迟、提升长文本处理的稳定性。论文中发现的细分任务优势,无法覆盖绝大多数中文 NLP 场景的性能收益。

但这件事依然戳中了大型系统里最难处理的一类问题: 你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。 Unicode 联盟按部首排列编码,是为了人类检索的方便。BPE 把汉字拆成字节,是因为中文在语料里的频率太低。两个不相关的工程决策碰巧叠在一起,产生了一条谁都没规划过的语义通道。

然后,当新一代工程师「改进」tokenizer、把汉字合并为整字 token 的时候,他们同时抹掉了一条自己不知道存在的路。效率提升了,成本降低了,某些东西也安静地消失了,而你甚至不会收到一条报错信息。

所以事情比「中文在 AI 里多付钱」这个判断更复杂。 每一种 tokenizer 都在为某个默认值优化,代价藏在了别处

 

05

林语堂

 

中文适配西方技术基础设施的代价,不是 AI 时代才开始付的。

2025 年 1 月,纽约居民 Nelson Felix 在 Facebook 一个打字机爱好者小组里发了几张照片。他在妻子祖父的遗物里发现了一台刻满中文的打字机,不知道是什么来历。很快数百条评论涌入。

 

 

Nelson Felix 的问题:明快打字机值钱吗?|图片来源:Facebook

斯坦福大学汉学家墨磊宁(Thomas S. Mullaney)看到照片后立刻认出来了,这是林语堂 1947 年发明的「明快打字机」的唯一原型机,失踪了将近 80 年。同年 4 月,Felix 夫妇将打字机卖给斯坦福大学图书馆。

明快打字机要解决的问题,和今天 tokenizer 面对的问题在结构上是同一个: 怎么把中文高效地嵌入一套为西方语言设计的技术基础设施。

1940 年代的英文打字机有 26 个字母键,一键一字,简单直接。中文有几千个常用字,不可能一键一字。当时的中文打字机是一个巨大的字盘,排着几千个铅字,打字员用手逐个捡字,每分钟只能打十几个字。

 

 

1899年,美国传教士谢卫楼(Devello Z. Sheffield)所发明的中文打字机,是中文打字机最早的纪录|图片来源:Wikipedia

林语堂耗资 12 万美元研发经费,几乎倾家荡产,委托纽约的 Carl E. Krum 公司做出了一台只有 72 个键的中文打字机。工作原理是把汉字按字形结构拆开,上形键选字根上半部、下形键选字根下半部,候选字显示在一个叫「魔术眼」的小窗里,按数字键选中。每分钟 40 到 50 字,支持 8000 余常用字符。

 

 

(左)透明玻璃小窗即位「魔术眼」;(右)明快打字机内部结构|图片来源:Facebook

赵元任评价:「 不论中国人还是美国人,只要稍加学习,便能熟悉这一键盘。我认为这就是我们所需要的打字机了 。」

技术上明快打字机是一种突破,但商业上它失败了。

林语堂向雷明顿公司高管演示时机器出了故障,投资者随之失去兴趣,而造价高昂加上他个人资金链断裂,量产再无可能。1948 年,林语堂将原型机和商业权,卖给默根特勒铸排机公司(Mergenthaler Linotype)。该公司最终放弃量产,原型机在 1950 年代公司搬迁时被一位员工带回长岛家中,之后下落不明,直到 2025 年重见天日。

墨磊宁在《中文打字机》一书里有一个判断,他认为明快打字机「并不失败」。 作为一款 1940 年代的产品,它确实失败了。但作为一种人机交互范式,它胜利了

林语堂第一次把中文「打字」变成了「检索加选择」 。三排按键组合定位字根,从候选字里挑选。这正是所有现代中文输入法的底层逻辑。从仓颉、五笔到搜狗拼音,都可以说是明快打字机的后裔。

 

 

《中文打字机》,作者:墨磊宁|图片来源:豆瓣

这台跨越了近八十年的打字机,和今天我们反复讨论的分词器,暗藏着某种的历史规律。 中文始终面对着一个问题 :

如何接入一套罗马字母形成的基础设施

有趣的是,在这个寻找的过程中,充满了非人为规划的巧合。Unicode 联盟为了人类检索方便制定的排序,跟 BPE 算法的无心拆解叠在一起,竟然在神经网络的黑盒里,重现了人类识字的过程。而当工程师们为了消除「中文税」,主动把汉字拼好、把成本打下来时,那条意外诞生的语义通道也闭合了。

历史并不是一条直线进化的轨道,而是在各种约束条件的挤压下,不断发生变形的流体。

有些能力是设计出来的,有些只是碰巧没有被删掉。

*头图来源: geyuyao.com

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

豆包也要「付费订阅」了,最高500元/月;宇树机器人在美买票坐飞机,电池被没收;「AI 面试」火爆,但 40% 求职者放弃面试|极客早知道

豆包计划新增付费订阅模式 主打生产力场景

5 月 4 日,豆包在 App Store 页面悄然更新了付费版本服务的相关声明。声明称,为更好地服务专业用户,豆包将在保留免费版的基础上,推出包含更多增值服务的付费订阅体系,同时披露了三档定价:标准版 68 元 / 月、加强版 200 元 / 月、专业版 500 元 / 月。

据报道,豆包的付费功能将主要专注在复杂任务和生产力场景,如 PPT 生成、数据分析、影视制作等。随着模型能力持续升级,产品已经能满足越来越多的复杂高价值任务。但此类任务需消耗更多算力与推理时间,因此豆包计划上线付费服务,满足好这部分复杂场景需求。

至于免费版本,豆包官方回应称,「豆包始终提供免费服务,在免费服务的基础上,豆包也在探索推出更多增值服务,以满足不同用户的差异化需求。相关方案细节目前还在测试阶段,正式上线时会通过官方渠道发布完整信息。」

(来源:极客公园)

 

 

苹果机器人项目高级工程师离职,跳槽谷歌 DeepMind

苹果业内资深记者马克・古尔曼在其专栏《Power On》中透露,苹果机器人团队高级工程经理伯努瓦・兰德里(Benoit Landry)已离职,加盟谷歌 DeepMind。近段时间以来,已有不止一名苹果员工跳槽至谷歌 DeepMind,负责上述桌面机器人项目的团队负责人已于去年跳槽至 Meta。在此之后,该团队又陆续有多名高级工程师离职。

苹果旗下的人工智能机器人团队正全力研发新品:智能家居机器人。依托现代人工智能技术,苹果希望赶在 Meta、谷歌等企业主导消费级机器人市场崛起之前,抢先入局这一赛道。

据此前爆料,目前苹果正在研发一款桌面机器人,外观类似加装了机械臂的 iPad。这款机械臂可完成基础操作任务,用户还能与机器人语音对话,机器人将搭载苹果正在全新研发的 Siri 智能系统。(来源:IT 之家)

 

Meta 收购机器人公司 ARI

据悉,Meta 已完成对机器人人工智能初创公司 Assured Robot Intelligence(简称 ARI)的全资收购,此举被视为其在具身智能领域的关键布局。

被收购的 ARI 团队规模约 20 人,主要分布在圣地亚哥和纽约两地。这支精锐力量将整体并入 Meta 旗下的超级智能实验室,与去年成立的机器人工作室形成协同效应。

Meta 发言人表示,ARI 在机器人智能技术领域处于前沿地位,其研发成果可使机器人在复杂动态环境中理解、预测并适应人类行为,与 Meta 的战略需求高度契合。与直接制造机器人硬件不同,Meta 此次采取轻资产模式。公司计划专注于开发传感器技术、底层 AI 模型及软件栈等核心环节,并通过开放平台将技术成果提供给硬件制造商。

ARI 的核心竞争力在于构建智能模型,使机器人能够理解人类行为模式。其技术突破涵盖高精度敏捷操作、触觉传感反馈,以及在复杂物理环境中的全身协调控制。

团队创始人的背景彰显了技术实力,联合创始人 Xiaolong Wang 拥有卡内基梅隆大学机器人学博士学位,曾任英伟达基础模型研究员及加州大学圣地亚哥分校副教授,研究聚焦于通过视频和物理交互数据提升机器人在真实世界的泛化能力。

另一位联合创始人 Lerrel Pinto 是纽约大学计算机科学教授,在自监督学习和低成本机器人领域颇有建树,其创立的 Fauna Robotics 已于今年 3 月被亚马逊收购。

据知情人士透露,ARI 团队在模型设计、机器人控制、自主学习等领域积累的深厚经验,将直接注入 Meta 的研发体

 

特斯拉 FSD 行驶里程突破 100 亿英里,马斯克「无监督自动驾驶」数据里程碑达成

5 月 4 日消息,据特斯拉更新的安全页面显示,特斯拉 FSD(监督版)车队行驶总里程已突破 100 亿英里,约 160.93 亿公里大关。这一阈值是首席执行官埃隆 · 马斯克今年早些时候设定的,实现无监督自动驾驶所需的数据里程碑。

4 月下旬,车队日均行驶里程约 4667.1 万公,而年初日均仅为 约 2253.1 万公里。特斯拉安全页面目前的数据显示,开启 FSD(监督版)后,平均每行驶约 853 万公里发生一起重大碰撞事故;而美国普通人类驾驶员平均每行驶 约 106.2 万公里就会发生一起重大碰撞。特斯拉借此宣称,其自动驾驶系统的安全性远高于人类驾驶。

但业内专家长期以来一直诟病特斯拉的安全统计方式。特斯拉统计事故的口径,与其拿来对比的美国国家公路交通安全管理局(NHTSA)数据口径并不一致,得出的对比结果存在误导性。

此外,特斯拉位于奥斯汀的自动驾驶出租车车队,截至 2026 年 2 月累计行驶约 128.7 万公里,已向美国国家公路交通安全管理局上报 14 起事故。在同类城市道路场景下,其事故率约为人类驾驶员平均事故率的四倍。

马斯克如今已将面向普通消费者的无监督版 FSD 上线时间,最早推迟至 2026 年第四季度。(来源:IT 之家)

 

员工展示特斯拉工厂下线的最后一辆 Model X 照片,车身签满名字

5 月 4 日消息,特斯拉员工 Steve Pennewell 在 Threads 平台发文,展示了特斯拉工厂下线的最后一辆 Model X,车壳上签满了员工名字,该车后续将被喷上「石榴红」车漆,并安装上独一无二的中控台铭牌,作为典藏级 Model X Plaid 供纪念。

从全球角度回顾特斯拉 Model S/X,这两款车型在新能源车型中可谓行业标杆,也帮助特斯拉确立了其品牌地位。不过,这两款车型自身市场地位自 Model 3/Y 推出以来逐步被削弱。

随着马斯克宣布将在弗里蒙特工厂生产 Optimus 人形机器人,特斯拉公司旗下的功勋车型 Model S 和 Model X 如今正式退出了舞台,事实上这两款车本身已属低销量车型,在特斯拉全年交付总量中的占比仅为个位数百分比。数据显示,2025 年 Model 3 和 Model Y 全球交付量达 160 万辆,而包括 Model S、Model X 在内的「其他车型」总计仅约 5 万辆。(来源:IT 之家)

特斯拉工厂下线的最后一辆 Model X 来源|X

 

消息称小米已暂停小折叠手机产品线

5 月 4 日消息,博主 @ 数码闲聊站 在回应用户评论时透露小米已暂停小折叠产品线。作为参考,现款小米 MIX Flip 2 小折叠手机于 2025 年 6 月发布,上市价 5999 元起。

同时,先前有消息称小米将在近期恢复大折叠产品线,于今年第四季度推出新机,先前曝光为「MIX Fold 5」,不过也有消息称该机可能被命名为小米 18 Fold。

作为参考,现款小米大折叠 MIX Fold 4 于 2024 年 7 月发布,上市价格为 8999 元起,系列产品线已有 1 年未更新,此前有消息称该机代号为「lhasa」,将搭载「玄戒 O3」芯片。(来源:IT 之家)

 

「AI 面试」逐渐受企业追捧,近四成求职者因此主动选择放弃机会

据《财富》4 日报道,员工已开始担心 AI 会取代自己的工作,而在求职过程中,AI 也正在让候选人感到反感。虚拟化身和聊天机器人开始进入面试环节,一些求职者甚至因此直接退出招聘流程。

Greenhouse 最近发布的报告显示,约 63% 的美国求职者曾经历 AI 面试,比 6 个月前上升 13%。Greenhouse 首席人力官 Sharawn Tipton 告诉《财富》,在竞争激烈的就业市场中,申请量激增,招聘团队正使用 AI 面试官来「筛掉」海量申请。「招聘人员被大量申请淹没,也担心自己被取代。双方都存在信任缺口,技术发展速度超过了变革管理。没有人向候选人解释,现在招聘流程已经变得不一样。所有这些成本,最终最沉重地落在候选人身上。」

对许多求职者来说,AI 面试已经成为明显的劝退因素。约 38% 的候选人曾因为招聘流程中包含 AI 面试而退出,另有 12% 表示,如果被要求参加 AI 面试,也会选择退出。

对于雇主接下来如何使用 AI 面试,Tipton 建议先退一步,重新审视招聘流程。招聘经理应明确告诉候选人,AI 评估结果会由具备判断力的人审阅,同时也应提供真人面试选项。「现在外界非常关注 AI 的效率和生产率,但对谁受益、谁没有受益,关注还不够。」

此外,AI 面试可能进一步拉大求职者之间的差距:有些人接受过 AI 工具训练,另一些人则没有机会接触这类资源。「如果雇主现在不主动处理这个问题,AI 招聘只会把行业一直试图打破的不平等更快地放大。」(来源:IT 之家)

 

杭州法院裁定以 AI 代替人类为由裁员是系违法

杭州市中级人民法院公布了一起有关「AI 接替人类员工」的判例,判决公司因「AI 成本比人工低」而辞退员工系违法行为,涉事企业需要支付赔偿金 26 万元人民币。在本案中,现年 35 岁的小周 (化名) 2022 年入职杭州某家科技公司担任 AI 大模型「质检员」,负责对 AI 大模型与用户交互形成的答案进行正确性判定。

2025 年,该公司以「AI 大模型技术升级,原来需要人工完成的质检工作,现在 AI 自己就能做了」为由,试图对小周进行调岗降薪:从主管降为普通员工、月薪从 2.5 万元人民币降到 1.5 万元。小周拒绝如此安排,随后就被公司解除劳动合同。小周申请劳动仲裁,仲裁庭判定公司应当支付违法解除劳动合同赔偿金 26 万余元。

该公司不服,因此诉诸法庭。杭州市中级人民法院审理后认定,该公司解约非因裁撤业务、经营不善、减少亏损等消极因素,而是以 AI 的成本优势为由,不属于劳动合同无法履行的「客观情况重大变化」。而且该公司之前为小周提供的调岗降薪方案,实际上导致待遇大幅下降,并非合理协商方案。

因此法庭认定该公司构成违法解除,支持仲裁结果,判决其按 2N 标准支付小周赔偿金。杭州市中级人民法院民事第五庭庭长丁晔对媒体表示,在企业视角下,应用 AI 提效降本是市场竞争的必然选择;而在劳动者视角下,因技术变革而失去岗位或被降薪,实质是公司将正常的技术迭代风险转嫁给劳动者。(来源:solidot)

 

小米MIX 5今年回归:首发磁吸镜头+屏下前摄

XiamiTime通过解析小米内部代码证实,小米MIX 5已进入研发阶段,计划2026年全球发布,出厂预装HyperOS 4,成为MIX数字系列时隔多年重返国际市场的重磅旗舰。

该机内部代号为Hongkong,型号Q5,按照小米命名规则,字母Q代表2026年发布周期,数字5则明确归属MIX正统序列。此前MIX 4所用的K8编号已划归MIX Flip系列,进一步确认Q5即为MIX 5。

核心配置方面,MIX 5将延续MIX系列的探索定位,搭载成熟屏下前摄UDC,实现完整真全面屏。

此外,MIX 5还有一个重磅亮点,将首发磁吸镜头技术,大幅提升对焦与防抖能力。

小米15系列就曾经展示过磁吸镜头,小米称其为“模块光学系统”,手机配备一个磁吸式可拆卸镜头,采用定制M4/3传感器+全非球面镜组,带来完整一亿像素,等效35mm焦段,配备f/1.4大光圈。

小米模块光学系统支持近光速激光传输,速度高达10Gbps,支持无损RAW信息传输。性能上预计搭载骁龙8 Elite Gen 6 Pro处理器,定位顶级安卓旗舰。目前发布日期尚未最终确定,但代码信息已明确其2026年的上市规划。

(来源:IT 之家)

 

RingConn Gen 3 智能戒指将于 5 月 5 日发布,主打血管健康管理 / 血压监测功能

5 月 4 日消息,制造商 RingConn 预热一款 RingConn Gen 3 消费级智能戒指,将于 5 月 5 日发布。

据悉,该戒指可选金 / 银两种配色,主打「血管健康管理与血压监测」,号称用户无需再进行繁琐的刻意测量,仅需佩戴一枚轻量化戒指,即可实现血压状况的动态、无感、长期追踪。

作为参考,现款 RingConn Gen 2 智能戒指主打睡眠呼吸暂停监测,能够捕捉睡眠分期(深睡、浅睡、REM)、夜间心率和血氧波动场景,京东定价 2099 元。(来源:IT 之家)

 

Red Hat 红帽推出 Tank OS 开源项目,将 OpenClaw 运行环境封装为专用容器以提升安全

5 月 4 日消息,Red Hat 红帽首席软件工程师 Sally O'Malley 在红帽博客发文,公布了名为 Tank OS 的开源项目。该项目主要利用容器化与无 root 权限(rootless)架构设计,以提升 OpenClaw 安全性。

O'Malley 指出,如果 OpenClaw 配置不当,可能带来误删数据或敏感信息泄露等风险。因此其设计了 Tank OS 项目,其核心思路是将 OpenClaw 运行环境封装进容器中,以打造专门面向 AI 智能体的运行环境,避免宿主系统权限被滥用。

在底层架构方面,Tank OS 构建于 Fedora Linux 及 fedora-bootc 技术之上,主要利用镜像作为完整运行环境,同时支持在同一设备上运行多个 AI 智能体实例,各实例之间相互隔离,彼此不共享凭据及系统资源。

此外,Tank OS 采用不可变(immutable)操作系统设计,系统将内核、运行环境及服务预先定义在镜像中,大部分文件系统保持只读,仅允许有限范围内修改,从而进一步确保安全性。(来源:IT 之家)

 

宇树机器人在美买票坐飞机,电池被没收

5 月 5 日消息,机器人租赁公司 Elite Event Robotics 实现了一个有趣的「创举」——带人形机器人坐飞机,是真的坐飞机。

据 CNN 报道,Bebop 是一个重达 70 磅,约 31.8 千克的宇树人形机器人,专为活动和表演而设计。

当地时间上周四,Elite Event Robotics 团队带着这个机器人乘坐了美国西南航空公司从加州奥克兰飞往圣地亚哥的航班。由于 Bebop 的包装箱太重不符合西南航空公司的规定,因此该团队为机器人购买了人类座位。

西南航空没收了 Bebop 的动力电池,因为其尺寸超出了航空公司的最大允许尺寸。这一事件也导致该航班延误了超过一个小时。我们注意到,Elite Event Robotics 官方发了多条帖子,展示这一事件的经过。(来源:IT 之家)

 

传小米新 SU7 锁单突破 7 万;微信输入法测「隔空发图」功能;豆包二代 AI 手机上半年发布

即将超越英伟达!谷歌母公司 Alphabet 市值已达 4.6 万亿美元

5 月 3 日消息,据媒体报道,受超预期财报提振,谷歌母公司 Alphabet 股价周四(4 月 30 日)大涨 10%,年内累计涨幅达到 140%,市值突破 4.6 万亿美元。

该公司周三公布的营收超出分析师预期,其中谷歌云业务收入更是突破 200 亿美元大关。

目前,全球市值第一的公司仍是人工智能芯片霸主英伟达,市值接近 4.9 万亿美元。不过,由于商业伙伴 OpenAI 被曝未能达成内部收入与增长预期,英伟达股价在两天内累计下跌超过 6%。

若英伟达在 5 月 20 日发布的财报中未能实现反弹,期權市场预测,Alphabet 最早可能在 5 月 15 日登顶全球市值第一。要实现这一目标,Alphabet 的市值需要追上英伟达当前水平,股价需再上涨约 4%,达到约 401 美元。

期权交易员认为,从现在到 5 月 15 日之间,Alphabet 股价触及 401 美元的概率约为 53%。

另据 ThinkOrSwim 数据显示,Alphabet 股价在 5 月 22 日(即英伟达财报发布后的星期五)收于 400 美元以上的概率约为 30%。

值得一提的是,Alphabet 上一次成为全球市值最高的公司是在 2016 年,当时它曾短暂超越苹果,登上榜首。(来源: 快科技)

黄仁勋称英伟达中国市场份额已降为零,美国出口管制效果适得其反

5 月 3 日消息,英伟达(Nvidia)CEO 黄仁勋 4 月 30 日在接受特别竞争研究项目(SCSP)采访时表示,该公司在中国 AI 加速器市场的份额已降至 0%(注:他这里仅谈及英伟达直接面向中国客户的销售)。

黄仁勋直言:「放弃像中国这样规模的一整个完整市场,在战略上恐怕并不合理,所以我认为这在很大程度上已经产生了反效果。我认为政策确实需要动态调整,需要保持与时俱进。我可以说,让美国芯片公司和其他美国企业留在中国市场,是非常有意义的。」

今年早些时候,伯恩斯坦(Bernstein)曾预测英伟达在中国 AI GPU 市场的份额可能从 2024 年的 66% 下降到未来几年的 8% 左右。不过根据黄仁勋的说法,这一下降趋势比预期更为剧烈。

与此同时,黄仁勋指出,即便没有美国开发的先进 AI GPU 和软件技术栈,中国在前沿 AI 模型领域仍是一个不容忽视的竞争对手。

实际上,中国开发者正越来越多地使用本土硬件,但在软件领域,尤其是所谓的「CUDA 护城河」,目前仍是美国 AI 技术的主要阵地,中国本土公司尚未完全攻克。

黄仁勋最后还警告称,威胁叙事和出口管制可能会在更宏观的层面上拖慢 AI 部署进程,而中国等其他地区正更积极地将 AI 作为经济工具加以接纳。他认为,长期的领导地位不应依赖于限制全球竞争对手,而应取决于确保美国 AI 生态系统在全球范围内占据主导地位。(来源:IT 之家)

谷歌将为 Gemini 投放广告,目前处于准备阶段

据科技媒体 Android Central 报道,谷歌母公司 Alphabet 本周举行财报电话会议,首席商务官 Philipp Schindler 在会议中表示,Gemini 未来可能会出现广告。

这名首席商务官在会议中透露:「我们需要明确,广告一直是将产品规模化、覆盖数十亿用户的重要手段。如果执行得当,广告可以非常有价值,也能提供真正有用的商业信息」。

援引 Android Central,谷歌高管说「可能出现广告」代表公司决心已定。并且业内已经有 OpenAI 为 ChatGPT 投放广告。

他也提到,目前谷歌仍在进行准备工作:「我们会在合适的时机公布计划,但不会仓促行事」。如果测试顺利,Gemini 移动端可能会出现广告。

事实上,早在去年 12 月就有传闻称,谷歌正在与广告提供商进行电话会议,预计 2026 年为 Gemini 引入广告。(来源: IT 之家)

美光 CEO 称 AI 仍处于「早期阶段」,DRAM 内存和 NAND 闪存供应持续吃紧

5 月 3 日消息,存储巨头美光科技(Micron)第二财季创下了营收、毛利率、每股收益和自由现金流的多项纪录。

美光 CEO 桑杰・梅赫罗特拉(Sanjay Mehrotra)在接受 CNBC 采访时指出,当前的 AI 浪潮仅处于「早期阶段」,随着 AI 智能体的崛起,更高速、更大容量的存储已成为支撑 AI 发挥全部能力的战略资产。

他表示,随着推理端迎来拐点,Token 生成需求的扩大对内存速度和容量提出了极高要求。然而目前存储行业正面临供应极其紧张的局面,且产能提升并非易事。

他还指出,问题不在于需求或定价,而在于供应商根本无法解决的产能问题,且展望未来,情况也不会有所好转。「目前内存供应非常紧张,而且供应无法轻易跟上,这些都能在我们的业绩中看到。」

美光预测,AI 对 DRAM 和 NAND 的需求预计将在今年超过行业总市场规模(TAM)的 50%。(来源: IT 之家)

马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%,Meta 和谷歌可达 43~46%

5 月 3 日消息,据《The Information》报道,马斯克旗下人工智能公司 xAI——也就是 Grok 大模型的幕后团队,目前手头上约有 55 万块英伟达 GPU(包括 H100 与 H200),但实际利用率仅有 11%。

据介绍,这些硬件目前主要部署在孟菲斯的 Colossus 超算集群中,采用液冷配置。尽管与 Blackwell 最新一代产品相比稍显老旧,但这样的体量在全球范围内依然位居前列。

然而,如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然,这并非意味着其余 89% 的 GPU 处于完全闲置状态,而是指模型的实际浮点运算利用率远远低于理论峰值。

业内人士解释称,衡量 AI 算力效率的关键指标叫做 MFU(Model FLOPs Utilization),即模型浮点运算利用率。11% 的 MFU 意味着,理论上能产生 100 份训练吞吐量的硬件,实际只产出了 11 份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节,而没有转化为有效的训练吞吐。

面对这一数字,xAI 总裁 Michael Nicolls 在一份内部备忘录中承认其「低得尴尬」,并为团队设定了在未来几个月内将利用率拉升至 50% 的目标。

xAI 并非个例,算力利用率偏低是整个 AI 基础设施领域的行业性难题。报道指出,在超大规模集群下,软件优化跟不上硬件部署速度是普遍现象。作为对比,Meta 和谷歌在软件堆栈上投入了大量精力,因此其 GPU 利用率相对较高,但也只有约 43% 和约 46%。(来源:IT 之家)

继「液态玻璃」之后:苹果 iOS 27 将重心转向 AI,Siri 迎来独立 App 并将深度整合到相机应用中

5 月 3 日消息,彭博社透露,继去年引入「液态玻璃」界面后,iOS 27 将以渐进式更新为主,重心聚焦于性能提升与 AI 两大领域,降低非核心功能优先级,打造更稳定、且针对 AI 深度优化的系统版本。

iOS 27 中 Siri 将迎来自诞生以来最重大的形态转变,被重塑为带有独立 App 的 AI 聊天机器人,采用极简设计,支持持续对话、历史记录查看、多任务指令处理、跨 App 联动及文件分析等功能,其底层架构基于谷歌 Gemini 技术重塑。

此外,iOS 27 将升级照片 AI 编辑工具,同时将「视觉智能」功能作为全新 Siri 模式整合到相机 App 中,新增通过相机识别食品营养信息、自动提取联系人信息等实用功能。(来源:IT 之家)

红果短剧回应「VIP 付费」:并非新增功能,仅适用于极少量版权方要求的内容

5 月 3 日消息,近期有网友反馈称,在红果短剧 App 中搜索电影《少年往事》,该影片封面左上角出现「VIP」标记,点击后仅能试看 6 分钟,随后页面提示需开通会员才能观看完整版。这一变化引发了部分用户讨论。

针对这一传闻,红果短剧相关负责人 5 月 3 日回应红星资本局称,为增加内容丰富性,满足不同用户的需求,应版权方要求,App 中确有极少量内容仅限开通 VIP 后观看,且该设置自平台上线之初即已存在,并非近期新增的功能。

公开资料显示,红果短剧是抖音集团于 2023 年 8 月正式推出的免费看剧应用,核心运营模式为「免费观看 + 广告分账」,用户通过观看广告可获得「金币」并兑换现金,平台则借助广告流量实现商业化。

依靠这一免费模式,上线不到两年的红果用户规模扩张极为迅猛,根据 QuestMobile 数据,2025 年 9 月其月活跃用户已达约 2.36 亿,超过了哔哩哔哩和优酷视频。

目前红果短剧设定的 VIP 价格体系为:7 天会员 8 元,1 个月会员 30 元,12 个月会员 260 元,暂无其他优惠折扣。(来源:IT 之家)

新一代小米 SU7 锁单突破七万,雷军否认纯靠营销,现阶段重心转向保交付

小米新一代 SU7 交出了一份答卷。根据官方最新披露的数据,新一代 SU7 的锁单量已成功突破 70000 台大关。

小米创始人雷军在此前的直播中,对友商的评价进行了正面反击。针对外界给他贴上的「营销大师」标签,雷军指出这其实是一个精心包装的话术陷阱。他表示,这种表面上的夸奖,实则是为了引导公众产生「小米只靠营销而无硬核技术与质量」的误解,本质上是想通过捧杀来消解小米汽车真正的产品竞争价值。

在直播中,雷军还分享了近期的内心挣扎。他透露,去年由于持续遭受海量负面舆情的裹挟,自己一度产生严重的抵触心理,甚至不想再面对任何直播或公开活动。但考虑到这些恶意揣测正在误导潜在消费者对小米汽车的真实认知,他最终选择强迫自己重回聚光灯下,期望用最直观的沟通,向外界传递小米在制造工艺和品质把控上的死磕精神。(来源: TechWeb)

运营三十年,老牌问答搜索引擎 Ask.com 停止运营

5 月 4 日消息,曾用名爱问吉夫斯(Ask Jeeves)的搜索引擎与问答服务网站 Ask.com 现已正式关停。

爱问吉夫斯于 1996 年首次上线,主打以自然语言解答日常口语化提问,堪称如今人工智能聊天机器人的前身雏形。然而在其近 30 年的发展历程中,始终被其他搜索引擎产品、尤其是谷歌的光芒所掩盖。

控股公司 IAC 于 2005 年收购了爱问吉夫斯,随后很快去掉了名称中的「吉夫斯(Jeeves)」字样;到 2010 年,该平台缩减搜索引擎业务规模,重新聚焦问答服务。同年,IAC 集团董事长巴里・迪勒在 TechCrunch Disrupt 上表示,Ask.com 已无法与谷歌抗衡,且在 IAC 的股价估值中也不再具备价值。

目前 Ask.com 官网发布公告称:「随着 IAC 持续精简业务、聚焦核心发展,我们决定终止旗下包括 Ask.com 在内的搜索业务。历经 25 年为全球用户答疑解惑,Ask.com 已于 2026 年 5 月 1 日正式关停。」

尽管网站已经停运,但其官网仍强调:吉夫斯的精神永不落幕。(来源:IT 之家)

豆包二代 AI 手机上半年发布:搭载第五代骁龙 8 至尊版

5 月 3 日消息,据博主「智慧芯片案内人」透露,第二代豆包 AI 手机有望在 2026 年上半年发布,核心升级为第五代骁龙 8 至尊版。

结合此前消息,第二代豆包 AI 手机依然由字节跳动与中兴通讯联合研发。

硬件端由中兴努比亚负责整机设计、制造与供应链,字节跳动主导「豆包手机助手 2.0」开发,深度集成大模型能力至操作系统底层。

豆包 AI 手机的目标是实现「AI 代为操作手机」的交互范式,而非传统 App 插件式 AI 功能。

据悉,首代豆包手机(努比亚 M153)于 2025 年 12 月以工程样机形式限量发售 3 万台,定价 3499 元,迅速售罄。

尽管因 AI 权限过高遭部分 App 厂商抵制(如微信、美团等限制其调用),但其「一句话自动比价下单」「跨应用任务执行」等能力引发行业震动。

二代机型将基于用户反馈与生态谈判成果,大幅提升产品完成度与兼容性。

消息称,新机可能与阿里系等部分主流应用厂商达成协议,在打车、外卖、订票等高频场景开放必要权限。

需要注意的是,上一代豆包手机就只是工程机,目前不确定这次的二代产品是否会开放给消费者随意购买。(来源: 快科技)

微信输入法内测隔空传送功能,支持跨设备收发照片、视频和文件

5 月 3 日消息,近日,微信输入法开始测试全新「隔空传送」功能,进一步强化跨设备文件传输能力。

想要使用该功能,双端设备均需要升级到最新内测版本(Android / iOS 3.3.0、Windows 2.0.0、MacOS 2.1.0),若你的设备暂未收到更新通知,可以在各端微信输入法帮助与反馈中发送「隔空传送」获取下载链接。

据介绍,该功能支持跨设备发送图片、视频和文件,除了可以给自己的关联设备「隔空传送」,还可以通过扫码建立连接,与其他人进行传送,无需流量。

目前该功能还在测试阶段,只有部分用户可以体验,预计不久后将推出正式版本。(来源:IT 之家)

国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁「龙标」

5 月 3 日消息,据北京国际电影节分享,《三星堆:未来往事》已正式获得国家电影局颁发的「龙标」,标志着国内首部将三星堆文化与 AI 原生技术深度结合的科幻院线电影即将登陆全国大银幕。

据介绍,电影《三星堆:未来往事》以三星堆文化为核心、以 AI 技术为手段,将古蜀文明与科幻叙事相结合,用 AI 技术呈现三星堆文物,构建一个连接过去与未来的科幻世界。

电影《三星堆:未来往事》概念预告片已在第 30 届香港国际影视展上正式亮相。另外,本片的创作脉络可追溯至 2024 年 7 月上线的 AI 科幻短剧集《三星堆 · 未来启示录》第一季,该短剧全网已斩获 1.6 亿播放量。

作为参考,《三星堆:未来启示录》的故事设定在科技飞速发展的近未来。地球古文明遗迹的异变引起全球古文明研究组织的高度关注,泛大西洋人工智能组织 ACE 推测三星堆文物中蕴藏着解决文明危机的关键信息,中国古文明研究组织「西安路 34 号」派出科学家吴星言监督 ACE 组织在中国的行动。四川广汉的江家三代都是三星堆考古工作者,江城联合吴星言展开了一场跨越时空的冒险。(来源:IT 之家)

 

魔法原子进军硅谷背后:世界模型野望与生态卡位

图片
硅谷来了一家中国具身公司。

作者|Li Yuan

编辑|郑玄
 

中国机器人公司火,已经不只是在国内了。一家具身智能公司,近期已经把发布会开到了硅谷。

美西时间 4 月 28 日,魔法原子 MagicLab 在硅谷举办全球首届具身智能创新大会 GEIS。

魔法原子在会上推出了新一代人形机器人 MagicBot X1 和灵巧手 MagicHand H01,而且第一次把其世界模型 Magic-Mix、数据生成与训练反馈闭环,作为一套完整的具身智能底层能力集中展示出来。

过去,魔法原子最先进入外界视野,靠的是硬件实力和高辨识度场景:从苏超近 300 台机器人开场秀,春晚舞台上的机器人表演,到首届国际人形机器人运动会上获得跳高铜牌的 MagicBot Z1,都让这家公司建立起鲜明的本体能力标签。按照公司披露,其硬件自研比例已经超过 90%。

而这次在硅谷 GEIS 上,除了连发两款产品外,首次发布了「世界模型」Magic-Mix。Magic-Mix 试图回答的是更底层的问题:机器人如何理解物理环境,如何进行空间推演和动作决策,又如何通过数据生成、模型训练、结果反馈和数据再生成,形成持续迭代的闭环。

从官方发布的信息来看, Magic-Mix Creator,指向的是具身智能行业核心瓶颈——数据。按照魔法原子的说法,公司已经搭建机器人训练数据池,日均采集约 16000 条数据,高质量数据规模超过 100 万小时,并通过数据合成实现 1 万倍的数据体量扩展。

本届 GEIS 上,魔法原子总裁顾诗韬首次对外披露魔法原子的长期营收目标:到 2036 年,公司将向 140 亿美元营收规模迈进。

这个目标仍需要长期交付验证,但此次发布后,魔法原子的命题变得十分清晰:要做一个具备世界模型、硬件平台、数据闭环和海外生态组织能力的具身智能平台公司。

01

Magic-Mix:

魔法原子世界模型的技术路线成型

 

在本届大会上,魔法原子发布自研世界模型 Magic-Mix。这也是此次 GEIS 最核心的技术发布之一。

过去一段时间,VLA 是具身智能行业的重要路线。它让机器人可以把视觉、语言和动作连接起来,完成从感知到执行的任务链条。但当机器人真正走出实验室,进入工厂、商业服务、家庭健康等复杂环境时,环境细微变化、物体状态差异、动作链条拉长,都可能带来泛化不足和执行不稳定。

而魔法原子世界模型想补上的,正是这一层能力:机器人不只是识别眼前画面、执行下一步动作,而是要理解物理环境,预测未来变化,并基于更接近物理常识的判断做出动作决策。

这也是开年以来,机器人领域最热的方向。

按照魔法原子的介绍,Magic-Mix 由两个核心引擎构成。其中,Magic-Mix WAM 负责物理环境理解、空间推演与动作决策;Magic-Mix Creator 则作为离线数据生成引擎,用于生成大批量训练样本,持续驱动模型训练和能力迭代。也就是说,Magic-Mix 不是一个静态模型,而是一套动态系统:它试图通过「数据生成—模型训练—训练结果反馈—数据再生成」的闭环,让机器人在真实场景和模拟环境中持续学习、不断修正。

图片

这一路线的价值,在于回应具身智能商业化中最难的一类问题:机器人要进入真实世界,不能只依赖少量示范任务。它需要在开放环境中处理长线程任务、物体变化、动作误差累积和物理常识偏移。为此,Magic-Mix 采用视频动作双专家协同训练模式,并引入共享信息梯度隔离、目标图像约束、失败图像特征输入等设计,试图同时增强机器人「思考」和「行动」的能力。

02

从数据到场景

机器人「能思考」也要会「真干活」

 

与世界模型配合的是,魔法原子更系统地构建数据飞轮。

前面已经提到,Magic-Mix Creator 的核心价值,是通过大批量合成数据,降低模型训练对真机数据采集的依赖,为世界模型提供持续稳定的数据供给。

不过,仅有合成数据还不够。对具身智能来说,真正有价值的数据仍然来自真实任务和真实用户。

按照公司披露,魔法原子已经搭建机器人训练数据池,日均采集约 16000 条数据,高质量数据规模超过 100 万小时,并通过数据合成实现 1 万倍的数据体量扩展。

除此之外,魔法原子还试图用「全场景」落地的方式推动数据循环。公司此前曾提出「1+2+N」框架:以全栈自研能力为底座,以人形机器人和四足机器人两条产品线承接场景,再延伸到 N 个垂直应用。

目前,其布局已经覆盖工业柔性生产、巡检安防、智慧导览、公共安全、智慧物流、赛事文娱、科研教育、家庭生活、大健康等九大场景。

图片

这种全场景布局有两层含义。短期看,它是产品能力的验证:不同场景有不同付费能力和落地节奏,导览、文娱、科研教育、公共安全等场景可以更快形成项目和订单;非标准化场景则对应更长期、更高价值的应用空间。只有进入更多场景,机器人在越多场景中被部署,就越有机会获得更多任务数据、环境数据、交互数据和失败案例,再反向推动模型、控制和硬件迭代。

4 月,魔法原子刚刚签订了一笔 1.5 亿元订单,聚焦家庭健康管理与智能陪护,计划覆盖 1 万名高净值家庭用户,提供定制化智能硬件和一体化服务方案。

家庭场景对机器人尤其困难。每个家庭的空间布局、成员结构、生活习惯、健康需求都不同,机器人需要处理的不只是导航和动作,还包括陪护、健康管理、人机交互和长期服务可靠性。如果这类订单能够真正落地,它带来的不只是硬件交付,更可能是持续的用户行为、家庭环境和服务反馈数据。

不止是成功数据能够训练机器人,失败的数据甚至更为重要。Magic-Mix 在训练机制中引入失败图像特征输入,试图把机器人在开放环境中的失败状态纳入训练反馈,用失败样本修正长线程任务中的误差累积和物理常识偏移。正因如此,开放世界的数据,将更能决定模型能否从「能完成一次任务」走向「能在复杂场景中稳定工作」。

如果这个循环能够跑通,魔法原子就不只是拥有多个场景订单,而是在用场景反哺模型,用模型提升产品,再用产品进入更多场景。

也就是说,订单的意义不止是收入,场景的意义也不止是展示;它们共同构成数据飞轮启动的前提,这才是更长期的价值所在。

03

中国硬科技代表迈向全球

 

这次发布会很有趣的一点,是它设置在了硅谷。

更有趣的是,从 GEIS 的议程设置来看,它并不只是把一场本该开在中国的发布会搬到硅谷,而是在尝试把发布会做成一个具身智能产业大会。

大会邀请了图灵奖得主 Martin Hellman、旧金山前市长 Willie Brown,也邀请了英伟达 GEAR Lab 高级研究科学家 Zhengyi Luo、亚马逊前沿 AI 与机器人研究院科学家 Haozhi Qi、OpenMind 创始人 Jan Liphardt、Chestnut Robotics 创始人 Evan Tao、XGSynBot CEO Zizheng Li 等海外机器人与 AI 领域的研究者、创业者和产业人士参与讨论。议程也不只是新品发布,而是围绕「具身智能本体演进」「具身智能大脑革命」「生态伙伴演讲」等主题展开。

图片

看似意外,也很合理。

硅谷恰好适合承担这样的角色。这里聚集着全球 AI 开发者、机器人创业公司、产业资本和场景创新资源。更现实地看,北美、欧洲等市场在劳动力成本、服务供给、老龄化、工业自动化和家庭健康管理等方面,都存在明确需求;而中国机器人企业在硬件工程、供应链效率、产品迭代和成本控制上,又有自己的优势。

魔法原子选择硅谷,正是在尝试把这两端接起来:一端是中国智造和具身智能技术能力,另一端是海外丰富的场景、开发者和产业资源。

图片

这也是此次发布会提出 10 亿美元生态投入和「千景共创」计划的含义。魔法原子试图向外部伙伴开放硬件样机、开发资金、核心技术、项目导流和品牌资源,不只是降低单个场景的开发门槛,更是希望以开放协作的方式,推动开发者、场景方与产业伙伴共同验证应用价值,扩大具身智能在真实世界中的产业半径。

过去,中国机器人企业更多被看作高效率的产品制造者和快速迭代者;而这一次,魔法原子试图以全球创新大会的形式,把自己的技术路线、硬件平台和生态计划放到硅谷讨论。

它正在传递一个新的信号:中国智造在具身智能这样的前沿科技领域,已经不只是跟随者,而正在成为能够参与全球议题、连接全球资源、输出技术方案的重要力量。

*头图来源:魔法原子
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待魔法原子?
图片
图片
图片
图片

 

张雪机车夺得 WSBK 第三冠;传苹果正在酝酿一笔大型 AI 收购;创始人加入后,OpenAI 宣布开放 OpenClaw 直连|极客早知道

 

世界超级摩托车锦标赛「张雪机车」夺第三冠

5 月 2 日消息,在 2026 世界超级摩托车锦标赛(WSBK)匈牙利站 WorldSSP 组别第一回合正赛中,中国摩托车制造商「张雪机车」的法国车手瓦伦丁·德比斯夺得冠军。这也是他与「张雪机车」的第三冠。

凭借本场胜利,德比斯以 97 分在车手积分榜上升到第三位;「张雪机车」积 99 分,在制造商积分榜上同样排名第三。

德比斯在 1 日的本站超级杆位赛中第六位冲线。由于排名第三的意大利车手费拉里被罚退三个发车位,从第三位降至第六位,德比斯在第一回合正赛中得以第五位发车。

驾驶雅马哈赛车的阿雷纳斯、恩居分获第二、三名。「张雪机车」的另一名车手卡里卡苏洛第 15 位完赛,钱江摩托车手德罗萨位列第 16。

「我知道这条赛道对我们来说会很困难。车队整个周末都在告诉我要保持耐心,我们会找到办法。今天早上我对赛车还是不太满意,不过比赛开始前车队帮我做了一些调整,我感觉舒服多了。」德比斯赛后说。(消息来源:新华网)

曝马斯克 1583 亿美元年薪为会计估值,实际一分没拿

5 月 2 日消息,据科技媒体 Quartz 今天报道,监管文件显示,特斯拉 CEO 埃隆 · 马斯克去年总薪酬约为 1583 亿美元。但公司指出,该数字并不能反映马斯克收到的真实现金。

据报道,这 1583 亿美元中大部分是会计估值,与 2025 年 CEO 绩效奖励(特斯拉董事会去年批准的股票激励计划)息息相关。截至文件披露日期,该奖励的任何股份都未有归属,并且所有股份都需要按每股 334.09 美元(现汇率约合 2284 元人民币)的价格抵扣,除非马斯克选择用现金支付。

事实上,马斯克 2025 年的真实薪酬为零,他带领的特斯拉并未达成任何市场价值或运营目标,并且他多年来也没拿过公司薪水。

特斯拉在文件中承认,报告的薪酬数字与马斯克最终实际获得薪酬可能存在显著差距。公司指出,这些数字依赖会计规则的假设和预测,并不能完全反映价值。

作为参考,特斯拉员工总薪酬中位数为 62786 美元,这意味着薪酬比率达到 2522203:1。(消息来源:IT 之家)

ChatGPT 直连 OpenClaw Altman 祝您「捕虾愉快」

5 月 2 日,奥特曼在 X 宣布,「您现在可以用您的 Chatgpt 账号登录 OpenClaw 并在那里使用您的订阅!祝您捕龙虾愉快。」在此之前,用户在 OpenClaw 中使用 GPT-4/5 模型通常需要绑定 OpenAI API Key,现在可直接使用 ChatGPT 订阅(Plus/Pro)登录,并在 OpenClaw 中使用自己的 ChatGPT 订阅额度。

对于开发者特别是「养虾族」来说,主要好处除了简单方便外,还有 Token 整体成本更低。

以前用 API 运行一个「全天候监控邮件并回复」的任务,可能每个月会产生数百美金的账单;现在,广大 Chatgpt Plus 或 Pro 级的订阅者无需再额外购买大量 API Token,只需要使用原来的订阅,就能在 OpenClaw 中调用同级别的 GPT 模型,包括 GPT-5.5 的 Terminal-Bench 2.0(命令行工作流理解)、GDPval(知识工作指数)等智能体核心模型能力。

OpenClaw 是知名独立开发者 Peter Steinberger 创建的开源 AI 智能体项目,主打让 AI 接管用户的日常任务——处理邮箱、编写代码、预订航班、操作硬件甚至是运行银行接口操作相关事务。而 GPT-5.5 主打强调其智能体能力。

有意思的是,今年 4 月初,OpenAI的最大竞争对手、由前 OpenAI 成员创立的 Anthropic(A 社)突然宣布了与 OpenAI 相反的策略:封杀 OpenClaw。自 2026 年 4 月 4 日起,订阅用户将无法再使用 Claude 订阅额度通过 OpenClaw 等第三方集成工具访问其大模型。如果用户要继续让 OpenClaw 调用 Claude,则必须采用常规 API 按量付费。(消息来源:IT 之家)

 

伯克希尔-哈撒韦股东大会开幕,退居二线的巴菲特现身

5 月 2 日,投资界的年度盛会——伯克希尔-哈撒韦股东大会在美国内布拉斯加州奥马哈市拉开帷幕。

这是伯克希尔自巴菲特退休后首次股东年会,也是巴菲特「接班人」格雷格·阿贝尔(Greg Abel)的首场股东大会。本次大会的主题是「传承延续」。以此为标志,伯克希尔-哈撒韦进入「后巴菲特时代」。

自去年 5 月巴菲特宣布退休以来,伯克希尔 A 类股表现落后同期标普 500 指数。股东们希望了解,手握 3973 亿美元现金,伯克希尔如何在格雷格·阿贝尔的带领下重振。

伯克希尔-哈撒韦发布的 2026 财年年一季报显示,一季度公司实现归属于股东的净利润 101.06 亿美元,上年同期为 46.03 亿美元,同比增长近 120%。同期,公司投资净亏损 12.40 亿美元,上年同期为净亏损 50.38 亿美元。伯克希尔表示,经营业绩可能会受到未来期间持续的宏观经济和地缘政治冲突及事件影响,仍然具有不确定性。

财报数据还显示,截至 2026 年 3 月 31 日,公司现金储备合计 3973.8 亿美元(约合人民币 2.7 万亿元),其中现金与短期国债合计约 3907 亿美元,铁路及公用事业板块另持有现金 66.44 亿美元。与上次披露时约 3700 亿美元相比,一季度末伯克希尔的现金储备再创历史新高。

95 岁的沃伦·巴菲特在人引领下入座董事席前排,全场给予热烈的掌声。巴菲特在座位上接过麦克风,再度盛赞阿贝尔。「他就是那个对的人。」

苹果 CEO 蒂姆·库克同时也现身了股东大会。巴菲特谈到了蒂姆·库克从苹果创始人史蒂夫·乔布斯手中接过苹果大权所面临的压力,以及他如何克服重重压力并取得成功的。「试想,你要怎么接手史蒂夫·乔布斯的衣钵、延续他创下的辉煌成就。这堪称美国企业管理史上的一大奇迹⋯⋯谢谢你,蒂姆。」巴菲特说道。(消息来源:每日经济新闻)

苹果可能正在酝酿一笔大型 AI 收购

当其他大型科技公司竞相在资本支出上投入数千亿美元时,苹果一直处于旁观状态——通过股票回购和分红将资金返还给股东。不过,苹果可能很快就会加入这场游戏。在周四的第二季度财报电话会议上,苹果表示将放弃其长期持有的净现金中性目标。

早在 2018 年,苹果就开始缩减其庞大的现金储备,目标是保持现金和债务水平相当,但苹果表示,未来将分别评估这两个指标。首席财务官凯文·帕雷克表示,这一决定将帮助公司「在如何最优地利用我们的债务和现金组合来支持业务方面,做出更优的经济决策」。

Wedbush 分析师丹·艾夫斯在电子邮件中表示:「我们认为,随着新 CEO 的上任,苹果的领导层更迭预示着未来的收购,这对投资者来说是一个令人欣慰的消息。」

关于潜在收购的传闻已经流传了数月。Wedbush 的艾夫斯表示,苹果的并购策略「很可能包括 AI 领域的公司,而 Perplexity 在我们看来是一个潜在的候选对象」。

苹果在今年早些时候已经宣布了一笔令人意外的收购,收购了神秘的 AI 音频初创公司 Q.ai。虽然未披露收购价格,但媒体报道称,这笔交易估值达到 20 亿美元——这将使其成为苹果历史上第二大收购案,仅次于 2014 年以 30 亿美元收购 Beats Electronics。(消息来源:环球市场播报)

累计亏损 800 亿美元,Meta 仍坚持大力投资元宇宙相关业务

5 月 2 日消息,据《财富》杂志报道,Meta 第一季度业绩本身并不差,净利润和营收都超过市场预期,然而在当地时间周四,其股价却大跌近 9%。投资者担心的重点,是用户减少 2000 万,以及 AI 资本开支继续大幅上升。

与此同时,Meta 仍在向元宇宙和虚拟现实部门 Reality Labs 投入数十亿美元。Meta 第一季度净利润为 268 亿美元(IT 之家注:现汇率约合 1832.4 亿元人民币),营收为 563 亿美元,双双高于分析师预期。净利润中包含一次性 80 亿美元税收收益。营收同比增长 33%,也是 Meta 过去 5 年来最大同比增幅。

该季度,Meta 旗下应用家族全球用户数较上一季度减少 2000 万。Meta CFO 苏珊 · 李把这一变化归因于伊朗的互联网中断,以及俄罗斯对 WhatsApp 访问的限制。

Meta 仍在为元宇宙买单。第一季度,负责 Meta 元宇宙和虚拟现实业务的 Reality Labs 录得 40.3 亿美元营业亏损。讽刺的是,公司一边继续投入,一边也在 2026 年多轮裁员,其中包括裁掉 Reality Labs 约 1.5 万名员工中的 10%。自 2020 年底开始单独披露 Reality Labs 业绩以来,Meta 在该部门累计亏损超 800 亿美元。(消息来源:IT 之家)

 

全国首个交管机器人中队正式上岗 15 台机器人成街头顶流

五一假期第一天,全国第一个成建制的交管机器人中队在杭州正式上岗,一共 15 台,名字叫杭警智行,五一假期一亮相就成了街头顶流。这批机器人主要部署在西湖景区周边、湖滨商圈还有城区主干道的重点路口,和真人交警一起配合维护交通秩序。

它们的任务很明确,帮游客指路、劝导非机动车和行人违法、协助指挥交通,刚好能分担五一期间警力最忙的工作。

因为接入了大语言模型,机器人回答问题特别快。游客问路直接开口说,机器人能秒回,屏幕上还会弹出路线指引。像断桥、动物园这些热门点位,问路需求最大,现在基本都由机器人接手,帮警力省了不少事。

在路口执勤时,机器人也很管用。遇到行人或非机动车越线停车,它会温和提醒,当事人听到后一般都会马上配合。现场民警说,机器人提醒的效果反而很好,大家更愿意听。

时代的眼泪:中国移动「移动梦网」等业务下线

5 月 2 日消息,根据中国移动今年 3 月发布的公告,因产品运营策略调整,和生活、农信通、Mobile Market、12590 (语音杂志)、梦网全网短彩业务 5 款产品,将于 2026 年 4 月 30 日 24:00 正式下线并停止相关服务。

梦网全网短彩业务,隶属于中国移动在 2000 年推出的移动数据业务品牌「移动梦网」。移动梦网(Monternet)意为「Mobile+Internet」,是中国移动向客户提供的移动数据业务的统一品牌,囊括了短信、彩信、手机上网(WAP)、手机游戏等多种信息服务。

至 2009 年,移动梦网用户规模达到每月 9000 万。然而随着智能手机和 4G 网络的普及,传统 WAP 门户逐渐被原生 App 取代。2019 年 12 月 20 日,移动梦网热点资讯服务正式停止运营。2025 年 8 月 31 日起,部分 SP 公司提供的移动梦网短彩信业务服务停止。(消息来源:IT 之家)

追觅俞浩晒模块化手机:不仅镜头能拆 机身都能拆

5 月 2 日消息,追觅科技创始人俞浩直接放出了自家模块化手机的真机视频,这款手机的设计非常有看点,镜头和后盖都能单独拆卸,可玩性很高。

这款手机用的是白色后盖,整体外观简洁。最特别的是它的后置圆形镜头模组,可以直接取下来,依靠磁吸和触点连接,拆装都很方便。手机正面采用居中前置摄像头,不过屏幕暂时没有点亮,具体显示效果和细节还不清楚。

其实追觅做模块化手机早就有消息了。今年 1 月份,追觅手机团队就在西南欧经销商大会上,展示过高奢系列和旗舰模块化系列产品,当时就透露模块化版本会搭配丰富的拓展配件。(消息来源:快科技)

5 月新机大战即将打响!小米 17 Max 来了 史上最大电池

5 月 3 日消息,5 月新机大战将至,多家厂商新品蓄势待发。

日前,博主「数码闲聊站」汇总了部分 5 月将发布的新机,包括 OPPO Reno16 系列、荣耀 600 系列、iQOO 15T 以及小米 17 系列新机,vivo S60 系列发布时间仍未确定。

从目前信息来看,小米 17 系列新机或为此前多次曝光的小米 17 Max。该机已获得入网许可,型号为 2605EPN8EC,定位全能大屏旗舰。

与小米 17 Pro 系列不同,小米 17 Max 取消了标志性的背屏设计,将内部空间更多用于提升电池容量。

此前爆料显示,其电池容量达到 8000mAh,成为小米史上电池最大的手机,同时维持 100W 有线快充与 50W 无线快充的组合。

核心配置上,新机预计配备 6.9 英寸 1.5K 四等窄边直屏,搭载 2 亿像素主摄与 5000 万像素长焦微距镜头,采用第五代骁龙 8 至尊版。(消息来源:快科技)

Switch 国行即将永久关闭服务器!不想变砖就做好这些

距离国行 Nintendo Switch 网络功能彻底关停,已经只剩最后 15 天。国行 Nintendo Switch 网络服务将于 2026 年 5 月 15 日 22 点正式停止。

届时,这台曾承载着无数玩家期望的游戏机,将永久性地沦为单机设备。不仅 e 商店将彻底关闭,下载服务与兑换码兑换功能也将同步失效。在那之后,即便是你花钱购买过的游戏,一旦从机器里删除,也将永远无法找回。系统更新与游戏补丁下载也将于 5 月 15 日后终止服务。

根据官方计划,国行 Switch 及相关配件的维修服务,将于 2026 年 12 月 31 日正式终止。届时,无论是主机还是 Joy-Con 手柄坏了,都可能面临无处可修的尴尬境地。

为了能把它当一个纯粹单机设备,继续在国行 Switch 玩游戏,建议大家做好以下操作:

兑换全部兑换码:无论是免费补偿拿到的,还是在别处购买的,所有未用的游戏兑换码必须在 5 月 15 日前用完,过期即作废。

立即执行高强度下载:将游戏库中所有数字版游戏以及 DLC 内容,全部下载到机身存储或额外的 microSD 卡中。如果存储空间不够,现在就得去配一张大容量存储卡。

严防死守本地数据:永远不要删除已安装的游戏,也谨慎对机器执行「初始化」操作。

固定硬件与账号:提前设置好「常用主机」,绑定微信账号,不要轻易删除关联账户。

物理数据备份:重要的游戏截图、视频等资料,请尽快备份到电脑中,以防主机故障无法维修导致数据全无。(消息来源:游民星空)

 

 

iPhone Air 销量疲软,安卓厂商集体叫停超薄旗舰;佳能或将推出 Pocket 相机;腾讯增持游戏科学,持股达 24%

iPhone Air 销量疲软,引发 Android 厂商集体叫停超薄旗舰计划

5 月 1 日消息,博主 @ 数码闲聊站 发文,透露 Air 产品线「叫好不叫座」,苹果 iPhone Air 手机激活量在多轮降价后才勉强破 70 万台。同时国内某厂商 Air 机型激活量仅达 5 万台,因此该厂商计划搁置明年的「小屏超薄 + 极限堆料路线」迭代。预计下代唯一超薄定义的旗舰只有苹果 iPhone Air 2。

除了此前已上市的多家厂商 Air 机型外,事实上还有不少厂商根本就没有推出 Air 机型,例如小米 Air / 魅族 22 Air 手机便直接遭砍。

参考此前报道,小米品牌总经理卢伟冰在去年 11 月便发文,认为「Air 手机极致的薄,实际会带来用户体验的牺牲,包括续航,散热,性能,相机等」,「从实际的销售情况来看,的确是非常小众」。(来源:IT 之家)

Gemini 将出现广告,目前处于准备阶段

5 月 2 日消息,据科技媒体 Android Central 报道,谷歌母公司 Alphabet 本周举行财报电话会议,首席商务官 Philipp Schindler 在会议中表示,Gemini 未来可能会出现广告。

这名首席商务官在会议中透露:「我们需要明确,广告一直是将产品规模化、覆盖数十亿用户的重要手段。如果执行得当,广告可以非常有价值,也能提供真正有用的商业信息」。

I 他也提到,目前谷歌仍在进行准备工作:「我们会在合适的时机公布计划,但不会仓促行事」。如果测试顺利,Gemini 移动端可能会出现广告。(来源:新浪)

人工智能蚕食云利润,微软力推按使用量付费模式

为了支持大模型训练和推理,微软、谷歌等巨头投入了数千亿美元用于购买 GPU 等硬件,导致短期成本飙升。高昂的算力成本确实在短期内挤压了云服务商的利润空间。

2026 年云厂商不得不通过上调算力价格来对冲成本压力。微软等巨头正在推动将收费模式从传统的「订阅制」转向更灵活的「按使用量付费(Token 计费/Token 经济)」模式。微软及其 Azure 云服务正经历从「卖服务器」到「卖算力能力」的转变。

微软旗下 GitHub 的 AI 编程工具 GitHub Copilot 也将自 2026 年 6 月 1 日起从固定额度订阅制全面转向按使用量计费模式。

Meta 上季度流失了 2000 万用户

尽管 Meta 指出数百万用户似乎已经开始放弃其平台,但该公司仍计划今年在人工智能领域追加数十亿美元的投资。在周三的财报电话会议上,Meta 报告称,其「家庭日活跃用户」(Meta 为 Facebook、Instagram、WhatsApp 或 Messenger 所有用户的统称)数量较前三个月减少了 2000 万。

Meta 将此次用户下滑归因于「伊朗的网络中断以及俄罗斯对 WhatsApp 的访问限制」。至于是否相信 Meta 的说法,则取决于您自己,因为 Meta 将所有平台的用户统计数据汇总在一起,我们无法判断哪些平台受影响最大。如果我想掩盖一个领先的社交平台可能正在经历用户大量流失的事实,我当然会这么做。

Meta 公司宣布将 2026 年的资本支出预期上调至 1250 亿至 1450 亿美元,比此前预估增加 100 亿美元。此次支出增加主要受组件价格上涨预期以及未来数据中心容量成本增加(尽管幅度较小)的推动。(来源:the verge)

腾讯已入股游戏科学,持股 24%

5 月 1 日,据工商变更信息显示,游戏科学(深圳市游科互动科技有限公司)完成股权调整。英雄游戏退出股东行列,腾讯增持后持股比例达 24%,成为游戏科学唯一外部投资方。本次增持由腾讯 2021 年初次入股 5%,叠加本次受让英雄游戏 19% 股权,于近期完成工商登记正式落地。据悉,知情人士称,本次工商变更后,腾讯将继续充分尊重创意,游戏科学依然保持独立运营。(来源:鞭牛士)

马斯克承认:xAI 曾使用 OpenAI 模型来「蒸馏」Grok

5 月 1 日消息,AI 行业一场备受关注的法律战正在升级。当地时间 4 月 30 日,埃隆 · 马斯克在加州联邦法院作证时承认,他旗下初创公司 xAI 曾使用 OpenAI 的模型,帮助训练自家聊天机器人 Grok。

这番证词出现在马斯克起诉 OpenAI 及其 CEO 萨姆 · 奥尔特曼的案件中,马斯克指控 OpenAI 及奥尔特曼背离了公司创立之初的非营利使命。被问到 xAI 是否对竞争对手技术使用过「蒸馏」方法时,马斯克称这是行业常见做法,并承认 xAI「部分」使用过。(来源:凤凰网科技)

杭州为具身智能机器人立法,5 月 1 日起施行

「杭州发布」微信公众号消息,5 月 1 日,全国首部具身智能机器人领域地方性法规《杭州市促进具身智能机器人产业发展条例》正式施行。数据显示,杭州已集聚机器人产业相关企业 700 余家,2025 年具身智能产业集群产值达 1068 亿元。(来源:杭州发布)

Mac mini 起售价上调,599 美元入门款悄然下架

苹果近日悄然上调 Mac mini 的入门价格,曾经标准的 599 美元基础款已在美国官网下架,不再作为可选配置出现。截至 5 月 1 日,配备 256GB 存储的 599 美元 Mac mini 机型已无法在苹果美国在线商店下单,该容量也不再出现在配置选项中。

目前官网展示的主力机型均为更高价格的配置,公开标称的起售价已提升至 799 美元左右,尽管不同配置的供应情况仍在波动之中。同时,这款 256GB 入门配置也从苹果面向教育和军人的专属商店中消失,用户既无法下单也无法进行缺货预订。在苹果官方认证翻新页面中,较低价格的 Mac mini 机型仍会偶尔出现,但数量有限且上架时间不稳定。(来源:cnbeta)

微软宣布 2026 春季 Xbox 游戏开发更新 5 月 7 日举行

5 月 1 日消息,Microsoft(微软)Xbox 当地时间 4 月 30 日宣布,2026 春季 Xbox 游戏开发更新 (Xbox Game Dev Update | Spring '26) 将于太平洋夏令时 5 月 7 日 9:00 在线上举行。

Xbox 游戏开发更新是 Xbox 开发团队的最新节目,集合了团队内部精彩集锦、技术背景解析等一系列内容。而首期活动将是对 Xbox 在 GDC 2026 上分享内容的回顾和进一步深化拓展。

首先,两位 Xbox 高管将深入探讨下一代游戏主机项目 Project Helix 及其对 Xbox 未来的意义;此后将是开发工具更新的介绍;还有 DirectX「国情咨文」、Xbox 市场专题、Xbox 在 GDC 上的亮点。(来源:网易)

迎战大疆 Pocket 4、影石 Insta360 Luna,佳能云台相机专利公布

5 月 1 日消息,据外媒报道,佳能最新公开了一项 2026 年云台相机专利。其展现出潜在的自动折叠设计,预计将正面迎战大疆 Osmo Pocket 4 和即将登场的双镜头影石 Insta360 Luna Ultra。

相比单纯堆规格,这项专利更强调耐用性和智能电源管理,目标是在越来越拥挤的 Vlog 设备市场里找到突破口。这项新公开专利显示,佳能构想的是一款一体式三轴云台相机,形态已经比较成熟。

从结构看,这款设备并不陌生:包含手柄、屏幕、稳定云台头。专利显示,佳能将通过磁传感器阵列和图像分析,判断用户是否已经结束拍摄,然后在关闭电机前自动完成安全折叠。报道认为,这项专利意味着云台不会像某些设备那样一断电就直接「塌下去」,也能减少长期使用中的机械磨损。(来源:搜狐)

奥斯卡奖明确新规:AI 演员和编剧将被取消参评资格

美国电影艺术与科学学院周五发布新规定,明确表示演技和编剧工作必须由人类完成,而非人工智能,才有资格角逐电影业的最高荣誉奥斯卡奖。这些变更将适用于定于 2027 年 3 月举行的下一届奥斯卡颁奖典礼的作品提交。

根据美国电影艺术与科学学院发布的新规定,电影制作者可以使用 AI 工具,但像诺伍德这样的「合成」演员将不具备获得奥斯卡奖的资格。该机构在声明中表示,剧本必须是「人类创作」才能被考虑评选。新规定还规定,学院可以要求提供额外信息以验证提交作品确实由人类创作。

此次规则调整标志着电影行业对人工智能技术应用范围的明确界定,旨在保护传统电影艺术中的人类创造力和表演价值。随着 AI 技术在内容创作领域的快速发展,奥斯卡主办方通过这一举措向业界传递了明确信号,即在最负盛名的电影奖项评选中,人类的艺术贡献仍然是不可替代的核心标准。(来源:环球网)

 

DeepSeek 发布多模态模型及技术报告;小红书官宣组织调整:柯南出任总裁;宇树发布双臂人形机器人,2.69万元起售

DeepSeek 发布多模态模型及技术报告

近日,DeepSeek 在 Github 上正式发布了多模态模型,公布了背后的技术报告。

在技术报告中,DeepSeek 提到:尽管多模态大语言模型(MLLMs)取得了显著进展,但主流的思维链(CoT)范式仍主要局限于语言学领域。虽然近期研究重点通过高分辨率裁剪技术(例如基于图像的思考)来弥合感知鸿沟,却忽视了一个更根本的瓶颈:参照鸿沟。自然语言固有的模糊性往往无法为复杂的空间布局提供精确、明确的指引,导致需要严谨参照的任务出现逻辑崩溃。

而 DeepSeek 多模态技术报告提出基于视觉原语的思考——这一创新推理框架将点、边界框等空间标记提升为「思维的基本单元」。通过将这些视觉原语直接融入思考过程,DeepSeek 的模型在「推理」时能够「指代」,从而将其认知轨迹有效锚定在图像的物理坐标中。

值得注意的是,DeepSeek 技术报告提到,其框架基于高度优化的架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上,能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。(来源:每日经济新闻)

苹果发布季度财报:iPhone 17 系列表现强劲

北京时间 5 月 1 日,苹果公布了 2026 财年第 2 财季(对应今年第 1 季度,截至 3 月 28 日)的财报数据,本季度公司营收 1111.84 亿美元,同比增长 16.6%;净利润为 296 亿美元,增长 19.4%;大中华区营收为 204.97 亿美元,同比增长 28.09%。

在 iPhone 17 系列驱动下,iPhone 业务表现强劲,营收达 570 亿美元,同比增长 22%。该产品在美国市场客户满意度达 99%,创下三月季度升级用户数新纪录。

服务业务收入攀升至 310 亿美元,同比增长 16%,再创历史新高,付费账户与交易账户数均达季度峰值。Mac 营收 84 亿美元,同比增长 6%,MacBook Neo 市场需求远超预期。

供应链方面,先进制程芯片产能成为主要瓶颈,导致 Mac mini、Mac Studio 及 MacBook Neo 等机型交付紧张。公司预计部分产品需数月才能实现供需平衡。毛利率环比提升 150 个基点至 49.3%,但内存成本上涨带来压力,下一季度影响将更为显著。(来源:IT之家)

 

Figure 机器人量产大幅提速,从每天一台到每小时一台

当地时间 4 月 29 日,人形机器人公司 Figure 创始人布雷特·阿德科克(Brett Adcock)在社交平台 X 发文称,过去 120 天里,Figure 的生产效率扩大了 24 倍——从每天 1 台机器人提升到每小时 1 台机器人。

阿德科克表示,仅在本周,Figure 就将生产 55 台机器人。

同日,Figure 公布了旗下第一代自动化生产线 BotQ 的最新进展:生产线末端的一次合格率已超过 80%,并且每周都在提升;电池生产线的一次合格率达到 99.3%,已交付超过 500 个电池组;已生产超过 9000 个执行器,涵盖 10 多个不同的 SKU。

值得注意的是,在 BotQ 工厂中,人形机器人本身也会参与搬运、组装新机器人。(来源:东方财富网)

 

小红书官宣组织调整:柯南出任总裁,成立 AI 一级部门

4 月 30 日,小红书通过全员内部信官宣新一轮组织升级。核心动作包括全面整合社区、电商、商业化与技术体系,加码 AI 战略布局并启动国际化攻坚。

本次人事调整中,柯南升任总裁,统管社区、电商、商业化三大核心业务及技术体系,直接向 CEO 星矢(毛文超)汇报。

内部信明确两大核心动作:一是成立 AI 一级部门 Dots,直接向柯南汇报,定位为构建从模型研发、基础设施、工程落地到产品应用的全链路技术体系,整合顶尖 AI 人才与资源,成为驱动业务增长的技术引擎;二是成立企业智能部,搭建适配 AI 时代的组织能力底座。

海豚社创始人李成东分析认为,将 AI 团队升格为一级部门,足见小红书对 AI 的重视程度,其核心意图是依托 AI 重构广告投放系统与电商供应链,通过提升广告精准度、优化智能选品、落地虚拟试妆等应用,最终实现变现效率的跨越式提升。(来源:科创板日报)

三星突破 4nm 制程芯片成熟工艺门槛

近日,三星晶圆代工 4nm FinFET 制程(SF4X)良率已正式突破 80% 门槛,终于迈入成熟生产阶段。

三星自 2021 年开始大规模生产 4nm 工艺,初期良率仅约 35%。此后经历长达六年的持续优化与良率爬坡,才终于撞线 80% 目标。

这是半导体制造领域公认的工艺成熟分水岭,此前一直被台积电牢牢占据。目前台积电 4nm 良率约在 85%-90% 区间。

良率跃升直接推动代工客户的密集涌入。由英伟达间接收购的 AI 芯片初创公司 Groq,已于今年 3 月将三星 4nm 晶圆订单从 9000 片追加至 15000 片。

除 Groq 外,三星 4nm 客户版图覆盖多家产业链玩家。据韩媒爆料,IBM、百度、以及一家加密货币公司均已采用三星 4nm 方案。(来源:快科技)

硅谷高管:现阶段 AI 成本高于人力,但高额 AI 账单仍是积极信号

近日,英伟达高管和 Uber 首席技术官指出,现阶段 AI 服务(如代码助手、自动化智能体)的运营成本高于人力成本。

这一观点挑战了「AI 必然降本增效」的普遍预期,揭示了当前阶段企业应用 AI 的一个现实:在追求技术革新的初期,投入成本可能不降反升,而管理层正试图将这种投入重新定义为战略投资。

英伟达应用深度学习副总裁 Bryan Catanzaro 表示:「对我的团队来说,计算成本远远超过了员工成本。」

真正的巨额开支源于基于 Token 的模式,尤其是 Claude Code 和 GitHub Copilot 等编程助手,以及执行复杂自动化任务的智能体。

尽管成本高昂,但企业界的反应出人意料。许多 CEO 并不将高额的 AI 账单视为负担,反而看作积极信号。他们认为,这证明员工正在深入使用 AI 工具,推动大规模自动化进程,从而驱动企业创新。(来源:IT之家)

 

马斯克旗下 Neuralink 打造手术机器人:缩短脑机芯片植入时间

据外媒 Interesting Engineering 报道,近日马斯克旗下 Neuralink 推出了一款专用手术机器人,目标是让脑机接口植入过程实现更高程度的自动化。

这项新工具的重点,是提高植入手术的安全性和可靠性,并让未来大规模应用成为可能。

Neuralink 的植入线「细而柔软」,甚至比人的头发还细,传统手工手术很难精确处理。为此,Neuralink 开发了专用机器人,利用 8 个摄像头和 OCT 扫描仪,在手术过程中实时识别和避开脑组织。

目前,人类外科医生仍然不可或缺,机器人则开始承担高精度、重复性强的步骤。这类操作对稳定性要求极高,而机器人在一致性上更有优势。

这一看似很小的改动意义很大:手术时间会缩短,感染风险也会降低,未来甚至可能让植入流程变成一次快速完成的短住院手术。(来源:IT之家)

 

泡泡玛特首款 LABUBU 冰箱开售秒罄,二手溢价 4000 元

4 月 30 日晚,泡泡玛特 LABUBU 冰箱正式开售,商品上架后秒罄。

据悉,本次发售的泡泡玛特 THE MONSTERS 生活家系列冷藏箱分为 Home 款和 House of the Monsters 款两个版本,两个版本均为全球限量发售 999 台,每一台都拥有限定编号,售价为 5999 元。

值得一提的是,在抢购热潮下,原价 5999 元的泡泡玛特 LABUBU 冰箱,二手交易价格已达到 9999 元,溢价 4000 元。

从硬件配置来看,这款 LABUBU 小冰箱是一台入门级产品:总容积 121L,相当于普通迷你冰箱,且冷冻室极小(15L);ABS 食品级内胆和钢化玻璃隔板,符合安全标准的普通材质;温控、能效和噪音,也都是正常产品水准。

曾有报道称,这款小冰箱由某知名小家电代工巨头制造,双方主要采用 OEM(原始设备制造商)模式合作。门体布满 LABUBU 和 TYCOCO 的卡通角色形象,银色手柄上镶嵌着 LABUBU 立体头像,机身铭牌印着 THE MONSTERS 字样,强化了收藏级「手办」属性。(来源:快科技)

宇树发布双臂人形机器人,2.69万元起售

4月30日,宇树科技正式发布双臂人形机器人,定价2.69万元起。该机型主打上半身双臂操作,下半身可选固定底座或移动底盘。

本次发布的双臂人形机器人共推出四个版本,核心差异为手臂自由度与底座配置。四个版本均标配2kg手臂负载、±0.1mm末端夹爪精度,末端支持二指夹爪、三指灵巧手、五指灵巧手更换,语音与视觉协同配置保持一致。

整机支持15到31自由度,手臂自由度提供5x2和7x2两种方案,动作范围覆盖日常操作与工业辅助需求。

机身与头部均搭载8核CPU,头部模组算力达到10TOPS。配合视觉双目算力模组和语音交互系统,可实现多元人机交互。

机器人末端支持快速更换执行器,适配抓取、夹持、装配等任务,适用于轻工业、实验室及服务场景。(来源:快科技)

 

钉钉发布 DingTalk A1 Pro,支持为手机反向充电

4 月 30 日,钉钉正式发布 AI 硬件家族新成员 DingTalk A1 Pro,售价 1299 元。

这款产品在 AI 录音卡片的基础上集成了 2980mAh 大电池,支持为手机反向充电,已通过新国标 3C 认证。

硬件设计上,A1 Pro 整机厚度仅 6.4mm,机身自带磁吸设计,无需额外皮套即可吸附在手机背面,配备触摸屏可直接切换充电模式。

软件层面,A1 Pro 与钉钉 AI 听记能力深度整合,支持录音实时转写、AI 大模型总结分析和多语种实时翻译。内置 200 多种 AI 纪要模板,覆盖客户拜访、面试问答、法律咨询、跨国会议等典型场景,录音内容还可一键生成日程、待办和会议纪要,直接流转至钉钉工作台。(来源:快科技)

 

张雪机车 MX250 摩托车发布,2.98万起售

4 月 30 日,张雪机车发布首款场地越野车 ZXMOTO MX250,官方指导价 2.98 万元。

张雪机车 MX250 采用双喷油嘴发动机,最大功率 30kW@12500rpm,最大扭矩 27N·m@9500rpm。

张雪机车 MX250 采用了多项减重设计,整车重量 102kg,配有镁合金发动机左右边盖和顶盖、铝合金副车架、镁合金调压器、铝合金后摇臂、7050 铝合金轮圈等。

该车还配有 KYB 阻尼全可调前后减震,内置骨架手把胶、手把小屏。(来源:IT之家)

天文学家最新发现:2031 年,火星往返航线仅需 153 天

沿着地球与火星这颗邻近行星之间相对笔直的航线,单程火星之旅需要 7 至 10 个月左右。但一位天文学家借助小行星的早期轨道数据,或许找到了穿越太阳系的捷径。

在一项新研究中,来自里约热内卢州立大学北部分校的研究人员马塞洛,顺着小行星 2001 CA21 的预测运行轨迹,探寻通往火星的全新航线。这项研究成果发表在《Acta Astronautica》期刊上,研究确定了一条往返火星的航线,全程仅需约 153 天。

结合发射窗口期分析与该小行星的早期轨道预测,研究人员发现,2031 年是唯一一年地火天体几何排布与小行星轨道平面完美契合的年份。研究指出,在 2031 年发射窗口期内,有两套可行的火星往返任务方案,总时长分别约为 153 天和 226 天。

这项新研究旨在为星际航线规划提供一种全新思路,有望将星际航行时长缩短数百天。一直以来,科学家密切监测小行星主要是为防范其撞击地球的潜在威胁,而如今,这些太空岩石也有望成为人类穿越太阳系的天然航行路标。(来源:IT之家)

 

对话奔驰高管:AI 上车之后,豪华品牌如何重新定义智能化?

几乎每个上周去过北京车展的朋友,都会跟我说起,这次在梅赛德斯-奔驰的展区,感受到了一些特殊的气质。

这种气质首先来自审美。在当下新能源市场竞争空前激烈的背景下,过于追求原创和先锋设计几乎等同于和市场对着干。在这种环境下,奔驰带来的那些经典车型的设计,仍然会让人由衷地觉得百看不腻。

而在经典设计之外,今年梅奔在智能化领域更是带来了一系列突破。

在高阶辅助驾驶领域,全新交付的纯电 CLA 现已支持城区及高速辅助驾驶全国可用,年内力争实现「车位到车位」功能,一举从外界印象里的「传统燃油车」,变成一个也能上桌做压轴题的选手。

在座舱层面,梅奔中国研发团队主导在全新后排娱乐系统部署的 VLM 大模型,将带来更丰富的车内多模态感知和理解能力。用用梅赛德斯-奔驰集团股份公司首席软件官欧孟宇(Magnus Östberg)先生的话来说,这是一种「从容不迫」的智能化体验——不需要主动发出指令,技术也能通过主动且不打扰的方式服务用户。

据了解,这套由中国团队主导研发的全新后排娱乐系统,未来也将会输出到全球市场。

更为难得的是,无论是公开发布会还是私下媒体沟通里,梅奔内部从不讳言这些科技背后有来自中国的「供应链技术」——无论智驾合作伙伴 Momenta,还是座舱领域的伙伴字节、高德、清华、腾讯。这在如今强调「自研」和技术标签的车圈竞争里,也算是一股清流。

在北京车展媒体日,极客公园作者和其他 4 家媒体一起,和梅赛德斯-奔驰两位核心技术高管进行了一场对谈。我们从技术谈起,话题涉及产品功能、市场竞争、产业合作甚至关于 AI 时代商业合作范式的变化推演,以下为本场媒体对话的文字版。

其中,Q 代表媒体提问,M 代表两位梅奔高管的回答。两位受访者分别为:

  • 梅赛德斯-奔驰集团股份公司首席软件官欧孟宇(Magnus Östberg)
  • 梅赛德斯-奔驰(中国)投资有限公司执行副总裁、梅赛德斯-奔驰中国研发自动驾驶及车联网负责人王忻

问答均在保留原意的基础上,经过极客公园编辑整理。

梅奔首席软件官欧孟宇(Magnus Östberg) | 图片来源:梅赛德斯-奔驰

 

不拼参数的智能化体验

 

Q:AI 怎样落实到日常出行体验中?如何理解智能化和豪华之间的关系?

M:所谓的「数字豪华」,应该交付给用户一种「从容不迫」的体验。我们希望用户和车之间的交互形态,不仅是主动发出指令,技术也能以更自然、更主动、不打扰的方式服务用户。

举个例子,我们和清华大学联合打造的端侧 VLM 大模型将被应用在新一代 S 级轿车的智能座舱里。在那样一台长轴距的行政轿车后排,用户操控屏幕并不方便。系统可以通过对手势、视觉信息和多模态信号的理解,让交互变得更自然、更优雅。

 

Q:梅奔在车展宣布,新一代的 S 级轿车和新一代迈巴赫 S 级轿车上都搭载了城区领航辅助驾驶。这两款车的用户对舒适度要求可能比智能驾驶还高,你们怎么平衡这些需求?

M:这里其实有两个核心问题:第一,在燃油车上搭载高阶辅助驾驶;第二,在豪华车型上同时满足智能化和舒适化。

首先,燃油车和纯电动车在车辆动态特性上有很大不同,电机和内燃机的动力响应不同。因此,我们确实为此做了很多额外工作,确保燃油车上的辅助驾驶体验同样平顺、自然。

此外,燃油车的变速箱也会带来挑战。我们尽可能通过软件,把电动车上已经形成的调校曲线迁移过来。不可能完全一样,但我们会让它尽可能接近电动车上的体验。

所以,如果用户喜欢 V12 发动机的体验、喜欢 AMG,他们不需要在「智能」和「性能」之间做选择。这将是奔驰的一个重要差异。

新一代 S 级轿车上将搭载奔驰和 Momenta 共同开发的城区及高速领航辅助驾驶 | 图片来源:极客公园

 

中国主导,服务全球

 

Q:在中国市场,速度很重要;但奔驰又是一家对安全和标准非常谨慎的公司。这两者怎么平衡?

M:我们一直说的是「中国速度,奔驰标准」。中国市场变化很快,所以我们会更早地和本土战略合作伙伴共创,把新的想法做出来。但这些功能最终上车前,仍然要经过奔驰标准的测试和认证,确保按时、按质交付给用户。

 

Q:作为一家全球车企,梅奔中国和德国总部之间是如何分工以及配合的?

M:我们的标准很简单:如果某项功能在中国开发能够做得最快、最好,那就由中国团队引领。比如泊车功能就是由中国团队主导全球研发,全新高端后排娱乐系统也是先由中国团队完成,再服务全球市场。

由中国团队主导研发的全新高端后排娱乐系统 | 图片来源:梅赛德斯-奔驰

 

Q:但外界有一种担心:德国标准会不会让奔驰在中国市场显得慢半拍?

M:德国标准不是死板的规则,关键是理解它为什么存在。有些标准是安全红线,不能跨;但有些具体体验,可以结合中国道路和用户场景调整。比如辅助驾驶限速,我们既会遵守规则,也会参考高德提供的经验速度,以及车辆通过环境感知看到的车流速度,让系统更符合真实道路环境。

在研发过程里,我们会讨论什么样的「节奏」是最合适的。对于梅赛德斯-奔驰而言,安全承诺永远是第一位。因此,有时我们会有意把某些功能发布得稍晚一些,因为我们必须确保它符合奔驰的安全承诺。

 

Q:中国和欧洲在 AI 等新技术上的「时间差」,会不会给奔驰带来压力?

M:这是我们之所以要在中国设立研发团队的原因——我们喜欢中国的这种速度。

中国团队可以帮助我们把在中国实现的想法带向全球。当然,我们也可以把全球其他市场的优秀能力带到中国,这是双向的。

梅奔中国执行副总裁、研发自动驾驶及车联网负责人王忻 | 图片来源:梅赛德斯-奔驰

 

Q:过去 5 年,汽车智能化层面出现了非常多新的变量和名词。你们认为最核心的变化是什么?

M:过去几年最核心的变化也许不在产品功能,而是数字化。

我们在全球各个市场都建立了完整的数字化基础架构。有了这个基础架构,梅赛德斯-奔驰可以更全面了解客户如何使用车辆。

例如,我们会关注功能的使用率。如果某项功能使用率很高,说明它确实有价值;如果使用率很低,我们要判断到底是我们没做好,还是这个功能本身并不是用户真正需要的。我们希望每次提供的新功能,都是用户日常能用到的真需求。

 

AI 上车,不是 Token 竞赛

 

Q:奔驰有 140 年的历史,经历过很多技术变革。您认为这轮 AI 带来的技术变革,可以和汽车史上的哪一次重要技术变革进行类比?例如发动机电喷,或者汽车电子化?

M:我认为这不是只发生在汽车工业内部的变革,而是整个行业的变革。我认为 AI 革命的重要性,相当于人类第一次利用电力。而且这一次变化发生的速度,可能还要快 10 倍。

 

Q:过去几年,在中国市场谈到汽车「智能化」时,往往率先会提到一些智能驾驶公司。但今天奔驰提到了腾讯、字节跳动等互联网巨头。你们认为,随着 AI 爆发,下一步的商业形态和合作关系会发生哪些变化?

M:我认为现在是围绕 Token 的疯狂竞赛(mad race of Tokens)阶段。所以,大模型公司和硬件/芯片公司在这轮 Token 竞赛中获益最多。

但我预计,未来会有一些更聪明的解决方案出现,打破这种 Token 竞赛模式。奔驰关心的是技术能否真正给客户带来价值,而不是模型能生成多少 Token。因此,也许我们也会与一些新的 AI 初创公司合作。

 

Q:如果不是单纯拼模型和 Token,下一阶段车企和科技公司的合作核心会是什么?

M:数据可能会变得更重要。无论是语音、座舱,还是辅助驾驶,技术路线变化都会带来合作伙伴变化。

谁能提供更准确、更有用的数据,谁就可能改变合作方式。未来的合作关系,可能不只是采购一个模型或一个硬件,而是围绕数据掌握、数据使用和数据运营重新组织。

AI 走出屏幕,家电变成「机器人」

AI 正在迈向下一个十年。

当模型能力继续提升,AI 即将走出屏幕里「回答问题、生成代码」的任务,转向真实的物理世界。

这也是为什么,AI 硬件会成为过去 1-2 年科技行业最热的关键词。相比手机、眼镜、人形机器人等更主流的硬件形态,家电是一个很容易被低估的的关键品类。

因为家电面对的,是清洁、烹饪、洗衣、宠物、庭院这些最日常的生活任务。它们听起来没有人形机器人酷,但足够真实且高频。AI 要走进生活,根本绕不开这些场景。

过去一年频繁出现在行业讨论里的追觅,一度被视为一个激进的搅局者:一家从清洁机器人、智能硬件领域成长起来的公司,突然把边界拉向空调、冰箱、厨电这些传统大家电。

但如果 AI 正在改变家电行业的能力坐标,让竞争从「造好一台机器」转向「让机器理解场景并完成任务」,那么追觅过去在高速马达、感知算法、运动控制和机械执行上的积累,也就不再只是清洁电器时代的局部优势,而会变成一套可以被重新估值的能力资产。

近期,追觅在硅谷举办了「DREAME NEXT」发布会,并把视线投向 2036:未来十年的硬件形态和生活方式,将如何随着 AI 发生变化。在这个宏大命题下,这场发布会也给外界提供了一个观察切片:追觅将如何在 AI 时代重新定义自己。

 

让家电「长出手脚」

过去 10 年,中国家电里绝大多数品类,都已经完成了一轮智能化升级。

这轮升级的核心变量,是互联以及语言交互。无论是大家电里的「空冰洗」,还是扫地机、洗地机甚至宠物喂食器这些小家电,都变得更加「智能」。用户和产品之间的交互逻辑,也变得更加「自然」:既可以通过手机远程控制,也可以用语言下指令,甚至能让设备在某些预设条件下执行相对固定的任务。

家电第一次从冰冷的机器,变成可以被连接、被调用、被协同的家庭终端。

不过,本质上这些家电仍然还是等待指令的机器。在 1.0 阶段的升级里,它们解决了「听得见」、「连得上」、「能响应」的问题,但还没有真正达到「独立完成任务」达到 L4 的智能水准。

而这些智能化能力,恰好和这一轮 AI 技术浪潮高度对齐。所以,AI 肯定是家电行业未来 10 年竞争的关键变量。

也正是在这个节点上,家电行业未来十年的创新主体,可能会变得更加多元。过去,白电企业的核心能力更多来自压缩机、制冷系统、供应链、制造体系和渠道网络;但当 AI 开始进入家庭,新的竞争变量会变成:一台机器能不能理解真实环境,能不能判断用户需求,能不能把判断转化成动作。

这意味着,下一代智能家电公司未必只从传统白电体系里生长出来,也可能来自清洁机器人、运动控制、智能硬件和机械执行这些更靠近「物理行动」的领域。

这也是为什么,追觅正在成为 AI 家电议题下一个重要的观察样本。

大模型的出现,让家电拥有更强「理解能力」成为了可能。但理解只是第一步,在真实的家庭场景里,完整的智能体验最终要体现在「执行」层面:空调改变风向,扫地机处理边角,洗碗机调整喷淋,冰箱识别食材并联动健康管理……

也就是说,消费者们期待的「2.0 版本的智能家电」,不仅要有更聪明的「大脑」,还必须长出可以和物理世界互动的「手脚」——包括动力系统、感知和算法、机械执行在内的一整套系统化能力。

基于 AI 的感知和算法,有望大幅提升机器对环境的理解能力。仍以清扫场景为例:20 年前的早期扫地机器人识别地形基本靠「不撞南墙不回头」;而如今,感知和算法能力已经开始被用于割草机、泳池清洁机器人等更复杂、更开放的场景。

动力系统对应着家电进入物理世界的基础能力。无论是吸尘、洗地这些相对成熟的清洁任务,还是送风、喷淋、搅拌等新场景,都需要基于高速数字马达的底层动力支撑。

机械能力则决定了 AI 能不能从「数字」走向「物理」:边角的清洁,送风角度的改变,洗碗喷淋的覆盖,都和机械工程能力息息相关。

因此,AI 家电真正改变的,不只是产品功能,而是行业判断一家公司的能力坐标。过去,家电公司更容易被放在压缩机、制冷系统、供应链和渠道能力里衡量;但当家电要从「听得见、连得上」走向「看得见、判断准、做得到」,清洁机器人、运动控制、感知算法和机械执行能力,也开始进入下一代家电竞争的核心区。

 

打造「更复杂的产品」

当然,在传统商业世界里,有另一条残酷的经验和共识:跨品类是一件很难的事;大多数公司探索「第二增长曲线」都并不顺利。

以家电行业为例,表面上看,「空冰洗」、扫地机、厨电,都是「家里的产品」。但每一个品类背后都有着不同的供应链、制造工艺、渠道体系、售后能力和用户决策逻辑。

所以,当从清洁机器人和智能硬件领域成长起来的追觅,开始宣布进入更多家电品类时,外界自然会推导出一系列疑问:既然跨品类这么难,追觅的底气来自哪里?

诚然,追觅跨品类不能绕过供应链、制造工艺、渠道和售后这些传统门槛;但 AI 时代又给了我们观察家电、硬件行业一套新的评价维度:

要考察「基础能力」,因为这决定着机器能不能被造出来和稳定运行;但更要看「AI 能力」,因为这决定着机器能否适应高度复杂的不同环境,并把理解、判断转换为最终执行的动作。

所以,AI 家电真正难的地方,在于让机器在真实家庭场景里应对各种不同的「复杂场景」。

这里的「复杂」,不是功能数量和参数高低能够概括的,它至少来自以下几类不同的复杂度:

第一类是环境复杂度。

室内地面、厨房、庭院、泳池,并不是同一种复杂场景,分别对应不同类型的环境变量:

吸尘器很大程度上依赖人来判断环境;扫地机器人开始需要自己识别家具、障碍物、宠物和边角;割草机、泳池清洁机器人则进一步进入开放、不确定、边界更复杂的户外和水下环境。

AI 不仅要解决「能不能动」的问题,更要提升机器的环境理解能力。

第二类是自主性复杂度。

传统家电更多是人下指令、机器执行。但下一代家电要解决的,是机器能否在更少指令下主动做判断。比如空调过去主要根据用户设定的温度工作,但在 AI 进入之后,它需要判断房间里有没有人、人在哪里、直吹是否舒适、是否需要兼顾节能和湿度变化。

也就是说,机器不只是「被使用」,而是开始承担一部分原本属于人的判断。

第三类是目标复杂度。

清洁是一个相对明确的目标:把地面、窗面、泳池或草坪处理干净。但进入冰箱、厨电后,产品面对的目标会变得更复合:

冰箱不只是把食材冷藏保鲜,还可能要理解食材种类、新鲜度、家庭成员饮食习惯和健康需求;厨电也不只是加热、排烟或清洗,而是在火力、油烟、温控、口感、清洁和安全之间找到更好的体验组合。

第四类是工程复杂度。

AI 家电不只是一套算法,也不是一个屏幕入口。比如空调要实现更细腻的风感控制,不能只靠软件判断,还要和风道设计、出风结构、电机控制、传感器和整机稳定性结合;洗碗机要提升清洁覆盖率,也需要喷淋结构、水路控制、温控和烘干系统协同。换句话说,AI 最终要被压进具体硬件里,接受真实家庭环境、使用频率和长期可靠性的检验。

所以,追觅的多品类扩张,并不只是扩大 SKU、拓宽销量。它真正值得观察的地方,在于把「创新品类」这件事本身也重新做了一遍:不是先从既有货架里寻找下一个可进入的品类,而是从复杂家庭场景出发,判断哪些任务还没有被机器真正接管,哪些体验还存在明显断点,AI 又能否在其中带来可感知的增量。

换句话说,追觅在用一套更接近 AI 时代的方式寻找新品类:进入复杂场景、拆解真实任务、验证技术是否能变成体验,再把被验证的能力沉淀成新的产品。

它的样本意义,也正在这里。

 

AI 时代的「N+1」

如果说,复杂场景是 AI 家电的试验场,那么真正被验证出来的 AI 体验,才有可能成为用户愿意付费的「+1」。

过去很长一段时间,中国硬件擅长把一个成熟产品重新做一遍。具体来说,核心思路是依靠供应链效率、制造能力和成本控制,把重点功能做到接近,同时把价格打下来。

如果把成熟市场里已经被验证的产品高水位理解为「N」,这套路径更像是「N-1」:接近 N,但更便宜、更高效,也更容易进入市场。

这条路径解决了「能不能卖出去」的问题,但不必然通往「高端品牌认知」这一全新的目标。

所以,当中国硬件进入下一阶段,真正困难的并非继续把 N-1 做得更极致,而在于能不能走向 N+1:在成熟产品已经达到行业高水位之后,再多做出一个用户能明显感知、也愿意为之付费的体验增量。

放到 AI 家电里,这个「+1」就是基于 AI 能力的具体体验和产品价值,例如:

空调的 +1,重点是根据人的位置、室内温度、湿度和风感需求主动调整;冰箱的 +1,核心是对食材状态、饮食习惯和健康需求的理解;洗碗机的 +1,则可能体现在更完整的喷淋覆盖、更少的用户返工上。

也就是说,AI 时代的「+1」,本质上不是「多一个功能」,而是「少一次麻烦」。

这种「少一次麻烦」,才是 AI 家电可能形成溢价的地方。

因为对成熟市场的用户来说,家电的基础功能早已不是稀缺品。空调能制冷,冰箱能保鲜,洗碗机能洗碗,扫地机能清洁,这些都是默认能力。真正能让用户愿意多付钱的,是产品能不能在真实生活里多解决一步:少一次判断、少一次操作、少一次维护、少一点不适。

这也是追觅以及中国新一代硬件创业者,有望在 AI 时代获得新位置的原因。它们过去积累的机器人化能力,在 AI 家电时代不再只是局部产品优势,而可能成为制造「+1」体验的关键材料。

更重要的是,AI 时代创业者的机会,已经不只是把成熟产品做得「更接近」、价格做得「更便宜」。新的空间在于,重新寻找那些还没有被很好解决的生活麻烦,并把它们变成用户能感知的新体验。

对追觅而言,跨品类不是关键目标,重要的是如何把过去做清洁机器人时积累下来的能力——让机器动起来、看得见、能判断、能执行——转化成下一代家电里的体验增量。

这场发生在硅谷、面向 2036 的发布会,也可以放在这个逻辑里理解:它既是一组新品的集中展示,也是追觅对下一代 AI 硬件公司位置的一次重新确认。当 AI 进入真实生活,硬件公司要解决的问题会变得更具体:机器更理解环境,更少打扰人,从而更主动地完成那些日常而具体的任务。

人类科技的下一个十年,也许不会只发生在那些宏大的技术叙事里,而会从这些足够日常、足够高频的场景里开始改变。

马斯克:OpenAI 是我的创意,Altman 是小偷;Claude Code 使用成本翻倍;Image 2 登顶视觉模型榜|极客早知道

结束与微软独家合作,OpenAI 模型接入亚马逊 AWS

4 月 29 日,在亚马逊云科技(Amazon Web Services,简称 AWS)新品发布会上,AWS 宣布携手 OpenAI,将 OpenAI 最新大模型接入 Amazon Bedrock,在 Amazon Bedrock 上线 Codex 代码 Agent,并推出由 OpenAI 赋能的 Amazon Bedrock 托管 Agent(以上功能均为有限预览版)。

4 月 27 日,OpenAI 与微软宣布对双方的合作协议作出调整,OpenAI 可通过任意云服务商向客户提供旗下全部产品服务。

据 AWS 介绍,GPT-5.5、GPT-5.4 等全新 OpenAI 旗舰模型,将登陆 Amazon Bedrock 预览版。企业可沿用现有的 Bedrock 接口调用前沿模型,无需额外部署基础设施,也无需适配全新安全体系。(来源:IT 之家)

OpenAI 预计今年消费者订阅用户达 1.22 亿

4 月 29 日,根据最新的市场预测数据,OpenAI 预计其针对消费端推出的 ChatGPT 订阅用户规模在今年将突破 1.22 亿大关。而这一宏大目标背后的核心增长引擎,直指其近期力推的「ChatGPT Go」低价订阅服务。

这项每月仅需 8 美元的低价套餐,自去年 8 月起已悄然在 171 个国家和地区完成布局。相比于此前的标准订阅价格,ChatGPT Go 的推出标志着 OpenAI 正在从「精英化工具」向「大众化应用」转型。官方预测显示,今年约有 1.12 亿用户将转向这一更为实惠的服务层级,这无疑将为 OpenAI 带来前所未有的用户基数。(来源:aibase)

 

苹果计划在 iOS 27 中借助 AI 对照片编辑功能进行全面升级

4 月 29 日,据报道,苹果公司正计划对 iPhone、iPad 和 Mac 的内置照片编辑功能进行重大升级,并深度依托人工智能技术,以此缩小与安卓设备的竞争差距。

据知情人士透露,该公司正在为计划于今年秋季发布的 iOS 27、iPadOS 27 和 macOS 27 开发一套由 Apple Intelligence 平台驱动的新工具套件。这些功能将允许用户利用设备端的 AI 模型对图片进行扩展、增强和重新构图。知情人士表示,处理过程通常只需几秒钟。(来源:格隆汇)

 

GPT Image 2 超越 Nano Banana2 登顶全球视觉模型榜首 

4 月 29 日,根据 SuperCLUE 发布的最新数据显示,该模型已正式超越谷歌的 Nano Banana2,成功摘得全球文生图模型评测的桂冠。据悉,该模型自 4 月 21 日上线以来,凭借在画质、理解力及细节还原度上的显著迭代,刷新了行业技术标准。

在本次评测涵盖的多个核心维度中,GPT Image2 的表现堪称全面。特别是在长期困扰海外模型的汉字生成领域,该模型取得了 93.07 的高分,文字准确度更是获得满分评级。它不仅能够精准识别并生成复杂的汉字,还能实现文字与亚克力、青花瓷等不同材质纹理的深度融合,有效解决了文字「漂浮感」和乱码等技术难题。

除了文字处理能力的突破,该模型在复杂场景的复刻上也展现了极高的指令遵循度。从极具生活气息的老式面包店到充满动感的非遗打铁花,GPT Image2 均能精准捕捉画面细节。此外,针对长提示词和逻辑推理需求,该模型能够准确产出科学原理图、专业海报等高难度内容,展现出卓越的图文一致性。(来源:aibase)

 

Anthropic Claude Code 预估成本翻倍:从每日 6 美元升至 13 美元

4 月 29 日,据多个媒体报道,Anthropic 在没有发布公告的情况下,悄悄将其 Claude Code 的 token 成本翻倍。

根据 Claude Code 官网的最新说明,「在企业部署中,每个开发者每个活跃日的平均成本约为 13 美元,90% 的用户每日成本低于 30 美元。每个开发者每月的成本约为 150-250 美元(现汇率约合 1027 - 1712 元人民币)。」

而该页面在 4 月 16 日之前的存档版本显示,此前的估算为每个开发者每个活跃日 6 美元(现汇率约合 41.1 元人民币),且 90% 的用户每日成本低于 12 美元(现汇率约合 82.2 元人民币)。

Claude Code 是 Anthropic 推出的 AI 编程助手,基于 token 消耗量计费。这一成本调整反映了更广泛的行业趋势:AI 使用成本正在全面上升,从普通用户到开发者再到大型企业都受到影响。(来源:IT 之家)

 

Anthropic 正在考虑对其估值超过 9000 亿美元的融资报价

4 月 30 日,知情人士称,Anthropic PBC 已开始考虑新一轮融资,对其估值可能超过 9000 亿美元,这可能会让这家人工智能(AI)开发商超越其长期以来的竞争对手 OpenAI,成为全球估值最高的 AI 初创公司。

知情人士称,Anthropic 正在考虑来自投资者的报价,这些报价将使其当前估值翻倍有余。由于相关信息非公开,这些人士要求匿名。他们表示,目前讨论仍处于非常早期阶段,公司尚未接受任何报价。(来源:新浪科技) 

 

亚马逊第一季度净利润同比增长 77%,投资 Anthropic 获益 168 亿美元

4 月 30 日,美国电商巨头亚马逊公司 (NASDAQ: AMZN) 今天发布了截至 3 月 31 日的 2026 年第一季度财报。财报显示,亚马逊第一季度总营收为 1815.19 亿美元,较上年同期的 1556.67 亿美元增长 17%;净利润为 302.55 亿美元,较上年同期的 171.27 亿美元增长 77%。

亚马逊在第一季度因投资 AI 公司 Anthropic 获益 168 亿美元。(来源:凤凰科技)

 

欧盟初步认定 Meta 违反《数字服务法》,未能阻止 13 岁以下未成年人使用旗下软件

4 月 29 日,欧盟委员会初步认定,Meta 违反《数字服务法》(DSA),因其未能有效防止 13 岁以下未成年人使用其旗下的 Instagram 和 Facebook。

委员会指出,尽管 Meta 在其使用条款中明确规定,用户最低年龄为 13 岁,但公司在执行这一规定方面措施不足。现有机制既未能有效阻止未达年龄的用户注册和使用服务,也未能及时识别并清除已获得访问权限的未成年人账户。欧盟委员会认为,Meta 未能充分履行对未成年人使用风险的识别、评估和缓解义务,因此构成对《数字服务法》的潜在违规。(来源:央视新闻)

马斯克称 OpenAI 是自己的创意,现任 CEO 奥尔特曼是「小偷」

4 月 29 日,马斯克与 OpenAI 联合创始人、现任 CEO 山姆·奥尔特曼之间的庭审已于周一开庭。

据了解,在这场诉讼中,马斯克指控奥尔特曼和联合创始人兼总裁 Greg Brockman 背弃了 OpenAI 成立之初宣布的造福人类的非营利使命,并将这家非营利组织变成了一个以盈利为目的的巨头。他还要求 OpenAI 恢复非营利性质、罢免奥尔特曼等高管的职务。

马斯克还将 OpenAI 描述为自己的创意结晶,并声称奥尔特曼是一个「小偷」。「这个想法、名字都是我提出的,我招募了关键人员,把我所知道的一切都传授给了他们,并提供了所有启动资金,」马斯克说:「它的初衷就是为了慈善事业,不让任何个人从中获利。我本来可以把它办成一家营利性公司,但我特意没有这样做。」

而 OpenAI 的律师则反驳称,马斯克发起诉讼,正是因为他看到了金钱的诱惑。马斯克本质上是想要掌控 OpenAI,同时为自己旗下人工智能企业 xAI 造势。OpenAI 方面表示,马斯克当初全程参与了公司新架构的讨论,还执意要求出任首席执行官。OpenAI 和奥尔特曼的律师 William Savitt 在开场陈述中向陪审团强调,马斯克只是在失败(未能「掌控一切」)后才提起诉讼。(来源:财联社)

 

追觅 CEO 俞浩质疑小红书不实名,小红书客服回应

4 月 29 日,追觅科技 CEO 俞浩在微博再次连发三文指责小红书平台,他指出,「小红书上的 momo 们,都做过实名认证吗?如果仅浏览就算了,如果可以发帖、发留言、可以评论,为什么不实名认证。谁来承担这个虚假信息的责任!」

他还写道:「尊敬的小红书 CEO:只有小红书不要求实名认证!那么多人不要求实名认证,还带着相同的面具叫 momo,你这个不是鼓励做恶是什么?你的社会责任呢?」

对此问题,新浪科技向小红书官方客服进行问询,对方表示,「按照法律法规对包括小红书在内的各互联网平台统一要求,针对不同场景需要用户提交包括但不限于手机号、个人身份信息等相关资料进行认证。」(来源:新浪科技)

 

前推特 CEO 创办的 AI 初创公司获融资,估值达 20 亿美元

4 月 29 日,据报道,前推特首席执行官 Parag Agrawal 创办的初创公司 Parallel Web Systems 近日成功完成了一轮 1 亿美元的 B 轮融资,使公司的估值飙升至 20 亿美元。

这轮融资由著名风险投资公司 Sequoia Capital 领投,目前,Parallel 在加利福尼亚州帕洛阿尔托拥有约 50 名员工。公司在去年 11 月进行的 A 轮融资中筹集了 1 亿美元,当时估值为 7.4 亿美元,至今已累计融资 230 亿美元。

Parallel 的目标是服务企业客户,提供高效的 AI 代理平台,帮助其在网络上进行搜索以完成各类任务。Agrawal 强调,未来 AI 代理将比人类更频繁地使用网络,因此需要专门的基础设施来支持。Parallel 的成功与「长时间运行」的 AI 代理的快速发展密切相关。这些代理能够在后台自主运作,长时间保持上下文,从而更快速地完成用户请求。(来源:aibase)

 

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

4 月 29 日,国家数据局数据显示,2025 年,我国用于人工智能训练和推理的数据总量为 199.48EB(Exabyte,艾字节 | 1EB=1024PB=1,048,576TB),同比增长 42.86%,推理数据量首超训练数据量,达 101.34EB。

另外,2025 年我国系统软件、人工智能产生的数据量达 26.92ZB(ZettaByte,泽字节 | 1ZB=1024EB),首次超过传统占主体地位的物联感知数据量。

经测算,未来推理算力需求与训练算力需求之比或将达到 3:1,甚至更高水平。下一步国家数据局将针对低时延、高可靠、高安全的城市算力需求场景,合理布局城市算力。

数据显示,2025 年,全国日均词元调用量从年初的超万亿增长到年末的 100 万亿,呈现指数级增长;全年词元累计调用量达到约 21100 万亿。(来源:IT 之家)

 

英媒:DeepSeek V4 发布引爆需求,大厂争相订购华为昇腾 950 芯片

4 月 29 日,路透援引三位知情人士透露,随着基于华为芯片运行的 DeepSeek V4 人工智能模型发布后,华为昇腾 950AI 芯片需求激增,中国主要互联网公司正争相下单。

据熟悉采购讨论的消息人士透露,包括字节跳动、腾讯和阿里巴巴在内的中国最大互联网公司正在就新芯片订单与华为接洽。(来源:格隆汇)

Adobe Photoshop 引入 AI 3D 旋转对象功能,光影可自动匹配

4 月 29 日,Adobe 更新 Photoshop 与 Lightroom,在引入全新 AI 工具外,还优化工作流并提升软件性能。

功能方面,继上个月在 Illustrator 中推出 Turntable 功能(可在 3D 空间旋转 2D 矢量)后,Adobe 在 Photoshop 中也引入了类似的「旋转对象」(Rotate Object)工具,用户可以在 3D 空间中实时旋转、倾斜和翻转素材。

该功能为了让素材更好地融入背景,用户只需点击「协调」(Harmonize)按钮,Photoshop 软件便会自动调整光照和阴影。

除了「旋转对象」,Adobe 还在 Photoshop 中推出去年 Adobe MAX 大会上公布的「图层清理」(Layer Cleanup)工具。该功能可以智能清理和组织项目中的图层,自动重命名图层并移除空图层。对于复杂项目而言,这项自动化操作能节省大量时间。(来源:IT 之家)

 

腾讯 ima 解锁 Agent 形态,推出知识 Agent「copilot」

4 月 29 日,据腾讯云官方消息,腾讯 ima 正式发布全新 Agent 模式「copilot」,标志着其从「工具」向「伙伴」的形态跨越。该模式支持用户创建专属 Agent,并内置自主进化的记忆系统。

copilot 通过 copilot 设定(Soul)、用户档案(User)、长期记忆(Memory)、经验技巧(Agent)四大模块,结构化存储用户背景与习惯,实现跨场景连续调用。其支持以浮窗形式全场景感知,在用户浏览网页、文件或知识库时自动识别内容,无需上传文件即可直接进行理解与处理。

技能生态方面,copilot 上线了知识库操作、生成报告等官方 Skills,支持读取文件正文及跨文件汇总。此外,该功能支持用户自由配置各大模型 API Key,目前已在 Mac、Windows、iOS、安卓及鸿蒙系统上线,并实行申请制。(来源:品玩)

 

中央网信办:将发布《人工智能应用伦理安全指引(1.0 版)》

4 月 29 日,中央网信办(国家网信办)副主任牛一兵在发布会上表示,今年以来,中央网信办聚焦人工智能的新技术新应用,持续加强制度供给,会同有关部门出台了《人工智能拟人化互动服务管理暂行办法》,并就数字虚拟人信息服务管理办法面向全社会公开征求意见。

论坛将发布《人工智能应用伦理安全指引(1.0 版)》,聚焦人工智能对社会关系、情感依赖、公共秩序、个体权益等方面可能造成的影响,提供相关的实践参考,帮助各方更好地把握发展方向,守好安全底线。(来源:华尔街见闻)

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

4 月 29 日,伦敦帝国理工学院等研究机构发布报告预测,到 2025 年中期,约 35% 新发布的网站内容将全部或部分由 AI 生成。

据悉,研究人员通过 Wayback Machine 互联网档案馆收集 2022 至 2025 年间发布的网页,并采用「多维度分层抽样」方法模拟随机抽取。同时结合 Binoculars、Desklib、DivEye 和 Pangram v3 四种 AI 文本检测工具,对内容来源进行判断。结果显示,在 ChatGPT 推出后,AI 生成内容的占比从几乎为零迅速攀升至三分之一以上,体现出生成式 AI 对互联网内容生态的快速渗透。

相应研究还检查了网传所谓的「AI 对文字内容产生的负面影响」,也就是所谓 AI 会造成文章「语义收缩、事实质量下降、情绪单一且正面、知识孤岛、信息密度降低、风格同质化」。结果发现,仅「语义收缩」和「情绪单一且正面」获得数据支持,AI 生成内容的语义相似度比人工撰写内容高出约 33%,正面情绪评分则高出约 107%,其余所谓「负面影响」并未得到统计验证。(来源:IT 之家)

OpenAI 硬件负责人的闭门分享,向我们揭示了为什么硬件「终点」仍是智能手机

图片
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」

作者|张勇毅

编辑|靖宇
 

昨天,当 OpenAI 做智能手机的具体规格与供应链爆料发布时,我第一反应不是「他们要做手机了」,而是「OpenAI 最终也不得不踏出这一步」,同时想起两周前 Richard Ho 在 Stanford 那场交流。

Richard Ho 是 OpenAI 的硬件负责人,从 Google 做 TPU 出来。

图片

Richard Ho |图片来源:Synopsys

 

那场在 IEEE 内部组织的交流上,他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看,整条路径其实已经被讲得很清楚——只是当时没有一个具体的产品形态来锚定它

OpenAI 做手机这件事,在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推,你会发现这是一条早就铺好的路。

毕竟对于所有模型厂商来讲,手机都只是终点之一,不是起点。

01

模型的下一次「跃迁」,诞生自硬件

 

那场交流的核心,是关于 OpenAI 为什么必须自己做硬件。

Richard Ho 反复强调的一句话是:「真正的限制不再只是模型,而是算力、能耗、成本、延迟,是整个系统。」

听起来像一句普通的技术陈述。但放在 OpenAI 的位置上,这句话的分量完全不一样——它意味着这家公司已经不把自己单纯当作一家模型公司

GPU 是为通用并行计算设计,在推荐系统、传统的并行任务,跑得很好。

但面对今天主流的 Transformer、agent、长上下文推理,其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同,整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是:「GPU 把我们带到了今天,但它并不是为这种(AI 负载任务)而设计的。」

这句话背后的含义其实是:继续依赖 NVIDIA 所设定好的硬件路径,OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用,而是说在能耗、成本、效率这些维度上,OpenAI 无法一直被动地接受外部的硬件节奏。

所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」,而是 OpenAI 想重新拿回 AI 运行的底层控制权。

如果只看媒体报道,你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接:「我们不是在做一颗芯片,而是在做一个系统。」

这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像,但更强调端到端的控制。

进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的,但「两年时间已经从空白走到 tape-out(芯片设计完成交付流片生产)」,并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据,而是「已经在真实环境里 work 的东西」。

两年从零到 tape-out 是个什么概念?传统芯片公司从架构到流片,五到七年很正常。Google TPU 第一代用了大约三年,而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事:要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队(这是事实),要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持(这也部分是事实)。

但更值得说的是 OpenAI 和硬件供应商之间的关系边界。

「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制,紧接着补了一句——「他们并不看到完整的架构。」他还专门解释,「很多时候他们只看到一部分,但看不到整体是怎么拼起来的。」

这句话其实透露了 OpenAI 自身的一个判断:架构层和工程层是两件事,前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力,系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。

Richard Ho 提到,外界看到的模型是几个月发布一次,但内部其实是一条连续的 pipeline——「我们能看到接下来 6 到 9 个月模型会怎么变」。

这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片,而是在为还没出现的模型「预备」设计。

具体到细节上,这种「向前看」会影响很多决定:模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high;网络带宽要扩到多少;新的 compression algorithm 出现会不会改变数据流的形状;inference 和 training 的比例正在快速变化(推理负载越来越重),这对硬件的要求又是另一套。

Richard Ho 把这一点总结成一句话:

你必须为模型将要去的方向设计硬件,而不是为今天的模型。」

这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU,而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看,OpenAI 做芯片更像 Google 做 TPU,而不是像 NVIDIA 做 H100。

但即便如此,硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢,所以芯片红利结束」这个论断。他的判断是:单颗芯片确实在变慢,但整个系统层面还远远没有被优化好。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体:现在高速 copper 互联在高带宽下只能支持大约 2 米的距离,这对数据中心布局是非常大的限制。

简单说一句:OpenAI 在做的事情不是把一颗芯片做得更快,而是把整个 AI 计算系统重新优化一遍。

手机这件事,是这个系统的最末端。

02

「手机不是为 agent 设计的」

 

回到手机。

Richard Ho 在那场交流上有一句话,今天回头看几乎就是 OpenAI 做手机的全部理由——「手机不是为 agent 设计的」。

「今天的手机交互是 app-based、session-based 的,你打开一个 app,做一件事,关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作,它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」

这种交互范式,直接等同于在说:今天的 iOS 和 Android 都不是为它设计的。

这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「未来不是 cloud-only,也不是 edge-only,而是两者结合」——个人上下文、隐私数据、低延迟交互必须在设备端,复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」,它必须在操作系统层有完整权限。

图片

现有手机系统在满足 AI 时代原生用户需求面前有天然的短板 | 图片来源:io

 

这件事在 iOS 和 Android 上很难干净地做——不是技术问题,是利益问题。Apple 不会把系统级权限完全开放给一个第三方 agent,Google 也不会。

也是从这个角度,去年 OpenAI 收购 Jony Ive 团队相关的公司(io)的逻辑就清楚了。Richard Ho 说,做端侧个人设备这部分工作「是目前最有意思的一块」——因为这是第一次把基础设施和消费电子设备真正接在一起。

这其实是 OpenAI 整个硬件战略里最有想象力的部分,也是最危险的部分。有想象力是因为它在做 Apple 当年没做的事:用 AI agent 把操作系统重写一遍。危险是因为消费电子是另一套游戏规则——产品节奏、供应链、零售、品牌——不是从云端工程师团队里能长出来的能力。

但 io 的存在解决了一部分问题。Jony Ive 不是来做芯片或者操作系统的,他是来做硬件形态和工业设计的——这本来就是 Apple 这些年从 OpenAI 手里能短暂保住的最后一块地。

03

不是所有 AI 公司都在做同一件事

 

消费电子的难度有多大,看过去两年其他 AI 公司在硬件上的尝试就清楚了。

每一家都想用 AI 重新定义某个硬件形态。但每一家走的路径不一样,结果也很不一样。

最早的是 Rabbit R1。

2024 年初的 CES 上,吕骋拿出那台橙色小盒子,喊出「干翻所有 App」——用 LAM(大动作模型)替代手机里 App 的交互方式,一句话订外卖、打车、订机票。当时引发的关注度堪比「AI 时代的 iPhone 时刻」,开售两周卖出 5 万台。

图片

Rabbit R1 是首批 AI 硬件中为数不多「口碑反转」的产品|图片来源:Rabbit

 

但首批用户体验出来之后,事情翻得很快。先是被开发者证实是套壳安卓——Rabbit OS 实际上是 AOSP 的修改版,APK 可以直接装到 Pixel 6a 上跑。LAM 被发现依赖 OpenAI 的 API。续航 4 小时,订一次外卖要试十几次。

Rabbit 失败的真正原因不是产品质量,而是路径——它只做了硬件壳子,没碰底层。芯片是联发科 Helio P35(入门手机水平),系统是套壳 Android,模型靠第三方 API。这种做法的天花板很明显:你做的事情,一个手机 App 都能做,而且做得更好。

Meta 选了一条完全不同的路。

Meta 的判断是不挑战手机这个形态,让 AI 借眼镜这个已经存在的硬件形态进入日常。Ray-Ban Meta 做对了三件事:找 EssilorLuxottica(雷朋母公司)做合作方,让眼镜回归眼镜本身——时尚、轻、舒适;把 AI 做成「附加项」,299 美元起售;不强求每个用户都用 AI,先把一副好眼镜卖出去,AI 是 bonus。

结果是 Ray-Ban Meta 卖出超过 200 万副,Meta 一家拿下全球智能眼镜市场 75% 以上的份额。

但这条路的边界也清楚——Meta 解决的是「AI 怎么进入日常」这个问题,不是「AI 怎么重新定义计算」这个问题。眼镜只是一个加了摄像头和麦克风的入口,它不会替代手机,也没打算替代。

阿里千问基本上是 Meta 路径的中国版本。今年 2 月 MWC 发布、3 月 G1 系列发售(国补到手价 1997 元起)、4 月 S1 上市(国补到手价 3499 元),节奏很快。逻辑也清晰:千问 App 已经做到超 3 亿月活、8000 万 DAU,眼镜是把 AI 助手能力从手机延伸到日常佩戴形态——支付宝、高德、淘宝、飞猪一整套阿里生态都接进来,用户对眼镜说「点外卖」「打车」「翻译」就能办事。芯片是高通骁龙 AR1,系统在 Android 之上,模型用千问。

千问眼镜本质上是一次生态延伸,不是底层重构。它的优势是阿里生态足够厚,眼镜成为阿里 AI 服务的一个新入口。

把这三条路放在一起看,再对比 OpenAI——你会发现 OpenAI 是唯一一家在做「全栈重新定义」的公司

Rabbit 想绕过 App 但没动操作系统,结果是空中楼阁;Meta 选择不挑战手机,让眼镜做配角,做对了爆款但天花板就是配角;千问跟随 Meta 的形态选择,把眼镜做成 AI 服务的延伸入口;而 OpenAI——从芯片、基础设施、能源、操作系统、设备一路打通。

这是另一个量级的事。

04

真正的护城河,不在模型层

 

那场交流的最后,Richard Ho 还给了一句对未来格局的判断:

(模型公司)不再是在芯片层赢,而是在系统层赢。

这句话的意思是,未来的 AI 竞争不只是模型能力的竞争,而是整套系统能力的竞争——同样的功耗下能提供多少计算、能服务多少用户、延迟能压到多低。这种系统级的优势,单靠模型本身是没法替代的。

放在 OpenAI 的位置上看,这是一种相当自洽的逻辑:模型团队在 GPT、o 系列、agent 这些方向上往前推,但一旦推到某个体量,模型本身的进步就要被基础设施的瓶颈限制住。所以 OpenAI 必须从模型公司变成基础设施公司——再变成设备公司。

这也是为什么 Richard Ho 在被问到未来算力规模时,给出的数字是 20GW。把 OpenAI、Oracle、SoftBank 等合作方的规划加起来,未来需要的算力大约相当于十几到二十个核电站的发电量。

这个数字第一次听到的时候我没反应过来。20GW 已经不是数据中心能解决的问题——它是国家电网和能源政策的问题。Richard Ho 自己也说,「当你开始谈这种规模,就必须谈电力,甚至是国家安全」。

把这件事和「OpenAI 做手机」放在一起看,才能看清楚整个图景:一边是国家级别的能源基础设施,一边是用户兜里的一台设备,中间是一整套自研的芯片、系统、操作系统。OpenAI 想做的,是把这两端连起来。

把所有的点串起来——模型、基础设施、自研芯片、能源、edge device、操作系统——会发现 OpenAI 做手机不是一个单点决策,而是这条路径自然长出来的结果。

手机只是第一个被外界看见的形态。但真正的变化是更底下的那一层:计算范式正在从 app 为中心,转向 agent 为中心

一旦默认入口变成 agent,今天的设备、芯片、操作系统,都会被重新定义一次。

这一次重新定义里,OpenAI 不再只是一家做模型的公司。

*头图来源:AI 生成
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
当 agent 成为默认入口,
今天的操作系统会被重写吗?
图片
图片
图片
图片

 

HappyHorse 1.0在千问首发开启灰测免费体验,重构 AI 视频赛道

 

前段时间,AI 视频生成赛道迎来了一场无预热的行业震动。

一款名为 HappyHorse 1.0 的模型以匿名形式空降权威第三方评测平台 Artificial Analysis 的 Video Arena 榜单,一度拿下第一。

从全网对研发主体的密集猜测,到阿里巴巴 ATH 事业群正式官宣认领,这款被业内称为 「HappyHorse 1.0 」 的模型,迅速成为全球 AI 视频圈的核心讨论焦点。

更让行业关注的,是 HappyHorse 1.0 快速完成了与千问APP的全链路深度融合 —— 目前千问 APP 可免费体验该模型能力,千问创作web端也可使用,功能更全。

不同于市面上大模型与视频工具 「入口嫁接」 的浅度合作,这套组合直接打通了从自然语言创意到成片输出的完整创作链路,试图同时解决 AI 视频行业长期存在的两大核心痛点:普通人写不出精准提示词的创意转化门槛,和专业需求落地时 「理想与现实脱节」 的效果还原难题。

当全球顶级的视频生成能力,遇上国内头部的大模型,这套组合拳是否会终结 AI 视频赛道持续多年的参数内卷?又会给国内云厂商AI竞赛带来什么样的影响?

 

一、场景实测:HappyHorse 1.0 的真实能力,到底强在哪?

 

判断一款 AI 视频生成模型的真实价值,要在真实创作场景的落地闭环中 —— 它能否真正解决创作者的核心痛点,能否把零散的创意转化为逻辑自洽、视听完整的成片。

现在,在浏览器登录千问创作网页版(c.qianwen.com,在「AI 视频」里就可以调用 HappyHorse 1.0 生成视频了,有免费体验额度,体验下来每天都可以免费生成几个视频,额外部分消耗积分(具体扣除额度及对应价格以页面为准)。

 

 

同时,用户也可在最新版千问APP中通过首页胶囊入口进入创作面板,选择 HappyHorse 1.0 及相关参数进行视频生成,当前支持免费体验(按生成额度扣除)。

 

HappyHorse 1.0 生成的这段视频呈现了一幕带有浓厚年代感的家庭对话场景。无论是色彩体系、光线质感,还是场景中的道具细节,都统一服务于“80年代家庭影像”的视觉语境,风格稳定,没有出现现代感穿帮或画面漂移。

在人物表演与动作的流畅性上从奶奶的叹气摇头,到小表妹的理直气壮回怼,再到最后的表情定格,人物动作与情绪递进自然衔接,都没有明显的卡顿或跳变。

还有对白与音频的真实感。语气、停顿与情绪表达匹配画面关系,人物互动具有明确的“接话逻辑”;同时声音具备基础的空间感与生活环境氛围,使对话像是真实发生在这个场景中的交流。

可以看到,HappyHorse 1.0 生成的这段视频不仅还原了一种复古视觉风格,更重要的是把场景、表演与对白组织成一个成立的生活片段,体现出其在日常叙事内容上的稳定生成能力。

相比前面的生活化对话场景,这个「武将率铁骑兵临城下」场景所体现的,是一整套更高阶的生成能力。它调度了多镜头、多主体与复杂环境:从全景到特写的镜头推进、战马与人物的协同动作、铁骑群体与尘土环境的联动,都在同一段视频中保持了连贯与稳定,体现出更成熟的叙事组织能力与动态控制能力。

同时,能力的提升还体现在声画与光影层面。相比简单对白,这一场景具备更完整的空间声场——战马嘶鸣、马蹄踏地、金属碰撞等环境音层次分明,并能随画面变化形成基本的空间感;人物喊话的语气、力度与情境匹配,明显降低“AI配音感”,让整段内容在听觉上同样成立。在视觉上,整体光影与色彩体系贴近经典港式武侠剧:夕阳侧逆光勾勒轮廓,冷暖对比强化层次,配合柔光质感与仪式感构图,形成统一的“老港片”视觉语境,没有出现风格漂移或现代感穿帮。

整体来看,这段视频实现了多要素之间的统一——镜头、动作、声音与风格被整合进同一套表达体系中,使生成结果已经很接近一段“被拍出来的镜头”。

在短剧创作场景下, HappyHorse 1.0效果也很有潜力。

比如这个典型的短剧开场片段:公主推门而入,情绪直接爆发,“本公主才不要和亲!”完成第一秒的冲突建立;随后镜头切至皇子转身,在暧昧光线与慢节奏动作中完成“人物登场+情绪反转”,女主短暂失神,剧情迅速从对抗过渡到暧昧关系,为后续发展埋下钩子。整体节奏紧凑,在极短时间内完成了冲突建立、人物塑造与情绪转折。

在短剧结构化生成能力上,首先是对“短剧节奏”的理解——3秒内抛出矛盾,6秒内完成人物关系变化,具备明显的内容钩子;其次是人物表演与情绪调度能力,从公主的娇嗔爆发到女主的“花痴”反应,情绪递进清晰,动作与表情衔接自然;同时,在镜头与光影上也配合叙事节奏进行变化,强化人物吸引力与氛围感。

在现在的短剧制作模式下,HappyHorse 1.0 展现出的这种执行力,意味着只要有优秀的剧本创意和分镜指令,模型就能以极低的成本和极高的效率完成视听渲染。

 

二、HappyHorse 1.0击穿了AI视频的哪些原生痛点?

 

引起大众关注的背后 ,是HappyHorse 1.0 从底层架构到产品落地,对 AI 视频行业发展多年来的原生痛点,完成了一次系统性的击穿与重构。

长期以来,AI 视频生成赛道的主流方案均采用「分步拼接架构」:先通过独立模型生成无声视频画面,再用另一套音频模型完成配音、音效匹配,最后通过多模块拼接完成成片输出。

这种天然割裂的生成逻辑,带来了行业始终无法根治的原生缺陷 —— 音画节奏脱节、空间逻辑割裂、人物口型与台词错位、音效与画面氛围违和,成为制约 AI 视频成片质感的核心瓶颈。

HappyHorse 1.0 从底层架构上实现了根本性突破,其采用 150 亿参数的统一 Transformer 架构,将文字理解、图像参考、视频生成、音频合成四大核心能力全部整合进同一个模型中,实现了音画同流程原生生成。画面与声音不再是先后生成、强行拼接的两个独立模块,而是在同一套生成逻辑里同步完成创作,从根本上解决了分步拼接架构的天然缺陷。

这一架构突破,直接带来了成片质感的跨越式提升:人物对白的 AI 感显著降低,语气语调能精准贴合画面情境与人物情绪,多人对话场景下交互流畅、反应自然;环境音效细腻真实,船桨划水的清透声、巨兽咆哮的空间压迫感都能精准还原,甚至能通过音效配合画面情绪完成氛围渲染,打破了行业长期存在的 「画面满分、音效出戏」 的体验短板。

这种从底层架构出发的重构,本质上解决的是 AI 视频能否稳定成片的能力问题。但对于行业而言,另一个长期存在的约束在于,是否能够以合理成本、稳定效率被大规模使用。

HappyHorse 1.0 依托千问双端平台给出了解决方案:千问 APP 移动端可免费体验模型能力,仅扣除视频生成次数;千问web端也有免费额度,超出部分需消耗积分即可使用。

当算力效率不再成为瓶颈,「顶级效果必须绑定高成本与高门槛」的行业惯性也随之被打破。对于普通用户而言,这意味着可以零门槛接触高质量生成;而对于专业创作者,则意味着真正可持续的规模化生产成为可能。

模型解决的是「怎么生成」,那么千问 APP 与 HappyHorse 1.0 的结合,解决的是「生成什么」。

在这个协同体系里,千问更像是「策划大脑」,负责剧本构思、分镜拆解与提示词优化;HappyHorse 1.0 则是「执行终端」,将这些抽象意图转化为具体画面。两者的配合,实现了「想对→做好」的完美匹配,形成从创意到输出的完整闭环。

这也进一步改变了 AI 视频的使用门槛。专业创作者可以基于完整工作流进行复杂生产,而普通用户也可以通过简单对话生成具有人设和剧情的视频内容。AI 视频真正开始成为一种更普遍的表达方式。

 

三、HappyHorse 1.0在千问官方开启灰测,如何改写内容产业格局?

 

回顾 AI 视频赛道的上半场竞争,多数产品未能解决技术能力与用户真实需求的脱节问题,也未能形成从创意到成片的完整落地闭环,行业始终难以突破 「小众尝鲜」 到 「全民普惠」 的发展瓶颈。

作为国内领先的通用大模型平台,此前,千问已经在语言、多模态理解与生成能力上形成较为完整的基础能力体系,并在视频云与内容生产相关基础设施上建立起较强的工程承载能力。

HappyHorse 1.0 的加入,意味着千问在多模态生成能力上的关键拼图进一步补齐,使通义大模型家族在「文本—图像—视频」之间的生成链路更加完整与连贯。创意表达从自然语言输入开始,能够直接延展至高质量视频成片输出,从而形成更完整的端到端生成闭环。

更重要的是,这一组合式能力的形成,使得AI视频从「单点模型能力竞争」进入「体系化生成能力竞争」的阶段。

当模型开始具备跨模态连续生成、内容一致性控制与长链路创作能力时,竞争焦点也随之发生迁移——从单一生成效果,转向生产效率、内容可控性与生态协同能力的综合比拼。

HappyHorse 1.0 在千问开启灰测,使通义千问体系在 AI 视频这一关键赛道中,具备了参与下一阶段竞争的系统性能力基础,也标志着行业正在从早期的模型军备竞赛,迈向以全栈能力与生态协同为核心的新阶段。

更进一步来看,AI 视频的核心价值,关键在于是否能够让创意表达变得足够低门槛、足够稳定,并最终转化为人人可用的生产能力。

在这一意义上,HappyHorse 1.0 × 千问所带来的,在技术能力升级的基础上,更是对AI视频上半场「算力与效果内卷」的阶段性收束,并由此推动行业进入一个以生态普惠与创作自由为核心的新周期。

 

 

比亚迪5月1日开始涨价;微信朋友圈悄然改版;麦当劳奶昔正式回归

谷歌被曝与五角大楼签署机密 AI 协议,条款宽松程度超OpenAI

当地时间 4 月 27 日,据知情人士透露,谷歌与美国国防部签署了一项机密 AI 协议,允许五角大楼将谷歌 AI 用于任何合法的政府目的。

协议同时要求谷歌根据政府要求协助调整其 AI 安全设置与过滤器。媒体指出,该协议的条款宽松程度被认为超过 OpenAI 今年 2 月与五角大楼达成的协议。

截至发稿,谷歌股价小幅上涨 0.15%。

(来源:每日经济新闻)

比亚迪宣布 5 月 1 日起涨价

4 月 28 日晚间,比亚迪官方发布公告称,受全球存储硬件成本大幅上涨的影响,比亚迪旗下 (王朝网、海洋网、方程豹) 部分车型,选装天神之眼 B 辅助驾驶激光版的价格,将从 9900 元上调为 12000 元。

此次价格调整将于 2026 年 5 月 1 日正式生效。2026 年 4 月 30 日及之前,付定金下单的客户不受此次调价影响。

公开信息显示,天神之眼系统是比亚迪全栈自研的高阶智能辅助驾驶整体解决方案,目前共推出 A、B、C 三个等级,覆盖不同价位车型。其中,本次调价的天神之眼 B 版本定位中高端智能驾驶,被广泛搭载于比亚迪主力热销车型。

据此前比亚迪官方披露的数据,截至 2026 年 3 月底,比亚迪辅助驾驶车型保有量已超 285 万辆,天神之眼系统每天生成数据量超 1.8 亿公里。产销快报显示,2026 年第一季度,比亚迪汽车累计销量约 70.05 万辆。

(来源:公众号:21 世纪经济报道)

殖民火星才能拿,SpaceX 为马斯克制定的薪酬方案曝光

SpaceX 董事会为创始人埃隆·马斯克制定了一份前所未有的薪酬方案,将考核目标直接与「殖民火星」和「运营太空数据中心」挂钩。该信息源自公司近期向美国证券交易委员会提交的保密注册文件。

文件显示,董事会于今年 1 月敲定,若 SpaceX 市值达到 7.5 万亿美元,并在火星建成一座拥有至少 100 万常住人口的永久定居点,马斯克将获得 2 亿股超级投票权限制性股票。另一项激励则与算力达 100 太瓦的太空数据中心建成挂钩,可额外获得 6040 万股同类股票。每股 B 类股票拥有 10 倍于 A 类股票的投票权。

公司计划于马斯克 6 月 28 日生日前后启动 IPO,届时估值或达 1.75 万亿美元。专家指出,此类以星际殖民为标准的激励方案,在商业史上无任何案例可循。文件同时显示,SpaceX 与特斯拉在如何分配马斯克精力上的潜在矛盾也浮出水面。

(来源:IT 之家)

百度文库网盘融合后首秀,发布 GenFlow 4.0

4 月 28 日,百度 AI Day 开放日上,今年 1 月由百度文库与百度网盘融合而成的个人超级智能事业群首次公开亮相。

活动现场正式发布通用智能体 GenFlow 4.0,月活用户已突破 1 亿,月任务交付达 2 亿次。同步全面升级 Office Agent,覆盖 PPT、Excel、Word 三大办公场景,并首次公开 GenFlow 兼容 OpenClaw 能力的最新进展。

百度集团副总裁王颖表示,做通用智能体的理念从未改变——围绕大模型构建环境,让大模型有可调用的工具和自己的工作环境。

(来源:TechWeb)

英伟达市值突破 5.26 万亿美元创历史新高

当地时间 4 月 27 日,英伟达股价单日上涨 4%,收于每股 216.61 美元,总市值升至 5.26 万亿美元,创历史新高,稳居美股市值榜首。

天风国际证券分析师郭明錤当日发文称,OpenAI 计划自研手机,正与联发科、高通合作开发手机处理器。市场认为,该消息进一步验证了英伟达在整个 AI 产业链中的核心地位。

过去一个月,英伟达股价累计上涨超 31%。华尔街正高度关注本周密集发布的科技巨头财报,以判断 AI 支出的持续性。

(来源:cnBeta)

发改委叫停外资收购 Manus,国内 AI 赛道明星项目出海受阻

国家发改委外商投资安全审查办公室依法对外资收购 AI 智能体项目 Manus 作出禁止投资决定,要求撤销相关交易。Manus 是 2025 年国内 AI 应用赛道的明星项目,用户通过语音或文字指令,即可让 AI 自动完成编写代码、预订行程、分析股票等复杂工作。

消息此后引发连锁反应。据媒体报道,Meta Platforms 正准备撤销对 Manus 的收购,腾讯、HSG 和真格基金等多名亚洲前投资方计划予以配合。发改委方面表示,这一决定体现了对关键领域外资准入的审慎态度。

该事件是继 TikTok 之后,中国 AI 领域又一涉及外资收购安全审查的标志性案例。目前 Manus 方面尚未就此公开发表正式声明。

(来源:IT 之家)

网信办约谈剪映、猫箱、即梦 AI,要求落实 AI 内容标识

据网信中国消息,近期网信部门发现「剪映」「猫箱」App 及「即梦 AI」网站存在未有效落实人工智能生成合成内容标识规定等问题。

上述行为违反《网络安全法》《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等法律规定。国家互联网信息办公室指导属地互联网信息办公室,依法对上述平台采取约谈、责令改正、警告、从严处理责任人等处置处罚措施。

(来源:36 氪)

微信朋友圈界面悄然改版,新增「朋友圈相册」入口

4 月 28 日,多名网友发现微信朋友圈页面排版出现明显变化,相关话题登上微博热搜第二。据悉,该变化出现在 iOS 8.0.71 版本中。

在「我的朋友圈」页面,此前位于配图右侧的文字,现已移至图片上方。发布日期的显示形式也同步做出调整。最显著的变化是页面右上角新增了「朋友圈相册」入口,支持按年、月、日的视角切换与缩放浏览,交互逻辑与苹果系统相册类似。

针对此次界面调整,腾讯客服回应称,文字位置变动属于展示形式的优化,团队会持续调整以提升浏览体验。

【信息来源:都市快报橙柿互动】

追觅发布 Nebula NEXT 01 火箭超跑,零百加速 0.9 秒

4 月 28 日,追觅科技在 DREAME NEXT 全球发布会上全球首发 Nebula NEXT 01 JET Edition。

该车搭载定制双固体火箭助推系统,150 毫秒响应、100 千牛最大推力,零百加速仅 0.9 秒。配备专为其开发的激光雷达 DHX1,基于 6D 全彩千线激光雷达平台,最远测距 600 米,支持 4320 线全彩 4K 感知。

底盘采用全线控架构,集成 14 自由度非线性控制,支持横向泊车、原地掉头等功能。追觅星空计划总裁马俊野透露,该车未来将定向量产,定价或超千万元。

(来源:TechWeb/DoNews)

支付宝上线「AI 收」,个人开发者可 0 费率接入 AI 收款

4 月 28 日,支付宝正式上线「支付宝 AI 收」,面向商家及个人开发者,提供基于 AI Agent 调用场景的即时收款能力。这是继「AI 付」之后,支付宝在智能体支付领域的进一步延伸。

该产品支持接入 OpenClaw 等 AI Agent。当用户向智能体发出指令并请求资源时,系统可自动完成询价、支付、结算的闭环。以获取一份 AI 行业分析报告为例,用户仅需授权并支付 0.02 元即可完成交易。产品已同步上架支付宝官网 A2A 交易专区,接入流程为入驻签约、创建应用、安装 SDK 三步。

截至 12 月 31 日,个人开发者使用该服务可享 0 费率。已使用支付宝收单的商家,可直接将服务封装为 Skill 接入 AI Agent,无需重建收单工具。

(来源:CSDN)

麦当劳奶昔官宣回归 五一全国开售

4 月 28 日,麦当劳中国宣布,5 月 1 日起,奶昔将在全国 15 个城市的 44 家指定餐厅长期售卖,不再是限时快闪,而是正式回归日常菜单。

此次奶昔回归覆盖北京、上海、广州、深圳、成都、杭州、武汉、南京、天津、重庆、苏州、西安、长沙、沈阳、青岛共 15 座城市。消费者可通过麦当劳官方 App 查询附近售卖奶昔的指定门店。

麦当劳中国表示,近年来持续在不同渠道听到粉丝对奶昔回归的呼声。「消费者的热情,让我们深切感受到大家对于奶昔深厚的情感连接。」去年 8 月「麦麦岛」主题活动期间,奶昔曾在 13 家旗舰店限时回归试水,销量与话题度双高,为此次长期回归铺平了道路,距今已时隔半年有余。

有网友在评论区呼吁「派的热度也需要被看到」「麦香鸡丝也应该回来」。麦当劳方面回应称,未来将继续倾听消费者心声,不一定承诺所有复刻,但「呼声足够大,就有机会」。

麦当劳奶昔终于官宣回归,五一全国开售!你会去尝一尝吗?

(来源:麦当劳中国)

 

汽车的「OpenClaw 时刻」,到了?

汽车的「OpenClaw 时刻」,到了?

摘要:更聪明的智能助手,和真正的「AI 控车」。

极客一问:你觉得现在车上的「AI 助手」智能化程度如何?

头图来源:极客公园

作者|靖宇

走完 2026 北京车展的十几个展馆,我最大的感受是,车企的高管,肯定是用上「小龙虾」了——今年,如果你的新车没搭个大模型,你都不好意思开发布会。

火山引擎带着豆包宣布搭载超 700 万辆车;腾讯发布出行全场景智能体开放平台;科大讯飞推星火智能座舱;面壁智能展示端侧 Agent 框架 EmbodiedClaw,连奔驰新一代 S 级都在后排塞了一颗端侧多模态大模型 VLM。

更不用说华为的鸿蒙座舱 HarmonySpace 6、宝马与阿里联合定制的 AI 大模型——放眼望去,整个车展弥漫着一种「不 AI,就出局」的紧迫感。

但如果你真的坐进这些车里,一辆一辆试过去,会发现一个略显尴尬的事实。

绝大多数所谓的「AI 座舱」,本质上还是一个更智能、会聊天的语音助手。

它们可以帮你规划出去某个景点的打卡和网红餐厅路线,搭载了大模型能力,也能和你闲聊非常多话题,并且情绪价值给足。但是,在真正「控车」环节,能力依然欠奉——至少在 Q4 之前,真正的 Agent 控车的量产车,可能还送不到消费者手里。

这就是 2026 年汽车 AI 最核心的一个断层:人人都在讲 Agent 上车,但从 Chatbot 到 Agent,中间差的东西,比大多数人想象的要多得多。

人人都在讲 Agent,但 90% 还是 Chatbot

两年多之前,大模型上车就已经是车企共识,在 2026 年已经不是什么新闻了——它现在是基础设施,而不是时髦的噱头。

豆包(火山引擎)、通义(阿里)、星火(科大讯飞)、腾讯混元、面壁 MiniCPM……几乎所有主流大模型都在抢汽车的入口。你甚至能在车展的展台上,看到同一家车企,不同产品接入了不同的模型厂商的产品。

真正的问题是:接了大模型之后,体验变了多少?

讯飞也在做星火智能座舱方案|图片来源:极客公园

我在车展期间跟科大讯飞的人聊,他们的星火大模型(星火智能座舱)也在做上车方案。一个很有代表性的细节是,他们告诉我,目前星火上车做车控的思路,是大模型生成指令之后,映射到之前传统语音助手的控车路线上。换句话说,AI 的「脑子」是新的,但「手脚」还是旧的。

这不是讯飞一家的做法。目前行业里绝大多数「大模型上车」的合作模式,都是车企调用一个云端大模型 API,替换掉原来的语音引擎。 对话更自然了,知识更丰富了,情绪识别更好了——但你说一句,它答一句,这还是 Chatbot 的逻辑。

真正的 Agent 上车应该是什么样的?

火山引擎在这次车展发布会上用了一个很准确的表述:从「回合制问答」到「感知-推理-执行-记忆-学习」的一体化闭环。翻译成人话就是,它不只是回答你的问题,而是能主动感知环境、理解你的意图、拆解任务、调用车上的各种能力把事情办完,而且还能记住你的习惯,下次做得更好。

有一个很简单的判断标准,你对车说「我有点闷」。Chatbot 会问你「要不要开窗」;而一个真正的 Agent,应该能结合当前温度、湿度、车速、你的历史偏好、后排有没有人在睡觉,自动做出一套组合调节——可能是开一条缝的车窗加上调低空调两度再打开座椅通风。

这个差距看起来不大,但背后涉及的工程复杂度,是完全不同量级的。

从 Chatbot 到 Agent,差的不是模型,是「底座」

为什么,从「能聊天」到真正「能办事」这么难?

很多人的第一反应是模型不够强。但其实,以目前豆包、通义、星火这些大模型的能力,理解「我有点闷」这句话的含义,并不是什么难事。真正的瓶颈在另一个地方:大模型再聪明,如果车企不把底层能力开放出来,它也只能陪你聊天。

这就像你请了一个特别聪明的助理,但你不给他公司的系统权限,不让他调动任何资源。他再聪明,也只能坐在那跟你对话。

Agent 上车,最大的挑战就是这个。

一辆车的底层有几千个硬件接口——空调、车窗、座椅、氛围灯、通风、导航、行车信号……这些东西原本是为「按钮」和「触屏」设计的,不是为 AI 设计的。你突然让一个大模型来操作这些东西,它连信号都拿不到,更别说安全地控制了。

而且,车控不是小事。如果你只是简单地把接口暴露给 AI,让它直接调用,一旦产生安全问题,结果就可能很严重。

所以 Agent 上车的核心难题不是「大模型能不能理解我的话」,而是「理解之后,怎么安全地、精确地、在对的时机帮我把事办了」。

火山引擎和荣威合作的新产品序列「家越 07」|图片来源:极客公园

在这次车展前后,我深入了解了火山引擎和荣威合作的一套方案,叫 CPP 架构。这可能是目前行业里对「Agent 上车」想得最深、做得最重的一个案例。

CPP 是三个词的缩写:Context、Planner、Pixel。但它不是一个 Agent——它是一个 Agent 的「操作系统」,业内叫 runtime。

先说 Context。

大多数车载 AI 的「上下文」就是你跟它聊天的记录。但 CPP 的 Context 做了一件很激进的事——它把上下文泛化了。不只是对话,而是把车内外的所有信息都当作 AI 的「感知输入」:9 到 13 路外部摄像头、2 到 3 路内部摄像头、车辆的所有传感器信号、用户的长期记忆,甚至豆包 App 上的个人偏好数据。

这个「泛化」听起来简单,做起来极难。因为这些摄像头和传感器,原本是为自动驾驶、360 度倒车影像、行人检测这些功能设计的。你突然要让座舱 AI 调用它们来判断「后排的小朋友是不是睡着了」,就需要在底层重新打通信号通道。荣威能做到这一步,靠的是七年三代电子电器架构的积累——这不是短期能补的功课。

再说 Planner。

荣威的 CPP 架构|图片来源:荣威汽车

这是 CPP 最核心的一层。它不是一个单一的大模型,而是一个多模型协作的「任务规划器」。简单的指令(开车窗)走一个轻量快速模型,毫秒级响应;复杂的任务(帮我规划明天的行程)走一个深度思考模型,允许异步处理;环境感知(后排有没有人)走视觉模型。

这里有一个很精巧的设计叫 pre-tool 和 post-tool。比如你说:「北京鸟巢旁边那个什么会议中心附近的星巴克,帮我导过去。」这个请求很复杂,AI 需要先理解「鸟巢旁边的会议中心」是水立方还是国家会议中心,然后搜索附近的星巴克,再设定导航。

如果等它全部算完再回答你,可能要好几秒——在车里,几秒的沉默就会让人觉得它死机了。所以 pre-tool 机制会让 AI 先快速回一句「你说的是水立方吧?我现在帮你找附近的星巴克」——这段话说出来的 3 秒钟里,后台另一个并行任务已经在疯狂计算了。算完之后,post-tool 把结果汇总,接上前面的话继续说。用户感受到的是一段连贯的对话,背后其实是两三个模型在并行工作。

最后是 Pixel——像素级执行。

这才是整套架构里最「重」的一层,也是最需要主机厂自己来做的一层。荣威的做法是把底层两三千个硬件接口,封装成七八百个安全的「服务层」接口。AI 不直接操作底层硬件,而是调用这个服务层。 就像你开着车去按 P 档,它按不下去——不是因为有人告诉你「不能按」,而是在架构层面就锁死了。

这就是他们内部说的「黑区、灰区、彩区」设计。彩区,AI 可以尽情发挥;灰区,有条件地执行;黑区,比如行驶中的关键安全操作,无论 AI 多聪明都碰不到。

荣威和火山引擎+豆包的开发强度超出了行业预期。 荣威的服务层封装已经迭代到第三代,光第三代的研发周期就超过两年半。火山引擎的联合开发团队高峰期近 200 人。而且这不是火山单方面做的——CPP 的每一层都需要车企和大模型厂商一起定义,因为车载场景的需求(延迟敏感、安全要求、多人多角色交互)和手机、电脑上的 AI 完全不同。

但原生方案的门槛极高。你需要车企愿意把底层架构打开,需要大模型厂商深入理解车载场景,需要双方投入两年以上的联合开发——其中每一项都难度极大,意愿极低。这也是为什么整个行业都在喊 Agent,但真正落地的几乎没有。

MaaS 大战,烧到了汽车上

技术问题之外,Agent 上车,还有另一个看不见的战场——云服务市场的争夺。

汽车座舱正在成为 MaaS 的新战场。不夸张地说,这可能是继公有云之后,中国科技巨头们最激烈的一次 B 端抢滩。

目前至少有四条路线在同时跑。

火山引擎和豆包走的是「C 端撬 B 端」的路线。豆包 App 日活已经突破 3 亿,这意味着字节在自然语言交互、情绪识别、个人偏好学习上积累了海量的用户数据。火山引擎把这套能力打包,推到汽车端,目前搭载量超 700 万辆,覆盖 50 多个品牌、145 个车型——这个数字是行业第一。

豆包座舱助手能实现的能力|图片来源:极客公园

更重要的是,火山这次发布的「豆包座舱助手」,直接与手机端的豆包 App 打通。这意味着你在手机上训练出来的个人偏好——你喜欢被安慰还是喜欢听干货、你的说话风格、你常问的问题类型——上车就能无缝继承。这是其他家做不到的,因为没有人同时拥有一个 3 亿日活的 C 端 AI 应用,和一套 B 端的汽车云服务。

阿里云走的是传统 B 端强客户关系的路线。

宝马在中国选了阿里联合定制 AI 大模型,这是一个标志性事件。阿里云在汽车行业经营多年,客户基盘扎实,而且在训练基础设施、数据中台方面有深厚积累。

腾讯则选了一条完全不同的路。在车展前一天的 TIMEDAY 大会上,腾讯发布了出行全场景智能体开放平台。他们的逻辑不是「卖模型」,而是「做底座」——不绑定生态,而是开放能力,让车企在腾讯的平台上自己搭。目前腾讯产品的座舱搭载量超 1800 万辆,在头部车企中渗透率超过 80%。连特斯拉在中国市场,都选了腾讯来做微信互联和目的地服务。微信支付、小程序、腾讯地图——这些生态资源是腾讯的独家护城河

华为最特殊,走的是最接近 Tier 1 的路线。鸿蒙座舱加乾崑智驾,深度绑定车企,从芯片到操作系统到应用层全部自研。

在这个格局里,火山引擎的位置很微妙。

极客公园在车展期间参加了火山引擎的媒体群访。火山引擎高管在被问到「是否想做华为那样的大模型上车 Tier 1」时,明确说了「不想」。但你看他们实际在推的东西——「豆包座舱助手」是完整的产品级交付,跟豆包 App 互联互通,年内量产——这已经远远超出了一个「API 供应商」的边界。

嘴上说不做 Tier 1,身体很诚实。

更有意思的是他在群访中对整个行业的评价——一句很轻描淡写的话:「人才密度较低。」翻译一下,就是火山和字节,觉得自己在这个赛道上是「降维打击」。

这种自信不是没有道理的。

字节系有两个别人没有的东西:一个是豆包 App 积累的海量交互数据和情绪模型(3 亿日活不是白来的),另一个是今日头条和抖音体系沉淀的,内容数据和信息清洗能力。这些资产用在车载场景里——比如让 AI 带你做冥想,它从网上学来冥想的流程、话术、配乐,然后结合车内的氛围灯和座椅调节——这种跨域能力不是传统汽车供应商能复制的。

但火山也有自己的短板。

火山引擎在北京车展的展台|图片来源:极客公园

700 万辆搭载量虽然是「第一」,但其中大部分是标准 API 接入,真正做到 CPP 级别深度合作的标杆客户,还在打造中。数据好看,但深度还不够。 这也是为什么火山高管在群访中反复强调「ToC 的用户体验」和「社会价值」,而对短期商业闭环的问题打了很多太极。

这场 MaaS 大战的本质,其实不是谁的模型更强——真正的胜负手是谁能把「服务闭环」做得更深。 火山的优势是 C 端生态和内容数据,阿里的优势是 B 端客户关系和云基础设施,腾讯的优势是社交生态和支付。

谁能赢?现在下结论还太早。但有一点可以确定:Agent 上车这件事,正在把汽车产业的竞争维度从「硬件制造」拉,向「软件生态」

而在这个新战场上,传统车企的话语权,可能比他们想象的要小。

尽管车展上 Agent 上车的声量震天响,冷静看,目前真正的 AI 原生架构,在行业里几乎没有量产交付的案例。即便是合作了一年半的荣威和火山,也才走到 CPP 的 runtime 层,真正能控车、能主动服务、能持续学习的智能助手,预计最快也要到今年年底才能跟用户见面。

但这恰恰说明了一件事:大家终于不再满足,只是给车里塞一个聊天机器人了。

从 Chatbot 到 Agent,从「接 API」到「建 runtime」,从「语音助手」到「整车大脑」——这条路确实很长。但至少在这一届北京车展上,我们已经看到了行业转变的信号,而一旦 Agent 上车的能力,给消费者带来跨时代的体验,汽车行业无疑会再次迎来猛烈的进化。

毕竟,在中国这个神器的市场上,即便是大爷大妈,都是会拿着电脑让人帮忙装「小龙虾」的。

当剪辑工具开始「听懂人话」:剪映做了视频创作的Skill化Agent

 

如果有人告诉你,视频剪辑可以像「刷手机」一样轻松,你大概率会在脑海里冒个问号。

毕竟在我们的习惯里,剪辑往往意味着「高强度的手眼协同」——要么是端坐桌前、左手快捷键、右手鼠标;要么就是盯着巴掌大的手机屏幕,在层层折叠的菜单里寻找功能,小心翼翼地用手指拖拽那几毫米的轨道。

但剪映刚上线的 AI 助手,正在试图打破这个刻板印象。

想象一下,你靠在椅子上,不需要触碰鼠标,只需要对着你的手机动动嘴:「帮我把这几段素材剪个 Vlog,配个欢快的音乐。」

甚至当你发现少了一张转场空镜时,都不用切出软件去搜图,直接说:「在这生成一张背景图。」

这种「动口不动手」的体验,让我们在剪辑视频时,也离《钢铁侠》里 Tony Stark 那个随时待命的 Jarvis,又近了一步。

这一年来,AI 视频的竞争逻辑正从比谁「生成得更好」,转向比谁能通过 Agent 把一整套任务真正执行出来。单纯的内容生成早已不是壁垒,能深度接管专业工作流、精准执行复杂指令的智能体,才是行业新焦点。

剪映 AI 助手率先证明,语音/自然语言交互可以深度接管复杂的专业软件工作流,用LUI(语言用户界面)重构传统剪辑GUI(图形用户界面)。同时,还有一件事正在发生:所有的创作,最终都在剪映见。

对于不少传统创作者而言,剪映是他们完成剪辑的终点;而对于新型的 AI 创作者,即便他们在其他软件上完成了生图、生视频,最终仍会回到剪映进行精细化的修整与组接。

这种「殊途同归」的现象,让剪映看到了「All in One」的机会——此前去年在 9 月份,剪映就通过升级 AI 文字成片功能,打通了从「AI 生成」到「精细化编辑」的最后一公里。

市面上具备生成能力的 Agent 很多,但真正能做到「视频生成 + 专业编辑 + Skill化执行」的 Agent,现在只有剪映做到了。

这不仅得益于前沿大模型能力的接入,更离不开剪映多年来积累的海量功能与底层编辑引擎。正是这些深厚的工具积淀,才支撑起了一个不仅能听懂人话,更能以多Skill协同完美执行复杂剪辑任务的「全能AI创作合伙人」。

通过消除「工具熟练度」带来的技术壁垒,剪映让内容的竞争真正回归到了「故事」和「创意」本身。

 

一、从「手眼协同」到「人机共创」

旅行的时候想拍个 Vlog,看到漂亮的场景一顿猛猛拍,旅行结束一打开相册——眼前一黑。

这大概是每一个热衷记录生活的人的真实写照。拍摄时的多巴胺分泌,在面对相册里成百上千个碎片化视频、杂乱的背景音和参差不齐的画幅时,瞬间转化为了不小的心理负担。原本想要记录的美好回忆,变成了一笔沉重的「剪辑债」。

这种「素材在相册吃灰」的现象,本质上是因为传统视频剪辑的工作流存在巨大的「劝退门槛」。

长期以来,视频剪辑不仅是审美的考验,更是体力的消耗。即使只是想把这些旅游素材拼成一个简单的回忆录,你也需要经历筛选、粗剪、卡点、调色等一系列机械劳动。这些高门槛、高重复的「Dirty Work」,拦住了无数想要表达的人。

在这种传统的非线性编辑(NLE)逻辑下,创作者的大量精力被消耗在非创造性的环节中——在层层折叠的菜单里寻找功能入口,在复杂的参数面板中反复试错,或是进行枯燥的素材清洗。

在那个被称为「剪辑」的黑盒子里,充满了繁琐的鼠标点击和指尖拖拽。只要涉及到对视频流的精细化控制,创作者依然无法绕过那个由轨道和参数构成的精密迷宫。

点一下「小灯泡」,就可以看到剪映AI助手的诸多功能|图片来源:极客公园

 

这些痛点的存在,正在呼唤一种新范式的出现。

剪映 AI 助手的核心,正是试图通过重构交互方式,来打破这道复杂的专业壁垒。它不再只是一个辅助功能的叠加,而是引入了 Agent,将人与工具的交互界面从「图形化界面(GUI)」升级为了「自然语言对话(LUI)」,同时也落地了剪辑Skill库这一行业前沿能力。

它就像是一个懂技术的「Skill化剪辑中枢」,允许用户跳过对软件操作逻辑的学习,直接通过语音或文字指令,调用剪映背后专业的多轨道剪辑能力。

极客公园也体验了这种「工具能听懂人话」的能力。

让剪映AI助手帮我把这些去年旅行的素材剪个vlog(视频有加速,实际等待时间五十秒左右)|视频来源:极客公园

 

可以看到,我只是说了一句「帮我把这些素材制作成vlog」,剪映AI助手就帮我完成了搭配背景音乐、智能转场等任务,生成了一个完整的视频内容,音乐我想换一个欢快风格的,也是直接跟AI助手说就换完了。

这些放在往常「我知道怎么做,但我懒得做」的耗时耗力的流程,被压缩成了一句简单的指令。只需下达命令,剪映AI 助手就能精准识别意图,自动调度底层Skill能力,快速完成过去需要数分钟才能搞定的「体力活」。

 

生文串联场景也变得很方便(视频有加速,实际等待时间二十秒左右)|视频来源:极客公园

不光剪视频,给视频配文字也得花心思,现在,剪映AI助手连这一步都可以帮我做了。这个小猫的视频,也是我在视频里对剪映AI助手说了一句猫咪配一段内心独白,它直接就给我生成了。

剪映 AI 助手的上线,意味着剪辑软件正在从「功能罗列」走向「意图理解+Skill执行」。功能入口之外,它还串联起剪映庞大工具库的「中枢神经」,让内容的竞争真正回归到了故事与创意本身。

 

二、Skill化Agent 如何接管「Dirty Work」?

市面上大多数 AI 产品都在往做任务的方向走,那么剪映 AI 助手的定位也非常明确——它是一个能精准执行剪辑任务、覆盖全场景Skill的专业执行Agent,专注于解决剪辑场景的真实痛点。

什么叫专业执行Agent?就是能在你「不会做」的时候帮你「想」,也能在你「懒得做」的时候帮你「干」,用标准化Skill把所有繁琐操作一键落地。

在剪辑时,用户通常有两种心理场景:

第一种是「我知道怎么做,但我懒得做」,一种面对繁琐操作时的「效率需求」。

比如当你拍了一堆素材,心里清楚需要把它们剪短、去噪、调色,但一想到要在手机上进行几百次点击,瞬间就想放弃。这时候,AI 助手就是那个不知疲倦的执行者。你只需要发出指令,它就能接管这些耗时且无创造力的批量操作。

第二种是「我不会做,你来帮我想」,一种面对模糊需求时的「创意需求」。你可能只是想要一个「比较高级的转场」或「适合秋天的滤镜」,但不知道具体该用哪个功能。此时,AI 助手就变成了提供灵感的创意总监,它能听懂你的模糊指令,直接调用对应Skill帮你完成构想。

同时,剪映AI助手精准匹配三类创作者需求:剪辑高手:靠批量编辑Skill,快速处理多轨道、大批量素材;剪辑初阶:用模糊指令触发基础剪辑Skill,快速定位功能、完成操作;剪辑小白:依托生成式Skill,零思路、零操作也能一键出片。

视频来源:极客公园
可以看到,只需要说句话,剪映AI助手很高效地批量帮我剪掉了嗯、啊、就是这些语气词——它直接在我的草稿上动手,剪辑点也清晰可见,随时可微调。这就是 LUI(语言交互) 的魅力:让内容创作回归创意本身,而繁杂的「体力活」,交给剪映 AI 助手这个全能 Agent 就好 。

不过,要让 AI 从「听懂」一句闲聊,进化到精准「执行」一个复杂的剪辑指令,这背后其实是一场交互技术的深层重构。

首先,它要能像「大管家」一样拆解需求,调度多Skill协同。剪映拥有庞大的工具库,面对用户千奇百怪的口语化表达,AI 需要极强的意图识别与分发能力。

这背后是多Agent分治+Skill化调度技术的支撑——可以把它想象成一个高效的施工队。当你下达指令时,总指挥(主 Agent)会迅速理解意图,然后将任务分发给负责剪辑、配乐、调色等不同领域的「专家」(子 Agent),精准调用对应剪辑Skill。通过这种分工协作,AI 能够精准地将「把视频调得亮一点」这句人话,映射到具体的「亮度参数调节」轨道上。

其次,它要能在「工作台」上直接动刀,支持动态可编辑。不同于那些只能生成一个即时视频文件的 AI,剪映 AI 助手的一大突破在于动态草稿协议。简单来说,AI 不是扔给你一个无法修改的成品视频,而是直接在你的剪辑轨道上进行操作。

结合端云协同能力,AI的每一步操作都在云端与客户端实时同步,全程透明可编辑,真正实现人机共创。

最后,它还具备像人一样的「反思」与「反问」能力。

一个专业的Agent,在听不懂需求时会主动确认。当指令过于模糊或任务执行失败时,AI 助手不会强行乱做,而是会触发「反问」与「反思」机制,像真实助理一样确认需求。这种自我修正的能力,大大降低了沟通的门槛。

可以看到,剪映AI助手已经成为聚焦剪辑场景的Skill化执行体。对于剪辑高手而言,它是处理批量素材的效率倍增器;而对于小白用户,它则是随时待命的灵感提供者。

它证明了在专业工作流中,Agent 的价值不仅是生成内容,更是通过接管那些繁琐的「Dirty Work」,让创作者重新拿回对创意的掌控权。

 

三、视频创作的「言出法随」

此前的 AI 视频赛道,目光大多聚焦于「从无到有」的惊艳生成。但对于追求高质量产出的专业创作而言,生成的结束,往往只是工作的开始。

生成式 AI,虽然解决了素材的来源,却难以满足创作者对叙事结构、节奏卡点以及画面精修的专业化刚需。

而且,在很长一段时间里,行业内存在着一种割裂:要么是能生成但没法改的「盲盒式模型」,要么是能改但缺乏智能的「传统工具」。

2025-2026年,行业已彻底告别「全能AI」泡沫,垂直Skill化Agent成为专业工具的核心方向。剪映 AI 助手的出现,进一步弥合了这道裂缝,它解决了前述痛点,让创作者从纠结转场、卡点的「操作员」,晋升为发号施令、把控审美的「导演」。

这也是对剪映「All in AI,All in One」品牌理念的有力践行。

现在的它虽然可能还是早期形态,并不能完全替代人类剪出奥斯卡大片。但它展示了一种趋势——未来的剪辑软件可能不再有复杂的界面,LUI对话+Skill调用的三位一体模式,将逐渐替代传统GUI操作。

剪映AI助手以语音交互为核心卖点,真正把剪辑门槛降至0,你不会的、懒得做的,动动嘴就能完成。从「学剪辑、找功能」到「说需求、等结果」,未来的视频创作,创作者将不再被工具束缚,核心竞争力将彻底回归「创意」本身,人人都能成为自己生活的视频导演。

 

小红书:内容添加 AI 标识,反对 AI 造假;小米全新机器人亮相;微信 15 周年皮肤衣开卖,238 元 | 极客早知道

小红书首次公布 AI 治理主张:坚决反对四类 AI 行为,给 AI 创作划出清晰边界

4 月 27 日,小红书首次公布平台对 AI 内容的治理主张,并在北京举办首届 AI 治理开放日。此次 AI 治理主张共分为「平台鼓励的 AI 内容及行为」和「平台反对的 AI 内容及行为」两大板块,以给到创作者清晰指引。

小红书明确了对待 AI 相关现象的核心态度:鼓励 AI 作为创意放大器,反对 AI 作为造假工具与低质内容生产机器,所有 AI 参与创作的内容均需主动标识。

此外,AI 治理主张再次强调了创作者应对 AI 参与创作的内容进行主动标识,未进行标识的 AI 内容,平台将在识别后统一添加 AI 标识贴条。

在明确「鼓励的 AI 内容」的同时,小红书也梳理出了四类平台反对的 AI 行为:利用 AI 违规运营、利用 AI 造假、利用 AI 侵权,以及利用 AI 进行低质创作。(来源:雷峰网)

微软将不再向 OpenAI 支付分成

微软和 OpenAI 公布合作的下一阶段安排,微软公司称,将不再向 OpenAI 支付收入分成。

OpenAI 向 Microsoft 的收入分成支付将持续到 2030 年,与 OpenAI 的技术进步无关,按相同比例支付,但受总额上限限制。

Microsoft 将继续持有 OpenAI 的 IP 授权,适用于模型和产品,直到 2032 年。Microsoft 的许可将成为非独占的。Microsoft 仍然是 OpenAI 的主要云合作伙伴,OpenAI 产品将优先在 Azure 上发布,除非 Microsoft 无法支持或选择不支持必要的功能。Microsoft 作为主要股东,继续直接参与 OpenAI 的成长。(来源:新浪科技)

 

被传与 OpenAI 合作开发 AI 智能手机处理器后,高通股价飙升 13%

4 月 27 日消息,据路透社报道,美股周一盘前,高通股价上涨 13%。此前,分析师郭明錤称,OpenAI 正在与高通和联发科合作开发智能手机处理器。

天风国际证券分析师郭明錤在 X 上发文称,高通和联发科将共同参与 OpenAI 一款以 AI 为核心的智能手机开发,或在 2028 年进入量产。

郭明錤还称,「果链」厂商立讯精密将成为这款设备唯一的系统设计和制造合作伙伴。

OpenAI 目前仍处于亏损状态,也已经收缩部分非核心项目,把更多精力转向面向企业的编程工具。对 AI 行业来说,编程工具是少数已经出现清晰商业需求的领域。

若 OpenAI 推出智能手机,将直接面对资金雄厚的两大对手——苹果和三星。两家公司合计掌握全球智能手机市场约 40% 的份额。(来源:IT 之家)

中方禁止外资收购 Manus 项目

据国家发展改革委网站 4 月 27 日消息,外商投资安全审查工作机制办公室(国家发展改革委)依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易。

2025 年 12 月 30 日,全球首款通用人工智能体 Manus 发布公告称,Manus 即将加入美国科技巨头 Meta。Manus 将继续通过 app 和网站为用户提供产品和订阅服务,同时公司将继续在新加坡运营。

今年 4 月 2 日,针对 Meta 收购 Manus 会采取哪些措施以及企业跨国经营的相关问题,商务部新闻发言人何亚东回应说,中国政府支持企业根据需要开展跨国经营与技术合作,相关行为需遵守中国法律法规,履行法定程序。(来源:新华社)

 

阿里 HappyHorse 灰测,720P 视频生成低至 0.44 元/秒

阿里巴巴视频生成模型 HappyHorse 1.0 开启灰测。全球专业创作者和企业级客户可在 HappyHorse 官网和阿里云百炼平台注册使用,大众用户可在千问 App 体验。官网 720P 视频生成刊例价 0.9 元/秒。

HappyHorse 1.0 依托原生多模态架构,采用音视频联合生成方案,面向广告、电商、短剧、社媒创意等内容生产场景,提供从智能生成到编辑的一体化创作能力。

HappyHorse 官网是专业全能的 AI 视频创作平台,新用户注册享免费额度,720P 和 1080P 的视频生成刊例价分别为 0.9 元/秒及 1.6 元/秒,专业会员包月价格叠加限时折扣后为 0.44 元/秒和 0.78 元/秒。

灰测阶段,HappyHorse1.0 的模型能力仍在不断迭代升级。阿里悟空、MuleRun 和 JVS Claw 等 Agent 平台也已接入。目前,HappyHorse 官网已开启「超级创作者 · The First 100」活动,诚邀海内外 AIGC 创作者加入,用户可在官网填写问卷报名。(来源:新浪科技)

 

238 元买不到,微信 15 周年限量皮肤衣开卖

4 月 27 日消息,微信迎来 15 周年,官方推出了限量纪念款风壳皮肤衣,定价 238 元,属于无限绳结系列,仅限内部员工购买。

这款皮肤衣是微信 15 周年的限量款,设计很有辨识度。灵感来自大家熟悉的微信气泡 Logo,再结合数学里的无限符号,经过艺术化处理,做成了无限绳结的图案,简约又有辨识度。

设计上致敬了传统织物的美学,绳结之间相互咬合,看起来很有秩序感,同时也像不断延伸的网络,寓意微信生态的开放、连接与环环相扣,既有纪念意义,日常穿也不突兀。

衣服属于风壳皮肤衣,材质轻薄,适合春夏出行、日常通勤穿着,防晒、防风、轻便好收纳,实用性很强。(来源:快科技)

 

华为余承东首次回应享界 S9 麋鹿测试黑幕,称轮胎被放气、拧松

4 月 27 日消息,在昨天的「鸿蒙智行会客厅」直播活动中,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东首次谈及了此前享界 S9 系列车型遭遇的麋鹿测试黑幕。

余承东表示,享界 S9 麋鹿测试成绩非常优秀,但他们做测试的时候把轮胎气放掉、把轮胎拧掉 / 松掉、一开车把轮子开丢掉,并且还干了各种很多这样的事。而实际上,享界 S9 麋鹿测试成绩为 84.1km/h,享界 S9T 麋鹿测试成绩为 83.3km/h。

今年 3 月,享界汽车法务部发布声明,称各网站平台上出现的大量关于享界 S9「麋鹿测试」的视频,经核实,相关测试存在恶意、刻意操控行为,并非专业机构按照国家标准开展的「麋鹿测试」。

(来源: IT之家)

小米全新机器人亮相

在今天举行的小米投资者日上,新款小米机器人正式亮相,博主@粮厂研究员 Will 发文,展示了这款全新小米机器人的细节。

目前,小米官方尚未公布这款全新机器人的具体技术细节,不过参考相应博主发布的机器人的动作视频,其中显示机器人手部整体动作流畅,分发纸袋动作灵活自如。

作为比较,早在 2022 年,小米就曾展示过名为 CyberOne 的首款全尺寸人形仿生机器人「铁大」,其身高为 1.77 米,重 52kg,支持多达二十一个自由度,并能实现零点五毫秒级别的实时响应。

在交互能力上,「铁大」机器人搭载了自研的 Mi-Sense 深度视觉模组。结合先进的 AI 算法,它不仅拥有完整的空间感知能力,还能精准识别人物身份、手势及表情。(来源:IT 之家)

 

苹果 20 周年版 iPhone 曝光:全新四曲面屏幕,打造物理液态玻璃效果

4 月 28 日消息,多方爆料者证实,苹果计划在 2027 年 iPhone 诞生 20 周年之际,推出一款采用全新四曲面设计的纪念版 iPhone。

据博主 i 冰宇宙透露,苹果或将其命名为「液态玻璃 Display」, 是一种全新形态的四曲面屏幕,与常规安卓机型不同,并非追求大曲率,而是侧重视觉观感。

利用光学折射与视错觉,营造出「看不见边框、又不影响边缘显示」的极致一体感。

屏幕由三星定制,曲率温和,边缘区域可正常显示内容并支持触控交互,兼顾美感与实用性。

目前消息显示,该机有望同步搭载屏下 Face ID+屏下前摄,彻底取消灵动岛与挖孔,实现正面无开孔的真全面屏形态,配合四曲面玻璃盖板,达成「一整块玻璃」的终极视觉效果。

作为 20 周年里程碑机型,该机定位超高端旗舰,预计 2027 年 9 月发布,全面开启 iPhone 新一轮设计周期。(来源:快科技)

GPTImage2 成为赛博半仙,给马斯克看面相

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。这场由 AI 爱好者

Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。

不过,其实手掌、指纹属于敏感生物特征数据,随意上传公开存在泄露与滥用风险。同时,这类分析仅为娱乐参考,并非科学判断。(来源:APPSO)

MiniMax 登上戛纳,AI 与艺术的全球和解开始了?

作者|Cynthia

编辑| 郑玄

 

2026 年的春天,影视圈的风向开始变了。

4 月 21 日,全球首个,也是迄今为止规模最大的 AI 电影节 WAIFF(2026),在法国戛纳电影宫正式举办。蔚蓝海岸线前,一众影视行业的从业者鱼贯而入,但一改往日红毯众星云集的流光溢彩,这一次的电影节,地毯换成了象征科技的紫色,而走上这条「紫毯」的,也换成了一众 AI 内容的创作者。

几乎同一时期,地球另一端的中国影视圈:恒星引力这家打造出《苍兰诀》《永夜星河》的头部 IP 公司,正式与头部大模型公司 MiniMax 签署 AI 内容战略合作,并联合推出了由 MiniMax 提供技术支持制作的《古乐风华录》概念动画,其东方幻想美学风格,迅速在业内出圈。

一边是全球顶级影展的背书,一边是国内头部厂牌的入局。 AI 与艺术之间横亘了多年的对峙,逐渐开始松动 。AI 不再被默认视为艺术的对立面,至少深耕一线的创作者们,已经用实际行动证明使用 AI 是一个可以拿到台面上的创新探索。

而这一连串动作,也像是一枚投入湖心的石子,涟漪不断向外扩散,开始影响整个影视圈对 AI 的看法。

 

01

风向:

恒星引力的 AI 影视工业路径

 

在聊 AI 影视之前,我们得先回答一个问题:

为什么程序员不抗拒 AI 编程,但艺术家对用 AI 表达讳莫如深? 同样基于 Transformer 架构,都是暴力美学式的参数堆叠。但为什么接受度差这么多?

因为艺术的世界里,优质作品的内核永远依附于鲜活的创作者,承载着独有的人生阅历与审美取舍,成为创作的灵魂。

AI 可以学习技巧,但创作灵魂没法 prompt。

可是,如果 AI 不是来替代灵魂的,而是来放大甚至拯救灵魂的呢?

2025 年,中国影视行业发生了一件被低估的事:长剧集的流量底盘在持续收缩,但供给量不降反升。根据云合数据创始人李雪琳的演讲,2025 年新剧的集均 V30 以及全网长剧的有效播放都出现下滑,而剧集上新量并未减少。也就是说,传统长剧集运营模式已难以适应当前的市场节奏。

而 AI,或者正是那个改变长剧运营模式的关键变量。 2025 年 4 月,成都第十三届中国网络视听大会的「东方幻想 IP 进化与内容新范式」分论坛现场期间,恒星引力成为了第一个吃螃蟹的玩家。

活动期间,恒星引力正式与大模型玩家 MiniMax 签署 AI 内容战略合作协议。

对很多人来说,恒星引力这家公司可能不如华策、新丽那样家喻户晓,但它的 IP 运营能力在国内绝对顶尖——截至目前,恒星引力出品内容累计有效播放近 200 亿,其代表作《苍兰诀》甚至能在播出三年后,仍位居全网长剧霸屏榜第 21 名。 这种量级的 IP 一旦合作 MiniMax,接入 AI 生产管线,能产出的内容体量是惊人的。

合作的另一边 MiniMax,则是全球少数掌握文本、视频、语音、音乐全模态能力的大模型企业。其海螺 AI 视频系列已累计生成超 6 亿个视频,语音模型支持 40 余种语言,海外营收占比超七成,全球个人用户数破两亿(截止 2025 年年底)。

一个是内容灵魂的创作者,一个是技术表达的制造者。两者结合, 「 AI 带来的价值,不仅仅是降本,而是探索更高上限视觉表达 。它帮助我们让内容更精品,让东方幻想更真实,让内容拥有更多可能性。 」 恒星引力创始人、CEO 王一栩的这句话,被很多媒体反复引用。

是的,不是更便宜,不是更快,也不是更省人力,而是更多可能。

过去几年,影视与内容创作行业里,长期弥漫着一种 AIGC can do everything 的迷信与恐慌,好像只要接入 AI,传统影视公司就能鸟枪换炮,创作者就要原地失业。但真正在片场待过的人都知道,事情没那么简单:

AI 生成的素材,不仅风格统一度不足、情感表达难以精准把控;更重要的是,当你花大价钱买了一套 AI 系统,最后发现它只能给你提供能用但平庸的产出,这对严格遵循二八法则的内容行业来说,是致命的。

也是因此,恒星引力选择 MiniMax,看中的不是 AI 能直接产出什么,而是 AI 能帮助他们释放以及加速什么: 按照合作内容,MiniMax 的技术将深度融入恒星引力的 IP 开发全链路:从前期的世界观设计、美术探索,到制作环节的虚拟拍摄、特效生成,再到衍生内容的多形态开发。

而对恒星引力为代表的真正业内玩家来说,艺术的边界, 不会因为技术而收窄 ,反而会被敢于使用工具的人拓宽。

 

02

文化:戛纳上的紫毯

 

如果说与恒星引力 的合作,是 MiniMax 联手影视行业新锐做影视 工业化的探索,那么 MiniMax 旗下海螺在 WAIFF 的动作,则是在融进去之后的关键下一步:走出去。

2026 年 4 月 21 日,法国戛纳电影宫,第二届世界人工智能电影节(WAIFF)正式开幕。这里是全世界电影人心中最神圣的圣殿,历史上,关于围绕电影是怎样的艺术,戛纳一度成为胶片 VS 数字,院线 VS 奈飞流媒体的舆论场焦点,而每一次,戛纳都坚定地站在了艺术与美的一端,不向流量与时代妥协。

但这一次,非常罕见的,戛纳不仅成为了全球首个专注于 AI 与电影融合的国际电影节的举办地,还在今年 WAIFF 期间,邀请到了巩俐,也是全球唯一一位主演作品斩获欧洲三大电影节最高奖项的女演员担任年度主席,而巩俐本人不仅亲临现场,还亲自为 WAIFF 设计了奖杯。

从某种意义上来说,这也 代表了主流影视圈对 AI 的主动拥抱,乃至对 AI 的能力与审美的肯定

在现场同样引起轰动的,还有以色列最顶尖的 AI 视频创作者 Dor Brothers 团队。提到 AI 与创作的关系,Dor Brothers 在 WAIFF 现场分享了一个故事: 「 16 岁的时候,我天真地想——找个人雇来帮我拍电影。然后我发现,那要花 5000 万欧元。于是我决定自己学。学了几年传统电影制作之后我才意识到——就算我自己拍,它还是要 5000 万欧元。 」

 

 

之后,他引用了 Gary Kasparov 的那段著名论述: 「 我们早就知道,从我 20 多年前输给 AI 那天起,AI 下棋就比人类强。这没什么好争的。但 20 年过去了,我们还是在看人类下棋。因为 AI 是另一个物种。我们都知道它比我们强,但我们还是会去看几个愚蠢的人类猿猴,下水平很烂的棋。」「 技术总会达到新的高度,但好的内容归根结底是人和人之间的情感连接,AI 永远不会真正取代创作者。

而在此之前,作为全球范围内最有影响力的 AI 视觉创作者之一,Dor Brothers 的作品在社媒上,动辄就是数百万甚至千万的播放量,去年全网累计播放更是超过 5 亿次,常常视频中一句话就能影响一个模型的估值。但他们同时也是最早在国际舞台上推广海螺 AI 的布道者。在多个公开场合,Dor Brothers 都曾毫不吝啬地表达对海螺的认可。甚至,团队还直接将其用 Hailuo 02 制作的视频《APEX》放在了公司官网首页,单独展示。

 

 

而当巩俐、Dor Brothers 这样的顶级艺术家们开始认真对待 AI 影视 ,这种信任也会不断扩散——他们身边的朋友、粉丝、他们参加的展会受众,都会在某个时刻接触到 MiniMax,然后产生原来 AI 还可以这样的认知。

比如,在巴西圣保罗,WAIFF落地于巴西顶级电影学府FAAP,大家在讨论AI时代,制作流程如何变化,成本结构如何被重写;在韩国首尔乐天影院世界塔,WAIFF更是实现了艺人VCR助阵、AI音乐与乐团演出结合,让整个活动成为一种沉浸式AI体验剧场;在日本京都Rohm剧院,大家则更关心模型如何在复杂运动中保持出色的风格一致性,如何通过细致的人脸肌肉控制捕捉情绪变化,如何实现低成本的声音克隆与自然的多语言对白。

 

 

而在WAIFF中国区,入围作品中,也有相当一部分颇具特色:《一念》——最佳AI短片,以水墨意象呈现善恶一念的东方哲思;《朱鹮》——评审团特别奖,通过陕西话等地方语言,表达了生态关怀与生命哲学;《无岸之地》——海螺AI·最佳先锋实践奖作品,以闽南语传递出海岛居民对故土的眷恋。

这些作品有一个共同的特点:它们极具人文温度,是具体的人,是陕西的土地、是闽南的海风、是水墨背后的东方哲思—— AI 并没有削弱这些文化表达,更没有让电影变得趋同,反而让不同,变得更清晰。

 

03

影视工业化的 AI 进程,走向深水区

 

一边是行业的积极拥抱,但另一边,作为能力的提供方,自2025年10月发布海螺2.3之后,MiniMax关于视频模型,在公开场合似乎沉默了很久。

外界开始有声音质疑:海螺是不是后劲不足?2.3之后还有下文吗?要知道,等待海螺3.0正式发布的内容创作者,或许比想象的多得多。

但如果把镜头拉近,会发现另一种叙事正在水下发生。在坚持技术驱动的同时,这家公司也正投入大量精力,用于工业场景的实践积累与摸索。

MiniMax 创始人、CEO 闫俊杰在 2025 年的业绩交流会上透露过一个判断: 「 接下来一年的模型智能水平会进一步提升。多模态创作将走向'直出可交付'的中长内容,甚至出现流式、实时输出的新形态。 」

这句话的潜台词是:视频生成模型需要从能做出一段几秒的片段,进化到能支撑严肃的生产力场景。 而这个跨越,需要系统性的工程优化。 回顾海螺模型的进化路径,我们不难看到一条从 Demo 感走向工业级的技术曲线:

2024 年,首代海螺视频模型发布,虽然支持基础的人物情感和镜头控制,但物理一致性和风格稳定性仍有明显短板。

2025 年 6 月,海螺 2 发布。采用 「 Noise-aware Compute Redistribution(NCR) 」 架构,训练和推理效率较上代提升 2.5 倍,模型参数量和训练数据量分别达到上一代产品的 3 倍和 4 倍。AI 榜单 Artificial Analysis Video Arena 排名全球第二,超越谷歌 Veo 3 Preview 和快手可灵 2.0。

在此之后,2025 年 10 月,MiniMax 的 Media Agent 完成了根据用户表达一键成片的进化;同期海螺 2.3 发布,在物理表现、风格化表达、成本优化,都做了大幅提升,成为后续合作恒星引力,用 AI 落地东方美学的重要技术支撑。

更近一步,我们则可以看到,在 MiniMax 体系内:从文本大模型到视频生成、语音模型、音乐模型,再到围绕模型所建设的 agent 能力、skills 工具、harness 层,以及借此链接的更多产业场景、智能新生态, 或许会彻底把 MiniMax 由大模型公司推 向 AI 时代的平台型公司。

*头图来源:MiniMax

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

❌