阅读视图

发现新文章,点击刷新页面。

DeepSeek 发布多模态模型及技术报告;小红书官宣组织调整:柯南出任总裁;宇树发布双臂人形机器人,2.69万元起售

DeepSeek 发布多模态模型及技术报告

近日,DeepSeek 在 Github 上正式发布了多模态模型,公布了背后的技术报告。

在技术报告中,DeepSeek 提到:尽管多模态大语言模型(MLLMs)取得了显著进展,但主流的思维链(CoT)范式仍主要局限于语言学领域。虽然近期研究重点通过高分辨率裁剪技术(例如基于图像的思考)来弥合感知鸿沟,却忽视了一个更根本的瓶颈:参照鸿沟。自然语言固有的模糊性往往无法为复杂的空间布局提供精确、明确的指引,导致需要严谨参照的任务出现逻辑崩溃。

而 DeepSeek 多模态技术报告提出基于视觉原语的思考——这一创新推理框架将点、边界框等空间标记提升为「思维的基本单元」。通过将这些视觉原语直接融入思考过程,DeepSeek 的模型在「推理」时能够「指代」,从而将其认知轨迹有效锚定在图像的物理坐标中。

值得注意的是,DeepSeek 技术报告提到,其框架基于高度优化的架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上,能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。(来源:每日经济新闻)

苹果发布季度财报:iPhone 17 系列表现强劲

北京时间 5 月 1 日,苹果公布了 2026 财年第 2 财季(对应今年第 1 季度,截至 3 月 28 日)的财报数据,本季度公司营收 1111.84 亿美元,同比增长 16.6%;净利润为 296 亿美元,增长 19.4%;大中华区营收为 204.97 亿美元,同比增长 28.09%。

在 iPhone 17 系列驱动下,iPhone 业务表现强劲,营收达 570 亿美元,同比增长 22%。该产品在美国市场客户满意度达 99%,创下三月季度升级用户数新纪录。

服务业务收入攀升至 310 亿美元,同比增长 16%,再创历史新高,付费账户与交易账户数均达季度峰值。Mac 营收 84 亿美元,同比增长 6%,MacBook Neo 市场需求远超预期。

供应链方面,先进制程芯片产能成为主要瓶颈,导致 Mac mini、Mac Studio 及 MacBook Neo 等机型交付紧张。公司预计部分产品需数月才能实现供需平衡。毛利率环比提升 150 个基点至 49.3%,但内存成本上涨带来压力,下一季度影响将更为显著。(来源:IT之家)

 

Figure 机器人量产大幅提速,从每天一台到每小时一台

当地时间 4 月 29 日,人形机器人公司 Figure 创始人布雷特·阿德科克(Brett Adcock)在社交平台 X 发文称,过去 120 天里,Figure 的生产效率扩大了 24 倍——从每天 1 台机器人提升到每小时 1 台机器人。

阿德科克表示,仅在本周,Figure 就将生产 55 台机器人。

同日,Figure 公布了旗下第一代自动化生产线 BotQ 的最新进展:生产线末端的一次合格率已超过 80%,并且每周都在提升;电池生产线的一次合格率达到 99.3%,已交付超过 500 个电池组;已生产超过 9000 个执行器,涵盖 10 多个不同的 SKU。

值得注意的是,在 BotQ 工厂中,人形机器人本身也会参与搬运、组装新机器人。(来源:东方财富网)

 

小红书官宣组织调整:柯南出任总裁,成立 AI 一级部门

4 月 30 日,小红书通过全员内部信官宣新一轮组织升级。核心动作包括全面整合社区、电商、商业化与技术体系,加码 AI 战略布局并启动国际化攻坚。

本次人事调整中,柯南升任总裁,统管社区、电商、商业化三大核心业务及技术体系,直接向 CEO 星矢(毛文超)汇报。

内部信明确两大核心动作:一是成立 AI 一级部门 Dots,直接向柯南汇报,定位为构建从模型研发、基础设施、工程落地到产品应用的全链路技术体系,整合顶尖 AI 人才与资源,成为驱动业务增长的技术引擎;二是成立企业智能部,搭建适配 AI 时代的组织能力底座。

海豚社创始人李成东分析认为,将 AI 团队升格为一级部门,足见小红书对 AI 的重视程度,其核心意图是依托 AI 重构广告投放系统与电商供应链,通过提升广告精准度、优化智能选品、落地虚拟试妆等应用,最终实现变现效率的跨越式提升。(来源:科创板日报)

三星突破 4nm 制程芯片成熟工艺门槛

近日,三星晶圆代工 4nm FinFET 制程(SF4X)良率已正式突破 80% 门槛,终于迈入成熟生产阶段。

三星自 2021 年开始大规模生产 4nm 工艺,初期良率仅约 35%。此后经历长达六年的持续优化与良率爬坡,才终于撞线 80% 目标。

这是半导体制造领域公认的工艺成熟分水岭,此前一直被台积电牢牢占据。目前台积电 4nm 良率约在 85%-90% 区间。

良率跃升直接推动代工客户的密集涌入。由英伟达间接收购的 AI 芯片初创公司 Groq,已于今年 3 月将三星 4nm 晶圆订单从 9000 片追加至 15000 片。

除 Groq 外,三星 4nm 客户版图覆盖多家产业链玩家。据韩媒爆料,IBM、百度、以及一家加密货币公司均已采用三星 4nm 方案。(来源:快科技)

硅谷高管:现阶段 AI 成本高于人力,但高额 AI 账单仍是积极信号

近日,英伟达高管和 Uber 首席技术官指出,现阶段 AI 服务(如代码助手、自动化智能体)的运营成本高于人力成本。

这一观点挑战了「AI 必然降本增效」的普遍预期,揭示了当前阶段企业应用 AI 的一个现实:在追求技术革新的初期,投入成本可能不降反升,而管理层正试图将这种投入重新定义为战略投资。

英伟达应用深度学习副总裁 Bryan Catanzaro 表示:「对我的团队来说,计算成本远远超过了员工成本。」

真正的巨额开支源于基于 Token 的模式,尤其是 Claude Code 和 GitHub Copilot 等编程助手,以及执行复杂自动化任务的智能体。

尽管成本高昂,但企业界的反应出人意料。许多 CEO 并不将高额的 AI 账单视为负担,反而看作积极信号。他们认为,这证明员工正在深入使用 AI 工具,推动大规模自动化进程,从而驱动企业创新。(来源:IT之家)

 

马斯克旗下 Neuralink 打造手术机器人:缩短脑机芯片植入时间

据外媒 Interesting Engineering 报道,近日马斯克旗下 Neuralink 推出了一款专用手术机器人,目标是让脑机接口植入过程实现更高程度的自动化。

这项新工具的重点,是提高植入手术的安全性和可靠性,并让未来大规模应用成为可能。

Neuralink 的植入线「细而柔软」,甚至比人的头发还细,传统手工手术很难精确处理。为此,Neuralink 开发了专用机器人,利用 8 个摄像头和 OCT 扫描仪,在手术过程中实时识别和避开脑组织。

目前,人类外科医生仍然不可或缺,机器人则开始承担高精度、重复性强的步骤。这类操作对稳定性要求极高,而机器人在一致性上更有优势。

这一看似很小的改动意义很大:手术时间会缩短,感染风险也会降低,未来甚至可能让植入流程变成一次快速完成的短住院手术。(来源:IT之家)

 

泡泡玛特首款 LABUBU 冰箱开售秒罄,二手溢价 4000 元

4 月 30 日晚,泡泡玛特 LABUBU 冰箱正式开售,商品上架后秒罄。

据悉,本次发售的泡泡玛特 THE MONSTERS 生活家系列冷藏箱分为 Home 款和 House of the Monsters 款两个版本,两个版本均为全球限量发售 999 台,每一台都拥有限定编号,售价为 5999 元。

值得一提的是,在抢购热潮下,原价 5999 元的泡泡玛特 LABUBU 冰箱,二手交易价格已达到 9999 元,溢价 4000 元。

从硬件配置来看,这款 LABUBU 小冰箱是一台入门级产品:总容积 121L,相当于普通迷你冰箱,且冷冻室极小(15L);ABS 食品级内胆和钢化玻璃隔板,符合安全标准的普通材质;温控、能效和噪音,也都是正常产品水准。

曾有报道称,这款小冰箱由某知名小家电代工巨头制造,双方主要采用 OEM(原始设备制造商)模式合作。门体布满 LABUBU 和 TYCOCO 的卡通角色形象,银色手柄上镶嵌着 LABUBU 立体头像,机身铭牌印着 THE MONSTERS 字样,强化了收藏级「手办」属性。(来源:快科技)

宇树发布双臂人形机器人,2.69万元起售

4月30日,宇树科技正式发布双臂人形机器人,定价2.69万元起。该机型主打上半身双臂操作,下半身可选固定底座或移动底盘。

本次发布的双臂人形机器人共推出四个版本,核心差异为手臂自由度与底座配置。四个版本均标配2kg手臂负载、±0.1mm末端夹爪精度,末端支持二指夹爪、三指灵巧手、五指灵巧手更换,语音与视觉协同配置保持一致。

整机支持15到31自由度,手臂自由度提供5x2和7x2两种方案,动作范围覆盖日常操作与工业辅助需求。

机身与头部均搭载8核CPU,头部模组算力达到10TOPS。配合视觉双目算力模组和语音交互系统,可实现多元人机交互。

机器人末端支持快速更换执行器,适配抓取、夹持、装配等任务,适用于轻工业、实验室及服务场景。(来源:快科技)

 

钉钉发布 DingTalk A1 Pro,支持为手机反向充电

4 月 30 日,钉钉正式发布 AI 硬件家族新成员 DingTalk A1 Pro,售价 1299 元。

这款产品在 AI 录音卡片的基础上集成了 2980mAh 大电池,支持为手机反向充电,已通过新国标 3C 认证。

硬件设计上,A1 Pro 整机厚度仅 6.4mm,机身自带磁吸设计,无需额外皮套即可吸附在手机背面,配备触摸屏可直接切换充电模式。

软件层面,A1 Pro 与钉钉 AI 听记能力深度整合,支持录音实时转写、AI 大模型总结分析和多语种实时翻译。内置 200 多种 AI 纪要模板,覆盖客户拜访、面试问答、法律咨询、跨国会议等典型场景,录音内容还可一键生成日程、待办和会议纪要,直接流转至钉钉工作台。(来源:快科技)

 

张雪机车 MX250 摩托车发布,2.98万起售

4 月 30 日,张雪机车发布首款场地越野车 ZXMOTO MX250,官方指导价 2.98 万元。

张雪机车 MX250 采用双喷油嘴发动机,最大功率 30kW@12500rpm,最大扭矩 27N·m@9500rpm。

张雪机车 MX250 采用了多项减重设计,整车重量 102kg,配有镁合金发动机左右边盖和顶盖、铝合金副车架、镁合金调压器、铝合金后摇臂、7050 铝合金轮圈等。

该车还配有 KYB 阻尼全可调前后减震,内置骨架手把胶、手把小屏。(来源:IT之家)

天文学家最新发现:2031 年,火星往返航线仅需 153 天

沿着地球与火星这颗邻近行星之间相对笔直的航线,单程火星之旅需要 7 至 10 个月左右。但一位天文学家借助小行星的早期轨道数据,或许找到了穿越太阳系的捷径。

在一项新研究中,来自里约热内卢州立大学北部分校的研究人员马塞洛,顺着小行星 2001 CA21 的预测运行轨迹,探寻通往火星的全新航线。这项研究成果发表在《Acta Astronautica》期刊上,研究确定了一条往返火星的航线,全程仅需约 153 天。

结合发射窗口期分析与该小行星的早期轨道预测,研究人员发现,2031 年是唯一一年地火天体几何排布与小行星轨道平面完美契合的年份。研究指出,在 2031 年发射窗口期内,有两套可行的火星往返任务方案,总时长分别约为 153 天和 226 天。

这项新研究旨在为星际航线规划提供一种全新思路,有望将星际航行时长缩短数百天。一直以来,科学家密切监测小行星主要是为防范其撞击地球的潜在威胁,而如今,这些太空岩石也有望成为人类穿越太阳系的天然航行路标。(来源:IT之家)

 

对话奔驰高管:AI 上车之后,豪华品牌如何重新定义智能化?

几乎每个上周去过北京车展的朋友,都会跟我说起,这次在梅赛德斯-奔驰的展区,感受到了一些特殊的气质。

这种气质首先来自审美。在当下新能源市场竞争空前激烈的背景下,过于追求原创和先锋设计几乎等同于和市场对着干。在这种环境下,奔驰带来的那些经典车型的设计,仍然会让人由衷地觉得百看不腻。

而在经典设计之外,今年梅奔在智能化领域更是带来了一系列突破。

在高阶辅助驾驶领域,全新交付的纯电 CLA 现已支持城区及高速辅助驾驶全国可用,年内力争实现「车位到车位」功能,一举从外界印象里的「传统燃油车」,变成一个也能上桌做压轴题的选手。

在座舱层面,梅奔中国研发团队主导在全新后排娱乐系统部署的 VLM 大模型,将带来更丰富的车内多模态感知和理解能力。用用梅赛德斯-奔驰集团股份公司首席软件官欧孟宇(Magnus Östberg)先生的话来说,这是一种「从容不迫」的智能化体验——不需要主动发出指令,技术也能通过主动且不打扰的方式服务用户。

据了解,这套由中国团队主导研发的全新后排娱乐系统,未来也将会输出到全球市场。

更为难得的是,无论是公开发布会还是私下媒体沟通里,梅奔内部从不讳言这些科技背后有来自中国的「供应链技术」——无论智驾合作伙伴 Momenta,还是座舱领域的伙伴字节、高德、清华、腾讯。这在如今强调「自研」和技术标签的车圈竞争里,也算是一股清流。

在北京车展媒体日,极客公园作者和其他 4 家媒体一起,和梅赛德斯-奔驰两位核心技术高管进行了一场对谈。我们从技术谈起,话题涉及产品功能、市场竞争、产业合作甚至关于 AI 时代商业合作范式的变化推演,以下为本场媒体对话的文字版。

其中,Q 代表媒体提问,M 代表两位梅奔高管的回答。两位受访者分别为:

  • 梅赛德斯-奔驰集团股份公司首席软件官欧孟宇(Magnus Östberg)
  • 梅赛德斯-奔驰(中国)投资有限公司执行副总裁、梅赛德斯-奔驰中国研发自动驾驶及车联网负责人王忻

问答均在保留原意的基础上,经过极客公园编辑整理。

梅奔首席软件官欧孟宇(Magnus Östberg) | 图片来源:梅赛德斯-奔驰

 

不拼参数的智能化体验

 

Q:AI 怎样落实到日常出行体验中?如何理解智能化和豪华之间的关系?

M:所谓的「数字豪华」,应该交付给用户一种「从容不迫」的体验。我们希望用户和车之间的交互形态,不仅是主动发出指令,技术也能以更自然、更主动、不打扰的方式服务用户。

举个例子,我们和清华大学联合打造的端侧 VLM 大模型将被应用在新一代 S 级轿车的智能座舱里。在那样一台长轴距的行政轿车后排,用户操控屏幕并不方便。系统可以通过对手势、视觉信息和多模态信号的理解,让交互变得更自然、更优雅。

 

Q:梅奔在车展宣布,新一代的 S 级轿车和新一代迈巴赫 S 级轿车上都搭载了城区领航辅助驾驶。这两款车的用户对舒适度要求可能比智能驾驶还高,你们怎么平衡这些需求?

M:这里其实有两个核心问题:第一,在燃油车上搭载高阶辅助驾驶;第二,在豪华车型上同时满足智能化和舒适化。

首先,燃油车和纯电动车在车辆动态特性上有很大不同,电机和内燃机的动力响应不同。因此,我们确实为此做了很多额外工作,确保燃油车上的辅助驾驶体验同样平顺、自然。

此外,燃油车的变速箱也会带来挑战。我们尽可能通过软件,把电动车上已经形成的调校曲线迁移过来。不可能完全一样,但我们会让它尽可能接近电动车上的体验。

所以,如果用户喜欢 V12 发动机的体验、喜欢 AMG,他们不需要在「智能」和「性能」之间做选择。这将是奔驰的一个重要差异。

新一代 S 级轿车上将搭载奔驰和 Momenta 共同开发的城区及高速领航辅助驾驶 | 图片来源:极客公园

 

中国主导,服务全球

 

Q:在中国市场,速度很重要;但奔驰又是一家对安全和标准非常谨慎的公司。这两者怎么平衡?

M:我们一直说的是「中国速度,奔驰标准」。中国市场变化很快,所以我们会更早地和本土战略合作伙伴共创,把新的想法做出来。但这些功能最终上车前,仍然要经过奔驰标准的测试和认证,确保按时、按质交付给用户。

 

Q:作为一家全球车企,梅奔中国和德国总部之间是如何分工以及配合的?

M:我们的标准很简单:如果某项功能在中国开发能够做得最快、最好,那就由中国团队引领。比如泊车功能就是由中国团队主导全球研发,全新高端后排娱乐系统也是先由中国团队完成,再服务全球市场。

由中国团队主导研发的全新高端后排娱乐系统 | 图片来源:梅赛德斯-奔驰

 

Q:但外界有一种担心:德国标准会不会让奔驰在中国市场显得慢半拍?

M:德国标准不是死板的规则,关键是理解它为什么存在。有些标准是安全红线,不能跨;但有些具体体验,可以结合中国道路和用户场景调整。比如辅助驾驶限速,我们既会遵守规则,也会参考高德提供的经验速度,以及车辆通过环境感知看到的车流速度,让系统更符合真实道路环境。

在研发过程里,我们会讨论什么样的「节奏」是最合适的。对于梅赛德斯-奔驰而言,安全承诺永远是第一位。因此,有时我们会有意把某些功能发布得稍晚一些,因为我们必须确保它符合奔驰的安全承诺。

 

Q:中国和欧洲在 AI 等新技术上的「时间差」,会不会给奔驰带来压力?

M:这是我们之所以要在中国设立研发团队的原因——我们喜欢中国的这种速度。

中国团队可以帮助我们把在中国实现的想法带向全球。当然,我们也可以把全球其他市场的优秀能力带到中国,这是双向的。

梅奔中国执行副总裁、研发自动驾驶及车联网负责人王忻 | 图片来源:梅赛德斯-奔驰

 

Q:过去 5 年,汽车智能化层面出现了非常多新的变量和名词。你们认为最核心的变化是什么?

M:过去几年最核心的变化也许不在产品功能,而是数字化。

我们在全球各个市场都建立了完整的数字化基础架构。有了这个基础架构,梅赛德斯-奔驰可以更全面了解客户如何使用车辆。

例如,我们会关注功能的使用率。如果某项功能使用率很高,说明它确实有价值;如果使用率很低,我们要判断到底是我们没做好,还是这个功能本身并不是用户真正需要的。我们希望每次提供的新功能,都是用户日常能用到的真需求。

 

AI 上车,不是 Token 竞赛

 

Q:奔驰有 140 年的历史,经历过很多技术变革。您认为这轮 AI 带来的技术变革,可以和汽车史上的哪一次重要技术变革进行类比?例如发动机电喷,或者汽车电子化?

M:我认为这不是只发生在汽车工业内部的变革,而是整个行业的变革。我认为 AI 革命的重要性,相当于人类第一次利用电力。而且这一次变化发生的速度,可能还要快 10 倍。

 

Q:过去几年,在中国市场谈到汽车「智能化」时,往往率先会提到一些智能驾驶公司。但今天奔驰提到了腾讯、字节跳动等互联网巨头。你们认为,随着 AI 爆发,下一步的商业形态和合作关系会发生哪些变化?

M:我认为现在是围绕 Token 的疯狂竞赛(mad race of Tokens)阶段。所以,大模型公司和硬件/芯片公司在这轮 Token 竞赛中获益最多。

但我预计,未来会有一些更聪明的解决方案出现,打破这种 Token 竞赛模式。奔驰关心的是技术能否真正给客户带来价值,而不是模型能生成多少 Token。因此,也许我们也会与一些新的 AI 初创公司合作。

 

Q:如果不是单纯拼模型和 Token,下一阶段车企和科技公司的合作核心会是什么?

M:数据可能会变得更重要。无论是语音、座舱,还是辅助驾驶,技术路线变化都会带来合作伙伴变化。

谁能提供更准确、更有用的数据,谁就可能改变合作方式。未来的合作关系,可能不只是采购一个模型或一个硬件,而是围绕数据掌握、数据使用和数据运营重新组织。

AI 走出屏幕,家电变成「机器人」

AI 正在迈向下一个十年。

当模型能力继续提升,AI 即将走出屏幕里「回答问题、生成代码」的任务,转向真实的物理世界。

这也是为什么,AI 硬件会成为过去 1-2 年科技行业最热的关键词。相比手机、眼镜、人形机器人等更主流的硬件形态,家电是一个很容易被低估的的关键品类。

因为家电面对的,是清洁、烹饪、洗衣、宠物、庭院这些最日常的生活任务。它们听起来没有人形机器人酷,但足够真实且高频。AI 要走进生活,根本绕不开这些场景。

过去一年频繁出现在行业讨论里的追觅,一度被视为一个激进的搅局者:一家从清洁机器人、智能硬件领域成长起来的公司,突然把边界拉向空调、冰箱、厨电这些传统大家电。

但如果 AI 正在改变家电行业的能力坐标,让竞争从「造好一台机器」转向「让机器理解场景并完成任务」,那么追觅过去在高速马达、感知算法、运动控制和机械执行上的积累,也就不再只是清洁电器时代的局部优势,而会变成一套可以被重新估值的能力资产。

近期,追觅在硅谷举办了「DREAME NEXT」发布会,并把视线投向 2036:未来十年的硬件形态和生活方式,将如何随着 AI 发生变化。在这个宏大命题下,这场发布会也给外界提供了一个观察切片:追觅将如何在 AI 时代重新定义自己。

 

让家电「长出手脚」

过去 10 年,中国家电里绝大多数品类,都已经完成了一轮智能化升级。

这轮升级的核心变量,是互联以及语言交互。无论是大家电里的「空冰洗」,还是扫地机、洗地机甚至宠物喂食器这些小家电,都变得更加「智能」。用户和产品之间的交互逻辑,也变得更加「自然」:既可以通过手机远程控制,也可以用语言下指令,甚至能让设备在某些预设条件下执行相对固定的任务。

家电第一次从冰冷的机器,变成可以被连接、被调用、被协同的家庭终端。

不过,本质上这些家电仍然还是等待指令的机器。在 1.0 阶段的升级里,它们解决了「听得见」、「连得上」、「能响应」的问题,但还没有真正达到「独立完成任务」达到 L4 的智能水准。

而这些智能化能力,恰好和这一轮 AI 技术浪潮高度对齐。所以,AI 肯定是家电行业未来 10 年竞争的关键变量。

也正是在这个节点上,家电行业未来十年的创新主体,可能会变得更加多元。过去,白电企业的核心能力更多来自压缩机、制冷系统、供应链、制造体系和渠道网络;但当 AI 开始进入家庭,新的竞争变量会变成:一台机器能不能理解真实环境,能不能判断用户需求,能不能把判断转化成动作。

这意味着,下一代智能家电公司未必只从传统白电体系里生长出来,也可能来自清洁机器人、运动控制、智能硬件和机械执行这些更靠近「物理行动」的领域。

这也是为什么,追觅正在成为 AI 家电议题下一个重要的观察样本。

大模型的出现,让家电拥有更强「理解能力」成为了可能。但理解只是第一步,在真实的家庭场景里,完整的智能体验最终要体现在「执行」层面:空调改变风向,扫地机处理边角,洗碗机调整喷淋,冰箱识别食材并联动健康管理……

也就是说,消费者们期待的「2.0 版本的智能家电」,不仅要有更聪明的「大脑」,还必须长出可以和物理世界互动的「手脚」——包括动力系统、感知和算法、机械执行在内的一整套系统化能力。

基于 AI 的感知和算法,有望大幅提升机器对环境的理解能力。仍以清扫场景为例:20 年前的早期扫地机器人识别地形基本靠「不撞南墙不回头」;而如今,感知和算法能力已经开始被用于割草机、泳池清洁机器人等更复杂、更开放的场景。

动力系统对应着家电进入物理世界的基础能力。无论是吸尘、洗地这些相对成熟的清洁任务,还是送风、喷淋、搅拌等新场景,都需要基于高速数字马达的底层动力支撑。

机械能力则决定了 AI 能不能从「数字」走向「物理」:边角的清洁,送风角度的改变,洗碗喷淋的覆盖,都和机械工程能力息息相关。

因此,AI 家电真正改变的,不只是产品功能,而是行业判断一家公司的能力坐标。过去,家电公司更容易被放在压缩机、制冷系统、供应链和渠道能力里衡量;但当家电要从「听得见、连得上」走向「看得见、判断准、做得到」,清洁机器人、运动控制、感知算法和机械执行能力,也开始进入下一代家电竞争的核心区。

 

打造「更复杂的产品」

当然,在传统商业世界里,有另一条残酷的经验和共识:跨品类是一件很难的事;大多数公司探索「第二增长曲线」都并不顺利。

以家电行业为例,表面上看,「空冰洗」、扫地机、厨电,都是「家里的产品」。但每一个品类背后都有着不同的供应链、制造工艺、渠道体系、售后能力和用户决策逻辑。

所以,当从清洁机器人和智能硬件领域成长起来的追觅,开始宣布进入更多家电品类时,外界自然会推导出一系列疑问:既然跨品类这么难,追觅的底气来自哪里?

诚然,追觅跨品类不能绕过供应链、制造工艺、渠道和售后这些传统门槛;但 AI 时代又给了我们观察家电、硬件行业一套新的评价维度:

要考察「基础能力」,因为这决定着机器能不能被造出来和稳定运行;但更要看「AI 能力」,因为这决定着机器能否适应高度复杂的不同环境,并把理解、判断转换为最终执行的动作。

所以,AI 家电真正难的地方,在于让机器在真实家庭场景里应对各种不同的「复杂场景」。

这里的「复杂」,不是功能数量和参数高低能够概括的,它至少来自以下几类不同的复杂度:

第一类是环境复杂度。

室内地面、厨房、庭院、泳池,并不是同一种复杂场景,分别对应不同类型的环境变量:

吸尘器很大程度上依赖人来判断环境;扫地机器人开始需要自己识别家具、障碍物、宠物和边角;割草机、泳池清洁机器人则进一步进入开放、不确定、边界更复杂的户外和水下环境。

AI 不仅要解决「能不能动」的问题,更要提升机器的环境理解能力。

第二类是自主性复杂度。

传统家电更多是人下指令、机器执行。但下一代家电要解决的,是机器能否在更少指令下主动做判断。比如空调过去主要根据用户设定的温度工作,但在 AI 进入之后,它需要判断房间里有没有人、人在哪里、直吹是否舒适、是否需要兼顾节能和湿度变化。

也就是说,机器不只是「被使用」,而是开始承担一部分原本属于人的判断。

第三类是目标复杂度。

清洁是一个相对明确的目标:把地面、窗面、泳池或草坪处理干净。但进入冰箱、厨电后,产品面对的目标会变得更复合:

冰箱不只是把食材冷藏保鲜,还可能要理解食材种类、新鲜度、家庭成员饮食习惯和健康需求;厨电也不只是加热、排烟或清洗,而是在火力、油烟、温控、口感、清洁和安全之间找到更好的体验组合。

第四类是工程复杂度。

AI 家电不只是一套算法,也不是一个屏幕入口。比如空调要实现更细腻的风感控制,不能只靠软件判断,还要和风道设计、出风结构、电机控制、传感器和整机稳定性结合;洗碗机要提升清洁覆盖率,也需要喷淋结构、水路控制、温控和烘干系统协同。换句话说,AI 最终要被压进具体硬件里,接受真实家庭环境、使用频率和长期可靠性的检验。

所以,追觅的多品类扩张,并不只是扩大 SKU、拓宽销量。它真正值得观察的地方,在于把「创新品类」这件事本身也重新做了一遍:不是先从既有货架里寻找下一个可进入的品类,而是从复杂家庭场景出发,判断哪些任务还没有被机器真正接管,哪些体验还存在明显断点,AI 又能否在其中带来可感知的增量。

换句话说,追觅在用一套更接近 AI 时代的方式寻找新品类:进入复杂场景、拆解真实任务、验证技术是否能变成体验,再把被验证的能力沉淀成新的产品。

它的样本意义,也正在这里。

 

AI 时代的「N+1」

如果说,复杂场景是 AI 家电的试验场,那么真正被验证出来的 AI 体验,才有可能成为用户愿意付费的「+1」。

过去很长一段时间,中国硬件擅长把一个成熟产品重新做一遍。具体来说,核心思路是依靠供应链效率、制造能力和成本控制,把重点功能做到接近,同时把价格打下来。

如果把成熟市场里已经被验证的产品高水位理解为「N」,这套路径更像是「N-1」:接近 N,但更便宜、更高效,也更容易进入市场。

这条路径解决了「能不能卖出去」的问题,但不必然通往「高端品牌认知」这一全新的目标。

所以,当中国硬件进入下一阶段,真正困难的并非继续把 N-1 做得更极致,而在于能不能走向 N+1:在成熟产品已经达到行业高水位之后,再多做出一个用户能明显感知、也愿意为之付费的体验增量。

放到 AI 家电里,这个「+1」就是基于 AI 能力的具体体验和产品价值,例如:

空调的 +1,重点是根据人的位置、室内温度、湿度和风感需求主动调整;冰箱的 +1,核心是对食材状态、饮食习惯和健康需求的理解;洗碗机的 +1,则可能体现在更完整的喷淋覆盖、更少的用户返工上。

也就是说,AI 时代的「+1」,本质上不是「多一个功能」,而是「少一次麻烦」。

这种「少一次麻烦」,才是 AI 家电可能形成溢价的地方。

因为对成熟市场的用户来说,家电的基础功能早已不是稀缺品。空调能制冷,冰箱能保鲜,洗碗机能洗碗,扫地机能清洁,这些都是默认能力。真正能让用户愿意多付钱的,是产品能不能在真实生活里多解决一步:少一次判断、少一次操作、少一次维护、少一点不适。

这也是追觅以及中国新一代硬件创业者,有望在 AI 时代获得新位置的原因。它们过去积累的机器人化能力,在 AI 家电时代不再只是局部产品优势,而可能成为制造「+1」体验的关键材料。

更重要的是,AI 时代创业者的机会,已经不只是把成熟产品做得「更接近」、价格做得「更便宜」。新的空间在于,重新寻找那些还没有被很好解决的生活麻烦,并把它们变成用户能感知的新体验。

对追觅而言,跨品类不是关键目标,重要的是如何把过去做清洁机器人时积累下来的能力——让机器动起来、看得见、能判断、能执行——转化成下一代家电里的体验增量。

这场发生在硅谷、面向 2036 的发布会,也可以放在这个逻辑里理解:它既是一组新品的集中展示,也是追觅对下一代 AI 硬件公司位置的一次重新确认。当 AI 进入真实生活,硬件公司要解决的问题会变得更具体:机器更理解环境,更少打扰人,从而更主动地完成那些日常而具体的任务。

人类科技的下一个十年,也许不会只发生在那些宏大的技术叙事里,而会从这些足够日常、足够高频的场景里开始改变。

马斯克:OpenAI 是我的创意,Altman 是小偷;Claude Code 使用成本翻倍;Image 2 登顶视觉模型榜|极客早知道

结束与微软独家合作,OpenAI 模型接入亚马逊 AWS

4 月 29 日,在亚马逊云科技(Amazon Web Services,简称 AWS)新品发布会上,AWS 宣布携手 OpenAI,将 OpenAI 最新大模型接入 Amazon Bedrock,在 Amazon Bedrock 上线 Codex 代码 Agent,并推出由 OpenAI 赋能的 Amazon Bedrock 托管 Agent(以上功能均为有限预览版)。

4 月 27 日,OpenAI 与微软宣布对双方的合作协议作出调整,OpenAI 可通过任意云服务商向客户提供旗下全部产品服务。

据 AWS 介绍,GPT-5.5、GPT-5.4 等全新 OpenAI 旗舰模型,将登陆 Amazon Bedrock 预览版。企业可沿用现有的 Bedrock 接口调用前沿模型,无需额外部署基础设施,也无需适配全新安全体系。(来源:IT 之家)

OpenAI 预计今年消费者订阅用户达 1.22 亿

4 月 29 日,根据最新的市场预测数据,OpenAI 预计其针对消费端推出的 ChatGPT 订阅用户规模在今年将突破 1.22 亿大关。而这一宏大目标背后的核心增长引擎,直指其近期力推的「ChatGPT Go」低价订阅服务。

这项每月仅需 8 美元的低价套餐,自去年 8 月起已悄然在 171 个国家和地区完成布局。相比于此前的标准订阅价格,ChatGPT Go 的推出标志着 OpenAI 正在从「精英化工具」向「大众化应用」转型。官方预测显示,今年约有 1.12 亿用户将转向这一更为实惠的服务层级,这无疑将为 OpenAI 带来前所未有的用户基数。(来源:aibase)

 

苹果计划在 iOS 27 中借助 AI 对照片编辑功能进行全面升级

4 月 29 日,据报道,苹果公司正计划对 iPhone、iPad 和 Mac 的内置照片编辑功能进行重大升级,并深度依托人工智能技术,以此缩小与安卓设备的竞争差距。

据知情人士透露,该公司正在为计划于今年秋季发布的 iOS 27、iPadOS 27 和 macOS 27 开发一套由 Apple Intelligence 平台驱动的新工具套件。这些功能将允许用户利用设备端的 AI 模型对图片进行扩展、增强和重新构图。知情人士表示,处理过程通常只需几秒钟。(来源:格隆汇)

 

GPT Image 2 超越 Nano Banana2 登顶全球视觉模型榜首 

4 月 29 日,根据 SuperCLUE 发布的最新数据显示,该模型已正式超越谷歌的 Nano Banana2,成功摘得全球文生图模型评测的桂冠。据悉,该模型自 4 月 21 日上线以来,凭借在画质、理解力及细节还原度上的显著迭代,刷新了行业技术标准。

在本次评测涵盖的多个核心维度中,GPT Image2 的表现堪称全面。特别是在长期困扰海外模型的汉字生成领域,该模型取得了 93.07 的高分,文字准确度更是获得满分评级。它不仅能够精准识别并生成复杂的汉字,还能实现文字与亚克力、青花瓷等不同材质纹理的深度融合,有效解决了文字「漂浮感」和乱码等技术难题。

除了文字处理能力的突破,该模型在复杂场景的复刻上也展现了极高的指令遵循度。从极具生活气息的老式面包店到充满动感的非遗打铁花,GPT Image2 均能精准捕捉画面细节。此外,针对长提示词和逻辑推理需求,该模型能够准确产出科学原理图、专业海报等高难度内容,展现出卓越的图文一致性。(来源:aibase)

 

Anthropic Claude Code 预估成本翻倍:从每日 6 美元升至 13 美元

4 月 29 日,据多个媒体报道,Anthropic 在没有发布公告的情况下,悄悄将其 Claude Code 的 token 成本翻倍。

根据 Claude Code 官网的最新说明,「在企业部署中,每个开发者每个活跃日的平均成本约为 13 美元,90% 的用户每日成本低于 30 美元。每个开发者每月的成本约为 150-250 美元(现汇率约合 1027 - 1712 元人民币)。」

而该页面在 4 月 16 日之前的存档版本显示,此前的估算为每个开发者每个活跃日 6 美元(现汇率约合 41.1 元人民币),且 90% 的用户每日成本低于 12 美元(现汇率约合 82.2 元人民币)。

Claude Code 是 Anthropic 推出的 AI 编程助手,基于 token 消耗量计费。这一成本调整反映了更广泛的行业趋势:AI 使用成本正在全面上升,从普通用户到开发者再到大型企业都受到影响。(来源:IT 之家)

 

Anthropic 正在考虑对其估值超过 9000 亿美元的融资报价

4 月 30 日,知情人士称,Anthropic PBC 已开始考虑新一轮融资,对其估值可能超过 9000 亿美元,这可能会让这家人工智能(AI)开发商超越其长期以来的竞争对手 OpenAI,成为全球估值最高的 AI 初创公司。

知情人士称,Anthropic 正在考虑来自投资者的报价,这些报价将使其当前估值翻倍有余。由于相关信息非公开,这些人士要求匿名。他们表示,目前讨论仍处于非常早期阶段,公司尚未接受任何报价。(来源:新浪科技) 

 

亚马逊第一季度净利润同比增长 77%,投资 Anthropic 获益 168 亿美元

4 月 30 日,美国电商巨头亚马逊公司 (NASDAQ: AMZN) 今天发布了截至 3 月 31 日的 2026 年第一季度财报。财报显示,亚马逊第一季度总营收为 1815.19 亿美元,较上年同期的 1556.67 亿美元增长 17%;净利润为 302.55 亿美元,较上年同期的 171.27 亿美元增长 77%。

亚马逊在第一季度因投资 AI 公司 Anthropic 获益 168 亿美元。(来源:凤凰科技)

 

欧盟初步认定 Meta 违反《数字服务法》,未能阻止 13 岁以下未成年人使用旗下软件

4 月 29 日,欧盟委员会初步认定,Meta 违反《数字服务法》(DSA),因其未能有效防止 13 岁以下未成年人使用其旗下的 Instagram 和 Facebook。

委员会指出,尽管 Meta 在其使用条款中明确规定,用户最低年龄为 13 岁,但公司在执行这一规定方面措施不足。现有机制既未能有效阻止未达年龄的用户注册和使用服务,也未能及时识别并清除已获得访问权限的未成年人账户。欧盟委员会认为,Meta 未能充分履行对未成年人使用风险的识别、评估和缓解义务,因此构成对《数字服务法》的潜在违规。(来源:央视新闻)

马斯克称 OpenAI 是自己的创意,现任 CEO 奥尔特曼是「小偷」

4 月 29 日,马斯克与 OpenAI 联合创始人、现任 CEO 山姆·奥尔特曼之间的庭审已于周一开庭。

据了解,在这场诉讼中,马斯克指控奥尔特曼和联合创始人兼总裁 Greg Brockman 背弃了 OpenAI 成立之初宣布的造福人类的非营利使命,并将这家非营利组织变成了一个以盈利为目的的巨头。他还要求 OpenAI 恢复非营利性质、罢免奥尔特曼等高管的职务。

马斯克还将 OpenAI 描述为自己的创意结晶,并声称奥尔特曼是一个「小偷」。「这个想法、名字都是我提出的,我招募了关键人员,把我所知道的一切都传授给了他们,并提供了所有启动资金,」马斯克说:「它的初衷就是为了慈善事业,不让任何个人从中获利。我本来可以把它办成一家营利性公司,但我特意没有这样做。」

而 OpenAI 的律师则反驳称,马斯克发起诉讼,正是因为他看到了金钱的诱惑。马斯克本质上是想要掌控 OpenAI,同时为自己旗下人工智能企业 xAI 造势。OpenAI 方面表示,马斯克当初全程参与了公司新架构的讨论,还执意要求出任首席执行官。OpenAI 和奥尔特曼的律师 William Savitt 在开场陈述中向陪审团强调,马斯克只是在失败(未能「掌控一切」)后才提起诉讼。(来源:财联社)

 

追觅 CEO 俞浩质疑小红书不实名,小红书客服回应

4 月 29 日,追觅科技 CEO 俞浩在微博再次连发三文指责小红书平台,他指出,「小红书上的 momo 们,都做过实名认证吗?如果仅浏览就算了,如果可以发帖、发留言、可以评论,为什么不实名认证。谁来承担这个虚假信息的责任!」

他还写道:「尊敬的小红书 CEO:只有小红书不要求实名认证!那么多人不要求实名认证,还带着相同的面具叫 momo,你这个不是鼓励做恶是什么?你的社会责任呢?」

对此问题,新浪科技向小红书官方客服进行问询,对方表示,「按照法律法规对包括小红书在内的各互联网平台统一要求,针对不同场景需要用户提交包括但不限于手机号、个人身份信息等相关资料进行认证。」(来源:新浪科技)

 

前推特 CEO 创办的 AI 初创公司获融资,估值达 20 亿美元

4 月 29 日,据报道,前推特首席执行官 Parag Agrawal 创办的初创公司 Parallel Web Systems 近日成功完成了一轮 1 亿美元的 B 轮融资,使公司的估值飙升至 20 亿美元。

这轮融资由著名风险投资公司 Sequoia Capital 领投,目前,Parallel 在加利福尼亚州帕洛阿尔托拥有约 50 名员工。公司在去年 11 月进行的 A 轮融资中筹集了 1 亿美元,当时估值为 7.4 亿美元,至今已累计融资 230 亿美元。

Parallel 的目标是服务企业客户,提供高效的 AI 代理平台,帮助其在网络上进行搜索以完成各类任务。Agrawal 强调,未来 AI 代理将比人类更频繁地使用网络,因此需要专门的基础设施来支持。Parallel 的成功与「长时间运行」的 AI 代理的快速发展密切相关。这些代理能够在后台自主运作,长时间保持上下文,从而更快速地完成用户请求。(来源:aibase)

 

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

4 月 29 日,国家数据局数据显示,2025 年,我国用于人工智能训练和推理的数据总量为 199.48EB(Exabyte,艾字节 | 1EB=1024PB=1,048,576TB),同比增长 42.86%,推理数据量首超训练数据量,达 101.34EB。

另外,2025 年我国系统软件、人工智能产生的数据量达 26.92ZB(ZettaByte,泽字节 | 1ZB=1024EB),首次超过传统占主体地位的物联感知数据量。

经测算,未来推理算力需求与训练算力需求之比或将达到 3:1,甚至更高水平。下一步国家数据局将针对低时延、高可靠、高安全的城市算力需求场景,合理布局城市算力。

数据显示,2025 年,全国日均词元调用量从年初的超万亿增长到年末的 100 万亿,呈现指数级增长;全年词元累计调用量达到约 21100 万亿。(来源:IT 之家)

 

英媒:DeepSeek V4 发布引爆需求,大厂争相订购华为昇腾 950 芯片

4 月 29 日,路透援引三位知情人士透露,随着基于华为芯片运行的 DeepSeek V4 人工智能模型发布后,华为昇腾 950AI 芯片需求激增,中国主要互联网公司正争相下单。

据熟悉采购讨论的消息人士透露,包括字节跳动、腾讯和阿里巴巴在内的中国最大互联网公司正在就新芯片订单与华为接洽。(来源:格隆汇)

Adobe Photoshop 引入 AI 3D 旋转对象功能,光影可自动匹配

4 月 29 日,Adobe 更新 Photoshop 与 Lightroom,在引入全新 AI 工具外,还优化工作流并提升软件性能。

功能方面,继上个月在 Illustrator 中推出 Turntable 功能(可在 3D 空间旋转 2D 矢量)后,Adobe 在 Photoshop 中也引入了类似的「旋转对象」(Rotate Object)工具,用户可以在 3D 空间中实时旋转、倾斜和翻转素材。

该功能为了让素材更好地融入背景,用户只需点击「协调」(Harmonize)按钮,Photoshop 软件便会自动调整光照和阴影。

除了「旋转对象」,Adobe 还在 Photoshop 中推出去年 Adobe MAX 大会上公布的「图层清理」(Layer Cleanup)工具。该功能可以智能清理和组织项目中的图层,自动重命名图层并移除空图层。对于复杂项目而言,这项自动化操作能节省大量时间。(来源:IT 之家)

 

腾讯 ima 解锁 Agent 形态,推出知识 Agent「copilot」

4 月 29 日,据腾讯云官方消息,腾讯 ima 正式发布全新 Agent 模式「copilot」,标志着其从「工具」向「伙伴」的形态跨越。该模式支持用户创建专属 Agent,并内置自主进化的记忆系统。

copilot 通过 copilot 设定(Soul)、用户档案(User)、长期记忆(Memory)、经验技巧(Agent)四大模块,结构化存储用户背景与习惯,实现跨场景连续调用。其支持以浮窗形式全场景感知,在用户浏览网页、文件或知识库时自动识别内容,无需上传文件即可直接进行理解与处理。

技能生态方面,copilot 上线了知识库操作、生成报告等官方 Skills,支持读取文件正文及跨文件汇总。此外,该功能支持用户自由配置各大模型 API Key,目前已在 Mac、Windows、iOS、安卓及鸿蒙系统上线,并实行申请制。(来源:品玩)

 

中央网信办:将发布《人工智能应用伦理安全指引(1.0 版)》

4 月 29 日,中央网信办(国家网信办)副主任牛一兵在发布会上表示,今年以来,中央网信办聚焦人工智能的新技术新应用,持续加强制度供给,会同有关部门出台了《人工智能拟人化互动服务管理暂行办法》,并就数字虚拟人信息服务管理办法面向全社会公开征求意见。

论坛将发布《人工智能应用伦理安全指引(1.0 版)》,聚焦人工智能对社会关系、情感依赖、公共秩序、个体权益等方面可能造成的影响,提供相关的实践参考,帮助各方更好地把握发展方向,守好安全底线。(来源:华尔街见闻)

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

4 月 29 日,伦敦帝国理工学院等研究机构发布报告预测,到 2025 年中期,约 35% 新发布的网站内容将全部或部分由 AI 生成。

据悉,研究人员通过 Wayback Machine 互联网档案馆收集 2022 至 2025 年间发布的网页,并采用「多维度分层抽样」方法模拟随机抽取。同时结合 Binoculars、Desklib、DivEye 和 Pangram v3 四种 AI 文本检测工具,对内容来源进行判断。结果显示,在 ChatGPT 推出后,AI 生成内容的占比从几乎为零迅速攀升至三分之一以上,体现出生成式 AI 对互联网内容生态的快速渗透。

相应研究还检查了网传所谓的「AI 对文字内容产生的负面影响」,也就是所谓 AI 会造成文章「语义收缩、事实质量下降、情绪单一且正面、知识孤岛、信息密度降低、风格同质化」。结果发现,仅「语义收缩」和「情绪单一且正面」获得数据支持,AI 生成内容的语义相似度比人工撰写内容高出约 33%,正面情绪评分则高出约 107%,其余所谓「负面影响」并未得到统计验证。(来源:IT 之家)

OpenAI 硬件负责人的闭门分享,向我们揭示了为什么硬件「终点」仍是智能手机

图片
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」

作者|张勇毅

编辑|靖宇
 

昨天,当 OpenAI 做智能手机的具体规格与供应链爆料发布时,我第一反应不是「他们要做手机了」,而是「OpenAI 最终也不得不踏出这一步」,同时想起两周前 Richard Ho 在 Stanford 那场交流。

Richard Ho 是 OpenAI 的硬件负责人,从 Google 做 TPU 出来。

图片

Richard Ho |图片来源:Synopsys

 

那场在 IEEE 内部组织的交流上,他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看,整条路径其实已经被讲得很清楚——只是当时没有一个具体的产品形态来锚定它

OpenAI 做手机这件事,在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推,你会发现这是一条早就铺好的路。

毕竟对于所有模型厂商来讲,手机都只是终点之一,不是起点。

01

模型的下一次「跃迁」,诞生自硬件

 

那场交流的核心,是关于 OpenAI 为什么必须自己做硬件。

Richard Ho 反复强调的一句话是:「真正的限制不再只是模型,而是算力、能耗、成本、延迟,是整个系统。」

听起来像一句普通的技术陈述。但放在 OpenAI 的位置上,这句话的分量完全不一样——它意味着这家公司已经不把自己单纯当作一家模型公司

GPU 是为通用并行计算设计,在推荐系统、传统的并行任务,跑得很好。

但面对今天主流的 Transformer、agent、长上下文推理,其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同,整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是:「GPU 把我们带到了今天,但它并不是为这种(AI 负载任务)而设计的。」

这句话背后的含义其实是:继续依赖 NVIDIA 所设定好的硬件路径,OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用,而是说在能耗、成本、效率这些维度上,OpenAI 无法一直被动地接受外部的硬件节奏。

所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」,而是 OpenAI 想重新拿回 AI 运行的底层控制权。

如果只看媒体报道,你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接:「我们不是在做一颗芯片,而是在做一个系统。」

这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像,但更强调端到端的控制。

进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的,但「两年时间已经从空白走到 tape-out(芯片设计完成交付流片生产)」,并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据,而是「已经在真实环境里 work 的东西」。

两年从零到 tape-out 是个什么概念?传统芯片公司从架构到流片,五到七年很正常。Google TPU 第一代用了大约三年,而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事:要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队(这是事实),要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持(这也部分是事实)。

但更值得说的是 OpenAI 和硬件供应商之间的关系边界。

「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制,紧接着补了一句——「他们并不看到完整的架构。」他还专门解释,「很多时候他们只看到一部分,但看不到整体是怎么拼起来的。」

这句话其实透露了 OpenAI 自身的一个判断:架构层和工程层是两件事,前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力,系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。

Richard Ho 提到,外界看到的模型是几个月发布一次,但内部其实是一条连续的 pipeline——「我们能看到接下来 6 到 9 个月模型会怎么变」。

这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片,而是在为还没出现的模型「预备」设计。

具体到细节上,这种「向前看」会影响很多决定:模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high;网络带宽要扩到多少;新的 compression algorithm 出现会不会改变数据流的形状;inference 和 training 的比例正在快速变化(推理负载越来越重),这对硬件的要求又是另一套。

Richard Ho 把这一点总结成一句话:

你必须为模型将要去的方向设计硬件,而不是为今天的模型。」

这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU,而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看,OpenAI 做芯片更像 Google 做 TPU,而不是像 NVIDIA 做 H100。

但即便如此,硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢,所以芯片红利结束」这个论断。他的判断是:单颗芯片确实在变慢,但整个系统层面还远远没有被优化好。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体:现在高速 copper 互联在高带宽下只能支持大约 2 米的距离,这对数据中心布局是非常大的限制。

简单说一句:OpenAI 在做的事情不是把一颗芯片做得更快,而是把整个 AI 计算系统重新优化一遍。

手机这件事,是这个系统的最末端。

02

「手机不是为 agent 设计的」

 

回到手机。

Richard Ho 在那场交流上有一句话,今天回头看几乎就是 OpenAI 做手机的全部理由——「手机不是为 agent 设计的」。

「今天的手机交互是 app-based、session-based 的,你打开一个 app,做一件事,关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作,它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」

这种交互范式,直接等同于在说:今天的 iOS 和 Android 都不是为它设计的。

这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「未来不是 cloud-only,也不是 edge-only,而是两者结合」——个人上下文、隐私数据、低延迟交互必须在设备端,复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」,它必须在操作系统层有完整权限。

图片

现有手机系统在满足 AI 时代原生用户需求面前有天然的短板 | 图片来源:io

 

这件事在 iOS 和 Android 上很难干净地做——不是技术问题,是利益问题。Apple 不会把系统级权限完全开放给一个第三方 agent,Google 也不会。

也是从这个角度,去年 OpenAI 收购 Jony Ive 团队相关的公司(io)的逻辑就清楚了。Richard Ho 说,做端侧个人设备这部分工作「是目前最有意思的一块」——因为这是第一次把基础设施和消费电子设备真正接在一起。

这其实是 OpenAI 整个硬件战略里最有想象力的部分,也是最危险的部分。有想象力是因为它在做 Apple 当年没做的事:用 AI agent 把操作系统重写一遍。危险是因为消费电子是另一套游戏规则——产品节奏、供应链、零售、品牌——不是从云端工程师团队里能长出来的能力。

但 io 的存在解决了一部分问题。Jony Ive 不是来做芯片或者操作系统的,他是来做硬件形态和工业设计的——这本来就是 Apple 这些年从 OpenAI 手里能短暂保住的最后一块地。

03

不是所有 AI 公司都在做同一件事

 

消费电子的难度有多大,看过去两年其他 AI 公司在硬件上的尝试就清楚了。

每一家都想用 AI 重新定义某个硬件形态。但每一家走的路径不一样,结果也很不一样。

最早的是 Rabbit R1。

2024 年初的 CES 上,吕骋拿出那台橙色小盒子,喊出「干翻所有 App」——用 LAM(大动作模型)替代手机里 App 的交互方式,一句话订外卖、打车、订机票。当时引发的关注度堪比「AI 时代的 iPhone 时刻」,开售两周卖出 5 万台。

图片

Rabbit R1 是首批 AI 硬件中为数不多「口碑反转」的产品|图片来源:Rabbit

 

但首批用户体验出来之后,事情翻得很快。先是被开发者证实是套壳安卓——Rabbit OS 实际上是 AOSP 的修改版,APK 可以直接装到 Pixel 6a 上跑。LAM 被发现依赖 OpenAI 的 API。续航 4 小时,订一次外卖要试十几次。

Rabbit 失败的真正原因不是产品质量,而是路径——它只做了硬件壳子,没碰底层。芯片是联发科 Helio P35(入门手机水平),系统是套壳 Android,模型靠第三方 API。这种做法的天花板很明显:你做的事情,一个手机 App 都能做,而且做得更好。

Meta 选了一条完全不同的路。

Meta 的判断是不挑战手机这个形态,让 AI 借眼镜这个已经存在的硬件形态进入日常。Ray-Ban Meta 做对了三件事:找 EssilorLuxottica(雷朋母公司)做合作方,让眼镜回归眼镜本身——时尚、轻、舒适;把 AI 做成「附加项」,299 美元起售;不强求每个用户都用 AI,先把一副好眼镜卖出去,AI 是 bonus。

结果是 Ray-Ban Meta 卖出超过 200 万副,Meta 一家拿下全球智能眼镜市场 75% 以上的份额。

但这条路的边界也清楚——Meta 解决的是「AI 怎么进入日常」这个问题,不是「AI 怎么重新定义计算」这个问题。眼镜只是一个加了摄像头和麦克风的入口,它不会替代手机,也没打算替代。

阿里千问基本上是 Meta 路径的中国版本。今年 2 月 MWC 发布、3 月 G1 系列发售(国补到手价 1997 元起)、4 月 S1 上市(国补到手价 3499 元),节奏很快。逻辑也清晰:千问 App 已经做到超 3 亿月活、8000 万 DAU,眼镜是把 AI 助手能力从手机延伸到日常佩戴形态——支付宝、高德、淘宝、飞猪一整套阿里生态都接进来,用户对眼镜说「点外卖」「打车」「翻译」就能办事。芯片是高通骁龙 AR1,系统在 Android 之上,模型用千问。

千问眼镜本质上是一次生态延伸,不是底层重构。它的优势是阿里生态足够厚,眼镜成为阿里 AI 服务的一个新入口。

把这三条路放在一起看,再对比 OpenAI——你会发现 OpenAI 是唯一一家在做「全栈重新定义」的公司

Rabbit 想绕过 App 但没动操作系统,结果是空中楼阁;Meta 选择不挑战手机,让眼镜做配角,做对了爆款但天花板就是配角;千问跟随 Meta 的形态选择,把眼镜做成 AI 服务的延伸入口;而 OpenAI——从芯片、基础设施、能源、操作系统、设备一路打通。

这是另一个量级的事。

04

真正的护城河,不在模型层

 

那场交流的最后,Richard Ho 还给了一句对未来格局的判断:

(模型公司)不再是在芯片层赢,而是在系统层赢。

这句话的意思是,未来的 AI 竞争不只是模型能力的竞争,而是整套系统能力的竞争——同样的功耗下能提供多少计算、能服务多少用户、延迟能压到多低。这种系统级的优势,单靠模型本身是没法替代的。

放在 OpenAI 的位置上看,这是一种相当自洽的逻辑:模型团队在 GPT、o 系列、agent 这些方向上往前推,但一旦推到某个体量,模型本身的进步就要被基础设施的瓶颈限制住。所以 OpenAI 必须从模型公司变成基础设施公司——再变成设备公司。

这也是为什么 Richard Ho 在被问到未来算力规模时,给出的数字是 20GW。把 OpenAI、Oracle、SoftBank 等合作方的规划加起来,未来需要的算力大约相当于十几到二十个核电站的发电量。

这个数字第一次听到的时候我没反应过来。20GW 已经不是数据中心能解决的问题——它是国家电网和能源政策的问题。Richard Ho 自己也说,「当你开始谈这种规模,就必须谈电力,甚至是国家安全」。

把这件事和「OpenAI 做手机」放在一起看,才能看清楚整个图景:一边是国家级别的能源基础设施,一边是用户兜里的一台设备,中间是一整套自研的芯片、系统、操作系统。OpenAI 想做的,是把这两端连起来。

把所有的点串起来——模型、基础设施、自研芯片、能源、edge device、操作系统——会发现 OpenAI 做手机不是一个单点决策,而是这条路径自然长出来的结果。

手机只是第一个被外界看见的形态。但真正的变化是更底下的那一层:计算范式正在从 app 为中心,转向 agent 为中心

一旦默认入口变成 agent,今天的设备、芯片、操作系统,都会被重新定义一次。

这一次重新定义里,OpenAI 不再只是一家做模型的公司。

*头图来源:AI 生成
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
当 agent 成为默认入口,
今天的操作系统会被重写吗?
图片
图片
图片
图片

 

HappyHorse 1.0在千问首发开启灰测免费体验,重构 AI 视频赛道

 

前段时间,AI 视频生成赛道迎来了一场无预热的行业震动。

一款名为 HappyHorse 1.0 的模型以匿名形式空降权威第三方评测平台 Artificial Analysis 的 Video Arena 榜单,一度拿下第一。

从全网对研发主体的密集猜测,到阿里巴巴 ATH 事业群正式官宣认领,这款被业内称为 「HappyHorse 1.0 」 的模型,迅速成为全球 AI 视频圈的核心讨论焦点。

更让行业关注的,是 HappyHorse 1.0 快速完成了与千问APP的全链路深度融合 —— 目前千问 APP 可免费体验该模型能力,千问创作web端也可使用,功能更全。

不同于市面上大模型与视频工具 「入口嫁接」 的浅度合作,这套组合直接打通了从自然语言创意到成片输出的完整创作链路,试图同时解决 AI 视频行业长期存在的两大核心痛点:普通人写不出精准提示词的创意转化门槛,和专业需求落地时 「理想与现实脱节」 的效果还原难题。

当全球顶级的视频生成能力,遇上国内头部的大模型,这套组合拳是否会终结 AI 视频赛道持续多年的参数内卷?又会给国内云厂商AI竞赛带来什么样的影响?

 

一、场景实测:HappyHorse 1.0 的真实能力,到底强在哪?

 

判断一款 AI 视频生成模型的真实价值,要在真实创作场景的落地闭环中 —— 它能否真正解决创作者的核心痛点,能否把零散的创意转化为逻辑自洽、视听完整的成片。

现在,在浏览器登录千问创作网页版(c.qianwen.com,在「AI 视频」里就可以调用 HappyHorse 1.0 生成视频了,有免费体验额度,体验下来每天都可以免费生成几个视频,额外部分消耗积分(具体扣除额度及对应价格以页面为准)。

 

 

同时,用户也可在最新版千问APP中通过首页胶囊入口进入创作面板,选择 HappyHorse 1.0 及相关参数进行视频生成,当前支持免费体验(按生成额度扣除)。

 

HappyHorse 1.0 生成的这段视频呈现了一幕带有浓厚年代感的家庭对话场景。无论是色彩体系、光线质感,还是场景中的道具细节,都统一服务于“80年代家庭影像”的视觉语境,风格稳定,没有出现现代感穿帮或画面漂移。

在人物表演与动作的流畅性上从奶奶的叹气摇头,到小表妹的理直气壮回怼,再到最后的表情定格,人物动作与情绪递进自然衔接,都没有明显的卡顿或跳变。

还有对白与音频的真实感。语气、停顿与情绪表达匹配画面关系,人物互动具有明确的“接话逻辑”;同时声音具备基础的空间感与生活环境氛围,使对话像是真实发生在这个场景中的交流。

可以看到,HappyHorse 1.0 生成的这段视频不仅还原了一种复古视觉风格,更重要的是把场景、表演与对白组织成一个成立的生活片段,体现出其在日常叙事内容上的稳定生成能力。

相比前面的生活化对话场景,这个「武将率铁骑兵临城下」场景所体现的,是一整套更高阶的生成能力。它调度了多镜头、多主体与复杂环境:从全景到特写的镜头推进、战马与人物的协同动作、铁骑群体与尘土环境的联动,都在同一段视频中保持了连贯与稳定,体现出更成熟的叙事组织能力与动态控制能力。

同时,能力的提升还体现在声画与光影层面。相比简单对白,这一场景具备更完整的空间声场——战马嘶鸣、马蹄踏地、金属碰撞等环境音层次分明,并能随画面变化形成基本的空间感;人物喊话的语气、力度与情境匹配,明显降低“AI配音感”,让整段内容在听觉上同样成立。在视觉上,整体光影与色彩体系贴近经典港式武侠剧:夕阳侧逆光勾勒轮廓,冷暖对比强化层次,配合柔光质感与仪式感构图,形成统一的“老港片”视觉语境,没有出现风格漂移或现代感穿帮。

整体来看,这段视频实现了多要素之间的统一——镜头、动作、声音与风格被整合进同一套表达体系中,使生成结果已经很接近一段“被拍出来的镜头”。

在短剧创作场景下, HappyHorse 1.0效果也很有潜力。

比如这个典型的短剧开场片段:公主推门而入,情绪直接爆发,“本公主才不要和亲!”完成第一秒的冲突建立;随后镜头切至皇子转身,在暧昧光线与慢节奏动作中完成“人物登场+情绪反转”,女主短暂失神,剧情迅速从对抗过渡到暧昧关系,为后续发展埋下钩子。整体节奏紧凑,在极短时间内完成了冲突建立、人物塑造与情绪转折。

在短剧结构化生成能力上,首先是对“短剧节奏”的理解——3秒内抛出矛盾,6秒内完成人物关系变化,具备明显的内容钩子;其次是人物表演与情绪调度能力,从公主的娇嗔爆发到女主的“花痴”反应,情绪递进清晰,动作与表情衔接自然;同时,在镜头与光影上也配合叙事节奏进行变化,强化人物吸引力与氛围感。

在现在的短剧制作模式下,HappyHorse 1.0 展现出的这种执行力,意味着只要有优秀的剧本创意和分镜指令,模型就能以极低的成本和极高的效率完成视听渲染。

 

二、HappyHorse 1.0击穿了AI视频的哪些原生痛点?

 

引起大众关注的背后 ,是HappyHorse 1.0 从底层架构到产品落地,对 AI 视频行业发展多年来的原生痛点,完成了一次系统性的击穿与重构。

长期以来,AI 视频生成赛道的主流方案均采用「分步拼接架构」:先通过独立模型生成无声视频画面,再用另一套音频模型完成配音、音效匹配,最后通过多模块拼接完成成片输出。

这种天然割裂的生成逻辑,带来了行业始终无法根治的原生缺陷 —— 音画节奏脱节、空间逻辑割裂、人物口型与台词错位、音效与画面氛围违和,成为制约 AI 视频成片质感的核心瓶颈。

HappyHorse 1.0 从底层架构上实现了根本性突破,其采用 150 亿参数的统一 Transformer 架构,将文字理解、图像参考、视频生成、音频合成四大核心能力全部整合进同一个模型中,实现了音画同流程原生生成。画面与声音不再是先后生成、强行拼接的两个独立模块,而是在同一套生成逻辑里同步完成创作,从根本上解决了分步拼接架构的天然缺陷。

这一架构突破,直接带来了成片质感的跨越式提升:人物对白的 AI 感显著降低,语气语调能精准贴合画面情境与人物情绪,多人对话场景下交互流畅、反应自然;环境音效细腻真实,船桨划水的清透声、巨兽咆哮的空间压迫感都能精准还原,甚至能通过音效配合画面情绪完成氛围渲染,打破了行业长期存在的 「画面满分、音效出戏」 的体验短板。

这种从底层架构出发的重构,本质上解决的是 AI 视频能否稳定成片的能力问题。但对于行业而言,另一个长期存在的约束在于,是否能够以合理成本、稳定效率被大规模使用。

HappyHorse 1.0 依托千问双端平台给出了解决方案:千问 APP 移动端可免费体验模型能力,仅扣除视频生成次数;千问web端也有免费额度,超出部分需消耗积分即可使用。

当算力效率不再成为瓶颈,「顶级效果必须绑定高成本与高门槛」的行业惯性也随之被打破。对于普通用户而言,这意味着可以零门槛接触高质量生成;而对于专业创作者,则意味着真正可持续的规模化生产成为可能。

模型解决的是「怎么生成」,那么千问 APP 与 HappyHorse 1.0 的结合,解决的是「生成什么」。

在这个协同体系里,千问更像是「策划大脑」,负责剧本构思、分镜拆解与提示词优化;HappyHorse 1.0 则是「执行终端」,将这些抽象意图转化为具体画面。两者的配合,实现了「想对→做好」的完美匹配,形成从创意到输出的完整闭环。

这也进一步改变了 AI 视频的使用门槛。专业创作者可以基于完整工作流进行复杂生产,而普通用户也可以通过简单对话生成具有人设和剧情的视频内容。AI 视频真正开始成为一种更普遍的表达方式。

 

三、HappyHorse 1.0在千问官方开启灰测,如何改写内容产业格局?

 

回顾 AI 视频赛道的上半场竞争,多数产品未能解决技术能力与用户真实需求的脱节问题,也未能形成从创意到成片的完整落地闭环,行业始终难以突破 「小众尝鲜」 到 「全民普惠」 的发展瓶颈。

作为国内领先的通用大模型平台,此前,千问已经在语言、多模态理解与生成能力上形成较为完整的基础能力体系,并在视频云与内容生产相关基础设施上建立起较强的工程承载能力。

HappyHorse 1.0 的加入,意味着千问在多模态生成能力上的关键拼图进一步补齐,使通义大模型家族在「文本—图像—视频」之间的生成链路更加完整与连贯。创意表达从自然语言输入开始,能够直接延展至高质量视频成片输出,从而形成更完整的端到端生成闭环。

更重要的是,这一组合式能力的形成,使得AI视频从「单点模型能力竞争」进入「体系化生成能力竞争」的阶段。

当模型开始具备跨模态连续生成、内容一致性控制与长链路创作能力时,竞争焦点也随之发生迁移——从单一生成效果,转向生产效率、内容可控性与生态协同能力的综合比拼。

HappyHorse 1.0 在千问开启灰测,使通义千问体系在 AI 视频这一关键赛道中,具备了参与下一阶段竞争的系统性能力基础,也标志着行业正在从早期的模型军备竞赛,迈向以全栈能力与生态协同为核心的新阶段。

更进一步来看,AI 视频的核心价值,关键在于是否能够让创意表达变得足够低门槛、足够稳定,并最终转化为人人可用的生产能力。

在这一意义上,HappyHorse 1.0 × 千问所带来的,在技术能力升级的基础上,更是对AI视频上半场「算力与效果内卷」的阶段性收束,并由此推动行业进入一个以生态普惠与创作自由为核心的新周期。

 

 

比亚迪5月1日开始涨价;微信朋友圈悄然改版;麦当劳奶昔正式回归

谷歌被曝与五角大楼签署机密 AI 协议,条款宽松程度超OpenAI

当地时间 4 月 27 日,据知情人士透露,谷歌与美国国防部签署了一项机密 AI 协议,允许五角大楼将谷歌 AI 用于任何合法的政府目的。

协议同时要求谷歌根据政府要求协助调整其 AI 安全设置与过滤器。媒体指出,该协议的条款宽松程度被认为超过 OpenAI 今年 2 月与五角大楼达成的协议。

截至发稿,谷歌股价小幅上涨 0.15%。

(来源:每日经济新闻)

比亚迪宣布 5 月 1 日起涨价

4 月 28 日晚间,比亚迪官方发布公告称,受全球存储硬件成本大幅上涨的影响,比亚迪旗下 (王朝网、海洋网、方程豹) 部分车型,选装天神之眼 B 辅助驾驶激光版的价格,将从 9900 元上调为 12000 元。

此次价格调整将于 2026 年 5 月 1 日正式生效。2026 年 4 月 30 日及之前,付定金下单的客户不受此次调价影响。

公开信息显示,天神之眼系统是比亚迪全栈自研的高阶智能辅助驾驶整体解决方案,目前共推出 A、B、C 三个等级,覆盖不同价位车型。其中,本次调价的天神之眼 B 版本定位中高端智能驾驶,被广泛搭载于比亚迪主力热销车型。

据此前比亚迪官方披露的数据,截至 2026 年 3 月底,比亚迪辅助驾驶车型保有量已超 285 万辆,天神之眼系统每天生成数据量超 1.8 亿公里。产销快报显示,2026 年第一季度,比亚迪汽车累计销量约 70.05 万辆。

(来源:公众号:21 世纪经济报道)

殖民火星才能拿,SpaceX 为马斯克制定的薪酬方案曝光

SpaceX 董事会为创始人埃隆·马斯克制定了一份前所未有的薪酬方案,将考核目标直接与「殖民火星」和「运营太空数据中心」挂钩。该信息源自公司近期向美国证券交易委员会提交的保密注册文件。

文件显示,董事会于今年 1 月敲定,若 SpaceX 市值达到 7.5 万亿美元,并在火星建成一座拥有至少 100 万常住人口的永久定居点,马斯克将获得 2 亿股超级投票权限制性股票。另一项激励则与算力达 100 太瓦的太空数据中心建成挂钩,可额外获得 6040 万股同类股票。每股 B 类股票拥有 10 倍于 A 类股票的投票权。

公司计划于马斯克 6 月 28 日生日前后启动 IPO,届时估值或达 1.75 万亿美元。专家指出,此类以星际殖民为标准的激励方案,在商业史上无任何案例可循。文件同时显示,SpaceX 与特斯拉在如何分配马斯克精力上的潜在矛盾也浮出水面。

(来源:IT 之家)

百度文库网盘融合后首秀,发布 GenFlow 4.0

4 月 28 日,百度 AI Day 开放日上,今年 1 月由百度文库与百度网盘融合而成的个人超级智能事业群首次公开亮相。

活动现场正式发布通用智能体 GenFlow 4.0,月活用户已突破 1 亿,月任务交付达 2 亿次。同步全面升级 Office Agent,覆盖 PPT、Excel、Word 三大办公场景,并首次公开 GenFlow 兼容 OpenClaw 能力的最新进展。

百度集团副总裁王颖表示,做通用智能体的理念从未改变——围绕大模型构建环境,让大模型有可调用的工具和自己的工作环境。

(来源:TechWeb)

英伟达市值突破 5.26 万亿美元创历史新高

当地时间 4 月 27 日,英伟达股价单日上涨 4%,收于每股 216.61 美元,总市值升至 5.26 万亿美元,创历史新高,稳居美股市值榜首。

天风国际证券分析师郭明錤当日发文称,OpenAI 计划自研手机,正与联发科、高通合作开发手机处理器。市场认为,该消息进一步验证了英伟达在整个 AI 产业链中的核心地位。

过去一个月,英伟达股价累计上涨超 31%。华尔街正高度关注本周密集发布的科技巨头财报,以判断 AI 支出的持续性。

(来源:cnBeta)

发改委叫停外资收购 Manus,国内 AI 赛道明星项目出海受阻

国家发改委外商投资安全审查办公室依法对外资收购 AI 智能体项目 Manus 作出禁止投资决定,要求撤销相关交易。Manus 是 2025 年国内 AI 应用赛道的明星项目,用户通过语音或文字指令,即可让 AI 自动完成编写代码、预订行程、分析股票等复杂工作。

消息此后引发连锁反应。据媒体报道,Meta Platforms 正准备撤销对 Manus 的收购,腾讯、HSG 和真格基金等多名亚洲前投资方计划予以配合。发改委方面表示,这一决定体现了对关键领域外资准入的审慎态度。

该事件是继 TikTok 之后,中国 AI 领域又一涉及外资收购安全审查的标志性案例。目前 Manus 方面尚未就此公开发表正式声明。

(来源:IT 之家)

网信办约谈剪映、猫箱、即梦 AI,要求落实 AI 内容标识

据网信中国消息,近期网信部门发现「剪映」「猫箱」App 及「即梦 AI」网站存在未有效落实人工智能生成合成内容标识规定等问题。

上述行为违反《网络安全法》《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等法律规定。国家互联网信息办公室指导属地互联网信息办公室,依法对上述平台采取约谈、责令改正、警告、从严处理责任人等处置处罚措施。

(来源:36 氪)

微信朋友圈界面悄然改版,新增「朋友圈相册」入口

4 月 28 日,多名网友发现微信朋友圈页面排版出现明显变化,相关话题登上微博热搜第二。据悉,该变化出现在 iOS 8.0.71 版本中。

在「我的朋友圈」页面,此前位于配图右侧的文字,现已移至图片上方。发布日期的显示形式也同步做出调整。最显著的变化是页面右上角新增了「朋友圈相册」入口,支持按年、月、日的视角切换与缩放浏览,交互逻辑与苹果系统相册类似。

针对此次界面调整,腾讯客服回应称,文字位置变动属于展示形式的优化,团队会持续调整以提升浏览体验。

【信息来源:都市快报橙柿互动】

追觅发布 Nebula NEXT 01 火箭超跑,零百加速 0.9 秒

4 月 28 日,追觅科技在 DREAME NEXT 全球发布会上全球首发 Nebula NEXT 01 JET Edition。

该车搭载定制双固体火箭助推系统,150 毫秒响应、100 千牛最大推力,零百加速仅 0.9 秒。配备专为其开发的激光雷达 DHX1,基于 6D 全彩千线激光雷达平台,最远测距 600 米,支持 4320 线全彩 4K 感知。

底盘采用全线控架构,集成 14 自由度非线性控制,支持横向泊车、原地掉头等功能。追觅星空计划总裁马俊野透露,该车未来将定向量产,定价或超千万元。

(来源:TechWeb/DoNews)

支付宝上线「AI 收」,个人开发者可 0 费率接入 AI 收款

4 月 28 日,支付宝正式上线「支付宝 AI 收」,面向商家及个人开发者,提供基于 AI Agent 调用场景的即时收款能力。这是继「AI 付」之后,支付宝在智能体支付领域的进一步延伸。

该产品支持接入 OpenClaw 等 AI Agent。当用户向智能体发出指令并请求资源时,系统可自动完成询价、支付、结算的闭环。以获取一份 AI 行业分析报告为例,用户仅需授权并支付 0.02 元即可完成交易。产品已同步上架支付宝官网 A2A 交易专区,接入流程为入驻签约、创建应用、安装 SDK 三步。

截至 12 月 31 日,个人开发者使用该服务可享 0 费率。已使用支付宝收单的商家,可直接将服务封装为 Skill 接入 AI Agent,无需重建收单工具。

(来源:CSDN)

麦当劳奶昔官宣回归 五一全国开售

4 月 28 日,麦当劳中国宣布,5 月 1 日起,奶昔将在全国 15 个城市的 44 家指定餐厅长期售卖,不再是限时快闪,而是正式回归日常菜单。

此次奶昔回归覆盖北京、上海、广州、深圳、成都、杭州、武汉、南京、天津、重庆、苏州、西安、长沙、沈阳、青岛共 15 座城市。消费者可通过麦当劳官方 App 查询附近售卖奶昔的指定门店。

麦当劳中国表示,近年来持续在不同渠道听到粉丝对奶昔回归的呼声。「消费者的热情,让我们深切感受到大家对于奶昔深厚的情感连接。」去年 8 月「麦麦岛」主题活动期间,奶昔曾在 13 家旗舰店限时回归试水,销量与话题度双高,为此次长期回归铺平了道路,距今已时隔半年有余。

有网友在评论区呼吁「派的热度也需要被看到」「麦香鸡丝也应该回来」。麦当劳方面回应称,未来将继续倾听消费者心声,不一定承诺所有复刻,但「呼声足够大,就有机会」。

麦当劳奶昔终于官宣回归,五一全国开售!你会去尝一尝吗?

(来源:麦当劳中国)

 

汽车的「OpenClaw 时刻」,到了?

汽车的「OpenClaw 时刻」,到了?

摘要:更聪明的智能助手,和真正的「AI 控车」。

极客一问:你觉得现在车上的「AI 助手」智能化程度如何?

头图来源:极客公园

作者|靖宇

走完 2026 北京车展的十几个展馆,我最大的感受是,车企的高管,肯定是用上「小龙虾」了——今年,如果你的新车没搭个大模型,你都不好意思开发布会。

火山引擎带着豆包宣布搭载超 700 万辆车;腾讯发布出行全场景智能体开放平台;科大讯飞推星火智能座舱;面壁智能展示端侧 Agent 框架 EmbodiedClaw,连奔驰新一代 S 级都在后排塞了一颗端侧多模态大模型 VLM。

更不用说华为的鸿蒙座舱 HarmonySpace 6、宝马与阿里联合定制的 AI 大模型——放眼望去,整个车展弥漫着一种「不 AI,就出局」的紧迫感。

但如果你真的坐进这些车里,一辆一辆试过去,会发现一个略显尴尬的事实。

绝大多数所谓的「AI 座舱」,本质上还是一个更智能、会聊天的语音助手。

它们可以帮你规划出去某个景点的打卡和网红餐厅路线,搭载了大模型能力,也能和你闲聊非常多话题,并且情绪价值给足。但是,在真正「控车」环节,能力依然欠奉——至少在 Q4 之前,真正的 Agent 控车的量产车,可能还送不到消费者手里。

这就是 2026 年汽车 AI 最核心的一个断层:人人都在讲 Agent 上车,但从 Chatbot 到 Agent,中间差的东西,比大多数人想象的要多得多。

人人都在讲 Agent,但 90% 还是 Chatbot

两年多之前,大模型上车就已经是车企共识,在 2026 年已经不是什么新闻了——它现在是基础设施,而不是时髦的噱头。

豆包(火山引擎)、通义(阿里)、星火(科大讯飞)、腾讯混元、面壁 MiniCPM……几乎所有主流大模型都在抢汽车的入口。你甚至能在车展的展台上,看到同一家车企,不同产品接入了不同的模型厂商的产品。

真正的问题是:接了大模型之后,体验变了多少?

讯飞也在做星火智能座舱方案|图片来源:极客公园

我在车展期间跟科大讯飞的人聊,他们的星火大模型(星火智能座舱)也在做上车方案。一个很有代表性的细节是,他们告诉我,目前星火上车做车控的思路,是大模型生成指令之后,映射到之前传统语音助手的控车路线上。换句话说,AI 的「脑子」是新的,但「手脚」还是旧的。

这不是讯飞一家的做法。目前行业里绝大多数「大模型上车」的合作模式,都是车企调用一个云端大模型 API,替换掉原来的语音引擎。 对话更自然了,知识更丰富了,情绪识别更好了——但你说一句,它答一句,这还是 Chatbot 的逻辑。

真正的 Agent 上车应该是什么样的?

火山引擎在这次车展发布会上用了一个很准确的表述:从「回合制问答」到「感知-推理-执行-记忆-学习」的一体化闭环。翻译成人话就是,它不只是回答你的问题,而是能主动感知环境、理解你的意图、拆解任务、调用车上的各种能力把事情办完,而且还能记住你的习惯,下次做得更好。

有一个很简单的判断标准,你对车说「我有点闷」。Chatbot 会问你「要不要开窗」;而一个真正的 Agent,应该能结合当前温度、湿度、车速、你的历史偏好、后排有没有人在睡觉,自动做出一套组合调节——可能是开一条缝的车窗加上调低空调两度再打开座椅通风。

这个差距看起来不大,但背后涉及的工程复杂度,是完全不同量级的。

从 Chatbot 到 Agent,差的不是模型,是「底座」

为什么,从「能聊天」到真正「能办事」这么难?

很多人的第一反应是模型不够强。但其实,以目前豆包、通义、星火这些大模型的能力,理解「我有点闷」这句话的含义,并不是什么难事。真正的瓶颈在另一个地方:大模型再聪明,如果车企不把底层能力开放出来,它也只能陪你聊天。

这就像你请了一个特别聪明的助理,但你不给他公司的系统权限,不让他调动任何资源。他再聪明,也只能坐在那跟你对话。

Agent 上车,最大的挑战就是这个。

一辆车的底层有几千个硬件接口——空调、车窗、座椅、氛围灯、通风、导航、行车信号……这些东西原本是为「按钮」和「触屏」设计的,不是为 AI 设计的。你突然让一个大模型来操作这些东西,它连信号都拿不到,更别说安全地控制了。

而且,车控不是小事。如果你只是简单地把接口暴露给 AI,让它直接调用,一旦产生安全问题,结果就可能很严重。

所以 Agent 上车的核心难题不是「大模型能不能理解我的话」,而是「理解之后,怎么安全地、精确地、在对的时机帮我把事办了」。

火山引擎和荣威合作的新产品序列「家越 07」|图片来源:极客公园

在这次车展前后,我深入了解了火山引擎和荣威合作的一套方案,叫 CPP 架构。这可能是目前行业里对「Agent 上车」想得最深、做得最重的一个案例。

CPP 是三个词的缩写:Context、Planner、Pixel。但它不是一个 Agent——它是一个 Agent 的「操作系统」,业内叫 runtime。

先说 Context。

大多数车载 AI 的「上下文」就是你跟它聊天的记录。但 CPP 的 Context 做了一件很激进的事——它把上下文泛化了。不只是对话,而是把车内外的所有信息都当作 AI 的「感知输入」:9 到 13 路外部摄像头、2 到 3 路内部摄像头、车辆的所有传感器信号、用户的长期记忆,甚至豆包 App 上的个人偏好数据。

这个「泛化」听起来简单,做起来极难。因为这些摄像头和传感器,原本是为自动驾驶、360 度倒车影像、行人检测这些功能设计的。你突然要让座舱 AI 调用它们来判断「后排的小朋友是不是睡着了」,就需要在底层重新打通信号通道。荣威能做到这一步,靠的是七年三代电子电器架构的积累——这不是短期能补的功课。

再说 Planner。

荣威的 CPP 架构|图片来源:荣威汽车

这是 CPP 最核心的一层。它不是一个单一的大模型,而是一个多模型协作的「任务规划器」。简单的指令(开车窗)走一个轻量快速模型,毫秒级响应;复杂的任务(帮我规划明天的行程)走一个深度思考模型,允许异步处理;环境感知(后排有没有人)走视觉模型。

这里有一个很精巧的设计叫 pre-tool 和 post-tool。比如你说:「北京鸟巢旁边那个什么会议中心附近的星巴克,帮我导过去。」这个请求很复杂,AI 需要先理解「鸟巢旁边的会议中心」是水立方还是国家会议中心,然后搜索附近的星巴克,再设定导航。

如果等它全部算完再回答你,可能要好几秒——在车里,几秒的沉默就会让人觉得它死机了。所以 pre-tool 机制会让 AI 先快速回一句「你说的是水立方吧?我现在帮你找附近的星巴克」——这段话说出来的 3 秒钟里,后台另一个并行任务已经在疯狂计算了。算完之后,post-tool 把结果汇总,接上前面的话继续说。用户感受到的是一段连贯的对话,背后其实是两三个模型在并行工作。

最后是 Pixel——像素级执行。

这才是整套架构里最「重」的一层,也是最需要主机厂自己来做的一层。荣威的做法是把底层两三千个硬件接口,封装成七八百个安全的「服务层」接口。AI 不直接操作底层硬件,而是调用这个服务层。 就像你开着车去按 P 档,它按不下去——不是因为有人告诉你「不能按」,而是在架构层面就锁死了。

这就是他们内部说的「黑区、灰区、彩区」设计。彩区,AI 可以尽情发挥;灰区,有条件地执行;黑区,比如行驶中的关键安全操作,无论 AI 多聪明都碰不到。

荣威和火山引擎+豆包的开发强度超出了行业预期。 荣威的服务层封装已经迭代到第三代,光第三代的研发周期就超过两年半。火山引擎的联合开发团队高峰期近 200 人。而且这不是火山单方面做的——CPP 的每一层都需要车企和大模型厂商一起定义,因为车载场景的需求(延迟敏感、安全要求、多人多角色交互)和手机、电脑上的 AI 完全不同。

但原生方案的门槛极高。你需要车企愿意把底层架构打开,需要大模型厂商深入理解车载场景,需要双方投入两年以上的联合开发——其中每一项都难度极大,意愿极低。这也是为什么整个行业都在喊 Agent,但真正落地的几乎没有。

MaaS 大战,烧到了汽车上

技术问题之外,Agent 上车,还有另一个看不见的战场——云服务市场的争夺。

汽车座舱正在成为 MaaS 的新战场。不夸张地说,这可能是继公有云之后,中国科技巨头们最激烈的一次 B 端抢滩。

目前至少有四条路线在同时跑。

火山引擎和豆包走的是「C 端撬 B 端」的路线。豆包 App 日活已经突破 3 亿,这意味着字节在自然语言交互、情绪识别、个人偏好学习上积累了海量的用户数据。火山引擎把这套能力打包,推到汽车端,目前搭载量超 700 万辆,覆盖 50 多个品牌、145 个车型——这个数字是行业第一。

豆包座舱助手能实现的能力|图片来源:极客公园

更重要的是,火山这次发布的「豆包座舱助手」,直接与手机端的豆包 App 打通。这意味着你在手机上训练出来的个人偏好——你喜欢被安慰还是喜欢听干货、你的说话风格、你常问的问题类型——上车就能无缝继承。这是其他家做不到的,因为没有人同时拥有一个 3 亿日活的 C 端 AI 应用,和一套 B 端的汽车云服务。

阿里云走的是传统 B 端强客户关系的路线。

宝马在中国选了阿里联合定制 AI 大模型,这是一个标志性事件。阿里云在汽车行业经营多年,客户基盘扎实,而且在训练基础设施、数据中台方面有深厚积累。

腾讯则选了一条完全不同的路。在车展前一天的 TIMEDAY 大会上,腾讯发布了出行全场景智能体开放平台。他们的逻辑不是「卖模型」,而是「做底座」——不绑定生态,而是开放能力,让车企在腾讯的平台上自己搭。目前腾讯产品的座舱搭载量超 1800 万辆,在头部车企中渗透率超过 80%。连特斯拉在中国市场,都选了腾讯来做微信互联和目的地服务。微信支付、小程序、腾讯地图——这些生态资源是腾讯的独家护城河

华为最特殊,走的是最接近 Tier 1 的路线。鸿蒙座舱加乾崑智驾,深度绑定车企,从芯片到操作系统到应用层全部自研。

在这个格局里,火山引擎的位置很微妙。

极客公园在车展期间参加了火山引擎的媒体群访。火山引擎高管在被问到「是否想做华为那样的大模型上车 Tier 1」时,明确说了「不想」。但你看他们实际在推的东西——「豆包座舱助手」是完整的产品级交付,跟豆包 App 互联互通,年内量产——这已经远远超出了一个「API 供应商」的边界。

嘴上说不做 Tier 1,身体很诚实。

更有意思的是他在群访中对整个行业的评价——一句很轻描淡写的话:「人才密度较低。」翻译一下,就是火山和字节,觉得自己在这个赛道上是「降维打击」。

这种自信不是没有道理的。

字节系有两个别人没有的东西:一个是豆包 App 积累的海量交互数据和情绪模型(3 亿日活不是白来的),另一个是今日头条和抖音体系沉淀的,内容数据和信息清洗能力。这些资产用在车载场景里——比如让 AI 带你做冥想,它从网上学来冥想的流程、话术、配乐,然后结合车内的氛围灯和座椅调节——这种跨域能力不是传统汽车供应商能复制的。

但火山也有自己的短板。

火山引擎在北京车展的展台|图片来源:极客公园

700 万辆搭载量虽然是「第一」,但其中大部分是标准 API 接入,真正做到 CPP 级别深度合作的标杆客户,还在打造中。数据好看,但深度还不够。 这也是为什么火山高管在群访中反复强调「ToC 的用户体验」和「社会价值」,而对短期商业闭环的问题打了很多太极。

这场 MaaS 大战的本质,其实不是谁的模型更强——真正的胜负手是谁能把「服务闭环」做得更深。 火山的优势是 C 端生态和内容数据,阿里的优势是 B 端客户关系和云基础设施,腾讯的优势是社交生态和支付。

谁能赢?现在下结论还太早。但有一点可以确定:Agent 上车这件事,正在把汽车产业的竞争维度从「硬件制造」拉,向「软件生态」

而在这个新战场上,传统车企的话语权,可能比他们想象的要小。

尽管车展上 Agent 上车的声量震天响,冷静看,目前真正的 AI 原生架构,在行业里几乎没有量产交付的案例。即便是合作了一年半的荣威和火山,也才走到 CPP 的 runtime 层,真正能控车、能主动服务、能持续学习的智能助手,预计最快也要到今年年底才能跟用户见面。

但这恰恰说明了一件事:大家终于不再满足,只是给车里塞一个聊天机器人了。

从 Chatbot 到 Agent,从「接 API」到「建 runtime」,从「语音助手」到「整车大脑」——这条路确实很长。但至少在这一届北京车展上,我们已经看到了行业转变的信号,而一旦 Agent 上车的能力,给消费者带来跨时代的体验,汽车行业无疑会再次迎来猛烈的进化。

毕竟,在中国这个神器的市场上,即便是大爷大妈,都是会拿着电脑让人帮忙装「小龙虾」的。

当剪辑工具开始「听懂人话」:剪映做了视频创作的Skill化Agent

 

如果有人告诉你,视频剪辑可以像「刷手机」一样轻松,你大概率会在脑海里冒个问号。

毕竟在我们的习惯里,剪辑往往意味着「高强度的手眼协同」——要么是端坐桌前、左手快捷键、右手鼠标;要么就是盯着巴掌大的手机屏幕,在层层折叠的菜单里寻找功能,小心翼翼地用手指拖拽那几毫米的轨道。

但剪映刚上线的 AI 助手,正在试图打破这个刻板印象。

想象一下,你靠在椅子上,不需要触碰鼠标,只需要对着你的手机动动嘴:「帮我把这几段素材剪个 Vlog,配个欢快的音乐。」

甚至当你发现少了一张转场空镜时,都不用切出软件去搜图,直接说:「在这生成一张背景图。」

这种「动口不动手」的体验,让我们在剪辑视频时,也离《钢铁侠》里 Tony Stark 那个随时待命的 Jarvis,又近了一步。

这一年来,AI 视频的竞争逻辑正从比谁「生成得更好」,转向比谁能通过 Agent 把一整套任务真正执行出来。单纯的内容生成早已不是壁垒,能深度接管专业工作流、精准执行复杂指令的智能体,才是行业新焦点。

剪映 AI 助手率先证明,语音/自然语言交互可以深度接管复杂的专业软件工作流,用LUI(语言用户界面)重构传统剪辑GUI(图形用户界面)。同时,还有一件事正在发生:所有的创作,最终都在剪映见。

对于不少传统创作者而言,剪映是他们完成剪辑的终点;而对于新型的 AI 创作者,即便他们在其他软件上完成了生图、生视频,最终仍会回到剪映进行精细化的修整与组接。

这种「殊途同归」的现象,让剪映看到了「All in One」的机会——此前去年在 9 月份,剪映就通过升级 AI 文字成片功能,打通了从「AI 生成」到「精细化编辑」的最后一公里。

市面上具备生成能力的 Agent 很多,但真正能做到「视频生成 + 专业编辑 + Skill化执行」的 Agent,现在只有剪映做到了。

这不仅得益于前沿大模型能力的接入,更离不开剪映多年来积累的海量功能与底层编辑引擎。正是这些深厚的工具积淀,才支撑起了一个不仅能听懂人话,更能以多Skill协同完美执行复杂剪辑任务的「全能AI创作合伙人」。

通过消除「工具熟练度」带来的技术壁垒,剪映让内容的竞争真正回归到了「故事」和「创意」本身。

 

一、从「手眼协同」到「人机共创」

旅行的时候想拍个 Vlog,看到漂亮的场景一顿猛猛拍,旅行结束一打开相册——眼前一黑。

这大概是每一个热衷记录生活的人的真实写照。拍摄时的多巴胺分泌,在面对相册里成百上千个碎片化视频、杂乱的背景音和参差不齐的画幅时,瞬间转化为了不小的心理负担。原本想要记录的美好回忆,变成了一笔沉重的「剪辑债」。

这种「素材在相册吃灰」的现象,本质上是因为传统视频剪辑的工作流存在巨大的「劝退门槛」。

长期以来,视频剪辑不仅是审美的考验,更是体力的消耗。即使只是想把这些旅游素材拼成一个简单的回忆录,你也需要经历筛选、粗剪、卡点、调色等一系列机械劳动。这些高门槛、高重复的「Dirty Work」,拦住了无数想要表达的人。

在这种传统的非线性编辑(NLE)逻辑下,创作者的大量精力被消耗在非创造性的环节中——在层层折叠的菜单里寻找功能入口,在复杂的参数面板中反复试错,或是进行枯燥的素材清洗。

在那个被称为「剪辑」的黑盒子里,充满了繁琐的鼠标点击和指尖拖拽。只要涉及到对视频流的精细化控制,创作者依然无法绕过那个由轨道和参数构成的精密迷宫。

点一下「小灯泡」,就可以看到剪映AI助手的诸多功能|图片来源:极客公园

 

这些痛点的存在,正在呼唤一种新范式的出现。

剪映 AI 助手的核心,正是试图通过重构交互方式,来打破这道复杂的专业壁垒。它不再只是一个辅助功能的叠加,而是引入了 Agent,将人与工具的交互界面从「图形化界面(GUI)」升级为了「自然语言对话(LUI)」,同时也落地了剪辑Skill库这一行业前沿能力。

它就像是一个懂技术的「Skill化剪辑中枢」,允许用户跳过对软件操作逻辑的学习,直接通过语音或文字指令,调用剪映背后专业的多轨道剪辑能力。

极客公园也体验了这种「工具能听懂人话」的能力。

让剪映AI助手帮我把这些去年旅行的素材剪个vlog(视频有加速,实际等待时间五十秒左右)|视频来源:极客公园

 

可以看到,我只是说了一句「帮我把这些素材制作成vlog」,剪映AI助手就帮我完成了搭配背景音乐、智能转场等任务,生成了一个完整的视频内容,音乐我想换一个欢快风格的,也是直接跟AI助手说就换完了。

这些放在往常「我知道怎么做,但我懒得做」的耗时耗力的流程,被压缩成了一句简单的指令。只需下达命令,剪映AI 助手就能精准识别意图,自动调度底层Skill能力,快速完成过去需要数分钟才能搞定的「体力活」。

 

生文串联场景也变得很方便(视频有加速,实际等待时间二十秒左右)|视频来源:极客公园

不光剪视频,给视频配文字也得花心思,现在,剪映AI助手连这一步都可以帮我做了。这个小猫的视频,也是我在视频里对剪映AI助手说了一句猫咪配一段内心独白,它直接就给我生成了。

剪映 AI 助手的上线,意味着剪辑软件正在从「功能罗列」走向「意图理解+Skill执行」。功能入口之外,它还串联起剪映庞大工具库的「中枢神经」,让内容的竞争真正回归到了故事与创意本身。

 

二、Skill化Agent 如何接管「Dirty Work」?

市面上大多数 AI 产品都在往做任务的方向走,那么剪映 AI 助手的定位也非常明确——它是一个能精准执行剪辑任务、覆盖全场景Skill的专业执行Agent,专注于解决剪辑场景的真实痛点。

什么叫专业执行Agent?就是能在你「不会做」的时候帮你「想」,也能在你「懒得做」的时候帮你「干」,用标准化Skill把所有繁琐操作一键落地。

在剪辑时,用户通常有两种心理场景:

第一种是「我知道怎么做,但我懒得做」,一种面对繁琐操作时的「效率需求」。

比如当你拍了一堆素材,心里清楚需要把它们剪短、去噪、调色,但一想到要在手机上进行几百次点击,瞬间就想放弃。这时候,AI 助手就是那个不知疲倦的执行者。你只需要发出指令,它就能接管这些耗时且无创造力的批量操作。

第二种是「我不会做,你来帮我想」,一种面对模糊需求时的「创意需求」。你可能只是想要一个「比较高级的转场」或「适合秋天的滤镜」,但不知道具体该用哪个功能。此时,AI 助手就变成了提供灵感的创意总监,它能听懂你的模糊指令,直接调用对应Skill帮你完成构想。

同时,剪映AI助手精准匹配三类创作者需求:剪辑高手:靠批量编辑Skill,快速处理多轨道、大批量素材;剪辑初阶:用模糊指令触发基础剪辑Skill,快速定位功能、完成操作;剪辑小白:依托生成式Skill,零思路、零操作也能一键出片。

视频来源:极客公园
可以看到,只需要说句话,剪映AI助手很高效地批量帮我剪掉了嗯、啊、就是这些语气词——它直接在我的草稿上动手,剪辑点也清晰可见,随时可微调。这就是 LUI(语言交互) 的魅力:让内容创作回归创意本身,而繁杂的「体力活」,交给剪映 AI 助手这个全能 Agent 就好 。

不过,要让 AI 从「听懂」一句闲聊,进化到精准「执行」一个复杂的剪辑指令,这背后其实是一场交互技术的深层重构。

首先,它要能像「大管家」一样拆解需求,调度多Skill协同。剪映拥有庞大的工具库,面对用户千奇百怪的口语化表达,AI 需要极强的意图识别与分发能力。

这背后是多Agent分治+Skill化调度技术的支撑——可以把它想象成一个高效的施工队。当你下达指令时,总指挥(主 Agent)会迅速理解意图,然后将任务分发给负责剪辑、配乐、调色等不同领域的「专家」(子 Agent),精准调用对应剪辑Skill。通过这种分工协作,AI 能够精准地将「把视频调得亮一点」这句人话,映射到具体的「亮度参数调节」轨道上。

其次,它要能在「工作台」上直接动刀,支持动态可编辑。不同于那些只能生成一个即时视频文件的 AI,剪映 AI 助手的一大突破在于动态草稿协议。简单来说,AI 不是扔给你一个无法修改的成品视频,而是直接在你的剪辑轨道上进行操作。

结合端云协同能力,AI的每一步操作都在云端与客户端实时同步,全程透明可编辑,真正实现人机共创。

最后,它还具备像人一样的「反思」与「反问」能力。

一个专业的Agent,在听不懂需求时会主动确认。当指令过于模糊或任务执行失败时,AI 助手不会强行乱做,而是会触发「反问」与「反思」机制,像真实助理一样确认需求。这种自我修正的能力,大大降低了沟通的门槛。

可以看到,剪映AI助手已经成为聚焦剪辑场景的Skill化执行体。对于剪辑高手而言,它是处理批量素材的效率倍增器;而对于小白用户,它则是随时待命的灵感提供者。

它证明了在专业工作流中,Agent 的价值不仅是生成内容,更是通过接管那些繁琐的「Dirty Work」,让创作者重新拿回对创意的掌控权。

 

三、视频创作的「言出法随」

此前的 AI 视频赛道,目光大多聚焦于「从无到有」的惊艳生成。但对于追求高质量产出的专业创作而言,生成的结束,往往只是工作的开始。

生成式 AI,虽然解决了素材的来源,却难以满足创作者对叙事结构、节奏卡点以及画面精修的专业化刚需。

而且,在很长一段时间里,行业内存在着一种割裂:要么是能生成但没法改的「盲盒式模型」,要么是能改但缺乏智能的「传统工具」。

2025-2026年,行业已彻底告别「全能AI」泡沫,垂直Skill化Agent成为专业工具的核心方向。剪映 AI 助手的出现,进一步弥合了这道裂缝,它解决了前述痛点,让创作者从纠结转场、卡点的「操作员」,晋升为发号施令、把控审美的「导演」。

这也是对剪映「All in AI,All in One」品牌理念的有力践行。

现在的它虽然可能还是早期形态,并不能完全替代人类剪出奥斯卡大片。但它展示了一种趋势——未来的剪辑软件可能不再有复杂的界面,LUI对话+Skill调用的三位一体模式,将逐渐替代传统GUI操作。

剪映AI助手以语音交互为核心卖点,真正把剪辑门槛降至0,你不会的、懒得做的,动动嘴就能完成。从「学剪辑、找功能」到「说需求、等结果」,未来的视频创作,创作者将不再被工具束缚,核心竞争力将彻底回归「创意」本身,人人都能成为自己生活的视频导演。

 

小红书:内容添加 AI 标识,反对 AI 造假;小米全新机器人亮相;微信 15 周年皮肤衣开卖,238 元 | 极客早知道

小红书首次公布 AI 治理主张:坚决反对四类 AI 行为,给 AI 创作划出清晰边界

4 月 27 日,小红书首次公布平台对 AI 内容的治理主张,并在北京举办首届 AI 治理开放日。此次 AI 治理主张共分为「平台鼓励的 AI 内容及行为」和「平台反对的 AI 内容及行为」两大板块,以给到创作者清晰指引。

小红书明确了对待 AI 相关现象的核心态度:鼓励 AI 作为创意放大器,反对 AI 作为造假工具与低质内容生产机器,所有 AI 参与创作的内容均需主动标识。

此外,AI 治理主张再次强调了创作者应对 AI 参与创作的内容进行主动标识,未进行标识的 AI 内容,平台将在识别后统一添加 AI 标识贴条。

在明确「鼓励的 AI 内容」的同时,小红书也梳理出了四类平台反对的 AI 行为:利用 AI 违规运营、利用 AI 造假、利用 AI 侵权,以及利用 AI 进行低质创作。(来源:雷峰网)

微软将不再向 OpenAI 支付分成

微软和 OpenAI 公布合作的下一阶段安排,微软公司称,将不再向 OpenAI 支付收入分成。

OpenAI 向 Microsoft 的收入分成支付将持续到 2030 年,与 OpenAI 的技术进步无关,按相同比例支付,但受总额上限限制。

Microsoft 将继续持有 OpenAI 的 IP 授权,适用于模型和产品,直到 2032 年。Microsoft 的许可将成为非独占的。Microsoft 仍然是 OpenAI 的主要云合作伙伴,OpenAI 产品将优先在 Azure 上发布,除非 Microsoft 无法支持或选择不支持必要的功能。Microsoft 作为主要股东,继续直接参与 OpenAI 的成长。(来源:新浪科技)

 

被传与 OpenAI 合作开发 AI 智能手机处理器后,高通股价飙升 13%

4 月 27 日消息,据路透社报道,美股周一盘前,高通股价上涨 13%。此前,分析师郭明錤称,OpenAI 正在与高通和联发科合作开发智能手机处理器。

天风国际证券分析师郭明錤在 X 上发文称,高通和联发科将共同参与 OpenAI 一款以 AI 为核心的智能手机开发,或在 2028 年进入量产。

郭明錤还称,「果链」厂商立讯精密将成为这款设备唯一的系统设计和制造合作伙伴。

OpenAI 目前仍处于亏损状态,也已经收缩部分非核心项目,把更多精力转向面向企业的编程工具。对 AI 行业来说,编程工具是少数已经出现清晰商业需求的领域。

若 OpenAI 推出智能手机,将直接面对资金雄厚的两大对手——苹果和三星。两家公司合计掌握全球智能手机市场约 40% 的份额。(来源:IT 之家)

中方禁止外资收购 Manus 项目

据国家发展改革委网站 4 月 27 日消息,外商投资安全审查工作机制办公室(国家发展改革委)依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易。

2025 年 12 月 30 日,全球首款通用人工智能体 Manus 发布公告称,Manus 即将加入美国科技巨头 Meta。Manus 将继续通过 app 和网站为用户提供产品和订阅服务,同时公司将继续在新加坡运营。

今年 4 月 2 日,针对 Meta 收购 Manus 会采取哪些措施以及企业跨国经营的相关问题,商务部新闻发言人何亚东回应说,中国政府支持企业根据需要开展跨国经营与技术合作,相关行为需遵守中国法律法规,履行法定程序。(来源:新华社)

 

阿里 HappyHorse 灰测,720P 视频生成低至 0.44 元/秒

阿里巴巴视频生成模型 HappyHorse 1.0 开启灰测。全球专业创作者和企业级客户可在 HappyHorse 官网和阿里云百炼平台注册使用,大众用户可在千问 App 体验。官网 720P 视频生成刊例价 0.9 元/秒。

HappyHorse 1.0 依托原生多模态架构,采用音视频联合生成方案,面向广告、电商、短剧、社媒创意等内容生产场景,提供从智能生成到编辑的一体化创作能力。

HappyHorse 官网是专业全能的 AI 视频创作平台,新用户注册享免费额度,720P 和 1080P 的视频生成刊例价分别为 0.9 元/秒及 1.6 元/秒,专业会员包月价格叠加限时折扣后为 0.44 元/秒和 0.78 元/秒。

灰测阶段,HappyHorse1.0 的模型能力仍在不断迭代升级。阿里悟空、MuleRun 和 JVS Claw 等 Agent 平台也已接入。目前,HappyHorse 官网已开启「超级创作者 · The First 100」活动,诚邀海内外 AIGC 创作者加入,用户可在官网填写问卷报名。(来源:新浪科技)

 

238 元买不到,微信 15 周年限量皮肤衣开卖

4 月 27 日消息,微信迎来 15 周年,官方推出了限量纪念款风壳皮肤衣,定价 238 元,属于无限绳结系列,仅限内部员工购买。

这款皮肤衣是微信 15 周年的限量款,设计很有辨识度。灵感来自大家熟悉的微信气泡 Logo,再结合数学里的无限符号,经过艺术化处理,做成了无限绳结的图案,简约又有辨识度。

设计上致敬了传统织物的美学,绳结之间相互咬合,看起来很有秩序感,同时也像不断延伸的网络,寓意微信生态的开放、连接与环环相扣,既有纪念意义,日常穿也不突兀。

衣服属于风壳皮肤衣,材质轻薄,适合春夏出行、日常通勤穿着,防晒、防风、轻便好收纳,实用性很强。(来源:快科技)

 

华为余承东首次回应享界 S9 麋鹿测试黑幕,称轮胎被放气、拧松

4 月 27 日消息,在昨天的「鸿蒙智行会客厅」直播活动中,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东首次谈及了此前享界 S9 系列车型遭遇的麋鹿测试黑幕。

余承东表示,享界 S9 麋鹿测试成绩非常优秀,但他们做测试的时候把轮胎气放掉、把轮胎拧掉 / 松掉、一开车把轮子开丢掉,并且还干了各种很多这样的事。而实际上,享界 S9 麋鹿测试成绩为 84.1km/h,享界 S9T 麋鹿测试成绩为 83.3km/h。

今年 3 月,享界汽车法务部发布声明,称各网站平台上出现的大量关于享界 S9「麋鹿测试」的视频,经核实,相关测试存在恶意、刻意操控行为,并非专业机构按照国家标准开展的「麋鹿测试」。

(来源: IT之家)

小米全新机器人亮相

在今天举行的小米投资者日上,新款小米机器人正式亮相,博主@粮厂研究员 Will 发文,展示了这款全新小米机器人的细节。

目前,小米官方尚未公布这款全新机器人的具体技术细节,不过参考相应博主发布的机器人的动作视频,其中显示机器人手部整体动作流畅,分发纸袋动作灵活自如。

作为比较,早在 2022 年,小米就曾展示过名为 CyberOne 的首款全尺寸人形仿生机器人「铁大」,其身高为 1.77 米,重 52kg,支持多达二十一个自由度,并能实现零点五毫秒级别的实时响应。

在交互能力上,「铁大」机器人搭载了自研的 Mi-Sense 深度视觉模组。结合先进的 AI 算法,它不仅拥有完整的空间感知能力,还能精准识别人物身份、手势及表情。(来源:IT 之家)

 

苹果 20 周年版 iPhone 曝光:全新四曲面屏幕,打造物理液态玻璃效果

4 月 28 日消息,多方爆料者证实,苹果计划在 2027 年 iPhone 诞生 20 周年之际,推出一款采用全新四曲面设计的纪念版 iPhone。

据博主 i 冰宇宙透露,苹果或将其命名为「液态玻璃 Display」, 是一种全新形态的四曲面屏幕,与常规安卓机型不同,并非追求大曲率,而是侧重视觉观感。

利用光学折射与视错觉,营造出「看不见边框、又不影响边缘显示」的极致一体感。

屏幕由三星定制,曲率温和,边缘区域可正常显示内容并支持触控交互,兼顾美感与实用性。

目前消息显示,该机有望同步搭载屏下 Face ID+屏下前摄,彻底取消灵动岛与挖孔,实现正面无开孔的真全面屏形态,配合四曲面玻璃盖板,达成「一整块玻璃」的终极视觉效果。

作为 20 周年里程碑机型,该机定位超高端旗舰,预计 2027 年 9 月发布,全面开启 iPhone 新一轮设计周期。(来源:快科技)

GPTImage2 成为赛博半仙,给马斯克看面相

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。这场由 AI 爱好者

Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。

不过,其实手掌、指纹属于敏感生物特征数据,随意上传公开存在泄露与滥用风险。同时,这类分析仅为娱乐参考,并非科学判断。(来源:APPSO)

MiniMax 登上戛纳,AI 与艺术的全球和解开始了?

作者|Cynthia

编辑| 郑玄

 

2026 年的春天,影视圈的风向开始变了。

4 月 21 日,全球首个,也是迄今为止规模最大的 AI 电影节 WAIFF(2026),在法国戛纳电影宫正式举办。蔚蓝海岸线前,一众影视行业的从业者鱼贯而入,但一改往日红毯众星云集的流光溢彩,这一次的电影节,地毯换成了象征科技的紫色,而走上这条「紫毯」的,也换成了一众 AI 内容的创作者。

几乎同一时期,地球另一端的中国影视圈:恒星引力这家打造出《苍兰诀》《永夜星河》的头部 IP 公司,正式与头部大模型公司 MiniMax 签署 AI 内容战略合作,并联合推出了由 MiniMax 提供技术支持制作的《古乐风华录》概念动画,其东方幻想美学风格,迅速在业内出圈。

一边是全球顶级影展的背书,一边是国内头部厂牌的入局。 AI 与艺术之间横亘了多年的对峙,逐渐开始松动 。AI 不再被默认视为艺术的对立面,至少深耕一线的创作者们,已经用实际行动证明使用 AI 是一个可以拿到台面上的创新探索。

而这一连串动作,也像是一枚投入湖心的石子,涟漪不断向外扩散,开始影响整个影视圈对 AI 的看法。

 

01

风向:

恒星引力的 AI 影视工业路径

 

在聊 AI 影视之前,我们得先回答一个问题:

为什么程序员不抗拒 AI 编程,但艺术家对用 AI 表达讳莫如深? 同样基于 Transformer 架构,都是暴力美学式的参数堆叠。但为什么接受度差这么多?

因为艺术的世界里,优质作品的内核永远依附于鲜活的创作者,承载着独有的人生阅历与审美取舍,成为创作的灵魂。

AI 可以学习技巧,但创作灵魂没法 prompt。

可是,如果 AI 不是来替代灵魂的,而是来放大甚至拯救灵魂的呢?

2025 年,中国影视行业发生了一件被低估的事:长剧集的流量底盘在持续收缩,但供给量不降反升。根据云合数据创始人李雪琳的演讲,2025 年新剧的集均 V30 以及全网长剧的有效播放都出现下滑,而剧集上新量并未减少。也就是说,传统长剧集运营模式已难以适应当前的市场节奏。

而 AI,或者正是那个改变长剧运营模式的关键变量。 2025 年 4 月,成都第十三届中国网络视听大会的「东方幻想 IP 进化与内容新范式」分论坛现场期间,恒星引力成为了第一个吃螃蟹的玩家。

活动期间,恒星引力正式与大模型玩家 MiniMax 签署 AI 内容战略合作协议。

对很多人来说,恒星引力这家公司可能不如华策、新丽那样家喻户晓,但它的 IP 运营能力在国内绝对顶尖——截至目前,恒星引力出品内容累计有效播放近 200 亿,其代表作《苍兰诀》甚至能在播出三年后,仍位居全网长剧霸屏榜第 21 名。 这种量级的 IP 一旦合作 MiniMax,接入 AI 生产管线,能产出的内容体量是惊人的。

合作的另一边 MiniMax,则是全球少数掌握文本、视频、语音、音乐全模态能力的大模型企业。其海螺 AI 视频系列已累计生成超 6 亿个视频,语音模型支持 40 余种语言,海外营收占比超七成,全球个人用户数破两亿(截止 2025 年年底)。

一个是内容灵魂的创作者,一个是技术表达的制造者。两者结合, 「 AI 带来的价值,不仅仅是降本,而是探索更高上限视觉表达 。它帮助我们让内容更精品,让东方幻想更真实,让内容拥有更多可能性。 」 恒星引力创始人、CEO 王一栩的这句话,被很多媒体反复引用。

是的,不是更便宜,不是更快,也不是更省人力,而是更多可能。

过去几年,影视与内容创作行业里,长期弥漫着一种 AIGC can do everything 的迷信与恐慌,好像只要接入 AI,传统影视公司就能鸟枪换炮,创作者就要原地失业。但真正在片场待过的人都知道,事情没那么简单:

AI 生成的素材,不仅风格统一度不足、情感表达难以精准把控;更重要的是,当你花大价钱买了一套 AI 系统,最后发现它只能给你提供能用但平庸的产出,这对严格遵循二八法则的内容行业来说,是致命的。

也是因此,恒星引力选择 MiniMax,看中的不是 AI 能直接产出什么,而是 AI 能帮助他们释放以及加速什么: 按照合作内容,MiniMax 的技术将深度融入恒星引力的 IP 开发全链路:从前期的世界观设计、美术探索,到制作环节的虚拟拍摄、特效生成,再到衍生内容的多形态开发。

而对恒星引力为代表的真正业内玩家来说,艺术的边界, 不会因为技术而收窄 ,反而会被敢于使用工具的人拓宽。

 

02

文化:戛纳上的紫毯

 

如果说与恒星引力 的合作,是 MiniMax 联手影视行业新锐做影视 工业化的探索,那么 MiniMax 旗下海螺在 WAIFF 的动作,则是在融进去之后的关键下一步:走出去。

2026 年 4 月 21 日,法国戛纳电影宫,第二届世界人工智能电影节(WAIFF)正式开幕。这里是全世界电影人心中最神圣的圣殿,历史上,关于围绕电影是怎样的艺术,戛纳一度成为胶片 VS 数字,院线 VS 奈飞流媒体的舆论场焦点,而每一次,戛纳都坚定地站在了艺术与美的一端,不向流量与时代妥协。

但这一次,非常罕见的,戛纳不仅成为了全球首个专注于 AI 与电影融合的国际电影节的举办地,还在今年 WAIFF 期间,邀请到了巩俐,也是全球唯一一位主演作品斩获欧洲三大电影节最高奖项的女演员担任年度主席,而巩俐本人不仅亲临现场,还亲自为 WAIFF 设计了奖杯。

从某种意义上来说,这也 代表了主流影视圈对 AI 的主动拥抱,乃至对 AI 的能力与审美的肯定

在现场同样引起轰动的,还有以色列最顶尖的 AI 视频创作者 Dor Brothers 团队。提到 AI 与创作的关系,Dor Brothers 在 WAIFF 现场分享了一个故事: 「 16 岁的时候,我天真地想——找个人雇来帮我拍电影。然后我发现,那要花 5000 万欧元。于是我决定自己学。学了几年传统电影制作之后我才意识到——就算我自己拍,它还是要 5000 万欧元。 」

 

 

之后,他引用了 Gary Kasparov 的那段著名论述: 「 我们早就知道,从我 20 多年前输给 AI 那天起,AI 下棋就比人类强。这没什么好争的。但 20 年过去了,我们还是在看人类下棋。因为 AI 是另一个物种。我们都知道它比我们强,但我们还是会去看几个愚蠢的人类猿猴,下水平很烂的棋。」「 技术总会达到新的高度,但好的内容归根结底是人和人之间的情感连接,AI 永远不会真正取代创作者。

而在此之前,作为全球范围内最有影响力的 AI 视觉创作者之一,Dor Brothers 的作品在社媒上,动辄就是数百万甚至千万的播放量,去年全网累计播放更是超过 5 亿次,常常视频中一句话就能影响一个模型的估值。但他们同时也是最早在国际舞台上推广海螺 AI 的布道者。在多个公开场合,Dor Brothers 都曾毫不吝啬地表达对海螺的认可。甚至,团队还直接将其用 Hailuo 02 制作的视频《APEX》放在了公司官网首页,单独展示。

 

 

而当巩俐、Dor Brothers 这样的顶级艺术家们开始认真对待 AI 影视 ,这种信任也会不断扩散——他们身边的朋友、粉丝、他们参加的展会受众,都会在某个时刻接触到 MiniMax,然后产生原来 AI 还可以这样的认知。

比如,在巴西圣保罗,WAIFF落地于巴西顶级电影学府FAAP,大家在讨论AI时代,制作流程如何变化,成本结构如何被重写;在韩国首尔乐天影院世界塔,WAIFF更是实现了艺人VCR助阵、AI音乐与乐团演出结合,让整个活动成为一种沉浸式AI体验剧场;在日本京都Rohm剧院,大家则更关心模型如何在复杂运动中保持出色的风格一致性,如何通过细致的人脸肌肉控制捕捉情绪变化,如何实现低成本的声音克隆与自然的多语言对白。

 

 

而在WAIFF中国区,入围作品中,也有相当一部分颇具特色:《一念》——最佳AI短片,以水墨意象呈现善恶一念的东方哲思;《朱鹮》——评审团特别奖,通过陕西话等地方语言,表达了生态关怀与生命哲学;《无岸之地》——海螺AI·最佳先锋实践奖作品,以闽南语传递出海岛居民对故土的眷恋。

这些作品有一个共同的特点:它们极具人文温度,是具体的人,是陕西的土地、是闽南的海风、是水墨背后的东方哲思—— AI 并没有削弱这些文化表达,更没有让电影变得趋同,反而让不同,变得更清晰。

 

03

影视工业化的 AI 进程,走向深水区

 

一边是行业的积极拥抱,但另一边,作为能力的提供方,自2025年10月发布海螺2.3之后,MiniMax关于视频模型,在公开场合似乎沉默了很久。

外界开始有声音质疑:海螺是不是后劲不足?2.3之后还有下文吗?要知道,等待海螺3.0正式发布的内容创作者,或许比想象的多得多。

但如果把镜头拉近,会发现另一种叙事正在水下发生。在坚持技术驱动的同时,这家公司也正投入大量精力,用于工业场景的实践积累与摸索。

MiniMax 创始人、CEO 闫俊杰在 2025 年的业绩交流会上透露过一个判断: 「 接下来一年的模型智能水平会进一步提升。多模态创作将走向'直出可交付'的中长内容,甚至出现流式、实时输出的新形态。 」

这句话的潜台词是:视频生成模型需要从能做出一段几秒的片段,进化到能支撑严肃的生产力场景。 而这个跨越,需要系统性的工程优化。 回顾海螺模型的进化路径,我们不难看到一条从 Demo 感走向工业级的技术曲线:

2024 年,首代海螺视频模型发布,虽然支持基础的人物情感和镜头控制,但物理一致性和风格稳定性仍有明显短板。

2025 年 6 月,海螺 2 发布。采用 「 Noise-aware Compute Redistribution(NCR) 」 架构,训练和推理效率较上代提升 2.5 倍,模型参数量和训练数据量分别达到上一代产品的 3 倍和 4 倍。AI 榜单 Artificial Analysis Video Arena 排名全球第二,超越谷歌 Veo 3 Preview 和快手可灵 2.0。

在此之后,2025 年 10 月,MiniMax 的 Media Agent 完成了根据用户表达一键成片的进化;同期海螺 2.3 发布,在物理表现、风格化表达、成本优化,都做了大幅提升,成为后续合作恒星引力,用 AI 落地东方美学的重要技术支撑。

更近一步,我们则可以看到,在 MiniMax 体系内:从文本大模型到视频生成、语音模型、音乐模型,再到围绕模型所建设的 agent 能力、skills 工具、harness 层,以及借此链接的更多产业场景、智能新生态, 或许会彻底把 MiniMax 由大模型公司推 向 AI 时代的平台型公司。

*头图来源:MiniMax

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

余承东:问界 M9 Ultimate 5 月亮相;苹果新 CEO 首秀定档 9 月发布会;马斯克:无人驾驶车正式投产|极客早知道

 

DeepSeek V4 成 OpenClaw 默认模型

4月26日,OpenClaw 重磅接入 DeepSeek V4!新版本 OpenClaw 2026.4.24 一发布,随即接入了最新的 DeepSeek V4 双版本——V4 Flash 成为默认大模型,V4 Pro 也已上线模型库。
从26日起,全球每一个更新 OpenClaw 的人,打开的第一秒钟,跟自己对话的大脑就是 DeepSeek V4 Flash。
可以说,DeepSeek V4 的接入,成为了 OpenClaw 更新的最大亮点。一时间,全网激动地都开始跃跃欲试。
这一次,OpenClaw 还打通了 Google Meet,实时语音通话让全网震撼。(来源:新智元)
 

马斯克证实特斯拉 Cybercab 已投产,年底将实现指数级产能爬坡

4 月 23 日消息,首席执行官埃隆 · 马斯克在特斯拉 2026 年第一季度财报电话会议上证实,Cybercab 已在得克萨斯超级工厂正式投产。
车辆工程副总裁拉尔斯 · 莫拉维确认,Cybercab 不受美国国家公路交通安全管理局针对自动驾驶车辆设定的每年 2500 辆产量上限限制。
这一 2500 辆的限制,源自美国国家公路交通安全管理局针对未完全符合《联邦机动车安全标准》车辆推出的豁免流程。以往,Waymo、Cruise 等企业想要部署非标准配置的车辆,都需要申请此类豁免,而美国国家公路交通安全管理局对每项豁免的年度配额均限定为 2500 辆。(来源:IT 之家)
 
 

拯救 Win11!揭秘微软 Windows K2 宏伟计划

4 月 26 日消息,据科技媒体 Windows Central 今天报道,微软 Windows 负责人帕万 · 达武鲁里(Pavan Davuluri)今年 3 月在交流会中确认,将着手解决用户反馈,目标把 Windows 11 打造成全球最稳定的操作系统。
尽管微软的对外说辞并不能完全反映内部真实想法。但内部消息人士透露,微软确实在认真地将 Windows 11 打造成「最佳平台」,目标 2026 年末-2027 年,让 Windows 11 处于更理想的状态。
据内部消息,这项宏伟的整改计划名为「Windows K2」,于 2025 年下半年启动。旨在解决 AI 功能过于臃肿、可靠性下降等用户反对声浪。
K2 计划的前三大核心支柱是性能(Performance)、工艺(Craft)和可靠性(Reliability)。微软将通过收集 Insider 用户反馈、遥测数据,并使用小组调查的方式改善这三大方面。(来源:IT 之家)
 

古尔曼:库克为苹果留下十大新产品线研发计划,新任 CEO 特努斯首秀定档 9 月折叠屏 iPhone 发布会

4 月 26 日消息,苹果公司新任 CEO 约翰 · 特努斯(John Ternus)将于 9 月 1 日正式上任。在他就职后不到两周,便将发布苹果十年来最重要的新品——首款折叠屏 iPhone。
根据彭博社马克 · 古尔曼(Mark Gurman)最新 Power On 透露,这一时间安排并非巧合。在苹果规划从 Tim Cook 向 Ternus 过渡的过程中,苹果公司希望由新领导者亲自发布该产品,从而使其成为这一新产品类别的代表人物。
毫无疑问,折叠屏 iPhone 对苹果来说绝对是一款复杂、创新且昂贵的产品,有望激发苹果核心用户的热情。Ternus 曾负责该设备的工程与产品开发,这也使他成为 iPhone 新时代的完美代言人。
随着两任 CEO 于 9 月 1 日完成交接,特努斯上任后的首个完整财季将覆盖今年年底的圣诞节假日销售周期。分析师预计该季度收入有望接近 1500 亿美元(现汇率约合 1.03 万亿元人民币),或超过历史同期纪录。
回顾 2011 年,库克当时刚从乔布斯手中接任时,也得益于强劲的产品线,当时 Siri 在其上任两个月后推出,随后一年内苹果发布了包括 iPhone 5、iPad mini、配备 Retina 显示屏的 iPad 与 MacBook Pro 等多款产品,而今年特努斯接任后的产品阵容更多也更强大。(来源:IT 之家)
 

华为余承东透露全新一代问界 M9 Ultimate 领世加长版汽车预计今年 5 月亮相

4 月 26 日消息,在今天的「鸿蒙智行会客厅」直播活动中,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东简单介绍了全新一代问界 M9 汽车。

 

IT 之家从直播了解到,问界 M9 Ultimate 领世加长版也来到了 2026 北京车展现场,该车目前公布的预售价格是 66.98 万起,搭载 2.0T 增程器、增程版三电机、线控转向,拥有专属外观设计 + 专属奢享座舱体验。
虽然全新一代问界 M9 和问界 M9 Ultimate 领世加长版都在 4 月 22 日发布,但据余承东透露,领世加长版会在今年 5 月份左右会跟大家正式见面。
据博主 @ 我鸿 分享,全新一代问界 M9 系列汽车 72 小时预订量突破 25000 台。该车预售价 49.98 万元起。华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东曾表示,全新一代问界 M9 全车搭载超 140 项创新技术,不是一次升级,而是一次重构,后续还会公布更多惊喜。(来源:IT 之家)
 

研究显示:AI 智能体不会让软件工程师丢饭碗,反而拓展其工作边界

4 月 26 日消息,据科技媒体 The Decoder 今天报道,查尔姆斯理工大学、沃尔沃集团研究团队最近在一篇论文指出,AI 智能体并不会让软件工程师失业。反而还可以通过「半可信执行栈」扩展工作范围。
据报道,研究团队首先提出了一个由六环组成的「半可信执行栈」(semi-executable stack)模型,将传统代码向外延伸,触达欧盟 AI 法案等社会因素。
论文中的「半可信执行栈」由六个环组成:经典代码、提示词和自然语言规范、智能体工作流编排、控制系统、运营组织逻辑、社会与制度适配。
目前,软件工程师主要在经典代码(注:第一环)、提示词(第二环)工作;而智能体工作流(第三环)、安全围栏(第四环)和决策流程(第五环)正在成为高优先级工程对象;社会制度适配(第六环)则决定 AI 的实际执行。
研究者认为,目前 AI 智能体最大的漏洞集中在第五环和第六环,人们已经写了几十年代码,但 AI 决策、制度适配等宏观流程仍然缺失,大多数研究仍然集中在修复错误、测试 AI 等。
学者表示,AI 不需要拥有顶尖人类学者的水平,只需要够用就行。大量部署 AI 带来的价值高于部分顶级专家。
此外,研究人员并没有忽视 AI 的「幻觉」问题,他们认为这更凸显了测试、监控的必要。人类在未来仍存在价值。(来源:IT 之家)
 

智能眼镜销量大涨,前两个月国内出货量同比增长超三成

4 月 26 日消息,杭州有门店负责人表示,2025 年 11 月以来,智能眼镜销量明显增长,近期新品集中上市,销量进一步上升;4 月前两周的销量,基本上已经比 3 月整个月翻一倍。
业内人士表示,AI 大模型终端落地、头部厂商相继发布新品以及国补政策拉动等多重因素,共同驱动智能眼镜销量快速增长。数据显示,2026 年 1 至 2 月国内智能眼镜累计出货 42.4 万台,同比增长 36.2%;网络零售额同比增长 183.5%。(来源:央视财经)
 

吉利旗下芯擎科技发布 5 纳米车规级 AI 座舱芯片「龍鹰二号」

4 月 27 日消息,据芯擎科技昨日消息,在 2026 北京国际车展上,芯擎科技发布 5nm 车规级 AI 座舱芯片「龍鹰二号」,计划于 2027 年第一季度启动适配。
官方表示,「龍鹰二号」可覆盖 AI 座舱、舱驾融合全场景需求,采用柔性架构,适配主机厂从入门级到旗舰级的中央计算平台演进。
IT 之家查询获悉,湖北芯擎科技有限公司成立于 2018 年,由吉利投资的亿咖通科技有限公司与安谋科技 (中国) 有限公司共同出资成立,基于 ARM 架构进行产品开发。
「龍鹰二号」AI 算力可达 200 TOPS,原生支持 7B+ 多模态大模型,具备主动意图感知能力,内置多核 CPU 360KDMIPS,GPU 2800GFLOPS,带宽可达 518GB/s,支持 LPDDR6/5X/5,官方宣称彻底消除了多屏交互与 AI 计算的数据瓶颈。
安全方面,「龍鹰二号」芯片内部集成了专用车控处理单元与安全岛,支持 CAN-FD,严苛的硬件分区设计与独立冗余架构可实现舱驾业务的物理隔离。(来源:IT 之家)
 

消息称三星 Galaxy WideFold 阔折叠手机首批备货 100 万台,三个月后发布

4 月 26 日消息,博主 @i 冰宇宙 今天在微博透露:
最轻最薄的阔折叠当属三个月后发布的 Galaxy Wide Fold,首批备货 100 万台。
据博主后续评论区补充,这款手机的重量不会超过 220 克,采用双摄设计。
据此前援引 Android Authority 消息,三星 Galaxy Wide Fold(另有消息称命名为 Galaxy Z Fold8 Wide)阔折叠手机的内屏比例为 1.3:1,基本可以认为是 4:3 比例。作为对比,现款 Galaxy Z Fold8 的比例约为 1.11:1,形态更接近正方形。形态方面,该机的设计思路致敬谷歌 Pixel Fold,采用比标准版更宽的机身比例,为用户提供更接近传统手机的握持感与更宽的阅读体验。
硬件方面,Galaxy Z Fold8 Wide 预估采用和 Galaxy Z Fold8 同款配置,采用高通第五代骁龙 8 至尊版 for Galaxy 定制芯片,最高提供 16GB 内存与 1TB 存储空间,并内置 5000mAh 大容量电池,支持 45W 有线快充与 25W 无线充电。
 

美联储:ChatGPT 发布后美国程序员岗位增速腰斩,外包领域最为明显

4 月 26 日消息,美联储理事会 / 委员会发布的一项研究报告显示,美国程序员岗位增速自 ChatGPT 发布(2022 年 11 月)后几乎减半,AI 带来的影响正从日常工作场景扩展至宏观就业数据层面。
该研究将月度就业数据与劳工部按技能要求分类的职业数据库进行交叉比对,精准识别出编程工作量占比较高的职业群体,这类群体约占全美劳动者总数的 3.7%。
ChatGPT 发布前,美国编程密集型岗位年增长率接近 5%,显著高于整体劳动力市场。此后增速大幅放缓,在 IT 服务和软件开发等程序员占比尤其高的行业中,增长基本停滞。这一变化的时间节点与生成式 AI 工具进入主流应用高度吻合,表明技术对就业结构的影响已开始在宏观数据中显现。
根据美联储的分析,最近三年编程密集型岗位的增长率相比 2022 年前的趋势每年下降约 3 个百分点。虽然程序员总体就业尚未进入绝对下降状态,但新增岗位数量已大幅萎缩。研究人员指出,如果维持 AI 出现前的增长轨迹,美国经济有望比目前多出数十万个编程岗位。(来源:IT 之家)

阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人

图片
当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。

作者|Li Yuan

编辑|郑玄
 

4 月 21 日,自变量机器人举行「一个家庭成员的诞生」发布会,在会上,创始人&CEO 王潜确认,自变量近期已完成 B 轮融资,投资方为小米战投。

这是自变量机器人在 2026 年对外披露的第三轮融资,也是这家公司自 2023 年 10 月成立以来完成的第十一轮融资。进入 2026 年后,具身智能赛道融资持续升温,多家头部公司估值已突破百亿元,自变量机器人正是其中之一。

但自变量机器人的特别之处,不只在于融资节奏快、融资规模大,更在于它所吸引来的资金,呈现出非常鲜明的市场化特征。到目前为止,它已经成为业内唯一一家同时获得美团、阿里、字节和小米四家互联网巨头战略投资的具身智能公司。这个投资人名单之所以值得注意,不只是因为巨头齐聚,更因为这些公司本身都在布局机器人业务;而字节和小米战投,过去也并不常出现在这类「通用机器人大脑」公司的投资名单中。

发布会上,除了 B 轮融资消息确认,自变量机器人也发布了新一代自研具身智能基础模型 WALL-B,并宣布一个月后,搭载这一新模型的机器人将开启家庭场景服务。

这也是当前国内具身智能头部公司中,第一家明确把下一阶段重点场景放在家庭的公司。相比之下,行业内大多数公司的叙事仍然集中在商业或工业场景,本质上是在优先回答 ROI 和落地效率的问题。

而自变量机器人的思路明显不同。家庭场景对它而言,并不意味着要对外宣称「家庭机器人已经可用」,而更像是一种接近 1X 的路径:先把机器人真正放进家庭,再让它在家庭这个高度开放、长尾且复杂的环境里持续成长。

自变量也没有回避家庭场景当前仍可能需要一定程度遥操作的现实。但它想强调的并不是「靠遥操作把机器人放进家庭,像数据采集一样收数据」,而是基础模型在经过大规模预训练后,已经具备了零样本泛化能力,可以先在真实家庭环境中直接执行一部分任务。机器人做得好的部分直接完成,做不好的部分再通过人机协作回流数据,并在后续训练中被模型吸收。

这种思路和不少同行并不相同:在许多公司还在围绕场景闭环、交付效率和商业回报做权衡时,自变量更像是在优先押注一条通向通用智能的路线——自变量一直强调更重视真实数据和数据质量。

某种程度上,这或许正是自变量最鲜明的标签:当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。这种强烈的「基础模型导向」和「AGI 导向」,或许也是它持续获得大额融资的重要原因之一。

01

不只是做世界模型,

自变量定义一种新的「机器人大脑」

 

自变量此次发布会上,最有趣的重点之一,是发布了一个新的模型架构:世界统一模型(World Unified Model, WUM)。

行业公认,开年以来对于大脑的关注,主要在世界模型相关的技术进展。

自变量此次的模型架构更新,也和世界模型有关——但又和普遍认知的世界模型不同。

按自变量的说法,行业现在公认的两条具身道路,无论是从 VLM 延展到 VLA,还是从视频生成模型、世界模型继续往动作上接,本质上都还是在继承那些原本不是为具身任务训练出来的模型。

前者更强于语义理解,却未必足够敏感于机器人真正要面对的空间变化、环境扰动和动作细节;后者虽然强调连续预测,也未必真正抓住了机器人在物理世界中最关心的因果关系。

自变量 CEO 王潜在采访中直言,这两种路线都很「糟糕」。

因此,自变量这次提出的,不是一个传统意义上的世界模型,也不是一个 VLA,而是一套它称为 世界统一模型 的新架构。按照它的描述,这套架构试图把视觉、语言、动作、触觉乃至物理预测等能力,尽量放进同一个网络中,从头开始联合训练,而不是先继承一个为别的任务训练出来的模型,再去做机器人适配。

图片

这条路线的好处是,一旦成立,机器人面对物理世界时最核心的几种能力——感知、理解、预测和动作——就不需要再在不同模块之间来回转译,模型也更能直接围绕「如何在真实世界中行动」这个目标去学习,而不是先学会别的任务,再被迁移到机器人身上。

自变量把这套模型架构的意义,类比为机器人领域的「Apple Silicon 统一内存架构时刻」。

在它看来,今天主流的 VLA 路线,仍然有点像苹果 M1 之前的传统电脑架构:视觉、语言、动作等模块彼此分离,信息需要在不同模块之间反复传递和转译,每传一次就损失一次。而 WALL-B 所采用的世界统一模型,更像是一次「统一架构」式的重写——把原本分散的感知、理解、预测和动作能力尽量放进同一个系统里,从底层开始联合训练,减少中间搬运带来的损耗。

图片

自变量之所以现在提出这条路线,一个重要前提是,它认为具身智能的数据积累已经到了一个新的阶段。按它的说法,当数据规模突破某个门槛之后,行业里其实已经开始陆续看到零样本泛化的迹象,只是因为具身场景太多、问题太复杂,不同公司观察到的程度不一样。

在这个判断之上,模型架构本身就变得格外重要。新模型强调「原生多模态」——不是在已有模型上继续打补丁,而是把视觉、语言、动作、触觉等不同模态尽量平等地放进同一个系统里,从头开始训练一个真正面向物理世界的模型。

这也是 WALL-B 这次真正有看点的地方:它想回答「如果从一开始就按具身智能和物理世界的要求来做,一个基础模型应该长成什么样」

02

进家庭,不是为了落地,

而是为了逼模型长出泛化能力

 

如果说,世界统一模型 WALL-B 代表的是自变量对「机器人大脑应该怎么做」的回答;那么把机器人送进家庭,则对应着它对「这个脑应该在哪里继续长出来」的回答。

具身智能赛道里,今天并不缺少「做大脑」的公司。但自变量一个非常鲜明的特点是,它对真实世界数据的重视程度明显更高。尤其是在行业普遍讨论仿真、合成数据,以及如何用更低成本方式快速扩充数据规模的时候,自变量依然把真实数据视作机器人模型演进中最核心的资产之一。

王潜对这件事的判断有一个明确且非共识的看法。

在他看来,互联网视频对于机器人模型而言,那些最容易拿来用的「低垂果实」基本已经被摘得差不多了,行业下一步必须更多转向自己生产数据。仿真当然有价值,但它的上限和约束同样明显:一方面,很多真实世界里的关键参数并不可得,另一方面,像柔性物体这类场景本身就很难被高质量模拟。更有意思的是,自变量还有一个相对非共识的判断——仿真数据未必比真实数据便宜,在某些情况下,前者甚至可能更贵。

这也决定了自变量对「真实数据」这件事的理解,比简单的「多造几台机器人采数据」更复杂一些。

在它看来,真实数据并不等于都必须来自真机本体,无本体的数据采集同样是关键方向;但与此同时,它也没有像行业里不少公司那样,把数据重点迅速转向这一更轻量的路线。

比如今年早些时候,自变量选择与 58 同城合作,在真实场景中用真机收集数据——在大家都在讨论如何绕开真机、用更低成本方式做更多数据的时候,这种选择反而显得有些「逆势」。

图片

而这种数据观,也直接解释了它为什么会在这个时间点把下一步放到家庭。

在自变量看来,工业和家庭其实对应着两种几乎相反的技术目标。工业场景更封闭、更固定,对速度、准确率和稳定性的要求极高;家庭场景则恰恰相反,它是一个极度开放、充满长尾变化、对泛化能力要求近乎极致的环境。前者更适合做后训练、做针对性强化和效率优化,后者更适合检验、拉升和继续塑造一个基础模型的预训练能力。

换句话说,如果一家公司想优先回答的是,机器人怎样在一个确定场景里更快、更准、更稳定地交付价值,那么工业会是更自然的选择;但如果它更关心的是,机器人能不能在一个复杂开放的真实世界里,面对从未见过的空间、物体和任务仍然工作下去,那么家庭就是一个更苛刻、也更有价值的环境。

但这并不意味着,自变量想把家庭变成一个新的数据采集场,让机器人在不同的家里,仍然训练一样的叠衣服。自变量承认,在今天的阶段,人机协作乃至一定程度的遥操作仍然存在。

同时它强调,能够在这个阶段进家庭,正是因为前面所述的基础模型在经过新的架构改造后,已经具备了一定的零样本泛化能力,机器人进入家庭之后,原则上不该先被切成一个个预定义能力包,而是要直接面对一个开放任务集合。除了物理上确实做不到的事情,它希望机器人能够去尝试任何任务。

图片

也就是说,家庭里的价值不只是「采到了多少数据」,而是模型能否在真实执行中持续暴露在新的任务上、同时获取多种环境和多种类型的任务数据,并在下一轮把这些困难真正学进去。

这才是家庭场景对于现阶段的机器人最有意义的点。

03

被四大巨头同时下注,

自变量真正被看中的是什么?

 

如果只看表面,自变量成为阿里、字节、美团和小米四家互联网巨头同时下注的具身智能公司,似乎很容易被解释成「赶上了风口」。但如果把它过去一段时间的动作连起来看,就会发现,它被重仓的原因显然不只是赛道热度。

更核心的原因在于,在当前具身智能竞争中,自变量同时占住了三项最关键、也最难同时成立的位置:基础模型、真实世界数据和机器人本体。

一方面,自变量持续推进 Great Wall 系列基础模型,从 WALL-A 到最新发布的 WALL-B,试图在模型架构、数据效率和泛化能力上做出实质性突破;另一方面,它又高度重视真实世界数据,明确判断互联网视频对机器人模型而言最容易利用的「低垂果实」已基本摘完,行业接下来必须更多依靠自己生产数据,并坚持通过真机和复杂场景去形成数据闭环。

与此同时,公司并不缺少本体能力,在自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等整套硬件体系。换句话说,它并不是只占住了具身智能链条里的某一个环节,而是在试图把模型、数据和身体一起打通。

图片

如果说 2025 年行业的热度,更多还围绕本体能力、运动控制、硬件形态和场景落地展开,那么到了 2026 年,资本开始越来越明确地把筹码压向「身体之外」的另一部分能力——机器人「大脑」的 scaling 潜力。也正是在这个意义上,自变量的投资人名单格外值得注意。

阿里、字节、美团和小米并不是纯财务投资者,更不是对模型没有判断能力的普通产业资本。恰恰相反,这几家公司本身都在持续投入 AI,也都在不同程度上推进机器人、具身智能或相关硬件体系的探索。

也就是说,它们投资自变量,并不是因为自己看不懂这条路;反而正因为它们懂模型、懂系统,也懂这个赛道真正难在哪,所以它们更清楚,什么样的团队只是在追风口,什么样的团队是在搭下一阶段竞争真正需要的能力。

从这个角度看,自变量的特殊性也就更清楚了。和一些国内具身智能头部公司相比,它似乎并不是现阶段最着急铺开商业化场景、尽快把账算过来的那一类。无论是这次发布 WALL-B、提出统一世界模型,还是它强调真实数据、选择让机器人进入家庭、坚持在开放世界里逼模型长能力,这些动作背后其实都对应着同一个方向:不是优先去找一个最好交付、最好算 ROI 的场景,而是优先去搭一个更接近通用智能的系统。

融资之后,公司的重心仍然是继续把资金主要投向物理世界基础模型研发、包括家庭在内的复杂场景拓展与数据收集,以及 AI 基础设施和机器人研发体系的持续升级。从公司成立到现在,自变量最优先加码的,仍然是模型、数据和底层能力体系这些最慢、最重、也最不容易在短期内兑现收入的部分。

这也是具身智能赛道当下一个很有意思的现象:自变量吸引来的,是业内最市场化的一批资金,但这些资金最终支持它继续加码的,却不是最短路径的商业化验证,而是物理世界基础模型、复杂场景和数据体系这类更长周期的建设。

从这个意义上说,四大互联网巨头同时下注自变量,押的已经不只是它今天能做出什么样的机器人,也不只是它眼下能落地多少场景,而是它是否有机会沿着一条更长期的路线,率先把基础模型、真实世界数据和机器人本体真正打通,在下一阶段竞争中占住更核心的位置。

*头图来源:自变量机器人
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待自变量机器人?
图片
图片
图片
图片

 

华为 Pura X Max 深度体验:比起「阔折」,「主动式 AI」更吸引我

图片
一台手机和一台口袋里的小平板,共用一副机身。

作者|张勇毅

编辑|靖宇
 

用 Pura X Max 的第三天,我同时做了两件以前不会在同一台设备上做的事。

早上通勤的时候,我合着盖、单手握,读完了一篇 8000 字的长文。中午回到工位前,把它展开当成一个平板来使用。

中间没有切换任何设备。

这是 Pura X Max 跟它前一代 Pura X 最大的不同。Pura X 仍然是一台『屏幕比例改了一下』的手机,Pura X Max 已经不是了——它合上是手机,展开是一台能装进口袋的小平板。

 

01

上一代 Pura X 的「奇观」

去年 Pura X 上市之后,小红书上慢慢沉淀出一种很有意思的玩家文化——主要是女性用户,她们买了 Pura X 之后会再配一个固定的硬壳,把它常态锁在展开状态下使用,几乎不合上。简单来说,就是把这台一万元的折叠屏,当成一台屏幕比例特殊的直屏机来用——只不过这台『直屏机』的屏,是一块 √2:1 的大屏。

她们在小红书上互相分享这种用法的体验:屏幕比例完美适配 4:3 拍出来的照片、看小红书笔记一屏能多两条、读电子书时跟一本平装书的版心宽度几乎一致——所有这些场景,都因为这块屏的比例对了,自然落了进来。

这个用法听起来挺反常,但它从一个非常诚实的角度,说明了一件事:Pura X 的内屏体验太耀眼了——耀眼到一部分用户愿意放弃『折叠』这个功能本身,只为了让这块屏一直处于最完整的形态。

这件事的反讽意味在于——折叠屏过去七年的核心叙事,是『同一台设备的两种形态』,是『手机和平板二合一』。所有厂商的发布会上,最高光的镜头永远是机身合起或打开的那个瞬间。但 Pura X 的部分用户用脚投票投出来的结论是:他们要的不是『二合一』,是那块比例对了的大屏。 至于折叠这件事,反而被她们当成了一个累赘——既然展开的形态这么完美,为什么还要给它留一个变小的可能性?

Pura X 本身是成功的。年销量做到 150 万台,对至今仍然售价相对较高的折叠屏来说不是小数字。这个成功本身就证明了 √2:1 的内屏方向走对了——对到用户甚至愿意为它牺牲掉折叠功能。

但这个成功也留下了一个新问题:当内屏好到让用户不想合盖,外屏的存在意义是什么?

图片

而 Pura X Max 这一代,华为想接着回答的就是这个被留下的问题。

 

02

Pura X Max 的内屏,长成了一台小平板

 

Pura X Max 的内屏是 7.7 英寸,比例 √2:1(也就是 A4 纸的长宽比)。这块屏铺开来,对角线已经非常接近 iPad mini 的 8.3 英寸——两者落到桌面上,是同一个量级的视觉体量。

关键的不是尺寸,是它做的事变了。

Pura X 的内屏虽然耀眼,但它做的事仍然属于『手机』这个品类——只是用一块更舒展、比例更合理的屏在做手机日常的事而已。这是为什么小红书上那批用户愿意把它锁在展开状态使用——它是『手机这个品类里最舒服的那一种』,但它没有跨过手机的边界。

在 Pura X Max 上展开内屏,事情跨过去了。

图片

Pura X Max 的内屏分成两半之后,每一半还有接近常规手机外屏的可用宽度;这意味着如果你愿意的话,你仍然可以把它当做一个平板来分屏,同时使用两个 App——这对于很多折叠屏用户来讲,可能是一个更熟悉的操作逻辑。

图片

剪映的体验也有结构性的不同。剪一段竖向的 Vlog,左边是预览区,右边是时间轴和素材库,工具栏不用滑动就能全局展示。手写笔轻按可以唤出波轮菜单,切片、调速、加字幕一气呵成。过去我在手机上剪视频是一种「赶时间的妥协」——内容能发出去就行,质量要求降低一档;现在它接近一种正经的工作流。

差别是结构性的。Pura X 的内屏让你「把手机的事做得更舒服」,Pura X Max 的内屏让你「做手机过去做不了的事」。

前者是手机的极致,后者是平板的开端。这就是为什么华为一直在强调,Pura X Max 并非 Pura X 的替代品,而是两个完全不同的品类。

过去手机谈生产力一直有点尴尬——你可以在手机上写字、画图、剪辑,但每一件事都伴随着一种「将就」的体感:屏幕不够、空间不够、视野不够。Pura X 缓解了这种将就感,Pura X Max 把它彻底拿掉。一件事开始之后你不会想着「等我回家用 iPad 再认真做一遍」,而是这一遍就把它做完。

把内屏做成小平板,本身不是最难的——把它做大就行了。

真正难的是:在内屏跨过手机边界变成小平板之后,让合盖的形态依然有自己不可替代的价值,不再像 Pura X 时代那样被『耀眼的内屏』盖过去。

图片

Pura X Max 这一代要解决的,正是这个被 Pura X 留下的悬而未决的问题——让合盖形态有自己的独立价值,让展开和合盖不是同一件事的两种尺寸,而是两种不同的使用类别。

它的解法不是去『修复』合盖(合盖的外屏其实从 Pura X 那一代起就已经合格了),而是从两个方向同时拉开两个形态的距离:

展开侧,给它增加合盖时做不了的事。 7.7 英寸的内屏长成小平板之后,画图、双栏写作、剪辑视频这些事变成了『展开才能做』的事——它们是合盖外屏因为物理尺寸而做不了的事。展开有了独立价值。

合盖侧,让 5.4 英寸的外屏继续延续 Pura X 那块大家认可的好用性——单手握持的边界、口袋里的便携性、走路通勤时随手就能用。 这些是展开形态因为尺寸过大而做不到的事。合盖也有了独立价值。

我用 Pura X Max 的这一周,外屏使用时间占了日常使用的 80% 以上。这跟我用 Pura X 的体感很不一样——Pura X 时代我会主动选择展开,因为展开形态本身就更舒服;Pura X Max 时代我大部分时候不展开,因为合盖已经够用,展开是有了具体目的之后的选择。

读微信公众号的一篇长文,文字落在外屏上,行宽接近一本平装书的版心——我读完一屏的速度比在 iPhone 上要快一些,不是因为屏幕大,是因为眼睛不用频繁返回到左侧。

图片

刷小红书的摄影类笔记,外屏一屏能横向铺开两到三张缩略图。要决定一张图值不值得点开看大图,扫一眼就够。

刷 B 站的横向视频,画面横向铺满,几乎没有上下黑边。

这些是手机的事,外屏完成;画图、双栏、剪辑这些是平板的事,内屏完成。 两块屏不再互相覆盖,也不再互相代偿——它们分别承担了不同类别的使用。

这也是过去七年折叠屏一直没做到的事。

实现这件事的底层支撑,除了硬件设计上的取舍,还有 HarmonyOS 几年下来积累的多设备适配能力。一块外屏比例的应用,展开后能丝滑切换成接近平板的版式;分屏的两个区块,应用能各自独立地按比例渲染——这些事情看起来像是顺理成章,但放在 Android 阵营里看,没有几家能做到这种程度的应用一致性。这是华为愿意把外屏和内屏都做认真的底气来源——他们知道软件能跟上。

 

03

第一台 AI 不需要「召唤」的手机

 

回到产品形态本身,我们都知道,「阔折叠」只是一个起点,它并不是对于「折叠屏是用来干什么的」真正的回答。 而华为在这个起点之上,想给出的新回答就是「小艺伴随式 AI」。

图片

Pura X Max 把小艺伴随式 AI 放成了屏幕右侧的一条常驻窄栏。主内容收窄到大概常规手机的宽度,小艺占据剩下的空隙,两者并行存在,互不打扰。要它的时候它就在,不用召唤、不用切应用、不用喊唤醒词。

这个位置,在过去任何一台手机上都没有过。

AI 真正进入消费产品就是这两三年的事,但手机的交互范式在二十年前就已经定型——主屏、应用图标、点进 App、一个 App 占一整块屏幕。这套范式里从来没给 AI 留位置。所以过去这一两年厂商把 AI 装进手机的时候,能做的选择不多:做成一个独立的 App、塞进下拉菜单、做成长按电源键唤起的浮窗。AI 在手机里始终是被「召唤」的——你先想到它,然后去找它,然后它出现,然后它消失。

图片

Pura X Max 是我用过的第一台不需要「召唤」AI 的手机。

写稿这件事的体感变了:左边一个文档窗口,右边一条小艺侧边栏。读到一个我不确定的参数,直接选中,小艺立刻在侧边给出解释——不用切到浏览器,不用打断写作的状态。读到一段需要补查资料的内容,小艺会主动建议可以延展的方向。整个过程像是右手边坐了一个安静的助手——他知道我在做什么,但只在我看向他的时候开口。

图片

华为 Pura X Max

读小红书的时候是另一种感受。刷到一个不错的摄影点位,过去的操作是截图、保存、下次想用的时候自己翻相册。小艺伴随式 AI 把这一步省了——它能直接识别屏幕上的内容,把地点、时间、构图建议帮你整理好,加进待办。截图是把信息从屏幕里搬出来,小艺是在屏幕里把信息消化掉。

这件事的本质,不是因为模型变得多强,是因为 AI 第一次在手机里有了一个属于它的物理位置。

在直板手机上,AI 一直是被「借用」的——它借用浮窗、借用通知栏、借用某个角落里临时塞进去的按钮,每一次出现都是过路。Pura X Max 给了它一块属于自己的常驻领地。AI 从工具箱里的一把工具,变成了使用环境的一部分。

影像部分,Pura X Max 的第二代红枫影像系统,是我用过的折叠屏里第一台没让我感觉到这个让步的设备。

主摄是 5000 万像素 1/1.56 英寸的传感器,配了一颗 F1.4-F4.0 的十档物理可变光圈——这个配置过去只在直板旗舰上见过。十档可变光圈意味着你能像用真正的相机那样手动调浅景深或大景深,不是计算摄影模拟出来的虚化,是镜头物理收放的虚化。

图片

图片

图片

图片

真正让我意外的是长焦。5000 万像素的 3.5 倍潜望,最大支持 100 倍变焦——这是一颗几乎不该出现在折叠屏上的长焦。过去我用折叠屏拍演唱会、拍发布会现场,都得提前接受「拍不清楚」的预期;这一周拿 Pura X Max 试拍,10 倍以内的画面是干干净净的,没有过去 AI 长焦那种典型的「涂抹纹路」,建筑物的边缘锐利、树叶不糊。

图片

图片

图片

图片

图片

图片

Pura X Max 实机样张:摄影师:FlyingFist

 

说完了优点,目前关于 Pura X Max 的一些槽点,我觉得也有必要和大家分享一下:第一个是单手操作的边界。85mm 的外屏宽度,比常规直板手机的 75mm 多了一截。我手不算小,单手回消息、刷信息流、看视频都没问题,但要点屏幕另一侧的按钮,得换个握法或者用左手辅助。如果你手偏小,这台手机更接近一台「需要双手」的设备。

第二个是相机模组。三摄横向排开的 Deco 块体积不小,机身展开后竖着拿,重心明显偏上。陶瓷边框的质感很好,但凸起也确实夸张。这是为了塞进 50MP 潜望长焦付出的代价。

第三个是续航。外屏好用是把双刃剑——我在外屏上消耗的时间比预期更多,5300mAh 的电池一天一充压力不大,但也没什么富余。如果你对它的期待是重度使用,一定记得带块充电宝。

 

 

04

折叠屏下一程

 

回过头看,Pura X 和 Pura X Max 走的是同一条产品线,但解决的是两个不同的问题。

Pura X 解决了「折叠屏的内屏可以是一块用户愿意一直用的大屏」。Pura X Max 解决了「折叠屏的内屏可以是一台真正的小平板,与此同时,让合盖形态从『内屏的影子』里走出来,变成一种独立的使用类别」。

这两件事加起来,指向的不是一个「更大的折叠屏手机」,而是一个过去并不存在的设备类别:能装进口袋的小平板

这个判断会被后续市场进一步验证。传闻中的折叠屏 iPhone 据说也会用接近 √2:1 的比例,三星、小米也都在跟进。一旦比例成为共识,比的就不再是「谁的内屏更大」,而是:谁能在做出小平板的同时,让合盖形态依然是一台你愿意单手拿出来用的手机。

这件事比想象中难。它要求厂商同时在两个完全不同的产品逻辑下做对——平板的逻辑和手机的逻辑——并且让它们共用一套硬件、一套系统、一套生态。Pura X Max 之所以能做到,背后是 HarmonyOS 几年积累下来的多设备适配能力。换一家厂商不一定能短期内追上。

图片

苹果是这个赛道最值得关注的变量。一旦折叠屏 iPhone 真的落地,它会带着 iPad 多年沉淀下来的 iPadOS、Pencil、Magic Keyboard 整套生产力生态进场。这是华为目前还没完全展开的牌——HarmonyOS 在多设备协同上做得很扎实,但生产力生态的丰富度还有空间。Pura X Max 拿出的这一手「口袋小平板」,本质上是在替整个 Android 阵营抢一个时间窗口:在苹果带着完整生态进场之前,把这个新品类的标准先立下来。

如果一年后再回头看,能在折叠屏市场拉开身位的产品,比拼的不是参数表,是这套「双身份」的完成度。

合着,是一台我愿意带出门的手机。打开,是一台我愿意工作的小平板。

折叠屏走过七年,这是第一次。

*头图来源:PuraXMax
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你买折叠屏,到底是为了那块更大的屏,
还是为了「折叠」这件事本身?
图片
图片
图片
图片

 

豆包上线「帮你选」功能; 5999 元,泡泡玛特首推冰箱;高铁试点「坐火车带自行车」 | 极客早知道|极客早知道

英特尔股价周五暴涨 24% 创 1987 年以来最大单日涨幅

4 月 25 日消息,英特尔股价周五飙升 24%,创下自 1987 年 10 月以来的最佳单日表现,投资者对因人工智能需求增长而带来的复苏迹象感到振奋。

该股收于 82.57 美元,继 2025 年全年上涨 84% 之后,今年迄今已累计上涨 124%。上周五的涨势超过了该股在 9 月 18 日 23% 的涨幅——当时英伟达同意向英特尔投资 50 亿美元。

去年年初接任首席执行官的陈立武,通过争取特朗普政府和英伟达的投资,并帮助这家此前基本被排除在 AI 热潮之外的芯片制造商挤入该领域,重新激发了华尔街对这家陷入困境的芯片公司的兴趣。

Evercore ISI 分析师在财报发布后的一份报告中写道:「英特尔的新任首席执行官修复了资产负债表,并正在执行一项似乎使英特尔重回竞争轨道的战略。」该机构将英特尔股票评级上调至相当于「买入」的级别。

公司营收超出预期,同比增长 7.2%,从上年同期的 126.7 亿美元增至 135.8 亿美元。在此前七个季度中,该公司有五个季度营收同比下滑。英特尔还发布了乐观的第二季度业绩指引。

华尔街的反弹标志着这家美国芯片制造商的重大转折。该公司在 2024 年市值蒸发了 60%,导致时任首席执行官帕特·基辛格于当年 12 月被免职。多年来,由于受困于制造延误并等待其芯片代工业务的大客户出现,该公司基本上缺席了 AI 竞赛。(消息来源:环球市场播报)

时隔 6 个月,英伟达市值再次突破 5 万亿美元

4 月 24 日消息,英伟达股价上涨 3.08%,股价 209.500 美元,总市值再次突破 5 万亿美元(现汇率约合 34.22 万亿元人民币)。

值得注意的是,英伟达股价已连续四周上涨,本月累计涨 18%。(消息来源:IT 之家)

 

DeepSeek-V4 虽迟但到!百万上下文成标配 华为昇腾和英伟达均被写进其技术报告

4 月 24 日,深度求索(DeepSeek)宣布,全新系列模型 DeepSeek-V4 预览版正式上线并同步开源,API 服务亦同步更新。

该系列分为 Pro 和 Flash 两个版本,全系标配 1M(一百万)超长上下文。在技术架构上,DeepSeek-V4 引入了新型注意力机制与 DSA 稀疏注意力,并结合 mHC(流形约束超连接)和 Engram(条件记忆)模块,旨在大幅降低计算与显存需求,打破「芯片墙」与「内存墙」桎梏。

性能方面,Pro 版在 Agent 能力、世界知识及推理性能上表现优异,尤其在代码任务中处于开源领先地位。

DeepSeek-V4 已在英伟达 GPU 及华为昇腾 NPU 平台验证细粒度 EP 方案。

受算力限制,Pro 版目前服务吞吐有限,预计在下半年昇腾 950 上市后价格将大幅下调。目前,该模型仍专注于纯文本与语音,尚未上线原生多模态能力。此前在 2 月 11 日的灰度测试中,该模型知识库已更新至 2025 年 5 月。(消息来源:财联社)

谷歌计划向 Anthropic 投资至多 400 亿美元 支持后者大幅扩展算力

Anthropic 周五表示,谷歌承诺现在将以现金形式投资 100 亿美元,对公司的估值为 3500 亿美元,与其 2 月融资时的估值相同(不包括近期新增融资)。此外,谷歌将在 Anthropic 达到业绩目标时再投资 300 亿美元,并支持其大幅扩展算力。

随着 Claude Code 这一可加速软件开发流程的 AI 智能体取得突破性成功,Anthropic 正加快融资步伐。该公司本周早些时候表示,从亚马逊获得了另一笔 50 亿美元投资,对其估值同样为 3500 亿美元,并附带未来追加 200 亿美元投资的选择权。今年 2 月,Anthropic 已融资 300 亿美元,此后投资者寻求按 8000 亿美元或更高公司估值入股。

谷歌的张量处理单元(TPU)是英伟达芯片的重要替代方案之一,在需要巨量算力的 AI 行业,这些芯片对 Anthropic 等开发者来说既稀缺又关键。

Anthropic 最早可能于 10 月进行首次公开募股,目前正积极寻求更多基础设施以满足产品需求的增长。Claude Code 已迅速成为硅谷工程师的首选工具,包括部分谷歌员工也在使用。

Anthropic 首席执行官 Dario Amodei 早年曾在谷歌从事 AI 研究。自他于 2021 年与一批前 OpenAI 员工创立 Anthropic 以来,两家公司一直保持密切联系。去年,谷歌表示将向 Anthropic 提供多达 100 万枚 TPU 芯片,该交易价值达数百亿美元。(消息来源:环球市场播报)

豆包上线「帮你选」功能,与抖音电商实现交易闭环

4 月 24 日消息,一个名为「豆包帮你选」的功能已内嵌在豆包 App 导航栏中。

据悉,「豆包帮你选」并非简单的商品陈列入口,而是以「对话式交互」为核心,匹配用户潜在购物需求。用户无需手动搜索商品,只需通过语音或文字向豆包提出购物诉求,豆包都会快速梳理需求,列出不同选项的优缺点、价格对比,甚至结合用户过往偏好给出个性化建议。

更关键的是,该功能已实现与抖音电商的深度打通,完成了交易闭环的构建。

今年 3 月,字节跳动旗下的豆包已开始内测「购物下单」功能,支持在豆包 App 内直接下单商品并完成支付,无需跳转抖音。

字节跳动 CEO 梁汝波曾提到,对字节跳动而言,短期内的「高峰」就是豆包 / Dola 助手。他指出,豆包用户规模增长较快,产品体验持续提升,但与全球头部竞品仍存在差距。(消息来源:IT 之家)

消息称微软计划 51 年来首度在美实施员工自愿买断退休

4 月 24 日消息,据美媒 CNBC 得到的一份 Microsoft(微软)内部备忘录,这家拥有 51 年历史的科技巨头当地时间本周四表示计划首次在美国实施员工自愿买断退休计划。

消息人士透露,这份计划面向高级总监及以下级别、不参与销售激励计划、年龄与工龄之和超过 70 年的员工,满足要求者占到微软美国员工总数的 7% 左右。

微软执行副总裁兼首席人力资源官 Amy Coleman 在文件中表示:「我们希望该计划能让符合条件的人在公司慷慨的支持下,自主选择下一步发展方向。」

与此同时,微软也在调整其绩效制度方式:公司将不再要求管理人员将股票激励与现金奖金直接挂钩,这为管理者提供了更大的操作灵活性;此外对于经理层级的员工,微软将 9 种薪酬方案简化到了 5 种。(消息来源:IT 之家)

5999 元,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」开启预约

4 月 24 日消息,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」现已在京东开启新品预约,产品主打 LABUBU(拉布布)元素,体积 121L,标价 5999 元

据介绍,这款冷藏箱表面采用 4 层套印工艺,正面印有 LABUBU 和 TYCOCO 形象,还原艺术家龙家昇原作的神韵和质感。带有平嵌一体式柜门,方便清洁。

功能方面,这款冷藏箱带有冷冻区、保鲜抽屉、私享空间三个储物空间,运行噪音 33dB(A),支持全域控温,冷藏箱可调 3 档温度。

此外,这款产品还带有 LABUBU 把手,内部也有 LABUBU 装饰板,表面刻有限定编号专属 ID。(消息来源:IT 之家)

950km 续航全球第一!比亚迪大唐 EV 开启预售:25 万元起

4 月 24 日,比亚迪大唐在 2026 北京车展正式开启预售。

新车共推出 800KM 后驱、950KM 后驱及 850KM 四驱三款车型,预售价区间为 25-32 万元。预售期间下订用户可享受 18 个月免费闪充、车漆限时优惠选装以及 3 年 3 次免费基础保养等多项权益。

动力方面,大唐 EV 提供三种续航版本,四驱版零百加速为 3.9 秒,并配备闪充技术、云辇-A 及双腔空气悬架。DM-i 车型电机最大功率 300kW,DM-p 车型电机总功率达 400kW,零百加速 4.3 秒。

外观上,新车采用纯电 SUV 造型与双色车身,配备隐藏式门把手及激光雷达。配置上,该车搭载天神之眼 5.0 驾驶辅助系统与多模型 AI 座舱,支持自主泊车。车身长度 5263mm,轴距 3130mm,采用「2+2+3」七座布局,并配备 252L 电动前备箱。(消息来源:快科技)

高铁将试点坐火车可以带自行车 骑行爱好者通过 12306 客户端办理

针对旅客日益多样化的出行需求,铁路部门正在不断优化个性化服务。自 5 月 19 日起,京张高铁将在北京北至崇礼站区间试点自行车随身行服务。这意味着骑行爱好者可以带着心爱的单车,直接搭乘高铁前往目的地。

旅客只需通过 12306 客户端即可在线完成预约和付费。为了确保行车安全与车厢秩序,携带的自行车需要经过车站安检,并在规范包装后存放在指定区域。这一举措极大方便了那些骑行爱好者。

根据国铁集团的规划,2026 年铁路与旅游的融合将进一步深化。相关部门计划在全年开行旅游列车超过 2500 列,并精心打造 50 条以上的精品旅游路线,让铁路网成为连接各大风景名胜的便捷纽带。

为了激活旅游市场,铁路部门还推出了一系列惠民举措。从 4 月底至 6 月底,将陆续开行 179 趟专项旅游列车,并在 4 月到 5 月期间发放铁路旅游消费券,通过实实在在的补贴降低旅客的出行成本。

针对银发群体,铁路部门同样准备了专属福利。在 5 月 30 日至 6 月 30 日期间,年满 60 周岁及以上的中国公民在周中时段乘坐部分动车组列车时,可以享受票价折上折的优惠,以此鼓励更多老年人错峰出游。(消息来源:快科技)

 

 

DeepSeek 正式发布 V4 API:Flash/Pro 双版本齐发,百万上下文成标配

 

极客一问:你怎么看这次 DeepSeek V4 的更新?

 

头图来源:GPT生成

 

万众期待中,DeepSeek V4,终于发布了!

 

就在刚刚,被期待已久的DeepSeek V4 预览版正式登场。两个版本——V4-Pro 和 V4-Flash,全系标配 1M(百万字)超长上下文,同步开源模型权重和技术报告

 

五一前的这两天,大模型又进入新一轮发布潮。

 

4月23日中午,「天才少年」姚顺雨交出加入腾讯后的第一份模型答卷,腾讯混元 Hy3 预览版亮相,2950 亿参数的 MoE 架构,激活参数 21B,推理效率提升 40%,输入价格压到 1.2 元/百万 tokens。

今天凌晨,OpenAI 面向付费用户上线 GPT-5.5 并官宣 API 计划,主打 Agent 工作流和多步骤任务完成,上下文窗口拉到 100 万 tokens,API 定价也水涨船高——输入 5 美元、输出 30 美元/百万 tokens。

 

表面上,三家路径各不相同:OpenAI 走高端闭源路线,继续抬高价格天花板;腾讯把模型塞进自家生态,用性价比撬动规模化商用;DeepSeek 则延续开源传统,同时把上下文长度推到一个新的普惠临界点。

 

同时,Agent 能力、超长上下文、代码与工具调用,这三个关键词在三家发布的新模型里反复出现。他们都在同一个方向上加注:让模型能处理更长的信息,能在更复杂的任务链条里自主运作,能真正嵌入到工作流程中去干活

 

DeepSeek V4 的「实用主义」

 

DeepSeek 这次发布,把百万字上下文从「高端选配」变成了「基础标配」。

 

在此之前,1M 级别的上下文长度,更多出现在旗舰闭源模型的高端版本里,高昂的调用成本足,以让大多数开发者和中小企业望而却步。

 

而 DeepSeek 的做法十分明确:V4-Pro 和 V4-Flash 两个版本全系标配 1M 上下文长度,前者锚定极致性能,后者提供普惠经济之选,完整覆盖不同需求层级的用户。这种 「无差别下放核心能力」 的策略,本质上是在彻底降低长文本处理能力的行业获取门槛。

 

图片来源:DeepSeek官网

 

Flash 版本主打极致低延迟与高性价比,是 DeepSeek 面向轻量化高频场景给出的核心方案。凭借 13B 的激活参数、全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化,它在保障接近 Pro 版核心推理能力的同时,实现了极快的响应速度,对于实时对话交互、函数调用流水线,乃至所有对响应速度敏感的轻量化场景而言,这一特性能带来体验上的本质提升。

 

更关键的是具有竞争力的成本结构

 

根据 DeepSeek 官方 API 定价文档,Flash 版本采用阶梯式计费规则:缓存命中的输入 token 低至 0.2 元 / 百万 tokens,缓存未命中的输入 token 为 1 元 / 百万 tokens,输出 token 定价为 2 元 / 百万 tokens。

DeepSeek V4 各个版本成为|图片来源:DeepSeek API 文档

 

如此亲民的定价,叠加全系标配的 1M 上下文能力,使得 「单次调用成本」 不再是工程设计中的核心约束 —— 开发者可以优先考虑产品体验与架构设计,而无需反复在调用次数与费用之间做权衡。

 

Flash 解决的是 「用得起、用得快」 的普惠需求,V4-Pro 则在回答另一个核心问题:开源大模型的能力边界,究竟还能被推到哪里。

 

最直观的能力跃升,依然围绕长上下文展开。DeepSeek 将模型上下文长度从上一代 V3.2 的 128K,直接拉升至 1M(一百万 token),配合底层架构的创新,在大幅降低长上下文计算与显存需求的同时,保障了全上下文窗口的性能无损。

 

在这一规模下,开发者可以直接导入完整代码库、超长行业文档、多轮项目档案甚至百万字级别的完整书籍进行端到端处理,无需额外搭建复杂的检索增强生成(RAG)系统,大幅简化了长文本处理的技术链路。

 

在底层架构上,Pro 版本采用了总参数 1.6T、激活参数 49B 的 MoE 架构,预训练数据量达 33T,是对 DeepSeek 混合专家路线的全面深化。官方评测数据显示,其在数学、STEM、竞赛级代码等核心推理测评中,超越了当前所有已公开评测的开源模型,达到了比肩世界顶级闭源模型的水平。

 

在 Agent 能力上,其交付质量已接近 Claude Opus 4.6 非思考模式,内部使用反馈优于 Anthropic Sonnet 4.5,成为了 DeepSeek 内部员工的主力 Agentic Coding 工具。

 

功能层面,V4 全系列两个版本均同时支持非思考模式与思考模式,开发者可通过reasoning_effort 参数自定义思考强度,同时全量支持 Json Output、Tool Calls、对话前缀续写能力。

 

定价方面,Pro 版本同样延续了高性价比路线,官方定价为:缓存命中的输入 token1 元 / 百万 tokens,缓存未命中的输入 token12 元 / 百万 tokens,输出 token 定价 24 元 / 百万 tokens,显著低于海外同级别旗舰闭源模型。

 

API 接入也做到了极致低门槛,开发者无需修改原有 base_url,仅需将 model 参数替换为对应版本名称,即可完成接入,同时兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式。

 

这种 「能力上探 + 成本下探」 的组合拳,让顶级的大模型能力不再是少数厂商的专属资源。当行业内卷逐渐陷入参数军备竞赛的怪圈,DeepSeek 用全系标配百万上下文、全链路开源开放的选择,给大模型的普惠化,给出了一个全新的范本。

 

同时,DeepSeek V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项适配和优化,在代码任务、文档生成等实际场景中表现均有提升。模型的价值最终要在真实的开发和工作流程里被检验。

 

继续开源,API 全量开放

 

DeepSeek 延续了开源路线,并直接全量开放 API 调用。

 

目前,DeepSeek-V4 的模型权重已同步在 Hugging Face、ModelScope 平台开放下载,配套的技术报告也一并公开,支持开发者进行本地部署与二次开发。

 

与部分厂商「开源阉割版、闭源完整版」的行业惯例不同,本次开源的两个版本,完整保留了与官方云端 API 一致的全量能力 —— 包括非思考 / 思考双模式、1M 超长上下文无损处理、Agent 专项优化与全量工具调用能力,无任何功能阉割。

 

这意味着,无论是中小创业公司、个人开发者,还是科研机构,都能零门槛获取到百万上下文、顶级推理与 Agent 能力的大模型底座,无需再为高端模型能力支付高额的闭源接口费用。

 

为了进一步降低落地门槛,DeepSeek 同步开源了模型微调、量化、推理加速的全流程工具链,完成了 vLLM、TGI 等主流推理框架,以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生适配,同时开放了国产算力平台的全栈部署方案,让开发者在不同硬件环境下都能快速落地应用。

 

与此同时,DeepSeek 也给出了清晰的模型迭代过渡方案:旧有的 API 接口模型名 deepseek-chat 与 deepseek-reasoner,将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段,这两个模型名分别指向 deepseek-v4-flash 的非思考模式与思考模式,给开发者留出了充足的平滑迁移时间。

 

3 坚定做 AI「基建模型」

 

把这两天的发布连起来看,一个趋势很明确:各家都在加速 Agent 能力。

 

过去两年,公众和资本市场对大模型的关注,很大程度上集中在「聪明程度」,但现在已经转向了「谁更能稳定地把事情做完」。GPT-5.5 的发布重点不在于多模态理解又提升了多少,而是它在 Agent 编程、计算机使用、知识工作等场景中的持续执行能力。腾讯混元 Hy3 的核心卖点也在于它在现实世界中的「行动能力」。DeepSeek V4 则直接把 Agent 能力和长上下文处理作为主打,目标明确地指向实际工作负载。

 

这种转变的背后,是整个行业正在走向「模型效用」的竞争。现在,用户和企业客户越来越不关心你的模型在某项评测里排第几,他们关心的是模型及产品到底能帮自己干好多少活儿:这个模型能不能帮我写代码、能不能处理复杂文档、能不能在多步骤任务里不出错、能不能以合理的成本跑起来。

 

图片来源:DeepSeek官网

 

在今天发布的文末,DeepSeek 引用了《荀子》里的一句话:「不诱于誉,不恐于诽,率道而行,端然正己」,继续锚定了自己的技术路线。放在当下的大模型竞争语境下,这句话的意味很明确——不被外界的评价和噪音干扰,专注于把事情做对。

 

DeepSeek 过去一年多的行动,确实在践行这个逻辑:用开源开放建立全球开发者生态影响力,用极致的性价比打破高端 AI 能力的使用壁垒,用扎实的底层架构创新解决开发者与企业用户最真实的痛点。

 

从 R1 推理模型的横空出世,到 V4 把长上下文能力第一次推向普惠区间,DeepSeek 一直在用一种相对“慢”的方式,做一件更难的事——把顶级模型能力,从少数人的工具,变成更多人可以直接调用的基础设施

 

大模型上车两年,为什么「真·AI 汽车」现在才出现?

今天在北京车展上爆火的极氪 8X,有网友放出了一段新车演示视频,用户坐在车里说了一句「带我去接孩子放学,顺便找一家麦当劳,5 点前我要到学校」。

接下来发生的事情,和你过去对「智能汽车」的认知完全不同。车辆自主规划路线,启动智能驾驶,中途停靠麦当劳,到达学校门口自动泊车。整个过程,用户不需要碰导航、手动切换智驾模式、或者在停车场里找车位。

这不是一个语音助手在帮你搜索,而是一个 Agent 在替你执行。

在这个炫酷演示的背后,需要的不是「在车里接入一个聪明的大模型」,而是一套从「大脑」到「四肢」都打通的整车智能体系统

AI 上车喊了三年。为什么到今天,我们才开始看到这样的产品?

 

从 ChatBot 到「AI 上车」

回头看这两年的「大模型上车」热潮,一个尴尬的事实是——大模型进了车,但并没有真正变成车的一部分。

2024 年到 2025 年,几乎所有车企都宣布接入了大模型。DeepSeek、千问、豆包,各家轮番登场,座舱语音助手确实变聪明了不少。它能陪你聊天,能查百科,做得好的把车辆手册灌进去了,可以告诉你「轮胎压报警怎么办」。

但最终,这还是一个跑在座舱里的对话机器人。

语音助手管不了方向盘,智驾系统也不知道你刚才跟车机聊了什么。就像给一个人装了一颗聪明的大脑,但大脑和手脚之间没有神经连接。智驾技术有自己的演进路线——从规则驾驶到 BEV+Transformer,到端到端,再到 VLA+世界模型——但这条路和座舱智能完全是两条平行线

这种割裂不是因为没人想解决,而是确实难。

第一个挑战是模型本身。行业主流做法,是拿一个通用大语言模型,再用智驾数据做后训练。这种「拼接式」路径能让模型聊天,但不能让它真正理解物理世界——它不懂交警手势意味着什么,不懂复杂路口里行人和车辆的博弈逻辑。想走向 L4,模型需要从预训练阶段就具备对物理世界的理解,而不是事后「补课」。

第二个挑战是架构。智驾和智舱是两套系统、两颗芯片、两个团队。要实现「一句话调动全车」,整车架构需要从底层重构——感知、决策、交互,得统一在同一个模型体系下。

第三个挑战是量产。从 PPT 到量产车之间,隔着芯片适配、车规安全、成本控制和 OTA 迭代,拼凑式的合作模式很难高效跑通这个闭环。

也就是说,真正的 AI 汽车,需要的不是在车里放一个聪明的大模型,而是用 AI 重写汽车的底层逻辑。

 

谁有更好的答案?

2026 年北京车展前夕,几乎所有厂商都在喊「AI 汽车」。但仔细看各家的方案,你会发现它们解决的是不同层面的问题。

智己和阿里合作的 IM AIOS 生态座舱,强项在于把阿里的生态服务——饿了么、高德、支付宝——以 Agent 的形式搬进了车里。用户用自然语言就能点外卖、订餐厅,体验确实新鲜。但它的核心聚焦在座舱服务层,不涉及智驾融合。

字节的豆包大模型接入了别克至境、荣威等多个品牌的座舱,主要提升语音交互的智能度。这属于「模型即服务」的轻量合作——模型公司提供 API,车企在座舱里调用,各自边界清晰。

这些方案各有价值,但有一个共同点——模型和车之间,是 API 接入的关系,不是从底层融合的关系。

4 月 22 日,阶跃星辰与千里科技宣布达成全面战略合作,双方将联合共建「原生智驾基座模型」。这个合作的打法,和上面几种方案走的是一条完全不同的路。

核心差异在于「原生强耦合」。

传统路径是「先做一个通用大模型,再拿到车上做适配」。阶跃和千里的做法是反过来——从基础模型的预训练阶段,就同时注入通识数据和智驾数据,让模型原生具备对物理世界的理解能力。不是把一个通用大脑塞进车里,而是从头培养一个「懂开车」的大脑。

阶跃星辰的技术底座撑得住这件事。作为国内知名的基模公司,阶跃围绕「AI+终端」战略,构建了一套完整的技术体系。面向 Agent 场景的旗舰基座模型 Step 3.5 Flash,发布以来在 OpenRouter 调用量登顶全球第一,成为全球开发者构建智能体的首选模型之一。

在多模态领域,阶跃拥有国内最全的自研模型矩阵——语音交互、音频推理、图像理解、图像生成、视觉语言模型,覆盖了汽车场景从「听」到「看」到「说」的全链路感知需求。在部署层面,阶跃构建了从 1B 到 200B 参数的端云协同模型体系——端侧轻量模型负责实时感知和快速执行,云侧大模型负责复杂场景的推理和决策,形成类似人类大脑「快思考+慢思考」的分层架构。

千里科技则补上了另一半——全栈工程能力

 

双方的合作不是简单的商务结盟,而是对「AI 原生汽车」同一终局的共同押注。技术架构对齐,产品愿景对齐,从模型设计,到终端部署形成完整闭环。

有人把这称为最符合「Grok + FSD」叙事的中国组合——特斯拉用 Grok 大模型,和 FSD 智驾的原生融合定义了 AI 汽车的标杆,而阶跃 × 千里,是目前中国最接近这一模式的搭配。

值得注意的是,阶跃的生态拼图还在持续补全。

4 月 23 日,阶跃星辰与腾讯云达成战略合作,双方将围绕智能座舱展开深度协作。腾讯在音乐、视频、地图、支付等领域的生态矩阵,将通过智能座舱 Agent 与用户连接——基于个性化偏好做内容推荐,打通从需求识别到交易完成的车内服务闭环。

如果说阶跃+千里解决的是「大脑+四肢」的问题,腾讯云的加入则补上了「生态服务层」,让这个智能体不仅会开车,还能帮你点歌、导航、付费。

 

真正的「AI 汽车」,要来了

而极氪 8X,是阶跃和千里「Grok + FSD」模式下最新的量产标杆。

Step 3.5 Flash 从全面开源到正式上车,只用了 40 多天——这个速度本身就说明了原生强耦合模式在工程效率上的优势。

极氪 8X 首发搭载的超级 Eva 整车智能体,实现了大模型与智驾、底盘、动力的原生融合。基于阶跃最强语音模型,Eva 具备情绪理解和思辨能力,语音自然且富有感情;基于视觉理解模型,Eva 能看到车周围的环境并做出判断——路况、车位、周边商铺,都在它的感知范围内。

4 月 17 日极氪 8X 正式上市,29 分钟大定突破 10,000 台——市场在用脚投票。

 

两年前,大模型刚上车的时候,它能做的最多是帮你查一下附近的麦当劳在哪里。今天,它能替你规划路线、开车、停车、点餐,全程只需要一句话。

这个变化的背后,不是某个模型变强了,而是模型和汽车的关系从根本上变了——从「外挂 App」变成了「原生大脑」。

当 AI 真正成为汽车的底座而不是配件,驾驶体验的变革,才刚刚开始。

GPT-5.5 来了,但这次 OpenAI 想证明的不只是「更聪明」

作者|桦林舞王

编辑| 靖宇

 

如果几年前有人跟说,「你以后评测一个新 AI 模型,可能还没写完稿子,下一代就出来了」,你大概率会觉得是扯淡。

但现在,这件事真的发生了。

GPT-5.4 发布于六周前。今天,GPT-5.5 已经在 ChatGPT 上向付费用户推送。

这不是一次普通的版本迭代。OpenAI 给它的定位是「全新的智能等级」—— 在实际服务中保持与 GPT-5.4 相当的推理延迟,同时实现智能水平的「大幅跃升」

一句话翻译过来就是:更聪明,但更快。

根据目前大家体验反馈,OpenAI,这次可能真的要「翻盘」了!

 

01

「更快」和「更强」,

这次 OpenAI 想两个都要

 

理解 GPT-5.5 的核心逻辑,得先理解 AI 行业长期以来的一个悖论。

模型越聪明,往往越慢、越贵。这几乎是一条默认的行业规律 。你想要更深的推理、更复杂的任务处理,就得付出更高的延迟和更多的计算成本。用户和企业客户在这两者之间,往往只能选一个。

GPT-5.5 想打破这个取舍。

 

 

GPT5.5 的表现在同类中显得比较突出|图片来源:OpenAI

 

OpenAI 声称,新模型在「真实世界服务」中,每 token 延迟与 GPT-5.4 持平,但智能水平已经远超后者。VentureBeat 的测试数据显示, GPT-5.5 在 14 个基准测试中达到了最先进水平 ——相比之下,Anthropic 的 Claude Opus 4.7 达到 4 个,Google Gemini 3.1 Pro 达到 2 个。

在能力维度上, GPT-5.5 的强项集中在编写和调试代码、在线研究、数据分析、文档处理,以及操作软件等「代理式」任务上

OpenAI 联合创始人 Greg Brockman,把它称为向「更具代理性和直观的计算」迈进的「重大进步」。

最让人有感知的案例来自 Jackson Laboratory。基因组医学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了 2.8 万个基因的数据集,几分钟内生成了一份完整报告——这项工作他的团队通常要耗费数月。

这不是压缩时间,是改变工作方式本身的量级。

 

02

六周一代,这是产品节奏还是市场焦虑?

 

但更值得注意的,是这 OpenAI 发布节奏背后的信号。

六周。GPT-5.4 到 GPT-5.5,只有六周。

回看过去两个月,OpenAI 的动作密集得有些不寻常。4 月 21 日,ChatGPT Images 2.0 发布,Sam Altman 在直播中说从 gpt-image-1 到 gpt-image-2 的飞跃「相当于从 GPT-3 到 GPT-5 的跳跃」。同一天,OpenAI 宣布与咨询公司合作向企业推广 Codex,首席收入官 Denise Dresser 表示这将帮助触达「自己单独无法接触到的」企业客户。

Codex 目前已有超过 400 万周活跃用户 ——两周前是 300 万,上个月是 200 万。这个增速本身就说明了问题。

 

 

Cursor CEO 发来贺电|图片来源:OpenAI

 

与此同时,OpenAI 还在过去几周,完成了对个人金融初创公司 Hiro 和新媒体公司 TBPN 的收购。前者被解读为「不只是聊天机器人,而是更值得付费的东西」,后者则明显是为了「更好地塑造公众形象——而最近的形象并不理想」。

把这些动作放在一起看,你会感受到一种隐约的紧迫感。

这家公司刚刚完成了 1220 亿美元的新一轮融资,每月营收达到 20 亿美元。从任何角度看,这都是一家全球最有钱的 AI 公司之一。但社交媒体上关于「OpenAI 失去消费者吸引力」「在企业客户争夺中落后于 Anthropic」的声音,并没有因为这些数字而消失。

GPT-5.5 的发布,某种意义上是 OpenAI 对这些质疑的一次公开回应

 

03

基准测试赢了,但企业要的是「不出错」

 

不过,用基准测试来定义胜负,在企业市场往往是个误导。

纽约银行 CIO Leigh-Ann Russell 说得很直接——她最在意的不是某个能力有多强,而是「响应质量和令人印象深刻的幻觉抵抗」。「银行需要非常高的准确度,这对一个受高度监管的机构来说很关键。」

这句话代表了相当大一批企业客户的真实诉求。 他们不是在选「最聪明的 AI」,他们在选「最不会出错的 AI」

这也是 Anthropic 在企业市场能持续拿下份额的原因——Claude 系列在「安全性」和「可预测性」上长期保持着很高的品牌认知。GPT-5.5 在基准测试上的全面领先,要真正转化为企业合同,还需要在「可信赖度」这个维度上积累更多证据。

一个细节值得注意:NVIDIA 内部有工程师表示,「 失去 GPT-5.5 的访问权限,感觉像是被截断了一条四肢 」。这种说法在行业内部流传,某种程度上说明 GPT-5.5 的能力,已经在部分高端用户中建立了真实的依赖感。

但从「有人非常喜欢」到「企业愿意在核心系统上部署」,中间还有很长的距离。

 

04

当速度本身成为竞争力

 

从更高的视角看,GPT-5.5 这次发布揭示了一个更深层的行业趋势。

前沿 AI 实验室的竞争,正在从「谁的模型更强」演变为「谁的迭代更快」。

六周一个大版本,这在两年前是不可想象的。而且不只是版本号的更新,每次迭代背后都有真实的能力跃升——Axiom Bio 的 CEO Brandon White 甚至预测,如果 OpenAI 保持这个速度,「药物发现的基础,将在今年年底前改变」。

这句话可能有些乐观,但它捕捉到了一种真实的感受: AI 能力的提升速度,正在开始超越大多数人对它应用潜力的想象

OpenAI 首席研究官 Mark Chen,把 GPT-5.5 在科学和技术研究领域的能力,总结为「有意义的进展」,并指出它可以「帮助专家科学家取得进步」。这个措辞值得玩味——不是「替代」科学家,而是「帮助专家取得进步」。这是一种在展示能力的同时,主动管理叙事的方式。

GPT-5.5 面向 Plus、Pro、Business 和 Enterprise 订阅用户,同时在 ChatGPT 和 Codex 中推出。这个分发策略本身就是商业信号——既要守住消费者端的用户粘性,又要在企业端通过 Codex 和咨询合作伙伴加速渗透。

两条腿走路,节奏还在加快。

六周后,我们大概会看到 GPT-5.6。

*头图来源: OpenAI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

OpenAI 最强模型 GPT-5.5 上线;传特斯拉与 SpaceX 终将合并;票价 20 万!12306 惊现豪华专列

OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、输出提速 50 倍

4 月 24 日,OpenAI 正式发布旗下迄今最智能的 AI 模型 GPT-5.5。该模型核心突破在于大幅升级的 Agent 智能体能力,能精准理解用户模糊指令,自主规划、调用工具并执行多步骤复杂任务,无需用户精细管控每一步流程,在 Agentic Coding、计算机使用、科研等领域表现卓越,相较前代模型,可在完成相同任务时显著降低 Token 消耗,以更少的指导完成更多任务。

性能层面,GPT-5.5 实现了智能水平与运行速度的平衡,尽管模型规模更大、能力更强,但其单 Token 延迟与 GPT-5.4 持平,同任务所需 Token 量大幅减少。

在多项权威测试中,该模型表现亮眼:在 Artificial Analysis 的 Coding Index 中以竞品一半的成本实现 SOTA 水准,Terminal-Bench 2.0 测试准确率达 82.7%,SWE-Bench Pro 测试中拿下 58.6% 的成绩,Expert-SWE 等长周期任务表现均超越前代,同时在系统架构理解、故障定位等方面的能力也获得早期测试者的高度认可。

开放与定价方面,GPT-5.5 目前已向 OpenAI Plus、Pro 等用户开放使用,API 版本也即将上线。定价上,该模型基础版输入定价为每百万 Token 5 美元(约合人民币 34.2 元),Pro 版本输入定价为每百万 Token 30 美元。

GPT-5.5 的落地离不开 OpenAI 与英伟达的深度合作,该模型运行于 NVIDIA GB200 NVL72 机架级系统,为智能体编程应用 Codex 提供核心算力支撑。目前英伟达内部已有超 1 万名员工在工程、法务、市场等多部门率先使用该技术。(来源:IT 之家)

马斯克传记作者艾萨克森:特斯拉与 SpaceX 终将合并

马斯克传记作者沃尔特·艾萨克森(Walter Isaacson)近日明确表示,他坚信特斯拉(Tesla)与 SpaceX 最终会走向合并。这一判断与近期市场分析不谋而合,凸显了马斯克旗下两大核心资产日益紧密的联系。

目前,两家公司已在资本与技术层面展开深度绑定。特斯拉本季度斥资 20 亿美元购入 SpaceX 股份,这是罕见的跨公司资本流动。同时,双方正计划在得克萨斯州联合建设名为「TERAFAB」的芯片制造设施,以支持各自的 AI 算力需求,这被视为业务整合的关键一步。

Wedbush 分析师丹·艾夫斯(Dan Ives)此前预测,两家公司可能在 2027 年完成合并。他认为,此举旨在构建一个垂直整合的 AI 生态系统,将特斯拉的自动驾驶、机器人技术与 SpaceX 的卫星网络及太空数据中心相结合,形成强大的协同效应。

然而,合并之路并非坦途。巨大的估值差异可能让特斯拉股东面临权益稀释的风险,此外,如此大规模的合并势必会引发全球反垄断监管机构的严格审查。尽管如此,随着两家公司边界加速消融,投资者押注的核心似乎正从单一公司转向马斯克本人及其宏大的未来愿景。(来源:环球市场播报)

继 Anthropic 之后,消息称微软 GitHub Copilot 将转向按 Token 计费

AI 编程工具的订阅制模式似乎已走到尽头。即便对微软、Anthropic 这类大型 AI 公司而言,每月 20–30 美元的定价模式也难以为继。Anthropic 已面向企业客户推出按 token 计费模式,而 GitHub Copilot 也正朝着同一方向调整。

4 月 23 日消息,埃德・齐特伦的专栏《Where's Your Ed At》证实,GitHub Copilot 将于 6 月 1 日起转为按 Token 计费,官方公告预计将于本周发布。目前,GitHub Copilot 用户根据订阅套餐享有固定的「请求次数」额度,例如 Pro 套餐每月 300 次,Pro+ 套餐每月 1500 次。

后续 GitHub Copilot 将不再以「请求次数」计费,改为按输入与输出 Token 的实际成本收费。举例来说,若选用 GPT-5.4 模型,开发者需为每百万输入 Token 支付 2.50 美元,每百万输出 Token 支付 15 美元。

用户仍需按月支付订阅费才能使用 GitHub Copilot 平台,但不再享有固定次数的高级请求额度,而是根据订阅等级获得对应数量的 AI Token。企业版 GitHub Copilot 用户将获得共享 AI 额度,可在组织内部统一调配使用。

据埃德・齐特伦消息,每月付费 19 美元的 GitHub Copilot Business 客户将获得价值 30 美元的共享 AI 额度,每月付费 39 美元的 Copilot Enterprise 客户则将获得价值 70 美元的共享 AI 额度。(来源:IT 之家)

姚顺雨带队重构混元,Hy3 preview 上线

姚顺雨交出了加入腾讯后的第一份模型答卷。

4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。

官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了「快慢思考」机制。

21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而「快慢思考」的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。(来源:极客公园)

特斯拉:第三代人形机器人预计年中亮相

4 月 23 日消息,特斯拉官方发布微博称,特斯拉第三代人形机器人 Optimus V3(擎天柱第三代)预计年中亮相,2026 年 7-8 月启动正式投产,产品测试稳步推进,预计 2027 年投入外部场景应用。

据了解,特斯拉第三代人形机器人才是面向用户销售的量产版本,特斯拉曾发布消息称,第三代特斯拉人形机器人通过观察人类行为即可学习新技能。

截至目前,特斯拉在人形机器人领域已经推出了 Optimus 第一代和第二代。其中,第一代人形机器人能够实现基础行走和搬运。第二代人形机器人配备 22 自由度灵巧手,2024 年进入工厂测试。

马斯克曾表示,人形机器人将成为特斯拉有史以来最重要的产品,甚至可能是人类历史上最重要的产品之一。(来源: TechWeb)

宇树科技展示轮足人形机器人,可完成滑冰、前空翻等高难度动作

4 月 23 日消息,宇树科技在今日发布的最新视频中展示了轮足人形机器人。画面显示,人形机器人可以完成流畅的滑冰、轮滑等动作,实现 360 度转身、单足转圈、前空翻等。

宇树科技称,「人形机器人是最理想的通用机器人(适配通用 AI 和人类数据),可以没有轮子,也可以有轮子,随意。」

去年 11 月,宇树科技在官网上线了一套人形机器人数采训练全栈解决方案。该方案基于一款轮式机器人 G1-D,由人形机器人本体、系统化的数据采集工具和全面的模型训练及推理工具组成。(来源:IT 之家)

iPhone Fold 折叠屏金属模型现身

苹果首款折叠屏 iPhone Fold 预计将在今年秋季正式亮相。已有博主提前拿到了这款备受瞩目的折叠屏金属模型,并揭秘了其真实的机身比例与设计细节。

根据模型对比显示,iPhone Fold 展开后的宽度与 iPhone 17 Pro Max 的机身高度基本相当。已知 iPhone 17 Pro Max 的高度约为 150 毫米,这意味着这款折叠屏在展开状态下将拥有一个近乎正方形的巨大视野。

在与 iPad mini 的横向对比中,iPhone Fold 显得更加精致且利于便携,大小与 iPad mini 显示面积非常接近。其屏幕尺寸在 7.7 英寸左右,而 iPad mini 屏幕尺寸是 8.3 英寸。

核心配置方面,这款顶级旗舰将搭载基于台积电 2 纳米先进工艺打造的 A20 Pro 芯片。配合 12GB 运行内存,影像系统则由两颗 4800 万像素的镜头组成,分别负责主摄与超广角拍摄。

行业分析师预测,iPhone Fold 的起售价将轻松突破 2000 美元,折合人民币后的售价在 1.4 万元左右。顶配版本的售价甚至可能逼近 3000 美元,它将毫无疑问地成为 2026 年苹果 手机产品线中定位最高、工艺最复杂且价格最昂贵的顶级旗舰。(来源:快科技)

兰博基尼推出「史上最个性化」Urus:限量 630 台,主打色彩自由

4 月 24 日消息,据外媒 Carscoops 报道,兰博基尼在米兰设计周推出限量版 Urus SE Tettonero Capsule 车型。该车型由兰博基尼个性化定制部门 Ad Personam Studio 与设计中心联合打造,核心亮点是前所未有的定制自由度,堪称迄今最能「随心搭配」的 Urus 车型。

这款车型的核心卖点是丰富的个性化配色及外观选择,共提供 6 种车身主色,其中黄色和绿色为 Urus 车系首次引入;车身上半部、车顶等部位可做亮黑色处理,还可搭配 6 种强调色点缀车身细节,同时提供 6 种制动卡钳颜色、多款 21 至 23 英寸轮圈,以及多种碳纤维外观套件,前门还可加装「63」标识提升辨识度。

内饰以黑色为主题,采用高档皮革和超细纤维材质,可加入 6 种撞色元素,座椅、头枕及内饰绣线提供 12 种配色方案;车内配备碳纤维饰板、副驾前方 Urus 图案装饰,还有纪念 Ad Personam Studio 成立 10 周年的碳纤维铭牌,车门饰板等部位可额外选装碳纤维装饰。

动力方面,该车搭载插电混动系统,由双涡轮增压 4.0 升 V8 发动机、电动机、25.9 千瓦时电池组和 8 速自动变速箱组成,综合最大输出功率 588 千瓦、峰值扭矩 950 牛·米,0-100 公里/小时加速仅需 3.4 秒,最高时速 312 公里,纯电续航超 60 公里;该车全球限量 630 辆,售价暂未公布,官方配置器已上线供买家尝试搭配。(来源:来源:IT 之家)

12306 惊现豪华旅游专列:票价超 20 万元 运营方回应

近日,有网友在社交平台分享,铁路 12306 平台上一款名为「丝路梦享号」的豪华旅游专列,17 天南北疆行程票价高达 204000 元/人,远超普通列车票价,迅速成为网络焦点。不少网友对此表示惊讶,认为价格超乎想象,也有网友认为该产品面向高端人群,符合市场细分需求。

这款高价专列并非普通客运列车,而是由入驻 12306 平台的旅游公司运营的高端定制旅游产品。

行程从西宁出发并返回,全程覆盖新疆多个核心景区,采用一价全包模式,包含交通、住宿、餐饮、景点游览等全部服务,还配备专属管家、全程摄影师跟拍以及特色主题餐饮,主打私密、高端、沉浸式旅行体验。

运营方工作人员表示,该专列定位高端市场,软硬件对标高端酒店标准,全程不安排购物与自费项目,地接服务由自有团队执行,采用一房一车小型接待模式,保障私密性与舒适度。

列车仅设 38 间独立客房,满载约 76 人,无多人间布局,公共空间充裕,部分套房面积达 22 平方米,配备智能卫浴等高端设施,整体配置在国内同类产品中处于较高水平。

针对高价疑问,运营方解释,20 万元为成人标准价,费用覆盖 17 天全程服务,并非单纯车票。目前销售情况良好,其中价格超百万元的顶级套房已售出两间。(来源:快科技)


❌