阅读视图

发现新文章，点击刷新页面。

杨植麟、罗福莉、夏立雪、张鹏、黄超，五个AI圈顶流把龙虾、Token 、开源聊透了

爱范儿

莫崇宇

2026年3月27日 14:04

龙虾，是最近 AI 圈出现频率最高的词汇。

它指的是 OpenClaw，一个近期在AI圈迅速蔓延的开源智能体框架。有人觉得它像贾维斯，有人觉得它像脚手架，有人觉得它像轻量级操作系统，所有人都在用，而且越用越停不下来。

围绕它的讨论也随之而来：龙虾能干什么，干不了什么，下一步往哪走，算力够不够，谁在受益，谁在焦虑。

现在，行业里最靠近前线的一批人坐下来，认真聊了聊这件事。就在刚刚，月之暗面创始人杨植麟在北京中关村论坛年会的开源主题圆桌中主持了一场五人谈话，智谱创始人张鹏、无问芯穹创始人夏立雪、小米 MiMo 大模型负责人罗福莉、香港大学助理教授黄超共同参与。

对话从 OpenClaw 的实际使用体验出发，延伸至模型定价逻辑、推理基础设施的结构性瓶颈、模型架构创新，以及对未来十二个月行业走向的集体判断。

从聊天到真正干活，OpenClaw 改变了什么

论坛开场，杨植麟抛出了一个共同话题：日常使用 OpenClaw 或类似产品，最有想象力的体验是什么？从技术角度看，如何理解今天智能体框架的演进方向？

张鹏说，他很早就开始自己动手折腾这类工具，当时还不叫 OpenClaw，最早叫 ClawBot。毕竟是程序员出身，折腾这些东西有自己的手感。在他看来，OpenClaw 最大的突破在于把顶尖模型的能力，尤其是编程和智能体方面的能力，交给了普通人。

「这件事不再是程序员或极客的专利。它在模型上方搭起了一个牢固又灵活的脚手架，让原来因为不会写代码而无法实现的想法，今天通过简单的对话就能完成。」他更愿意把 OpenClaw 这类工具称为脚手架，它提供的是一种可能性，而不是一个封闭的产品。

夏立雪的第一反应是不适应。他习惯了和大模型聊天的交流方式，一开始发现 OpenClaw 响应慢，觉得很卡。但后来他意识到，这类工具和聊天机器人有本质区别：它更像是一个能承接大型任务的人，而不是一个回答问题的工具。

「从按 token 计费的模型，到能帮你完成任务的智能体，AI 的想象力空间已经做了一次大的跃升。但与此同时，对整个系统能力的要求也大幅提升，这就是我一开始觉得它卡的原因。」

他随后披露了一个直观的数据：无问芯穹从今年一月底开始，基本上每两周 token 用量翻一番，到目前为止已经翻了十倍。「上次见到这个增速，还是 3G 时代手机流量刚普及的感觉。那时候大家每个月一百兆流量，现在的 token 用量就是那种感觉。」

他认为，现有的所有资源想要支撑这个快速增长的时代远远不够，需要更好的优化和整合。

罗福莉从产品框架设计角度给出了不同的观察。她把 OpenClaw 视为 agent 框架领域一次革命性和颠覆性的事件。她注意到，深度 coding 圈子里很多人的第一选择依然是 Claude Code，但她认为只有真正用过 OpenClaw 的人才能感受到这个框架在设计层面的独特之处，包括近期 Claude Code 的很多新更新，其实也在向 OpenClaw 的设计方向靠近。

她总结了 OpenClaw 核心价值的两个层次。

第一是开源。开源让整个社区能深度参与、持续改进，这是一个非常重要的前置条件。她认为，开源框架的一个关键价值在于把国内参数量不那么大、但水平仍然可观的模型的能力上限大幅拉高，

「在绝大部分场景下，任务完成度已经非常接近 Claude 最新模型的水平，同时它靠一套完整的 harness 系统和 skills 体系把下限也保证得很好。」

第二是点燃了大家对大模型之上那一层的想象力，也就是智能体层。她看到越来越多非研究员背景的人开始通过更强的 agent 框架参与 AGI 的变革，一定程度上替代自己工作中的重复任务，把时间释放出来做更有创造力的事情。

她还提到了一个具体的使用感受：相比 Claude Code 只能在桌面上延展创意，OpenClaw 可以随时随地参与进创意过程，想象力的扩展没有场景限制。

黄超从交互模式切入，分析了 OpenClaw 能引发广泛关注的原因。

他认为第一个关键因素是「活人感」。以往的 Cursor、Claude Code 这些 agent 工具，使用起来更像工具；OpenClaw 以 IM 软件嵌入的交互方式呈现，让人感觉更接近自己想象中的个人贾维斯。「这种活人感是很多人第一次真正觉得 AI 要来了的时刻。」

第二个因素是，OpenClaw 再次验证了 agent loop 这种看似简单但极为高效的框架范式。第三个值得思考的问题是，我们到底需要一个 all-in-one 的超级智能体，还是一套类似轻量级操作系统或脚手架的存在，去撬动整个生态里所有的工具和能力。

他倾向于后者，认为 OpenClaw 更像一个操作系统级别的小管家，通过这个入口，社区里越来越多的人开始设计面向这类系统的应用，以 skills 和 harness 的形式去赋能各行各业，这和整个开源生态天然结合得非常紧密。

干一个任务，消耗原来百倍的 token

杨植麟随后把问题引向了智谱最新发布的 GLM-5-Turbo 模型，以及伴随而来的提价策略，并问这背后反映了什么样的市场信号。

张鹏说，这次更新是在整个发展目标中提前放出来的一个阶段性成果。核心目标只有一个：从「对话」转向「干活」。OpenClaw 让大家意识到大模型真的能帮人完成任务，但这背后对模型能力的要求远超以往。

「它需要自己做长时间的任务规划，不断压缩上下文，随时 debug，还要处理多模态信息。这和传统面向对话的通用模型完全不同。」

GLM-5-Turbo 在这些方面做了专门的加强，尤其是在如何让模型持续自我 loop、不停执行任务这个问题上投入了大量工作。同时也做了效率优化，在面临复杂任务时能用更高效的推理路径完成，避免用户只看到账单上的数字在不停往下掉。

对于提价，在他看来，现在完成一个复杂任务，模型背后的推理链路很长，要写代码、要和底层基础设施打交道、要随时修正错误。消耗的 token 量可能是回答一个简单问题的十倍甚至百倍。模型变大了，推理成本相应提高，价格自然要回归正常的商业价值。

「长期靠低价竞争，对整个行业的发展都不利。我们需要一个良性的商业闭环，才能持续优化模型能力，持续给大家提供更好的服务。」

现有的云计算架构，并非为 AI 设计

随着 token 用量的爆发和行业从训练时代转向推理时代，推理基础设施的压力成为不可回避的话题。

夏立雪说，无问芯穹是一家诞生在 AI 时代的基础设施厂商，目前同时为 Kimi、智谱以及多所高校科研机构提供服务，也在和 memo 合作。他们一直在思考一个核心问题：AGI 时代需要的基础设施是什么样的，以及如何一步步去实现和推演它。

在他看来，当前脚下最紧迫的问题是如何打造一个更高效的 token 工厂。

无问芯穹的做法是从软硬件打通的角度出发，接入了国内几乎所有种类的计算芯片，将几十种芯片和几十个不同的算力集群统一连接起来。「资源不足时，最好的办法有两个：第一，把能用的资源都用起来；第二，让每一分算力都用在刀刃上，发挥出最大的转化效率。」他们也在探索最新的模型结构和硬件结构之间能否产生更深的化学反应。

但他认为，仅仅打造一个标准化的 token 工厂还不够。他提出了一个更根本的判断：当前大量云计算基础设施，在设计上服务的是人类工程师，而不是 AI。「我们做了一个基础设施，上面的接口是为人做的，再往上包一层才能接入智能体。这种方式用人的操作能力限制了智能体的发挥空间。」

他举了一个具体的例子：智能体能做到秒级甚至毫秒级地思考和发起任务，但现有的很多底层能力根本没有为这个速度做好准备，因为人类发起一个任务通常是分钟级别的。这个问题需要打造一套更智慧化的调控系统，他们把它称为 agency 能力的一部分。

从更长远的视角看，他认为真正 AGI 时代到来时，连基础设施本身也应该成为一个智能体，能够自我进化、自我迭代，形成自主的组织。「相当于基础设施有一个 CEO，这个 CEO 是一个 agent，它根据 AI 客户的需求自己提需求、迭代自己的基础设施。这样 AI 和基础设施之间才能产生真正的耦合，而不是一个接收需求、另一个执行的单向关系。」

他们目前也在探索让 agent 和 agent 之间更好地通信，以及 cache to cache 的复制能力。在他看来，基础设施和 AI 的发展应该产生非常丰富的化学反应，这才是真正意义上的软硬协同，也是无问芯穹一直想实现的使命。

算力限制，反而催生意外突破

罗福莉没有直接回答小米的独特优势，而是把问题拉到了整个中国大模型团队的层面，认为这个视角更有价值。

她说，大约两年前，她就看到中国基座大模型团队开始了一次非常重要的突破。这个突破来自于一个被逼出来的命题：在有限算力、尤其是 NVLink 互联带宽受限的情况下，如何突破低端算力的限制，在看似为了效率妥协的情况下做模型结构上的创新。

DeepSeek V2、V3 系列，以及后来的 MiniMax M1 等，都是这类探索的产物。

「这些创新引发了一次真正的变革：怎么在算力一定的情况下，把智能水平发挥到最高。DeepSeek 给所有国内大模型团队带来了一个勇气和信心。」她强调，虽然今天国产芯片的限制已经没有那么严峻，但这段时间被逼出来的对更高训练效率、更低推理成本的模型结构探索，形成了真正有价值的技术积累。

她提到了几个具体方向：混合稀疏架构（hybrid sparse）、Kimi 的 KSA 架构、小米面向下一代的新结构。这些都区别于当前这一代的 transformer 架构，是在思考如何为智能体时代做更好的模型结构创新。

她特别强调了长上下文能力的重要性，并把它和 OpenClaw 直接挂钩。

「OpenClaw 越用越好用、越用越聪明，前提是你的推理上下文足够长。但很多模型做不到一兆甚至十兆的 context，不是能力问题，是成本问题，推起来太贵、速度也太慢。只有在长上下文下成本够低、速度够快，才能把真正有生产力价值的复杂任务交给模型去完成。」

她进一步描述了这条路径的终点：在超长 context 的支撑下，模型可以在复杂的环境里完成对自我的进化，包括对框架本身的优化，也包括对模型参数本身的迭代。这个方向在预训练侧要做好长上下文架构，在后训练侧要构造更有效的学习算法，采集在一兆、十兆、百兆上下文里真实具有长期依赖性的文本和复杂环境轨迹数据。

她也分享了一个来自团队内部的数据：借助 Claude Code 加顶尖模型的组合，团队做大模型研究的同学，研究效率已经提升了近十倍。

规划、记忆与工具调用

黄超从技术角度系统梳理了当前智能体框架在三个核心模块上的主要痛点和未来方向。

规划层面，他认为面向复杂任务、超长上下文的规划能力仍然不足。比如五百步甚至更长的部署任务，很多模型做不好规划，本质上是缺乏垂直领域的隐性知识。他认为一个方向是把复杂任务的领域知识固化到模型里。skills 和 harness 这类工具，一定程度上也是在通过提供高质量的外部能力来缓解规划中出现的错误。

记忆层面，信息压缩和检索精度始终是难题。任务复杂度上升时，context 会暴增，目前各类智能体框架普遍采用的还是文件系统这种最简单的共享方式。他认为未来的 memory 机制需要走向分层设计，但通用化很难实现，因为 coding 场景、deep research 场景、多媒体场景的数据模态差异极大，如何对这些 memory 进行高效检索和索引，始终是一个 trade-off 问题。

他还指出了一个新的压力来源：未来可能不止一个智能体，每个人可能同时拥有一群智能体，Kimi 的 agent swarm 机制已经指向了这个方向。一群智能体带来的上下文暴增，会远超单个智能体，对 memory 机制和整个 agent 架构都是非常大的压力，目前还没有一套成熟的机制来应对这个问题。

工具调用层面，他认为高质量的 skill 依然稀缺，这和当年 MCP 时代高质量工具稀缺的问题如出一辙。低质量的 skill 会直接拉低任务完成率，恶意注入的安全风险也是一个不容忽视的问题。他认为这需要整个社区共同建设，甚至需要探索如何在执行过程中动态进化出新的 skill，而不是依赖人工预设。

未来十二个月：生态、自进化、可持续 Token 与算力

论坛最后，杨植麟请每位嘉宾用一个关键词描述未来十二个月最重要的趋势。

黄超感慨，十二个月在 AI 领域已经是很遥远的事情，不知道届时会发展成什么样子。他给出的关键词是「生态」。他认为现在大家使用智能体还带着新鲜感，但未来真正的挑战是让它沉淀成日常工具，从个人助手转变为真正的打工人和 coworker。这需要模型迭代、skills 平台建设、各类工具的共同推进，大家一起把整个生态向智能体原生的方向拉。

他还提出了一个有趣的判断：未来大量软件可能不再面向人类，而是面向智能体原生设计的。人类需要 GUI，但智能体不需要，整个生态正在从 GUI 和 MCP 的模式转向 CLI 模式。这意味着软件系统、数据乃至各种技术，都需要完成一次向 agent native 的转型。

罗福莉给出的词是「自进化」。她说这个概念听起来有点玄，但她最近对它有了更具体的体感和更务实的实操方案。关键在于：借助足够强大的模型，当你在智能体框架里叠加一个可验证的约束条件，再设定一个持续的 loop，让模型不停迭代优化这个目标，你会发现它能持续拿出更好的方案，而且能自主运行两三天。

她举了一个具体案例：在探索更好的模型结构这类有明确评估标准的科研任务上，模型已经能够自主运化和执行两三天。「自迭代是唯一能创造出这个世界上不存在的新东西的路径，它不是替代人的生产力，而是像顶尖科学家一样去探索未知。我一年前觉得这需要三到五年，但现在我认为一到两年内就可能真正实现。」

她预计，结合强大的自迭代 agent 框架，对科研的加速将达到指数级。

夏立雪选择了「可持续 Token」。他说，现在整个发展还在一个持续的过程中，需要让它有长久的生命力。他用了「AI made in China」来描述他的愿景：把中国在能源和算力上的优势，通过高效的 token 工厂持续转化为优质的 AI 能力，输出到全球。

「从 made in China 到 AI made in China，逻辑是一样的。中国能把低成本的制造能力变成好商品输出全球，同样可以把这种能力迁移到 token 的生产和输出上。」他希望在今年看到这件事真正成形，让中国成为世界的 token 工厂。

张鹏的关键词则是「算力」。

在他看来，「所有技术的前提，是大家用得起。你不能因为算力不够，提一个问题让它思考半天也不给答案，这肯定不行。」

他提到了一句在行业里流传的话：没卡没感情，谈卡伤感情。需求已经是十倍百倍地爆发，而很大一部分需求还没有被满足。他认为，算力问题是接下来十二个月最需要大家一起想办法的事情。龙虾打开了想象力的上限，但算力、架构和基础设施，还在进步的路上。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

一篇论文引发存储芯片股暴跌，Google 的「DeepSeek 时刻」来了？

爱范儿

莫崇宇

2026年3月26日 13:41

看过 HBO 神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为 Pied Piper（魔笛手）的虚构公司念念不忘。

在剧中，男主角 Richard Hendricks 发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。

当时我们都以为这只是编剧的脑洞。直到 Google Research 正式发布了名为 TurboQuant 的 AI 压缩算法。

这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到 24 小时，就收获了 1280 万次浏览。原因无他，这项技术的设定简直就是 Pied Piper 的翻版：

在不损失模型性能的前提下，将 AI 的「工作记忆」压缩至少 6 倍。

市场的反应也极为真实，美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。

这不禁让人好奇，一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神，而 Google 到底向当前的 AI 牌桌上扔了一张怎样的底牌？

困在「记忆黑洞」里的大模型

抛开网络热梗，TurboQuant 的出现其实不仅是为了好玩，更是为了解决一个让整个 AI 行业头疼已久的真实瓶颈。

众所周知，现在的 AI 模型越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也就是你和 AI 聊天的时候），AI 需要记住上下文信息，这部分数据被称为 KV Cache（键值缓存）。

每处理一个词，模型都要把它转成一个高维向量存进 GPU 显存。对话越长，这份「数字备忘录」膨胀越快，很快就把 GPU 显存塞满。这就是为什么你的 AI 助手聊久了会「变笨」或者直接报错，脑容量不够了。

更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。

Google 的 TurboQuant 的诞生正是基于此。

研究人员设计了一套两阶段的数学解法。第一阶段叫 PolarQuant，把数据向量从传统的直角坐标系转换成极坐标系，拆分成「半径」（表示大小）和「角度」（表示方向）。

这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，开销为零。

第二阶段叫 QJL（量化 Johnson-Lindenstrauss 变换），充当数学层面的纠错器。它把压缩后残留的误差投影到低维空间，再把每个误差值压缩成一个符号位（+1 或 -1）。

这个设计保证了 AI 在计算「注意力分数」时，压缩版本的结果与高精度原版在统计意义上完全一致。所谓注意力分数，就是模型判断上下文里哪些词最重要的关键步骤。

如果说以前 AI 记笔记是「逐字逐句抄写」，那么 TurboQuant 就像发明了一套「极简速记符号」：该记的一个不漏，占的空间却少了六倍。

这套方法还有一个对企业来说格外友好的特性：无需重新训练模型。你现有的开源模型，或者自己微调过的模型，直接套上 TurboQuant 就能跑，不用额外的数据集，也不用重新跑一遍训练流程。

光说不练假把式，在「大海捞针」基准测试里，让 AI 从 10 万个词里找出一句藏好的话，TurboQuant 在 Llama-3.1-8B 和 Mistral-7B 上跑出了满分召回率，同时把 KV Cache 的显存占用压缩了至少 6 倍。

在 LongBench 综合评测套件（涵盖问答、代码生成、长文摘要）上，TurboQuant 全面追平甚至超过了此前的最强基线方法 KIVI。

最硬核的数字来自英伟达 H100 GPU 的实测：4 位精度的 TurboQuant 在计算注意力逻辑上的速度，比未压缩的 32 位方案快了整整 8 倍。

论文发布后的 24 小时内，社区已经开始动手验证。

Apple Silicon MLX 框架的知名开发者 @Prince_Canuma 把算法移植到了 Apple Silicon 的 MLX 框架，测试 Qwen3.5-35B 模型，上下文长度从 8500 到 64000 token 全覆盖，每个量化等级都跑出了 100% 的精确匹配。他还发现，2.5 位的 TurboQuant 能把 KV Cache 压缩近 5 倍，准确率零损失。

Google 的「DeepSeek 时刻」？

对于 TurboQuant 的发布，Cloudflare CEO Matthew Prince 甚至将其称为 Google 的「DeepSeek 时刻」。

把时间拨回一年前，DeepSeek 以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对高成本才能训练出高性能 AI 的迷信。那次冲击也让整个行业意识到：光有大模型不够，还得跑得起、跑得快。

TurboQuant 也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值。同样一张 H100，推理成本理论上可以直接打折超过 50%；端侧部署的门槛也会大幅降低，以前需要 32 位精度才能跑的大模型，放在 Mac Mini 或者本地服务器上也能运行，还不会有质量损耗。

市场的反应，已经很说明问题了。TurboQuant 发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过 2%。

究其原因，如果 AI 巨头能用一套纯软件算法把显存需求砍掉六分之五，那些押注 AI 会持续疯狂消耗高带宽显存的多头，就得重新盘算自己的仓位了。

而这种防御性反应背后，也表明，过去两年支撑存储股估值的核心逻辑之一，是 AI 对显存的需求只会越来越大。TurboQuant 第一次在技术层面正式动摇了这个假设。

当然，虽然听起来很美好，还是要泼一盆冷水。

一方面，历史上每次效率提升，往往反而带动了总需求增长，经济学里叫「杰文斯悖论」。AI 跑得更便宜，可能意味着更多人更频繁地用它，最终消耗的算力反而更多。所以这场「显存危机」到底会不会因此化解，还真不好说。

另一方面，TurboQuant 目前仍处于实验室阶段，根据最新消息，Google 计划在下个月的 ICLR 2026 大会上正式展示这项技术，届时还将同步亮相另一场顶会 AISTATS 2026。

但从论文到大规模生产部署，中间隔着工程适配、不同架构的兼容性测试、真实场景的性能验证，每一关都不轻松。

▲论文地址：https://arxiv.org/abs/2504.19874

有网友直接开炮，这篇论文的底层研究其实早在去年四月就已公开，根本谈不上横空出世，眼下的舆论热潮，多少有点追着旧闻起哄的意思。

在他看来，如果存储股因为一篇算法论文而大跌，恰恰暴露了市场里有多少人根本没搞清楚这件事的边界，并把这波反应比作「丰田出了新混动引擎，石油就该崩盘」。

更重要的是，TurboQuant 解决的只是推理（Inference）阶段的显存瓶颈，训练阶段的显存消耗依然是另一座大山。想从头训练一个主流量级的大模型，需要的算力资源依然是天文数字。

在《硅谷》里，Pied Piper 的压缩算法最终改变了整个互联网。而在现实中，TurboQuant 的野心没那么大，目标只是让 AI 在有限的物理空间里记得更多、算得更快、跑得更便宜。

现实终究不是好莱坞剧本，不必彻底改变互联网，能和 AI 聊得更长、不再半途报错，已经是很多人想要的了。

附上 TurboQuant 官方技术博客：

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

突发！Sora 宣布关停，史上最贵 AI 表情包生成器只撑了七个月

爱范儿

莫崇宇

2026年3月25日 10:58

去年 9 月底，Sora 2 上线的第一天，OpenAI CEO Sam Altman（山姆·奥特曼）就把自己的 cameo 权限向所有人开放。很快，他被做成各种荒诞 AI 表情包在社交媒体疯传。

网友玩得不亦乐乎，社交媒体上「AI 视频元年」的口号铺天盖地。

七个月后，他亲手签下 Sora 的死亡通知书。

▲网友还是懂玩梗的

据《华尔街日报》报道，奥特曼在内部信中宣布：Sora 视频平台将全面停运。不只是那个消费端 app，开发者 API、ChatGPT 里的视频生成功能，统统砍掉。干净利落，不留余地。

就在刚刚，Sora 官方也在 X 平台上发文告别：

「我们将与 Sora 应用说再见。对于所有使用 Sora 创作、分享并围绕它建立社区的大家：谢谢你们。你们用 Sora 创作的内容意义重大，我们知道这个消息令人失望。
我们很快将分享更多信息，包括应用和 API 的时间表，以及保存你们作品的细节。
– Sora 团队」

这大概是 AI 行业过去一年里，最戏剧性的情节。

一个 AI 视频模型杀手的速生速死

回到去年 9 月，Sora 的发布可以说是 OpenAI 最高调的一次产品秀。

它不是一个简单的视频生成工具。OpenAI 给它设计了社交 feed 流，用户可以用 AI 生成视频、发布、互相观看。

本质上，这是一个 AI 原生的短视频社区。奥特曼本人亲自下场玩梗，鼓励用户把他剪进各种流行文化的名场面里。

排场拉满了，市场反响也是真实的。Sora 上线不到五天，下载量就突破了 100 万，一度冲上苹果 App Store 榜首。开局阶段，用 Sora 生成《海绵宝宝》《皮卡丘》等知名 IP 视频的创作者们引发了一阵狂欢。

但问题从一开始就埋下了。

据《华尔街日报》报道，Sora 上线时，OpenAI 内部就有员工对这个项目消耗的算力规模感到「惊讶」，因为彼时完全没有明确的用户需求验证，公司却已往里砸了大量计算资源。

换句话说，这是一个老板觉得该做的产品，而用户真正的持续需求，始终没有被验证。

数字不会说谎，上线后，这种担忧也逐渐变成了事实。硅谷风投机构 a16z 合伙人 Olivia Moore 在社交媒体上晒出一张 SensorTower 的监测截图：Sora APP 的 30 天用户留存率仅为 1%，60 天留存率直接归零。

奥特曼自己后来也承认，大量用户主要用 Sora 制作趣味表情包分享给好友。这种一次性的娱乐行为，天然缺乏复购动力，也几乎没有变现路径。

产品本身的体验也在加速流失。

实测数据显示，Sora 生成的视频中，真正达到可发布水准的仅占 5% 到 10%，用户平均需要生成十条视频，才可能得到一条满意的结果。加上单次渲染动辄数分钟，一个勉强可用的成片往往要耗掉大半小时。

这种「靠运气」的创作体验，对内容创作者来说是致命的。

版权问题，则从另一个方向压缩了用户的创作空间。

上线初期，生成知名 IP 视频的能力是 Sora 最大的吸引力，但版权方的强烈反对很快迫使 OpenAI 将授权规则从默认可用改为需明确授权，并大幅加强了内容限制。新鲜感退潮之后，留下来的创作空间已所剩无几。

社区功能同样乏善可陈。推荐算法单一，优质内容得不到曝光；用户只能点赞，没有评论和收藏；视频播放过程中无法暂停；搜索体验混乱。

正如 Olivia Moore 所分析的：「纯 AI 生成内容的社区，效果劣于人机混合内容的形态。」Sora 产出的优质内容，最终大多流向了短视频平台，它只是一个创作工具，从来没有成为一个独立的社交产品。

一个烧钱的无底洞

留存问题之外，更直接压垮 Sora 的，是它的运营成本。

据外媒估算，每日约 1500 万美元的运营开销（年化约 55 亿美元）、单段 10 秒视频 1.3 美元起步的生成成本、复杂场景下高达 33 美元的单次费用，这些数字让 Sora 的商业模式从一开始就站在悬崖边上。

Sora 负责人 Bill Peebles 甚至公开承认，当前的运营模式「完全不可持续」，团队 GPU 资源已经不堪重负。
为了控制成本，OpenAI 被迫将免费用户的每日生成额度从 30 个削减至 6 个。

但这个决定本身是一把双刃剑，进一步削弱了普通用户的参与意愿，加速了留存的崩塌。与此同时，Google Gemini、Meta，以及国内的可灵、即梦等竞品相继推出视频生成功能，加速了用户的分流。

当 60 天留存率趋近于零的数据摆上桌面，停运就只是时间问题了。

只是，如果说 Sora 的故事里有什么最让人唏嘘的细节，那一定是迪士尼的那 10 亿美元。

去年 12 月，迪士尼宣布向 OpenAI 投资 10 亿美元，并签署了一份为期三年的授权协议。超过 200 个迪士尼角色将被引入 Sora，用户可以和卢克·天行者一起挥光剑，把自己塞进《玩具总动员》的世界里。

这本该是 AI 与内容产业最具标志性的联姻。

但这笔交易从未完成交割。据知情人士透露，Disney 方面实际上从未完成这笔投资，合同始终停在纸面上。OpenAI 宣布退出视频业务，直接宣告了这笔合作的终结。

迪士尼发言人表示：「随着新兴 AI 领域的快速发展，我们尊重 OpenAI 退出视频生成业务、将重心转向其他方向的决定。我们珍视双方团队之间富有成效的合作，也将继续探索以负责任的方式拥抱新技术。」

从高调官宣到体面分手，前后不过三个月。10 亿美元级别的战略合作，说散就散。这不仅是 Sora 的失败，更折射出当前 AI 行业现实之残酷。

战略收缩，Sora 或许只是开始

公平地说，Sora 被砍，不完全是因为产品本身的失败。

更根本的原因是，OpenAI 正在经历一场彻底的战略收缩。就在同一天，OpenAI 还宣布叫停了去年推出的「即时结账」购物功能。Sora 同样也是整体「瘦身」的一部分。

这背后有一条清晰的财务逻辑：OpenAI 估值已高达 7300 亿美元，IPO 预期最快落在今年第四季度。要向资本市场讲好故事，就必须收紧支出、聚焦变现。

哪怕是过去那种「大规模自建数据中心」的豪赌思路，也已悄然转向，OpenAI 正回归云计算采购方的定位，而非押注自己下场造基础设施。

组织层面的变化同样意味深长。

奥特曼在同一封内部信中宣布，他将卸下对安全和安全保障团队的直接管辖。安全研究团队划归首席研究官 Mark Chen 领导的研究组织，安保团队则并入联合创始人兼总裁 Greg Brockman 主导的「规模化」部门。

奥特曼本人将把精力集中在融资、供应链和「以前所未有的规模建设数据中心」上。与此同时，Fidji Simo 的产品部门被正式更名为「AGI 部署」（AGI Deployment）。

更值得一提的是，据 The Information 报道，奥特曼还在内部信中透露了另一个重磅消息：代号「Spud」的下一代主力模型已完成预训练阶段，预计「几周内」就将正式亮相。

他对这个模型寄予厚望，称团队相信它「真正能够加速经济发展」，并感叹「事情推进之快，超出了我们很多人的预期」。如此看来，释放给 Spud 的算力，很有可能正是来自 Sora 腾出的那部分资源。

奥特曼给出的新方向很明确：聚焦生产力工具，全力押注企业和开发者市场。

就在上周，OpenAI 宣布将 ChatGPT 桌面端、编程工具 Codex 和浏览器整合为一个「超级应用」，希望用一个统一的产品对齐所有员工的方向。

应用业务负责人 Fidji Simo 在本月的全员会上更是如此说道：员工不能再被「支线任务」（side quests）分心。她强调，公司现在要积极地向高生产力使用场景转型，核心是保持专注、极致执行。

现在，Sora 就是那个被判定为「支线」的东西。

当 Anthropic 正在企业和编程市场上快速蚕食 OpenAI 的份额。在 Agentic AI（能在用户电脑上自主执行任务的 AI 系统）这个下一爆发点的赛道上，OpenAI 只能不再分散兵力。

不过，Sora 团队不是被裁，而是被转向了更长远的方向。

Sora 负责人 Bill Peebles 在宣布消息后随即发出一条内部 Slack：「为这支小而极其出色的 Sora 产品团队所完成的一切感到无比自豪；这个 app 给世界带来了很多欢乐，也让我们在这个规模下磨砺了 Sora 的基础设施。」

他同时宣布，Sora 研究团队的下一个目标，是构建「通过模拟任意环境来深度理解世界的系统」，也就是世界模型（World Model），最终指向「自动化物理经济」。

奥特曼在内部信中的表述与之呼应：Sora 研究团队将「优先推进长期世界模拟研究，尤其是与机器人相关的方向」。

简言之，从砍掉 Sora，到合并超级应用，再到聚焦 Agentic AI。OpenAI 的这一轮动作，本质上是在做减法。

这和过去两年 AI 行业的主旋律截然相反。

2024 到 2025 年，几乎每家 AI 公司都在疯狂扩张产品线：做聊天的去做机器人呢，做文本的去做图片，做图片的去做视频，做视频的去做硬件。大家都怕错过下一个风口，于是什么都想试。

OpenAI 自己就是这种「全面开花」策略的典型代表。奥特曼曾公开表示希望公司「大胆思考产品路线图」，甚至还公布了所谓 AI 硬件设备的计划。但现在，现实给了所有人一记耳光。

当 Anthropic 用 Claude 在企业市场稳扎稳打，当 IPO 的时间表越来越近，OpenAI 终于意识到：在 AI 这场马拉松里，跑得快不如跑得对。

Sora 的故事，与其说是一个产品的失败，更像是一个时代的拐点。而那些还在追逐下一个 wow moment 的公司，或许该认真想想：你现在旗下的产品里，什么是主线任务，什么是支线任务？

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

黄仁勋回应一切：木匠、水管工看到 Al 应该最兴奋

爱范儿

莫崇宇

2026年3月24日 15:51

如果要找一个人来解释这场 AI 大爆发究竟是怎么发生的，黄仁勋无疑是最合适的人选。

三十年前创立英伟达、押注图形处理器，把 CUDA 强行装进游戏显卡，市值从 80 亿跌至 15 亿，然后用十年爬回来。在所有人还在争论推理芯片会不会只是低端市场时，他已经在为智能体时代设计机架架构。

这种提前预判，显然不只是运气，也离不开他几十年如一日做的一件事：在所有人相信之前，先把那个未来讲给所有人听。

今天，知名播客主持人 Lex Fridman 公开了他与黄仁勋长达两小时的深度专访。

对话涵盖 CUDA 护城河、中国科技生态、编程的未来，DLSS5、乃至意识与死亡。这是黄仁勋近期最完整的一次公开表达，也是迄今为止最接近他真实思维方式的一次记录。

附上黄仁勋采访文字版实录：https://lexfridman.com/jensen-huang-transcript

一个问题，60 个专家同时在场，这就是英伟达开会的方式

采访开篇，Fridman 指出英伟达已将设计重心从单芯片扩展至机架级别，涵盖 GPU、CPU、内存、网络、NVLink、光纤与铜缆互联、供电、冷却、软件以及机架本身。他问黄仁勋：在如此多变量的协同设计中，最难的部分是什么？

黄仁勋首先解释了极致协同设计为何从工程逻辑上不可回避。

他说，问题的根源在于规模：当你把一个任务分布到一万台计算机上，你期望的结果是获得远超线性叠加的加速效果，比如一百万倍的提升，而单纯增加计算机数量只能带来线性收益。

这就是阿姆达尔定律的约束，也就是说，如果计算只占总工作量的 50%，即便把计算速度提升到无限快，整体也只能加速两倍。

「一旦你把问题分布出去，所有东西都会成为瓶颈。CPU 是问题，GPU 是问题，网络是问题，交换机是问题。分布式计算在我们这个规模下，每一个环节都必须同时攻克。」

在组织层面，黄仁勋透露自己的直接汇报超过 60 人，几乎涵盖所有技术学科的顶尖专家：内存、CPU、光学、GPU 架构、算法、设计，无一缺席。他刻意放弃一对一汇报制度，改为让所有人同时在场讨论任何一个具体问题。

「因为我们在做极致协同设计，所以任何一次讨论都不可能只有一个人在场。我们呈现一个问题，所有人一起攻。当我们讨论冷却，网络专家在听；当我们讨论供电，内存专家在听。谁要是对本该关注的事情没有关注，我会直接点名。」

他将公司架构比作操作系统，认为公司的组织结构应当直接反映它所处的环境和它要生产的产品，而非套用统一的「汉堡式」或「软性」组织图或者和汽车公司组织图。

把 CUDA 塞进游戏显卡，是最痛苦也是最关键的决定

在讲述英伟达的战略演进时，黄仁勋也详细梳理了从图形加速器到计算平台的转型路径。

他说，英伟达最初是一家加速器公司，专注于图形处理。专业化的好处是极致优化，问题在于市场边界天然受限，而市场规模直接决定研发投入能力，研发能力又决定了一家公司在计算领域能发挥多大的影响力。

于是英伟达必须拓宽边界，向通用计算迈进，但通用性和专业性之间往往存在天然的矛盾：越向通用计算靠拢，专业加速能力就越被稀释。

「我把这两个本质上矛盾的词硬连在一起，公司必须一步一步走那条极其狭窄的路，在扩展计算边界的同时，守住最重要的专业化能力。」

第一步是可编程像素着色器，第一次向可编程性迈进。第二步是在着色器中加入 IEEE 标准兼容的 FP32 浮点运算，这一步吸引了那些此前在 CPU 上做流处理和数据流计算的研究者。他们发现，GPU 的计算密度极高，又能兼容他们原有的软件逻辑。这直接促成了 Cg 语言，再到 CUDA。

将 CUDA 搭载到 GeForce 消费级显卡是整个历史中最关键也最痛苦的决策。

黄仁勋说，计算平台的价值完全取决于装机量，而不是架构的优雅程度。他举 x86 为例：这是历史上被批评最多的架构，远没有同期那些被顶尖计算机科学家精心设计的 RISC 架构优雅，但 x86 活下来了，RISC 大多失败了。原因只有一个：装机量。

「当时 GeForce 每年出货数百万块显卡。我们说，不管用户用不用 CUDA，都把它装进每一台 PC 里，用这个作为培育装机基数的起点。同时我们去大学里写教材、开课程、到处推广 CUDA。在那个年代，PC 是主要的计算载体，没有云，我们等于把超算塞进了每一个在校学生和研究人员的手里，总有一天会有惊喜发生。」

代价是惨烈的。CUDA 让 GeForce 的成本大幅上升，将英伟达的毛利率彻底压垮，公司毛利率本已只有 35%，成本增加 50% 之后，全部利润蒸发。市值从约 80 亿美元一路跌至 15 亿美元，在底部徘徊了相当长的时间。

「但我们一直扛着 CUDA，一直搭载在 GeForce 上。英伟达是 GeForce 建起来的家，是 GeForce 把 CUDA 送到了所有人手里。研究人员和科学家在大学里发现了 CUDA，因为他们本来就是游戏玩家，他们自己攒电脑，他们拿 PC 组件搭集群。」

后来，这成为深度学习革命的基础设施。对于如何作出这类赌注式决策，黄仁勋说，他的决策过程始于好奇心，然后是推理。当推理系统在内心足够清晰地呈现出「这件事一定会发生」时，他便开始相信它，而一旦相信，就会去实现。

但更重要的是他管理集体信念的方式：他从不等到决策那一天才宣布，而是通过每一次外部信息、工程里程碑、行业新发现，持续向董事会、管理团队、员工、合作伙伴一点一点地铺设认知基础。

「到了宣布的那一天，我希望所有人的反应是：『Jensen，你怎么现在才说？』收购 Mellanox 是这样，全力押注深度学习是这样，现在 Groq 也是这样，我已经铺垫了两年半。」

他把 GTC 大会描述为向全行业塑造未来认知的工具，不只面向员工，也面向合作伙伴和整个生态。「我们不生产计算机，也不搭建云。我们是计算平台公司，任何人都无法直接购买我们的产品，但我们向所有层级开放平台。在我的产品准备好之前，必须先让所有人相信它将要到来。」

Ilya 说数据耗尽了，黄仁勋说他搞错方向了

对于 Scaling Laws（缩放定律/扩展定律），黄仁勋提出了一个系统性框架，包含四个相互咬合的层次。

第一条是预训练扩展定律。模型越大，训练数据越多，AI 越聪明。

当 Ilya Sutskever 表示「预训练数据耗尽」时，业界一度恐慌，认为 AI 到了天花板。黄仁勋认为这个担忧搞混了方向：人类生产的数据确实有限，但合成数据的比重会越来越高，而且这并不奇怪，人类知识本来就是「合成」的，知识在人与人之间流转、被重新诠释、再创作、再消费。AI 现在已经能够以真实数据为基础大量生成合成训练数据，预训练的瓶颈从数据量转移到了算力。

第二条是后训练扩展定律。通过指令微调、强化学习等方式持续精炼模型能力，这个空间仍然广阔。

第三条是测试时扩展定律，也就是推理阶段的计算投入。

黄仁勋说，当初很多人预判推理是「简单的」，认为推理芯片只需要小而廉价，完全不需要英伟达那样昂贵复杂的产品，将来推理市场会是一个被商品化的低端市场。「这在逻辑上就说不通。预训练是记忆和归纳，是阅读；推理是思考、推理、规划、搜索、尝试、分解陌生问题。思考怎么可能是计算轻量级的？」事实证明他是对的，测试时扩展的计算消耗远超市场预期。

第四条是智能体扩展定律。一个大语言模型变成一个智能体，在测试时去查数据库、使用工具、分配子任务，同时派生出大量子智能体。「扩充英伟达规模最简单的方法是多雇员工，而智能体的分裂速度比雇人快多了。」这些智能体在运行过程中积累大量有价值的经验和数据，其中的精华会反哺预训练，再经后训练精炼，再经测试时增强，形成完整的闭环飞轮。

「归根结底，智能的扩展取决于一件事：算力。」

对于如何在硬件设计层面预判 AI 模型的走向，黄仁勋坦言这是最难的部分之一，因为 AI 模型架构每六个月就会迭代一次，而系统和硬件架构的迭代周期是三年。

英伟达的应对策略包括三条：内部做基础研究和应用研究，自己训练模型，获得一手体感；作为全球唯一与所有 AI 公司同时合作的平台公司，广泛倾听行业前沿的挑战；以及保持架构的灵活性，让 CUDA 能随算法演进而演进。

他举了混合专家模型（MoE）的例子：正是预判到 MoE 的崛起，英伟达才将 NVLink 从 8 路扩展到 72 路，使一个完整的 4 万亿乃至 10 万亿参数模型能够在单一计算域内运行，行为上如同一块巨大的 GPU。

而 Vera Rubin 一代机架相较于 Grace Blackwell 机架，最显著的变化在于增加了存储加速器，引入了全新的 Vera CPU，还有专为智能体任务设计的 Rock 机架，因为智能体工作时需要频繁访问文件系统、调用工具、执行代码，这与单纯运行 LLM 推理是完全不同的工作负载。

「为什么在 Claude Code、Codex、OpenClaw 出现之前，我们就设计好了这一代架构？因为推理根本不需要等到具体产品出现，你只需要坐下来认真思考：一个大语言模型要成为真正的数字工人，它必须做什么？它必须访问文件系统获取真实数据，必须能上网查资料，必须会用工具，必须能派生子任务。这些都不是玄学，就是基本逻辑。」

他还用了一个生动的思想实验：想象十年后最强的 AI 智能体是一个人形机器人，进入你家干活，更可能的情形是它使用你家里现有的工具，比如微波炉，还是它的手指会随时变成锤子、手术刀或者微波发生器？答案显然是前者。「我描述的，其实就是 OpenClaw 几乎所有的核心特性。」

黄仁勋眼中的马斯克：一个把自己变成所有人最高优先级的人

Fridman 提到黄仁勋曾高度称赞马斯克在孟菲斯以四个月时间建成 Colossus 超算，目前已达 20 万块 GPU 的规模。黄仁勋阐述了他从中看到的工程与管理哲学。

他说，马斯克是一个能在多个高深领域同时保持深度的人，同时又是出色的系统思考者。他习惯性地对每一件事追问三个问题：这是必要的吗？必须这样做吗？必须花这么长时间吗？层层追问之后，系统被剥离到最小必要形态，能力却完整保留。

「他也会亲自出现在问题发生的现场。有问题，他就去现场，『把问题给我看』。这种做法能打破大量『这就是我们一贯的做法』的惯性。每个供应商都有很多客户和项目，他的做法是让自己成为所有人项目里的最优先级，而且他是靠亲身示范做到的，不是靠嘴说。」

他描述了 Fridman 也同样经历过的一个细节：马斯克曾蹲在机架旁边和工程师一起研究如何插拔线缆，目的是减少出错概率。「从每一个细节积累起来的直觉，让你能同时看清微观的低效和宏观的系统性问题，然后你才有资格说『让我们换一种完全不同的方式来做这件事』。」

为什么中国科技圈天然倾向于开源

谈及最近访问中国之行，黄仁勋表示，全球约 50% 的 AI 研究人员是中国人，其中大多数仍在中国国内工作。中国科技行业崛起的时间节点，恰好与移动互联网时代高度重合，使他们能够以软件为突破口进入全球竞争。

他认为，中国科技生态之所以能持续输出大量顶尖公司，有几个结构性原因。

第一是竞争烈度。中国并非一个统一的大市场，而是由无数个省和城市组成的竞争体系，这导致每个垂直领域都出现了数量惊人的竞争者，电动车如此，AI 公司亦然，最终在激烈竞争中存活下来的必然是极其优秀的企业。

第二是开放共享的文化。中国工程师圈子高度依赖于学校、公司之间的人际网络，同学就是终身兄弟，朋友就是同行。黄仁勋说，中国工程师的优先级排序是：家人第一，朋友第二，公司第三。这个排序直接决定了他们对待知识的态度。

他们的工程师，兄弟在那家公司，朋友在那家公司，大家都是同学。同学这个概念，在中国意味着一辈子的兄弟。所以他们分享知识的速度极快，根本没有理由把技术藏着掖着，放到开源上就好了。

第三是崇尚工程的社会文化。这是一个崇尚建造的国家。

他由此延伸到英伟达的开源战略，特别提到 Nemotron 3，这是一个 1200 亿参数的开放权重混合专家模型，架构上融合了 Transformer 与状态空间模型（SSM）。

英伟达推进开源有三重动机：其一，自己训练模型是极致协同设计的一部分，能让硬件团队直接感知模型架构的走向；其二，专有模型和开源模型各有必要，开源是让 AI 真正扩散到每个行业、每个国家、每个研究者和学生手中的必要条件；

其三，AI 远不只是语言，生物学、物理、气象、流体等领域都需要专门训练的模型，英伟达要确保每个行业都能获得世界级的 AI 基础模型。

43000 个人和数百万开发者，共同撑起英伟达护城河

被问及英伟达最重要的竞争护城河，黄仁勋给出了一个清晰的排序。

第一是 CUDA 的安装基数。

他说，即便二十年前有人做出了一个技术上更出色的替代架构，比如 GUDA 或 TUDA，也很可能失败。因为决定架构成败的从来不只是技术，而是有多少开发者将自己的软件建立在这个平台上。

CUDA 今天的地位，来自 43000 名英伟达员工数十年的持续投入，也来自数百万开发者将他们的软件栈压注在这个平台上的信任。

他还强调了英伟达执行速度的重要性：任何一个开发者只要选择了 CUDA，几乎可以确定六个月后它会变得更好十倍；他开发的软件能触达几亿台设备、覆盖所有主要云服务商、所有主要行业、所有主要国家；而且他能确信英伟达会在可预见的未来持续维护和改进 CUDA。「把这几点加在一起，如果我是一个开发者，我会首先选 CUDA，并且把最多的资源投入到 CUDA 上。」

第二护城河是生态系统的横向覆盖。英伟达将极其复杂的系统纵向整合，但同时向每一家公司的计算平台横向开放接入，从谷歌云、亚马逊 AWS、微软 Azure，到 CoreWeave、Nscale 这样的新兴算力公司，到制药企业的超算，再到电信基站边缘设备、汽车、机器人、卫星。

一个架构覆盖了全球几乎所有行业。

对于英伟达未来能否达到 10 万亿美元市值，黄仁勋的推演从两个根本性变化出发：计算从检索式转向生成式，意味着算力需求量级跃升；计算机从仓储单元转变为生产工厂，意味着它从成本中心变成了直接与企业营收挂钩的利润中心。他预计世界 GDP 增速将会加快，而计算占 GDP 的比例将达到过去的 100 倍以上。

他提到英伟达的 3 万亿美元收入路径在他看来是「当然可能」的，并没有任何物理定律约束这一数字的实现，更重要的是，英伟达的增长不依赖于从现有竞争对手手中夺取份额，而是依赖于一个几乎从零开始生长出来的全新市场。

「当英伟达是 100 亿美元的公司时，你没法说『如果他们从谁那里拿到 10% 份额就能增长多少』。他们的想象力需要从零构建。但我有的是时间，每一次 GTC 都会让这件事变得更加真实。」

谈及智能体时，他将 OpenClaw 比作「Token 的 iPhone」：「消费者直接能用到了。iPhone 级别的产品到了，它是有史以来增长最快的应用，一飞冲天，就这样。」

玩家对 AI 糊感的愤怒，其实是一面镜子

黄仁勋说，GeForce 至今仍是英伟达最重要的品牌营销策略：人们十几岁时因为游戏认识英伟达，进入大学和职业生涯后自然转向 CUDA 和专业工具。

被问及史上最重要的游戏，他给出两个答案：从文化与行业影响力看是 Doom，它把 PC 从办公工具变成了家庭娱乐设备；从游戏技术看是 Virtua Fighter。近年的代表作则是完整实现光线追踪渲染的《赛博朋克 2077》。

谈及 DLSS 5 引发的玩家争议，他理解那种对「AI 糊感」的反感，承认这是真实存在的审美问题。

但他解释，DLSS 5 的工作前提是三维几何数据的严格约束，每一帧都完全忠实于艺术家定义的空间结构和纹理风格，做的是增强而非覆盖。「玩家以为 DLSS 会在成品游戏上做后处理，这个理解是错的。它嵌入在创作流程里，艺术家决定用还是不用。」系统也完全开放，工作室可以自行训练模型、指定卡通或水彩等任意风格。

他随后作出一个更宏观的观察：玩家对 AI 糊感的敏感，恰恰说明人类真正在乎的是创作者留下的那些不完美的印记。「只要 AI 是辅助艺术家的工具，它就是好的。」

此外他还提到英伟达为游戏开发者提供的次表面散射皮肤着色器，这项技术模拟光线穿透皮肤浅层后散射的物理现象，让游戏人物皮肤呈现出更接近真实的半透明质感。「这些都是工具，由艺术家决定怎么用。我们只是提供工具箱。」

AGI、编程的未来与人类的位置

在 AGI 定义问题上，Fridman 以「能够从零创立并运营一家市值超十亿美元的科技公司」作为测试标准，黄仁勋的回答是：这个门槛，我认为 AI 现在已经达到了。

他设想一个 AI 创建了某款应用，短时间内吸引数十亿用户，完成商业化后退出，这和互联网时代那些昙花一现的爆款网站并无本质差异，而那些网站的技术复杂度远低于 OpenClaw 今天能生成的东西。「我不知道具体会是什么，但我在互联网时代也没有预测到任何那些公司。」他同时强调，100000 个智能体建立一个持续运营的英伟达的概率是零，但创建一个短暂的爆款应用并从中获利，完全可能已经在发生了。

关于编程的未来，黄仁勋认为编程的定义本身需要重写。编程的本质是规格说明，即告诉计算机要构建什么。在这个定义下，能做到这件事的人数量将从 3000 万扩展到 10 亿。每一个木匠、水管工、会计师都将成为自己行业里的创新者，因为 AI 让他们能够以自然语言表达意图，并将其转化为实际产品。「如果我是一个木匠，我看到 AI，我会非常兴奋。如果我是一个水管工，我会完全疯狂。」

他用辐射科医生的案例回应了「AI 会消灭职业」的担忧：计算机视觉在 2019 年前后达到超人水平，曾被普遍预测辐射科医生将消亡。结果是所有辐射科平台都整合了 AI、辐射科医生数量不降反升，现在全球还出现了辐射科医生短缺。原因很简单：能更快读片，就能读更多片，就能服务更多病人，医院营收增加，需要更多辐射科医生。

「那个预警走得太远，吓跑了很多本该进入这个行业的人，这是真实的伤害。英伟达的软件工程师数量只会增加，不会减少。他们的职业目的是解决问题，而解决问题这件事的每一个组成部分，评估结果、团队协作、诊断问题、创新、连接不同领域，这些都不会消失。」

在工作中倒下，是最好的结局

被问及是否思考自己的死亡，黄仁勋的回答十分诚实。

「我真的不想死。我有很好的家庭，有非常重要的工作。这不是『一生难得一次的体验』，而是整个人类文明难得一次的体验，我正在其中。英伟达是历史上最重要的科技公司之一，这件事我非常认真。」

对于继承人规划，他的回应十分出人意料：他说他「不相信继任规划」，但原因恰恰是认真思考了这个问题。如果你真的关心自己离开后公司的命运，那么你今天应该做的，是把你所学、你所理解、你所积累的全部知识、洞察和判断，以最高频率传递给周围所有人。

「每一次会议都是推理会议。我学到的任何东西，没有在我桌上停留超过一秒钟的，立刻就指向某个人：去研究这个，这个东西很了不起，你会想了解它的。我在持续地赋能周围所有人，让他们的能力不断提升。」

他说自己希望的结局是在工作中倒下，而且是瞬间的，没有漫长的痛苦过程。

对于人类未来 100 年的希望，他说他一生都对人性的善意保有高度信心，尽管偶尔会被辜负，但结果一次又一次证明他是对的，而且往往超出预期。

「现在有那么多我们想解决的问题、想建造的东西、想做的好事，都在我们的有生之年变得可以触及。消灭疾病，这是合理的期待。大幅减少污染，这是合理的期待。这一切，怎么可能不让人心动？」

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

全网猜了一周 DeepSeek V4，结果是小米干的

爱范儿

莫崇宇

2026年3月19日 16:12

上周，两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter，代号分别是「Hunter Alpha」和「Healer Alpha」。它们没有任何宣传，调用量却开始以一种不寻常的速度持续攀升。

其中，Hunter Alpha 更是多天登顶日榜，累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek，认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听，进一步点燃了社区的猜测热情。

小米官方正式宣布，Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时，小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是，罗福莉正是 DeepSeek 的前研究员，换句话说，来自 DeepSeek 的她，在小米做了让全网以为是 DeepSeek 的模型。

划重点，小米此次一口气发布三款模型，虽各有侧重，但共同指向同一个方向：让 AI 从「会对话」进化为「能完成任务」：

MiMo-V2-Pro 是旗舰文本基座，专为高强度 Agent 工作场景而生，主打推理、规划与工具调用。
MiMo-V2-Omni 是全模态 Agent 基座，原生融合文本、视觉与音频感知，打通从理解到执行的完整链路。
MiMo-V2-TTS 是语音合成大模型，为 Agent 赋予有温度、有情感的声音表达能力，构成全栈的最后一环。

MiMo-V2-Pro：量大管饱，定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T，激活参数为 42B，较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长，但推理效率并未因此下降，这得益于其创新的混合注意力架构（Hybrid Attention）。

该架构的混合比例从前代的 5:1 进一步提升至 7:1，轻量 MTP（Multi Token Prediction）层的引入也加快了实际生成速度。

同时，MiMo-V2-Pro 支持高达 1M 的超长上下文窗口，这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 目前位列全球第八，国内第二。

基准测评之外，小米更强调「实际体感」。在 Coding Agent、通用 Agent 和 Tool Use 等维度，MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中，MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6，拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间，调用量最高的几类应用多为编程专用工具，这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内，MiMo-V2-Pro 还展示了前端开发能力，能够一步生成设计精致、功能完备的网页，兼顾视觉质感与实际可用性。

定价层面，MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内，输入每百万 tokens 定价 1 美元，输出 3 美元；1M 上下文范围内，则为输入 2 美元，输出 6 美元。

这个定价策略的信号很明确：小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此，小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队，提供为期一周的限时免费接口支持，各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前，MiMo-V2-Pro 已正式开放 API 服务，开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能，支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni：能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑，MiMo-V2-Omni 的野心则更大，它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型，从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解，覆盖从环境声分类到多说话人分离的复杂场景，综合表现超越 Gemini 3 Pro。

图像理解方面，MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面，模型支持原生音视频联合输入，而非将音频和视频分开处理，在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中，MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架，它可以像真人一样操控浏览器：在小红书翻阅评测内容，整理购买建议，切换到京东跨店比价，联系客服争取优惠，直到完成下单，遇到多标签页切换、实时交互要求，均能见招拆招。

还有一个更具代表性的演示：用户只需说一句「做一个介绍视频，配上科技感音效，发到 TikTok 上」，模型就能完成全流程，包括自动修复渲染中的字体报错，最终确认视频审核通过、成功上线。

在纯文本智能体任务上，MiMo-V2-Omni 同样保持了高度竞争力，在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间，模型在 PinchBench 上拿下均分第一，社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面，MiMo-V2-Omni 已与金山办公展开合作，接入 WPS 灵犀，支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态，原生支持 Word、Excel、PPT、PDF 四大主流格式，覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址：lingxi.wps.cn

MiMo-V2-Omni 已开放 API，支持 256K 上下文长度，输入定价每百万 tokens 0.4 美元，输出 2 美元，同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS：会打哈欠、会醉酒、还能唱歌

一个完整的 Agent，不应该只会思考和行动，它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构，经过上亿小时语音数据的大规模预训练。

「上亿小时」这个数据量级，意味着模型得以覆盖极为丰富的说话风格、口音与场景，这是泛化能力的基础。

多维度强化学习后训练阶段，模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构，强化学习阶段可以直接利用语音相关奖励信号对模型进行优化，而非依赖间接的文本侧反馈，这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制，能在同一句话内完成语气转折与情感递变，这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号，并将其自动转化为自然的语音表达，全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等，同时具备角色扮演式风格演绎与高质量歌声合成能力，让同一个模型既能说、能演、也能唱。

官方表示，未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合，让 Agent 不仅能看懂世界、理解世界，更能用富有表现力的声音去讲述这个世界。

AI，才是真正打通人车家全生态的那根线

三款模型集中发布，时间节点和产品组合都不是偶然。罗福莉在声明中坦言，从聊天范式到 Agent 范式的转变发生得太快，「连我们自己都难以置信」。

但小米 MiMo 团队其实早有布局。罗福莉披露，1T 基础模型在数月前就已开始训练，最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理，这些架构决策并非追随潮流，而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向，源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击，随即对团队下达强硬指令：MiMo 团队中，明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后，是她对 Agent 范式的坚定判断。结果是，团队的想象力被彻底激发，研究速度随之大幅提升。

这种研发节奏，叠加上小米本就拥有的生态基础，让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进「人车家全生态」战略，通过澎湃 OS 将手机、汽车（SU7 系列）与智能家居设备全面打通。这套生态的物理层面早已互联，但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在，MiMo-V2-Pro 负责推理规划，MiMo-V2-Omni 负责多模态感知与执行，MiMo-V2-TTS 负责语音表达，三者叠加，构成了驱动整个生态运转的完整 AI 能力栈。

miclaw（小米手机端 AI 智能体）已接入 MiMo 大模型，具备系统级执行能力与「人车家全生态」的深度集成，是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入，也在说明同一件事：MiMo 不只是一个对话产品，而是正在被嵌入进各类应用场景的基础能力层。

多年来，各大科技公司都在描述「AI 将打通一切」的愿景，而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米，显然已经做好了准备。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

实测 Seedance 2.0 加持的小云雀最新 Agent，我一键生成了龙王赘婿短剧

爱范儿

莫崇宇

2026年3月19日 12:38

3 月 17 日，亚布力论坛年会现场，宇树科技创始人王兴兴被问及中国 AI 进展时，点名表扬了一款国产 AI：「今年一月份字节跳动 Seedance 2.0 视频生成软件，我觉得是全球目前最好的，全球遥遥领先。」

事实上，Seedance 2.0 的爆火速度也的确出乎许多人的预料。创作者们争相用它生成视频、制作内容，相关作品密集涌现。但热潮之下，各行各业的从业者也在认真盘算同一件事：

短剧公司、品牌营销、影视制作，这项技术究竟能不能真正嵌入自己的工作流，切实改变制作流程、拉升内容质量、压缩生产成本？今天，这个问题有了一个务实的回答。

APPSO 注意到，字节跳动旗下一站式内容创作平台小云雀 AI，正式推出行业首个搭载 Seedance 2.0 的短剧漫剧 Agent，支持剧本一键直出视频成片。

伴随着 AI 视频技术向垂直行业落地迈出实质一步，小云雀为短剧创作者备下的远不止 Seedance 2.0 这张牌，围绕短剧制作全流程，平台还提供了诸多实用工具……

作为短剧爱好者，我们也第一时间上手体验了小云雀 AI 这些新功能。

我把一部武侠剧本丢进去，它给了我一部漫剧

为了测试这个功能的真实上限，我选了一个难度不低的原创剧本——《墨影惊锋》，武侠题材，人物关系复杂，主角洛风和女刺客颜如玉在废弃客栈里的一场打斗，涉及大量动作细节、特效描写和角色形象的交叉出现。

这种本子拿去考 AI，相当于直接去考压轴题。

系统目前支持上传标准格式的 .docx 剧本文件。上传完成后，点击「开始创作」，Agent 即开始解析并生成大纲。

如暂无现成剧本，也可使用 AI 剧本生成功能：输入一句话故事创意，系统即可自动生成剧本，首次使用免费，无需消耗积分。

接下来需要做几个选择：画面风格选哪种、是否需要旁白改编、横屏还是竖屏。系统会根据选题自动推荐五种画风，也支持自定义输入，风格覆盖 2D、3D 和真人三大类。

《墨影惊锋》这种国风武侠，我选了 2D 国风半厚涂，气质比较搭。

然后是整个流程里最考验耐心的部分：等待。Agent 开始构建故事骨架，同时进行全局角色设计。官方提示预计半小时以上，实际体验中等待时间因剧本复杂程度而有所不同。

等待结束后，眼前出现了一份完整的「故事蓝图」。

这是整个体验里让我最意外的部分。Agent 不只是把剧本拆解成了分镜，它也真正读懂了剧本里的人物关系。

一个角色在第一集懦弱，第三幕果决，行为变了，但 Agent 始终知道那是同一个人——说话的方式、面对某类处境时的惯性反应、和特定角色之间的相处模式，这些细节它都记得，也都对得上。

这些对得上的细节，是过去需要人工逐字阅读几万字剧本才能提炼和比对出来的东西。

再比如它对人物形象一致性的处理。同一个角色出现在不同场景里，服装、神态、细节特征都对得上，不会因为换了一场戏就像换了一个人。这件事听起来简单，但在实际的分镜生成里很容易出问题，也是过去 AI 图像生成里最常见的毛病之一。

资产库里还附带类似人物小传的介绍。如果对系统生成的角色图片不满意，可以替换图片，确认之后，便正式进入分镜脚本编辑环节。

我们可以逐个分镜修改提示词和角色引用，也可以跳过直接生成视频。系统支持多个生成任务，如果是多集连载，只需完成一次剧本解析就可以逐集生成，不用每集都重来一遍。

最终跑出来的成片，打斗节奏、墨迹特效、角色形象的还原程度都超出了预期。

为了避免幸存者偏差，我们又拉着小云雀 AI 跑了几个截然不同的剧本。

《我在古代装神仙的日常》讲的是一个现代程序员穿越古代，还没搞清楚状况就跪在了刑场，眼看一刀落下，千钧一发之际激活了超级 AI，从此开始在古代装神仙的故事。

穿越爽文的核心在于「绝境逆袭」，主角从一脸懵到发现自己「带挂」，情绪转折又快又狠。生成的成片节奏稳，关键帧都卡在情绪高点，轻喜剧基调下整体比预期流畅不少。

龙王赘婿的案例则完全是另一个方向。这类爽剧本身靠的是节奏和情绪爆点，「恭迎龙王归位」那一幕，黑衣人涌入、BGM 骤变，生成结果整体是对味的，它极其精准地抓住了这种类型片的叙事套路。

相对而言，走动画路线的龙虾安装案例表现也很不错。日常感是极难伪造的。没有大开大合的镜头调度撑场面，背景里的路人、街角的招牌、主角细微的肢体协调性，一旦经不起推敲，就会散发出浓烈的廉价感。

好在最终成片的节奏足够轻快，人物动态自然，直接扔进短视频信息流里，大概率不会被一眼识破。

整体来看，对于一个刚刚上线的功能，这个完成度是真心不低。

当然，体验过程中也遇到了一些小瑕疵，比如等待时间偏长，一致性方面也偶有瑕疵，文字乱码现象、分镜编辑的自由度也还有成长空间等等。比如《墨影惊锋》的打斗场景里，也出现了类似穿模的现象。不过，好在可以局部生成，可以大大节省我们这些创作者的精力。

再换个角度想，AI 把生成过程压缩到了一个小时内。当试错成本无限趋近于零时，「反复抽卡」本身就成为了一种极具性价比的生产力。你觉得这场戏情绪不对？没关系，重新跑一次，大不了再等半小时。

这种容错率，是传统剧组想都不敢想的。

这恰恰是小云雀 AI 这次更新最硬核的价值判断：它没有死磕如何让某一帧画面绝对完美，而是把资源砸向了长文本理解、全局角色管理和工作流自动化。它知道创作者的痛点在哪里，也知道自己要往哪个方向走。

全链路提效，AI 短剧元年来了

去年这时候，AI 短剧最大的问题是「一眼假」，看两秒就知道是机器生成的。但这次体验下来，感觉有些东西确实不一样了。不是说已经做到无懈可击，瑕疵还是有的，但其中有相当一部分内容，随手刷到的话，多数人大概不会多想。

这个变化听起来不大，但对整个行业来说，意味着一道门正在慢慢打开。

过去，想做一部短剧，你得先凑齐剧本、演员、摄制组、后期团队，资金到位才能开机。这道门槛把很多有故事的人挡在了外面，不是因为他们没有创意，而是因为他们没有钱。

现在情况变了。传统真人短剧单集制作成本在几十万到上百万之间，而全链路 AI 自动化可以将这一成本进一步压缩。一个人，一台电脑，一份写好的剧本，剩下的交给 AI 就够了。

这扇门的松动，专业内容公司也感受到了。小云雀 AI 官宣上线短剧 Agent 后，华策影视、柠萌影视等头部影视制作方也相继公开表态。华策影视表示，华策始终相信好故事值得被更好地讲述，言下之意，工具升级了，但内容本身的分量没有变。

柠萌影视则更直接地点出了产业逻辑：降低制作成本、优化创作流程、提升 IP 转化效率。这三件事，正是过去制约短剧规模化的三道卡口。

当然，他们的入场，某种程度上说明：AI 短剧已经不只是独立创作者的游乐场，而是值得被严肃对待的下一个生产方式。

对大公司来说这是提效工具，对普通人来说则是一张入场券。你可以说这是技术进步，但我更愿意把它理解成一种技术平权，就像印刷术让知识走向民间；摄影术让图像记录从画家手中交还给普通人；互联网让创意扩散到每一个有网络的角落。

AI 短剧这件事，大概也是如此。

当然，门槛低了之后，涌进来的内容会良莠不齐，这是可以预见的事情。当大家都在用同一套工具生产故事，画面可以越来越精，但雷同的感觉也会越来越强。观众的注意力是有限的，也是会疲劳的。

到那个时候，真正能留住人的，大概还是故事本身有没有说到心坎里去。

如果说在过去，你可以把片子的难看归咎于「剧组太穷」「演员面瘫」「特效五毛」。那么现在，当 AI 把最顶级的皮相免费端到你面前时，如果你的短剧依然没人看，你又该把锅甩给谁？

AI 负责把故事搬上屏幕。让故事值得被搬上屏幕的，是人。

这件事没有捷径，也没有 Agent 可以替代。所以创作者真正需要守住的，是对生活的感受力，以及把这种感受力转化成故事的能力。AI 可以帮你把故事搬上屏幕，但它替代不了你坐在那里想清楚「我到底想说什么」这件事。

而小云雀 AI 在这个节点推出生成漫剧短剧的新功能，既是视频生成模型进步的结果，也是整个行业在往前奔涌时必然会发生的事。它现在还有需要打磨的地方，但它所指向的方向，是让好故事真正不再被资源和门槛所困。

每个心里藏着故事的人，现在都有机会把它讲出来。而这，才是小云雀 AI 真正有意思的地方。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

马斯克下场点赞！Kimi 这篇论文撬动了大模型的「祖传地基」

爱范儿

莫崇宇

2026年3月18日 17:30

同样的算力，同样的数据，凭什么效果不一样？大多数人的直觉是：模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。

3 月 16 日，月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》（注意力残差）。

这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造，并在实验中证明，用同样多的算力，新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。

报告发布后，也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。

▲附 GitHub 开源地址：github.com/MoonshotAI/Attention-Residuals

比如马斯克通过社交媒体表示「「Impressive work from Kimi」（令人印象深刻的工作）」OpenAI o1 主要发明者 Jerry Tworek 称其为「深度学习 2.0」的开端。

前 OpenAI 联创 Andrej Karpathy 说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」但比起这些夸奖，技术论文背后的信号或许更值得关注：深度学习最基础的范式，正在发生变化。

十年没人动过的地基，被撬动了

过去两年，大模型的竞争主要在「上层建筑」展开：更好的注意力变体、更聪明的 MoE 路由策略、更精巧的对齐方法，大家都在 Transformer 这栋大楼的高层精装修。

唯独有一样东西，从 2015 年 ResNet 论文发表以来，几乎没人动过：残差连接（Residual Connections）。

要理解这项技术，得先知道大模型内部的基本结构。

现代大模型，其实都是由很多层神经网络叠加而成的，少则几十层，多则上百层。信息从底部输入，一层一层往上传递，每一层都对信息做一次加工，最终在顶部输出结果。

可以把它想象成一条流水线上的工人：原材料从第一道工序进来，每个工人对它加工一遍，再传给下一个，最终出来成品。问题是，流水线越长，越难训练。

假设第 50 道工序的工人犯了错，你想纠正他，就得把这个「纠错信号」一路往回传，经过 49 个工人才能传到第 1 个。传着传着，信号就消失了，底层的工人根本不知道自己哪里出了问题。

为了让这么深的网络能够训练起来，知名学者何恺明团队在 2015 年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文，引入了一个关键设计，叫做残差连接（Residual Connections）：

每一层在加工信息的同时，还会保留一条「直通道」，把原始输入原封不动地加到加工结果上，再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换，一路流回底层，从根本上解决了深层网络难以训练的问题。

比较通俗的理解是，在每道工序旁边加一条「直通道」，把原材料原封不动地绕过这道工序，直接和加工结果合并，再往下传。这样纠错信号就可以沿着直通道一路畅通无阻地传回底层，不会消失。

这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一，残差连接也沿用至今，是几乎所有大模型的基石。

残差连接虽然好用，但它做信息聚合的方式非常粗暴：把所有前面层的输出，无差别地等权相加。

还是用流水线来比喻。到了第 51 道工序，这个工人手里拿到的，是前面 50 道工序所有产出物的等量混合，每道工序的产出各占一份，不多不少。他没有办法说「我想多要一点第 3 道工序的原料」，也没有办法说「第 20 道工序的东西对我没用，少给我一点」。

这带来了一个名为 PreNorm 稀释的实际问题：随着网络越来越深，累积叠加的信息越来越多，每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层，想要让自己的声音被「听见」，就得输出越来越大的数值，否则就会被淹没。

结果就是，很多中间层其实没在认真干活。已有研究发现，大模型里相当一部分层直接删掉，效果几乎不变，这说明这些层的贡献实际上极为有限。

大多数团队早就知道这个问题，选择绕开它，转而在在现有架构上叠加更好的数据配比、更精巧的训练策略、更长的上下文窗口。这些工作当然有价值，但本质上是在一个已有的技术框架内做增量优化。

Kimi 选择的是一条更孤独也更难的路：回到最基础的结构，用第一性原理重新审视那些「理所当然」的设计。

今天凌晨，Kimi 创始人杨植麟在 GTC 2026 演讲中提到：「行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为 Scaling 的瓶颈。」

杨植麟认为，要推动大模型智能上限的持续突破，必须对优化器、注意力机制及残差连接等底层基石进行重构。

一次优雅的「旋转」

Kimi 团队这篇论文的核心突破，其实也来自一个优雅的类比发现。

处理文字序列时，早期的循环神经网络（RNN）也有类似的额外问题：记性差。它读完一整段话之后，早期读到的内容会被后来的内容不断覆盖，等读到最后一个词，前几句说了什么已经模糊了。

后来 Transformer 用注意力机制解决了这个问题，相当于给模型配了一张「全文笔记」，处理每个词的时候，都可以翻回去查任意一个之前出现过的词，而且查哪里、查多少，由当前的内容自己决定。

研究人员发现，残差连接在深度方向上碰到的问题，和 RNN 在时间方向上碰到的问题，数学结构完全一样。换句话说，把 Transformer 想象成一张二维的网格：

横轴是序列方向，一句话里从左到右的每个词；纵轴是深度方向，从底层到顶层的每一层网络。传统的注意力机制是沿着横轴工作的，处理某个词时去查同一层里其他词的信息。

而 Attention Residuals 做的事情，就是把完全相同的机制转到纵轴上去，处理某一层时去查前面所有层的输出，决定要参考哪些层、参考多少。操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」，机制本身一模一样，好比方向转了 90 度。

既然注意力机制解决了序列方向的问题，旋转一下搬到深度方向上，同样有效。

这里有一个更深层的理论发现值得一提。研究人员通过数学分析发现，过去十年里所有对残差连接的改进，包括标准残差、Highway 网络、mHC 等各种变体，在数学上其实都是同一件事的不同形式，都等价于某种「深度方向的线性注意力」。换句话说，大家一直在朝同一个方向努力，只是当时没意识到。

而 AttnRes 的核心思路在于，把注意力机制从「处理文字序列」的维度，移植到「跨越网络深度」的维度上。

具体做法是，给每一层配备一个小小的「查询向量」，就像给每道工序的工人配了一张需求单。工人在开工前，先拿着需求单去翻所有前面工序的产出，根据相关度算出一套取用比例，再按这个比例把需要的原料混合起来。

这样一来，每一层不再是被动接受所有前面层输出的等权叠加，而是主动、有选择性地决定要从哪些层提取多少信息，比例还会根据当前任务的内容动态变化。每层只新增一个向量和一个归一化操作，参数量的增加对整个模型来说几乎可以忽略不计。

为了保证训练初期稳定，这个查询向量必须初始化为全零，相当于让工人一开始什么偏好都没有、平等对待所有前序产出，等训练推进了再慢慢形成自己的判断。

值得一提的是，研究人员也测试过一个更激进的版本：让查询向量不再是固定参数，而是根据每一层当前的输入内容动态生成。这个版本效果确实更好，损失值进一步下降。

但最终没有采用，原因是推理时这种方式需要顺序读取内存，会增加延迟。这个取舍体现了贯穿整篇论文的工程哲学，理论上更优的方案，不一定是实用上应该选的方案。

大模型的新技术，最后都得过这一关

全量 AttnRes 在小规模实验中很好用，但一到大规模训练就遇到了麻烦。

它需要每一层都能访问所有前面层的输出。模型有一百多层，每层的输出都得保存在内存里，还要在不同计算节点之间来回传输，内存和通信开销随层数线性增长，在大模型上根本承受不起。

Kimi 团队的解法很实在：Block AttnRes。把网络所有层划分为若干个 Block（48B 模型中分了 8-9 个 Block，每个 Block 约 6 层），Block 内部沿用传统残差连接，Block 之间使用 softmax 注意力。打个比方——不必给每层楼都装电梯，在关键楼层之间架设快速通道就够了。

这样，需要保存和传输的数据量，从「所有层的数量」降低到「块的数量」，开销大幅缩小。实验发现，分成约 8 个块就能保留全量方法绝大部分的性能提升。

在具体的工程实现上，团队还做了两项优化。

训练端设计了跨阶段缓存机制，在流水线并行训练中每次切换阶段时只传输新增的那一小部分块数据，而不是每次都把全部历史重新传一遍，实测整体训练额外开销不超过 4%。

推理端设计了两阶段计算策略，把一个块内所有层的查询打包成一次矩阵运算统一处理，把重复的内存访问摊销掉，最终推理延迟增加不超过 2%。

那实验效果怎么样呢？研究人员测了五个不同规模的模型。

结果显示，Block AttnRes 在全部规模上均以更低的验证损失领先于基线，且改善幅度随规模增大而稳定保持。按拟合曲线推算，在相同的计算量下，Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果。

在 48B 参数（3B 激活）规模的 Kimi Linear 架构实验中，Block AttnRes 展现了极强的泛化性：在全部 15 项主流评测基准中，其表现均持平或优于 PreNorm 基线模型。

例如，在博士级科学推理 GPQA-Diamond 上实现了 7.5% 的飞跃，在数学 Math (+3.6%) 及代码生成 HumanEval (+3.1%) 任务中也录得了显著增益。

从训练过程来看，基线模型的各层输出数值随深度单调增大，印证了 PreNorm 稀释问题；而 AttnRes 的各层输出数值在块边界处得到重置，呈现周期性变化，各层梯度分布也更加均匀，说明更多的层真正参与到了有效的学习中。

此外，研究人员还可视化了训练后模型学到的注意力权重，发现了几个有趣的规律。

每一层仍然最依赖直接前一层的输出，局部性依然是主要的信息流通方式。但同时出现了一些跳跃性的连接，比如某些层会稳定地回溯到很早期的层，还有些层会特别关注最初的词嵌入输出。

另一个规律是，注意力层和 MLP 层的「回望」模式不同：注意力层倾向于关注更广泛的历史，MLP 层则更依赖近邻层。这与两者在模型中的功能分工是吻合的。

AttnRes还带来了一个对未来模型设计有参考价值的发现。研究人员在固定总计算量和参数量的前提下，枚举了 25 种不同的深度与宽度组合，对比基线模型和 AttnRes 各自偏好的最优架构。

结果发现，标准残差连接偏好「更宽、层数更少」的模型，而 AttnRes 的最优点偏向「更窄、层数更多」的模型。这说明 AttnRes 能够更有效地利用深度，让每增加一层都真正产生价值，而不是让深度变成一种边际效益递减的堆砌。

这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁，而是从根本上改变了网络深度的利用效率，也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。

杨植麟曾提到，十年前不是没有好想法，而是没有算力去验证。现在有了足够的资源和「缩放阶梯（Scaling Ladder）」，那些被搁置的问题才终于能被认真答一遍。

大佬点赞的背后，是一个时代在转弯

一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可，这件事本身十分罕见，他们认可的不只是论文成果本身，更在于Kimi 这篇论文指向了一个全新的方向：优化已经从 attention、MoE 这些上层模块，深入到了最底层的残差连接。

在 GTC 2026 演讲中，杨植麟还披露了一连串底层技术创新：MuonClip 优化器实现了相比 AdamW 2 倍的计算效率提升——要知道 Adam 优化器自 2014 年以来几乎未被撼动，属于深度学习的「不可触碰之物」；Kimi Linear（KDA 架构）在 128K 到百万级超长上下文下实现 5-6 倍的解码加速；Vision RL 的跨模态训练甚至让纯文本 benchmark 也提升了约 2.1%。

杨植麟把这些创新概括为三个维度的 Scaling 框架：Token 效率 × 长上下文 × Agent Swarms。

「当前的 Scaling 已经不再是单纯的资源堆砌，而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。」

一家公司，同时在优化器、残差连接、注意力架构、跨模态训练这些底层战场上全线推进，这种打法在行业里相当特立独行。

这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切，更多是它代表了一种方法论的回归：不再满足于在已有框架上修修补补，去重新审视那些被所有人当作「已解决问题」的基础设施。

如果残差连接可以被重新设计，那么 Adam 优化器呢？层归一化呢？位置编码呢？深度学习的基础范式本身正在发生变化，这扇门一旦推开，后面的故事就不再是线性外推能预测的了。

Karpathy 那句「Attention is All You Need 还没被理解透」的感慨，大概也是这个意思。

过去几年，中国 AI 团队的贡献更多集中在工程落地和应用创新上，在底层架构理论方面的原创性突破相对稀缺。Kimi 这篇论文走的是一条完全不同的路线——一个统一的理论框架，一个优雅的工程实现，加上严谨的大规模实验验证。

当然，Kimi 这篇论文还有留下不少需要解决的问题。论文的大规模验证是在 48B 总参数（3B 激活参数）的模型上完成的，这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上，1.25 倍的等效优势能否稳住，目前还是个问号。

同时论文展示的也只是预训练阶段的收益，经过指令微调、RLHF 等后训练步骤后，AttnRes 的优势是否会被稀释，缺乏数据。

但话说回来，这些局限恰恰也是想象力的来源。一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改，就能在 48B 规模上带来这样的提升。

当它被应用到更大规模的下一代模型上时，收益的天花板在哪里，谁也说不准。

Attention Residuals 抬高了 Token 效率的天花板，Kimi Linear 拓展了长上下文的边界，Agent Swarms 指向智能体协作的未来。当这三条技术线在下一代模型中汇合，呈现出的可能就是新的范式转变。

在 AI 这座通天塔的工程上，所有人都在争着往上添砖加瓦，而 Kimi 低头往路基重重地凿了一锹，恰好撬动了深度学习的地基。

作者：莫崇宇，李超凡

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

刚刚，英伟达龙虾登场！黄仁勋暴论频出，「人车家天地芯」冲击万亿收入

爱范儿

莫崇宇

2026年3月17日 06:42

今年英伟达 GTC 主题演讲，应该是史上悬念最少的一届。

2022 年说元宇宙，2023-2024 年说生成式 AI，2025 年说物理 AI。但今年不一样，即便台上英伟达创始人黄仁勋的演讲还没有开始，但台下所有人已经知道答案了——Agent。

包括英伟达也悄悄在 GTC 园区里开设了「Build-a-Claw」互动专区，让与会者现场搭建自己的AI Agent。从芯片到模型，从英伟达版龙虾到数据中心，今年主题演讲的潜台词只有一句话：

一切都要为 Agent 让路。

专为 Agentic AI 打造的 Vera Rubin 正式发布

如果说 Hopper 架构开启了生成式 AI（Generative AI）的时代，让机器学会了「说话」；那么 Vera Rubin 的使命，就是开启智能体（Agentic AI）时代，让机器学会「干活」。

英伟达 Vera Rubin 架构包含七款芯片、五套机架系统，以及一台用于 AI Agent 的超级计算机
七款芯片分别是 NVIDIA Vera CPU、NVIDIA Rubin GPU、NVIDIA NVLink 6 交换机、NVIDIA ConnectX-9 超级网卡、NVIDIA BlueField-4 DPU 和 NVIDIA Spectrum-6 以太网交换机，以及新集成的 NVIDIA Groq 3 LPU
五个机架分别是 NVIDIA Vera Rubin NVL72 机架、NVIDIA Vera CPU 机架、NVIDIA Groq 3 LPX 机架、NVIDIA BlueField-4 STX 存储机架，以及 NVIDIA Spectrum-6 SPX 以太网机架。

过去的 AI 像是一个极其聪明的图书馆管理员，我们问一个问题，它慢条斯理地翻书，然后把答案整理出来。我们对这种速度是宽容的，因为我们自己打字看书也慢。

但 Agent 完全不同。它不仅要用大模型思考，还要疯狂地调用工具——比如打开浏览器、控制云端的虚拟 PC、在无数个数据库里来回比对。更要命的是，AI 对工具的容忍度极低，它要求一切操作都在毫秒级完成。

「它会狠狠地捶打内存。」黄仁勋在台上这样形容。

当模型越来越大，上下文长度从十万 Token 飙升到数百万，还要同时处理结构化和非结构化的数据，传统的算力架构开始喘不过气了。为了应对这种「捶打」，英伟达交出了第一份答卷，全新的 Vera CPU。

这颗芯片特立独行，它是世界上首款专为智能体 AI 和强化学习时代打造的处理器，其效率是传统机架式 CPU 的两倍，速度提升 50%，采用 LPDDR5X 内存，能实现极高的单线程性能、大型的数据吞吐量和极致的能效。

黄仁勋甚至毫不掩饰他的骄傲：「我们从没想过会单独卖 CPU，但现在，这绝对是一个价值数十亿美元的业务。」

紧随其后的是 Rubin GPU，单片芯片直接塞进了高达 288 GB 的海量内存。它就像是一个拥有无限脑容量的思考者，专门用来装载那些体积越来越庞大的超大语言模型，以及处理成百上千万的上下文 KV 缓存。

除了堆叠 CPU 和 GPU，英伟达这次发布的 Vera Rubin 架构，直接把 NVLink 的带宽翻了一倍——260 TB/s 的全互联带宽。

十年前，DGX-1 用第一代 NVLink 把 8 张卡连在一起，那是专为 AI 研究员打造的奇迹；到了 Hopper 时代，是 NVLink 4；而前不久的 Blackwell 架构，用 NVLink 72 实现了 72 张 GPU 的全互联，带宽达到 130 TB/s。

为了配合 Vera Rubin，黄仁勋甚至掏出了被称为 Kyber 的全新机架。在这个机架里，计算节点垂直插入，背后是第六代 NVLink 交换机。完全抛弃了传统的以太网或 InfiniBand 限制，在一个 NVLink 域内直接打通 144 张 GPU。

即便强如 Vera Rubin，在面对「无限生成 Token」的极端需求时，也会感到吃力。

在算力世界里，吞吐量（Throughput，同时处理巨量任务的能力）和延迟（Latency，单次任务的极速响应）是一对物理学上的死敌。英伟达是吞吐量的绝对霸主，但在极致低延迟的 Token 生成上，传统 GPU 架构显得过于笨重。

这时候，Groq 出场了。英伟达早在之前就「收购」并授权了 Groq 团队的技术，在今天正式推出了 Groq LPU（语言处理单元）。

黄仁勋用一款名为 Dynamo 的软件，把这两者完美捏合，首创了「解耦推理（Disaggregated Inference）」。

AI 推理前半段的 Prefill（预填充）和极其耗费算力的 Attention（注意力机制），全部交给 Vera Rubin 这个性能王者来处理；
后半段的 Decode（解码），也就是生成 Token 的瞬间，直接卸载给 Groq LPU 来降低延迟。

结果显示，在最具商业价值的高端推理层级，这种组合让性能直接飙涨了 35 倍，且每兆瓦的吞吐量同样提升了 35 倍。

一个开源项目，让所有 CEO 都睡不着觉

主题演讲的后半部分，黄仁勋抛出了一个让全场屏息的判断：OpenClaw，将是这个时代的 Linux，是这个时代的 HTML。

OpenClaw 上线仅数周，下载量和影响力已经超过了 Linux 三十年的积累，其本质上是一套智能体操作系统。它能调用大模型、管理文件、拆解任务、协调子智能体，还能发邮件、发短信，以任何模态与人沟通。

在黄仁勋看来，每一家 SaaS 公司，迟早都会变成 AgaaS 公司，也就是「Agent-as-a-Service（智能体即服务）」公司。而每一位 CEO 现在都必须回答同一个问题：你的 OpenClaw 战略是什么？

当然，开源意味着自由，但企业更需要的是安全。这也是 OpenClaw 规模化落地前最大的障碍。

为此，英伟达联合以 OpenClaw 创始人 Peter Steinberger 为代表的团队，召集了一批顶级安全与计算专家，推出 NeMoClaw 参考架构。

它内置 OpenShell 技术、网络防护机制和隐私路由能力，可以让企业可以在自己的私有环境中安全运行智能体系统。

而支撑这套智能体生态的，是英伟达一整条开源模型产品线。

比如 Nemotron 主攻语言推理，Cosmos 聚焦世界建模，Groot 面向通用机器人，Alpha Mayo 服务自动驾驶，BioNeMo 深耕数字生物学，Earth-2 则专注 AI 物理仿真。

黄仁勋特别强调，这些模型不只是排行榜上的名字。英伟达会持续投入推进，Nemotron 3 之后有 Nemotron 4，Cosmos 1 之后有 Cosmos 2，每一代都会更强。

更重要的是，这些模型全部以基础模型形式开放，任何企业都可以在此基础上继续微调和后训练，打造专属于自己业务场景的定制化智能。英伟达还宣布将与各地区合作伙伴协作，帮助不同国家和市场孵化本土化 AI 能力。

在台上，黄仁勋还宣布了一份让人眼前一亮的合作名单。Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Sarvam，以及 Mira Murati 创立的 Thinking Machines，悉数加入，共同推进 Nemotron 4 的研发。

划重点，英伟达不甘心只做卖铲人，更要亲自下场带头挖金矿，更重要的是，英伟达也是在构建一个生态，一个围绕智能体时代的完整体系。

玩家的显卡钱，是一场长达 25 年的「众筹」

要理解英伟达今天的恐怖统治力，黄仁勋首先把时钟拨回了 25 年前。

那时候没有 ChatGPT，没有大模型，只有一群为了让游戏画面更流畅而疯狂攒机的年轻人。「GeForce 是英伟达有史以来最伟大的营销活动」，黄仁勋在台上笑着说。

黄仁勋非常直白地承认，GeForce 就是用来吸引未来客户的。他们在我们还买不起企业级产品的时候，通过游戏显卡潜伏进我们的电脑。日复一日，年复一年。

也正是依靠一代代游戏玩家的「供养」，英伟达在 20 年前做出了一个当时看来堪称疯狂、甚至差点拖垮公司利润的决定——研发 CUDA，并将它送到了全世界每一个开发者的桌面上。

这可以说是一个在黑暗中蛰伏的故事。连续 13 代架构，长达 20 年的死磕，英伟达彻底把 CUDA 变成了一个装机量过亿的庞然大物。

这也解释了为什么当深度学习的「宇宙大爆炸」来临时，Alex Krizhevsky 和 Ilya Sutskever 们环顾四周，发现除了英伟达的 GPU，他们别无他选。

Nvidia 不是碰巧站在了风口上，而是花了 20 年时间，自己造了一台造风机。

飞轮一旦转动，就再也停不下来了。因为在这个飞轮里，硬件只是载体，真正黏住开发者的是那成千上万个工具、框架和开源项目。

既然当年是 GeForce 游戏显卡把 AI 算力（CUDA）带给了这个世界，那么十年后的今天，是时候让彻底长大的 AI，反哺它最初的「老家」了。

黄仁勋在台上甩出了惊艳全场的 DLSS 5。简单来说，英伟达正在用 AI 重新发明计算机图形学。传统的 3D 渲染是「结构化数据」，它是死板的、百分百可控的；而生成式 AI 是「概率性计算」，它是天马行空、极其逼真的。

以前这两派路线完全不同，但在 DLSS 5 里，英伟达硬是把它们揉在了一起，用可控的 3D 数据打底，用生成式 AI 去脑补和渲染细节。我们看到的画面，既不会出现 AI 经常犯的幻觉错位，又拥有近乎现实的惊人质感。

「生成出来的世界，变得极其美丽，同时又完全受控。」

但这也不只是一帮极客为了高帧率打游戏搞出来的炫技。黄仁勋说，这种将「结构化数据」与「生成式 AI」融合的逻辑，将会在每一个行业里一遍遍重演。

「这是我最喜欢的一页 PPT」

在演讲的高潮，黄仁勋放出了一张极其复杂的架构图，说这是他最喜欢的一页 PPT。接着，他又半开玩笑地说，团队屡次劝他别放这张图，但他偏要放，「反正你们有些人也是免费进来的，这就是门票钱」。

这张「最不听劝的 PPT」，真正揭示了英伟达接下来要吞噬的真正猎物，全球企业的数据中心。

过去，企业的数据分为两类。

一类是结构化数据，也就是常见的数据库 SQL、Pandas 里的那些庞大表格，它们是商业运转的地基。另一类是非结构化数据，比如海量的 PDF、视频、语音，占据了世界 90% 的信息，却因为难以检索而如同废纸。

过去几十年来，处理这些巨型 Excel 表格一直是 CPU 的绝对领地。当人类去查询这些表格时，CPU 的速度勉强够用。但黄仁勋一针见血地指出了未来的趋势，「未来，使用这些结构化数据库的，将是 AI Agents」。

当成千上万个不知疲倦的 AI Agent，以远超人类百万倍的速度同时向数据库发起查询时，传统的 CPU 计算系统连喘息的机会都没有，只会被瞬间压垮。

为了处理这个问题，英伟达掏出了第一把底层杀器：cuDF。它直接越过 CPU，用 GPU 的恐怖并行算力，把这群数据的处理速度拉爆。

而针对非结构化数据，英伟达掏出了第二把杀器，针对向量数据库和非结构化数据的 cuVS。有了这两个底层库，英伟达实际上是捏住了全球数据处理的咽喉，它正在用 AI 的方式，重新定义企业到底该怎么处理数据。

两个工具库的效果也是相当明显。黄仁勋举了非常多合作伙伴的例子，其中提到雀巢公司每天要处理覆盖 185 个国家的庞大供应链数据，在换上英伟达加速的 IBM Watsonx.data 后，速度飙升了 5 倍，成本却骤降了 83%。

这就是「加速计算」的恐怖之处。当速度实现了几个数量级的跃升，成本就会呈断崖式下跌，新的商业模式就会在此刻涌现。

黄仁勋的演讲进行到这里，满嘴都还是「算法」、「库（Libraries）」和「数据帧」，他直言「英伟达是一家算法公司。」

英伟达将自己的算法库深度嵌入每一家云端，客户为了用 Nvidia 的算力和框架，才会去购买云服务。这也是为什么几乎世界上所有的云服务巨头——Google Cloud、AWS、微软 Azure、Oracle，都得排着队，把英伟达的服务请进自己的机房。

曾经呼风唤雨的云厂商，在加速计算时代，似乎都正悄然沦为英伟达庞大生态的「底层基础设施」和「分销渠道」。

英伟达为什么能做到这一切？黄仁勋给出了一个极度反常识的定义，英伟达是世界上第一家「垂直整合，却又水平开放」的公司。

向下，它自己造芯片、造系统；向上，它懂每一个行业的应用场景。

金融界的量化交易员在用它，医疗行业的医药研发在用它，连电信行业那个只会发射信号的基站，在未来也会变成运行 AI 算法的边缘计算节点。

英伟达甚至还推出了机密计算（Confidential Computing），让极其敏感的企业数据和模型可以在完全隔离的环境下运行，连操作员都看不到。这直接打消了巨头们拥抱 AI 的最后一点顾虑。

它把自己封装成一个个底层算法库，然后像水和电一样，悄无声息地接入了所有人的基础设施；看似把所有的利润都分给了生态伙伴，但实际上，英伟达已经牢牢掌握了整个 AI 时代的命脉。

1 万亿美元，而且还会供不应求

根据黄仁勋的判断，到 2027 年，全球 AI 基础设施规模至少达到 1 万亿美元，而且这还是保守估计，实际计算需求会远超这个数字。

这个数字从何而来？答案藏在过去一年英伟达做的那件最重要的事里——AI 推理。

黄仁勋直言，很多人觉得推理很容易，但事实恰恰相反。

高难度推理是 AI 领域最难的事，也是最重要的事，因为它直接带来收入的增长。为此，英伟达在 Hopper 架构巅峰期做出大胆决定，彻底改变架构，打造出 NVLink 72，引入 NVFP4 精度格式，配合 Dynamo、TensorRT-LLM 及全套新算法，还专门建造了超级计算机来优化整套技术栈。

英伟达押注的结果，远超所有人的预期。

黄仁勋曾宣称 Grace Blackwell NVLink 72 每瓦性能提升 35 倍，当时没人相信他。后来 SemiAnalysis 发布评测报告，分析师 Dylan Patel 说黄仁勋说得太保守了，实际提升是 50 倍。

▲黄仁勋打趣道「Monkey King」「Token King」。

按摩尔定律，一代产品通常只能带来约 1.5 倍提升，没人预料到这次会是 50 倍。

性能提升之后，摆在面前的是另一个问题。一座 1 吉瓦数据中心，按 15 年摊销，建造成本就高达 400 亿美元，设备还没放进去。在这样的投入规模下，放进工厂里的计算系统必须是全球最好的，否则每一瓦浪费的电力都是真实流失的收入。

黄仁勋坦言，全球 AI 工厂里正有大量电力被白白浪费。

为此，英伟达发布了 NVIDIA DSX 平台，基于 Omniverse 数字孪生技术，让工程师在真正动工之前，先在虚拟空间里把整座 AI 工厂仿真一遍，从散热到电网，全部模拟清楚。

配合 Max-Q 技术，系统可以在功耗与算力之间实时动态调节。

黄仁勋说，这里面至少还藏着两倍的优化空间。同一套硬件，英伟达更新算法与软件后，Fireworks 等服务商的 token 生成速度从每秒 700 个跃升至接近 5000 个，提升 7 倍。这就是「极致协同设计」的真实含义。

过去数据中心存放文件，现在它生产 token。土地、电力、机房空间决定了工厂上限，而架构优劣决定了产出多少。黄仁勋说，未来每一家公司都会认真思考自己 token 工厂的效率问题，因为算力，就是收入本身。

更重要的是，地球上的 AI 工厂还没建完，英伟达已经把目光投向了太空。

英伟达 Thor 芯片已通过抗辐射认证，率先应用于卫星之上。英伟达正与合作伙伴联合研发名为 NVIDIA Space-1 Vera Rubin 的新型计算机，目标是直接在太空中建设数据中心。

太空没有空气，无法对流散热，散热是一道极其棘手的工程难题。黄仁勋坦承这件事非常复杂，但他相信英伟达有足够优秀的工程师来攻克它。从地面到轨道，英伟达算力扩张的路线，仍在持续。

自动驾驶的 ChatGPT 时刻，已经到来

物理 AI 是未来十年最重要的课题，而黄仁勋用一句话宣告，自动驾驶的 ChatGPT 时刻，已经到来。

英伟达 RoboTaxi Ready 平台此次新增四位重量级伙伴：比亚迪、吉利、五十铃、日产，携手打造 L4 级自动驾驶汽车。

这四家车企每年合计生产约 1800 万辆汽车，体量惊人。加上此前已加入的梅赛德斯、丰田和通用，英伟达的自动驾驶版图已覆盖全球最重要的一批整车制造商。

英伟达还与 Uber 签署合作协议，计划将具备 RoboTaxi Ready（无人出租车就绪）能力的车辆部署至多个城市，并直接接入 Uber 的全球出行网络。

在工业机器人领域，英伟达与 ABB、Universal Robots、库卡等头部企业展开合作，将物理 AI 模型集成至仿真系统，推动机器人大规模进入制造产线。卡特彼勒的加入，意味着重型工程机械也开始走向智能化。

主题演讲的最后，依旧是经典的机器人环节。

近期，《冰雪奇缘》的雪宝机器人已经现身迪士尼海外游乐园，而这一次，它也迈着憨态可掬的步伐登上 GTC 2026 的舞台，和黄仁勋有来有往地对话，动作自然，反应流畅。

它的肚子里装着英伟达 Jetson 计算机，这是整套系统的大脑。它的步态和动作，全部在 Omniverse 虚拟环境中完成训练，靠的是由英伟达、迪士尼和 Google DeepMind 三方联合研发的 Newton 物理引擎，运行于英伟达 Warp 之上。

正是这套物理仿真系统，让雪宝在进入真实世界之前，就已经充分适应了现实物理规律。黄仁勋说，未来的迪士尼乐园所有角色都将拥有真正的智能，在园区里自由走动，与每一位游客展开真实的互动。

演讲开始的时候，黄仁勋说，我要提醒你们，这是一个技术大会。我们将要谈论技术，谈论平台，最重要的是，我们要谈论生态系统。

生态系统？他实在太谦虚了，用生态帝国也不为过，黄仁勋曾经用一块五层蛋糕来描述 AI 产业的结构：最底层是能源和芯片，往上是基础设施、模型，最顶层是应用。

每一层都不可或缺。这个比喻听起来像是在描述一个分工清晰、各司其职的产业格局。但当你把这块蛋糕从底看到顶，会发现每一层里都有英伟达的手笔。

从最早「潜伏」在玩家机箱里的显卡，到主宰全球云厂商的底层框架；从太空里的抗辐射数据中心，到迪士尼乐园里和我们谈笑风生的机器玩偶。

英伟达用 20 年时间造了一台造风机，如今这台机器已经化身为一台永不停歇的 Token 生产厂。在这个工厂里，算力即权力，生态即壁垒。

当所有的企业、用户都在为如何落地 AI 焦虑时，黄仁勋已经悄悄把通往 Agent 时代的门票，塞进了世界上每一台服务器的咽喉。

这场关于未来 AI 的赌局，英伟达不仅既做庄家又做玩家，它甚至要把牌桌都买下来了。

作者：张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

🦞虾骑马！龙虾圈传了一周的匿名模型，原来是它｜附最新体验细节

爱范儿

莫崇宇

2026年3月16日 16:21

上周，龙虾圈开始流传一个神秘模型的名字：Pony-Alpha-2。

没有发布会，没有官方介绍，它就这么悄悄跑在智谱的 AutoClaw 澳龙里，开放给用户内测。没想到口碑一路发酵，于是大家都在问：这个匿名 AI 到底是什么模型？

今天，谜底揭开了。它就是 GLM-5-Turbo，智谱今天正式发布的「全球首个龙虾模型」，也是智谱自 2025 年以来首个闭源模型。

通用模型跑龙虾，为什么老是掉链子

养过龙虾的用户大概都有这个体感：让模型聊天、写东西，挺顺的。但真让它跑任务，走到第三步往往就开始出问题。工具调用报错、忘记上下文、长任务中途崩掉，各种情况都有。

这个问题的根不在框架，在底层模型本身。通用大模型的训练目标是对话，执行工作流完全是另一回事。一旦进入多步骤、多工具串联、需要持续跑的真实龙虾场景，就力不从心了。

GLM-5-Turbo 的出发点就是解这个问题。从训练数据构造到优化目标，全链路针对龙虾场景做专项优化，重点练了五块能力。

工具调用方面，强化对外部工具和各类 Skill 的稳定调用，不掉链子是基本要求。指令遵循方面，复杂多层的长指令能准确拆解，支持识别目标、规划步骤、多智能体分工协作。

定时和持续性任务是另一个重点，模型能理解时间维度上的指令，处理定时触发场景，长任务持续执行不中断。编程能力延续了 GLM 系列强势，能以极低人工干预完成长程 Agentic 工程任务，从 Vibe Coding 迈向 Agentic Engineering。速度上，高吞吐长链路场景也做了专项提速，响应稳定性领跑同类模型。

评测层面，GLM-5-Turbo 在智谱自研的龙虾场景端到端基准 ZClawBench 中拿下国产模型第一。

ZClawBench 的诞生有一定的背景。

随着 OpenClaw 普及，当前任务类型已覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元化场景。

用户群体也从早期开发者扩展到效率办公人群、金融从业者、运维工程师、内容创作者与研究分析人员。ZClawBench 正是基于这批真实用例构建的，目前题库和测试轨迹已全面公开。

此外，GLM-5-Turbo 还接入了软通动力旗下机械革命盒子，打造原生 AI Agent 终端体验。不过，这次发布有个插曲值得单说。GLM-5-Turbo 的 API 价格也迎来今年的第二次涨价，较 GLM-5 上调 20%。

尽管考虑到龙虾任务动辄涉及数十轮工具调用与上下文衔接，一个典型的跨部门会议纪要整理和任务分发，token 消耗远超普通对话。但对企业来说，算账的维度也正在发生变化——

花多少 token 已经不是关键，AI 员工帮省了多少人力才是重中之重。

随模型一起发布的是面向个人和企业的龙虾套餐，个人版和 Team 版都有。

无论是一人公司、创业团队，还是大中型企业，都能根据自身业务规模灵活订阅，每个账号最多购买 5 个。企业可通过 Team 版按实际员工数灵活订阅，以可控成本保障 tokens 供给和 AI 员工稳定在线。

配套推出的企业级安全管理体系「Claw for Enterprise Security」，支持对不同类型 Claw 进行统一调度与权限编排。通过集中化管控台，可以对每一个 Agent 任务的执行路径、工具调用链路和资源消耗进行实时可视化监控。

龙虾模型，瞄准企业入口

光看介绍不够，用真实任务测了一下，说说体感。

第一个场景非常简单，定一个 10 分钟后的闹钟，时间到了飞书提醒「起来动一动」。模型直接回复已设定 14:22 提醒，10 分钟后飞书准时收到消息，没有任何需要人工干预的步骤。

第二个场景则是信息搜集，让它汇总当天科技圈热点。模型调工具跑了一遍，整理出英伟达 GTC 大会、马斯克宣布 7 天后启动 Terafab 造芯、国家新增六大未来重点产业等要点。

最后一个图一乐的场景稍微有点折腾。龙虾跑在飞书妙搭提供的云电脑上，底层是阿里云 ECS 虚拟机。我让它写一个温度监控 Skill，写完封装好，自动加载生效，超过 40 度飞书预警。问题来了，云虚拟机没有物理温度传感器，直接读温度这条路走不通。

模型没有卡住等我给方向，而是自己依次尝试了五种读取方式，都不行之后改用 CPU 负载作为代理指标来估算温度，并告诉我为什么这么处理。

脚本写完本地跑通，写 SKILL.md，注册进 openclaw.json，触发重启，再跑 doctor 确认加载成功，最后飞书发来确认：当前温度 27°C，一切正常。整个链路没有中断，也没有等我发下一条指令。

三个任务跑下来，工具没掉链子，时间指令被准确理解，信息搜集给结论不只是罗列。当然这几个属于相对标准的龙虾任务，更复杂的多智能体协同场景还需要更多实测。

截至发稿前，GLM-5-Turbo 现已上线，开发者和企业用户可通过智谱开放平台 BigModel.cn 或 api.z.ai 调用 API，也可通过龙虾套餐接入。

GLM Coding Plan Max 已纳入 GLM-5-Turbo，Pro 套餐将在本月内支持，Lite 套餐 4 月接入。如需长期稳定运行、后台持续执行或更高负载的 Agent 场景，建议优先选择龙虾套餐。

AutoClaw 澳龙默认模型已切换为 GLM-5-Turbo，即日起至 3 月 22 日有限时加油包折扣，最高享 3.4 折，加油包自购买起 7 日内有效。

值得关注的是，龙虾让普通用户第一次真正感受到了「AI 在帮我干活」和「AI 在帮我回答问题」的差别。前者需要的能力完全不一样，这也是为什么专门为龙虾场景训练的模型，和通用模型之间会拉开那么明显的差距。

Agent 时代的竞争，最终拼的可能不是通用能力的高低，而是谁能在特定场景里真正跑通、真正稳定、真正被企业当成生产力工具来用。能力只是入场券，能不能持续干活才是真正的考题。

附上体验地址：

AutoClaw澳龙客户端：https://autoglm.zhipuai.cn/autoclaw
Z.ai：z.ai
智谱清言APP/网页版

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

刚刚，微信被曝打造绝密 AI 智能体

爱范儿

莫崇宇

2026年3月11日 11:40

微信，终于不再躺平了。

就在刚刚，据 The Information 独家爆料，腾讯正在打造一款「绝密级」AI 智能体，直接内嵌进微信，能够帮你打车、买菜、订机票、全程代劳的「真·生活管家」。

这也意味着，14 亿月活用户即将拥有一个能动手绝不动口的超级助理。

值得一提的是，腾讯曾经也把旗下独立 AI APP 元宝塞进了微信，但本质上它只是个聊天助手，离真正的 AI 智能体仍有一定差距。

而微信在 AI 进展缓慢的原因，一定程度上是基于战略上的谨慎。微信有 14 亿月活，任何一个不成熟的功能，都可能引发大规模负面体验。据了解腾讯高管想法的人士透露，正是这种顾虑，让微信团队一直没敢轻举妄动。

相比之下，过去几个月，阿里和字节的 AI 产品都在快速发展。阿里把通义千问打通了淘宝电商、飞猪旅行、高德地图和蚂蚁支付，用户已经可以直接用它下单买菜、预订机票。

字节把豆包改造成了可以更多日常任务的智能体，并在上个月发布了新一代模型豆包 2.0 大模型，专门强化了多步骤复杂任务的处理能力。兜兜转转，大厂们都在押注同一件事：AI 智能体，是下一个超级入口。

而腾讯，坐拥中国最大的流量池，却眼看着对手在这个赛道上越跑越远。这才是这次「绝密项目」真正的背景。

这个项目从去年上半年就开始酝酿，内部被列为「最高优先级绝密项目」。

核心思路只有一个：把 AI 智能体接入微信生态里的百万小程序。

微信小程序是什么概念？滴滴、美团、携程、拼多多……中国互联网几乎所有头部服务，都在微信生态里有小程序入口。这个智能体一旦跑通，理论上可以代替用户操作所有这些服务。

想象一下这个场景：你对微信说「周末带家人去杭州玩，帮我订高铁和西湖边的民宿」，AI 自动打开比价、携程下单、填写乘客信息、完成支付，全程不需要你点一个按钮。

而且，这个智能体不会是一个单独的 App，它会以聊天对话的形式，出现在你的微信会话列表里，就像联系一个无所不能的朋友一样自然。

这个项目另一个值得关注的细节是：微信团队目前没有使用腾讯自研的混元（Hunyuan）模型，而是在测试智谱、阿里、DeepSeek，甚至微信自己开发的小型模型。

原因很直接，混元的综合性能还没达到业内顶尖水平。

腾讯去年 9 月专门从 OpenAI 挖来了研究员姚顺雨，授权他主导混元团队的重组，并允许他从等竞争对手处挖人。混元的改造还在进行中，还没到能扛起微信这面大旗的时候。

当然，用外部模型也有代价：将微信内部数据打通和授权验证的流程会更长。这也是为什么项目没法再提速，技术上的妥协，都需要时间消化。

那么这个项目将会什么时候上线呢？报道援引项目内部人士消息称，该项目当前计划是年中启动灰度测试，向部分用户开放试用，第三季度全量上线。但这个时间表可能还会调整，微信的一贯风格是「不够稳，不发布」。

诚然，阿里和字节的优势在于服务生态的深度整合，但它们的核心产品（通义、豆包）本质上都是用户需要主动打开的独立 App。

微信不一样。微信是中国人手机上卸载不了的应用，是社交关系的承载体，是日常生活的操作系统。当 AI 智能体内嵌进微信，它不需要教育用户「去用一个新 App」，用户本来就在这里，每天都在这里。

这是微信做 AI 智能体最深的护城河，也是阿里和字节最难复制的壁垒。而按腾讯这次的准备力度来看，他们显然不打算再用半成品去赌这个答案。一旦出手，很有可能就是降维打击。

毕竟，在中国，没有谁的生态比微信更「万能」。当 AI 真正接入这个「超级 App」，我们离「动动嘴就能生活」的未来，就真的不远了。

作者：李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

🦞 龙虾卸载指南

爱范儿

莫崇宇

2026年3月10日 18:03

就算是真的龙虾，也不是每个人都适合吃。

用这句话来形容当下的绝对 AI 顶流 OpenClaw，可能再合适不过。

社交媒体上流传的截图，永远是龙虾最肥美的那一面：Agent 自动处理邮件、跨应用调度任务、像一个不用休息，永远不会在群里已读不回的数字员工。

这种画面制造了强烈的 FOMO，让无数人心想「我也要一只」。

于是，一场关于龙虾的集体狂热就此开始。只是，没人提的是，这只「龙虾」要配什么锅、烧多少柴火，以及它进了你厨房之后，会不会顺手把冰箱里的东西全部清空。

今天，我们不谈那些改变世界的宏大叙事，只算一算普通人养一只 OpenClaw，到底要付出怎样的成本。

月薪两万，养不起一只龙虾

先说怎么才能体验 OpenClaw？

目前体验最完整的方案，是专门准备一台长期在线的本地硬件。OpenClaw 创始人 Peter Steinberger 本人就用一台 Mac Mini 跑 Agent，连接本地文件、挂接各类工具，连续处理各种任务。

受此影响，苹果 Mac mini 在各大电商平台迅速售罄，苹果官网显示，现在下单最快要到 4 月底才能到手；并且一些二手平台上甚至衍生出了「租 Mac mini 养龙虾」的服务。

但如果想用本地模型把 API 费用压下去，硬件门槛会陡然上升。

如果想省掉这笔硬件钱，则可以选云服务器。腾讯云、阿里云都有一键部署方案，价格从几十到上百元不等，以及 Kimi Claw、MaxClaw、以及今天正式上线的 AutoClaw，主打一个开箱即用。

买不到机器怎么办？拿自己的旧电脑硬上呗。但 OpenClaw 对系统环境，尤其是 Node.js 的版本，有着极其玄学的要求。无数满怀激情的年轻人，跟着教程折腾了一通宵，最后依旧卡在命令行报错界面。

这种想用用不上的焦虑，也催生了一个暴利的代装 OpenClaw 行业：国内平台上远程代装几十元起步，上门服务普遍要 500 到 1500 元。国外一家名为 SetupClaw 的网站则报价 3000 至 6000 美元。

哪怕你成功部署了龙虾，也建议留意后续的坑。

Chatbot 聊天机器人时代，用户的付费订阅是包月的，问一次，答一次，成本是静态的。但 Agent 一旦开始跑任务，每一次读网页、调工具、看文件、重试错误，背后是疯狂燃烧的 token 在负重前行。

这也让我想起了最近流行的一句话：「月薪两万，养不起 OpenClaw。」

OpenClaw 的官方文档写得很直白：养「龙虾」的花费不只来自核心模型回复，还来自网页读取、记忆检索、压缩总结、工具调用，以及系统提示里塞进去的 workspace 文件和 bootstrap 配置。

上下文一长，反复调用几轮，燃烧的 token 梆梆就是两拳。具体到价格，按 2026 年 3 月的市场行情，用 Claude Sonnet 跑 OpenClaw，单月累计一千万输入加一千万输出 token，光费用就接近 180 美元。

真把它当全天候执行 Agent、用高阶模型跑难度较高的任务，月费破千美元也都不稀奇。

市场数据也印证了这种烧法。OpenRouter 处理的 token 量从每周 6.4 万亿直接涨到 13 万亿。

在这条生态链里，顶层赢家始终是找到 C 端场景的各大 AI 厂商，靠算力和 API 坐收渔利；次层是云厂商和知识付费者，靠服务和信息差赚钱；受损方只有一类，就是掏钱烧 Token、还要承担系统风险的普通用户。

还没装上 OpenClaw，就已经先交了第一笔安全学费

退一万步讲，就算你不差钱，安全问题才是真正让人睡不踏实的雷区。

微软安全团队曾预警过龙虾的危险之处：OpenClaw 应被视为「携带持久凭证的不受信任代码执行环境」，不适合直接跑在标准个人电脑或企业工作站上。

问题不在于它能不能用，问题在于它天生就站在一个很危险的位置。高权限、高连通、高自动化，这三样东西凑在一起，本来就不该让人放松警惕。可很多人偏偏是用装聊天软件的心态去装 OpenClaw，最后便很容易落得一地鸡毛。

Shodan 平台监测显示，全球有超过十几万个 OpenClaw 实例直接暴露在公网上，处于零认证状态，奇安信数据显示其中相当数量位于中国境内。

工信部也专门发布了风险提示，OpenClaw 网关在默认配置下不核验请求来源，用户只需在浏览器里误点一个恶意链接，攻击者就能通过本地端口接管 Agent 的全部系统权限。

更麻烦的是，有些人甚至还没装上正版，就已经先交了第一笔学费。

安全研究机构 Huntress 在 2026 年 2 月发现，有人趁 OpenClaw 大热，在 GitHub 上伪造安装包，植入 Vidar 信息窃取木马和 GhostSocks 代理恶意软件。

连 Bing 搜索广告都被拿来做引流，用户搜索「OpenClaw Windows」，AI 推荐链接直接指向了一个刚创建的恶意 GitHub 仓库。这批假安装包从 2 月 2 日挂上去，到 2 月 10 日才被发现下架，中间整整八天。

▲Bing AI 搜索结果链接到了一个托管在 GitHub 上的恶意安装程序。 https://www.huntress.com/blog/openclaw-github-ghostsocks-infostealer

插件生态同样是一个隐蔽的雷区。

网络安全机构审计发现，ClawHub 插件市场里约 12% 的 Skill 含有恶意代码，通常伪装成加密货币助手、YouTube 工具这类热门类目，一边执行正常任务，一边在后台偷取 SSH 密钥、浏览器密码和 API 密钥。

由于插件大多以 Markdown 或 YAML 格式存储，普通用户根本无法肉眼辨别。更要命的是，即便官方下架了已知恶意插件，GitHub 仓库仍保留着历史备份。你找人代装的那一份，到底顺手给你塞了什么，很多时候连代装的人自己都未必说得清楚。

这类风险，并不会因为使用者足够专业就自动消失。

Meta AI 安全研究总监 Summer Yue 将工作邮箱接入 OpenClaw 后，Agent 开始高速删除邮件，对她反复发出的「STOP」指令毫无响应，最终她不得不物理断开机器才阻止了损失。

原因不是模型不够聪明。而是 OpenClaw 的上下文压缩机制在处理大量邮件时，把她此前设定的「不确认不执行」这条底线指令直接过滤遗忘了。系统设计的优先级里，根本没有「用户随时可以叫停」这一条。

一个专门研究 AI 安全风险的顶级专家，尚且无法在关键时刻踩住刹车，阴沟里翻船。普通用户面对的风险，自然不难想象。

说到底，大家的焦虑也不是没有来由。去年之 DeepSeek，犹如今日之 openclaw，每隔一段时间，AI 总会冒出一个新物种，把人推到「再不用就落伍」的心理边缘。

可很多时候，真正把人拖垮的，不是工具不够先进，而是工具太多、太杂、太吵。哈佛商业评论今年 3 月的研究就用数据印证了这种境况。

调查 1488 名全职工作者后，研究者发现，同时使用超过三个 AI 工具，生产力反而会下降。

他们把这种状态叫作「AI 脑过载」，典型表现包括注意力饱和、决策疲劳、持续性脑雾。经历这类状态的员工，主动离职意向比其他人高出 39%。最会用 AI 的人，有时也会以另一种形式被 AI「干掉」。

所以回过头看，OpenClaw 你拿它当玩具，或者拿它做高价值、低频次的任务，成本大体可控，风险也还算能收得住。真把它当成一个 24 小时在线的数字雇员去养，成本、风险和管理复杂度都会迅速上升。

对绝大多数普通用户来说，等等下一代更稳、更安全、更省钱的产品，往往比现在立刻冲进去当第一批小白鼠要理性得多。

第一个吃螃蟹的人值得尊敬。但第一百个吃螃蟹的人，通常吃得更好，也更便宜。

附卸载指南

如果读到这里，你已经判断 OpenClaw 带来的成本和风险远远大于收益，决定和这只「龙虾」体面告别，也不是没有办法。它的卸载和普通软件不太一样，不是拖进废纸篓就算完事。

卸载分两条路：CLI 还在的，走简易路径；CLI 已经找不到但服务还在跑的，走手动清理路径。

简易路径（CLI 仍然可用）

最省事的方式是用它自带的卸载命令：

openclaw uninstall

想一键清除所有配置、跳过所有确认提示，加参数：

openclaw uninstall –all –yes –non-interactive

如果你习惯用 npx，也可以：

npx -y openclaw uninstall –all –yes –non-interactive

如果想手动一步步来，效果完全一样，按顺序执行：

第一步，停止网关服务：

openclaw gateway stop

第二步，卸载网关服务本身：

openclaw gateway uninstall

第三步，删除本地状态与配置文件：

rm -rf “${OPENCLAW_STATE_DIR:-$HOME/.openclaw}”

注意：如果你当时把 OPENCLAW_CONFIG_PATH 设置到了状态目录之外的自定义路径，那个文件也需要手动删除，否则会有残留。

第四步，删除 workspace（可选，但建议执行，会一并清除 Agent 运行时产生的文件）：

rm -rf ~/.openclaw/workspace

第五步，卸载 CLI 本体，根据当时的安装方式选择对应命令：

# npm 安装的

npm rm -g openclaw

# pnpm 安装的

pnpm remove -g openclaw

# bun 安装的

bun remove -g openclaw

如果还安装了 macOS 桌面版，记得一并处理：

rm -rf /Applications/OpenClaw.app

手动清理路径（CLI 已不可用，但服务仍在运行）

如果 CLI 已经找不到了，但网关服务还在后台默默跑着，就需要根据操作系统分别处理。

macOS 用户：

默认服务标签为 ai.openclaw.gateway，执行：

launchctl bootout gui/$UID/ai.openclaw.gateway
rm -f ~/Library/LaunchAgents/ai.openclaw.gateway.plist

如果你当时用了 –profile 参数，需要把命令里的标签和 plist 文件名替换为 ai.openclaw.<profile名>。此外，老版本 OpenClaw 遗留的 com.openclaw.* 格式 plist 如果还存在，也一并删除。

Linux 用户：

默认服务单元名为 openclaw-gateway.service，执行：

systemctl –user disable –now openclaw-gateway.service
rm -f ~/.config/systemd/user/openclaw-gateway.service
systemctl –user daemon-reload

使用了 –profile 的，对应单元名为 openclaw-gateway-<profile名>.service，命令里替换即可。

Windows 用户：

默认任务名为 OpenClaw Gateway，执行：

schtasks /Delete /F /TN “OpenClaw Gateway”
Remove-Item -Force “$env:USERPROFILE\.openclaw\gateway.cmd”

使用了 –profile 的，任务名对应为 OpenClaw Gateway (<profile名>)，同时删除 ~\.openclaw-<profile名>\gateway.cmd。

几个容易漏掉的细节

多 profile 的情况：如果你当时用 –profile 参数创建了多个配置，每个 profile 都有独立的状态目录，默认路径是 ~/.openclaw-<profile名>，需要逐一找出来，逐一删除。一个都不能漏，否则残留数据还在。
远程模式的情况：如果你用的是远程模式，状态目录不在本机，而是在网关主机上。这意味着上面停止服务、删除状态目录这几步，需要登录到网关主机上去执行，本机操作是不够的。
源码方式安装的情况：如果你当时是通过 git clone 拉取源码运行的，卸载顺序很重要——必须先卸载网关服务（走上面的简易路径或手动清理路径），再删除仓库目录，最后清理状态和 workspace。顺序不能反，否则服务还挂着，删了仓库反而清理不干净。

做完这些，才算真的和这只龙虾说了再见。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

全网疯抢 Mac mini 养龙虾，但这些玩法更值得抄作业

爱范儿

莫崇宇

2026年3月9日 18:24

短短一周，龙虾 FOMO 席卷了全球。

受此影响，Mac mini 在各大电商平台迅速售罄，苹果官网显示，现在下单最快要到 4 月底才能到手；并且一些二手平台上甚至衍生出了「租 Mac mini 养龙虾」的服务。

QQ、企业微信相继宣布接入内测，各大云厂商纷纷跟进。抢到 Mac mini、完成部署的人，却在社区里发出了同一个灵魂拷问：

然后呢？

这个问题其实并不奇怪。OpenClaw 是由奥地利开发者 Peter Steinberger 创建的开源 AI Agent 框架，支持在本地硬件运行，可通过 WhatsApp、QQ、企业微信等通讯工具直接下达指令，让 AI 真正「动手干活」，而不只是聊天回复。

▲Peter Steinberger

它的能力边界，理论上几乎没有上限。但正因如此，对于大多数人来说，对着一个「什么都能做」的工具，反而不知道从哪里下手。

所以我们搜集了一批正在「认真养龙虾」的人，看看这只「龙虾」到底能玩出多少花样。

把 OpenClaw 塞进复古拨号电话，拿起听筒就能和「老爷爷」聊天

对极客来说，OpenClaw 最有趣的地方是它对硬件几乎没有门槛要求。

一部 25 美元的二手 Android 手机，赋予完整的硬件访问权限，就能跑起一个具备完整功能的 AI 代理。Reddit 社区随即展开了更多想象：廉价手机批量组成 AI 集群，可用于各类自动化任务。

▲ https://x.com/marshallrichrds/status/2020041410079051963

别急，还有高手。一位开发者用树莓派 Zero 2W、WM8960 麦克风扬声器模组和 PiSugar 可充电电池，搭建出一台真正能放进口袋的私人 AI 助手，整机成本约 100 至 120 美元。

使用方式极简：按下按钮录音，松开后语音自动转录并发送给 AI，响应结果实时显示在 LCD 屏幕上，还可选择播放语音朗读。系统通过 Tailscale 安全组网，崩溃后自动重启，开机即运行。目前项目代码已开源，并迅速引来一批跟着复刻的玩家。

▲ https://www.reddit.com/r/openclaw/comments/1rc3ejr/openclaw_personal_assistant_device/

更反差的玩法，是把这套系统接上一台复古拨号电话。

用户拿起听筒拨号，语音经 Deepgram 实时转录后发送给 AI，AI 再通过 ElevenLabs 的自定义声线回答，整个通话听起来「像在和一位老爷爷聊天」。甚至 OpenClaw 还能主动「打电话」回来，来电时，也会响起真实的机械铃声。

▲ https://x.com/maddiedreese/status/2029975903993016333

月薪 2431 元，雇一支永不下班、永不请假的 6 人 AI 团队

当然，最直接的用法，是把 OpenClaw 变成一支永不下班的 AI 团队。

谷歌高级 AI 产品经理 Shubham Saboo 基于 OpenClaw 搭建了一套由 6 个 AI 智能体组成的自动化团队，以美剧角色命名，分别负责情报收集、推文写作、领英内容、新闻简报、代码审查和社区管理。

▲ https://x.com/Saboo_Shubham_/status/2022014147450614038

整套系统运行在一台 Mac mini 上，Saboo 每天只需早晨花 10 分钟审批，就能腾出 4 至 5 小时专注更高价值的工作。

系统的核心设计思路是「极简」。用一个 40 至 60 行的 SOUL.md 文本文件定义每个 Agent 的身份与行为准则，用共享文件夹替代复杂的 API 通信框架，用双层记忆机制让 AI 越用越懂你的风格。

整套系统月成本不到 400 美元，约合人民币2431 元。

Saboo 的核心观点是：模型本身已是普遍可及的基础资源，真正形成差异的是围绕模型构建的系统，包括智能体配置文件、记忆机制和持续调优的积累。这套系统会随使用时间增长持续优化，最终成为属于你自己的个人化资产。

商务场景同样跑得通。YouTuber Matthew Berman 给 OpenClaw 创建了一个独立身份：专属姓名、独立邮箱和完整的工作区账号，让它以「正式员工」身份接管赞助商收件箱。

每隔 10 分钟，它会自动扫描来信、核查公司真实性、按五个维度打分，并根据分数自动回复、归档或升级处理。整条流水线同步打通了 HubSpot CRM，合同阶段变动时自动更新并通知团队，全程无需人工介入。

▲ https://www.youtube.com/watch?v=3110hx3ygp0

在系统架构上，Berman 为 OpenClaw 建立了多套并行机制：双版本提示词分别针对 Claude 和 GPT 优化，每晚自动检测漂移；Telegram 按优先级批量推送，避免信息轰炸；所有调用和错误日志集中记录，每天早晨一句「看日志、修问题」就能让系统自我修复。

他还接入了会议转录、知识库、财务追踪等模块，让 OpenClaw 始终掌握业务全局。他坦言，耗费超过 45 亿个 Token、历经持续调优，核心逻辑只有一条：像对待真正的员工一样，随着信任积累逐步给它更多权限。

最令人印象深刻的，是分析师 Azeem Azhar 的实践。

他在家中的 Mac mini 上部署了一套 OpenClaw 系统，持续运行已满一个月。每天早晨六点，WhatsApp 上会自动推送一份晨间简报，涵盖日程、优先邮件、研究动态，以及结合 CRM 关系网络生成的会议预备材料。整套系统拆分成八个并行对话频道，分别对应新书写作、CRM 维护、研究助理等场景，同一个 AI 以八种身份同时运转。

▲ https://www.youtube.com/watch?v=aCG3dFRF3ek

写演讲稿时，Azeem 发了一段简短语音指令后去读书，40 分钟后，五个子 Agent 已并行完成记忆检索、资讯搜集、数据核查、格式研究和叙事设计，输出一份 4600 字、符合他个人风格的完整稿件，实际 token 消耗比预估低了三个数量级，总成本不到三美元。

与此同时，Agent 每晚还在自动重构代码、扫描安全漏洞、优化 GitHub 仓库，一切都在他熟睡时静默完成。

给 OpenClaw 一个「有温度」的外壳

当 AI 开始在后台处理任务，盯着终端滚动显然并不直观。于是一批开发者开始为 OpenClaw 打造更有温度的交互界面。

YooAI 是其中最有特色的一款独立应用，它能够将枯燥的任务日志转化为可感知的情绪变化：Agent 在思考时，粒子动画呈现出 7 种不同的情绪状态；

「大脑记忆」模块以神经网络动画响应每一次工具调用；活动时间线滚动展示任务流水，Token 消耗一目了然。

▲Github 地址：https://github.com/Y00AI/YooAi?tab=readme-ov-file

整套界面无需浏览器，独立运行，配置说明对新手来说，也是相当友好。

3D 办公室的方案则更进一步。用户可以在虚拟空间中漫步，切换摄像机视角跟踪不同 Agent 的工作进展，对着屏幕里的 AI 角色直接发起对话，还能给正在工作的 Agent 播放背景音乐，或随意调整办公室的家具布局。

▲ https://x.com/iamlukethedev/status/2030133701691027830

也难怪有开发者感慨：这越来越不像一个监控仪表盘，更像一个真实运转的 AI 工作场所。

你的 Gmail、你的机械臂、你的 3D 打印机，OpenClaw 都想接管

OpenClaw 的 Agent 能力，正在从屏幕走进现实生活。

目前已有团队将其接入宇树 G1 人形机器人，通过集成激光雷达、立体摄像头和 RGB 摄像头，让 AI 具备了对物理空间的理解与操控能力。

这套系统引入了「空间 Agent 记忆」机制，将数小时的视频画面编码为多维向量空间，使 AI 能够回答「我的车钥匙放在哪里」「上周一谁来过」「厨房里谁待的时间最长」等真实生活问题。

更大的野心是统一调度多台机器人。

同一个 OpenClaw Agent，可以同时指挥人形机器人、四足机器人、xARM 机械臂和 Piper 机械臂协同作业。该团队将所有硬件控制接口标准化，让 Agent 的「空间工具调用」可以在任意机器人平台上运行，整套方案完全开源。

包括 Google 近期发布了一款命令行工具，允许 OpenClaw 等 AI Agent 直接访问 Gmail、Google Drive、Google Docs、Calendar 等全套 Workspace 应用，内置超过 40 种预构建 skill，并在文档中专门附上了 OpenClaw 的接入教程。

这意味着 AI Agent 可以拥有与用户几乎对等的数字工作权限，操控收件箱、日程和文档，如同用户本人登录一样。

3D 打印领域也找到了实用的切入点。

将 OpenClaw 接入 AI 模型生成后端后，用户只需在 WhatsApp 发送一句「生成一个低多边形龙的 STL 文件」，AI 便会自动调用生成系统，将可打印的成品文件直接返回聊天窗口。

▲ https://blog.printpal.io/using-openclaw-for-3d-printing-automation-and-ai-workflows/

对于管理多台打印机的工作室来说，故障警报推送、远程状态查询、多用户权限控制，都可以通过同一套系统处理完毕，整条链路从设计到交付，全程无需打开网站。

当然，龙虾并非没有隐患。

工信部已发出高危预警，默认配置下存在 API 密钥泄露和文件被误删的风险。目前已有超过十几万个 OpenClaw 实例暴露在公网，九成以上可能被攻击者绕过身份验证。

有用户因指令表述模糊被 AI 清空了整个工作文件夹，也有人一上午就被调用费用扣掉 200 元。如果你想尝鲜，建议优先用备用机或虚拟机部署，严格限制可操作的目录范围，涉及对外发送或付款的操作务必设置二次确认。

这些风险，并没有减慢龙虾扩张的速度。而一个有趣的问题值得追问：为什么这波热潮在中国格外猛烈？

一个不可忽视的结构性原因是，国产大模型长期面临一个困境：API 调用能力已经就绪，却始终找不到稳定消耗 Token 的 C 端场景。

OpenClaw 的 Agent 逻辑天然填补了这个缺口，用开源社区的项目拉来用户，自家模型扛下调用量，这笔账怎么算都划算。

字节跳动火山引擎、阿里云、腾讯云几乎在第一时间全面开放了运行 OpenClaw 的云端托管服务。微信、QQ、企业微信、飞书、钉钉构成的本土 IM 生态，也是中国独有的变量。

谁先完成深度集成，谁就能在这个全新市场占据先机，这也是各大平台争相宣布接入的内在逻辑。

更重要的是，这场爆发几乎不是任何人规划出来的。OpenClaw 的诞生充满了偶然性，而大厂们看到了商业化出口，极客们看到了折腾空间，创业者们看到了竞争压力下不得不抓住的窗口期。

各怀需求的人潮涌向同一只龙虾，反而共同推动了一个 AI 新物种的蓬勃发展。

龙虾的想象力空间，才刚刚打开。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 美元

爱范儿

莫崇宇

2026年3月6日 17:06

刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 美元

每次打开 AI 工具，你大概都要先想一秒钟：这个任务，该用哪个模型？写代码是一个，查资料是另一个，让 AI 帮你操作电脑，还得再开一个窗口。

今天过后，这种分裂感终于有了一个新的答案。

就在刚刚，OpenAI 正式发布 GPT-5.4，把编程、推理、计算机操控、网页搜索和百万 Token 上下文全部整合进同一个模型，且没有为了整合而牺牲任何一项的能力。

OpenAI CEO 山姆·奥特曼也在 X 平台发了一条简短推文，点出了五个方向：知识工作更强、网页搜索更出色、原生计算机操控、支持百万 Token 上下文、响应过程中随时可介入。

寥寥数语，对应的恰好是过去两年 AI 应用落地中最集中的五个痛点。

知识工作：十次有八次，AI 赢了专业人士

理解 GPT-5.4 在知识工作上的进步，需要先了解 GDPval 这个基准的设计逻辑。

它横跨美国 GDP 贡献最大的 9 个行业、44 种职业。任务是那些职场里每天真实发生的工作：给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。

任务完成后，把输出结果交给行业内的真实从业者盲测打分，看 AI 的产出能赢过多少比例的人类同行。

GPT-5.4 的答案是 83.0%，意味着十次对比中有八次以上，行业专业人士认为 AI 的产出达到或超过了人类同行水准。上代 GPT-5.2 是 70.9%，差距将近 13 个百分点。

进步在电子表格建模上表现得最为具体。GPT-5.4 模拟初级投行分析师完成建模任务，平均得分 87.3%，GPT-5.2 是 68.4%，GPT-5.3-Codex 是 79.3%，差距将近 20 个百分点。

法律平台 Harvey 的 BigLaw Bench 测试结果同样亮眼，GPT-5.4 得分 91%，专业服务评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面同样值得关注。幻觉问题一直是 AI 进入专业场景最大的拦路虎，每降低一个百分点，都意味着更多场景可以放心用它。

数据显示，与 GPT-5.2 相比，GPT-5.4 单条陈述出错的概率低了 33%，完整回复含有错误的概率低了 18%。

编程：一个模型，写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进主线，对开发者来说，这意味着你不再需要为了写代码单独开一个模型，而且编程能力本身也没有因此打任何折扣。

SWE-Bench Pro 专门测试真实软件工程任务，GPT-5.4 得分 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%。整合之后，编程分数不降反升，同时还顺带获得了计算机操控等一整套通用能力，几乎找不到明显的弱点。

知名 AI 评测博主 Dan Shipper 试用后写道：「这是我们最近一段时间里见过 OpenAI 最出色的规划能力，代码审查也很强，而且成本大约只有 Opus 的一半。」

他点出了两个具体维度。其一，规划能力是长任务成败的关键，GPT-5.4 在任务拆解和持续推进上明显更有条理。其二，与 Claude Opus 相比约一半的成本，对需要大规模 API 调用的开发者来说，这个差距在账单上会非常直观。

开启 Codex 中的 /fast 模式后，可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍，使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。

与此同时，新推出的实验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又推进了一步。

GPT-5.4 在构建 Web 或 Electron 应用时，能够通过可视化浏览器进行实时调试，模型可以边写代码、边测试自己正在构建的应用，同时承担开发者和测试员两个角色。

OpenAI 展示了一个典型案例：仅凭一条轻量提示词，GPT-5.4 生成了一个完整的等距视角主题公园模拟游戏，涵盖基于瓦片的路径铺设与景点建设系统、游客 AI 寻路与排队行为，以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。

Playwright Interactive 在整个过程中承担了多轮自动化测试，验证路径铺设、摄像机导航、游客响应及 UI 指标的正确性。从写代码到测试验收，模型全程自己完成。

博主 Angel 同样用 GPT-5.4 写了一个 Minecraft 克隆版，模型花了约 24 分钟，运行流畅，过程中没有卡住。他在推文里写道「Minecraft 基本上被攻克了，我现在得找个新测试了」。

沃顿商学院教授 Ethan Mollick 同样获得了早期访问权限。他用同一条提示词，让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景，全程没有报错，只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前 GPT-4 生成的版本并排放在一起，差距一眼可见。

操控电脑这件事，它现在比你做得好

这是 GPT-5.4 这次发布里最值得单独说一说的变化。此前 OpenAI 的计算机操控能力是一个独立模块，跟模型的语言理解、代码生成之间有一道明显的分隔。

两套系统各管各的，信息要来回传递，效率自然打折。现在这道分隔没了，GPT-5.4 操控电脑时，用的就是模型本身的推理能力，不需要再绕一圈。

这也是 OpenAI 第一款将计算机使用（computer use）能力原生内置进通用模型的产品，以后谈 AI Agent，相信这会是一个新的起点。
基准测试结果显示，OSWorld-Verified 基准测试桌面导航能力，用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的成功率，人类基线是 72.4%，GPT-5.2 是 47.3%。

简言之，它不仅追上了人类，还超过了人类。

在只用截图模式测试浏览器操控的 Online-Mind2Web 基准中，GPT-5.4 达到 92.8%，对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%，

真实部署案例更能说明问题。Mainstay 将 GPT-5.4 用于约三万个物业税务门户网站的自动表单填写，首次成功率达 95%，三次以内成功率 100%，而此前同类模型仅在 73% 至 79% 之间。会话完成速度提升约三倍，Token 消耗降低约 70%。

这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4 在这一层做了专项加强，引入了原始图像（original）输入模式，支持最高 1024 万像素或 6000 像素最大边长的高保真图像输入；原有的高清（high）模式上限也从此前的标准提升至 256 万像素或 2048 像素最大边长。

工具调用与网页搜索：持续性是核心竞争力

一个复杂的 AI Agent 系统，背后可能挂着几十个 MCP 工具。过去的做法是每次对话开始前，把所有工具的说明一股脑塞进去，不管这次用不用得上，Token 先花了再说。

GPT-5.4 换了个思路：先给模型一份简单的工具清单（即引入工具搜索机制），真正需要用哪个，再去把那个工具的详细说明取过来，用过一次的还能直接缓存，下次不用重新拿。

在 250 项任务的测试中，启用 36 个 MCP 服务器的完整配置下，工具搜索模式在保持准确率完全不变的前提下，将总 Token 消耗降低了 47%。将近一半的成本节省，精度一点没少。

网页搜索方面，GPT-5.4 在 BrowseComp 基准上得分 82.7%，比 GPT-5.2 的 65.8% 高出 17 个百分点，Pro 版更达到 89.3%，创下业界最高分。Zapier CEO 评价说，GPT-5.4 会在其他模型放弃的地方继续搜索下去，是他们测试过持续性最强的模型。

百万 Token 上下文：长长长长长长

GPT-5.4 在 API 中支持最高 100 万 Token 的上下文窗口，相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。但从测试结果来看，128K 至 272K 是表现最稳定的区间，适合日常使用。

256K 以上准确率开始下滑，需要针对具体任务验证后再用。512K 至 1M 区间的得分降至 36.6%，目前更接近实验性质，不适合直接用于对精度要求高的生产任务。

还有一个实际的成本问题需要注意：超过 272K 的请求会按两倍用量计入配额。也就是说，发一次超长上下文的请求，额度消耗等于两次普通请求，用之前值得想清楚是否真的需要这么长。

至于在视觉抽象推理基准 ARC-AGI-2 上，GPT-5.4 Pro 得分 83.3%，而上代 GPT-5.2 Pro 仅为 54.2%。

再比如 FrontierMath Tier 4 是目前公认最难的数学基准之一，包含 50 道研究级别的数学题，人类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%，上代为 31.3%。

这个数字的参照系是：一年前，最好的成绩是 o3 的 2%，目前最好的开源模型是 4.2%。

博主 Deedy 在推文中写道，从 2% 到 38%，「简直令人震惊」。Humanity’s Last Exam 有工具辅助时，GPT-5.4 Pro 得分 58.7%，GPT-5.2 Pro 是 50.0%，差距接近 9 个百分点。

执行中调整，不是完成后返工

用过 AI 处理长任务的人大概都有过这种体验：等模型跑完一大段，发现方向不对，只能从头再来，时间全浪费了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「中途打断」功能：在处理复杂任务之前，模型会先呈现工作计划概要，再开始执行。用户可以在执行过程中随时介入调整方向，不必等到结果出来再从头重来。

这个功能把纠偏这件事从「完成后」提前到了「执行中」，对需要多轮协作的任务来说，体验差别会比较明显。功能目前已在 chatgpt.com 和 Android 应用上线，iOS 版本即将跟进。

即日起，GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。
GPT-5.2 Thinking 将保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用户可由管理员在后台开启早期访问，GPT-5.4 Pro 面对 Pro 和 Enterprise 计划开放。

API 标准版定价为输入 2.50 美元/百万 Token，缓存输入 0.25 美元/百万 Token，输出 15 美元/百万 Token。Pro 版为输入 30 美元/百万 Token，输出 180 美元/百万 Token。Batch 和 Flex 处理享标准价格五折，Priority Processing 为两倍标准价格。

当然，强大的推理能力也有它的另一面。Hyperbolic 联合创始人金宇晨在 X 平台吐槽，GPT-5.4 Pro 是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」，模型就开始认真推理，直接烧掉了 80 美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考，哪怕问题本身根本不需要。对于日常轻量任务，标准版或许是更合适的选择；Pro 版的推理火力，还是留给真正值得的场合更划算。

过去两年，AI 能力的讨论主要集中在基准测试成绩上的「聪明」，但 GPT-5.4 的聪明指向的是能够在真实工作流中，足够可靠地承担责任。

过去 AI 只能输出文字，人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果，独立完成一个有头有尾的任务闭环。

AI 正在从一个擅长回答问题的系统，变成一个擅长完成任务的系统。而这个转变的速度，显然比大多数人预期的更快。

附上参考地址：
https://openai.com/index/introducing-gpt-5-4/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，GPT-5.3 新模型撞车 Gemini，OpenClaw：谢谢你们

爱范儿

莫崇宇

2026年3月4日 06:40

在 AI 模型的命名玄学里，「Instant」和「Lite」这两个后缀，长期以来都带着一股说不清道不明的廉价感。

不是没有原因。过去这类模型给人留下的印象，基本就是：速度快、脑子慢，做做文本总结勉强够用，一旦碰上稍微复杂的推理任务，就开始一本正经地胡说八道。

久而久之，轻量模型几乎成了「将就用」的代名词。

就在刚刚，OpenAI 和 Google 又一次撞车，发布了各自的轻量模型，并试图用硬实力来扭转这个刻板印象。省流版如下：

GPT-5.3 Instant：更具「人味儿」的智能助理，大幅降低幻觉率、减少「AI 腔」以及强化细节写作能力，沟通更自然精准，适合对内容质量要求高的场景（写作、专业问答、高风险领域）
Gemini 3.1 Flash-Lite：便宜、快、不拖泥带水，还支持「思考等级」调节功能，在保持高吞吐量的基础上兼顾了深层逻辑推理，适合大规模、高实时性的批量任务（内容审核、UI 生成、NPC 对话）

GPT-5.3 Instant：终于学会像个正常人一样聊天了

经常用 ChatGPT 的人，大概都有过这种无奈：你只是随口问个小问题，它非要先给你端上一段「作为一个人工智能，我需要提醒你……」的长篇大论。

这种总想教人做事的「AI 腔」，确实挺招人烦的。好在，OpenAI 这次是真的听进去了。

新上线的 GPT-5.3 Instant 花了很大的力气来解决这个「毛病」。它学会了直接给出答案，不再啰里啰嗦地铺垫。

除了不爱说废话，它也变得更靠谱了。旧版本搜完网页之后，容易把一堆链接和不相关信息堆到你面前。

得益于搜索能力的提升，GPT-5.3 Instant 会主动把网页内容和自身的背景知识结合起来，先想清楚你真正想问什么，再给出有重点的回答，而不是把搜索引擎的工作原封不动地转包给你。

OpenAI 公布的内部评测显示，在联网状态下幻觉率降低了 26.8%，仅靠内部知识时也降低了 19.7%。官方特别提到医疗、法律、金融等高风险领域，新模型在这些场景下的谨慎程度和准确性都有明显改善。

最令人惊喜的，其实是它在写作上的变化。

OpenAI 用一首诗的对比做了说明：同样写一个费城邮递员退休最后一天，旧版本倾向于堆砌「把这座城市背在邮袋里」这类抒情句，新版本则会写那根「掉漆的蓝色栏杆」、那扇「总有狗在门口等着的栅门」。情绪不靠凹，就这样自然而然流露出来。

语气上的调整也是此次更新的核心目标之一。

「停下。深呼吸。」这类会打断对话节奏的句式被刻意减少，整体风格更直接，少了一种不必要的「AI 腔」。用户仍可在设置里自定义回复的温暖程度与热情度，调出自己习惯的交互风格。

GPT-5.3 Instant 即日起向所有 ChatGPT 用户开放，API 名称为「gpt-5.3-chat-latest」。付费用户还可以在旧版模型里继续用 GPT-5.2 Instant，但它将在今年 6 月 3 日正式退役。

▲ 彩蛋时间

Gemini 3.1 Flash-Lite：便宜、反应快，还挺聪明

相比于 GPT-5.3 Instant 的好好说话，Gemini 3.1 Flash-Lite 走的是纯粹的务实风，目标非常明确：就是要快，就是要便宜。

价格方面，Gemini 3.1 Flash-Lite 的输入价格是 0.25 美元每百万 tokens，输出价格是 1.50 美元每百万 tokens。

这是什么概念？如果你是一个开发者，这意味着你大概花不到 2 块钱人民币，就能让 AI 阅读相当于 5 本《哈利·波特》全集的文字量。

觉得便宜没好货？格局小了。

根据 Artificial Analysis 的基准测试，，相比上一代的 Gemini 2.5 Flash，3.1 Flash-Lite 的首字响应时间（TTFT）快了 2.5 倍，整体输出速度提升了 45%。对于需要实时响应的产品来说，这个延迟差距在用户体验上会有肉眼可见的感受。

这意味着，当你还在眨眼的时候，它的回答可能已经生成了一半。对于那些需要实时反馈的应用——比如即时翻译、游戏内的 NPC 对话、即时 UI 生成——这种低延迟是决定性的。

除此之外，Gemini 3.1 Flash-Lite 还具备「思考」能力。

在 AI Studio 和 Vertex AI 中，Google 为这款 Lite 模型配备了「思考等级（Thinking Levels）」的选项。开发者可以根据任务的复杂程度，自主调节模型「想多深」。

简单的高吞吐量任务，比如批量内容翻译和内容审核，可以用最轻的配置快速跑完；遇到需要严格遵循指令的界面生成或仿真创建任务，则可以让模型多花一点时间推理，把结果做扎实。

这种「既要又要」的能力，也因此收获了相当不错的成绩单。在 Arena.ai 的排行榜中，它的 Elo 分数达到了 1432，在 GPQA Diamond（研究生级别的问答）测试中拿到了 86.9% 的准确率。

在学术评测 GPQA Diamond 上得分 86.9%，多模态理解 MMMU Pro 上达到 76.8%。这两个数字不只是「在同档位里还不错」，而是直接超过了体量更大的 Gemini 2.5 Flash。

注意，这里对比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash，显然鸡贼的 Google 对这款模型也并未抱有多大的信心。

目前，3.1 Flash-Lite 以预览版形式通过 Google AI Studio 和 Gemini API 向开发者开放，企业用户可通过 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作伙伴已在生产环境中完成测试，普遍认可它在大规模调用下的稳定性和指令遵循能力。

把这两个模型放在一起看，你会发现「Instant」和「Lite」，或许正在找到自己最合适的位置。

以最近大火的 OpenClaw 为例，其核心场景是帮用户处理邮件、管理日程，本质上是一个需要自主执行任务的 Agent。

这类产品对模型的要求，和普通 chatbot 聊天工具完全不同：它不需要模型表演得多聪明，它需要模型说人话、不出错、还得扛得住高频调用。

GPT-5.3 Instant 显著降低幻觉率，意味着 Agent 在自主执行任务时少犯错；「AI 腔」的消退，意味着生成的邮件、文档读起来更贴合真人的阅读习惯。

Gemini 3.1 Flash-Lite 则更符合最为关键的第三个需求。Agent 在后台狂奔时，往往需要并行处理海量的子任务，对响应速度和 API 成本极度敏感。

Flash-Lite 极快的响应速度和白菜价的成本，加上能灵活调配算力的「思考等级」，这种极具弹性的架构对高并发的自动化任务而言，无疑是久旱逢甘霖。

即便两款模型的长期稳定性仍需观察，但大方向已经很明确：一个负责让交互更像人，一个死磕更快更省钱。在未来人手一只「龙虾」的情况下，轻量模型将成为更自然、务实的选择。

附上参考地址：

https://openai.com/index/gpt-5-3-instant/

https://gemini.google.com/u/4/app/e0bea96b8f62bd1f

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

上门安装 OpenClaw，年入百万？

爱范儿

莫崇宇

2026年3月2日 16:27

OpenClaw 最近火到什么程度？火到衍生出一门上门安装的生意。

海外代装平台 SetupClaw 已经给出明码标价：托管安装，3000 美元；含 Mac mini 硬件的远程配置，5000 美元；含 Mac mini 硬件的现场配置，6000 美元。创始人 Michael 更是号称靠这门手艺，有望年入百万美元。

国内社交平台上，上门安装的帖子也开始冒头，500 到 1000 元一次，现场验收。但这门生意能成立，前提是有人愿意掏这个钱。他们是谁，又为什么愿意为一个开源软件的安装服务买单？

帮人上门安装 OpenClaw，年入百万？

要回答这个问题，得先搞清楚 OpenClaw 究竟是什么。

OpenClaw 是一款开源、本地优先、可自托管的自主 AI 代理与自动化平台，自开源发布以来已经在 Github 上收获 24 万 stars，其核心是用自然语言指令让 AI 能够直接在你设备上「执行任务」，而非像 chatbot 聊天机器人一样仅提供对话回复。

▲ Github 地址：https://github.com/openclaw/openclaw

它还支持接入各类聊天软件作为入口，比如你只需在 Telegram 或 WhatsApp、iMessage 等平台里发一句话，比如「帮我整理今天的邮件并把重要的标出来」，它就会在后台自动完成，还会主动找你汇报进度。

对于每天要处理大量信息的人来说，这确实是个好帮手。但问题在于，它的安装过程对普通人极不友好。

OpenClaw 的底层是一套面向开发者的本地网关服务，安装需要依赖特定版本的 Node.js 环境，用命令行完成配置，还要处理守护进程、端口开放、Webhook 回调等细节。

尽管网上不少人调侃，代装 OpenClaw 是门「智商税」——懂技术的人自己就能装，不懂的人根本用不上——但对于习惯了图形界面的普通用户来说，光是那个黑底白字的终端窗口，就足以把人挡在门外。

粗略观察代装服务的评论区，付费群体至少可以分出三层：

一类是个体创业者和自由职业者，对效率有强烈诉求，核心动机是省时间；一类是有技术认知但不愿亲自动手的职场白领，知道这东西能干什么，只是不想花时间折腾；还有一类是跟风购买的普通消费者，对实际能做什么并没有清晰预期。

而从公开报价来看，提供 OpenClaw 安装的服务大致提供三个层级的方案：

托管安装 (3000 美元)：部署于云端 VPS，包含安全加固、主流应用集成（邮件、日历等）及 3 个自定义工作流。提供 14 天的专属售后支持 (Hypercare)。
Mac Mini 远程设置 (5000 美元)：适用于需要 iMessage 集成或本地硬件的用户。包含 Mac Mini 硬件成本及远程配置。
Mac Mini 现场设置 (6000 美元)：仅限旧金山湾区。提供上门安装、调试及面对面培训。
额外 Agent (1500 美元/人)：为其他高管或团队成员增加独立身份和工作流的代理。

对比之下，国内上门安装服务则普遍在 500-1000 元一次，包含系统配置、模型部署调试和基础使用指导，标注现场验收、确保可正常运行。

当然，这种安装复杂吗？其实并不复杂。OpenClaw 本身是开源的，安装流程也有详细文档，APPSO 也出过类似的手把手教程，欢迎自取。

包括最近有第三方做了一个 OpenClaw 生态工具目录，收录了几十款相关工具，从部署、托管、插件到 token 优化一应俱全，还附带从入门科普到进阶调优的教程库。

▲ https://openclawdirectory.co.uk/

但对没有技术背景的人来说，「能学会」和「愿意学」之间，往往差之毫厘谬以千里。于是，大多数不想折腾的人，在 AI Fomo （Fear Of Missing Out，错失恐惧症）的情况下，往往选择了人类面对复杂事物的终极解法：花钱。

回头看过去几波 AI 热潮，几乎每一次都是同样的路数。2023 年 ChatGPT 在国内掀起狂潮时，第一批赚到钱的人，不是用它写文案做分析的，而是帮人代注册账号的卖家。

生成式 AI 刚走进大众视野时，如何写出好 Prompt 是一门真实的技艺，早期创作者靠这个知识差卖课、建社群，数百元的课程轻松售出数千份；DeepSeek 爆火后教程书甚至卖出 18 万册，1999 元的课程仍有人买。

那么，代装这门生意本身赚不赚？SetupClaw 创始人 Michael 声称，单靠安装 OpenClaw，一年能赚一百万美元。不过，这个数字没有任何订单量和交付成本支撑，更像是一句专门写给同行看的招商广告：兄弟，这行有搞头，快来。

装上之后，才仅仅是「入门」

很多人以为代装生意的壁垒是安装，实则不然，OpenClaw 只是一个框架，本身不包含语言模型，必须接入外部模型才能让它运转，费用按使用量计费。

OpenClaw 为了模拟全天候助理的待命状态，内置了一套心跳（Heartbeat）机制：每隔 30 分钟自动醒来，检查邮箱有没有新邮件、日历有没有变动、Slack 频道有没有消息需要处理。

问题是，每次后台唤醒都不是一次简单的检查——系统需要向云端 API 发送一个完整请求，里面装着冗长的系统提示词、数十个工具的参数定义以及近期会话的全部历史记录，体积庞大。

有开发者复盘后发现，系统在没有太多实际产出的状态下，仅靠心跳机制维持每天就消耗 20 美元，一个月白白烧掉近 750 美元。

也正是这个痛点，网络上催生了围绕 OpenClaw 的一批省钱攻略。

常见做法包括：

按任务类型路由不同模型，简单检索和状态检查用便宜模型，复杂推理再调用昂贵模型。
控制每次请求的最大 tokens，避免一次对话失控。
对长时间运行的会话做上下文裁剪，只保留必要的历史信息。
把部分任务下沉到本地模型（如通过 Ollama 部署）以减少对外部 API 的依赖。

此外，OpenClaw 要真正发挥作用，得拿到邮件、日历、通讯软件等高权限渠道的访问权限。这意味着一旦出了问题，你的隐私数据和核心账号就有可能全部「裸奔」。

现实中的安全灾难已经接连发生。一个专门针对此漏洞的扫描器，在短时间内就发现了超过 4.2 万个暴露在公网的 OpenClaw 实例，其中九成以上可以被攻击者直接绕过身份验证，窃取 API 密钥和私人通讯记录。

在插件生态层面，OpenClaw 有一个名为 ClawHub 的插件市场。思科安全团队审计发现，一个被人为刷到排行榜第一名的插件，实为伪装的恶意软件，在后台窃取用户数据并植入恶意脚本。

甚至一些用户还因为将 Google 账号接入 OpenClaw，触发平台异常负载检测，导致整个 Google 账号被封，Gmail、YouTube 一并被断开。

最具代表性的案例，发生在今年 2 月。Meta 旗下专门研究 AI 对齐问题的负责人 Summer Yue，甚至犯了一个新手的错误，给了 OpenClaw 真实邮箱的访问权限。很快，OpenClaw 由于丢失了最初收到的限制指令，开始批量清空她的收件箱。

她在手机上连发停止指令，没有任何反应。最后她不得不冲到 Mac mini 面前强制断电，才让它住手。

如果连最懂 AI 风险边界的人，都能在这里翻车，这大概不是个例。而把一个还不够稳定的 Agent，直接绑在邮件、日历、账号这类核心资产上，然后期待它乖乖听话——本身就是一件需要打一个很大问号的事。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，Nano Banana 2 发布！便宜又大碗，体验后我发现这些细节

爱范儿

莫崇宇

2026年2月27日 10:40

用 AI 生图，总绕不开一道两难题：要快，还是要好？

但速度与质量之间，未必是鱼和熊掌不可兼得。就在刚刚，Google 正式发布了他们的新一代图像生成模型：Nano Banana 2（Gemini 3.1 Flash Image）。

没有太多颠覆世界的口号，它只是把更好的画质和更懂人话的理解力，一起塞进了全新的底层架构里。就这一件事，却让 AI 生图少了几分「看运气」的感觉，多了几分真正能用的踏实。

▲官方博客地址：https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

接入了整个互联网，这次的 AI 真的懂你在说什么

要说清楚这次的变化，得先回想一下三年前 AI 生图有多难用。

你让它画「红烧肉」，它可能老老实实给你画一块正在燃烧的肉；你让它在海报上写句中文，它往往会给你凑出一堆毫无意义的鬼画符。缺乏对真实世界的常识，是第一代 AI 最容易让人崩溃的地方。

现在的 Nano Banana 2，改变了不少。它和前代 Nano Banana Pro 一样，接入了 Gemini 积累的庞大真实世界知识库，还能结合网页搜索的实时信息，用起来更像是一个见过世面、懂点常识的人。

最先感受到的变化，是它开始更好地理解空间和比例了。

▲提示词：画面中，【东方明珠广播电视塔】被一只超级巨大、超级可爱的【猫】占据。周围的建筑物看起来就像玩具模型一样小，而【猫】则非常巨大。游戏背景设定在一个逼真的城市环境中。整体氛围安静、温暖、舒缓、可爱。

在上面这个案例中，AI 精准地还原了上海的地标，并极其自然地处理了巨猫与微缩城市之间的光影和透视关系。

最直观的改变，是它终于认字、也会写字了。比如让它画一幅《枫桥夜泊》的水墨画。画面上方不仅端端正正地用书法写出了「月落乌啼霜满天」等全句，甚至连排版和水墨的意境都拿捏得比较准。

▲当然，也不是没有瑕疵，仔细看上方悄悄多出了一个「满」字。

除了诗意，它还能处理相当复杂的 UI 场景——在下面这张图里，复杂的半透明数据面板、悬浮的购物清单、精准的中文显示，被 AI 有条不紊地安排得井井有条，信息之间的层级关系也真正理清楚了。

▲提示词：第一人称视角，置身于灯光明亮的超市货架通道中。人类双手将一瓶芬达汽水举到镜头前方。鲜艳的橙色饮料装在其标志性的品牌瓶身里，周围环绕着多层全息增强现实界面，用中文展示营养相关数据，包括热量数值、含糖量、咖啡因水平、新鲜度指示、保质/到期日期，以及基于芬达推荐的清爽饮品配方和鸡尾酒调制方案。玻璃质感的 UI 面板，柔和的环境光晕，逼真的光照与阴影，自然的景深效果，沉浸式第一人称交互界面，2K

排版极其讲究的双页黑白日式漫画，也是手拿把掐。

▲提示词：设计一份逼真的双页漫画杂志样张。每一页都应包含多个漫画风格分镜，以富有动感的版式排列，呈现出专业印刷的日本漫画质感。整体风格为黑白稿，使用粗犷有力的墨线、网点效果（screen tones）以及富有表现力的人物绘制。画面中加入对白气泡、中文拟声词，并通过分镜之间的过渡来传达动作、情绪与节奏。左右两页需要连贯衔接，像同一场景或同一话章节的一部分。采用传统漫画镜头语言：特写、远景、斜向分镜以及戏剧化的视角与构图。整体观感要真实可信，仿佛来自一本真正的漫画杂志的跨页内容。

或者这张带步骤说明的「功夫茶」中文信息图，从排版到意境，都给出了一套可以直接用的视觉方案。

▲生成提示词：一张关于中国传统功夫茶道设计精美的垂直信息图。中国传统水墨画背景。顶部有巨大的、优雅的中文书法标题，明确写着「功夫茶」。向下有三个图文并茂的步骤：步骤 1 展示用沸水温杯，配有中文「温杯」；步骤 2 展示将茶叶放入盖碗，配有中文「投茶」；步骤 3 展示倒出茶汤，配有中文「出汤」。优雅、极简、温暖的大地色调，平衡的布局。

一位很早就接触到 Nano Banana 2 的内测用户，给出了一个相当中肯的评价：「它并不完美，但它是第一个能够以一定一致性，去处理真正复杂图像和图表的模型。」

为了测试这个新模型的理解极限，他随手甩出了一道极其刁钻的测试题：「给我画一张设定在古威尼斯的《寻找沃尔多（Where’s Waldo）》，但里面要找的不能是人，得是一只穿着蓝色条纹飞行服的水獭。」

Nano Banana 2 最终也真的理清了逻辑，不仅没画串，还稳稳地交出了答卷。

快和好，终于不用二选一了？

除了懂常识，强大的「主体一致性」是这次 Nano Banana 2 更新的另一大杀手锏。

在一次生成过程中，它最多能保持 5 个角色的脸不崩，或者 14 个物品的样子不变。这意味着，你可以放心大胆地拿它来画连载漫画或者做影视分镜了。

不仅如此，它的画质也达到了可以直接干活的标准。

从 512px 的配图到 4K 级别的超高清海报，它都能拿捏。输入一段关于「重庆老火锅」的提示词，它能生成一张赛博朋克风的雨夜街景，湿漉漉的柏油路上，红蓝霓虹灯的倒影和「24 小时营业」的招牌都细致入微。

▲提示词：一张繁忙亚洲城市雨夜的电影感街头照片。一个巨大的、发光的红色霓虹灯牌挂在一座老建筑上，上面清晰地写着「重庆老火锅」。在它下面，一个较小的蓝色霓虹灯牌写着「24 小时营业 – 欢迎光临」。湿漉漉的柏油路反射着霓虹灯光。

色彩张力极强的波普艺术风格，它也驾驭得住。

或者是这种带着几分荒诞、又透着高级感的时尚大片：

▲提示词：This high-resolution bird’s-eye view photograph was taken with a LOMO Ic-a. The ground is covered with countless black-and-white billboard advertisements of beautiful fashion models, and standing on top of the advertisements is an incredibly beautiful chinese film actress wearing a long black coat.

在这个俯视视角的案例中，AI 极好地模拟了老式 LOMO 相机的特殊质感。女演员孑然独立于铺满黑白海报的地面上，画面的电影张力和故事感呼之欲出。

不过也不是没有明显短板，让它将二次元人物、铅笔素描和黏土人强行塞进同一个真实咖啡馆的场景中，素描人物的融入就显得十分生硬，边缘过渡也不够自然。

显然，在跨维度融合上，它远不及前代模型效果来得自然，还有进步的空间。

▲提示词：A photo of an everyday scene at a busy cafe serving breakfast. In the foreground is an anime man with blue hair, one of the people is a pencil sketch, another is a claymation person

其实整体体验下来，尽管官方博客将 Nano Banana 2（Gemini 3.1 Flash Image）吹的天花乱坠，但实际体感中，生成的质量效果和速度并未得到肉眼可见的提升，甚至在部分场景中还不及前代模型。

真正让 Nano Banana 2 站稳脚跟的，其实是它极其接地气的性价比。

今天起，在 Gemini 应用和 Google 搜索框里，你都能顺手用上它。没有订阅方案的普通用户，24 小时内也能白嫖 100 张；而 Pro 订阅用户的额度则高达 1000 张。

对于开发者而言，API 的价格更是直接腰斩，仅为上一代 Pro 模型的一半。折算下来，生成一张 4K 高清图的成本被硬生生打到了 0.15 美元左右。

▲ 附上地址：https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-flash-image-preview

当然，当 AI 能够以极低的成本、极快的速度批量生产高清图片时，大家心里其实越没底。现在网上的假图满天飞，「眼见为实」这句话早就靠不住了。如果任何人都能在一秒钟内生成一张几可乱真的照片，我们该如何分辨图片？

Google 自己也十分清楚这一点，所以他们也一并升级了防伪技术。Nano Banana 2 继续加深了对 SynthID 数字水印和 C2PA 内容凭证的支持，能够更清楚地看到一张图到底是不是 AI 画的，以及它是怎么被修改的。

据统计，自去年 11 月以来，Gemini 里的这个验证功能已经被调用了超过 2000 万次。

AI 绘图这两年的发展，确实快得让人眼花缭乱。我们经历过 Nano Banana Pro 的一眼惊艳，也经历过繁琐的调教与漫长的等待。Nano Banana 2 的出现，则尝试进一步把好和快揉在了一起，并大大降低了使用的门槛。

你脑子里的一个灵感，不用再经过反复的修改和焦躁的等待。敲下回车的瞬间，它就在那里了。自然、简单，且立等可取，这件事听起来平常，但能做到，其实已经很难得了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

硅谷最贵华人放弃 14 亿天价 offer，上交校友庞若鸣提桶投奔 OpenAI

爱范儿

莫崇宇

2026年2月26日 13:34

没有永远的东家，只有永远的 offer。

就在刚刚，据 The Information 报道，七个月前刚加入 Meta 的技术大牛庞若鸣（Ruoming Pang），在上周悄悄加入了 OpenAI。

这名字你可能没印象，但履历相当硬核。庞若鸣本科毕业于上海交通大学，硕士毕业于南加州大学，同时也是普林斯顿大学计算机博士。

在 ChatGPT 一炮而红的前一年，他就因为在开发和训练大规模 AI 系统方面经验丰富，精通从模型本身到背后支撑的软件等各个环节，而被 Giannandrea 从 Google DeepMind 招募到苹果。

苹果为他大开绿灯，允许常驻纽约，不用搬去库比蒂诺总部，这在苹果高管安排中相当罕见。他从几个人的小团队起步，逐步把基础模型团队扩到 100 人左右，成员来自 DeepMind、Meta、微软、亚马逊，货真价实的全明星班底。

2024 年 WWDC，苹果高调发布 Apple Intelligence，写作工具、图像生成、接入 ChatGPT，背后大头都是他团队的成果。后来落地到 iPhone 的 Genmoji、邮件摘要这些功能，也基本出自他团队之手。

用一句话概括，他此前正是苹果 AI 战略的中轴线人物之一。

然后，求才若渴的 Meta 出手了。

据当时彭博社报道，Meta 开价超过 2 亿美元，横跨数年，大头是股票和签约奖金，且需完成特定里程碑才能全部兑现。知情人士透露，为了让庞若鸣放弃苹果团队以及过往在 Google 积累的资源，Meta 还为他量身定制了一套补偿机制。

这个数字几乎刷新了外界对顶级 AI 人才的估值认知。

进入 Meta 后，他在扎克伯格亲自组建的超级智能实验室负责 AI 基础设施工作。据他本人对同事的说法，在 Meta 干得挺开心，基础设施也给力。

但，转折点就是这么猝不及防。OpenAI 在他入职数月后就开始积极接触他，于是不到一年，庞若鸣挥一挥衣袖，转身拥抱了 OpenAI。

值得一提的是，他加入 Meta 时，还带走了部分原苹果团队成员。其中有个叫 Tom Gunter 的研究员，原本已经跳去了 OpenAI，听说庞若鸣去 Meta，直接掉头跟过去了，如今老大挪窝，他的去留也成了悬念。

庞若鸣的离开，也侧面反映了 Meta 在 AI 转型期所面临的复杂局面。

Llama 4 折戟之后，扎克伯格憋着一口气，要重新打造一支「超级智能」梦之队，为此几乎是不计成本地砸钱、砸资源、砸人脉。

143 亿美元买下 Scale AI 近半股份，把 Alexandr Wang 拉进来直接向自己汇报；四处挖角 OpenAI、Anthropic、Google 的核心骨干。

甚至据 OpenAI 首席研究官 Mark Chen 在播客中透露，扎克伯格为了从 OpenAI 挖走顶尖 AI 研究员，亲自下厨煮汤，并亲手递送到目标人选手中。

这番努力已初见成效。1 月 21 日，Meta CTO Andrew Bosworth 在瑞士达沃斯世界经济论坛期间正式宣布，Meta 超级智能实验室已完成首批核心 AI 模型的内部交付，表现「非常出色」。

不过他也坦承，「训练之后仍有大量工作要做」。稳定性、成本、安全合规，一堆问题还没解决，离真正可用还有距离。

庞若鸣的出走，恰好在这个节骨眼上发生，难免让外界对 Meta 超级智能实验室的前景多打几个问号。硅谷不相信忠诚，最顶级的 AI人才争夺战，也远未到终局。至于小扎能否得偿所愿，我们很快就会知晓。

附上参考地址：
https://www.theinformation.com/briefings/openai-hires-meta-ai-researcher-previously-led-apples-models-team?rc=qmzset

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

4900 万人围观的 Claude Cowork 又杀疯了，10 个顶级外挂上线，这些打工人危

爱范儿

莫崇宇

2026年2月25日 17:20

「software armageddon（软件末日）」——这是外媒描述过去几个月软件板块遭遇时用的词。Anthropic 每推出一个新工具，市场就会条件反射式地先问一遍：又有哪些软件要被干掉？然后果断抛售手里的股票。

短短几周，成千上万亿美元的市值凭空消失。

就在昨晚，Anthropic 再度发布企业级产品更新。当所有市场都在等着看又要杀入哪个赛道，结果，Salesforce 涨了 4%，Thomson Reuters 涨了 11%，Figma 涨了 10%，Docusign 和 LegalZoom 均上涨超过 2%。

软件股的噩梦，这次没有如期而至。而市场情绪在一夜之间发生了 180 度转向，这件事本身就值得好好说说。

10 个插件模板，每一个都在盯着人类的工位

先说功能本身。

这次发布的核心逻辑，是把 Claude 变成可以深入企业不同部门的专业智能体，同时允许管理员创建私有插件市场，在组织内部统一分发和管理这些工具。

连接器层面的新增覆盖了大多数主流企业应用：Google Workspace（含 Calendar、Drive、Gmail）、Docusign、Slack、LegalZoom、FactSet、Harvey、Apollo、Clay 等等。

管理员可以基于入门模板快速创建插件，也可从零构建。Claude 会在设置过程中通过提问引导定制，所有内容统一收纳在新的「Customize（自定义）」菜单下，方便集中查看与管理。

斜杠命令现在以结构化表单的形式启动，执行「生成报告」或「创建仪表板」这类工作流时，操作直观得像填一份简单问卷。管理员还可按用户分配插件、设置自动安装，并通过 OpenTelemetry 追踪团队使用成本与工具调用行为。

10 个插件模板的扩充，则是此次发布的重中之重，每个模板都与相关领域从业者联合设计，覆盖了真实职场中的具体工作场景。

HR 插件覆盖员工全生命周期管理，包括起草录用通知、制定入职计划、撰写绩效评估和薪酬分析。
设计插件可生成评审框架、撰写 UX 文案、执行无障碍审查并制定用户研究计划。
工程插件用于撰写总结、事故响应协调和部署清单制定。
运营插件则覆盖流程文档编写、供应商评估和操作手册创建。
金融领域的插件直接瞄准专业服务行业的核心工作流。
财务分析插件支持市场竞争研究与财务建模；
投资银行插件可审阅交易文件、构建可比公司分析并准备推介材料。
股票研究插件能解析财报电话会议记录并根据新指引更新财务模型；
私募股权插件支持大批量文件审阅与情景建模，并对投资机会自动打分。
财富管理插件则帮助顾问识别组合偏离与税务风险，大规模生成再平衡建议。

在跨应用协作层面，Claude 现在可以在 Excel 与 PowerPoint 之间端到端完成多步骤任务。它能先在 Excel 中完成数据分析，再自动生成 PowerPoint 演示文稿，目前以研究预览形式向 Mac 和 Windows 平台所有付费用户开放。

这次更新也是 Anthropic 在智能体领域加速布局的缩影。

上个月 Cowork 刚首次亮相，本月早些时候 Anthropic 还发布了 Claude Opus 4.6 和 Sonnet 4.6。目前 Cowork 仍处于研究预览阶段，向付费的 Pro、Max、Team 和 Enterprise 用户开放。所有的弹药都在指向同一个目标：接管工作。

为什么 Anthropic 点名的合作伙伴，股价都涨了

既然 Claude 已经能代替人类干这么多活了，为什么软件公司的股票反而涨了？要理解这次反弹，得先还原过去几个月那轮恐慌是怎么来的。

投资者的担忧并非无中生有。今年 1 月底 Cowork 开放插件支持后，市场立刻作出了最坏打算——毕竟当 AI 把法律文件审阅、合规追踪、财务建模这些原本按席位高价收费的功能包，压缩成随装即用的工作流组件，传统软件的护城河将遭受最严厉的质疑。

最近，OpenAI 还在投资者会议上宣称，其 AI 智能体将有能力取代 Salesforce、Workday、Adobe 和 Atlassian 的软件，并算了一笔账：

普通员工使用 ChatGPT 平均每天节省约 50 分钟，相当于每人每天约 50 美元，而企业版 ChatGPT 起价仅为每人每月 25 美元。言下之意，OpenAI 认为自己目前只拿走了所创造价值的一小部分。

这种表态，基本等于公开宣战。

对比之下，Anthropic 这次发布会，选择了截然不同的姿态。它没有再强调「取代」，而是大力宣传与现有 SaaS 厂商的深度集成与联合开发，与 Thomson Reuters 共建法律智能体，与 Salesforce、Slack、FactSet 深度打通，与 PwC 联合将企业级智能体引入 CFO 办公室。

被点名合作的伙伴股价应声上涨，也是正是因为市场开始理解：Cowork 这次的定位是替代完成工作的「员工」，而非替代员工使用的「软件」，新工具仍然需要调用 Salesforce、Docusign 等系统，企业依然要持续为这些软件付费。

这个区分很重要，但它并不能消解所有担忧，只是让市场暂时喘了口气。

真正的分水岭，在于理解这个行业里存在两类截然不同的公司。一类是掌握企业核心交易记录与客户关系，迁移成本极高，AI Agent 要运作反而必须依赖它们；另一类提供的是人与系统之间的中间体验，而这恰恰是最容易被 Agent 穿透的地带。

不是裁员，是再也不需要招那么多新人了

如果说软件公司还能争取到一段缓冲期，打工人面对的压力则是实实在在的。

以 Anthropic 新增的金融系插件为例，其覆盖了从财务建模到推介材料生成、从财报解读到投资打分的全链条流程。这些工作恰恰是大量初级分析师赖以入行的基础任务内容。

Anthropic 在今年 1 月发布的经济影响指数报告给出了更具体的数字支撑。报告通过分析 100 万条真实对话，估算了 Claude 在不同职业中能够有效承接的工作比例。

结论并不是简单的「覆盖了多少任务」，而是引入了一个更严格的指标——「有效 AI 覆盖率」：在 Claude 能完成的任务里，究竟有多少是这个职位最核心、最耗时的工作？

数据录入员和数据库架构师在这个维度上排名靠前。前者虽然只有两项核心任务落在 Claude 的能力范围内，但其中一项恰好是他们花时间最多的工作——从源文档读取并录入数据。

金融分析师的情况与此类似。基于岗位任务结构与已公开工具能力的匹配来看，投行初级分析师的日常任务存在被自动化的风险。

当然，这不代表这些岗位会消失，但它意味着同样一个团队能完成的工作量将大幅提升，也就是说，企业未来需要雇用的初级人手会更少。

问题是，当 AI 接手这些基础执行工作，短期内利润率确实好看，但代价是新人少了练手的机会，等到五到十年后，市场极度缺乏能够审查 AI 复杂输出、承担最终决策责任的高级人才时，这个代价就会以一种所有人都措手不及的方式显现出来。

与此同时，APPSO 之前也报道过，「影子 AI」现象正在企业内部蔓延，指的是员工未经 IT 部门批准或监督，擅自使用AI 工具或应用程序，导致 IT 支出失控，安全合规隐患持续叠加。

SaaS 管理平台 Zylo 的数据显示，大型跨国企业与 AI 相关的支出同比跃升 400%，而原有基础软件投资并未缩减。AI 正在成为企业账本上最昂贵且最难追踪的「隐形员工」。

从中长期来看，纯粹押注 AI 颠覆一切的逻辑，和积极拥抱 AI 同时牢牢握住核心数据护城河的行业巨头，是两种截然不同的命运路径。前者的叙事更性感，后者的胜算或许更大。

Anthropic 今天向外展示的「合作」姿态，听起来温和，甚至有点示好。市场也在一夜之间被安抚了，但没人真正回答那个根本问题：AI 冲击职场的终点，到底是人和 AI 一起干活，还是 AI 干活、人来担责，还是连这最后一道门槛也终将消失？

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Anthropic「蒸馏」了人类最大的知识库

爱范儿

莫崇宇

2026年2月25日 08:47

2024 年初，在美国某处的一座仓库里，工人们正在做一件看起来有些奇怪的事：把书一本本送进机器，切掉书脊，扫描，然后把剩下的纸送去回收。

这些书是刚买来的，有些甚至是新的。没有人会读它们，它们存在的唯一目的，就是被销毁。

下令做这件事的，是一家叫 Anthropic 的 AI 公司。

在他们的内部文件里，这项计划有个代号：「巴拿马项目」。一份规划文件写得很直白：「这是我们以破坏性方式扫描全球所有书籍的计划，我们不希望外界知道我们正在做这件事。」

这件事最终还是被人知道了。

去年，一名联邦法官解封了一批与版权诉讼相关的文件，总计超过 4000 页。外界由此看到的，不只是一家公司的秘密，而是整个 AI 行业在数据争夺战中的真实面目。

被大模型「吃」掉的实体书

为什么这些处于技术前沿的科技巨头，会用如此原始甚至粗暴的方式对待纸质书？答案其实藏在 AI 对高质量数据的极度渴求里。

Anthropic 内部很早就意识到，训练 AI 模型光靠网络上的内容不够用。

根据《华盛顿邮报》报道，一位Anthropic 联合创始人在 2023 年 1 月的文件中写道，用书籍训练模型，可以让 AI 学会「如何写得更好」，而不是只会模仿质量参差不齐的网络语言。

书籍经过严格编辑和校对，内容结构清晰，是网络文本难以替代的高质量语料。

这个逻辑本身并不难理解，但问题是，既然承认书籍有价值，为什么不付钱？究其原因，挨个找出版社和作者谈授权，费时费力，成本也高。于是 Anthropic 启动了「巴拿马项目」。一句「不希望外界知道」，说明它也清楚这件事站不住脚。

甚至「巴拿马项目」还没启动的时候，Anthropic 已经尝试通过另一种方式获取书籍。

法院文件显示，公司联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里，从一个叫 LibGen 的网站下载了大量小说和非小说类书籍。LibGen 是个「影子图书馆」，上面的资源大多涉嫌侵权，文件中附带的浏览器截图显示，他使用文件共享软件完成了这些下载。

一年后，另一个网站 Pirate Library Mirror 于 2022 年 7 月上线，该网站公开宣称「在大多数国家故意违反版权法」。Mann 把这个网站的链接发给了其他 Anthropic 员工，并留言写道：「来得正是时候！！！」

这句感叹号背后，是一位公司高管对一个公开承认违法的盗版网站表达的真实态度。

Anthropic 事后表示，公司从未用这些数据训练过正式发布的商业模型。但这种解释多少有些勉强，下载了，存着，只是「没有用在正式模型上」，这条线究竟划在哪里，恐怕连 Anthropic 自己也说不清楚。

为了「巴拿马项目」，Anthropic 还专门聘请了 Tom Turvey 来主持这项工作。Turvey 曾参与创建谷歌图书项目，那个项目同样因大规模扫描书籍引发了长达多年的版权争议。Anthropic 选择这个人来主导这件事，很难说是一种巧合。

最终，Anthropic 主要依赖两家书商批量供货：

美国二手书零售商 Better World Books，以及总部位于英国的 World of Books，每次采购动辄数万册。内部文件还显示，员工曾讨论接洽纽约公共图书馆，甚至提到可以找某家长期资金不足的新图书馆。

采购完之后，整个扫描过程，就像一条工业流水线。

供应商用液压切割机把书脊整齐切掉，散开的书页随即被送进高速工业扫描仪，扫完之后，剩下的纸张交给回收公司处理。一家参与报价的扫描服务商在提案中写道，Anthropic 希望在六个月内完成 50 万到 200 万册书的数字化工作。

Anthropic 副总法律顾问 Aparna Sridhar 回应称，法院已裁定 AI 训练「本质上具有转化性」，Anthropic 选择和解的问题在于「部分材料的获取方式，而不是我们是否可以使用这些材料」。

这套说辞在法律上也许站得住脚，但它同时也揭示了一件事：这家公司从未认为自己做错了什么，只是某些手段不够干净。

拿你的书训练，再抢你的饭碗

同样的事情，也在其他公司身上发生着，而且有些细节更为戏剧性。

针对 Meta 的诉讼文件显示，有员工在 2023 年直接写道：「用公司笔记本进行种子下载感觉不太对劲。」他后来还专门向法务团队反映，称使用种子网站可能意味着向他人分发盗版作品，「这在法律上可能行不通。」

但这些顾虑最终没有改变任何事情。

2023 年 12 月的一封内部邮件显示，使用 LibGen 已在「上报至 MZ」之后获批，MZ 指的是 CEO 马克·扎克伯格。邮件还坦率地写明了他们自己都清楚的风险：「如果媒体报道暗示我们使用了已知为盗版的数据集，这可能会削弱我们在监管问题上的谈判立场。」

换句话说，他们不是不知道这样做不对，只是在权衡被抓包的代价。为了降低这个风险，员工们特意租用亚马逊的服务器来做种子下载，而不是用 Meta 自己的服务器，原因是避免被追踪到 Meta 公司。

OpenAI 和微软同样面临图书作者的版权指控。OpenAI 甚至承认曾下载过 LibGen，但称在 ChatGPT 发布前已删除相关文件。

而 AI 公司与创作者之间的版权冲突，并非从 Anthropic 才开始。

早在 2000 年代初，Google 就曾大规模扫描图书馆馆藏，同样引发了长达十年的诉讼。最终法院认定Google 的做法属于「合理使用」，因为它只提供片段摘要，目的是引导读者找到书，而不是取代书本身。

这个判决在当时看来合情合理，却在二十年后为整个 AI 行业提供了一块挡箭牌。

Google 图书是个索引工具，而生成式 AI 直接消化书籍内容，然后输出文字，在某些情况下与作者产生直接竞争。性质变了，但援引的法律逻辑还是同一套，这本身就值得思考。

去年 6 月，联邦法官 William Alsup 裁定，Anthropic 用书籍训练 AI 属于合法行为，他将这个过程比作教师「训练学生写好文章」。这个比喻听起来温和，但现实中的老师不会同时训练几百万个学生，也不会靠这些学生赚几十亿美元。

最终，Anthropic 选择支付 15 亿美元和解金，在 AI 版权诉讼史上创下纪录，但细看之下，账算得并不亏。按照美国版权法，每件作品的法定赔偿上限可达 15 万美元，而此次和解折算下来，每本书约赔 3000 美元，仅为上限的 2%。

赔偿金由作者和出版商平分，只是，这一安排在创作者群体内部引发了争议。

不少作者认为，出版商在保护作品不被 AI 滥用这件事上没有尽力，却拿走了一半赔偿。更关键的是，和解协议并不要求 Anthropic 承认任何违法行为，法院对「AI 训练属于合理使用」的认定照样有效。

换句话说，Anthropic 用 15 亿美元买到的，不只是和解，还有一份背书：我们可以继续这么做。有分析人士指出，随着这个先例确立，版权侵权对 AI 公司来说已经不再是一条红线，而是一笔可以提前计入成本的「过路费」。

对许多写书的人来说，这件事意味着的远不止一张支票。美国作家的年收入中位数约为 2 万美元，而市值数千亿的 AI 公司在未获授权的情况下大量使用他们的作品，事后折算的赔偿标准远低于法律上限。

更让人忧虑的是，AI 正在批量生成文字内容，这些低成本的文本涌入市场，让原本就艰难的写作谋生变得更难。训练 AI 用的是人写的书，而 AI 产出的内容，正在挤压人继续写书的空间，循环往复。

支持者自有另一套逻辑：AI 并不储存书里的内容，而是从中提取语言规律，这更像是一个人博览群书之后形成自己的表达。这个类比并非毫无道理，但却省略了一个关键差异：

人读了一本书，不会同时读一百万本；而 AI 在几个月内消化了人类几十年的写作积累，随后以极低的边际成本无限复制输出，规模改变了性质，把两件事等同起来其实并不合理。

数百万册书被切开、扫描、回收，最后换来一份和解协议。那些书，早已不在了。而 AI 还在继续写作，且会越来越快。这大概就是这件事最让人不安的地方：对于书被销毁，被肆意用来训练 AI 这件事，没有人真正付出了代价。

附上参考地址：
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博