阅读视图

发现新文章,点击刷新页面。

取代龙虾的是爱马仕?狂揽4万星的Hermes Agent,不只是OpenClaw平替

在之前那篇讨论 Harness 该怎么翻译的文章,有读者留言说可以叫 Hermes 爱马仕。

本以为是谐音梗,没想到确实有一个 Agent 产品叫 Hermes,而且在 GitHub 的热门榜单上,整个月都排名第一,目前已经累计有 4.8 万个 Stars。

和这段时间以来爆火的 Agent 龙虾不同,一个是支持所有操作系统和平台的专属个人 AI 助手,Hermes 的介绍写着「the agent that grows with you」,与你共同成长的 Agent。

听着就很高级,但这确实是 Hermes Agent 的独特之处。

它有一套内置的学习循环框架,OpenClaw 靠的是修改配置文件,联合多个 Agents 来处理各项复杂的任务,Hermes Agent 是一个单一的 Agent 框架,它的能力会随着实际使用的运行时间增加而不断增强。

它解决的问题是,当所有人都在讨论 agent 能做什么,但没人注意 agent 用完之后什么都不留下,而 Hermes Agent 现在能记住「什么方法有效」。

社交媒体上也不少推荐 Hermes Agent 的帖子,有人说刚刚从 OpenClaw 转移到了 Hermes,是他做过最明智的选择。

还有人分享「爱马仕橙皮书」,表示 Hermes Agent 是一个被严重低估的产品,它算得上目前最强大的开源 AI Agent 框架之一。

Hermes Agent 由 Nous Research 团队研发,查看 GitHub 上的发布记录,从 3 月中旬更新 V0.2.0 版本到昨天发布 V0.8.0,每次更新都有大量代码提交合并,以及实用的功能更新,是一个非常活跃的开源项目。

▲首次推出是 2 月 25 日,https://nousresearch.com/releases

Karpathy 之前分享的 LLM Wiki 笔记大法,利用大语言模型和 Obsidian 笔记工具,完成对自己知识和研究库的搭建,也被立刻加入到了 Hermes 的内置技能里。

Hermes Agent 不仅支持安装在电脑上,通过 Termux 终端模拟器,还能安装在 Android 手机上。模型和网关的配置与 OpenClaw 类似。

值得一提的是,目前还没有被 Claude「封杀」,我们仍然可以通过登录 Claude 的 Pro 及以上会员直接完成大模型配置。同时,Hermes Agent 也提供了自家的,基于订阅模式的 Nous Portal 登录。

▲Nous Research 团队的 Hermes 4 模型

今天,小米大模型也发文正式宣布,「Xiaomi MiMo 已接入全球顶级 Agent 框架 Hermes Agent,并且限免两周。

🔗 Hermes Agent 官网:https://hermes-agent.nousresearch.com

凭什么是 OpenClaw 真正的对手

OpenClaw 的核心是把我们的 AI 从聊天框里彻底拉出来,接入到实际的工作、学习和生活中,真正执行任务。它能连接微信、企微、飞书,能跑终端命令、控制浏览器,帮我们发邮件、管理日程安排等。

但 OpenClaw 有一个缺陷是它无法从我们日复一日的使用中,自动学习进化。

OpenClaw 的记忆是静态的——我们把信息写进配置文件,它读取,会话结束,等下次再读。它不会主动地从执行过程里提炼什么,也不会因为我们纠正过它一次,下次就自动做对。

所有的工作流用过一遍,还是需要我们提醒它,打包成 Skill 或者专门的提示词等。

虽然现在有一些专门的 Skill 被设计用来赋予 OpenClaw 自学习的能力,但是、 Hermes Agent 是从底层架构的学习循环,到记忆系统,和 Agent 执行内部,都把「越用越懂你」作为重点。

Hermes Agent 的特别之处是一个闭合的学习循环 Learning Loop。

每次任务完成后,Hermes 会检查:这次执行值不值得写下来?触发条件很具体,工具调用超过 5 次、中途出过错然后自己修复了、用户做过纠正、或者走了一条不明显但有效的路径。满足任何一条,它就会在 ~/.hermes/skills 目录里生成一个 Skill 文件。

和技能市场上那些被广泛使用的 Skill 一样,这份自动生成的文件是下次可以直接跟着走的操作流程。名称、描述、步骤、涉及的工具调用,全部写清楚。格式遵循 agentskills.io 开放标准,理论上是可以跨兼容 agent,在 OpenClaw、Claude Code、Cursor 等工具内使用。

技能文件不是一次写死。Hermes Agent 在后续执行中发现更好的路径,会直接修改。修改优先用 patch,打补丁的方式,只传入旧字符串和替换内容,而不是整体重写。

这个选择背后有两个考虑:全量覆写容易把原来好用的部分一起破坏掉,而 patch 只碰有问题的地方,更安全,token 消耗也更少。

记忆,是 Agent 最难处理的问题

另一项和 OpenClaw 的差别,是记忆系统。

前几天,《生化危机》女主角 Milla Jovovich 和工程师 Ben Sigman 联合发布了开源 AI 记忆工具 MemPalace,两天内获得超过 23000 个 GitHub stars。

它的设计灵感来自古希腊演讲家的记忆技法,把要记的东西放进一座想象中的建筑的不同房间,需要时走进去取。

整个系统分成五层:Wing(项目或人物)、Hall(记忆类型)、Room(话题)、Closet(压缩摘要)、Tunnel(跨话题引用)。仅靠这个层级结构,MemPalace 称检索准确率就从 60.9% 提升到 94.8%。

MemPalace 的核心判断是:不应该让 AI 来决定什么值得记,AI 的判断不可信,不如全存下来,让检索来决定什么有用。

月初 Claude Code 50 万行代码泄露事件中,另外一种关于记忆的解决方案则是依靠 AI,有网友发现 Claude 会使用做梦的方式,用 Auto Dream 来自动整理我们的记忆文件。

Hermes 的记忆系统也经过专门设计,一共分四层,每层负责不同的事,在不同的时机被调取。

第一层叫常驻提示记忆。两个文件,MEMORY.md 和 USER.md,存放需要在每次会话开始时自动加载的上下文。总字符上限只有 3575 个,这个数字是 Hermes Agent 故意收窄的,目的是强迫我们筛选,而不是什么都往里塞。

第二层是会话归档。每次对话写入 SQLite 数据库,用全文索引检索。Hermes Agent 需要历史上下文时,主动发起查询,把检索结果经过一次 LLM 摘要,只把和当前任务相关的部分注入进来。

▲文档链接:https://hermes-agent.nousresearch.com/docs/user-guide/features/memory

第三层是技能文件,也就是上面说的学习循环的产出。默认情况下,系统提示里只加载技能的名称和简短描述,全文按需调入。这个设计的效果是,技能库可以从 40 个增长到 200 个,而上下文成本几乎不变。

第四层叫 Honcho,是可选的用户建模层,被动地在跨会话之间积累你的偏好、沟通风格和领域知识。适合把 Hermes Agent 当成日常个人助理长期使用的场景。

这四层的分工原则也很清楚,如果某件事需要在每次对话里都出现,放第一层;如果只在特定话题出现时有用,留在第二层等检索;如果是可复用的操作流程,让第三层处理;如果是用户的长期画像,交给第四层。

一条消息到达 Hermes Agent,无论来自 Telegram 等第三方网关,还是命令行,进入同一套同步执行引擎:生成任务 ID,从记忆层构建系统提示,优先复用缓存版本,避免重复构建,发送前检查上下文长度是否接近上限,调用模型。

▲图片来源:https://mranand.substack.com/p/inside-hermes-agent-how-a-self-improving

除了在任务执行的过程中会使用学习循环自动更新,Hermes 在每次会话中间还会触发一个叫周期性微调(Periodic Nudge)的机制。

在没有用户输入的情况下,系统会定期自动向 agent 发一条内部提示,要求它回顾最近的操作,判断哪些值得写入记忆。完全不需要用户触发,Hermes Agent 自己决定什么值得保留。

上手 Hermes Agent 需要多少成本

和安装 OpenClaw 一样,Linux、macOS、WSL2 直接一行命令,Android 机上使用 Termux 也支持安装。

Hermes 有提到不支持原生 Windows,我们需要另外安装 WSL2,Windows Subsystem for Linux,简称 WSL,是一个在Windows 上能够运行原生 Linux 二进制可执行文件的兼容层。

安装命令会自动处理大量依赖,包括 Python 3.11、Node.js v22、ripgrep、ffmpeg、虚拟环境、全局命令、LLM 等配置。安装完成之后的界面也 Claude Code 那些终端工具一样,通过一些具体的命令来实现和 Agent 的交互。

在模型配置上,可选推理服务商范围很宽:Nous Portal(订阅制,零配置)、Anthropic(直接用 Claude,可以用 API key 或 Claude Code 授权)、OpenRouter、DeepSeek、Hugging Face、阿里云 DashScope(Qwen 系列)、GitHub Copilot,还有任何 OpenAI 兼容接口,包括 Ollama 本地模型。

还有小米的 Xiaomi MiMo-V2 系列,包括支持百万上下文 Token 的 MiMo-V2-Pro、全模态的理解能力的 MiMo-V2-Omni,以及 Flash 模型。小米还提供了 4.8-4.22 为期两周的限免试用,更新 Hermes Agent 到最新版本,通过 Nous Portal 免费调用小米大模型。

Hermes Agent 还有一个 Auxiliary Models 模块,它是 Hermes 里专门处理「侧任务」的一组轻量模型配置,不负责主对话,但负责很多高频、关键、又不值得占用主模型的工作。

例如像是图像分析、网页提取、Skill 匹配、记忆处理等不同的任务会自动分配不同的模型。在默认情况下,辅助任务会自动检测并优先使用 Gemini Flash,无需手动配置。

这和 Anthropic 今天推出的 advisor 功能类似,都是适合主模型昂贵,但想把边角任务切到便宜模型的机制。Hermes 则是直接把「多模型编排」做成了底层架构。

消息平台方面,支持列表和 Openclaw 类似,Telegram、Discord、Slack 和飞书是功能最完整的几个,语音、图片、文件等各种格式都支持。一套网关进程连接所有平台,会话统一管理。

Hermes Agent 其实很难说是一个花几分钟安装完了,就能快速上手用起来的工具,它更多的是一套我们需要运行和维护的基础设施。

如果我们只是想要一个能在手机上发消息控制的 AI 助理,OpenClaw 会是更简单的路径,写一个 SOUL.md 配置文件,跑起来,接上 Telegram,完成。

Hermes Agent 适合的场景是,我们有一些重复的、会演化的工作流,同时我们愿意让 agent 从使用习惯中积累经验,我们会期待希望三个月后的 agent 和第一天的 agent 不一样。

在社交媒体上,一些网友分享使用 Hermes Agent 的应用实例,包括像是商业自动化,把企业的客户关系管理 CRM 和知识库连接在一起;以及营销管理,将内容生成和社群平台的发布统一自动化;还有经典的代码生成等软件工程项目等。

随着我们在各个真实的业务场景中应用这些技术,一个不争的事实是:Agent 正在加速杀入真正的生产环境。

对于 Hermes,有人说它只是 OpenClaw 的一个「轻量级平替」,也有人说它是单一智能体的一次进化。但无论如何,Agent 的演进路线,绝对不会止步于 OpenClaw 设定的框架。

而不管是 Hermes 还是 OpenClaw,现在所有的开源 agent 方案,都还留着各自的缺口。能让 agent 真正打穿主流、成为普通人日常基础设施的那个形态,大概还没出现。

解决了复杂的记忆系统,还有庞大的 AI 安全问题,给了 AI 手脚又要想着怎么给他上枷锁 Harness,还有安装太复杂,门槛太高,似乎总有各种受限的地方。

只能说,Hermes 这次确实给了 Agent 一个新的方向,它让 Agent 从一个用完归零的工具,变成了能从失败里学到东西、能记住教训的一种搭档关系。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

时薪 6 毛钱,Anthropic 开始出租 AI 牛马

一个软件工程师每月的人力成本,根据国家统计局的数据粗略估算,在国内是 2 到 3 万元左右。

如果只算他一天 8 小时在岗时间里真正执行任务的部分,折合下来大约是每小时 110 到 170 元。

Anthropic 今天又推出了一项新功能 Claude Managed Agents, 有一项定价写着 $0.08/小时,折合人民币不到 0.6 元。

这个数字本身不是重点,重点是它意味着 Anthropic 开始按小时计费。不不仅收取使用的 Token 费用,还开始计算 Agent 跑了多长时间。

▲Claude Managed Agents 框架

Managed Agents 提供的是一整套现成基础设施,也就是 Anthropic 所说的 agent harness:包括工具调用、记忆系统、权限控制、云端长时运行、Agents 之间互相监控,以及沙箱环境等功能

举个例子,假设我们要雇一个人帮你干活,会遇到什么麻烦?

招人阶段,要准备办公位(服务器)、要装电脑配系统(开发环境)、要写岗位职责说明书(代码逻辑)。

干活阶段:干到一半断网了,进度全丢(会话中断)、想查他干了啥,没有记录(无法审计)、担心他乱翻公司机密(权限管控)。

▲在 Claude 控制台内可以快速开始创建一个 Managed Agents

而 Claude Managed Agents 在这个过程中的作用,就是把这些麻烦事全包了。Anthropic 表示,别再自己搭那个破烂不堪的草台班子了,把基建交给我,你们只管去想怎么赚钱。

通过在 Claude 官方的 Agent 搭建控制台或者使用 API 的方式,我们直接下达 Agent 需求,Claude Managed Agents 负责给他工位、看着他干活、保证他不乱来

目前,Claude Managed Agent 正在公测中,任何人、企业都可以快速地构建一个能干活的 真.Agents 数字员工。

几天就能从零开始搭建一个 Agent

过去两年用了无数的 Agents,几乎每天都有开发者推出自己的 Agents 产品。有的面向编程代码,有的面向设计,最后这些 Agents 都被统一到,去年是 Manus 类,今年是 OpenClaw 类的大家族里。

但如果想要自己部署一个更个性化的 Agents,尤其是一个能给其他人用的 Agent。我们需要自己处理对应的服务器,要设置复杂的机制防止它崩溃,要给它接管数据库的安全权限,还要用合理的方式,管理 Agent 的上下文记忆。

Managed Agents 把这些全部承包了。

它的结构围绕四个概念展开。Agent 定义这个员工是谁:用什么模型、遵循什么系统提示、能调用哪些工具。Environment 是一个配置好的云端容器,预装了 Python、Node.js 等运行环境。

Session 是一次具体的任务运行实例,有完整的事件历史,随时可以查。Events 是我们和 agent 之间传递的消息——任务指令、工具结果、状态更新。

过去那种「手搓」Agent 的复杂模式,直接被 Claude Managed Agents 压缩成了全自动的流水线。

如果你是开发者,可以直接调 API 或者用 CLI,几行代码创建 agent、配置运行环境、启动 session、接收实时事件流。整个流程文档写得很清楚,从零到跑起来大概半小时。

如果你不写代码,Claude Console 提供了完整的可视化界面。选模型、写系统提示、接 MCP 工具、挂外部服务,全部点击完成。配置好之后可以直接在界面里测试,看 agent 怎么响应,不满意就调,满意了再让它持续跑着。

Console 的构建页面里有一个「What do you want to build?」的输入框,旁边是模板库,覆盖了研究员、数据分析师、客服助理、事故响应协调员等现成角色,每个都预先接好了 Slack、Notion、Asana、GitHub、Jira 这些工具的连接。选一个模板,改改描述,就能开始。

▲即便是小白,在网页端,也能根据流程一步一步创建自己的 Agents

不过,仅开通了 Claude 会员还不够,目前还是需要有 API 计划,即绑定信用卡有一定 Token 额度,才能使用 Managed Agent。

Managed Agents 在工程上有一个核心决策,和最近一直在讨论的 Harness 工程相关,它决定着这套系统能不能真正用于生产。

Anthropic 在官方的工程博客里用一个特别扎心的比喻,解释了 Managed Agent 的结构设计。

他们认为早期的 Agent 架构,非常像是在「养宠物」。开发者习惯把 Claude(大脑)、执行代码的沙盒(手脚)以及它的记忆(会话日志),一股脑地塞进一个巨大的服务器容器里。

这个容器变得无比娇贵,我们不能让它死。一旦容器卡死或崩溃,AI 的脑子和手脚一起完蛋,用户的任务数据瞬间清零;容器里同时跑着用户凭证和 Claude 生成的代码,一旦有提示词注入攻击,凭证就直接暴露。

Anthropic 的解法是,把「大脑」和「双手」彻底分开,容器变成了随时可以牺牲的「牛马」,即从养宠物变成养牛马。

调度器(大脑)不再住进容器里。它像调用外部工具一样,对容器发号施令。如果容器在执行危险代码时崩溃了?大脑根本不慌,它会记录下一个错误代码,然后毫不犹豫地重新拉起一个新容器继续干活。

使用 Agent 留下的记忆,也不再被塞进某个 AI 或者容器拥挤的脑子里。分开运作后,所有的记忆被单独存放在外部的会话日志中。它就像一个外接硬盘。

大脑通过标准化的调用方式指挥双手,不在乎双手是容器、是外部服务还是别的什么。哪只手出故障了,换一只,大脑继续跑;大脑自己崩了,从对话日志里恢复,接着干。

这个设计带来了性能的大幅提升。解耦之前,每个对话启动都要等容器完整初始化,系统要花很长时间去拉起一个包含了庞大调度逻辑的沉重容器。

现在,首次响应时间降低了超过 90%,安全边界也因此变得清晰——Claude 生成的代码在沙箱里跑,凭证在沙箱外的保险箱里,两者之间有专用 Agents 隔离,agent 永远拿不到原始凭证。

更重要的是,它让 Agent 真正具备了可以长期稳定干活的能力。

Anthropic 提到,Notion 已经在内部使用 Managed Agents 搭建了帮助工程师写代码、帮知识工作者做演示的企业 Agent。

Rakuten 把销售、市场、财务、HR 的 agent 都用 Managed Agents 部署了,每个专项 agent 的上线时间是一周。

Sentry 的调试 agent 在发现 bug 之后,会自动写补丁、开 PR,开发者收到的是一个可以直接 review 的修复方案,整个流程不需要人介入。

可以说,以前的大模型公司提供的是模型 API,即处理我们的每一条消息;Anthropic 做出的改变是将基于消息的 API 包装成可以直接交付工作的 Agent API。

回到那个数字 $0.08/session-hour

这种改变首先体现在 Claude Managed Agents 的定价结构上,根据官方博客,Managed Agents 的计费包括 Token 费用(标准 API 价格,Sonnet 4.6 是 $3/M input,$15/M output),加上 $0.08/session-hour(按实际运行时间计费,idle 时间不算),和 Web search 另计:$10 每 1000 次。

Anthropic 有举例,一个使用 Opus 4.6、跑 50K 输入 + 15K 输出 token 的一小时 coding session,总成本约 $0.70。

和专门请一个员工来处理,现在企业自己就可以通过 Managed Agents 创建一个内部的 Agents。数字员工的概念,又被往前推进一步。

此外,对 Anthropic 来说,这也意味着收入开始和企业的自动化程度直接挂钩,企业跑的 agent 越多,Anthropic 收得越多。这和 AWS 从「卖服务器」变成「卖运行时间」是同一个逻辑,他们打开了一个比卖订阅大得多的市场。

大模型技术发展到现在,单纯比拼参数和跑分的红利期似乎正在消退,毕竟能力真正强的大模型,也被限制不能开放使用。

真正的战场,又回到了「如何让这群聪明的脑子,最稳定、最廉价地在工厂流水线上打工」,Claude Managed Agents 的推出,就是 AI 基础设施走向成熟的一个里程碑。

回头看 Claude 今年的每次更新,无论是模型还是产品,几乎都踩在了我们对 AI 能做什么的痛点上。

一方面在持续提升模型的能力,不被外界生视频、浏览器、生图模型那些方向干扰;另一方面是从 Cowork 开始,到后面疯狂打补丁复制 OpenClaw 的全部功能,再到今天推出一个专门用来开发和部署 Agents 的平台,每一次都是极其敏锐的产品视角。

Anthropic 正在开创一个新的发布模式,即从「我们发布了一个更快更好的工具」,变成「我们为你准备好了构建数字员工的完备基础设施」。

🔗 参考链接:
Claude Managed Agents 更新博客:
https://claude.com/blog/claude-managed-agents
Claude Managed Agents 架构设计博客:
https://www.anthropic.com/engineering/managed-agents
在 Claude 控制台开始搭建自己的 Agents:
https://platform.claude.com/workspaces/default/agent-quickstart

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我把 Gemma4:26b 装进 M1 Pro 后,才看清 AI 编程最贵的不是模型费,而是工作流

下午两点多,我盯着终端发呆。

pulling ... 100%,然后断线。 重试。又断。 再重试。还是断。

到第三次的时候,我已经不是在下载模型了,我是在跟自己的耐心较劲。

最后看到 writing manifestsuccess 那一刻,我脑子里只剩一句话:

现在做 AI 编程,最贵的不是模型费,是你被流程反复打断、反复重来的时间。

image.png


269e2c5b-0586-473b-84c4-b8d3b72abce6.png

01|装完模型我才意识到:性能不是第一道坎,协作才是

我这台机器是 M1 Pro 32G。 gemma4:26b 跑纯文字问答,体感其实挺快,日常对话、方案讨论都很顺。

但一旦任务变成“长链路”,比如:

  • 跨多个文件修改
  • 连续工具调用
  • 长上下文推理

就会明显感受到:真正拉开差距的,不是单次回答速度,而是整套流程能不能稳定跑完(ps: 单纯的说本地模型哈,付费API的能力还是非常🐮🍺的)。

以前我总想找一个“全能模型”,把所有任务都塞进去。 现在看,这个思路本身就容易卡死。

不是模型不够强,是分工不清。


02|我把模式改成“主脑 + 助手”后,效率开始稳定

我现在用的是一个很朴素的工作流:

混合模式: 付费API + 本地模型 (可以抱着玩的心态去搞

家大业大助理太多.png

  • GPT 做主脑:拆任务、定策略、做最终审校
  • Gemma4:26b 做助手:跑初稿、做重复劳动、吃本地隐私任务
  • 人做拍板:关键风险操作必须人工确认

这套分工解决了三个高频痛点:

  1. 大模型能力强,但不该拿来干所有重复活
  2. 本地模型成本低,但不适合所有高复杂链路
  3. 全自动看起来很爽,但最怕一次跑偏后难回滚

一句话总结:

把重复交给助手,把判断留给主脑。


03|我现在更相信“半自动可回滚”,而不是“一键全自动”

很多人追求的是:一句话需求 -> 自动改完 -> 自动提交。

我实测下来,真正能长期落地的,反而是这条:

先计划,再改动,再确认。

我的执行顺序是:

  • 先出 plan(不直接改)
  • 再出 diff(只看变更)
  • 最后执行(高风险命令二次确认)

这套流程的好处非常现实:

就算模型偶尔跑偏,也只是“返工一次”,不会“炸穿一次”。

团队里真正稳定高产的人,往往不是最会写 prompt 的人, 而是最会设计“出错后怎么回来”的人。


04|给一人团队的最低配模板(今天就能上手)

如果你也是一人开发,不要一上来就搭巨复杂系统。 先把这 4 条跑起来:

  • 任务分级:小改动 / 中改动 / 高风险改动
  • 模型路由:本地默认,复杂任务升级
  • 执行闸门:删除、批量改、线上命令必须确认
  • 交付标准:每次都要有 plan、diff、回滚点

先把“稳定完成”做出来,再谈“极限效率”。


装完 gemma4:26b 这一天,我最大的变化不是“多会用一个模型”, 而是感觉 ------ 在充点(“钞能力”)你会更强,我的M1 Pro是“老家伙”了,只能跑26b,跑32的话估计就宕机了。

2026 年最值钱的能力,也许不是会写多少代码, 而是你能不能把一套 AI 工作流跑到稳定复用。

你现在是“一个人在写代码”, 还是“一个人在带一支 AI 小团队”?

从 0 到 1:用 Node 打通 OpenClaw WebSocket 通信全流程

引言

书接上回, 我们在 OpenClaw 上手实践: 使用 Docker 从构建到可用全流程指南 介绍了, 如果通过 Docker 来快速部署 OpenClaw

其实呢, 这边想要借助 OpenClaw昆仑虚 搭一个个人的 AI 应用, 这里希望整体架构如下:

image

这边 Node 服务端就是做了中间层的转发, 但是这么做有什么好处呢?

  • 权限: 可以进行很好的权限管理, OpenClaw 仅运行 Node 服务进行访问, 不对外开放
  • 多用户: 可以将 sessionagentmessage 等内容按用户进行隔离, 甚至可以一个用户分配一个独立隔离的 OpenClaw(容器)
  • 定制化: 要想做应用, 必然会有很对定制信息, 比如设置 Agent 的头像等。这边我们只需要 OpenClaw 调度大模型的能力, 其他的就希望完全定制。

所以接下来最重要的就是, 在 Node 服务端要如何和 OpenClaw 进行协作(通信), 这也正是接下来我们要聊的....

一、OpenClaw 架构

如图, 是 OpenClaw 的整体架构

image

1.1 智能体运行时环境

这里是整个核心, 是真正干活的核心引擎, 也是我想要的核心能力, 这边主要就是:

  1. 负责拼装 promptcontext
  2. 调度各种大模型
  3. 协调各种 AgentSkillTools 的执行
  4. 保存各种配置、回话记录

当然这边其实没这么简单, 只是想说明这边主要就是核心干活的地方

1.2 网关层

外界各个应用、服务、IM 如何通知引擎部分让 Agent 开始干活? 而引擎部分又如何告知外界 Agent 处理的结果? 而它们之间又是怎么鉴权的? 怎么通信的? 这都是网关层进行控制的。

image

OpenClaw 通过 WebSocket 并定义了一套协议, 来链接 "外界" 和 "引擎"

如下所示, 是外界通过 ws 连接到 OpenClaw 网关, 并约定好的参数(协议)来调用 "引擎" 干活:

import WebSocket from 'ws';

const ws = new WebSocket('ws://127.0.0.1:18789');

ws.send(JSON.stringify({
  type: 'req',  // 请求类型,固定为 req
  id: '任意唯一ID', // 请求 ID
  method: 'chat.send', // 请求内容
  params: {}, // 请求参数,根据不同 method 定义不同的参数结构
}));

同时, 外界也是通过 ws 来监听网关发来的消息, 来获取 "引擎" 广播的消息:

// 监听 OpenClaw 广播的消息
ws.on('message', (data) => {
  
});

// 可能数据如下
{
  "type": "event",
  "event": "chat",
  "payload": {
    "runId": "同一个 runId",
    "sessionKey": "main",
    "seq": 1,
    "state": "delta",
    "message": {
      "role": "assistant",
      "content": [
        { "type": "text", "text": "正在生成中的文本" }
      ],
      "timestamp": 1710000000000
    }
  }
}

我们可能习惯性通过 REST API 来调用第三方服务提供的接口来获取数据、修改数据, 但这边则全部走 WebSocket 并通过约定好的协议来完成所有事情

// 拉历史
ws.send(JSON.stringify({
  type: "req",
  id: "history-1", // 自定义请求 AI
  method: "chat.history", // 具体请求方法
  params: {} // 参数
}));

// 拉 agent 列表
ws.send(JSON.stringify({
  type: "req",
  id: "agents-1", // 自定义请求 AI
  method: "agents.list", // 具体请求方法
  params: {} // 参数
}));

1.3 其他层

  1. 工具与能力层: 本质上大模型是不具备各种调用工具的能力的, 所有工具的调用都是在本地完成, 并将调用结果告诉大模型。大模型再进行决策, 而这边工具与能力层就是提供各种工具能力, 来供 OpenClaw 来调度, 在需要时 OpenClaw 会调用相关工具来完成各类工作, 并将工具调用结果返回给大模型

  2. 接口控制层、消息通讯渠道: 这边其实就是针对各种场景、IM, 来做一些兼容处理, 使得能够顺利接入网关。

二、握手流程

参考文档: Gateway 网关协议 - 握手

如下图所示:

  1. 当客户端与 OpenClaw 网关连接建立后
  2. 网关会立刻发送 connect.challenge 事件(消息)
  3. 客户端需要紧接着发送 connect 请求(含鉴权信息)
  4. 网关层鉴权成功则返回 hello-ok 响应, 否则则关闭连接

image

如下代码所示, 是一个最简化的 DEMO:

import WebSocket from 'ws';
// 1. 建立连接
const ws = new WebSocket('ws://127.0.0.1:18789'); 

ws.on('message', (data) => {
  const msg = JSON.parse(data.toString());

  // 2. 网关发送 connect.challenge 事件(消息)
  if (msg.type === 'event' && msg.event === 'connect.challenge') {
    console.log('🔐 receive challenge');

    // 3. 客户端紧接着发送 connect 请求(含鉴权信息)
    ws.send(JSON.stringify({
      id: '1', // 唯一 ID 客户端自己随便写即可
      type: 'req', 
      method: 'connect',
      params: {
        minProtocol: 3,
        maxProtocol: 3,
        client: {
          id: 'cli', 
          version: '1.0.0',
          platform: 'node',
          mode: 'node',
        },
        role: 'operator',
        scopes: [
          'operator.read',
          'operator.write',
          'operator.admin',
          'operator.approvals',
          'operator.pairing',
        ],
        auth: { token: '9e1a21f5555asdsads555666666666df3f81' }, // 换成你自己的 OpenClaw 登陆 Token
      },
    }));
  }

  // 4. 网关层鉴权成功则返回 hello-ok 响应
  if msg.payload?.type === 'hello-ok') {
    console.log('🎉 connected success');
  }
});

// 其他事件
ws.on('open', () => console.log('✅ connected'));
ws.on('close', () => console.log('✅ connected'));

使用 Node 运行结果如下:

image

三、简单通信

上面我们简单演示了和 OpenClaw 网关建立握手连接, 但是实际上还缺了设备鉴权、授权这部分内容, 如果想要调用一些操作就需要把这部分补全...

3.1 设备身份鉴权

这边其实就是:

  • 根据 OpenClaw 自己的一套加密方式, 在客户端生成唯一设备 ID、公钥、私钥
  • 在握手阶段认证阶段, 需要按 OpenClaw 定义的规则, 生成相关的签名、设备信息, 一同传给网关层
  • 并且在首次设备连接时, 需要在 OpenClaw 进行设备的授权
  • 需要注意的是: 我们生成的设备 ID、公钥、私钥, 应该是固定不变的, 不应该每次都动态生成(实际场景中, 我们需要进行缓存, 或者加到服务配置中)

下面是一份完整的设备信息、签名生成代码:

import crypto from 'node:crypto';
import fs from 'fs';

const ED25519_SPKI_PREFIX = Buffer.from('302a300506032b6570032100', 'hex');

// base64url 编码
const base64UrlEncode = (buf) => buf.toString('base64').replaceAll('+', '-')
  .replaceAll('/', '_')
  .replace(/=+$/g, '');

// 从 PEM 格式的公钥中提取原始公钥数据,并进行 base64url 编码
const derivePublicKeyRaw = (publicKeyPem) => {
  const key = crypto.createPublicKey(publicKeyPem);
  const spki = key.export({ type: 'spki', format: 'der' });

  if (
    spki.length === ED25519_SPKI_PREFIX.length + 32 &&
    spki.subarray(0, ED25519_SPKI_PREFIX.length).equals(ED25519_SPKI_PREFIX)
  ) {
    return base64UrlEncode(spki.subarray(ED25519_SPKI_PREFIX.length));
  }

  return base64UrlEncode(spki);
};

// 从原始公钥数据派生设备 ID,通常是公钥的 SHA-256 哈希值
const deriveDeviceIdFromPublicKey = (publicKeyRawBase64Url) => crypto
  .createHash('sha256')
  .update(Buffer.from(publicKeyRawBase64Url, 'base64url'))
  .digest('hex');

// 创建网关设备身份,包括生成密钥对和设备 ID
const createGatewayDeviceIdentity = () => {
  // 如果已经存在设备身份文件,则直接读取并返回
  if (fs.existsSync('./device_identity.json')) {
    const content = fs.readFileSync('./device_identity.json', 'utf-8');
    return JSON.parse(content);
  }

  const { privateKey, publicKey } = crypto.generateKeyPairSync('ed25519');

  const privateKeyPem = privateKey.export({ type: 'pkcs8', format: 'pem' }).toString();
  const publicKeyPem = publicKey.export({ type: 'spki', format: 'pem' }).toString();
  const publicKeyRaw = derivePublicKeyRaw(publicKeyPem);
  const deviceId = deriveDeviceIdFromPublicKey(publicKeyRaw);

  const identity = {
    deviceId,
    privateKeyPem,
    publicKeyPem,
    publicKeyRaw,
  };

  // 将生成的设备身份信息保存到文件中,供后续使用
  fs.writeFileSync('./device_identity.json', JSON.stringify(identity, null, 2), 'utf-8');

  return identity;
};

// 构建设备认证信息,包括生成签名等
export const buildDeviceAuthPayloadV3 = (params) => [
  'v3',
  params.deviceId,
  params.clientId,
  params.clientMode,
  params.role,
  params.scopes.join(','),
  String(params.signedAtMs),
  params.token ?? '',
  params.nonce,
  params.platform ?? '',
  params.deviceFamily ?? '',
].join('|');

// 使用设备的私钥对认证负载进行签名,生成 base64url 编码的签名字符串
export const signDevicePayload = (privateKeyPem, payload) => crypto.sign(null, Buffer.from(payload, 'utf8'), privateKeyPem).toString('base64url');

// 构建网关设备认证信息,供连接网关时使用
export const buildGatewayDeviceAuth = (params) => {
  const signedAt = Date.now();
  const identity = createGatewayDeviceIdentity();

  const payload = buildDeviceAuthPayloadV3({
    deviceId: identity.deviceId,
    clientId: params.clientId,
    clientMode: params.clientMode,
    role: params.role,
    scopes: params.scopes,
    signedAtMs: signedAt,
    token: params.token,
    nonce: params.nonce,
    platform: params.platform,
    deviceFamily: params.deviceFamily,
  });

  const signature = signDevicePayload(identity.privateKeyPem, payload);

  return {
    signedAt,
    signature,
    nonce: params.nonce,
    id: identity.deviceId,
    publicKey: identity.publicKeyRaw,
  };
};

下面是完整连接 OpenClaw 网关代码, 这边调用 buildGatewayDeviceAuth 来生成设备签名等信息:

import WebSocket from 'ws';
import { buildGatewayDeviceAuth } from './device.mjs';

const REQUESTED_SCOPES = ['operator.admin'];
const CLIENT = {
  id: 'cli',
  version: '1.0.0',
  platform: 'node',
  mode: 'node',
  deviceFamily: 'desktop',
};

const GATEWAY_TOKEN = 'your-real-token';
const ws = new WebSocket('ws://127.0.0.1:18789');

ws.on('message', (data) => {
  const msg = JSON.parse(data.toString());

  // 1️⃣ 先接 challenge
  if (msg.type === 'event' && msg.event === 'connect.challenge') {
    console.log('🔐 receive challenge', msg.payload);
    const device = buildGatewayDeviceAuth({
      role: 'operator',
      nonce: msg.payload?.nonce ?? '',
      token: GATEWAY_TOKEN,
      clientId: CLIENT.id,
      clientMode: CLIENT.mode,
      scopes: REQUESTED_SCOPES,
      platform: CLIENT.platform,
      deviceFamily: CLIENT.deviceFamily,
    });

    ws.send(JSON.stringify({
      type: 'req',
      id: '1',
      method: 'connect',
      params: {
        device,
        minProtocol: 3,
        maxProtocol: 3,
        client: CLIENT,
        role: 'operator',
        scopes: REQUESTED_SCOPES,
        auth: { token: GATEWAY_TOKEN },
      },
    }));
  }

  // 2️⃣ connect 成功
  if (msg.payload?.type === 'hello-ok') {
    console.log('🎉 connected success');
  }

  console.log('👀 receive message', msg);
});


// 其他事件
ws.on('open', () => console.log('✅ connected'));
ws.on('close', () => console.log('✅ connected'));

执行上面连接 OpenClaw 脚本, 连接能够成功, 同时还会提示需要配对:

image

进入 OpenClaw 容器内部, 进行设备授权:

docker exec -it openclaw bash # 进入 openclaw 容器
openclaw devices list # 查看当前设备连接情况
openclaw devices approve b5950461-e541-4114-9165-413fb3e7afe2 # 授权设备 b5950461-e541-4114-9165-413fb3e7afe2

image

3.1 发起对话

如下代码所示:

  • 在连接 OpenClaw 网关成功之后, 1秒 后我们立马发起一轮对话
  • 发送对话本质上其实就是调用 webSocket.send 方法, 并定义合适的 methodparams 等参数
  • 最后我们再通过监听 message 类型, 来获取大模型输出内容
// connect 成功
if (msg.payload?.type === 'hello-ok') {
  console.log('🎉 connected success');

  // 发 chat
  setTimeout(() => {
    ws.send(JSON.stringify({
      type: 'req',
      id: Math.random().toString(16),
      method: 'chat.send',
      params: {
        sessionKey: 'agent:main:main',
        message: '你好,世界!',
        idempotencyKey: Math.random().toString(16), // 确保消息幂等, 避免重复发送
      },
    }));
  }, 1000);
}

// 接收消息
if (msg.type === 'event' && msg.event === 'agent') {
  console.log('💬 receive message', msg.payload);
}

最终执行代码结果如下:

image

3.2 查询可用模型列表

开始前我们写一个通用的工具函数 sendRpc, 在 OpenClaw 都是同 webSocket 来发起各种请求, 那么要如何去监听到每次请求的响应呢? 如下代码所示, 其实我们在使用 send 来模拟发起一个请求时会给一个唯一的请求 ID, OpenClaw 处理完请求后, 将响应接口加请求 ID 一起推送给我们, 通过该唯一请求 ID 我们就可以精准获取到我们需要的响应结果。

const sendRpc  = (ws, method, params = {}) => {
  // 每次发送请求都生成一个唯一的 ID,方便后续匹配响应
  const id = crypto.randomUUID();
  console.log('📤 send request', { id, method, params });

  ws.send(
    JSON.stringify({
      type: 'req',
      id,
      method,
      params,
    }),
  );

  const handleResponse = (data) => {
    const msg = JSON.parse(data.toString());

    // 匹配指定请求 ID 的响应
    if (msg.type === 'res' && msg.id === id) {
      console.log('📩 receive response', JSON.stringify(msg, null, 4));
      ws.off('message', handleResponse); // 收到对应 ID 的响应后取消监听
    }
  };

  ws.on('message', handleResponse); // 监听响应消息, 收到对应 ID 的响应后会取消监听
};

上面方法调用也很简单,

sendRpc(ws, 'models.list', {});

如果需要我们也可以将工具函数改为 Promise 形式

const sendRpc  = (ws, method, params = {}) => new Promise((resolve) => {
  // 每次发送请求都生成一个唯一的 ID,方便后续匹配响应
  const id = crypto.randomUUID();
  console.log('📤 send request', { id, method, params });

  ws.send(
    JSON.stringify({
      type: 'req',
      id,
      method,
      params,
    }),
  );

  const handleResponse = (data) => {
    const msg = JSON.parse(data.toString());

    // 匹配指定请求 ID 的响应
    if (msg.type === 'res' && msg.id === id) {
      console.log('📩 receive response', JSON.stringify(msg, null, 4));
      ws.off('message', handleResponse); // 收到对应 ID 的响应后取消监听
      resolve(msg); // 将响应结果通过 Promise 返回
    }
  };

  ws.on('message', handleResponse); // 监听响应消息, 收到对应 ID 的响应后会取消监听
});

这样就可以使用 await 来等待每次请求响应结果:

await sendRpc(ws, 'models.list', {});

最后在上文的 Demo 基础上, 在连接 OpenClaw 网关后 1秒 尝试调用 sendRpc 来查询下当前可用模型列表:

// connect 成功
if (msg.payload?.type === 'hello-ok') {
  console.log('🎉 connected success');

  // 发 chat
  setTimeout(() => {
    sendRpc(ws, 'models.list', {});
  }, 1000);
}

最后执行结果:

node demo/index.mjs
✅ connected
🔐 receive challenge { nonce: '7f083827-7e61-4b97-84d5-7c075fd191b2', ts: 1775445486797 }
🎉 connected success
📩 receive response {
    "type": "res",
    "id": "b829d02e-fcfb-45ee-b70c-25e2808bed29",
    "ok": true,
    "payload": {
        "models": [
            {
                "id": "gpt-5.1",
                "name": "GPT-5.1",
                "provider": "openai-codex",
                "contextWindow": 272000,
                "reasoning": true,
                "input": [
                    "text",
                    "image"
                ]
            }
        ]
    }
}

四、OpenClaw 所有协议

所有 WebSocket 消息定义在 src/gateway/protocol/schema/frames.ts 中, 总的来说有三个大类:

类型 type 用途
Request "req" 客户端发起请求(含 id, method, params)
Response "res" 服务端对请求的响应(含 id, ok, payload/error)
Event "event" 服务端主动推送事件(含 event, payload, seq)

4.1 常见 RPC 方法

OpenClaw 通过 WebSocketextensions/whatsapp/src/shared.ts 实现了 100 多个可用的 RPC 方法:

# 方法名 分类 说明
1 health 系统 获取网关健康状态
2 doctor.memory.status 系统 内存诊断状态
3 logs.tail 系统 获取日志尾部
4 channels.status 频道 获取所有频道状态
5 channels.logout 频道 登出频道
6 status 系统 获取完整网关状态
7 usage.status 用量 获取使用状态
8 usage.cost 用量 获取使用费用
9 tts.status TTS TTS 状态
10 tts.providers TTS 列出 TTS 提供商
11 tts.enable TTS 启用 TTS
12 tts.disable TTS 禁用 TTS
13 tts.convert TTS 文本转语音
14 tts.setProvider TTS 设置 TTS 提供商
15 config.get 配置 获取配置
16 config.set 配置 设置配置
17 config.apply 配置 应用配置
18 config.patch 配置 补丁更新配置
19 config.schema 配置 获取配置 Schema
20 config.schema.lookup 配置 查找配置 Schema
21 exec.approvals.get 执行批准 获取执行批准列表
22 exec.approvals.set 执行批准 设置执行批准列表
23 exec.approvals.node.get 执行批准 获取节点执行批准
24 exec.approvals.node.set 执行批准 设置节点执行批准
25 exec.approval.request 执行批准 请求执行批准
26 exec.approval.waitDecision 执行批准 等待批准决定
27 exec.approval.resolve 执行批准 解决执行批准
28 plugin.approval.request 插件批准 请求插件批准
29 plugin.approval.waitDecision 插件批准 等待插件批准决定
30 plugin.approval.resolve 插件批准 解决插件批准
31 wizard.start 向导 启动配置向导
32 wizard.next 向导 向导下一步
33 wizard.cancel 向导 取消向导
34 wizard.status 向导 获取向导状态
35 talk.config Talk 获取 Talk 配置
36 talk.speak Talk Talk 说话
37 talk.mode Talk 设置 Talk 模式
38 models.list 模型 列出可用模型
39 tools.catalog 工具 获取工具目录
40 tools.effective 工具 获取有效工具
41 agents.list 代理 列出代理
42 agents.create 代理 创建代理
43 agents.update 代理 更新代理
44 agents.delete 代理 删除代理
45 agents.files.list 代理 列出代理文件
46 agents.files.get 代理 获取代理文件
47 agents.files.set 代理 设置代理文件
48 skills.status 技能 获取技能状态
49 skills.bins 技能 获取技能二进制
50 skills.install 技能 安装技能
51 skills.update 技能 更新技能
52 update.run 更新 运行网关更新
53 voicewake.get 语音唤醒 获取唤醒配置
54 voicewake.set 语音唤醒 设置唤醒配置
55 secrets.reload 密钥 重新加载密钥
56 secrets.resolve 密钥 解析密钥引用
57 sessions.list 会话 列出会话
58 sessions.subscribe 会话 订阅会话变化
59 sessions.unsubscribe 会话 取消订阅会话变化
60 sessions.messages.subscribe 会话 订阅会话消息
61 sessions.messages.unsubscribe 会话 取消订阅会话消息
62 sessions.preview 会话 预览会话
63 sessions.create 会话 创建会话
64 sessions.send 会话 发送消息到会话
65 sessions.abort 会话 中止会话
66 sessions.patch 会话 修补会话
67 sessions.reset 会话 重置会话
68 sessions.delete 会话 删除会话
69 sessions.compact 会话 压缩会话
70 last-heartbeat 心跳 获取最后心跳
71 set-heartbeats 心跳 设置心跳
72 wake 系统 唤醒网关
73 node.pair.request 节点配对 请求节点配对
74 node.pair.list 节点配对 列出配对请求
75 node.pair.approve 节点配对 批准配对
76 node.pair.reject 节点配对 拒绝配对
77 node.pair.verify 节点配对 验证配对
78 device.pair.list 设备配对 列出设备配对
79 device.pair.approve 设备配对 批准设备配对
80 device.pair.reject 设备配对 拒绝设备配对
81 device.pair.remove 设备配对 移除设备配对
82 device.token.rotate 设备令牌 轮换设备令牌
83 device.token.revoke 设备令牌 撤销设备令牌
84 node.rename 节点 重命名节点
85 node.list 节点 列出节点
86 node.describe 节点 描述节点信息
87 node.pending.drain 节点队列 排空待处理队列
88 node.pending.enqueue 节点队列 入队待处理工作
89 node.invoke 节点 调用节点命令
90 node.pending.pull 节点队列 拉取待处理工作
91 node.pending.ack 节点队列 确认待处理工作
92 node.invoke.result 节点 节点调用结果
93 node.event 节点 节点事件
94 node.canvas.capability.refresh 节点 刷新画布能力
95 cron.list Cron 列出定时任务
96 cron.status Cron 获取定时任务状态
97 cron.add Cron 添加定时任务
98 cron.update Cron 更新定时任务
99 cron.remove Cron 移除定时任务
100 cron.run Cron 立即运行定时任务
101 cron.runs Cron 获取运行历史
102 gateway.identity.get 网关 获取网关身份
103 system-presence 系统 获取系统存在
104 system-event 系统 系统事件
105 send 消息 发送消息到频道
106 agent 代理 调用代理
107 agent.identity.get 代理 获取代理身份
108 agent.wait 代理 等待代理完成
109 chat.history WebChat 获取聊天历史
110 chat.abort WebChat 中止聊天
111 chat.send WebChat 发送聊天消息
112 web.login.start WhatsApp 启动 Web 登录流程
113 web.login.wait WhatsApp 等待 Web 登录完成

4.2 常见推送事件类型

OpenClaw 通过 WebSocketsrc/gateway/server-broadcast.ts 定义了 20 多个可用的事件推送类型:

事件名 说明 权限范围
connect.challenge 连接握手挑战 -
tick 心跳 (含时间戳) -
heartbeat 保活 -
shutdown 网关关闭 (含 reason) -
health 健康状态更新 -
presence 系统存在更新 -
session.message 会话消息推送 operator.read
session.tool 工具调用事件 operator.read
sessions.changed 会话列表变化 operator.read
chat 聊天流式响应 (含 state: delta/final/aborted/error) -
chat.side_result 聊天副作用结果 -
agent 代理流式输出 -
node.pair.requested 节点配对请求 operator.pairing
node.pair.resolved 节点配对已解决 operator.pairing
node.invoke.request 节点调用请求 -
device.pair.requested 设备配对请求 operator.pairing
device.pair.resolved 设备配对已解决 operator.pairing
exec.approval.requested 执行批准请求 operator.approvals
exec.approval.resolved 执行批准已解决 operator.approvals
plugin.approval.requested 插件批准请求 operator.approvals
plugin.approval.resolved 插件批准已解决 operator.approvals
voicewake.changed 语音唤醒变化 -
talk.mode Talk 模式变化 -
cron Cron 任务事件 -
update.available 更新可用通知 -

五、参考

腾讯「八虾夺嫡」内幕:一只龙虾,怎么成了全村的希望

99 年生的张舒昱,是腾讯电脑管家团队入职不久的产品经理,这在腾讯算不上核心业务线。

今年 1 月 OpenClaw 刚在中国爆火,她着了迷,拉上几个人攒了一个产品原型 QClaw:基于 OpenClaw,一键安装,通过微信直接操控智能体。

项目在腾讯体系里几乎没有存在感,没有立项审批,没有总办资源,几个年轻人凑在一起写代码。

3 月 9 日,QClaw 内测上线。一周之内,数百万用户注册。

然后事情开始失控,惊动了腾讯总办。

高层反应极快,随即调拨数十名员工和计算资源到张舒昱的团队。同日,另一支团队推出了 WorkBuddy,同样兼容 OpenClaw。再隔一天,腾讯港股大涨超过 7%,投资者把涨幅直接归因于这两只虾。

3 月 11 日凌晨 2:06,马化腾发了条朋友圈:「自研龙虾、本地虾、云端虾、企业虾、云桌面虾,安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。」

这对腾讯 11 万员工是一个鲜明的信号,无数员工将其解读为:Pony 支持他们 all in 龙虾

据 The Information 独家报道,截至本月,腾讯内部同时有 8 个团队在开发基于 OpenClaw 的产品和服务。加上在研和内测项目,总数已超过 10 个。

15 年前,腾讯内部三个团队赛跑移动 IM,张小龙的广州研发部跑出了微信,是腾讯史上赛马最成功的一次。这次换了个物种,叫赛虾。

一个 99 年产品经理做的边缘项目,两周之内变成一家万亿市值公司的战略支点,似乎有点不可思议。

张舒昱对 The Information 说了一句大实话:「我们都在用 AI Agent 做实验。此刻,没有人能说什么是最佳方法。」

翻译一下就是:我们也不知道答案,但先跑起来总比站着强。

全村的希望:腾讯为什么把命押在一只虾身上

要理解腾讯对龙虾的狂热,先要直面鹅厂当下在 AI 竞争中的处境。

过去两年,中国 AI 大模型军备竞赛打得昏天暗地。

阿里砸钱做千问,字节孵出豆包,在用户规模和模型能力上都拉开了身位。腾讯呢?手握游戏和微信广告的丰厚利润,但在 AI 赛道上远不及这两个对手激进。

自研的混元大模型尚且无法与竞争对手匹敌,又拖累了自家 AI 助手「元宝」的进展。

腾讯不是没努力。去年请来前 OpenAI 研究员姚顺雨执掌混元研究,重建了研发基础设施。 4 月即将发布的混元新一代模型,业内普遍视为腾讯模型能力的一次摸底考试。

▲姚顺雨. 图片来自:智源社区

但远水解不了近渴,在新模型交卷之前,缺乏强大的内部模型,让元宝在与豆包和千问的竞争中暂时落于下风。

所以当 OpenClaw 在中国引爆了 Agent 热潮,腾讯高层几乎是本能地抓住了这根绳子。这只龙虾证明了 AI 的下一个爆发点未必在聊天框里,可能在桌面上,在工具里,在无数个能替你干活的智能体身上。

腾讯高层的判断很清晰: OpenClaw 引发的这一轮 Agent 浪潮,将是 AI 战场重新洗牌的机会

他们逻辑是这样的,如果腾讯能通过将 OpenClaw 类Agent 能力与微信深度整合,提供配套工具和服务,成为中国最好的 Agent 使用平台,那么即便其内部大模型不是最强大的、AI助手也不是最受欢迎的,腾讯依然有可能在 AI 下半场逆风翻盘。

2020 年,马化腾在腾讯内部将视频号称为「全村的希望」,寄望于它在短视频赛道上扳回一城。如今,「全村的希望」换了物种。

区别在于,视频号好歹是亲生的,龙虾来自一个奥地利独立开发者的 GitHub 。

某种意义上,这更像是 2014 年纳德拉接手微软后做做的事,承认在移动互联网上输了,放下「什么都要自己做」的控制欲,押注一条全新赛道。

纳德拉用了十年,腾讯希望快一点。

八虾夺嫡,腾讯赛虾背后

外界把多团队并行理解为经典赛马机制,腾讯内部更愿意说「多样性」。QClaw 和 WorkBuddy 是最先冒头的两只虾,路线截然不同。

QClaw 是张舒昱从电脑管家边缘团队杀出来的,直接拥抱 OpenClaw 开源生态,做微信一键安装,野蛮生长。设计理念就四个字:打开即用。不需要配置环境,不需要懂终端命令,微信扫一下就能让 AI 接管你的电脑。

▲张舒昱. 图片来自:南京审计大学

WorkBuddy 则走了一条完全不同的路。负责人汪晟杰在接受 APPSO 采访时反复强调一件事:百分百自研,没用过一行 OpenClaw 源码

它走半自动化路线,避开了 OpenClaw「透传」模式下信息暴露在公网上的风险,采用 bot 推送通知模型,每一步关键操作都需要用户确认。汪晟杰的定义很明确:龙虾是一个概念,不等于 OpenClaw。WorkBuddy 要做的是安全可控的龙虾,企业能放心用的龙虾。

汪晟杰透露了一个时间细节:WorkBuddy 在 1 月 17 号那个周末就已启动,三四个人通宵做出 MVP(最小化可行产品),原计划 3 月 16 日发布。看到龙虾热潮后提前了一周,撞上了 QClaw 同期发布。

▲ 汪晟杰.

也就是说,腾讯并非在 OpenClaw 火了之后才匆忙跟进。多个团队在不同时间点嗅到了同一个机会,OpenClaw 的爆火更像催化剂,把水面下的项目一夜之间推上了前台。

但赛虾机制的矛盾也摆在桌上。

QClaw 和 WorkBuddy 功能高度重叠,都能通过微信操控 AI 智能体,用户该选哪个?8 支团队同时跑,资源会不会内耗?

答案藏在张舒昱那句话里:「此刻没人知道什么是最佳方法。」8 支团队同时下场,与其说是信心爆棚,不如说谁都没有把握

腾讯选择用数量对冲不确定性,多条路线同时跑,押中一条就够了。

赛马机制的精髓从来都是:靠数量提高命中概率。15 年前微信就是这么跑出来的。

马化腾的养虾哲学

赛虾的前提是有虾可赛,但这只虾不归腾讯管。

3 月 12 日,OpenClaw 创始人 Peter Steinberger 在 X 上公开批评腾讯,矛头直指腾讯的 SkillHub 服务复制了社区 Skills 却没有做出任何贡献。

两天后,腾讯通过 GitHub 捐款,随后被列为特色赞助商,与 OpenAI 并列。在上周英伟达 GTC 大会上,腾讯云 CEO 汤道生当面约见 Steinberger,提出由腾讯云贡献服务器和安全服务,并探讨与 OpenClaw 基金会更深层的合作。

中国市值最高的互联网公司之一的高级副总裁,飞到圣何塞跟一个开源项目创始人坐下来谈合作。在腾讯历史上几乎没有先例。当你需要别人的东西比别人需要你的东西更急迫时,身段自然就放下来了。

同一周的财报发布会上,腾讯总裁刘炽平宣布 2026 年将 AI 新产品的投资至少翻倍,从去年的 180 亿元起步。而在阐述钱花到哪里时,他只点了三个名字:混元、元宝、以及最新的 Claw 产品

一个月前还是边缘项目的龙虾,一跃与腾讯自研大模型和旗舰 AI 应用并列。龙虾从「大家自己玩玩」正式升格为「公司战略」

马化腾最近在财报会议上的发言,进一步回答了一个更本质的问题:腾讯想用龙虾做什么

他的切入角度直接跳过了产品层面,落在生态上。

马化腾认为龙虾类应用有记忆和个性,更像助理,带有「活人感」,能让 AI 落地到办公、终端、小程序等各种场景中,不再全部挤在 chatbot 这条独木桥上。

但真正耐人寻味的是他关于「去中心化」的论述。微信本身是中心化的 App,但微信生态是去中心化的,数十万小程序商家构成了开放平台。马化腾认为 AI Agent 天然具有去中心化特征,可以融入微信生态。有一句话特别关键:

所有服务商的心态都是怕被 AI 智能体「短路化」「渠道化」。

意思是,他不想让 AI Agent 变成一个新的中间商,把微信里的服务商变成纯粹的后端 API。他想让小程序保留独立性,同时具备 AI 能力。「每一个小程序都可以智能化和龙虾化。

这个思考比「我们也做龙虾」高出一个维度。马化腾看到的是一种范式转移的可能:AI 的价值分配方式,从「一个超级 chatbot 统治一切」变成「无数分布式智能体各显神通」。

如果这个判断成立,拥有全球最大通讯生态和最活跃小程序平台的微信,天然就是 Agent 时代最肥沃的土壤

刘炽平在财报会上把这套逻辑做了明确的总结:「Claw 提出了一种去中心化的模型……有段时间,似乎每个人都在争夺成为 AI 智能体唯一的入口和垄断者。但现实并非如此。」

一句话概括腾腾讯的押注逻辑:模型之争输了一局,但生态之争的牌还没摊开

当然,这套叙事也可以被翻译成另一句话:我们模型不够强,所以告诉你们模型没那么重要。

自洽和自欺之间,有时候只隔一层窗户纸。但关键在于,这一次腾讯确实有牌可打。微信不需要成为最强大模型的容器,只需要成为最好用的 Agent 运行环境

这和纳德拉的 Azure 逻辑如出一辙,你不需要自己做出最好的 AI,你只需要让最好的 AI 都跑在你的云上。

养虾产品全景图,腾讯到底下了多少注

腾讯的「养虾」远不止做几个 C 端产品那么简单。腾讯周五公布了「养虾产品全景图」,这套从底层到应用层的完整龙虾矩阵,密度超出外界预期。

消费级产品打头阵。QClaw 主打微信一键安装,面向普通用户;WorkBuddy 走桌面端自研路线,强调安全可控;微信 ClawBot 负责让用户在微信聊天界面直接操控龙虾。

三个产品覆盖了「小白用户一键上手」「桌面深度使用」「微信生态无缝接入」三个核心场景。光是消费级这一层,腾讯就同时铺了三条路。

企业级产品紧随其后。ClawPro 面向企业和政务客户,主打安全隔离和精细权限管控,企业微信独占通道,账号权限分级,内置技能审核机制,代码生成类操作要过审,网页搜索走安全网关。

汤道生在腾讯云峰会上重点推介了 ADP(智能体开发平台),定位是企业构建定制化 Agent 的工具箱。配合 Claw Runtime 提供安全沙箱运行环境,Lighthouse 做安全管理。

整套企业方案的逻辑很清晰:OpenClaw 太野了,我帮你把它关进笼子里。

开发者生态也没落下。CodeBuddy 是去年下半年就上线的 AI 编程助手,现在被纳入龙虾矩阵成为开发者入口;SkillHub 是 AI 技能社区,做了本土化适配,也正是因为这个产品被 Steinberger 点名批评后才有了后面那笔捐款。TokenHub 则是模型服务市场,不光接混元,也接 DeepSeek、MiniMax、Kimi 等第三方模型,统一计费。

腾讯连「卖铲子」的生意都想好了。

从这张全景图可以看出,腾讯不想只在产品上做单点突破,要做一整条龙虾产业链——从安装到运行,从个人到企业,从消费到开发,每个环节都有人盯着。

这正是汤道生反复强调的「Harness 工程」思路:Agent 时代的胜负手不在模型本身,在于脚手架。工具调用、上下文工程、长期记忆管理、工作流设计,这些看起来不性感的苦活,才是决定 Agent 好不好用的关键变量。

汤道生在腾讯云上海峰会上表示:「AI 落地不只是算法题,Harness 工程能力是关键变量。不同的脚手架设计,会显著影响实际使用效果和 token 成本。」

翻译成人话就是:模型是发动机,但没有底盘和方向盘,跑不了多远。腾讯模型暂时跑不过别人,但如果能把底盘和方向盘做到最好,照样能赢。

虾潮退去之后

把所有线索串起来,这个故事可以被浓缩成一句话:腾讯用一家大公司能调动的所有资源,去拥抱了一个自己无法控制的开源项目

这是一个充满张力的姿态。

OpenClaw 的更新节奏是每周两三个版本,API 说改就改,Breaking Changes 说来就来。Peter 点一下 merge,深圳大厦里好几支产品团队可能就要通宵救火。腾讯把战略命脉系于别人的 GitHub 仓库上,这需要的不只是勇气,还有一种前所未有的谦逊。

但换个角度想,腾讯可能也没有更好的选择了。

如果继续只在模型和 chatbot 赛道上硬碰硬,不是陪跑就是陷入同质化厮杀。但 Agent 浪潮撕开了一条新缝隙:谁能把 AI 变成最好用的工具,谁就能重新定义入口

微信有 14 亿月活,有小程序生态,有支付,有社交关系链。这些东西造不出最强模型,但能造出最好的 Agent 使用环境,这是腾讯手里唯一一张别人没有的牌。

问题在于,这张牌的有效期有多长。

OpenClaw 仍在快速迭代,生态远未定型。今天的龙虾热,会不会像去年的 Manus 一样来得快去得也快?8 支团队赛虾,会跑出下一个微信,还是跑出 8 个半成品?马化腾的「去中心化 Agent 生态」蓝图很美,但从蓝图到现实之间,还有需要经历多少次「技术事故」?

不过,有一件事是确定的。

当一家公司的 CEO 凌晨两点发朋友圈,总裁在财报会上把龙虾和自研模型并列,高级副总裁飞到美国去约见开源项目创始人,8 支团队同时下场赛虾,AI 投资直接翻倍,它就已经不是在追热点了,它在押注这家公司的未来。

赌的不是这只虾能活多久。赌的是在 AI 重构一切的十年里,腾讯还能不能坐在牌桌上,以及坐在什么位置

视频号当年也被叫做「全村的希望」。五年过去了,它还没打败抖音,但在微信生态内长出了自己的活法。龙虾能不能也走出第三条路?答案还早。

不过,当一个巨头被逼到墙角,终于想清楚自己要什么,把资源砸向同一个方向的时候,你永远不能低估它。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Floatboat 体验:一个人的公司,只需要一个办公软件

过去两年,我们每天都在做同一件事:学习和进修「提示词工程」这门玄学。

找 AI 干活,总要像个碎碎念的甲方一样,交代八百字背景,像是在哄一个智商奇高、但每天都会间歇性失忆的实习生。

这让我想起在游戏里,施展出必杀技之前,总是会有一个类似「前摇」或者「吟唱」的过程。某种程度上,写提示词,提供上下文,上传各种文件等等……就是使用 AI 的「前摇」。

不是说用户每次都要做到极致,只是如果你能给足这些前置条件的话,AI 会做的更好。

不过,前段时间 APPSO 在中关村的一场线下聚会看到了一个还在测试中的 AI 办公产品——它很大程度上摒弃了对「前摇」的依赖。

产品名字叫 Floatboat。

Floatboat 的联合创始人兼 CEO 少卿走到台上,打开 Floatboat,选中一个文件夹,里有一个 CSV 表格,是一份参加本次活动的嘉宾名单。他在旁边的 AI 对话框里说了一句:生成邀请函。

过了一会,每位嘉宾的邀请函都出现了。

到这里为止都还好,把表格丢给 ChatGPT、Claude、WorkBuddy、悟空………任何一个今天的 AI,写一句指令,大概率也能做到差不多的事情——但接下来发生的,让我愣了一下。

有一位新嘉宾确认出席了,少卿说,「在表里更新一下」。

CSV 更新了;紧接着,一封新的邀请函也自动生成了。

我坐在那里花了两秒钟,试图理解刚刚发生了什么:

Floatboat 它知道这份表格和邀请函之间,知道「更新表格」和「生成邀请函」两个动作之间,是有关系的。所以少卿只说了前半句,后半句没说出来,它自己悟出来了。

AI 不再是等待指令的工具,变得越来越积极、主动,会动脑子,像一个一直给你打下手的小朋友,你说「更新一下」,他知道你的意思。

这个瞬间让我开始认真看这个产品。

简单,但又无法简单定义的产品

Floatboat 是什么?我试着给它一个定义,发现很困难。

它有一个长得像 macOS Finder 的文件管理器,你可以浏览本地文件、打开 iCloud Drive;文件格式支持得很全,Markdown、CSV、Excel、Word、图片、视频,都能直接预览,甚至编辑;

它有一个内置浏览器,可以打开任何网页,甚至可以让 Agent 去操作这些网页;

它有一个 AI 对话界面,底层可以接 Gemini 或其他模型。这么看来它有点像 Claude 的桌面端,但又比 Cowork 多一些更直观的操作逻辑。

这三个东西,文件、浏览器、对话,以面板的形式并排在一起,可以随意拖拽组合,最多四栏并排。

你在浏览器里看到一张有用的图,可以直接拖到本地文件夹里保存;你让 AI 生成了一份报告,报告会直接写入本地文件,以 .md 或 .docx 格式保存,并且你可以直接编辑这些文件,不需要 cmd-c 再 cmd-v 到另一个地方。

信息从各个方向流进这个环境里,加工过的内容也能流出去,不会被锁死在某一个面板里。

所以 Floatboat 到底是什么?是文件管理器?是浏览器?是 AI 聊天工具?是氛围编程环境?

它都是,又不完全是。

在 Floatboat 出现之前,我们其实一直在做不同软件之间的「人肉 API」,每天按几百次复制粘贴,打开不同的软件或浏览器窗口、编辑不同的文件。

在 AI 世代在线办公的我们,成了在窗口与窗口之间疲于奔命的赛博搬运工。

而 Floatboat 打破了软件之间的墙,让所有的窗口都能共享同一份上下文。

开发团队给产品的定义是「工作环境」而非「AI 助手」。助手是你要求它才动的,工作环境是一直在那里的,你在里面做事,它一边帮你做事一边观察和学习。

在沟通会上,有人问少卿:一句话形容你们的产品?

少卿反问:你能一句话形容 ChatGPT 吗?

大家会心一笑。我觉得他说的有道理。有些东西确实不是一句话能装下的,除非你做的是一个非常垂直的工具。Floatboat 显然不打算做垂直。

做科技记者这些年,我经历过好几代这样的产品。最早是电子邮件加 Office 套件的时代,后来是各种 OA 系统,再后来钉钉来了、飞书来了、Slack 来了。

每一代都有一个产品,或者一类产品,它们有着同一句潜台词,对你发出强有力的暗示或者明示:上班,用我就够了。

而在 AI 时代,Floatboat 想要成为这个角色。

这么说不是在拔高它。恰恰相反,这个位置历史上从来没有人真正坐稳过。飞书解决了团队协同,但文档操作仍然需要 Office 套件。钉钉把审批这个工作做到了极致,但打工人私下用微信聊工作的习惯从来没变过。

「一统江湖」这件事,每一代都有产品在尝试,但从来没人真的实现过。

原因是结构性的:这类产品想要成功,需要整个组织一起换过来。而组织的惯性,是所有惯性里面最大的。你一个人觉得飞书好没用,你的团队、你的客户、你的供应商都得觉得好才行。

Floatboat 的策略有一个不同:它不面向组织,它面向个人。

这个产品的目标人群,也正是时下最流行的概念:OPC,全称 One Person Company/一人公司。

过去一年 AI 能力的跃进,让 OPC 这个前两年的口号,逐渐变得越来越现实和可行。一个人,加上三五个 agent, 几乎可以对等一个小的草创阶段的业务和支持团队。无论是自媒体内容创作者,从选题到写稿到排版到分发,还是电商业务,从选品到上架到客服到投流,都已经够用了。

Floatboat 希望能够打动这群人。在 APPSO 的体验中,我们测试了包括内容创作、数据科学等场景,也测试了外部工具接入(例如 Slackbot)等多种场景。对于内容、营销、数据分析、客服等类型的工作,Floatboat 都达到了我们的期待。

现在 AI 产品有两种设计哲学。一种是「你放手,我来」,把用户推到后座上去,Agent 全权接管,跑完了给你看结果。另一种是「你干活,我在旁边」,成为用户的副驾,在适当的时候递工具、提建议。

Floatboat 更接近后者,但又不全是。用 Floatboat 工作,我的体验是:跟 AI 在主驾副驾之间来回切换,畅快自如。

用了一段时间之后,我觉得 Floatboat 的主张是行得通的。至少在现在这个阶段,大多数人对 AI 的信任还没到「你尽管干,我不用看」的程度。你让一个打工人把整份方案交给 AI 自己跑,他会焦虑的睡不着觉……

但如果 AI 是在他的屏幕上、在他的文件夹旁边干活,他看得见过程,能随时纠正,那他会比较安心。

这也是为什么 Floatboat 的界面设计那么像一台传统电脑的桌面,把文件管理器、对话框、浏览器/编辑器都拉出来让你一览无遗:已经认识的东西,能够降低用户对一个新事物的戒备心,提高接受度。

一边工作、一边蒸馏工作

然后再说 Floatboat 做的一个叫 Combo 的功能。

Combo 可以是一个复杂的 skill,也可以是多个 skill 的组合。而在工作的逻辑里,就是把一套工作流打包成一个可复用的操作。

Floatboat 内置了从工作成果中「蒸馏」 combo 的能力——这其实很像 Anthropic 官方的 skill-creator(本身也是一个 skill)。

比如你每周都要做一件事:从网上抓几篇行业报告,提炼摘要,整理成 Markdown 文档,然后推送到 Notion。你第一次在 Floatboat 里手动跟 Agent 对话完成了这套流程之后,对话框下方会出现一个按钮,问你要不要把这轮操作存成一个 Combo。

或者你也可以主动跟 Floatboat 说,「把我们目前的工作里面的方式、思考、逻辑,整理为一个 skill」。

当下次遇到类似任务的时候,Floatboat 会自动把这个 Combo 推荐给你,一键启动。

这里面我觉得最有意思的一点是:你不需要事先「设计」工作流,只需要正常干活就行了。一边干着,一边 Floatboat 就会自己把你的工作习惯、操作方法等「蒸馏」出来,沉淀出一份指导思想。

少卿告诉 APPSO,Combo 能力的设计,是为了实现今天的绝大部分用户对于 agent 产品的那个核心期待:自进化。

「当 agent 能够感知你 80% 的操作的时候,它就有自进化的能力了」,Combo 的自动沉淀机制就是在做这件事的第一步。

兜售「提示词」的时代,快要结束了。你不再需要像个魔法师一样去背诵枯燥的咒语,把提示词保存在一个专门的文件夹或者 AI 工具的后台。通过 Combo,Floatboat 可以让用户把他们每天最经常做的固定动作,提炼成独属于自己的「手艺」和数字资产。

当然,Floatboat 也做了一个 Combo 市场,你做的好用的 Combo 可以上传,别人做的也可以下载。官方也提供了一些现成的。

但这个 Combo 体系仍有不足。

任何一个号称能够一统江湖的办公软件,号称「越用越懂你」的 AI 系统,都仍然存在冷启动的障碍:就好比 Google Docs 的初始简历模板虽然很全很好,但仍然需要每一个求职者去调整修改以适合自己。

Combo 的自动沉淀机制,逻辑上是说得通的:你用得越多,它学得越好,推荐的工作流越贴合你。但这有一个前提:你需要先投入时间从零教它,而大多数人没有这个耐心,他们希望拿来就能用。

作为一位媒体编辑,我的日常工作是阅读大量资料、跟作者沟通选题、改稿子、偶尔自己写长文。这些工作的颗粒度很细,上下文很碎,跟官方预设的那些模板(更偏向标准化的报告生成、数据整理之类)对不上。

在我的具体使用中,我将几种不同的内容生产路径保存成了不同的 Combo:针对外部新闻的快速反应是一种,基于采访 Q&A 提纲的撰写是一种,针对复杂课题的调研、资料的编排、然后进行原创写作,又是另一种。

当然,这不是 Combo 本身的问题。对于绝大多数人,无论他们的工作是文档写作、报表处理、ppt 写作,还是数据整理、行政工作,甚至更加复杂的「一人开发者+marketer+客服」,无论是自己生产 Combo,还是在 Floatboat 的官方 combo 基础上做微调,都足够好用。

AI 工具不是一切工作的万灵药——一个工具把自己宣传得再美好,今天的用户也应该有这样的觉悟。对于 Floatboat,正如前面所说的,它是「工作环境」,它的能力足以强化人,但它的工作效果仍然取决于人。

然后再说说用 Floatboat 和其他「类 Cowork」产品的区别:最大的明显感受,是 Floatboat 的工作流程很快。以文件操作、内容生成为例,在 Gemini 3.1 Pro 模型驱动下的 Floatboat,对文件进行操作(批量重命名/修改格式、填充 markdown 等)的用时,是我平时用 Cowork/Claude Code CLI 的三分之一左右。

Gemini 在「讨好用户」上也是老演员了,所以最近 Floatboat 也加入了 Claude 两个最新版模型,Sonnet 和 Opus 4.6 的支持。

Gemini 对于 Floatboat 主打的大多数办公场景(文案生成、表格处理、信息整理)来说够用,写作效果也还算不错;如果不符合你偏好的话,切到 Claude 模型也没问题。如果你注意到 Floatboat 的迎合意图太强,可以在工作过程中时不时强调一下,不要一味迎合,要对生成的结果,甚至用户的输入做批判性的思考。

以及,你也可以充分利用 Combo 生成的功能,将这些技巧写进 Floatboat 的核心指导思想。

另外一个小设计值得提一句:Floatboat 可以集成到飞书和 Telegram 里,你不打开它的客户端,直接在聊天工具里给它发消息,它就在后台帮你执行任务——这个功能叫 Claw 模式,相信足够你顾名思义了。

 

除了产品本身,Floatboat 团队还在做一件更远的事。

他们开源了一个协议叫 Selfware,核心理念用一句话说就是:A file is an app。

这是什么意思?现在你用 AI 辛辛苦苦做了一份调研报告,发给同事,他收到的是一个 Word 文档或者 .md 文件。文件里有最终结果,但你当时调用了哪些资料、AI 跑了什么逻辑、中间修改了几次、为什么改,这些对于工作最关键的经验,并没有被保存下来。

Selfware 想解决的就是这件事。一个 .self 格式的文件,里面不只有数据,还携带逻辑和结构。你的同事收到之后,可以直接打开、继续编辑、让 Agent 沿着你的思路往下跑。文件自带了工作环境。

这个想法,和目前 AI 开发圈里对 CLAUDE/SKILL.md、cursor rules 这类文件的热情, 属于同一个潮流。大家都在发现,文本文件可以用来「编程」AI 的行为,一个 .md 文件可以定义一个 Agent 的人格、工作方式、输出风格。

但 Selfware 往前又多走了一步:那些 .md 文件是指令,你告诉 Agent 怎么做;Selfware 想做执行单元,文件本身就能运行,而且不依赖于特定平台。

这其实有点像 Jupyter Notebook,把代码、数据、输出打包在一起了;也类似于 Docker,把运行环境做成了可分发的单元——Selfware 把场景换成了 Agent 协作。它不是从零发明的概念,但在 Agent 时代重新提出,确实切中了一个真实的痛点。

不过,协议这种东西,最终看的是采用率。现在 Selfware 主要在 Floatboat 自己的生态里运转。「A file is an app」是个有趣的理念,但从理念到被广泛采用的标准,中间路还很远。

另外值得提一句的是 IACT (Inline Action-Clicked Text),Floatboat 开源的另一个协议。它做的事情更小但很实际:在 Markdown 语法的基础上,直接在 AI 对话生成结果加上可点击的行内 (in-line) 链接/按钮。生成结果中的「可行动内容」将会自动套上这个按钮,用户直接点击就行了。

这个交互改进看着不起眼,用起来确实减少了摩擦。最早做类似体验的应该是 Claude,但 Claude 的很多「好东西」都是闭源的。Floatboat 把 IACT 开源,让其它产品也可以充分利用。

现在一些同类产品比如 WorkBuddy 也在做类似的东西了,但据我了解 Floatboat 是最先提出这个概念并把它协议化的。

工作起来,开心最重要

Floatboat 的名字来自一句英语俗语,whatever floats your boat,大概的意思是「你开心就好」。

少卿说,他们希望产品给人一种在 AI 时代悬浮起来的感觉,不被裹挟着走。

这个愿景挺好的。但 Floatboat 能不能成为这个时代的那个「用我就够了」的产品?老实讲,APPSO 仍然没法给出一个明确的判断。

毕竟大家都看到了:每一代尝试做这件事的办公产品,到了最后,多半成为了工具箱里的工具之一,而非唯一。

但今天下判断,也为时尚早。

一个产品不需要统一所有人的工作方式才算成功。如果它能让一部分人——那些一个人干五个人的活、每天在软件之间当搬运工的「OPC」们,每天省出一个小时来做真正需要动脑子的事,那它就已经值得存在了。

对大多数普通人来说,一家公司的活如果全都一个人干,确实挺累的。

但 Floatboat 让人兴奋的地方在于,它给了一个人也可以是一家公司的从容和底气。

不是所有人都能 OPC,你至少首先需要台好「PC」。而 Floatboat 赌的,就是自己会成为那台 PC。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

专访 vivo 总裁胡柏山:AI 已经很聪明了,vivo 要让它真正看懂世界

今年春节,OpenClaw 火了。短短两个月不到,它又冷下去了——又一场 AI 应用层面的热闹。

热闹散了,没人知道下一个 OpenClaw 是谁,也没人知道这些东西究竟在解决什么问题。

用影像旗舰手机拍下一张夜景当中的人脸,细节清晰到能看见眼眶里的水光。但手机可能并不清楚,主角刚才是否哭泣,也就无法理解这张佳作的情绪背景;再用长焦技能把数百米外的一个路人拉到面前,细节纤毫毕现。但你问手机:这个人是着急赶路,还是在找什么东西?手机仍然不知道。

今天的 agent 能写代码、能操控网页、能把一份 PDF 整理成会议纪要。这些它都做得不错。但这些事情有一个共同点:处理的全是人类已经事先转好格式的信息。文件、数据库、网页,都是数字化过的世界。一旦面对物理世界,一扇门、一段动作、一个表情,它们是失明的。

从今天的大模型,到能真正读懂物理世界的所谓「具身智能」,中间有一道鸿沟,现在没有人说得清楚怎么填。

这道鸿沟,是胡柏山在博鳌亚洲论坛上花了最多时间讲的一件事。

胡柏山是 vivo 总裁兼首席运营官。在博鳌亚洲论坛,他告诉爱范儿,自己有一个很直接的判断:「在明确的物理大模型没有出来之前,要有好的体验,就要把物理世界的信息转化到数字世界。」

他相信,这件事,不仅手机可以做,而且应该用手机去做。甚至在未来十年里,其它设备都很难替代。

拼大脑,没有护城河

过去两年,几乎所有手机厂商都在说「AI 手机」。大模型接入、智能助手升级、端侧算力提升,这些能力以肉眼可见的速度在普及。

去年 DeepSeek 横空出世,今年 OpenClaw 引爆讨论,各家都在抢着把最新的模型能力塞进自己的产品。

这场军备竞赛,有一个必然的结局:大模型的高度商品化、同质化、可替代化。

拼模型能力,没有护城河。

你比友商快三个月上线某大模型,以及大模型驱动的 agent 功能;友商六个月后跟上,用的模型和 agent 能力都比你更强。时间上的领先、花费的金钱和精力,卷出的工时和损耗的员工健康,价值又是什么?

于是,真正的差异化只能在别处找。

vivo 给出的答案是「感知」。

感知,是 vivo 刚刚成立的新技术赛道。

中外互联网公司和手机品牌纷纷加速进军「AI 手机」。行业一度以为模型能力会成为手机厂商的护城河。

在胡柏山看来,实际并非如此。「相比模型而言,积累下来的场景数据才最有差异化。」紧接着他补了一句:「当然,该做还是要做,要做就找适合我们的,可以做慢一点,晚一点也 ok。」

当被问及「如果不看好大语言模型,vivo 会否发力世界模型」时,他的回答更加保守却又直接:「世界模型也很大。我们还是找适合我们的技术路径。我们先把手机模型搞好,小模型搞好。」

当今 AI / 互联网科技巨头大打人才争夺战,顶级研究精英如 NBA 巨星般抢手,转会费一再突破新高。但胡柏山并不认为 vivo 应该为这团火再添柴。他告诉爱范儿,先想清楚思路,看清方向,定好技术平台,再发力,完全不迟。

在这个所有人都在比拼模型能力和 AI 人才储备的时间点上,掌门人直接把 vivo 的优劣势与行动纲领展开在媒体面前。这种坦诚令人印象深刻:vivo 的稳健、谨慎, 究竟有何用意?

胡柏山回应称,vivo 从不回避竞争。相比模型、算力,未来最大的差异化是来自于场景数据。

场景数据,是跟着使用行为逐渐积累的,不能批发,不能抄近路——影像数据尤其如此。经过十年光学硬件积累、用真实场景训练出来的感知判断,没有捷径。

而这些积累与判断,构成了 vivo 接下来押注的「感知」的底层。这些东西,其他人(无论友商还是互联网/AI 公司)想要,也只能自己去积累。

这就回到了刚才那道鸿沟。大模型的训练数据是互联网信息,而这些信息已经被数字化。但现实世界里大多数有价值的信息,还没被数字化。那些无法或很难被转化,或者转化起来成本极高的数据,成为了 AI 走向现实世界的障碍。

光线、空间、人脸、动作、情绪,这些东西存在于物理世界,需要被感知、被转化,才能成为模型可以处理的输入。谁的感知做得好,谁就控制了大模型进入现实世界的那扇门。

现在,没有人知道这扇门后面是什么,也没有人知道最后会是谁站在那里。

押注「感知」

感知不只是「更好的相机」,这一点 vivo 很清楚。

胡柏山说,相机是记录工具,它等你按下快门。但感知是另一件事:持续观察、理解正在发生什么,把这些信息转化成设备可以直接使用的输入。7×24 小时,不需要你触发。

从「记录」到「感知」,中间隔着一个系统架构的重建。

胡柏山给这件事起了个名字:「感知一体」。字面意思,是感知到的信息和设备的决策系统要即时打通。这一点,现在还做不到。

难点在于,原始的感知场景数据,比如一段视频、一张图、麦克风收到的声音,体量巨大,格式混乱,里面大部分是噪声。把这些原始信号转化成手机真正「读得懂」的结构化信息,需要一整套专门的处理链路。

「怎么把场景数据转换成手机能够读懂的数据,是最难的。这个领域开源资源少,需要自主探索,」他说。

这也是为什么 vivo 在内部把感知设为一级技术赛道。

「一级」意味着感知不再是影像部门下面的一个子方向,它会统揽包括视、听、嗅、触等多种感官种类,和感知方向。

不过,vivo 的感知研究与研发工作仍处在初期阶段。胡柏山用 vivo 的通信研究院做了一个类比:大约 200 人的团队,从 4G 开始持续投入,走过 5G,现在在做 6G,已经十几年了。

对于感知赛道,他的预期是相似的节奏:小团队作战,先构建认知。认知清晰了,开始加油门;等待软硬件生态成熟了后,油门再往下踩。「有一种渐进式加速、螺旋上升的感觉。我们拒绝一脚油门一脚刹车。」

胡柏山不希望 vivo 做感知计算,以及做任何事情,出现拍脑门、砸大钱的做法。他认为,感知是一个天花板很高,但今天没人能说清楚正确的技术演进路线是什么的东西。「我们准备好用五年、十年的周期来持续投入。但我们对这件事的认知获取,要循序渐进。认知没到,砸钱都是烂尾工程。」

感知赛道是一个判断,但判断要落地,需要现成的积累。

vivo 的底牌是十年影像。具体看,这十年沉淀的东西有两层。 

第一层是硬件。与蔡司的合作,如今已经走到了联合研发的深水阶段,传感器尺寸这一轮 X300 Ultra 的主摄升到了 1/1.12 英寸,和索尼的合作在往提升半导体转化效率的方向走——他提到了感官技术方面的「雪崩效应」,一种可以把感光元件的进光转化率,从 90% 推到 110% 以上甚至更高的新技术路径。

在硬件层面,胡柏山的判断和行业观察者及媒体大致相同,传感器尺寸已经卷到了边际收益递减的阶段,接下来更大的空间在转化效率和外挂形态——在 X300 Ultra 上,vivo 已经做了 200mm、400mm 定焦增距镜,还有更多在路上。

第二层是算法和认知。

vivo 三年前提出长焦大底,两年后全行业跟上。但跟上硬件很容易,「为什么是那个时间点做这件事」,这个判断很难。vivo 为什么选择在那个时间点上做这件事,动机来自于在影像上多年领跑的经验所形成的认知——没有可以搬运和复制的捷径。

「算法跟认知强相关——认知知道要什么方向,算法匹配,这是需求和技术的有机结合,对手很难快速跟上。」

这个逻辑延伸到端侧 AI 上同样成立。在 X300 Ultra 上,vivo 首次提出了一种「多 agent」理念,也即:

你举起手机拍一张照片,有个 agent 在判断你在拍什么、用多远的焦段、在什么光线下——这个判断,以前需要用户自己去做。而另一个 agent 在整理你的相册,根据你过去的修图习惯推荐或自动添加滤镜,又或者它能自动把几段素材剪成一条可以直接发的短视频。

这不是那种统一的「超级 agent」,比如 Gemini 或豆包手机助手那样的,而是每个场景一个专项 agent,既互通有无,又各干各的。

胡柏山的理由很实际:现有的硬件算力撑不起一个什么都管的大 agent,手机AI的发展要结合硬件的能力上限来推进。

这些工作仰仗 vivo 在端侧 AI 推理上的持续投入。据爱范儿了解,vivo 是手机厂商当中目前在算力购买上花钱最多的——不仅是云端算力,接下来的押注方向,是在旗舰机上嵌入专用的算力芯片。

vivo 的节奏是:先把不要求实时响应的 agent 做好,影像和相册是当前优先级;全域感知是五到十年的目标,always-on、全时段在线、所有感官打通,这是最终的方向。

一切交给时间

今后十年的 vivo,会去往什么方向?

胡柏山给了一个大概的路线图:手机是现在用户的核心产品,往后至少 10 年也仍然不变;MR 需要三到四年;机器人是五年以上。

这三个方向不是各自独立的押注,底层是同一套感知能力在不同形态上的延伸。

vivo 去年成立了机器人 Lab,聚焦「大脑和眼睛」。当被问及目前进展如何,胡柏山很直接地摊牌:「2025年把阶段性目标梳理地更加清楚,2026年进入整个路径的清晰规划。」

但这对于 vivo 来说并不是问题。

在一个各家都在发布机器人样机、争相宣称「具身智能元年」的节点,承认自己还没手搓出实物,是一种不多见的坦诚。胡柏山说「手搓一个机器人不是我们要干的。」

vivo 的机器人逻辑,和感知赛道的投入逻辑是一套:先想清楚目标用户是谁,再定义场景,再识别核心技术控制点,再等技术成熟度到位。

胡柏山告诉爱范儿,目前 vivo 还在论证第一步。他们倾向于服务年轻人,这也正是 vivo 从旗舰到年轻系列产品线一直希望抢占心智的群体。vivo 的第一代家庭机器人,可能的起点,是照顾宠物和叠衣服也说不定。

但这个场景,会不会太小?胡柏山认为,不能一上来就做通用机器人,不可能刚一开始就把所有的场景都做好。如果你非要那么做,最终的结果也只能是每个场景都不及格。

诚然,今天的具身智能机器人,可能做预录制的舞蹈能做到一百分,其他场景都没有足够的说服力。特别是在家务场景,「就说打鸡蛋这件事,想要做到百分百成功率,人都不一定,机器人十年内也做不到。」

胡柏山希望,vivo 的机器人能够先把一件具体的事情做到 60-70 分,然后一代一代泛化,优化现有的场景,再获得新的能力。

喂好了宠物,场景数据就来了。场景数据够了,机器人就知道这只狗每天几点饿,进而知道这家人几点起床,进而知道这家人的生活节律。不需要一步到位,因为每一步都在为下一步备料。胡柏山管这叫「沿途下蛋」。

这个逻辑,和在手机端押注感知的逻辑,是统一的:先把影像 agent 做好,场景数据够了,感知能力才往外延伸。

但在机器人的旁边,手机扮演什么角色?「手机是最懂你的随身数字助理。你的行为习惯、偏好、你喜欢养什么宠物,都在手机里。」胡柏山说,机器人早期做不好的事,手机可以遥控介入补足。

就像自动驾驶的早期,人类一直在干预,干预产生数据,数据让系统越来越好。「手机和机器人之间,场景数据是打通的。」

当然,他也没有把话说满。感知这个赛道,其他人也在做。包括苹果、谷歌等在内都有自己的感知计算框架。vivo 在这个方向上的竞争空间,更多在手机端的小模型感知这个细分方向。这是除了苹果以外的大厂,暂时没有重点关注的地方。

今年,胡柏山给机器人 Lab 设的任务,是把路径图画出来:目标用户、核心场景、关键技术节点、以及「技术成熟到可以商业化」的时间预期。

vivo 叫停了 AI 眼镜项目。他算了一笔账:一年几十万台,不符合目标体量;两年内又做不出差异化;技术平台目前也撑不起 80 分以上的体验(超过 30g 戴在鼻子上会很累)——三个条件一个都没过,砍掉没毛病。

「三年后做也不着急,它不是关键品类。」

不过,这个决定放在今天的背景下,还是有点逆势。2025 年 AI 眼镜是行业里最热的新品类之一,这个事实有目共睹。Ray-Ban Meta 卖爆,国内跟进者一茬接一茬。

创始人兼 CEO 沈炜在年会上表示,vivo 今年的策略是「少押注,押重注」。vivo 选择给 AI 眼镜按下暂停键,但将感知赛道的存在地位升级,其实是统一的逻辑和筛选标准的一体两面:一个赛道的天花板够不够高、vivo 自身的差异化属性够不够、技术平台能不能支撑长期投入。

这种思路,与近期 OpenAI 等在内的硅谷巨头,摒弃「支线任务」,聚焦真正长板的思路不谋而合。

2026 年选定的道路,vivo 会走到哪,现在胡柏山也还给不出答案。感知一体化的技术难题还没有解,端侧专用芯片的落地有难度,机器人的路径图今年才刚开始画。

胡柏山知道这些,也没有回避。他说,认知到了加油门,认知没到宁可慢。

手机行业正在经历一个奇怪的时刻:换机周期拉长到四十个月,中国市场年销量从高峰期的五亿多部跌到现在约 2.5 亿部,存量市场的天花板清晰可见;但 AI 带来的能力跃升,又让所有人觉得什么地方似乎还藏着一点增量。

胡柏山的判断是,从 Smartphone(智能手机)到 Agent Phone(智能体手机),才是把存量市场变成增量市场的机会。而感知,是这个机会里他认为最难被复制的护城河。 

接下来交给时间。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

别再捣鼓没用的龙虾了,目前 AI Agent 最好的落地容器,是汽车

清晨 6:45。你的日历里标注着 9:00 在会展中心的会议。

你还没起身,Agent 在后台已经完成了几轮判断。

今天气温升高了几度,有点热;当天场馆周边有大型活动,常走路线预计会很堵;车辆电量还剩 62%,足够往返。

于是系统自动将出发提醒从原本的闹钟时间提前至 7:20,同时将车内温度预设为 22 度,打开你惯常收听的晨间播客。

等你下楼、走出电梯、拉开车门,车已经像刚刚被人收拾好一样,温度合适,路线妥当,内容也备好了。

你没有按按钮,也没有说一句话,可它已经知道该做什么。这大概就是今天人们对 AI Agent 最具体、也最迷人的想象。

▲《钢铁侠》中的贾维斯就是这种幻想的终极表达

它不再只是网页上的一个对话框,不再只是你输入一句、它回一句的机器人。

它开始离开屏幕,走进物理世界,替你处理那些原本需要手、眼、耳同时介入的小事。

聪明的 Agent 撞上了「墙」

过去一个多月,这种科幻般的想象突然变得触手可及。即便平时不太关注 AI 的人,大概也刷到过那个频频出圈的「龙虾 OpenClaw」。

与过去那些只会聊天的 AI 不同, OpenClaw 这类工具看起来更符合大众脑海中「真正的 Agent」的形象,它能接管键盘和鼠标,在终端后台运行,直接调用系统 API 干活。

有人让它写代码,有人让它定时整理邮件、规划待办事项,还有人干脆把查航班、选座、值机这一整套杂活全扔给它。它就像一个永不下班的超级实习生,动作快、能力强,理论上什么活儿都能接。

但热潮来得快,退得也快。 算力配置昂贵、调用成本高,加上脆弱的安全默认设置,想要将其转化为稳定的生产力,中间还隔着重重门槛。

因此,舆论在很短时间里完成了一次反转,先是「第一批靠龙虾赚钱的人出现了」,接着就变成「第一批龙虾受害者出现了」,再后来,甚至有人开始花钱请人上门卸载。

手机端的 Agent 们也是类似的情况,能自动比价、下单、甚至发微信的豆包手机,刚一露头,就被各大平台联手设限。

屏幕里的 Agent 明明已经很聪明,却总在最后一步碰壁。这堵「墙」,有时是系统权限,有时是封闭生态,有时则是巨头们的商业利益。

这一困境恰好反衬出另一个硬件终端的巨大潜力——汽车,反而成了 Agent 最有可能率先落地的场景。

这件事颇具历史的讽刺意味。

新能源汽车刚兴起时,业界几乎一致认为,智能汽车会是继智能手机之后的下一个超级硬件入口。

那几年,车企的宣传口吻与手机厂商如出一辙:自研 OS、封闭生态、应用商店、开发者平台、争夺用户停留时长。

大家都把车做成「带轮子的大手机」。奔驰、宝马、大众都在讲自己的车载系统,吉利和沃尔沃成立亿咖通,比亚迪也早早就开放了自己的车载 SDK。

那时的大家都有一种很熟悉的乐观,好像只要把手机那套再复制一遍,中控屏就会成为新的黄金地段,广告、分成、增值服务都会顺着这些流进来。

▲ 各种各样的车载应用

但车终究不是手机。

车企们后来发现,除了导航和在线音乐,大多数车载 App 的活跃数据都惨不忍睹。没人真想在车里打游戏,在车机上购物总觉得别扭,短视频一上线就被安全监管盯上,连看起来极具想象空间的「车载 KTV」,实际使用率也远不如宣传的那般热闹。

毕竟,人开车上路是为了出行,而不是为了操作一块屏幕。

手机是一个能独占注意力的设备。你低头看屏幕、滑动手指,整个人都可以沉浸其中。但汽车不行,尤其是在驾驶过程中,驾驶员的眼睛必须注视路面,双手必须控制方向盘。

在时速 120 公里的高速上,视线只要离开路面 2 秒,车辆就已经向前飞驰了 67 米。在这 67 米的盲区里,足以发生任何意外。

车主们也很快意识到了这一点,为了打开座椅通风,居然要在屏幕里翻找二级菜单。这种看似「先进」的设计,真到了路上只会让人暴躁。

正因如此,智能座舱的发展轨迹并没有沿着「繁荣 App 生态」这条路继续走下去,而是几乎直接跳跃到了另一场革命:由大模型驱动的交互变革。那些曾被寄予厚望的车载 App,还没来得及开花结果就被边缘化了。

▲ 车企们逐渐恢复了物理按键

手机做不到的,汽车天生就会

舞台的新主角换成了 Agent。它不再强调「我能给你提供多少个入口」,而是主打「我能替你把事办完」。

2019 年,小鹏 P7 曾把「全场景语音控制」作为一个极其亮眼的卖点。当时的评测经常演示这样一个场景:车主说一句「我有点冷」,空调温度就会自动调高 2 度。这在当时无疑是巨大的进步,比手动戳屏幕方便得多,也更有未来感。

但在工程逻辑上,它背后依然依赖着一张预设好的「语句—指令」映射表。系统听到「我有点冷」,就在代码表里匹配到对应选项,执行「空调升温 2 度」。这更像是一本厚厚的词典,翻页速度很快,但毫无思考能力。你说对了触发词,它就响应;你稍微换个说法,它就开始「我还不会哦」。

▲ 你好小 P

不过很快,我们将迎来具备主动感知能力的 Agent,它将开始能够理解意图,具备主动感知能力,并能跨系统编排复杂的动作。

它不会傻等着你发号施令,而是像一个资深的管家,平时就在一旁默默观察、聆听和记录。比如你说「今天心情不太好」,旧系统往往会礼貌地失灵,或者只是给你一点心灵鸡汤。

因为这句话不对应哪一个明确按键。可 Agent 可能会联想到情绪、环境、偏好之间的关系,自己把音量调低,把氛围灯收暗一点,切一首没那么躁的歌。它不一定每次都猜得完全准,但它已经不再只是在执行口令了。

腾讯之前展示过一种场景感知型 Agent,可以结合时间、地点、用户习惯主动给建议,也能接入点餐、停车缴费这类服务。

还有一些座舱 Agent 的预研方向,已经能识别后排乘客是否睡着,然后自动降低后排音量,微调温度,甚至改变出风方式。

想象一下,一家人周末出门,车开在高架上,后排的小孩睡着了,传统语音系统需要你说一句「把后排空调调小一点」。

真正的 Agent 却可能自己判断出,这时候要做的不是一个动作,而是一串连贯动作:把后排音响关小,调一下空调风向,稍微降低车窗透光率,让后排光线别那么亮;底盘切到更柔和的模式,把细碎颠簸过滤掉;如果智驾开着,再顺手把跟车策略调保守一点,让加减速更平滑。前排的大人甚至没有意识到自己下达过什么命令,车厢已经默默把环境改好了。

这就不再是一个功能在工作,而是整辆车作为一个整体,完成了一次从感知到响应的闭环。

这种真正让汽车和其他终端拉开差距的,是跨域协同的能力。

过去汽车的电子电气架构,像一座分租出去的大宅子。座舱域管娱乐、空调、座椅;底盘域管悬挂、制动、转向;智驾域管 ADAS 和自动驾驶。每一层都有自己的边界,彼此之间不像一间房那样自然贯通。

旧式语音系统,通常只能在某一个域里做单点操作,说白了就是隔着门传话。而 Agent 不一样。它收到的往往是模糊意图,却能跨过几扇门,把几个系统一起调度起来。

也正因如此,汽车可能是今天所有终端里,最适合 Agent 落地的那个容器。原因就在于它足够统一,足够封闭,也足够可控。

一个典型的反面例子是智能家居。

搞过装修的朋友都知道,家里的电器,空调是一个牌子,灯是一个牌子,窗帘电机又是另一个牌子,音箱和门锁也各玩各的协议。

看上去你买的是一套「智能生活」,实际到手常常是一堆彼此不怎么来往的设备。

Matter 协议 2022 年就出来了,试图给这个行业造一门通用语言,但各家厂商在底层依然固守着私有接口和数据壁垒。

所以现在智能家居最顺的体验,往往还是「全家桶」。

手机端面临的困境也大同小异。你想让手机助手点杯咖啡,再去微信提醒朋友,最后切到高德导航,听起来就 3 步,背后却牵涉到几家超级 App 之间漫长而脆弱的利益博弈。任何一方觉得吃亏,链路就会中断。

相比之下,汽车的情况简单得多。至少在车内这个封闭世界里,规则主要由车企自己说了算。底盘、空调、音响、座椅和灯光,天生就生长在同一张网络里。

当然,汽车座舱也并非乌托邦。它的使用场景更加集中,核心永远围绕出行、驾驶和在途体验,这使得 Agent 在车内比在手机上更容易构建出稳定的上下文逻辑。

但相应的,它的试错成本也高昂得多。智能家居误判最多半夜亮灯;车上的 Agent 一旦触及安全控制权发生误判,后果不堪设想。

从「坐在车里的你」,到「完整的你」

近年来,中国新能源汽车市场的竞争日趋白热化,硬件层面的差距越缩越小。如今真正能拉开代差的,反而是智能化体验。

加上中国用户对新技术的接受度极高,这几股力量汇聚,形成了一个罕见的加速器。这也是为什么近两年来,最激进、最具规模的 Agent 上车实践大多发生在中国。

然而,当车内 Agent 进化到一定阶段后,很快又会面临新的瓶颈,它仅仅认识「坐在车里的你」是远远不够的。

 

它知道你喜欢听什么歌、习惯多少度的空调,这很有用,但还太浅。它还得知道你昨晚几点入睡,明天几点开会,最近常去哪里,何时最不想被打扰。

它需要把你当作一个生活在连续时间轴上的「完整的人」来理解。

这正是华为、小米这类拥有全场景生态体系的玩家最大的优势所在。他们的野心不止于「车里的 Agent」,而是要构建一个跨越不同终端的「个人 Agent」。

上周,小米推出了移动端 AI Agent 测试产品 Xiaomi miclaw,基于自研 MiMo 大模型构建,核心目标是验证大模型在「人车家全生态」中的任务执行能力。

Miclaw 以系统应用身份运行,可深度调用超过50项手机底层能力,涵盖短信、日历、相机乃至米家智能家居设备实现从「对话」到「执行」的跨越。

更值得关注的是它采用「自进化」设计,支持文件级记忆、子智能体创建和 MCP 服务接入,能自主设计记忆系统、创建专业分工的子智能体,用得越多,就越懂用户的偏好与习惯。

虽然 Miclaw 还没有完成人车家全生态的接入,但趋势已经相当明显,你在不同设备上留下的行为数据,将被拼接成一条完整的生活轨迹。

▲小米 Claw 的部分功能

这时,文章开头描绘的那个清晨场景就不再是科幻电影,而是越来越多人的日常。

Agent 掌握了你的日程、习惯和生理状态,于是悄无声息地提前了唤醒时间,重新规划了路线,并为你布置好了舒适的座舱环境。

技术发展的最终形态,经常会出现一种有趣的「反转」,最成熟的技术,往往既不科幻,也不性感。

蒸汽机刚发明时,所有人都盯着那股喷涌的巨大白汽;而当电力真正普及后,人们反而很少低头去留意墙里的线路。

Agent 亦是如此。它真正动人的力量,不在于把人训练成更加熟练的机器操作员,不在于逼迫你熟记更多的唤醒词和口令;而在于它能不动声色地将你从繁琐的操作中彻底解放出来。

未来的汽车依然是那辆汽车,方向盘、座椅、车窗和轮胎都还在。但它已经开始理解你的生活节奏,记住你的个人偏好,默默替你打理好那些原本需要你亲自动手、动脑去安排的每一件小事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 MiniMax M2.7:AI 狠起来,连自己都卷

龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。

一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。

具体来说,它能做好的工作比大多数模型要更宽。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点,它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果,模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。

最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。

而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。

这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。

在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。

由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。

如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。

▲下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事:让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

被 OpenClaw 选中的飞书 ,终于给出小白无痛养虾「版本答案」

2026 年 1 月,OpenClaw 席卷中文互联网。仅仅两个月后,龙虾已经进入了「全民卸载」周期。

龙虾的问题不是它不够强,而是它很难服务于每一个普通人。

从安装到卸载,第一批「养虾人」的故事,暴露了 OpenClaw 的尴尬:Agent 怎么能产生真正的生产力价值?

今天,飞书的新品发布会,想给每个人一个答案。

给每个人的智能伙伴

OpenClaw 爆火之后,有着开放、易用的机器人机制的飞书,也跟着走红了。

API 调用额度从 1 万次提到 5 万次,再到目前的 100 万次;3 月 5 日推出官方插件,让 Agent 可以直接读写飞书文档、日历和多维表格,把「养虾」的门槛从「会写代码」降到「会用飞书」。

这些动作,确实让龙虾更好养了。但 OpenClaw 本身的弊端,飞书仍然解决不了:配置复杂、普通用户上手门槛高、原生部署安全隐患大,等等。

结论是:Agent 要真正落地,必须是一个上手即用的智能伙伴。它的安全是基本线,更要能直接与每个人的工作流丝滑融合。

今天正式升级的 飞书 aily,就是飞书给出的答案。

飞书 aily 是什么?官方定位是「每个人的智能伙伴」。形态上,它以 Bot 的方式常驻在飞书联系人列表里,打开飞书就能找到,对话即交互。30 秒激活,零配置。

  • 飞书 aily 有长期记忆,会随着你的使用逐渐记住你负责什么业务、偏好怎么沟通、喜欢什么格式。
  • 它的权限与你的飞书账户完全一致——你能看什么文档,它就能操作什么文档,敏感操作需要你确认,所有动作全程可追溯。
  • 它还有官方认证的技能市场,经过安全扫描,可以按需安装。

可以说,飞书 aily 是 OpenClaw,或者更广泛定义上「龙虾」理念的一种呈现方式。但它又跟开源的原生版 OpenClaw 有着本质的区别:

龙虾是你自己养的宠物,飞书 aily 是公司给你配的同事,入职了,开权限了,准备好和你一起开始工作了。

对于需要处理更复杂工作流的用户,还有独立的飞书 aily 专业版(aily.feishu.cn),有图形界面,可以让有需求的开发者、公司 IT 管理员去构建多步骤的自动化任务。

接下来的实测,我们会聚焦在普通人更好用的 Bot 形态,但两者底层逻辑相同。

龙虾承诺的太多,其实 aily 就够了

把飞书 aily 放进了实际工作流里,我们测了几个最日常的用法。

先来一个极高频的场景:飞书拉会。

在任务过程中,飞书 aily 直接查询了 APPSO 组织架构内的用户 ID——这一步放在别的 AI 工具里根本做不到。它能做这件事,是因为统一的权限机制。你在飞书里能看到的,它就能看到。

确认了人、确认了时间,调用飞书日历技能,一个会议就建好了。

从任务发起,到创建完成,大约半分钟。不敢说比飞书达人手搓更快,至少主打一句话搞定。

让打工人感觉痛苦,但又不得不做的事情,做月报肯定算一个。

我们把自己的社媒平台数据,先上传到了飞书云盘,然后交给飞书 aily。提示词很简单:查找不同媒体平台数据生成多维表格;再跟员工汇报文档结合,生成一份团队月报。

它整理了一共 9 份不同格式的文件,交付了一份月度汇报,以及可以作为附件的多维表格——时间只用了不到 4 分钟。同样的工作,APPSO 去年还在纯手搓,要用至少两个小时。

顺便一提,如果你想从零搭一套数据追踪的业务系统,子产品飞书妙搭也支持用自然语言描述需求,直接生成一套业务系统应用。

不一定每次都用得上,但有飞书 aily 在,你知道自己不用再求人了。

接下来,我们再看一个相对更复杂、偏创作/生成向的任务,看看飞书 aily 作为自媒体搭子好不好用。

作为 APPSO 的深度报道作者,我会写很多晦涩难懂的文章,在社媒平台传播的时候就需要生成有针对性的、更浅显易懂的版本。

我们还是可以直接在飞书 app 里,通过设定好的机器人来发指令。不过,这个任务其实更适合用飞书 aily 的专业版来完成。有图形界面 (GUI) 的辅助,可以精细化输入和调整,还可以更方便地调用原生支持的各种工具、技能和插件。

飞书里直接搜索飞书 aily,或者打开 aily.feishu.cn,就进入到了专业版界面。

它支持用户上传自定义 skill。虽然官方技能库非常丰富,但我还是想上传一个我之前经常用的「content-creator」(内容创作者)技能。

装完 skill 之后,我们只需要在对话框里输入 /content-creator(具体的 skill 命令因人而异),就能唤醒它。再把文件链接给到,它就能开始帮我写稿去了。

这种技能/插件的调用方式,和 Claude Code、Cowork、OpenClaw 等产品相同,熟悉度拉满。

开始工作后,我们能够在后台看到,飞书 aily 先是做了一个 plan,将任务分解成 5 个步骤。

即便是不指名到具体的 skill 上,飞书 aily 仍然可以判断我的意图然后调用对应的技能来完成工作。

APPSO 在这里其实还做了 A/B 测试,激活或不激活技能,任务完成时间分别是一分半和三分钟——都不算特别久,但显然调用 skill 工作更快,而且利用技能写出来的感觉更好。

无论是各种官方还是第三方的 skill,飞书 aily 都能完美适配。不过这里 APPSO 还是建议大家不要在不熟悉的情况下乱装 skill,尽量以官方的技能商城为准。

工作完成后,点击右上角的工作区,能够查看生成的内容了。

三个场景测下来,有一个感受越来越清晰:飞书 aily 跟那些「AI 生成一个文件发给你」的工具,体验差异还是很明显的。它的交付物是文档、表格、任务,可以继续被协作、被引用、被追踪。

龙虾当初让大家兴奋的那个期待,其实一直都很具体:帮我做完一件费时、费力的小事,让我能腾出脑子去处理真正重要的东西,别让心流被一堆琐碎打断。飞书 aily 做到了这一点,龙虾没有。

当然,OpenClaw 有很多「出格」的操作,它还做不到:操控本地文件系统、执行任意命令等。但换一个角度,这种「克制」本身就是企业场景的必要条件。哪怕一个新实习生学历再高、能力再强、多有灵气,公司不会给 ta 配上服务器根权限——这很正常。

飞书本就是个强有力的生产力工具。飞书来做龙虾/agent,当然不是为了实现什么 AGI。在各种宏大的叙事之外,先让普通人的打工人生更轻松,才是更重要的。

飞书 aily 支持定时任务创建,交互比 OpenClaw 更轻松

Agent 落地企业,其实并不难

企业 Agent 的竞争,正在往一个很多人还没意识到的维度转移。

过去两年,行业的注意力主要在两件事上:模型能力(谁的参数更大、基准跑分更高),以及 C 端爆发(谁的 Agent 更酷、更会演示)。

OpenClaw 的火爆是这个逻辑的顶点——一个开源框架,凭借「能干活」的形象引爆全民。

但龙虾从爆火,到卸载,仅用了两个月就快走完了一个周期,里面有一个不能更朴素、更明显的道理:

「能干活」是必要条件,绝非充分条件。

Agent 要在企业环境里真正落地,需要的远不止一个会执行命令的 AI——它需要懂业务,需要匹配组织的权限构架,需要嵌入团队已有的工作流,而不是在旁边开一个新窗口,重新训练一个昂贵且笨的「实习生」。

诚然,中国绝大部分的工作发生在微信上——团队工作的本质是沟通,这个道理上过班的人基本都明白。但飞书、钉钉、企微的流行,从侧面证明了工作绝不仅仅是沟通那么简单。

聪明人在一起工作,沟通早已不是问题。聪明人开始发现,那些聪明人也不得不干的「笨事情」,才是效率提升的真正空间所在。

Agent 的上限,取决于它能「读懂」多少你的工作。但在工作的语境下,「读懂」并不意味着你要把自己的电脑交给它。

而读懂,靠的是上下文——你留下过的笔记,开过的会和会议纪要,跟谁在群里讨论过什么,哪些项目在推进,哪些决策已经做出。

这些东西,叫做企业上下文数据,其实正是一个商业机构运转的引擎。它不存在于模型里,也不能从网上抓取,它在企业内部的协作平台上,以消息、文档、日历、审批的形式慢慢沉淀,日积月累。

飞书沉淀这些东西,已经好几年了。

OpenClaw 爆火后,中文开发者自发聚集到飞书,原因很简单——Bot 创建不需要审批,不需要公网 IP,摩擦最少。社区发起人杨明锋在自己的分支里先实现了飞书扩展,2 月 4 日被官方合并。

把 OpenClaw 的门槛从「会写代码」降到「会用飞书」,是飞书能做的事,也是其他平台很难复制的动作。

飞书目前是 OpenClaw 官方唯一原生支持的中国 IM 软件

飞书大概率没有预料到这一切,但它一直在做的那套东西——足够开放、接口通畅、数据互通——恰好就是龙虾最需要的基础设施。

当在飞书中激活飞书 aily ,它读到的上下文,远比文档里的文字、表格里的数据更多。它知道这份文档是上周评审会讨论的结果,知道那个多维表格由哪个团队维护,知道@你的消息通常意味着什么优先级。

——这些,都是外部的 Agent 产品,难以复制的东西。你可以在后端接入强大的模型,可以用各种服务框架、插件、技能、hook 来强化体验。但你的工作记录,专属于你的公司、属于你的上下文,是不可被替换、很难被简单搬运走的。

竞争对手可以做出一个功能相近的 Agent,但它接入的只是空壳;而飞书 aily 面前的,是一个已经蓄满水的池塘。

这个逻辑延伸出去,还有一个更大的判断:企业 Agent 的竞争格局,最终将由「谁的地盘里的上下文最充裕」,而不是「谁的模型最强」来决定。

模型能力不是不重要,但模型的高度商品化,是既成事实;多年沉淀的上下文生态,才成了真正的护城河。

企业 Agent 时代的入口,应该是上下文最深的平台。飞书已经成为了这个入口。

钉钉有更大的用户基数,腾讯有 QQ 和微信的社交图谱,企业微信有腾讯的 B 端关系链。飞书的优势,在这三者里反而是最「纵深」的:它的用户群以科技、互联网和成长型企业为主,这批人对 AI 的接受度高,工作上下文的数字化程度也最高。

换句话说,飞书的地盘虽然不是最大的,但上下文密度可能是最高的。你在哪个平台留下了最多的工作痕迹,那个平台的 Agent 就最懂你。

究其根本,大多数人们对于龙虾的期待,并不能通过 OpenClaw 来解决。

两年后的办公 AI,会变成什么样子,没人知道。但至少今天的答案,就在工作已经在发生的地方,在飞书 aily 的身上。

飞书一直是对 agent 最友好的工作台,无论 AI 怎么进化,其实万变不离其宗。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

从IDE到Terminal:适合后端宝宝体质的Claude Code工作流|得物技术

一、背景

事情是这样的,之前对 AI 编程一直是观望态度,但是部门最近在做 AI 辅助编程 POC,有幸成为 POC 用户,用上了自己舍不得买的高级编程模型 (感谢公司)。尽管我自认为是一个在代码上很挑剔的人,但是试了下感觉居然还可以 (Go、React)!只能说还得是谷歌,调整重心略微发力,Gemini 3 表现确实很不错。既然尝到甜头了,觉得自己是时候好好地琢磨琢磨,研究研究,沉淀一套自己的工作流、方法论,解放自己的生产力,顺应潮流努力成为 AI 时代的受益者,而不是被淘汰的人!

新的开发范式需要搭建新的开发环境和匹配自己开发习惯的工作流,这就像刚学编程那会,需要挑一个自己喜欢的 IDE、熟悉 IDE 快捷键和优化 IDE 设置一样。过程中间肯定有阵痛,Java 开发者们回忆一下多年之前从 Eclipse 转 IDEA 那会的阵痛吧,但是磨刀不误砍柴工,阵痛之后一定是生产力提升。借本文分享下我摸索后的方案,供大家参考。

二、工具选型

目前 AI 辅助编程领域热火朝天,各种 GUI 工具、TUI 工具如雨后春笋让人目不暇接,这对于花心的强迫症选手(比如我)来说选型很困难。但是我觉得有两个基础认知可以帮助我们更好地做决定:

(一)AI 辅助编程工具由脑和手两部分组成。脑是外接的大模型 API,手是各个产品调教的提示词和内部工作流。按我理解,【脑】决定了工具的上限,【手】决定了工具的下限。在这个场景里,大模型就像是汽车里的发动机,而且所有型号的汽车支持的【发动机】规格都是通用的、统一的、标准化的。有了这个基础,我们可以随便选一个趁手的工具,然后自行按场景选配【合适】的【发动机】。

(二)AI 辅助编程当前是一个【千帆竞发】的热门领域,而且单纯就【工具】来说,这个领域【没有技术壁垒】。A 产品抛出的杀手级特性,不出半个月一定会有 B 产品跟进。毕竟现在软件迭代的速度借助 AI 提升了很多,A 产品验证过的想法,B 产品可以很快地跟进和实现。Claude Code CLI 的开发者就使用 Claude Code CLI 迭代 Claude Code CLI,有点绕口,大概就是【工具自举】的意思吧。

Claude Code CLI

综上,其实没啥纠结的,我们照着这两点来选型就好:1. 这个工具一定得便捷地支持模型插拔,就是我随时可以根据场景换一个更适合的、更便宜的、表现更好的大模型。而且这种插拔一定要简单。 2. 这个工具一定要有积极的维护者,不断地迭代、优化它的工作流、提示词。最好是一个商业化产品,因为商业化产品出于其商业目标,一定会投入资源积极进行迭代。 

当前满足这两个条件的,我想也就是 Claude Code CLI 了: 1. Claude Code CLI 是一个商业化产品,有专门的技术团队在不停地更新、迭代。 2. Claude Code CLI 可以非常便捷地支持大模型插拔,我可以随时根据成本、效率、体验来切换合适的大模型。因此,这个环节我选 【Claude Code CLI】。

后文以CC代指Claude Code CLI。

快速切换模型

我通过自定义 Shell 函数来实现便捷的模型切换,不同的场景、不同的任务使用不同的模型。基本原理就是,CC 支持环境变量注入 LLM 配置信息,因此我只需要按场景注入【行内临时环境变量】即可。

详见:Bash - 行内环境变量,Bash 是标准的 Shell 实现,其他 Shell 如 Zsh 都兼容其行为。

Shell配置

我到处弄了一堆免费的、收费的模型用,然后给他们取了我记得住的别名:

使用效果

为了兼容,设置了一个 claude 别名:

这样输入claude 时,默认使用智谱 GLM 模型。

脚本源码

Shell 脚本大概这样,可以修改后配置到自己的 ~/.zshrc 中。如果不熟悉 Shell,嫌麻烦也可以试试这个开源工具:farion1231/cc-switch。

# claude 默认
alias claude='zcc'
# Kimi
function kcc(){
    echo Kimi Claude Code...
    local model="kimi-k2.5"
    ANTHROPIC_BASE_URL="https://api.moonshot.cn/anthropic" \
    ANTHROPIC_AUTH_TOKEN="sk-xxxxxxxxx" \
    ANTHROPIC_SMALL_FAST_MODEL="$model" \
    ANTHROPIC_DEFAULT_OPUS_MODEL="$model" \
    ANTHROPIC_DEFAULT_SONNET_MODEL="$model" \
    ANTHROPIC_DEFAULT_HAIKU_MODEL="$model" \
    CLAUDE_CODE_SUBAGENT_MODEL="$model" \
    launch_claude_code $@
}
# 智谱GLM
function zcc(){
    echo GLM Claude Code...
    ANTHROPIC_BASE_URL="https://open.bigmodel.cn/api/anthropic" \
    ANTHROPIC_AUTH_TOKEN="sk-xxxxxxxxx" \
    launch_claude_code $@
}
# 七牛
function qcc(){
    echo QiNiu Claude Code...
    local model="minimax/minimax-m2.1"
    ANTHROPIC_BASE_URL="https://api.qnaigc.com" \
    ANTHROPIC_AUTH_TOKEN="sk-xxxxxxxxx" \
    ANTHROPIC_SMALL_FAST_MODEL="$model" \
    ANTHROPIC_DEFAULT_OPUS_MODEL="$model" \
    ANTHROPIC_DEFAULT_SONNET_MODEL="$model" \
    ANTHROPIC_DEFAULT_HAIKU_MODEL="$model" \
    CLAUDE_CODE_SUBAGENT_MODEL="$model" \
    launch_claude_code $@
}
function launch_claude_code(){
    CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 \
#    clear
    command claude $@
}

三、开发环境

在当前的气氛下,我想我算是一个【古板】的开发者,我做不到【fire and forget】,或者说完全靠黑盒的自然语言对话来完成代码开发。

我还是只将 AI 当助手,还是想要白盒的掌控 AI 写的代码,还是希望最终交付的代码有我的风格、我的审美、我的品味。毕竟 AI 也只能帮我写代码,并不能帮我背锅。尽管我选择了 TUI 工具 Claude Code CLI,但是我还做不到全程只在终端操作,我还是习惯 JetBrains 特色的双栏 diff。

因此,当前我开发流程的起点还是传统的 IDE,比如我最喜欢的 JetBrains。每天上班第一件事是接水,第二件事就是打开 IDE。所以我需要想办法来将 GUI 工具和 TUI 工具流畅的衔接起来,减少代码开发时的频繁切换产生的割裂感!

多屏协作

如上图,我有 3 个显示器,我的构想是这样的:

  1. MacBook 内置显示器 —— 常驻两个空间:一个用来打开浏览器,还有 VPN、网易云音乐、Finder 软件,用来承接各种临时的操作。一个用来打开飞书,用来沟通、协作。

  1. 中间主屏 —— 常驻两个空间:一个用来打开浏览器,用来做各种【输出】。一个用来打开 IDE,专注于写代码、看代码,用标签页打开多个 Project。

  1. 左边竖屏 —— 常驻两个空间:一个用来打开浏览器,用于看文档、查资料等各种【输入】。一个用来打开 TUI 工具,进行辅助编程!

GUI/TUI衔接

现在问题来了,我希望我的开发工作的【主轴】是 IDE,流程的起点是 IDE。但是我的 IDE 在中间屏幕,终端在左边屏幕,它俩是独立软件,没法协作、自动跟随切换 Project 的工作目录。我希望有个【自动化流程】,当我在 IDE 里切换项目的时候,CC 自动跟随切换!

衔接流程

我期待的流程是这样的:

因为某个原因,我在 IDE 里打开了一个项目 A  准备写代码了,点击 IDE 里的某个【按钮】,左边屏幕自动【新建】一个项目 A 的 CC 会话终端并激活到前台显示   我跟左边的 CC 对话,让他干活  我在中间的 IDE 里评审、调试、诊断  因为某些原因我又要在 IDE 打开一个别的项目 B  我再次点击那个【按钮】,左边屏幕自动【新建】一个项目 B 的 CC 会话终端并激活到前台显示  我在 IDE 里又切回了项目 A,我又点击了那个【按钮】,左边屏幕自动【切换】到 A 的 CC 会话终端并激活到前台显示。

好的想法已经有了,AI 时代就怕你没有想法,有想法就一定有办法实现!

代码实现

  1. macOS 上的原生软件,大部分支持 AppleScript 自动化,也就是说我们可以写脚本驱动软件的行为、模拟人机交互,比如打开软件、新建 tab、点击按钮等。

  2. JetBrains IDE 支持集成外部命令,也就是说:可以在 IDE 里点击一个按钮,自动执行一个 Shell 脚本或者别的可执行文件。

产品需求清晰了,接下来开始让 AI 干活!一顿沟通和调试之后,我们有了一个【自动化】创建 iTerm2 新标签的可执行脚本!

这是给大模型的需求提示词,大家可以按需选用,做个性化的调整:

## 📌 工具功能说明
请帮我创建一个 macOS 上的 iTerm2 自动化工具,主要功能包括:
### 核心需求
1. **智能窗口管理**:自动使用或创建 iTerm2 窗口
2. **项目标签管理**:为每个项目目录维护独立的标签页,支持标签复用
3. **三面板布局**:自动创建固定的三面板布局(上方一个全宽面板,下方两个并排面板)
4. **命令自动执行**:在每个面板中自动切换到项目目录并执行预定义的命令
### 使用场景
```bash
# 基本用法:在当前目录打开
./open-claude-in-iterm.sh
# 指定项目目录
./open-claude-in-iterm.sh /path/to/project
```
---
## 🎯 技术架构要求
### 技术栈
- **Shell 脚本** (open-claude-in-iterm.sh):参数处理、路径规范化、日志管理
- **AppleScript** (open-claude-in-iterm.applescript):iTerm2 自动化核心逻辑
**依赖**:macOS、iTerm2、Bash
---
## 📋 详细功能规格
### 1. Shell 脚本 (open-claude-in-iterm.sh)
#### 参数处理
- **参数1**:项目目录(可选,默认当前目录)
- **自动处理**:相对路径转绝对路径
#### 面板命令配置
```bash
PAN1_CMD="claude"     # 上方面板命令
PAN2_CMD="claude"     # 左下面板命令
PAN3_CMD="claude"     # 右下面板命令
```
### 2. AppleScript (open-claude-in-iterm.applescript)
#### 主要流程
**步骤1:窗口管理**
- 检查 iTerm2 是否运行(未运行则自动启动)
- 使用当前激活的 iTerm2 窗口,如果没有则创建新窗口
**步骤2:标签管理(关键逻辑)**
- 在找到的窗口中,查找 `session.path` 变量等于项目目录的标签
- **复用逻辑**:如果找到现有标签 且 窗口不是新创建的 → 直接切换标签并返回
- **创建逻辑**:如果未找到标签 或 窗口是新创建的 → 创建新标签和布局
**步骤3:三面板布局创建**
```
布局示意图:
┌─────────────────────────┐
│   上方面板 (全宽)         │
│   执行: PAN1_CMD         │
├──────────────┬──────────┤
│  左下面板    │  右下面板 │
│  PAN2_CMD   │  PAN3_CMD │
└──────────────┴──────────┘
```
**分割顺序(重要)**:
1. 初始状态:一个全屏 session(上方面板)
2. 第一次分割:对上方 session 执行**水平分割**,创建下方面板
3. 第二次分割:对下方 session 执行**垂直分割**,创建右下面板
**步骤4:命令执行**
在每个面板中依次执行:
1. 切换到项目目录:`cd "/path/to/project"`
2. 清屏:`clear`
3. 等待 0.3 秒(确保目录切换完成)
4. 执行命令:`PAN_CMD`
5. 等待 0.5 秒(确保命令启动)
## ⚠️ 常见错误
- ❌ 符号链接未处理,导致找不到 AppleScript 文件
- ❌ 分割顺序错误,导致布局不正确
- ❌ 缺少 delay,导致命令执行失败或在错误目录执行
- ❌ 新窗口处理错误,导致多余空白标签
- ❌ 标签复用逻辑错误,导致同一项目创建多个标签
- ❌ 路径未引用,导致包含空格的路径失败

IDE配置

创建外部工具

添加到工具栏

使用效果

点击工具栏按钮后,自动在全屏的 iTerm2 窗口新建或激活项目目录下的 CC 会话,下图里就是 3 个项目。

四、多Agent协作

会的越多,让你干的就越多。既然 AI 那么牛,一个 CC 会话已经满足不了我膨胀的想法和需求了。我希望我可以同时支配多个 AI 开发工程师,而我变成 PM!所以参考酒米的思路,我给每个项目的终端,自动化的划分了 3 个子窗口,每个子窗口都是一个 CC 会话。效果大概这样:

主从架构

每个项目自动打开 3 个常驻的 AI 会话,我设想的工作流是这样的:

【架构师】上面的大屏,用贵的模型!专门用来跟我聊需求、对方案、产出任务列表。

【开发者】下面的两个小屏,用领域特定的模型,专门用来落地大屏架构师产出的方案和任务。比如前端需求用前端效果好的模型,后端需求用后端效果好的模型。

知人善用才是好 PM!这个模式也很匹配现实中的组织架构和成本取舍,现实中每个需求一般也都是由一个架构师和多个中高级开发者来协作完成!感谢热心市民无声雨,给我们小组共享了自己采购的纯血 Claude 模型,所以目前我用 Claude 模型来对方案,用 GLM 或者 MiniMax 来实施方案!

规范驱动开发(SDD)

主从智能体的协作很重要,我跟【架构师】聊了半天确定的方案和设计,需要有一个清晰的、对大模型友好的方案和任务文档作为【开发者】的输入。这就很巧,刚好最近在流行 SDD,规范驱动开发。大致就是模拟现实中的软件开发流程将开发生命周期拆分为 3 个阶段:

  • 【proposal】需求对齐、方案设计、【任务细化】;
  • 【apply】开发任务实施;
  • 【archive】功能验收、文档沉淀

围绕这个流程,开源社区设计和研发了一系列对大模型非常友好的工具和提示词(比如 OpenSpec),【阶段 1】和【阶段 2】中间通过格式设计良好的【设计文档和任务文档】来进行上下文交接。

也就是说,我可以在上述的 3 窗口环境中,按照 SDD 流程来:【proposal】跟【架构师】交互,对齐需求、设计和任务 A  【apply】让【开发者 1】着手完成任务 A  【proposal】继续跟【架构师】交互,对齐需求、设计和任务 B  【apply】让【开发者 2】着手完成任务 B  【proposal】继续跟【架构师】交互,对齐需求、设计和任务 C  【apply】让【开发者 1】着手完成任务 C  ……

五、CC拓展

CC 当然很厉害,但它本质上也就是一个朴素的 ReAct 模式智能体。

ReAct 这么火,大家肯定也都耳熟能详了,我们也就不说太多。当然 CC 团队围绕编程这个课题做了很多细致的提示词调优和内置工作流设计,这个我们黑盒的用就好了,也没必要关注太多。我们最需要关注的,是 CC 提供给我们使用者的【拓展点】,那些允许我们个性化设置的东西。

命令(command)

命令的本质就是预定义的提示词模板。目的是为了省事,不用每次都重复的输入类似的提示词。比如想让 CC 帮我提交代码,每次我们可能都要交代一大堆字,比如:

请调用 git diff --cached 获取当前暂存区的代码变动。
忽略所有的 node_modules 或二进制文件。
基于变动内容,判断这是一个 feat (新功能), fix (修复) 还是 chore (杂务)。
生成一个不超过 50 字符的标题,并在正文详细列出影响的文件。
由我确认后执行 git commit。”

就像写代码的时候将重复代码提取为一个独立方法一样,我们可以把这些可以复用的提示词固定成一个【命令】,后续使用的时候,直接输入命令名字就好。斜杠命令是一段提示词的快捷方式。

技能(skill)

技能和命令最大的差别就是:命令是用户主动提交的提示词,而技能是 Agent 自己决策后自动导入的提示词。当然技能包里除了提示词,一般还会携带一些配套的工具、脚本、命令或者文档。

比如,我安装了一个【html 转 pdf 的技能包】,这只能提示 CC 可以使用这个技能,但是具体用不用、什么时候用、怎么用都是 CC 自己规划、决策的。

子代理(subAgent)

SubAgents 是可以并行处理任务的独立 AI 代理,每个子代理拥有独立的上下文窗口,可以分配不同任务以提高效率。【主代理】的上下文窗口中包含有【子代理】的【简短】描述信息,可以基于这个描述信息规划、决策使用哪个子代理。

{
  "agents":{
    "code-reviewer":{
      "description":"专门负责代码审查的子代理",
      "model":"claude-opus-4-5",
      "instructions":"你是一个专业的代码审查专家,专注于检查代码质量、安全漏洞和性能问题。",
      "tools":["read","search","git"],
      "permissions":{
        "allowWrite":false
      }
    },
    "test-writer":{
      "description":"专门负责编写测试的子代理",
      "model":"claude-sonnet-4-5",
      "instructions":"你是一个测试工程师,专注于编写全面的单元测试和集成测试。",
      "tools":["read","write","bash"]
    },
    "doc-generator":{
      "description":"专门负责生成文档的子代理",
      "model":"claude-sonnet-4-5",
      "instructions":"你是一个技术文档专家,专注于生成清晰、准确的技术文档。",
      "tools":["read","write"]
    }
  }
}

独立上下文窗口的好处是:避免上下文污染和占用。比如我要在代码里找一个接口的所有实现类,这个就很适合子代理来做。主代理只需要交代给子代理接口名,然后就等子代理返回实现类列表。

这样在主代理的上下文窗口里,只会有子代理的输入和输出(几个类文件路径),而子代理在搜索过程中遍历文件、目录、读取文件内容产生的临时 token,不会对主代理产生影响。我目前认为 SubAgent 和 Skill 差不太多。不过我不确认 Skill 是不是在独立的上下文中执行。

MCP

MCP 和技能一样,都是由 CC 自主规划、决策使用的。差别有两个:

  1. MCP 工具的说明信息占用的上下文太多了!不管是否被使用,每次都需要一口气提交所有工具的完整元信息(使用说明 + 出入参 Schema)供大模型规划、决策,占用大量上下文。而【技能】选择了【渐进式披露】,先向大模型提供少量关键信息,只有在大模型选择了使用技能时,才告诉大模型更多关于技能的补充说明信息,让大模型进一步推理、决策。

  2. MCP 工具更多的偏向【远程 RPC】,基于网络来实现原子化的远程能力调用。而【技能】更多的偏向【本地 IPC】,具体能力更多通过【编排】本地脚本、本地命令来实现,有点像 stdio 模式下的 MCP。

钩子(hook)

hook 是在特定事件触发时自动执行的脚本,用于自定义工作流、拦截危险操作、自动格式化代码等。就类似 Linux NetFilter,CC 在很多地方植入了流程执行的劫持点,将流程上下文交给用户开发的脚本或者命令。

插件(plugin)

plugin 就是上述各种拓展打包、分发、安装的一种格式。你可以把它想象成 npm 包、pip 包、apk 包等我们比较熟悉的概念。然后我们可以按流程和格式建设插件市场,类似 pip-index、npm-index 等。

我没有细看流程和格式,但是大概也就是一个特定文件布局的 zip 文件包,里面有插件描述信息和各类拓展,比如可以包含:

  • 5 个 Skills;
  • 10 个斜杠命令;
  • 3 个 MCP 服务器配置;
  • 2 个 SubAgent 定义;
  • 若干 Hooks。

六、CC技巧

飞书MCP

飞书官方提供了 MCP,我主要用它来读写飞书文档,蛮好用的,大家可以试试。比如我每周都要在固定目录下创建固定标题格式的【系统巡检文档】,所以我借助飞书 MCP 整了个自定义 Command 帮我自动创建这些文档去除重复劳动,感觉真香!之前每次都要手动建 3 个文档、选目录、改名字!

@模糊搜索

有时候我们需要精确的告诉 CC,哪个文件需要读或者改,其实不用从 IDE 里复制文件路径,直接在终端里模糊搜索就好了。

WebFetch

CC 默认集成了 WebFetch 命令,就是指定 URL 读取网页内容,这个理论上就是一个本地执行的 curl 命令,没有云端成本,不需要云端协作。但是有个问题:(一)CC 在访问地址之前,会先调用 anthropic.com 的一个风控接口,判断这个网络地址是否有安全风险。(二)政策原因,anthropic.com 会拒绝所有来自中国大陆、香港的请求,风控接口返回 404 或者其他。(三)风控不通过,WebFetch 失败。

在 ~/.claude/settings.json 中添加如下配置,禁用 WebFetch 工具前置的风控检查就好了。

{
  "skipWebFetchPreflight":true,
}

详见:linux.do/t/topic/114…

WebSearch

WebSearch 是需要云端协作的,需要有个搜索引擎服务提供能力。因为我们没有用官方的付费订阅,所以默认的 WebSearch 工具我们用不了,调用 WebSearch 工具得到的结果都是 0。

办法是去找一个免费或者收费的 MCP 服务。免费的我看大家都推荐 Brave<brave.com>,大家也可以找找别的。收费的也有很多,我看智谱的套餐里限量提供了 <联网搜索 MCP - 智谱 AI 开放文档>。也有很多按量付费的,大概几分钱一次,有需要的可以找找。

添加了 MCP 搜索工具后,建议禁用 CC 自带的 WebSearch 工具,不然每次跟大模型交互时,工具信息还会带给大模型,产生额外的 token 开销和推理误判。在 ~/.claude/settings.json 中添加如下配置:

{
  "permissions":{
    "deny":[
      "WebSearch"
    ]
  }
}

iTerm2通知

终端上的任务需要我们输入的时候,可以配置下,让 iTerm2 发出声音和通知。这样我们就不会因为忘记确认操作而阻塞进度。

详见:Optimize your terminal setup - Claude Code Docs

清空上下文

因为我们每个项目都复用一屏内的 3 个子窗口,一般不会重开。为了避免上下文溢出或者之前对话对新任务产生干扰,当我们完成一个任务时,需要及时的执行 /clear 命令,清空上下文,从 0 开始新对话。

如果任务没有完成,但是又不得不 clear,那么可以维护一个自定义命令,在 clear 后提示大模型根据 git status 看到的文件变更快速找回上下文。把 git 状态当作 AI 的 “短期记忆快照”,/clear 只清上下文,不清工作进度。

# Context Catch-up
当前对话已被 `/clear`,请通过 git 状态恢复上下文。
使用方式:
1. 阅读 `git status`(必要时结合 `git diff`2. 仅基于文件变更推断正在进行的任务
3. 延续现有实现思路,不要假设额外背景
4. 在未收到明确指令前,先给出你对当前上下文的判断
目标:
- 快速找回任务状态
- 避免旧对话或错误假设干扰新任务

注意力哨兵

在记忆文件里要求大模型扮演一个特别的角色,如果聊着聊着角色行为丢失了,说明大模型注意力失焦了,已经丢掉了你最开始的要求。这时候就该 clear 一下重开会话了。

拓展市场

为了便于相关个性化拓展物料的分发、便于大家搜索、安装,市面上已经有了相关的分发平台和便捷安装命令了。

  1. skills.sh

  1. www.aitmpl.com

状态行个性化

状态行显示在 Claude Code 会话界面底部,可以自定义显示的内容,比如git分支名、目录名、模型名等。推荐使github开源项目:claude-code-statusline-pro-aicodeditor,效果如下:

详见:github.com/HorizonWing…

七、总结

差生文具多,尽管我暂时还没有使用 CC 产出啥说得上来的东西,但是确实花了很多时间琢磨怎么让它用起来更顺手。一些不成熟的想法,希望可以给到大家启发。

参考:

  1. www.ginonotes.com/posts/how-i…
  2. www.cnblogs.com/knqiufan/p/…

往期回顾

1.AI编程能力边界探索:基于 Claude Code 的 Spec Coding 项目实战|得物技术

2.搜索 C++ 引擎回归能力建设:从自测到工程化准出|得物技术 

3.得物社区搜推公式融合调参框架-加乘树3.0实战

4.深入剖析Spark UI界面:参数与界面详解|得物技术

5.Sentinel Java客户端限流原理解析|得物技术

文 /羊羽

关注得物技术,每周更新技术干货

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

未经得物技术许可严禁转载,否则依法追究法律责任。

刚刚,阿里ATH事业群甩出王炸「悟空」!企业级正规军下场,龙虾们这次真要炸了

昨晚,阿里巴巴突然宣布成立 Alibaba Token Hub(ATH)事业群,CEO 吴泳铭直接负责,这可能是阿里在 AI 时代最重要的一次组织架构调整。

Token ,AI 时代的通用货币。

吴泳铭的逻辑是:未来大量数字化工作将由「数以百亿计的 AI Agent」支撑运行,而这些 Agent 的运行,由模型产生的 Token 驱动。

创造 Token、输送 Token、应用 Token,这将是阿里新的的主线。

其中内部信中还有一个首次出现在公众视野里的名字:悟空事业部。官方对悟空事业部的定位是:「打造 B 端 AI 原生工作平台,将模型能力深度融入企业工作流。」

也就是说原来的钉钉,被提到了一个更核心的战略位置,和千问一起分别在 B 端和 C 端承载阿里 AI 的目标。

这次发布会,悟空事业部交出了成立以来的第一份作业—— AI toB 旗舰应用「悟空 WuKong」,这也是首个以企业智能体为核心的 AI 原生工作平台。

这是ATH 事业群成立第二天,阿里巴巴集团 CEO 吴泳铭也出现在今天的「悟空」发布会现场。

最近在「养龙虾」席卷社交媒体后,每个人或多或少都感受到发现 AI 真的能操控电脑、帮你干活。

然而也便随这混乱,龙虾删邮件停不下来,敏感数据被 AI 随意读取,公司 IT 部门一句「这东西不合规」,大多数企业用户就此止步。

AI Agent 走到了哪一步,能不能广泛使用,还只是个技术问题。企业组织敢不敢用,才是真正的问题

APPSO 在现场给大家快速梳理了这场发布会的要点:

  • 悟空 WuKong:全球首个以企业智能体为核心、更安全、商业可交付的 AI 原生工作平台
  • 首创 AI 原生文件系统 Real Doc:每一步操作可追溯可回退
  • 钉钉全面 CLI 化:重写底层代码,给 AI 造了一套原生操作语言,可以 CLI 原生安全地访问钉钉应用和数据
  • 十大 OPT 行业方案:一人电商、一人门店、一人知识博主……Skill 即生产力
  • AI 能力市场:企业级 Skill 生态完整体系上线,全部纳入统一的安全扫描和分级管控体系
  • AI 硬件:A1 Pro 录音卡 + Cleer H1 AI 耳机首亮相
  • 原生级企业安全架构:底层沙箱隔离与全链路审计,让企业真正敢用 AI

钉钉为 AI 打造钉钉

在理解悟空之前,先要消除一个刻板印象,它绝对不是「钉钉加了一个 AI 对话框」。这句话值得重复一遍——悟空不是钉钉加了一个 AI 功能

过去两年,我们见过太多「产品加 AI」的案例:Word 加了 Copilot,微信加了元宝,网页端加了摘要按钮。这类产品的逻辑是:原有功能不动,AI 作为辅助层叠加在上面,帮你写写文字、润色润色、总结一下。

悟空的逻辑完全不同。

悟空是一个以企业智能体为核心的 AI 原生工作平台。 它能操作我们的电脑、编辑本地文件、调用桌面应用程序、连接钉钉文档 / 审批 / 日程 / 听记等全系产品。

当你对悟空说:「帮我把上周所有客户拜访的记录整理成周报,发给张总确认一下」。

悟空不会给你写一份模板然后让你自己填,它会直接打开你电脑上的拜访记录文件夹,读取每一份记录,生成周报,保存到指定位置,然后在钉钉里发给张总发起审批。

全程,你只说了一句话。

更关键的是:手机可以远程指挥悟空唤起本地环境完成工作。不需要坐在电脑前。出门见客户的路上,发一条消息,悟空在家帮你把活干完。

这是「本地执行 + 远程可控」的 Agent 工作架构,也是悟空正在定义的新工作方式——说一句话,就能干活。

▲体验网址:https://www.dingtalk.com/wukong

悟空与 OpenClaw:解同一道题,用的是不同答卷

很多人的第一反应:这不就是「中国版 OpenClaw」吗?

表面看都在让 AI 操作电脑,但两者的关系,更接近「Linux 的开源社区」和「Red Hat 企业版」,底层技术同源兼容,但面向的战场完全不同。

OpenClaw 证明了 AI Agent 可以操控电脑这个概念,它依赖「视觉模拟」和操作系统原生命令行,让 AI 像人一样看屏幕、点鼠标。这套方案很酷,但也很脆弱,毕竟界面一更新,命令一修改,整个流程就可能崩掉。

更要命的是,OpenClaw 在本地运行时,几乎拥有与用户完全相同的系统权限。理论上,一台实习生电脑上的 OpenClaw,可以读取他不该看到的任何数据。安全机构已发现其技能市场存在数百个恶意程序,Gartner 将其企业部署评级为「不可接受的网络安全风险」。

OpenClaw 是 Agent 的「Linux 时刻」——开源、自由、极客驱动、生态繁荣,但没有企业敢直接用。

悟空要解的题不一样:兼容开源生态的全部 Skill 能力,同时从架构层面把安全内建进去,而非事后打补丁。

统一企业身份认证、专属沙箱隔离、网络代理管控、全链路审计日志——每一层安全都在回答同一个问题:让 IT 部门敢拍板,让 CEO 敢买单

这是 Enterprise Agent 和「开源 Agent 框架」的本质差距。

钉钉 CEO 无招在发布会现场表示,「今天,我们把钉钉打碎,用 AI 重建,炼出悟空。过去是人用钉钉来工作,未来是 AI 用钉钉来工作。和市面上所有的龙虾 Agent 不一样,悟空天然就长在企业组织中,可以在真实的企业环境中安全使用。

CLI 化:给 AI 造一套原生操作语言

要理解悟空为什么「真的能干活」,关键是它有一套让 AI 能「听懂」软件的语言。

过去,几乎所有的 AI Agent 都在试图模拟人类的键鼠操作。这就像是蒙着眼睛,靠别人在旁边喊「往左一点,点击」来用电脑,不仅极度低效,而且极其容易出错。

为了让悟空真正能「干活」,钉钉做了一个相当疯狂的决定:所有底层代码重写了一遍

他们将整个钉钉的既有能力体系全面 CLI 化(Command-line Interface,命令行界面),所谓 CLI 化,就是把钉钉从一个「给人用的图形界面」,变成一个「给 AI 用的命令行接口」。

AI 不再需要「看懂」按钮在哪里,而是直接通过标准化指令调用能力,这相当于给 AI 装上了神经末梢

其中,包括文档、日程、审批、会议甚至 AI 表格,所有的钉钉产品,全部重写为标准的 CLI 指令。

这意味着,悟空不再需要像人类一样去「点击」按钮,而是通过原生指令,直接调用钉钉的一切能力和数据。

不仅是钉钉应用,阿里集团旗下的淘宝、天猫、支付宝、阿里云等核心业务能力,也将逐步作为 Skill 接入悟空。悟空,正在成为整个阿里巴巴 AI 能力在企业工作场景的统一出口。

当用户说「帮我整理下周的客户拜访记录并生成周报」,悟空不是「看懂」这句话,而是直接触发一系列 CLI 指令:调取日程 API → 抓取 CRM 数据 → 运行听记解析 → 写入文档 → 发起审批流。全程没有模拟点击,没有视觉识别,只有机器对机器的精准调用。

这个逻辑,在行业报告「未来属于智能体:万亿 AI 正在重新定义软件」里有一段话说得非常准确:

你构建的一切都必须是 API 优先的。如果一个功能没有 API,它就相当于不存在。如果不能通过 CLI 或 MCP 服务器暴露,你就是处于劣势。

换言之:在 AI 智能体成为软件「主要用户」的时代,不能被 AI 原生调用的软件,等于不存在

▲图片来源:X@karpathy

钉钉理解了这个逻辑,所以选择了极其昂贵的方式——重写服务全球 8 亿用户、2700 万家企业的产品底层。钉钉全面 CLI 化之后,Agent 才能从「能聊天」变成「能干活」。

Realdoc,AI 终于有了原生的文件操作语言

但 CLI 化只解决了「AI 能不能调用钉钉」的问题。还有一个更底层、常被忽视的问题——AI 怎么操作文件

目前市面上几乎没有 AI Agent 产品专门为 AI 设计过文件系统。所有人都在用传统文件系统凑合,结果是什么?

AI 要改一份文档里的一个词,必须先把整篇文档读进内存,改完再整篇写回去。就像改一本书里的一个错别字,却要把整本书重新抄一遍——荒诞,但这就是现实。

这带来三个连锁问题。

第一是 Token 爆炸,每次操作都吞进整篇文档,成本直线飙升,有用户实测用 AI 制作一个 PPT,消耗了 2.7 亿 Token,约合 500 美元。

第二是无法回退,AI 覆盖写入即生效,改坏了没有存档可以回溯,只能从头再来;

最后是文件失控,Agent 随机创建文件,企业根本不知道 AI 在哪里生成了什么,散落的结果是既找不到,也管不住。

悟空为此专门从零搭建了一套 AI 原生文件系统 Realdoc,这是行业首次,有人专门为 AI 重新设计一套文件操作语言

在 Real Doc 里,悟空可以像外科医生一样,按行号、按关键词定位,只动需要动的地方,其他内容一字不碰。Token 消耗大幅压缩,不再因为改一个词而把整篇文档走一遍。

更关键的是版本管理。AI 每执行一步操作,Realdoc 自动保存完整快照——就像游戏里的自动存档点,每一步操作都有记录,可随时退回任意版本,还能自动对比两个快照之间的 Diff,精确到每一行的变动。

还有文件归宿的问题。Realdoc 为每个 AI Agent 分配独立的云端工作空间,AI 产出的每一份文件都有「户口」——存在哪里、谁创建的、哪个 Agent 在什么时候改过,企业管理者一目了然。

到这里,悟空做出了大多数企业级产品还没意识到的改变:不再让 AI 套用到现有工具中,要为 AI 重新造一套工具

悟空首发 十个 OPT Skills 套件,钉钉原生协同

如果说 CLI 化解决了「AI 如何干活」,那么接下来的问题是:AI 该干哪些活,谁来告诉它怎么干

答案是:Skill。

Skill 是悟空的最小生产力单元——一个封装了行业专家 SOP、可直接调用的能力模块。我们不需要懂 AI,不需要写 Prompt,一键启用,AI 团队立刻就位。

这不是一个新概念,但悟空把它推向了一个全新的量级。

悟空首批推出十大行业 OPT(One Person Team,一人团队)技能套件,覆盖一人电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大场景。每个行业包预置了若干串联 Skill,把过去需要团队协作才能完成的工作流,压缩成一个人可以独立驾驭的操作序列。

以跨境电商为例。过去,一个店主每天要在亚马逊上找爆款,去 1688 上比价,跟供应商确认库存,再想破头优化商品描述,一个人能管三个品就是极限。

现在接入悟空 OPT 方案后,「选品雷达」每天定时抓取亚马逊热榜数据写入 AI 表格;发现爆款后,「AI 找同款」瞬间完成国内供应链匹配;直接确认样品、生成产品描述、输出视频脚本,都有行业级的 Skills 辅助。从发现需求到供应链跟进,一个人用一个下午,干完了一个小团队一周的活。

「一人门店」的场景更让人感慨。街边的汽修店、美甲店老板,白天忙服务,晚上还要强打精神刷小红书学竞品写文案。现在,同样是多个 Skill 串联,AI 自动监控同行爆款,提炼出可复用的创作模板,自动生成原生网感文案并发布,甚至能 7×24 小时智能回复客户私信。

「当一个店主用 AI 运营账号的质量,比竞争对手请的代运营公司还好时——这件事就不只是效率提升了。这是小微门店生存逻辑的重写。」

这正是 Skill 即生产力的核心逻辑:把行业专家的隐性经验,变成人人可调用的标准化能力。Skill 不只是提高效率,它在重新分配能力——让不具备专业背景的人,也能获得专业级的产出。

这个逻辑的更大野心,体现在钉钉同步上线的 AI 能力市场

Anthropic 推出 Claude Skills 开放标准后,微软、OpenAI、Cursor 等巨头迅速跟进。行业共识正在形成:下一阶段的竞争,不是「谁的模型更强」,而是「谁的 Skill 生态更完整」

钉钉 AI 能力市场覆盖 Skill、Agent、Service 完整体系,从开发、审核、上架、分发到管理,全链路打通。

企业可以把资深员工的方法论固化成私有 Skill,彻底摆脱人才流失的阵痛;开源社区里数千个现成的能力,也能在企业级安全架构下被随时调用。

这是悟空最有想象力的部分,它在搭建 AI 时代的生产力基础设施——Skill 是这套基础设施里流通的「货币」,谁掌握更多高质量的 Skill,谁就掌握了 AI 时代更大的生产力。

AI 新硬件

除了软件,在这场发布会上,钉钉还发布了多款 AI 硬件。

DingTalk A1 Pro:录音卡形态,专为会议和工作场景设计,支持多麦克风阵列拾音,AI 实时转录、翻译、摘要,把「开完会还要整理纪要」的低效循环彻底斩断。

Cleer H1 AI 耳机:钉钉与 Cleer 联名推出,首款与悟空深度联动的 AI 耳机。戴上耳机,语音即可直接与悟空对话下达指令,无需打开屏幕,从而实现真正的「所想即所达」。

更值得关注的是 Real AI 硬件(Realbox):搭载 1 台 PC 环境 + 5 台手机环境,支持多人共用、多并发任务处理。企业部署一台 Realbox,可以同时为多个员工运行多个悟空实例;部署多台 Realbox,可构建 AI 计算机集群,任务并行处理,弹性扩展。

不难看出,钉钉这些 AI 硬件并不是独立存在市面上的同类产品抢夺市场,核心都是为了更好地打通 AI 工作流,成为软硬一体的 AI 原生工作平台。

OpenClaw 跑在一台电脑上,做一台电脑能做的事;悟空搭载 Realbox 集群,正式宣告:AI 算力,可以像水电一样,以基础设施的形式在企业内部流通了

AI 时代的组织生产力

在观看这场发布会时, 我想起前段时间 Sam Altman 在采访中提到的观点:「历史上第一家由一个人独立运营的十亿美元公司,即将出现。」

彼时龙虾还没火爆,一人团队(OPT)的概念也只是在 AI 圈子里。他没有解释这个人会用什么工具,会在哪里,会干哪个行业。但看完这场发布会,这句话变得具体了一些。

这个人,大概率会有一套像悟空这样的东西在身边。过去十一年,钉钉一直在让人学会用工具。悟空想做的,是逐渐让工具真正学会理解人。

当工具开始理解人,一件以前不可能的事情正在变得可能:组织生产力,第一次可以真正被数字化封装、分发和扩展。当 Skill 把行业专家的经验变成人人可调用的能力货币,当 AI 原生平台成为个体接入组织能力的操作系统,一个人或组织能做的事情的边界,将被彻底重新定义。

Sam Altman 看到的是「一人公司」这个终点,悟空要做的,是让更多普通人有机会走到那条路上。它不是专门为天才准备的工具,而是为所有「想做更多但苦于一个人精力有限」的人,提供一套 AI 时代的组织生产力基础设施。

AI 原生工作平台,正在成为这个时代最关键的组织变量。 谁先跑通它,谁就先拿到了超级个体时代的入场券。

之前有一个观点,燃烧 Token 的速度,决定了人的进化速度。而悟空的 1.0 版本,指向的就是人和组织进化的下一个版本。

文|李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,英伟达龙虾登场!黄仁勋暴论频出,「人车家天地芯」冲击万亿收入

今年英伟达 GTC 主题演讲,应该是史上悬念最少的一届。

2022 年说元宇宙,2023-2024 年说生成式 AI,2025 年说物理 AI。但今年不一样,即便台上英伟达创始人黄仁勋的演讲还没有开始,但台下所有人已经知道答案了——Agent。

包括英伟达也悄悄在 GTC 园区里开设了「Build-a-Claw」互动专区,让与会者现场搭建自己的AI Agent。 从芯片到模型,从英伟达版龙虾到数据中心,今年主题演讲的潜台词只有一句话:

一切都要为 Agent 让路。

专为 Agentic AI 打造的 Vera Rubin 正式发布

如果说 Hopper 架构开启了生成式 AI(Generative AI)的时代,让机器学会了「说话」;那么 Vera Rubin 的使命,就是开启智能体(Agentic AI)时代,让机器学会「干活」。

  • 英伟达 Vera Rubin 架构包含七款芯片、五套机架系统,以及一台用于 AI Agent 的超级计算机
  • 七款芯片分别是 NVIDIA Vera CPU、NVIDIA Rubin GPU、NVIDIA NVLink™ 6 交换机、NVIDIA ConnectX-9 超级网卡、NVIDIA BlueField-4 DPU 和 NVIDIA Spectrum™-6 以太网交换机,以及新集成的 NVIDIA Groq 3 LPU
  • 五个机架分别是 NVIDIA Vera Rubin NVL72 机架、NVIDIA Vera CPU 机架、NVIDIA Groq 3 LPX 机架、NVIDIA BlueField-4 STX 存储机架,以及 NVIDIA Spectrum-6 SPX 以太网机架。

过去的 AI 像是一个极其聪明的图书馆管理员,我们问一个问题,它慢条斯理地翻书,然后把答案整理出来。我们对这种速度是宽容的,因为我们自己打字看书也慢。

但 Agent 完全不同。它不仅要用大模型思考,还要疯狂地调用工具——比如打开浏览器、控制云端的虚拟 PC、在无数个数据库里来回比对。更要命的是,AI 对工具的容忍度极低,它要求一切操作都在毫秒级完成。

「它会狠狠地捶打内存。」黄仁勋在台上这样形容。

当模型越来越大,上下文长度从十万 Token 飙升到数百万,还要同时处理结构化和非结构化的数据,传统的算力架构开始喘不过气了。为了应对这种「捶打」,英伟达交出了第一份答卷,全新的 Vera CPU。

这颗芯片特立独行,它是世界上首款专为智能体 AI 和强化学习时代打造的处理器,其效率是传统机架式 CPU 的两倍,速度提升 50%,采用 LPDDR5X 内存,能实现极高的单线程性能、大型的数据吞吐量和极致的能效。

黄仁勋甚至毫不掩饰他的骄傲:「我们从没想过会单独卖 CPU,但现在,这绝对是一个价值数十亿美元的业务。」

紧随其后的是 Rubin GPU,单片芯片直接塞进了高达 288 GB 的海量内存。它就像是一个拥有无限脑容量的思考者,专门用来装载那些体积越来越庞大的超大语言模型,以及处理成百上千万的上下文 KV 缓存。

除了堆叠 CPU 和 GPU,英伟达这次发布的 Vera Rubin 架构,直接把 NVLink 的带宽翻了一倍——260 TB/s 的全互联带宽。

十年前,DGX-1 用第一代 NVLink 把 8 张卡连在一起,那是专为 AI 研究员打造的奇迹;到了 Hopper 时代,是 NVLink 4;而前不久的 Blackwell 架构,用 NVLink 72 实现了 72 张 GPU 的全互联,带宽达到 130 TB/s。

为了配合 Vera Rubin,黄仁勋甚至掏出了被称为 Kyber 的全新机架。在这个机架里,计算节点垂直插入,背后是第六代 NVLink 交换机。完全抛弃了传统的以太网或 InfiniBand 限制,在一个 NVLink 域内直接打通 144 张 GPU。

即便强如 Vera Rubin,在面对「无限生成 Token」的极端需求时,也会感到吃力。

在算力世界里,吞吐量(Throughput,同时处理巨量任务的能力)和延迟(Latency,单次任务的极速响应)是一对物理学上的死敌。英伟达是吞吐量的绝对霸主,但在极致低延迟的 Token 生成上,传统 GPU 架构显得过于笨重。

这时候,Groq 出场了。英伟达早在之前就「收购」并授权了 Groq 团队的技术,在今天正式推出了 Groq LPU(语言处理单元)。

黄仁勋用一款名为 Dynamo 的软件,把这两者完美捏合,首创了「解耦推理(Disaggregated Inference)」。

  • AI 推理前半段的 Prefill(预填充)和极其耗费算力的 Attention(注意力机制),全部交给 Vera Rubin 这个性能王者来处理;
  • 后半段的 Decode(解码),也就是生成 Token 的瞬间,直接卸载给 Groq LPU 来降低延迟。

结果显示,在最具商业价值的高端推理层级,这种组合让性能直接飙涨了 35 倍,且每兆瓦的吞吐量同样提升了 35 倍。

一个开源项目,让所有 CEO 都睡不着觉

主题演讲的后半部分,黄仁勋抛出了一个让全场屏息的判断:OpenClaw,将是这个时代的 Linux,是这个时代的 HTML。

OpenClaw 上线仅数周,下载量和影响力已经超过了 Linux 三十年的积累,其本质上是一套智能体操作系统。它能调用大模型、管理文件、拆解任务、协调子智能体,还能发邮件、发短信,以任何模态与人沟通。

在黄仁勋看来,每一家 SaaS 公司,迟早都会变成 AgaaS 公司,也就是「Agent-as-a-Service(智能体即服务)」公司。而每一位 CEO 现在都必须回答同一个问题:你的 OpenClaw 战略是什么?

当然,开源意味着自由,但企业更需要的是安全。这也是 OpenClaw 规模化落地前最大的障碍。

为此,英伟达联合以 OpenClaw 创始人 Peter Steinberger 为代表的团队,召集了一批顶级安全与计算专家,推出 NeMoClaw 参考架构。

它内置 OpenShell 技术、网络防护机制和隐私路由能力,可以让企业可以在自己的私有环境中安全运行智能体系统。

而支撑这套智能体生态的,是英伟达一整条开源模型产品线。

比如 Nemotron 主攻语言推理,Cosmos 聚焦世界建模,Groot 面向通用机器人,Alpha Mayo 服务自动驾驶,BioNeMo 深耕数字生物学,Earth-2 则专注 AI 物理仿真。

黄仁勋特别强调,这些模型不只是排行榜上的名字。英伟达会持续投入推进,Nemotron 3 之后有 Nemotron 4,Cosmos 1 之后有 Cosmos 2,每一代都会更强。

更重要的是,这些模型全部以基础模型形式开放,任何企业都可以在此基础上继续微调和后训练,打造专属于自己业务场景的定制化智能。英伟达还宣布将与各地区合作伙伴协作,帮助不同国家和市场孵化本土化 AI 能力。

在台上,黄仁勋还宣布了一份让人眼前一亮的合作名单。Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Sarvam,以及 Mira Murati 创立的 Thinking Machines,悉数加入,共同推进 Nemotron 4 的研发。

划重点,英伟达不甘心只做卖铲人,更要亲自下场带头挖金矿,更重要的是,英伟达也是在构建一个生态,一个围绕智能体时代的完整体系。

玩家的显卡钱,是一场长达 25 年的「众筹」

要理解英伟达今天的恐怖统治力,黄仁勋首先把时钟拨回了 25 年前。

那时候没有 ChatGPT,没有大模型,只有一群为了让游戏画面更流畅而疯狂攒机的年轻人。「GeForce 是英伟达有史以来最伟大的营销活动」,黄仁勋在台上笑着说。

黄仁勋非常直白地承认,GeForce 就是用来吸引未来客户的。他们在我们还买不起企业级产品的时候,通过游戏显卡潜伏进我们的电脑。日复一日,年复一年。

也正是依靠一代代游戏玩家的「供养」,英伟达在 20 年前做出了一个当时看来堪称疯狂、甚至差点拖垮公司利润的决定——研发 CUDA,并将它送到了全世界每一个开发者的桌面上。

这可以说是一个在黑暗中蛰伏的故事。连续 13 代架构,长达 20 年的死磕,英伟达彻底把 CUDA 变成了一个装机量过亿的庞然大物。

这也解释了为什么当深度学习的「宇宙大爆炸」来临时,Alex Krizhevsky 和 Ilya Sutskever 们环顾四周,发现除了英伟达的 GPU,他们别无他选。

Nvidia 不是碰巧站在了风口上,而是花了 20 年时间,自己造了一台造风机。

飞轮一旦转动,就再也停不下来了。因为在这个飞轮里,硬件只是载体,真正黏住开发者的是那成千上万个工具、框架和开源项目。

既然当年是 GeForce 游戏显卡把 AI 算力(CUDA)带给了这个世界,那么十年后的今天,是时候让彻底长大的 AI,反哺它最初的「老家」了。

黄仁勋在台上甩出了惊艳全场的 DLSS 5。简单来说,英伟达正在用 AI 重新发明计算机图形学。传统的 3D 渲染是「结构化数据」,它是死板的、百分百可控的;而生成式 AI 是「概率性计算」,它是天马行空、极其逼真的。

以前这两派路线完全不同,但在 DLSS 5 里,英伟达硬是把它们揉在了一起,用可控的 3D 数据打底,用生成式 AI 去脑补和渲染细节。我们看到的画面,既不会出现 AI 经常犯的幻觉错位,又拥有近乎现实的惊人质感。

「生成出来的世界,变得极其美丽,同时又完全受控。」

但这也不只是一帮极客为了高帧率打游戏搞出来的炫技。黄仁勋说,这种将「结构化数据」与「生成式 AI」融合的逻辑,将会在每一个行业里一遍遍重演。

「这是我最喜欢的一页 PPT」

在演讲的高潮,黄仁勋放出了一张极其复杂的架构图,说这是他最喜欢的一页 PPT。接着,他又半开玩笑地说,团队屡次劝他别放这张图,但他偏要放,「反正你们有些人也是免费进来的,这就是门票钱」。

这张「最不听劝的 PPT」,真正揭示了英伟达接下来要吞噬的真正猎物,全球企业的数据中心。

过去,企业的数据分为两类。

一类是结构化数据,也就是常见的数据库 SQL、Pandas 里的那些庞大表格,它们是商业运转的地基。另一类是非结构化数据,比如海量的 PDF、视频、语音,占据了世界 90% 的信息,却因为难以检索而如同废纸。

过去几十年来,处理这些巨型 Excel 表格一直是 CPU 的绝对领地。当人类去查询这些表格时,CPU 的速度勉强够用。但黄仁勋一针见血地指出了未来的趋势,「未来,使用这些结构化数据库的,将是 AI Agents」。

当成千上万个不知疲倦的 AI Agent,以远超人类百万倍的速度同时向数据库发起查询时,传统的 CPU 计算系统连喘息的机会都没有,只会被瞬间压垮。

为了处理这个问题,英伟达掏出了第一把底层杀器:cuDF。它直接越过 CPU,用 GPU 的恐怖并行算力,把这群数据的处理速度拉爆。

而针对非结构化数据,英伟达掏出了第二把杀器,针对向量数据库和非结构化数据的 cuVS。有了这两个底层库,英伟达实际上是捏住了全球数据处理的咽喉,它正在用 AI 的方式,重新定义企业到底该怎么处理数据。

两个工具库的效果也是相当明显。黄仁勋举了非常多合作伙伴的例子,其中提到雀巢公司每天要处理覆盖 185 个国家的庞大供应链数据,在换上英伟达加速的 IBM Watsonx.data 后,速度飙升了 5 倍,成本却骤降了 83%。

这就是「加速计算」的恐怖之处。当速度实现了几个数量级的跃升,成本就会呈断崖式下跌,新的商业模式就会在此刻涌现。

黄仁勋的演讲进行到这里,满嘴都还是「算法」、「库(Libraries)」和「数据帧」,他直言「英伟达是一家算法公司。」

英伟达将自己的算法库深度嵌入每一家云端,客户为了用 Nvidia 的算力和框架,才会去购买云服务。这也是为什么几乎世界上所有的云服务巨头——Google Cloud、AWS、微软 Azure、Oracle,都得排着队,把英伟达的服务请进自己的机房。

曾经呼风唤雨的云厂商,在加速计算时代,似乎都正悄然沦为英伟达庞大生态的「底层基础设施」和「分销渠道」。

英伟达为什么能做到这一切?黄仁勋给出了一个极度反常识的定义,英伟达是世界上第一家「垂直整合,却又水平开放」的公司。

向下,它自己造芯片、造系统;向上,它懂每一个行业的应用场景。

金融界的量化交易员在用它,医疗行业的医药研发在用它,连电信行业那个只会发射信号的基站,在未来也会变成运行 AI 算法的边缘计算节点。

英伟达甚至还推出了机密计算(Confidential Computing),让极其敏感的企业数据和模型可以在完全隔离的环境下运行,连操作员都看不到。这直接打消了巨头们拥抱 AI 的最后一点顾虑。

它把自己封装成一个个底层算法库,然后像水和电一样,悄无声息地接入了所有人的基础设施;看似把所有的利润都分给了生态伙伴,但实际上,英伟达已经牢牢掌握了整个 AI 时代的命脉。

1 万亿美元,而且还会供不应求

根据黄仁勋的判断,到 2027 年,全球 AI 基础设施规模至少达到 1 万亿美元,而且这还是保守估计,实际计算需求会远超这个数字。

这个数字从何而来?答案藏在过去一年英伟达做的那件最重要的事里——AI 推理。

黄仁勋直言,很多人觉得推理很容易,但事实恰恰相反。

高难度推理是 AI 领域最难的事,也是最重要的事,因为它直接带来收入的增长。为此,英伟达在 Hopper 架构巅峰期做出大胆决定,彻底改变架构,打造出 NVLink 72,引入 NVFP4 精度格式,配合 Dynamo、TensorRT-LLM 及全套新算法,还专门建造了超级计算机来优化整套技术栈。

英伟达押注的结果,远超所有人的预期。

黄仁勋曾宣称 Grace Blackwell NVLink 72 每瓦性能提升 35 倍,当时没人相信他。后来 SemiAnalysis 发布评测报告,分析师 Dylan Patel 说黄仁勋说得太保守了,实际提升是 50 倍。

▲黄仁勋打趣道「Monkey King」「Token King」。

按摩尔定律,一代产品通常只能带来约 1.5 倍提升,没人预料到这次会是 50 倍。

性能提升之后,摆在面前的是另一个问题。一座 1 吉瓦数据中心,按 15 年摊销,建造成本就高达 400 亿美元,设备还没放进去。在这样的投入规模下,放进工厂里的计算系统必须是全球最好的,否则每一瓦浪费的电力都是真实流失的收入。

黄仁勋坦言,全球 AI 工厂里正有大量电力被白白浪费。

为此,英伟达发布了 NVIDIA DSX 平台,基于 Omniverse 数字孪生技术,让工程师在真正动工之前,先在虚拟空间里把整座 AI 工厂仿真一遍,从散热到电网,全部模拟清楚。

配合 Max-Q 技术,系统可以在功耗与算力之间实时动态调节。

黄仁勋说,这里面至少还藏着两倍的优化空间。同一套硬件,英伟达更新算法与软件后,Fireworks 等服务商的 token 生成速度从每秒 700 个跃升至接近 5000 个,提升 7 倍。这就是「极致协同设计」的真实含义。

过去数据中心存放文件,现在它生产 token。土地、电力、机房空间决定了工厂上限,而架构优劣决定了产出多少。黄仁勋说,未来每一家公司都会认真思考自己 token 工厂的效率问题,因为算力,就是收入本身。

更重要的是,地球上的 AI 工厂还没建完,英伟达已经把目光投向了太空。

英伟达 Thor 芯片已通过抗辐射认证,率先应用于卫星之上。英伟达正与合作伙伴联合研发名为 NVIDIA Space-1 Vera Rubin 的新型计算机,目标是直接在太空中建设数据中心。

太空没有空气,无法对流散热,散热是一道极其棘手的工程难题。黄仁勋坦承这件事非常复杂,但他相信英伟达有足够优秀的工程师来攻克它。从地面到轨道,英伟达算力扩张的路线,仍在持续。

自动驾驶的 ChatGPT 时刻,已经到来

物理 AI 是未来十年最重要的课题,而黄仁勋用一句话宣告,自动驾驶的 ChatGPT 时刻,已经到来。

英伟达 RoboTaxi Ready 平台此次新增四位重量级伙伴:比亚迪、吉利、五十铃、日产,携手打造 L4 级自动驾驶汽车。

这四家车企每年合计生产约 1800 万辆汽车,体量惊人。加上此前已加入的梅赛德斯、丰田和通用,英伟达的自动驾驶版图已覆盖全球最重要的一批整车制造商。

英伟达还与 Uber 签署合作协议,计划将具备 RoboTaxi Ready(无人出租车就绪)能力的车辆部署至多个城市,并直接接入 Uber 的全球出行网络。

在工业机器人领域,英伟达与 ABB、Universal Robots、库卡等头部企业展开合作,将物理 AI 模型集成至仿真系统,推动机器人大规模进入制造产线。卡特彼勒的加入,意味着重型工程机械也开始走向智能化。

主题演讲的最后,依旧是经典的机器人环节。

近期,《冰雪奇缘》的雪宝机器人已经现身迪士尼海外游乐园,而这一次,它也迈着憨态可掬的步伐登上 GTC 2026 的舞台,和黄仁勋有来有往地对话,动作自然,反应流畅。

它的肚子里装着英伟达 Jetson 计算机,这是整套系统的大脑。它的步态和动作,全部在 Omniverse 虚拟环境中完成训练,靠的是由英伟达、迪士尼和 Google DeepMind 三方联合研发的 Newton 物理引擎,运行于英伟达 Warp 之上。

正是这套物理仿真系统,让雪宝在进入真实世界之前,就已经充分适应了现实物理规律。黄仁勋说,未来的迪士尼乐园所有角色都将拥有真正的智能,在园区里自由走动,与每一位游客展开真实的互动。

演讲开始的时候,黄仁勋说,我要提醒你们,这是一个技术大会。我们将要谈论技术,谈论平台,最重要的是,我们要谈论生态系统。

生态系统?他实在太谦虚了,用生态帝国也不为过,黄仁勋曾经用一块五层蛋糕来描述 AI 产业的结构:最底层是能源和芯片,往上是基础设施、模型,最顶层是应用。

每一层都不可或缺。这个比喻听起来像是在描述一个分工清晰、各司其职的产业格局。但当你把这块蛋糕从底看到顶,会发现每一层里都有英伟达的手笔。

从最早「潜伏」在玩家机箱里的显卡,到主宰全球云厂商的底层框架;从太空里的抗辐射数据中心,到迪士尼乐园里和我们谈笑风生的机器玩偶。

英伟达用 20 年时间造了一台造风机,如今这台机器已经化身为一台永不停歇的 Token 生产厂。在这个工厂里,算力即权力,生态即壁垒。

当所有的企业、用户都在为如何落地 AI 焦虑时,黄仁勋已经悄悄把通往 Agent 时代的门票,塞进了世界上每一台服务器的咽喉。

这场关于未来 AI 的赌局,英伟达不仅既做庄家又做玩家,它甚至要把牌桌都买下来了。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌