普通视图

发现新文章,点击刷新页面。
今天 — 2026年4月17日首页

一句话,AI 直接给我建了个能跑能跳的「吉卜力」3D小镇

作者 张子豪
2026年4月17日 17:50

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7,世界模型成了另一块角力的阵地。

短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲腾讯混元 3D 世界模型 2.0 体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图:https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」

▲英伟达研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙,资本市场也给出了强烈的回应。

今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。

而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。

目前,腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波,试图从中找到一个答案:这些被认为是 AI 下一阶段的世界模型,到底能解决真实世界的哪些问题?

从看电影到开始游戏

此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。

在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。

点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片,原图约 20MB。

在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边,所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物/人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。

而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通/写实/油画风格等)。

混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产,混元 2.0 真正让我感到「世界」属性的,是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验,确实在模糊了 AI 生成与游戏引擎之间的边界,随着能生成世界的范围不断扩大,角色的探索或许会更有意思。

实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。

对比之前的混元 3D 模型,这次的 2.0 版本在一句话/一张图生世界任务上,不仅支持下载 3D 资产文件,推出了全新的角色模式,而且在画面精细度和真实感方面,也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构|https://3d-models.hunyuan.tencent.com/world/

新的模型架构,打通了「理解、生成、重建」的闭环。

  • HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360° 全景。
  • 空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。
  • HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。

在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。

在过去,我们想要构建/重建一个可互动的 3D 世界,需要成体系的团队和数月的打磨;而现在,通过混元 2.0 这样的工具,只需要一个创意。

并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。

疯狂的世界模型周,疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。

▲World Lab 生成界面,提示词:吉卜力风格的山间小镇,黄昏

看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。

在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天 — 2026年4月16日首页

卸载龙虾后,我找到了更香的爱马仕 Agent,5 分钟带你极速上手

作者 张子豪
2026年4月16日 19:18

「人红是非多」,Hermes Agent 最近真的火了,一边是 GitHub 积累了超过 8 万星,增长趋势完全是直线上升。

另一边是来自国内开发者的公开指责,说 Hermes Agent 是抄袭了他们的项目 EvoMap,Hermes Agent 的负责人在 X 上回应,表示这是无中生有,从没听说过有 EvoMap 这个项目。

双方都僵持不下,但无论是 EvoMap 所提出的三层记忆系统、主动学习,还是 Hermes Agent 内一样的逻辑架构与核心概念,这种形态的 Agent 或许在此刻都比 OpenClaw 更值得关注。

之前 APPSO 介绍过 Hermes Agent 的基本情况,以及与 OpenClaw 的差别。

它最大的特点就是能自动学习进化,把我们反复用的流程,自动保存为可复用的技能;每一次的任务,都会自动从里面总结经验,是一个用的越多越顺手的 Agent。

目前 MiniMax 已经推出了 MaxHermes,能让我们在云端「无痛养马」,腾讯云也推出了一键部署到其轻量服务器上的 Hermes Agent 应用模板。

Hermes 也从「这东西牛不牛」来到了「这玩意怎么装,装完怎么用」的阶段。这篇文章,APPSO 手把手教大家在自己的电脑上安装 Hermes Agent,并上手用简单的例子来说明它和 OpenClaw 的不同。

这次安卓手机也能养马

和 OpenClaw 不同的是,Hermes Agent 不支持单纯的 Windows 系统。如果我们想要在 Windows 电脑上使用 Hermes Agent 必须先安装 WSL2,WSL 是 Windows Subsystem for Linux 的简称,它允许用户在 Windows 上运行 Linux 操作系统。

苹果表示在这波的本地 AI Agent 大战里,不用下场做大模型做产品,也吃到了 AI 最大红利。

不过,Hermes Agent 支持安卓手机,通过 Termux 应用,一台不需要 root 的闲置安卓手机,直接就能变成一台随身 Linux 服务器。

▲安装地址:https://termux.dev/cn/

Termux 是一个运行在 Android 手机上的「终端模拟器 + Linux 环境」,项目在 GitHub 上开源,目前已经获得了 5 万星。

我们可以简单地把它理解成在安卓里开了一个接近 Linux 的命令行世界;不用 root,也能安装很多常见开发工具、能像在服务器上一样敲命令、装软件、跑脚本。

在 Hermes Agent 的官方文档里,有一栏专门用来介绍如何在 Android 系统上使用 Termux 运行,我们只需要在手机上安装好 Termux 应用之后,其他操作和电脑类似,部分的功能像 Docker 隔离、后台常驻、语音能力会受限制。

▲官方文档:https://hermes-agent.nousresearch.com/docs/getting-started/termux

本地安装之外的选项,云端部署则是和 OpenClaw 一样,目前腾讯云已经宣布率先支持 Hermes Agent 一键部署,通过旗下轻量应用服务器 Lighthouse 内的 Hermes Agent 应用模板。

仿佛过去的记忆在又一次敲打我,接下来大概是各家的云平台,都逐渐推出相关的一键接入服务。

MiniMax 在今天也宣布推出第一个云端沙箱 Hermes,MaxHermes。和 MaxClaw 的体验类似,我们需要订阅 MiniMax 付费计划,同时连接 MiniMax Token Plan,完成两项升级后才能在 MiniMax 上部署 MaxHermes。

从安装到连接飞书/微信/QQ,只要五分钟

打开终端(macOS 用 Terminal,Windows 用 WSL2),粘贴这一行命令。

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

它会自动处理好所有依赖——Python、Node.js、ripgrep、ffmpeg,以及 Hermes 本体。不需要你提前安装任何东西。

等它跑完,再执行,

source ~/.bashrc

这一步是让终端认识新装的 hermes 命令,如果跳过,下一步执行 Hermes,会报错「找不到命令」。整个安装过程大约两到三分钟,取决于网速。

安装完成之后是和 OpenClaw 类似的配置阶段。我们需要配置模型 API,选择对应的模型供应商,并复制粘贴 API。以及选择连接何种即时通讯软件,微信、QQ、企业微信等。

▲选择 Quick Setup

这些配置可以在之后的 Hermes setup 命令下再次进入,这里我们演示一遍按照 Hermes Agent 推荐的流程进行设置。

关于模型,第一项 Nous Portal 是 Hermes Agent 公司所推出的 API 订阅方案。目前小米 MiMo V2 模型可以透过 Nous Portal 连接,免费使用到本月 22 号。

其余的 OpenRouter、OpenAI Codex、Kimi、MiniMax、智谱 Z.ai 等,都可以在对应的模型开放平台,订阅相关的 Token Plan 之后,创建专门用于 Hermes Agent 的 API。

▲这里我们选择了 OpenRouter,OpenRouter 提供了多款可以免费使用的模型

使用 Nous Portal 服务,必须先订阅 Nous Research 计划,才能免费使用小米 MiMo 模型。这里可以选择免费计划,每月 0 元。不过即便是 0 元的订阅计划,也需要使用 Stripe 完成支付,必须有一张 VISA/万事达的信用卡,才能完成订阅。

▲订阅网址:https://portal.nousresearch.com/products

选择了模型供应商之后,继续选择 Hermes Agent 使用的具体模型。Nous Portal 支持的模型非常多,免费的小米 MiMo V2 Pro 需要滑动到最下面的位置才能看到。

▲ 我们使用 OpenRouter 上的免费模型,来自英伟达的 Nemotron 3

继续设置聊天平台,目前最新的 Hermes Agent 版本已经支持了钉钉、飞书、企业微信、微信、QQ、iMessage,以及 Telegram 等常见聊天平台。

▲键盘上下切换不同的平台,按空格代表选中,Enter 进入配置。这里我们选择飞书作为消息通道。

不同的平台配置方式不同,按照 Hermes Agent 推荐的操作执行。如果你选择飞书,它会给我们一段链接,要求在手机飞书,或者飞书网页版内打开,打开后是自动创建机器人的界面,创建完成,选择默认操作,就连接成功了。

▲ 飞书连接成功,这里的网关安装可以选择 Yes,亦可在之后的终端中执行命令 hermes gateway install

在飞书应用内,和机器人发起聊天,机器人会回复一条要求执行 hermes pairing approve feishu XXXXXXX 的消息,将这行命令复制到终端里执行,我们就能在飞书内和 Hermes Agent 聊天。

一切配置完成,在终端里输入 hermes,这匹马就算是牵到了我们电脑里。

询问它能为我们做点什么,可以看到它可以执行的操作,包括终端命令、文件操作、网页交互、代码执行、任务管理、记忆和技能、会话回溯、后台作业、子代理等多个功能。

在最新版本的 Hermes Agent,也提供了可视化、界面友好的控制台,可以让我们不用在终端里,完成一切的操作。在终端里输入 hermes dashboard,会自动打开一个地址为:http://127.0.0.1:9119 的本地网页。

▲Hermes Agent WebUI 控制面板,可以在里面设置不同的模型,连接不同消息平台。

用的越多,越省事

安装很容易,怎么用好 Hermes Agent,才能感受到它和 OpenClaw 最大的差别。

我们现在用 AI 的逻辑,无论是 OpenClaw 还是 ChatGPT,本质上还是我们输入,AI 输出,关掉对话,任务就结束。

Hermes 要改掉的就是这件事,有着和 OpenClaw 同样多的功能,另外还有会自动累积的记忆,会生长的能力。每一次交互,它都在变得更了解我们,偏好、工作方式、我们反复做的那些事。

▲使用 Hermes 是一个飞轮,从执行任务,到创建 Skills,写入记忆到下一次的任务执行

例如我们简单地在 Hermes 里面告诉它要求设计一个老少皆宜的益智类小游戏,并且在后续的交流中告诉它要多设计一些关卡,有难度的区分,界面要更精美等。

▲在 Hermes Agent 内,所使用的模型,和当前上下文窗口使用占比,会一直固定在终端底部。

这轮任务结束,我们问 Hermes,要它说说我的用户画像是什么。它很快就从上一个做益智小游戏的项目里,定位到我使用中文交流、表达直接具体、注重细节和精致度等特点。

和大部分 AI Agents 所使用的关键词检索不同,Hermes 使用的是语义相似性的向量查询,它会根据「基于之前的反馈进行迭代改进」,得到我重视反馈循环,并将这一点放进用户画像内。

基于 Hermes 的持久记忆和累积学习,用它来搭建知识库是再合适不过。

我们使用 Hermes 内置的 LLM-Wiki Skill,结合 Obsidian 笔记平台和飞书,在手机上把自己想到的任何事情,发给飞书,Hermes 就会自动帮我们把这些碎片的内容整理成知识库,并在 Obsidian 内以结点的形式呈现。

▲输入 /llm-wiki 之后会提醒我们输入想要创建什么主题的知识库

这里我们告诉它创建一个类似于我的「第二大脑」的知识库,我会把我看到的好文章、有意思的选题、素材统统发给它,Hermes 需要帮助我整理。

当把文章发送给 Hermes 之后,我们在 Obsidian 里面立刻能看到它的处理,把文章的要点总结,同时下载文章全文到 raw 文件夹内的 article 分类下,同时会自动处理不同的概念和主题,彻底贯彻 Wiki 的逻辑。

▲一开始的微信公众号链接 Hermes 没有顺利抓取,使用爱范儿网页链接后,能抓取原文并自动保存

在 Hermes Agent 里还有许多 Skills,我们在安装时,就已经内置了有 79 个 Skills。官方的 Skills Hub 显示目前提供了 16 个类别,来自 Anthropic、Lobe Hub 等社区公开的 Skills 平台,共计 521 个 Skills。

这些 Skills 涵盖了从日常的生产力工具,到代码审查、PPT、PDF、OCR、YouTube 转写,再到模型微调、vLLM 部署、Stable Diffusion、Whisper、音乐生成,几乎把「数字办公 + 开发 + 创作 + AI 工程」串成了一整套工作流。

例如我们可以直接使用 manim-video.skill,在 Hermes Agent 内就能创建一个简单的视频。

▲官方提供的视频案例,大多数时候用来创建一些简单的视觉,解释数学公式等视频

多 Agents 协作也是现在的热门玩法,在 Hermes Agent 内,我们可以用 Profiles(配置文件) 来跑多个独立 Agent。每个 profile 都是一个完全隔离的 Hermes 环境,有自己单独的个性化设置,像是网关、SOUL.md、记忆、SKills 以及环境变量等。

也就是说,我们可以同时有一个写代码的 Agent、一个研究用的 Agent、一个私人助理 Agent,它们互不污染。通过定义的流程,这些 Agents 能在 Hermes 里面形成多 Agent 工作流。

在 Hermes Agent 的官方文档内,有相当多的 Hermes 指令和教程,还有一篇专门教大家如何从 OpenClaw 迁移到 Hermes 的文章。

▲https://hermes-agent.nousresearch.com/docs/guides/migrate-from-openclaw

如果你想从 OpenClaw 转到 Hermes,按照官方教程,三行命令就能快速迁移。

一键卸载指南

装到一半发现不知道怎么继续,或者使用了一段时间觉得不行,想要卸载也很简单。

官方提供了一键卸载命令 hermes uninstall,在终端运行之后,我们会看到保留数据、完全卸载和取消三个选项。

其中保留数据会将 Hermes Agent 的相关配置,像是模型的 API、以及连接到不同第三方通讯工具的 API 保留,只是将整个框架删除。我们可以直接输入 2,表示完全卸载。

如果仍然不放心,回到初始的终端页面,执行下面这三行命令,也会将电脑上所有关于 Hermes Agent 的内容全部删除。

rm -f ~/.local/bin/hermes
rm -rf /path/to/hermes-agent
rm -rf ~/.hermes

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Claude Opus 4.7 或本周上线,但 Anthropic 要查你证件了

作者 张子豪
2026年4月16日 10:15

生产队的驴都没有 Anthropic 这么忙,从今年年初 Claude Cowork 发布之后, Anthropic 的更新就没有停止过,说一天一项都不为过。

根据 the information 的报道,Anthropic 在本周甚至会推出 Opus 4.7,和前几天社交媒体上爆料,类似 Lovable 的 AI 设计工具。

与此同时,Anthropic 在帮助中心更新的一则内容,引发了更大的争议。

官方正在为 Claude 的「部分使用场景」引入身份验证,例如在触及到某些能力、平台例行完整性检查、安全与合规要求时,用户会被要求验证身份,此举被很多网友推测是针对中国用户的「实名制」。

▲ https://support.claude.com/en/articles/14328960-identity-verification-on-claude

Anthropic 给出的核心理由很直接,强大技术要负责任地使用,平台需要知道「谁在使用」。

▲目前,已经有网友发现,在 Claude 内尝试订阅 Max(即最高档会员计划)时,会被触发身份验证。

能不能继续用成了个问题,但 Anthropic 这边的发货是马不停蹄。今天凌晨,Anthropic 再对桌面版的 Claude Code 进行了重新设计。

Claude Code 支持一个窗口内并行运行多个 Claude 会话,同时还新增了侧边栏管理会话、集成终端、文件编辑、HTML / PDF 预览、更快的 diff 查看器、拖拽式布局等多项新功能。

除了软件交互层面的更新,Anthropic 还给 Claude Code 加了一个很关键的新能力,「Routines」。

顾名思义,它是把这些可重复执行的日常任务,完全自动化,支持定时和触发运行。同时,这些任务可以跑在 Anthropic 的 Web 基础设施上,不依赖于本地 Mac 在线。

关掉电脑,Claude Code 还在干活

定时任务在 OpenClaw 出来之后并不算新鲜,无论是使用已有的工具配置 Cron Job,还是通过编写 HEARTBEAT.md 文档来告诉 Agent 需要以什么周期来跑什么任务。

Claude Code 这次更新的 Routine 功能,一方面是接管了这些重复性的任务,另一方面它既可以本地也可以远程,能做到不依赖我们的电脑在线,运行在 Anthropic 托管的云基础设施上,笔记本合上也能继续跑。

本质上,Routine 是一个保存在云端的 Claude Code 配置包,里面包括提示词、代码仓库、连接器和运行环境。

Routine 触发方式有三种,三种触发方式分别瞄准三种不同场景。

  • 定时触发:按小时、每天、工作日、每周,或者用 cron 自定义
  • API 触发:外部系统发一个 HTTP POST 就能拉起任务
  • GitHub 触发:PR、push、issue、workflow run 等事件发生时自动执行

定时触发最直觉,每天晚上跑一次日志整理,给新 issue 贴标签、分配负责人,早上团队上班时收到一份整理好的摘要。这些任务的共同点是:重复,规律,不需要人实时参与判断。

▲Claude Code 在网页端也能使用 Routine

API 触发针对的是已有工具链的接入场景。例如监控系统发现错误率异常,触发 Routine,Claude 自动拉取内容跟踪,并给出修复建议。

GitHub 事件触发则把 Routine 直接嵌进代码协作流程。Routine 能按照项目配置,自动对代码进行审查,以及决定是否要合并仓库等。

一个 Routine 可以叠加多种触发方式。比如同一个任务,既能定时每天夜里跑,也能在有事件触发时跑,还能被部署脚本手动触发。

这些场景的共同特征都是人工也可以做,但是做起来很枯燥又容易忘记。Routine 的重点就是把这些「无人值守、可重复、有明确结果」的工作流完全自动化。

Routine 主要是配合 GitHub 使用,官方给出的典型场景都是集中在项目开发上,例如代码审查、项目部署验证、文档修复等软件开发常见的流程。这也符合 Anthropic 一路以来在 B 端,在 AI Coding 方向上的发力。

目前 Routines 只对 Pro、Max、Team 和 Enterprise 用户开放,而且每天有次数限制。Pro 用户每天最多运行 5 个 routines,Max 用户 15 个,Team 和 Enterprise 用户是 25 个。

桌面端大改版,从工具到工作台

同一天发布的还有 Claude Code 桌面端的大改版。

▲ 右下角的 Claude Code 像素吉祥物,点击它,还会有鞭子抽打的效果

新版桌面端将顶部的 Chat、Cowork,和 Code 分类栏移动到左边的侧边栏顶部。增加的多对话并排,也是通过左侧边栏管理,现在我们可以在一个窗口里同时跑多个 Claude Code 对话,以拖拽的形式就能分屏显示或置顶不同对话。

我们也在 Claude Code 桌面端体验了一波这次的更新。

和之前的 Claude Code 终端处理多个会话不同,我们不再需要维持多个终端窗口。现在的 Claude Code 同样如此,一个人就能同时监督多条不同的任务线。

▲在电脑上是应用可以这样分屏拖拽,在应用内是文件,在 Claude Code,是每一个运行的 Agent

此外,Claude Code 还内置了终端、文件编辑、HTML 和 PDF 预览,原先需要用浏览器打开,或者编辑器处理,这些反复切换的场景,现在在同一个窗口就能完成。

如果你是开发者,想要查看每次更新后 Claude 动了哪些地方,现在也提供了像 Git 一样的 diff 视图,开发者可以快速看到不同版本之间的区别。

以前是在 Cursor、终端里面用 Claude 模型,现在 Claude Code 直接把这些常见的代码编辑器会有的功能,统统搬上来。

这次桌面端改版的方向,很明显是要把 Claude Code 从一个单一的工具,变成一整套全面的工作台。

把两个更新放在一起看,Routines 解决了「我不在时谁来做」,桌面端升级解决了「我们在时怎么同时做多件事」。这两项更新既让 Claude Code 有了在后台独立运行的能力,也让用户在前台的操作密度和体验更强了。

Claude Code 桌面端负责人 Anthony Morris 也发推文说,他自己连续好几周没有用过终端、代码编辑器、集成开发环境这类产品了。

现在的 Claude App,已经完全从一个聊天的对话工具,进化到了真正接管任务的调度和执行本身。

▲Karpathy 此前发文表示传统的编程开发软件形态正在改变,文件不再作为基本处理单元,而是 Agents。

网友@Yuchen Jin 也说 Claude Code 走了一条和 Cursor 完全不同的路,这两项更新很清楚地说明,Anthropic 正在重新设计用于智能体编码的 IDE,完全地脱离之前 VS Code 变体(像是 Cursor、Windsurf、TRAE、CodeBuddy 等应用)的形态。

Anthropic 表示这周还有更新

根据 The Information 今天的独家消息显示,Anthropic 还在准备下一个旗舰模型 Claude Opus 4.7,以及一款 AI 设计工具,帮助用户用自然语言生成网站、演示文稿和落地页。

这两款产品最快本周就会发布,消息一放出来,Adobe、Wix 和 Figma 的股价在几小时内跌超 2%。

▲Figma 股价

模型本身的能力边界、面向(企业)开发者的 Agent 工作流、面向普通用户的生产力工具,Anthropic 在这三条线上同时加速,收获不少新增用户和好评的同时,也带来了不少的算力压力。

除去此前宣布「封杀」OpenClaw,以减少额外的 Token 支出。Anthropic 近期还调整了 Claude 企业版的定价方式,不再主要按「席位」收费,而是在每月每用户 20 美元基础上,额外按实际 AI 使用量收费。

这次变动主要影响大企业客户,尤其是 150 人以上、重度使用 Claude Code 和 Claude Cowork 的团队,部分客户成本可能翻倍,甚至涨到 3 倍。

Uber CTO Praveen Neppalli Naga 透露,Uber 在 2026 年才过去几个月,就已经用了一整年的 AI 预算,核心原因就是 AI 编程工具使用量飙升,尤其是来自 Anthropic 的 Claude Code。

▲Anthropic面临的成本压力,随着运行AI模型的成本激增,Anthropic下调了其最乐观的毛利率预期,其中绿色代表收入,红色代表模型推理支出,后面两项分别是截止到 2025 夏天和 12 月中旬预期

算力紧张,定价调整是必然的,但 Anthropic 增长的势头目前没有停下来的迹象。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

取代龙虾的是爱马仕?狂揽4万星的Hermes Agent,不只是OpenClaw平替

作者 张子豪
2026年4月10日 17:18

在之前那篇讨论 Harness 该怎么翻译的文章,有读者留言说可以叫 Hermes 爱马仕。

本以为是谐音梗,没想到确实有一个 Agent 产品叫 Hermes,而且在 GitHub 的热门榜单上,整个月都排名第一,目前已经累计有 4.8 万个 Stars。

和这段时间以来爆火的 Agent 龙虾不同,一个是支持所有操作系统和平台的专属个人 AI 助手,Hermes 的介绍写着「the agent that grows with you」,与你共同成长的 Agent。

听着就很高级,但这确实是 Hermes Agent 的独特之处。

它有一套内置的学习循环框架,OpenClaw 靠的是修改配置文件,联合多个 Agents 来处理各项复杂的任务,Hermes Agent 是一个单一的 Agent 框架,它的能力会随着实际使用的运行时间增加而不断增强。

它解决的问题是,当所有人都在讨论 agent 能做什么,但没人注意 agent 用完之后什么都不留下,而 Hermes Agent 现在能记住「什么方法有效」。

社交媒体上也不少推荐 Hermes Agent 的帖子,有人说刚刚从 OpenClaw 转移到了 Hermes,是他做过最明智的选择。

还有人分享「爱马仕橙皮书」,表示 Hermes Agent 是一个被严重低估的产品,它算得上目前最强大的开源 AI Agent 框架之一。

Hermes Agent 由 Nous Research 团队研发,查看 GitHub 上的发布记录,从 3 月中旬更新 V0.2.0 版本到昨天发布 V0.8.0,每次更新都有大量代码提交合并,以及实用的功能更新,是一个非常活跃的开源项目。

▲首次推出是 2 月 25 日,https://nousresearch.com/releases

Karpathy 之前分享的 LLM Wiki 笔记大法,利用大语言模型和 Obsidian 笔记工具,完成对自己知识和研究库的搭建,也被立刻加入到了 Hermes 的内置技能里。

Hermes Agent 不仅支持安装在电脑上,通过 Termux 终端模拟器,还能安装在 Android 手机上。模型和网关的配置与 OpenClaw 类似。

值得一提的是,目前还没有被 Claude「封杀」,我们仍然可以通过登录 Claude 的 Pro 及以上会员直接完成大模型配置。同时,Hermes Agent 也提供了自家的,基于订阅模式的 Nous Portal 登录。

▲Nous Research 团队的 Hermes 4 模型

今天,小米大模型也发文正式宣布,「Xiaomi MiMo 已接入全球顶级 Agent 框架 Hermes Agent,并且限免两周。

🔗 Hermes Agent 官网:https://hermes-agent.nousresearch.com

凭什么是 OpenClaw 真正的对手

OpenClaw 的核心是把我们的 AI 从聊天框里彻底拉出来,接入到实际的工作、学习和生活中,真正执行任务。它能连接微信、企微、飞书,能跑终端命令、控制浏览器,帮我们发邮件、管理日程安排等。

但 OpenClaw 有一个缺陷是它无法从我们日复一日的使用中,自动学习进化。

OpenClaw 的记忆是静态的——我们把信息写进配置文件,它读取,会话结束,等下次再读。它不会主动地从执行过程里提炼什么,也不会因为我们纠正过它一次,下次就自动做对。

所有的工作流用过一遍,还是需要我们提醒它,打包成 Skill 或者专门的提示词等。

虽然现在有一些专门的 Skill 被设计用来赋予 OpenClaw 自学习的能力,但是、 Hermes Agent 是从底层架构的学习循环,到记忆系统,和 Agent 执行内部,都把「越用越懂你」作为重点。

Hermes Agent 的特别之处是一个闭合的学习循环 Learning Loop。

每次任务完成后,Hermes 会检查:这次执行值不值得写下来?触发条件很具体,工具调用超过 5 次、中途出过错然后自己修复了、用户做过纠正、或者走了一条不明显但有效的路径。满足任何一条,它就会在 ~/.hermes/skills 目录里生成一个 Skill 文件。

和技能市场上那些被广泛使用的 Skill 一样,这份自动生成的文件是下次可以直接跟着走的操作流程。名称、描述、步骤、涉及的工具调用,全部写清楚。格式遵循 agentskills.io 开放标准,理论上是可以跨兼容 agent,在 OpenClaw、Claude Code、Cursor 等工具内使用。

技能文件不是一次写死。Hermes Agent 在后续执行中发现更好的路径,会直接修改。修改优先用 patch,打补丁的方式,只传入旧字符串和替换内容,而不是整体重写。

这个选择背后有两个考虑:全量覆写容易把原来好用的部分一起破坏掉,而 patch 只碰有问题的地方,更安全,token 消耗也更少。

记忆,是 Agent 最难处理的问题

另一项和 OpenClaw 的差别,是记忆系统。

前几天,《生化危机》女主角 Milla Jovovich 和工程师 Ben Sigman 联合发布了开源 AI 记忆工具 MemPalace,两天内获得超过 23000 个 GitHub stars。

它的设计灵感来自古希腊演讲家的记忆技法,把要记的东西放进一座想象中的建筑的不同房间,需要时走进去取。

整个系统分成五层:Wing(项目或人物)、Hall(记忆类型)、Room(话题)、Closet(压缩摘要)、Tunnel(跨话题引用)。仅靠这个层级结构,MemPalace 称检索准确率就从 60.9% 提升到 94.8%。

MemPalace 的核心判断是:不应该让 AI 来决定什么值得记,AI 的判断不可信,不如全存下来,让检索来决定什么有用。

月初 Claude Code 50 万行代码泄露事件中,另外一种关于记忆的解决方案则是依靠 AI,有网友发现 Claude 会使用做梦的方式,用 Auto Dream 来自动整理我们的记忆文件。

Hermes 的记忆系统也经过专门设计,一共分四层,每层负责不同的事,在不同的时机被调取。

第一层叫常驻提示记忆。两个文件,MEMORY.md 和 USER.md,存放需要在每次会话开始时自动加载的上下文。总字符上限只有 3575 个,这个数字是 Hermes Agent 故意收窄的,目的是强迫我们筛选,而不是什么都往里塞。

第二层是会话归档。每次对话写入 SQLite 数据库,用全文索引检索。Hermes Agent 需要历史上下文时,主动发起查询,把检索结果经过一次 LLM 摘要,只把和当前任务相关的部分注入进来。

▲文档链接:https://hermes-agent.nousresearch.com/docs/user-guide/features/memory

第三层是技能文件,也就是上面说的学习循环的产出。默认情况下,系统提示里只加载技能的名称和简短描述,全文按需调入。这个设计的效果是,技能库可以从 40 个增长到 200 个,而上下文成本几乎不变。

第四层叫 Honcho,是可选的用户建模层,被动地在跨会话之间积累你的偏好、沟通风格和领域知识。适合把 Hermes Agent 当成日常个人助理长期使用的场景。

这四层的分工原则也很清楚,如果某件事需要在每次对话里都出现,放第一层;如果只在特定话题出现时有用,留在第二层等检索;如果是可复用的操作流程,让第三层处理;如果是用户的长期画像,交给第四层。

一条消息到达 Hermes Agent,无论来自 Telegram 等第三方网关,还是命令行,进入同一套同步执行引擎:生成任务 ID,从记忆层构建系统提示,优先复用缓存版本,避免重复构建,发送前检查上下文长度是否接近上限,调用模型。

▲图片来源:https://mranand.substack.com/p/inside-hermes-agent-how-a-self-improving

除了在任务执行的过程中会使用学习循环自动更新,Hermes 在每次会话中间还会触发一个叫周期性微调(Periodic Nudge)的机制。

在没有用户输入的情况下,系统会定期自动向 agent 发一条内部提示,要求它回顾最近的操作,判断哪些值得写入记忆。完全不需要用户触发,Hermes Agent 自己决定什么值得保留。

上手 Hermes Agent 需要多少成本

和安装 OpenClaw 一样,Linux、macOS、WSL2 直接一行命令,Android 机上使用 Termux 也支持安装。

Hermes 有提到不支持原生 Windows,我们需要另外安装 WSL2,Windows Subsystem for Linux,简称 WSL,是一个在Windows 上能够运行原生 Linux 二进制可执行文件的兼容层。

安装命令会自动处理大量依赖,包括 Python 3.11、Node.js v22、ripgrep、ffmpeg、虚拟环境、全局命令、LLM 等配置。安装完成之后的界面也 Claude Code 那些终端工具一样,通过一些具体的命令来实现和 Agent 的交互。

在模型配置上,可选推理服务商范围很宽:Nous Portal(订阅制,零配置)、Anthropic(直接用 Claude,可以用 API key 或 Claude Code 授权)、OpenRouter、DeepSeek、Hugging Face、阿里云 DashScope(Qwen 系列)、GitHub Copilot,还有任何 OpenAI 兼容接口,包括 Ollama 本地模型。

还有小米的 Xiaomi MiMo-V2 系列,包括支持百万上下文 Token 的 MiMo-V2-Pro、全模态的理解能力的 MiMo-V2-Omni,以及 Flash 模型。小米还提供了 4.8-4.22 为期两周的限免试用,更新 Hermes Agent 到最新版本,通过 Nous Portal 免费调用小米大模型。

Hermes Agent 还有一个 Auxiliary Models 模块,它是 Hermes 里专门处理「侧任务」的一组轻量模型配置,不负责主对话,但负责很多高频、关键、又不值得占用主模型的工作。

例如像是图像分析、网页提取、Skill 匹配、记忆处理等不同的任务会自动分配不同的模型。在默认情况下,辅助任务会自动检测并优先使用 Gemini Flash,无需手动配置。

这和 Anthropic 今天推出的 advisor 功能类似,都是适合主模型昂贵,但想把边角任务切到便宜模型的机制。Hermes 则是直接把「多模型编排」做成了底层架构。

消息平台方面,支持列表和 Openclaw 类似,Telegram、Discord、Slack 和飞书是功能最完整的几个,语音、图片、文件等各种格式都支持。一套网关进程连接所有平台,会话统一管理。

Hermes Agent 其实很难说是一个花几分钟安装完了,就能快速上手用起来的工具,它更多的是一套我们需要运行和维护的基础设施。

如果我们只是想要一个能在手机上发消息控制的 AI 助理,OpenClaw 会是更简单的路径,写一个 SOUL.md 配置文件,跑起来,接上 Telegram,完成。

Hermes Agent 适合的场景是,我们有一些重复的、会演化的工作流,同时我们愿意让 agent 从使用习惯中积累经验,我们会期待希望三个月后的 agent 和第一天的 agent 不一样。

在社交媒体上,一些网友分享使用 Hermes Agent 的应用实例,包括像是商业自动化,把企业的客户关系管理 CRM 和知识库连接在一起;以及营销管理,将内容生成和社群平台的发布统一自动化;还有经典的代码生成等软件工程项目等。

随着我们在各个真实的业务场景中应用这些技术,一个不争的事实是:Agent 正在加速杀入真正的生产环境。

对于 Hermes,有人说它只是 OpenClaw 的一个「轻量级平替」,也有人说它是单一智能体的一次进化。但无论如何,Agent 的演进路线,绝对不会止步于 OpenClaw 设定的框架。

而不管是 Hermes 还是 OpenClaw,现在所有的开源 agent 方案,都还留着各自的缺口。能让 agent 真正打穿主流、成为普通人日常基础设施的那个形态,大概还没出现。

解决了复杂的记忆系统,还有庞大的 AI 安全问题,给了 AI 手脚又要想着怎么给他上枷锁 Harness,还有安装太复杂,门槛太高,似乎总有各种受限的地方。

只能说,Hermes 这次确实给了 Agent 一个新的方向,它让 Agent 从一个用完归零的工具,变成了能从失败里学到东西、能记住教训的一种搭档关系。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

独家|阿里认领屠榜神秘模型「欢乐马」,ATH 郑波团队打造

作者 张子豪
2026年4月10日 14:12

刚刚,阿里巴巴 ATH 确认 HappyHorse 为阿里 ATH 旗下创新事业部研发。

前段时间网友们一直在猜测的神秘视频生成模型 HappyHorse,正式在微博介绍自己,来自阿里 ATH 创新事业部的内测产品,目前尚未上线,网上流传的「官网」都不是真的。

阿里巴巴 ATH 方面表示:HappyHorse 是阿里 ATH 旗下创新事业部研发的模型,目前正处于内测中,也会于近期开放 API。

ATH 创新事业部已启动一个 AI 时代的全新交互方式探索计划,HappyHorse 是这个探索方向的一部分,更多的产品我们会陆续推出。

APPSO 独家获悉,负责此次 HappyHorse 视频生成模型的是来自阿里 ATH 的郑波团队。

郑波是阿里巴巴副总裁,清华大学计算机系博士,2006 年到 2017 年,领导谷歌的展示广告算法团队以及中国地图团队。

他在 2017 年 9 月加入阿里巴巴,曾担任淘宝搜推算法负责人、阿里妈妈 CTO、淘天集团算法技术负责人,主要研究方向为大模型,多模态,决策智能,深度学习,搜索、推荐和广告算法以及引擎优化等领域。

本周三,HappyHorse-1.0 视频生成模型突然出现在 AI 评测平台 Artificial Analysis 的视频竞技场榜单上,以压倒性的表现登顶文生视频、图生视频等多个赛道,直接超越前段时间大火的 Seedance 2.0。

网友们都在猜测 HappyHorse 究竟是哪一家模型厂商的作品,一些山寨的「快乐马」网站也开始在社交媒体上传播,声称可以提供模型访问权限。

直到今天,HappyHorse 通过官方微博账号 HappyHorse_AI 正式发文,确认是由阿里 ATH 创新事业部研发。

AI 评测平台 Artificial Analysis 也在阿里确认这一消息后,在 X 平台迅速发文,表示 HappyHorse-1.0 目前已经在视频竞技场的所有排行榜上都取得了第 1 或第 2 名的好成绩。

在平台「无音频」排行榜上,HappyHorse-1.0 稳居第一;「有音频」排行榜中,它的 Elo 分数几乎与字节的 Seedance 2.0 完全相同。

Artificial Analysis 还提到 HappyHorse-1.0 支持四种视频生成模式:文本转视频、图像转视频,每种模式均可选择是否添加原生音频,而 API 接口计划于 4 月 30 日开放。

在这则推文下,Artificial Analysis 给出了多个 HappyHorse 视频生成的实例。

通过与Seedance 2.0、Kling 3.0 Pro、grok-video-imagine 和 PixVerse V6 的对比,我们能看到 HappyHorse 这匹突然杀出来的黑马,潜力确实不小。

▲提示词:一部皮克斯风格的短片,讲述一个紧张兮兮的小交通锥梦想成为大型比赛的终点线标志杆的故事。

▲提示词:一个篮球在空荡荡的室内球场上弹跳,每一次拍打在光滑的硬木地板上都会发出响亮而有节奏的回声,并伴有橡胶运动鞋的尖锐吱嘎声。

▲提示词:一束手电筒光束探索着一个洞穴系统,照亮了潮湿的石灰岩地层。光线捕捉到闪闪发光的结晶方解石沉积物。当光束穿过浅浅的积水时,在水下地面上投射出明亮的光影图案。节奏的回声,并伴有橡胶运动鞋的尖锐吱嘎声。

▲提示词:一个可爱的小蝙蝠侠,有着巨大的头、小小的身体和大大的眼睛,看起来很可爱而不是可怕。

在阿里今天正式宣布之前,前阿里千问大模型负责人林俊旸昨天就在 X 转发了关于 HappyHorse 的消息,附文「happy horse is insanely happy」。评论区当时就有人在猜测,看来 HappyHorse 可能是千问的视频模型。

阿里这段时间以来,关于 AI 的调整相当频繁。

3 月 16 日,阿里巴巴正式成立 Alibaba Token Hub「ATH」事业群,由 CEO 吴泳铭直接负责,ATH 覆盖了通义实验室、MaaS 业务线、千问事业部、悟空事业部、AI 创新事业部,几乎把阿里现有 AI 关键拼图全部装进了一个框架里。

4 月 8 日,CEO 吴泳铭发布全员信,再宣布 AI 相关组织的重大调整,成立集团技术委员会,原通义实验室升级为通义大模型事业部。

短短 23 天,完成了两次 AI 组织架构的调整。

HappyHorse 模型的推出,大概能看到阿里 AI 战略的主线,会不断地从模型能力,到平台分发,再到具体应用,都要争做第一,实现完整的闭环。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

时薪 6 毛钱,Anthropic 开始出租 AI 牛马

作者 张子豪
2026年4月9日 17:41

一个软件工程师每月的人力成本,根据国家统计局的数据粗略估算,在国内是 2 到 3 万元左右。

如果只算他一天 8 小时在岗时间里真正执行任务的部分,折合下来大约是每小时 110 到 170 元。

Anthropic 今天又推出了一项新功能 Claude Managed Agents, 有一项定价写着 $0.08/小时,折合人民币不到 0.6 元。

这个数字本身不是重点,重点是它意味着 Anthropic 开始按小时计费。不不仅收取使用的 Token 费用,还开始计算 Agent 跑了多长时间。

▲Claude Managed Agents 框架

Managed Agents 提供的是一整套现成基础设施,也就是 Anthropic 所说的 agent harness:包括工具调用、记忆系统、权限控制、云端长时运行、Agents 之间互相监控,以及沙箱环境等功能

举个例子,假设我们要雇一个人帮你干活,会遇到什么麻烦?

招人阶段,要准备办公位(服务器)、要装电脑配系统(开发环境)、要写岗位职责说明书(代码逻辑)。

干活阶段:干到一半断网了,进度全丢(会话中断)、想查他干了啥,没有记录(无法审计)、担心他乱翻公司机密(权限管控)。

▲在 Claude 控制台内可以快速开始创建一个 Managed Agents

而 Claude Managed Agents 在这个过程中的作用,就是把这些麻烦事全包了。Anthropic 表示,别再自己搭那个破烂不堪的草台班子了,把基建交给我,你们只管去想怎么赚钱。

通过在 Claude 官方的 Agent 搭建控制台或者使用 API 的方式,我们直接下达 Agent 需求,Claude Managed Agents 负责给他工位、看着他干活、保证他不乱来

目前,Claude Managed Agent 正在公测中,任何人、企业都可以快速地构建一个能干活的 真.Agents 数字员工。

几天就能从零开始搭建一个 Agent

过去两年用了无数的 Agents,几乎每天都有开发者推出自己的 Agents 产品。有的面向编程代码,有的面向设计,最后这些 Agents 都被统一到,去年是 Manus 类,今年是 OpenClaw 类的大家族里。

但如果想要自己部署一个更个性化的 Agents,尤其是一个能给其他人用的 Agent。我们需要自己处理对应的服务器,要设置复杂的机制防止它崩溃,要给它接管数据库的安全权限,还要用合理的方式,管理 Agent 的上下文记忆。

Managed Agents 把这些全部承包了。

它的结构围绕四个概念展开。Agent 定义这个员工是谁:用什么模型、遵循什么系统提示、能调用哪些工具。Environment 是一个配置好的云端容器,预装了 Python、Node.js 等运行环境。

Session 是一次具体的任务运行实例,有完整的事件历史,随时可以查。Events 是我们和 agent 之间传递的消息——任务指令、工具结果、状态更新。

过去那种「手搓」Agent 的复杂模式,直接被 Claude Managed Agents 压缩成了全自动的流水线。

如果你是开发者,可以直接调 API 或者用 CLI,几行代码创建 agent、配置运行环境、启动 session、接收实时事件流。整个流程文档写得很清楚,从零到跑起来大概半小时。

如果你不写代码,Claude Console 提供了完整的可视化界面。选模型、写系统提示、接 MCP 工具、挂外部服务,全部点击完成。配置好之后可以直接在界面里测试,看 agent 怎么响应,不满意就调,满意了再让它持续跑着。

Console 的构建页面里有一个「What do you want to build?」的输入框,旁边是模板库,覆盖了研究员、数据分析师、客服助理、事故响应协调员等现成角色,每个都预先接好了 Slack、Notion、Asana、GitHub、Jira 这些工具的连接。选一个模板,改改描述,就能开始。

▲即便是小白,在网页端,也能根据流程一步一步创建自己的 Agents

不过,仅开通了 Claude 会员还不够,目前还是需要有 API 计划,即绑定信用卡有一定 Token 额度,才能使用 Managed Agent。

Managed Agents 在工程上有一个核心决策,和最近一直在讨论的 Harness 工程相关,它决定着这套系统能不能真正用于生产。

Anthropic 在官方的工程博客里用一个特别扎心的比喻,解释了 Managed Agent 的结构设计。

他们认为早期的 Agent 架构,非常像是在「养宠物」。开发者习惯把 Claude(大脑)、执行代码的沙盒(手脚)以及它的记忆(会话日志),一股脑地塞进一个巨大的服务器容器里。

这个容器变得无比娇贵,我们不能让它死。一旦容器卡死或崩溃,AI 的脑子和手脚一起完蛋,用户的任务数据瞬间清零;容器里同时跑着用户凭证和 Claude 生成的代码,一旦有提示词注入攻击,凭证就直接暴露。

Anthropic 的解法是,把「大脑」和「双手」彻底分开,容器变成了随时可以牺牲的「牛马」,即从养宠物变成养牛马。

调度器(大脑)不再住进容器里。它像调用外部工具一样,对容器发号施令。如果容器在执行危险代码时崩溃了?大脑根本不慌,它会记录下一个错误代码,然后毫不犹豫地重新拉起一个新容器继续干活。

使用 Agent 留下的记忆,也不再被塞进某个 AI 或者容器拥挤的脑子里。分开运作后,所有的记忆被单独存放在外部的会话日志中。它就像一个外接硬盘。

大脑通过标准化的调用方式指挥双手,不在乎双手是容器、是外部服务还是别的什么。哪只手出故障了,换一只,大脑继续跑;大脑自己崩了,从对话日志里恢复,接着干。

这个设计带来了性能的大幅提升。解耦之前,每个对话启动都要等容器完整初始化,系统要花很长时间去拉起一个包含了庞大调度逻辑的沉重容器。

现在,首次响应时间降低了超过 90%,安全边界也因此变得清晰——Claude 生成的代码在沙箱里跑,凭证在沙箱外的保险箱里,两者之间有专用 Agents 隔离,agent 永远拿不到原始凭证。

更重要的是,它让 Agent 真正具备了可以长期稳定干活的能力。

Anthropic 提到,Notion 已经在内部使用 Managed Agents 搭建了帮助工程师写代码、帮知识工作者做演示的企业 Agent。

Rakuten 把销售、市场、财务、HR 的 agent 都用 Managed Agents 部署了,每个专项 agent 的上线时间是一周。

Sentry 的调试 agent 在发现 bug 之后,会自动写补丁、开 PR,开发者收到的是一个可以直接 review 的修复方案,整个流程不需要人介入。

可以说,以前的大模型公司提供的是模型 API,即处理我们的每一条消息;Anthropic 做出的改变是将基于消息的 API 包装成可以直接交付工作的 Agent API。

回到那个数字 $0.08/session-hour

这种改变首先体现在 Claude Managed Agents 的定价结构上,根据官方博客,Managed Agents 的计费包括 Token 费用(标准 API 价格,Sonnet 4.6 是 $3/M input,$15/M output),加上 $0.08/session-hour(按实际运行时间计费,idle 时间不算),和 Web search 另计:$10 每 1000 次。

Anthropic 有举例,一个使用 Opus 4.6、跑 50K 输入 + 15K 输出 token 的一小时 coding session,总成本约 $0.70。

和专门请一个员工来处理,现在企业自己就可以通过 Managed Agents 创建一个内部的 Agents。数字员工的概念,又被往前推进一步。

此外,对 Anthropic 来说,这也意味着收入开始和企业的自动化程度直接挂钩,企业跑的 agent 越多,Anthropic 收得越多。这和 AWS 从「卖服务器」变成「卖运行时间」是同一个逻辑,他们打开了一个比卖订阅大得多的市场。

大模型技术发展到现在,单纯比拼参数和跑分的红利期似乎正在消退,毕竟能力真正强的大模型,也被限制不能开放使用。

真正的战场,又回到了「如何让这群聪明的脑子,最稳定、最廉价地在工厂流水线上打工」,Claude Managed Agents 的推出,就是 AI 基础设施走向成熟的一个里程碑。

回头看 Claude 今年的每次更新,无论是模型还是产品,几乎都踩在了我们对 AI 能做什么的痛点上。

一方面在持续提升模型的能力,不被外界生视频、浏览器、生图模型那些方向干扰;另一方面是从 Cowork 开始,到后面疯狂打补丁复制 OpenClaw 的全部功能,再到今天推出一个专门用来开发和部署 Agents 的平台,每一次都是极其敏锐的产品视角。

Anthropic 正在开创一个新的发布模式,即从「我们发布了一个更快更好的工具」,变成「我们为你准备好了构建数字员工的完备基础设施」。

🔗 参考链接:
Claude Managed Agents 更新博客:
https://claude.com/blog/claude-managed-agents
Claude Managed Agents 架构设计博客:
https://www.anthropic.com/engineering/managed-agents
在 Claude 控制台开始搭建自己的 Agents:
https://platform.claude.com/workspaces/default/agent-quickstart

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Claude Opus 4.6 一天之内被超越两次,这次来自国产模型

作者 李超凡
2026年4月8日 17:16

前两天 APPSO 提到,大模型即将迎来史上最残酷的一个月,这就来了。

而Claude Opus 4.6 「不幸」成为背景板,一天之内被超越两次。

早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug,已经超过了绝大多数人类程序员。

可 Mythos Preview 暂时不对普通用户开放,与此同时,另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%,超过 Opus 4.6 的 57.3%,也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺:「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了!欢迎 GLM 5.1!」

全球第三,开源第一。虽然没等来 DeepSeek V4,但开源新一哥还是来了,依然是咱们国产大模型。

说实话,我第一反应是又来了,大模型的「榜单狂欢」,每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时,这次的剧本有什么不同呢。

APPSO 看完 GLM-5.1 的技术细节和体验后,带你看看这个模型是什么水平

从 20 步到 1700 步,持续工作 8 小时

GLM-5.1 最让人没想到的,不是跑分,是它能工作多久。

智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」,是真的从零开始,画架构、写代码、跑测试、修 bug,历时 8 小时整,执行了 1200 多步,最后产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。

全程没有人参与测试、审查代码。GLM-5.1  甚至给自己的代码写了回归测试,而且跑过了。

知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。

结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。

他的评价是:「GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但他也指出了问题:「超长上下文时容易幻觉爆炸,如果遇到 2 轮改不好一个问题,不要抱有侥幸,直接重开。」

去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破点:以前的模型,包括 GLM-5,会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。

GLM-5.1 的训练目标就是突破这个瓶颈,让模型能够在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案。

向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询吞吐从 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。

这个过程中,模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代,最终取得 3.6 倍的几何平均加速比,显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有一个更有意思的测试:Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432,在开源模型中排名第一,接近 Claude Opus 4.5 的水平。

744B 参数,零英伟达芯片,成本降低 97%

GLM-5.1 的技术规格值得细看:744B 参数的混合专家模型(MoE),每个 token 激活 40B 参数,28.5T tokens 训练数据,集成了 DeepSeek Sparse Attention(DSA)来降低部署成本同时保持长上下文能力。200K 上下文窗口,最大输出 131,072 tokens。

更关键的是,整个模型全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU 参与。在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。

开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验上没有任何差别,但成本从 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5,输出成本是 1/8。简单来说:接近 Opus 的能力,20% 的价格。

而且GLM-5.1  是开源的。MIT License,最宽松的开源许可证之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

当然  GLM-5.1 也不是没有提升的空间,部分开发者反馈,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同类产品没太大优势。复杂任务甚至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。

这些问题都是真实存在的。GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。

GLM-5.1 的意义,不在于它比 Opus 4.6 强多少,而在于它证明了,在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。

你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI ,是开源的,是国产的,是任何人都可以用的。

附体验方式

1. 官方API接入
– BigModel 开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai:https://docs.z.ai/guides/llm/glm-5.1

2. 产品体验
– GLM-5.1即将登陆Z.ai:https://chat.z.ai

3. 开源链接
– GitHub:https://github.com/zai-org/GLM-5
– Hugging Face:https://huggingface.co/zai-org/GLM-5.1
– ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

不到 24 小时,奥特曼的天塌了两次

作者 姚桐
2026年4月8日 11:43

Sam Altman 估计又要失眠了。

早上,《纽约客》刚发一篇万字调查报道来指责自己是「反社会骗子」,转头 OpenAI 的年化营收就被自己最大的竞争对手 Anthropic 反超了。

2024 年初,Anthropic 的年化营收还只有 10 亿美元。十六个月后,这个数字变成了 300 亿,超过了 OpenAI 的 250 亿

值得注意的是,年化营收(ARR)是一种推算,不是已经装进口袋的真金白银。Anthropic 的算法是把最近四周的 API 营收乘以 13,订阅收入乘以 12,加总得出。OpenAI 的计算方式与此类似,用四周总收入乘以 13。口径相对一致,但也意味着一旦某个月需求骤然爆发,数字就会被放大,反之亦然。

数字背后,还藏着两种完全不同的商业逻辑。

一个五天原型,25 亿美元的生意

Anthropic 的营收里,70% 到 75% 来自企业和开发者的 API 消耗。客户把 Claude 嵌进自家产品和工作流,用多少付多少。剩下的来自 Claude Pro、Claude Max 等消费端订阅,以及 Claude Code 的企业合同。

Claude Code 值得单独说一下。

2024 年 9 月,Anthropic 内部一位 TypeScript 工程师写了个 Apple Script 提升自己的效率,五天之内半个工程团队都在用。这个意外的原型后来变成了 Claude Code,一个在终端里运行的智能编程代理,能读懂代码库,规划操作步骤,自主执行编辑、测试、提交。

目前,Claude Code 的年化营收已经达到 25 亿美元。全球 GitHub 公开代码提交中有 4% 是由它生成的,这个数字在一个月内翻了一番,预计年底将达到 20%。届时全球每五条代码提交,就有一条出自同一个模型之手。
就是这样一个五天搓出来的原型,变成了 25 亿美元的生意。

直接去找愿意付钱的人

OpenAI 拥有 9 亿周活跃用户,ChatGPT 是人类历史上增长最快的消费级应用之一。

但这 9 亿用户中,只有大约 5% 到 6% 是付费的,其余 94% 免费使用。

此前我们写过一篇文章,指出了 OpenAI 为了维持 ChatGPT 这个「大体上免费」的产品,需要付出极高的算力成本,相当于是在做「补贴」。(考虑到 OpenAI 此前宣布在免费档上加入广告,无疑是因为在 7-8 亿周活用户的量级上做算力补贴的成本实在太难以接受。)

据 The Information 报道,OpenAI 预计 2026 年将亏损 140 亿美元,累计亏损到 2028 年底将达到 440 亿,最早也要 2029 年才能盈利——甚至,就连 ChatGPT Pro 订阅都是亏钱的,奥特曼自己也承认了这一点。

去年,汇丰银行环球投资研究对 OpenAI 的收入模型做了分析,指出:OpenAI 需要在 2030 年实现至少 30 亿周活跃用户,并且其中付费用户的比例达到 10%,才能够避免「入不敷出」。

和现在相比,这个周活跃用户只需要再翻两倍多一点;但是,付费用户数量却需要增长 6.5 倍才行

Anthropic 走的是另一条路。

它大约 80% 的收入来自企业客户。两年前有 12 家公司每年向 Anthropic 支付超过 100 万美元,现在这个数字超过了 1000 家,而且在不到两个月内就从 500 家翻了一番。八家「财富」前十强企业都是它的客户。

Anthropic 每位月活跃用户平均收入为 211 美元,OpenAI 每位周活跃用户平均收入为 25 美元。虽然口径不一,但即便统一口径计算,A 社的变现能力都比 OpenAI 要强得多。

今年 3 月,首次购买 AI 工具的企业中,有 73% 选择了 Anthropic。十周前这个比例还是五五开,去年 12 月甚至是 60:40 偏向 OpenAI。Axios 在报道中指出,AI 竞赛的焦点正在从「谁的模型最好」转向「谁能最快变现」,而 Anthropic 正在企业客户这个最重要的战场上拉开距离。

消费互联网的流量思维和企业软件的价值思维之间,存在一种根本性的差异:OpenAI 选择了前者,用免费产品圈住数亿用户,再想办法转化。Anthropic 选择了后者,直接去找愿意付钱的人。

在 AI 模型的推理成本高居不下的今天,后者看起来是更健康的路径。但这并不意味着 OpenAI 做错了。9 亿用户这个数字还是令人不可小觑的,只是,OpenAI 这个用户体量(特别是前面提到的付费比例)想要兑现为真实收入,周期要比企业软件路线更长、风险更大。

可能这也是为什么 OpenAI 正在考虑收缩它的消费级产品,将重心转向企业市场。

只是,这可能又落入了我们今天在前一篇文章里提到的陷阱:在 AI 事业的关键议题上,OpenAI 经常摇摆不定,会有重视-忽略-重视-忽略的循环。

谁也没法说,OpenAI 今天看重企业市场,回头过两年会不会又改主意。

(成天改主意,每次都 all in,这味道倒是像极了某公司……)

而且,转身需要时间,而 Anthropic 从一开始就已经站在终点线上。

300 亿美元的营收需要相应的基础设施来支撑,Anthropic 今天宣布与谷歌、博通的三方协议,就是为此而来。

根据提交到了美国证券交易委员会的文件,博通将承担更多谷歌 TPU 的代工业务,而从 2027 年起 Anthropic 将通过该公司获得大约 3.5 吉瓦的 TPU 算力。

瑞穗分析师估算,在 2026 年,博通仅从 Anthropic 一家就将获得 210 亿美元的 AI 收入,2027 年达到 420 亿。

Anthropic 的算力策略也值得注意。它同时使用 AWS 的 Trainium、Google 的 TPU 和 NVIDIA 的 GPU 三种芯片平台,同时也是唯一一家在 AWS Bedrock、Google Cloud Vertex AI 和 Microsoft Azure Foundry 三大云平台上都提供前沿模型的 AI 公司。

这种多平台策略,让企业客户此前无论在哪个云平台上,都可以无需更换平台即可接入 Claude 大模型 API,同时更让 Anthropic 避免了对单一供应商的依赖

二级市场已经开始重新定价

买方对 Anthropic 股票的需求目前高达 20 亿美元,几乎找不到愿意出手的卖家。隐含估值从两个月前 G 轮融资时的 3800 亿美元上升到了约 6000 亿美元。高盛对 Anthropic 配售收取 15% 到 20% 的业绩报酬。

与此同时,价值 6 亿美元的 OpenAI 股票据说无人问津。

IPO 的话题正在变得越来越具体。据 The Information 报道,包括 CEO Dario Amodei 在内的 Anthropic 高管已经在讨论最早于 2026 年 10 月上市,公司聘请了 Wilson Sonsini 作为法律顾问,并与高盛、摩根大通组成的银行团队推进 S-1 文件的准备。

承销方预计此次募资将超过 600 亿美元,若成真,将成为科技史上仅次于 SpaceX 的第二大科技 IPO。目前的目标估值从最初的 5000 亿美元起步,市场预期最终可能突破 8000 亿美元。

华尔街日报在两家公司预计今年晚些时候上市前,获取了 OpenAI 和 Anthropic 的机密财务资料。在这场竞赛里,两家公司都在以一种惊人的速度烧钱,只是 Anthropic 的账面比率看起来稍微好看一些。

OpenAI 预计到 2028 年在算力上的支出将达到 1210 亿美元,尽管收入几乎翻了一番,但仅那一年就会亏损 850 亿美元。

剔除训练成本,两家公司现在都接近盈利;把训练成本加回去,OpenAI 的盈亏平衡目标则推到了 2030 年。Anthropic 预计会更早达到,目前其规划 2027 年实现正向自由现金流。

▲ 图片来自:WSJ

增长放缓几乎是不可避免的。Epoch AI 在建模时也注意到,Anthropic 的增速从 2025 年 7 月起已经从每年 10 倍降到了每年 7 倍左右。这依然是一个惊人的数字,但趋势已经在发生变化。

更大的体量意味着每一个百分点的增长都需要绝对量上更大的增量,市场会在某个时点开始出现饱和,竞争也在加剧。

两种 Token 烧法,要解决同一个问题

前文提到,OpenAI 是先圈用户,再想办法变现。这是消费互联网的经典路径,Facebook、Google、TikTok 都是这么走过来的。风险在于,AI 模型的推理成本远高于传统互联网产品,免费用户不是资产,你需要在烧光钱之前找到转化路径。

而 Anthropic 直接去找愿意付钱的人。这是企业软件的经典路径,Salesforce、Oracle、SAP 都是这么走过来的。这里的风险在于,企业市场的天花板比消费市场低得多,而且一旦增长放缓,估值就会被重新定价。

OpenAI 赌的是时间,赌推理成本会快速下降,赌 9 亿用户中总有一部分会转化为付费用户。Anthropic 赌的是确定性,赌企业客户的付费意愿足够强,赌自己能在增长放缓之前建立起足够深的护城河。

现在的问题是,谁的时间窗口会先关闭。

OpenAI 的时间窗口是推理成本下降的速度。如果成本下降得不够快,免费用户就会变成一个无底洞。Anthropic 的时间窗口是企业市场的饱和速度。如果增长放缓得太快,二级市场就会开始重新定价。

两家公司都在和时间赛跑,只是跑道不同。一个在消费市场的长跑道上狂奔,一个在企业市场的短跑道上冲刺。谁会先撞线,谁会先撞墙,现在还不知道。

但有一点是确定的:AI 行业的竞争,已经从「谁的模型最好」变成了「谁能活到最后」。而活到最后的前提,是你得先找到一条能养活自己的路。

Anthropic 找到了,OpenAI 还在找。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

凌晨三点,我在排队等一个 AI

作者 莫崇宇
2026年3月31日 17:11

「你见过凌晨四点的洛杉矶吗?」

这本是一句用来兜售自律的鸡汤文,可在 AI 浪潮漫过各行各业的今天,深夜走进一家 AI 漫剧制作公司,你可能会看到一群眼圈发黑的打工人在工位上使用 AI 来处理他们本该在白天完成的工作。

AI 能提升效率、解放劳动力的故事,我们听了太多年,不能说全是谎言。

但当算力变成紧俏的稀缺资源,「错峰使用」也成了全球 AI 公司心照不宣的统一话术时,打工人非但没有从冗余的工作里解脱,反而被塞进了另一套更拧巴的工作时间表里。

AI 算力不够,打工人的睡眠来凑

今年年初,字节跳动的 AI 视频生成模型 Seedance 2.0 爆火,火到无需多言。

宇树科技创始人王兴兴称它是「全球遥遥领先」。冯骥体验过后,给出「AIGC 的童年时代结束了」的评价,春节返工后的高峰时段,排队使用的人数一度冲到十万,足以见得市场对它的狂热。

行业大佬的背书、市场的狂热,直接推高了 Seedance 2.0 的旺盛需求,而这份需求,最终也传导到了下游的 AI 相关企业。

据 36 氪未来消费报道,AI 漫剧制作公司鹤芽漫剧,早早就把上班时间调到了中午,一干就到凌晨 1 点,目的只有一个:避开白天的算力高峰。

更戏剧性的情节是,凌晨 1 点的排队人数仍以万计,无奈之下,上班时间只能再往后提,最终定格在凌晨三点。

 

据此前 The Information 报道,想获得 Seedance 的企业授权,先要通过资质审核,想拿到谈判席位,企业需要先承诺至少 1000 万元人民币的使用预算,这还只是排队的起步价。

值得注意的是,这些报道的细节未必完全准确,但有一点大概率成立:能坐上谈判桌的,本来就是少数。

对大多数中小型公司来说,错峰上班,用人熬夜换机器运转,反倒成了最务实的办法。

究其原因,AI 工具的能力已经强到足以重组一家公司的工作方式,可支撑它的基础设施,却还没跟上这份能力的步伐。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。

没有免费的智能,每一次调用都是真金白银的损耗。这直接倒逼 AI SaaS 平台的定价模型,从过去的席位制,转向基于 Token、基于操作、基于消耗量的计费方式,一分一毫都算得清清楚楚。

在这样的 Token 经济学逻辑下,边际成本高企,平台方根本无法容忍用户在算力紧张时无节制消耗。因此,限制配额、排队等待、建议错峰使用成了必然选择。

另一个方面就是 Sora,据《华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一就是它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。

包括同一时期,Anthropic 宣布调整 Claude 的使用规则,将太平洋时间早 5 时至 11 时定为高峰时段,这个窗口内,用户的会话额度消耗会明显加快。换算成北京时间,恰好是晚 8 点到凌晨 2 点,也让不少网友自嘲,难得享受到了时差的红利。

去年 DeepSeek 爆火时,也因为服务器资源紧张做过类似的尝试,一度暂停了 API 充值。重新开放后推出了夜间优惠,表面上是给用户让利,本质上,就是用价格杠杆,把流量强行分散到夜间,缓解白天的算力压力。

只是,我们发明 AI 是为了像人一样思考,结果却要求人像机器一样「错峰运行」。

当然,这或许只是一个过渡阶段。当年宽带刚普及的时候,也有人半夜爬起来下载一部电影,谁也没想到后来流媒体会变得如此理所当然。

尽管我们还没有到完全被 AI 支配日程的地步。但这个苗头依旧值得留意——当越来越多的工作流开始依赖 AI,当 AI 的响应速度和可用性直接影响到一家公司的产出效率,人对它的依赖,也就在不知不觉中加深了。

用了 AI,为什么越来越累?

如果说第一部分的「错峰上班」还只是为了解决能不能用的问题,那么更深层的痛苦则来自于:即便算力充足,AI 也没有让工作变少。

在铺天盖地的宣传里,AI 是那个无所不能的超级助理,是解放双手的灵丹妙药。可一旦这些工具真正落到具体的工位上,打工人们发现,预想中的「一键下班」并没有发生。

Upwork 在 2024 年对 2500 名职场人士的调查发现,96% 的管理层坚信 AI 会提升员工效率,可实际上,77% 的员工反映,AI 的引入,反而让他们的工作量增加了。

领导们觉得 AI 在帮你减负,于是理所当然地给你加派任务;而你却像个被抽得越来越快的陀螺,忙得脚不沾地,连喘息的时间都没有。

EY 2025 年覆盖 29 个国家、1.5 万名员工的调查,给出了类似的结论:64% 的受访员工认为过去一年工作量有所增加,而真正能把 AI 用到改变工作方式、提高效率的,只有 5%。

换句话说,大多数人用 AI,还停留在搜索、总结这种浅层层面。并且根据《哈佛商业评论》今年 2 月份的研究,AI 非但没有减少工作,它让工作强度变高了。

研究发现,AI 引入后,员工的工作节奏被强行加快,承担的任务范围变宽,工作时间延伸到了更多碎片化的小时里,而且很多时候,并没有人明确要求他们这样做。

这背后,藏着一个容易被忽视的经济学逻辑——「杰文斯悖论」:

技术让某件事变得更高效,往往反而会增加对这件事的总需求。AI 在职场中的处境,完美契合了这个悖论:单项任务的效率提高了,但任务总量也跟着水涨船高,最终,打工人的总工作量,非但没有减少,反而越来越多。

尤其是当 AI 生成的内容如海啸般涌现,可事实核查、逻辑梳理、细节修改这些需要人类判断力的工作,仍然只能由人来完成。于是,打工人的工作,从具有成就感的创造,悄然变成了枯燥又疲惫的打扫和校对。

期间工作量并没有凭空消失,它只是换了一种更隐蔽、更折磨人的形式。

除此之外,人不光要把自己的本职工作做好,还得自己去琢磨那些不好懂的提示词,在各个 AI 模型之间来回切换、反复尝试,才能找到能用的工具。

伊万·伊利奇 1981 年提出的「影子劳动」,指的是为了维持正式工作运转而不得不做的无偿准备性劳动。学会用 AI、管理 AI 工具链、校验 AI 输出,这些也正在成为职场隐性的准入门槛,既不算工作时间,又不计入薪酬,却真实地消耗着人的时间和精力。

比如有的人为了不被时代落下,也为了完成公司要求的 AI 使用指标,只能自己花钱,每个月掏几百上千块,去订阅各种 AI 工具的高级账号。

凌晨三点上班,看上去是在抢算力红利,本质上,是个人在用自己的生物钟,替一个还未成熟的行业,扛下它转嫁出来的不稳定性和成本。这笔账,怎么算都不划算。

只是目前在时代浪潮面前,个体的反抗,大多显得苍白无力。

工业革命以前,人跟着太阳走,天亮干活,天黑睡觉,时间是自己的。后来有了电,夜班出现了,工作时间开始突破昼夜的界限。再后来有了互联网,下班的边界开始模糊,工作可以随时随地找上门。

再后来有了手机,随时在线变成了默认状态,工作彻底入侵了生活的每一个角落。

每一次技术迭代,都有人说,这是自愿的,是进步,是效率的提升。

每一次,也都有人发现,最后承担代价的人,从来都不是最先喊着技术革命的那个人。

我们最初希望 AI 能替人省力,让时间变得宽裕一些。可眼下的现实是,它在某些地方确实提升了效率,却也在另一些地方制造了新的紧迫感:因为它能做到,所以你必须用;因为人人都在用,所以你不能慢。

内卷的逻辑没有消失,只是换汤不换药。我不确定这算不算一种必然的规律。但我知道,AI 本该是给你一把伞,帮你遮风挡雨,而不是顺理成章地把你赶进一场更大的暴雨里。

*封面、正文图片源自互联网

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Floatboat 体验:一个人的公司,只需要一个办公软件

作者 杜晨
2026年3月31日 10:48

过去两年,我们每天都在做同一件事:学习和进修「提示词工程」这门玄学。

找 AI 干活,总要像个碎碎念的甲方一样,交代八百字背景,像是在哄一个智商奇高、但每天都会间歇性失忆的实习生。

这让我想起在游戏里,施展出必杀技之前,总是会有一个类似「前摇」或者「吟唱」的过程。某种程度上,写提示词,提供上下文,上传各种文件等等……就是使用 AI 的「前摇」。

不是说用户每次都要做到极致,只是如果你能给足这些前置条件的话,AI 会做的更好。

不过,前段时间 APPSO 在中关村的一场线下聚会看到了一个还在测试中的 AI 办公产品——它很大程度上摒弃了对「前摇」的依赖。

产品名字叫 Floatboat。

Floatboat 的联合创始人兼 CEO 少卿走到台上,打开 Floatboat,选中一个文件夹,里有一个 CSV 表格,是一份参加本次活动的嘉宾名单。他在旁边的 AI 对话框里说了一句:生成邀请函。

过了一会,每位嘉宾的邀请函都出现了。

到这里为止都还好,把表格丢给 ChatGPT、Claude、WorkBuddy、悟空………任何一个今天的 AI,写一句指令,大概率也能做到差不多的事情——但接下来发生的,让我愣了一下。

有一位新嘉宾确认出席了,少卿说,「在表里更新一下」。

CSV 更新了;紧接着,一封新的邀请函也自动生成了。

我坐在那里花了两秒钟,试图理解刚刚发生了什么:

Floatboat 它知道这份表格和邀请函之间,知道「更新表格」和「生成邀请函」两个动作之间,是有关系的。所以少卿只说了前半句,后半句没说出来,它自己悟出来了。

AI 不再是等待指令的工具,变得越来越积极、主动,会动脑子,像一个一直给你打下手的小朋友,你说「更新一下」,他知道你的意思。

这个瞬间让我开始认真看这个产品。

简单,但又无法简单定义的产品

Floatboat 是什么?我试着给它一个定义,发现很困难。

它有一个长得像 macOS Finder 的文件管理器,你可以浏览本地文件、打开 iCloud Drive;文件格式支持得很全,Markdown、CSV、Excel、Word、图片、视频,都能直接预览,甚至编辑;

它有一个内置浏览器,可以打开任何网页,甚至可以让 Agent 去操作这些网页;

它有一个 AI 对话界面,底层可以接 Gemini 或其他模型。这么看来它有点像 Claude 的桌面端,但又比 Cowork 多一些更直观的操作逻辑。

这三个东西,文件、浏览器、对话,以面板的形式并排在一起,可以随意拖拽组合,最多四栏并排。

你在浏览器里看到一张有用的图,可以直接拖到本地文件夹里保存;你让 AI 生成了一份报告,报告会直接写入本地文件,以 .md 或 .docx 格式保存,并且你可以直接编辑这些文件,不需要 cmd-c 再 cmd-v 到另一个地方。

信息从各个方向流进这个环境里,加工过的内容也能流出去,不会被锁死在某一个面板里。

所以 Floatboat 到底是什么?是文件管理器?是浏览器?是 AI 聊天工具?是氛围编程环境?

它都是,又不完全是。

在 Floatboat 出现之前,我们其实一直在做不同软件之间的「人肉 API」,每天按几百次复制粘贴,打开不同的软件或浏览器窗口、编辑不同的文件。

在 AI 世代在线办公的我们,成了在窗口与窗口之间疲于奔命的赛博搬运工。

而 Floatboat 打破了软件之间的墙,让所有的窗口都能共享同一份上下文。

开发团队给产品的定义是「工作环境」而非「AI 助手」。助手是你要求它才动的,工作环境是一直在那里的,你在里面做事,它一边帮你做事一边观察和学习。

在沟通会上,有人问少卿:一句话形容你们的产品?

少卿反问:你能一句话形容 ChatGPT 吗?

大家会心一笑。我觉得他说的有道理。有些东西确实不是一句话能装下的,除非你做的是一个非常垂直的工具。Floatboat 显然不打算做垂直。

做科技记者这些年,我经历过好几代这样的产品。最早是电子邮件加 Office 套件的时代,后来是各种 OA 系统,再后来钉钉来了、飞书来了、Slack 来了。

每一代都有一个产品,或者一类产品,它们有着同一句潜台词,对你发出强有力的暗示或者明示:上班,用我就够了。

而在 AI 时代,Floatboat 想要成为这个角色。

这么说不是在拔高它。恰恰相反,这个位置历史上从来没有人真正坐稳过。飞书解决了团队协同,但文档操作仍然需要 Office 套件。钉钉把审批这个工作做到了极致,但打工人私下用微信聊工作的习惯从来没变过。

「一统江湖」这件事,每一代都有产品在尝试,但从来没人真的实现过。

原因是结构性的:这类产品想要成功,需要整个组织一起换过来。而组织的惯性,是所有惯性里面最大的。你一个人觉得飞书好没用,你的团队、你的客户、你的供应商都得觉得好才行。

Floatboat 的策略有一个不同:它不面向组织,它面向个人。

这个产品的目标人群,也正是时下最流行的概念:OPC,全称 One Person Company/一人公司。

过去一年 AI 能力的跃进,让 OPC 这个前两年的口号,逐渐变得越来越现实和可行。一个人,加上三五个 agent, 几乎可以对等一个小的草创阶段的业务和支持团队。无论是自媒体内容创作者,从选题到写稿到排版到分发,还是电商业务,从选品到上架到客服到投流,都已经够用了。

Floatboat 希望能够打动这群人。在 APPSO 的体验中,我们测试了包括内容创作、数据科学等场景,也测试了外部工具接入(例如 Slackbot)等多种场景。对于内容、营销、数据分析、客服等类型的工作,Floatboat 都达到了我们的期待。

现在 AI 产品有两种设计哲学。一种是「你放手,我来」,把用户推到后座上去,Agent 全权接管,跑完了给你看结果。另一种是「你干活,我在旁边」,成为用户的副驾,在适当的时候递工具、提建议。

Floatboat 更接近后者,但又不全是。用 Floatboat 工作,我的体验是:跟 AI 在主驾副驾之间来回切换,畅快自如。

用了一段时间之后,我觉得 Floatboat 的主张是行得通的。至少在现在这个阶段,大多数人对 AI 的信任还没到「你尽管干,我不用看」的程度。你让一个打工人把整份方案交给 AI 自己跑,他会焦虑的睡不着觉……

但如果 AI 是在他的屏幕上、在他的文件夹旁边干活,他看得见过程,能随时纠正,那他会比较安心。

这也是为什么 Floatboat 的界面设计那么像一台传统电脑的桌面,把文件管理器、对话框、浏览器/编辑器都拉出来让你一览无遗:已经认识的东西,能够降低用户对一个新事物的戒备心,提高接受度。

一边工作、一边蒸馏工作

然后再说 Floatboat 做的一个叫 Combo 的功能。

Combo 可以是一个复杂的 skill,也可以是多个 skill 的组合。而在工作的逻辑里,就是把一套工作流打包成一个可复用的操作。

Floatboat 内置了从工作成果中「蒸馏」 combo 的能力——这其实很像 Anthropic 官方的 skill-creator(本身也是一个 skill)。

比如你每周都要做一件事:从网上抓几篇行业报告,提炼摘要,整理成 Markdown 文档,然后推送到 Notion。你第一次在 Floatboat 里手动跟 Agent 对话完成了这套流程之后,对话框下方会出现一个按钮,问你要不要把这轮操作存成一个 Combo。

或者你也可以主动跟 Floatboat 说,「把我们目前的工作里面的方式、思考、逻辑,整理为一个 skill」。

当下次遇到类似任务的时候,Floatboat 会自动把这个 Combo 推荐给你,一键启动。

这里面我觉得最有意思的一点是:你不需要事先「设计」工作流,只需要正常干活就行了。一边干着,一边 Floatboat 就会自己把你的工作习惯、操作方法等「蒸馏」出来,沉淀出一份指导思想。

少卿告诉 APPSO,Combo 能力的设计,是为了实现今天的绝大部分用户对于 agent 产品的那个核心期待:自进化。

「当 agent 能够感知你 80% 的操作的时候,它就有自进化的能力了」,Combo 的自动沉淀机制就是在做这件事的第一步。

兜售「提示词」的时代,快要结束了。你不再需要像个魔法师一样去背诵枯燥的咒语,把提示词保存在一个专门的文件夹或者 AI 工具的后台。通过 Combo,Floatboat 可以让用户把他们每天最经常做的固定动作,提炼成独属于自己的「手艺」和数字资产。

当然,Floatboat 也做了一个 Combo 市场,你做的好用的 Combo 可以上传,别人做的也可以下载。官方也提供了一些现成的。

但这个 Combo 体系仍有不足。

任何一个号称能够一统江湖的办公软件,号称「越用越懂你」的 AI 系统,都仍然存在冷启动的障碍:就好比 Google Docs 的初始简历模板虽然很全很好,但仍然需要每一个求职者去调整修改以适合自己。

Combo 的自动沉淀机制,逻辑上是说得通的:你用得越多,它学得越好,推荐的工作流越贴合你。但这有一个前提:你需要先投入时间从零教它,而大多数人没有这个耐心,他们希望拿来就能用。

作为一位媒体编辑,我的日常工作是阅读大量资料、跟作者沟通选题、改稿子、偶尔自己写长文。这些工作的颗粒度很细,上下文很碎,跟官方预设的那些模板(更偏向标准化的报告生成、数据整理之类)对不上。

在我的具体使用中,我将几种不同的内容生产路径保存成了不同的 Combo:针对外部新闻的快速反应是一种,基于采访 Q&A 提纲的撰写是一种,针对复杂课题的调研、资料的编排、然后进行原创写作,又是另一种。

当然,这不是 Combo 本身的问题。对于绝大多数人,无论他们的工作是文档写作、报表处理、ppt 写作,还是数据整理、行政工作,甚至更加复杂的「一人开发者+marketer+客服」,无论是自己生产 Combo,还是在 Floatboat 的官方 combo 基础上做微调,都足够好用。

AI 工具不是一切工作的万灵药——一个工具把自己宣传得再美好,今天的用户也应该有这样的觉悟。对于 Floatboat,正如前面所说的,它是「工作环境」,它的能力足以强化人,但它的工作效果仍然取决于人。

然后再说说用 Floatboat 和其他「类 Cowork」产品的区别:最大的明显感受,是 Floatboat 的工作流程很快。以文件操作、内容生成为例,在 Gemini 3.1 Pro 模型驱动下的 Floatboat,对文件进行操作(批量重命名/修改格式、填充 markdown 等)的用时,是我平时用 Cowork/Claude Code CLI 的三分之一左右。

Gemini 在「讨好用户」上也是老演员了,所以最近 Floatboat 也加入了 Claude 两个最新版模型,Sonnet 和 Opus 4.6 的支持。

Gemini 对于 Floatboat 主打的大多数办公场景(文案生成、表格处理、信息整理)来说够用,写作效果也还算不错;如果不符合你偏好的话,切到 Claude 模型也没问题。如果你注意到 Floatboat 的迎合意图太强,可以在工作过程中时不时强调一下,不要一味迎合,要对生成的结果,甚至用户的输入做批判性的思考。

以及,你也可以充分利用 Combo 生成的功能,将这些技巧写进 Floatboat 的核心指导思想。

另外一个小设计值得提一句:Floatboat 可以集成到飞书和 Telegram 里,你不打开它的客户端,直接在聊天工具里给它发消息,它就在后台帮你执行任务——这个功能叫 Claw 模式,相信足够你顾名思义了。

 

除了产品本身,Floatboat 团队还在做一件更远的事。

他们开源了一个协议叫 Selfware,核心理念用一句话说就是:A file is an app。

这是什么意思?现在你用 AI 辛辛苦苦做了一份调研报告,发给同事,他收到的是一个 Word 文档或者 .md 文件。文件里有最终结果,但你当时调用了哪些资料、AI 跑了什么逻辑、中间修改了几次、为什么改,这些对于工作最关键的经验,并没有被保存下来。

Selfware 想解决的就是这件事。一个 .self 格式的文件,里面不只有数据,还携带逻辑和结构。你的同事收到之后,可以直接打开、继续编辑、让 Agent 沿着你的思路往下跑。文件自带了工作环境。

这个想法,和目前 AI 开发圈里对 CLAUDE/SKILL.md、cursor rules 这类文件的热情, 属于同一个潮流。大家都在发现,文本文件可以用来「编程」AI 的行为,一个 .md 文件可以定义一个 Agent 的人格、工作方式、输出风格。

但 Selfware 往前又多走了一步:那些 .md 文件是指令,你告诉 Agent 怎么做;Selfware 想做执行单元,文件本身就能运行,而且不依赖于特定平台。

这其实有点像 Jupyter Notebook,把代码、数据、输出打包在一起了;也类似于 Docker,把运行环境做成了可分发的单元——Selfware 把场景换成了 Agent 协作。它不是从零发明的概念,但在 Agent 时代重新提出,确实切中了一个真实的痛点。

不过,协议这种东西,最终看的是采用率。现在 Selfware 主要在 Floatboat 自己的生态里运转。「A file is an app」是个有趣的理念,但从理念到被广泛采用的标准,中间路还很远。

另外值得提一句的是 IACT (Inline Action-Clicked Text),Floatboat 开源的另一个协议。它做的事情更小但很实际:在 Markdown 语法的基础上,直接在 AI 对话生成结果加上可点击的行内 (in-line) 链接/按钮。生成结果中的「可行动内容」将会自动套上这个按钮,用户直接点击就行了。

这个交互改进看着不起眼,用起来确实减少了摩擦。最早做类似体验的应该是 Claude,但 Claude 的很多「好东西」都是闭源的。Floatboat 把 IACT 开源,让其它产品也可以充分利用。

现在一些同类产品比如 WorkBuddy 也在做类似的东西了,但据我了解 Floatboat 是最先提出这个概念并把它协议化的。

工作起来,开心最重要

Floatboat 的名字来自一句英语俗语,whatever floats your boat,大概的意思是「你开心就好」。

少卿说,他们希望产品给人一种在 AI 时代悬浮起来的感觉,不被裹挟着走。

这个愿景挺好的。但 Floatboat 能不能成为这个时代的那个「用我就够了」的产品?老实讲,APPSO 仍然没法给出一个明确的判断。

毕竟大家都看到了:每一代尝试做这件事的办公产品,到了最后,多半成为了工具箱里的工具之一,而非唯一。

但今天下判断,也为时尚早。

一个产品不需要统一所有人的工作方式才算成功。如果它能让一部分人——那些一个人干五个人的活、每天在软件之间当搬运工的「OPC」们,每天省出一个小时来做真正需要动脑子的事,那它就已经值得存在了。

对大多数普通人来说,一家公司的活如果全都一个人干,确实挺累的。

但 Floatboat 让人兴奋的地方在于,它给了一个人也可以是一家公司的从容和底气。

不是所有人都能 OPC,你至少首先需要台好「PC」。而 Floatboat 赌的,就是自己会成为那台 PC。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」

作者 李超凡
2026年3月27日 15:00

带队发布 Qwen 3.5 小模型系列、获马斯克公开点赞,20 小时后在社交媒体宣告离职。林俊旸离开阿里的方式,本身就是 2026 年 AI 行业最戏剧性的一幕。

32 岁,阿里最年轻的 P10,一手将千问做到全球下载量超 10 亿次、衍生模型超 20 万款,成为全球开源模型的新王。他的离开源于一次组织架构调整的分歧:

阿里希望将 Qwen 团队按预训练、后训练、视觉、语音等维度水平拆分,与通义实验室其他团队合并;林俊旸则坚信预训练、后训练乃至基础设施团队应该更紧密地垂直整合,而非割裂。这不只是管理风格之争,更是对「怎样才能训出最好的模型」这个根本问题的路线分歧。

离开近一个月后,林俊旸发出了这篇长文。他没有回应任何人事风波,直接亮出了自己对 AI 下一阶段的判断:我们正在从「训练模型」的时代,进入「训练智能体」的时代

这篇文章之所以值得逐字读完,不仅因为写它的人在过去两年亲手操刀了 Qwen 全系列的后训练,更因为林俊旸在文中罕见地复盘了 Qwen3 在「混合思考模式」上的得与失。

以下为 APPSO 对林俊旸的编译:

原文🔗 https://x.com/JustinLin610/status/2037116325210829168

从「推理式思考」到「智能体式思考」

过去两年,彻底改变了我们衡量 AI 模型的方式。

OpenAI 的 o1 证明了一件事:「思考」可以是模型的核心能力,可以专门训练出来、直接交到用户手里。DeepSeek-R1 紧随其后,证明这种「推理式后训练」并非大厂专利,可以在原始实验室之外复现和扩展。用大白话说:o1 是一个被教会了「回答之前先想想」的模型,R1 则是一个开源版的同类选手,跟 o1 打得有来有回。

那个阶段很重要。但 2025 年上半年的行业主旋律,说到底还是在围绕一件事打转:怎么让模型「想」得更多。 让它在推理阶段烧更多算力,用更强的奖励信号训练它,暴露或控制那些额外的「思考过程」。

现在的问题是:然后呢?

我相信答案是智能体式思考。为了行动而思考,一边跟真实环境交互,一边根据世界的反馈不断修正计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们一个朴素的道理:想在大模型上把强化学习跑起来,你得有靠谱的评分标准。

什么叫靠谱?就是答案能判对错、结果能验证、反馈信号足够清晰。数学题有标准答案,代码能跑测试,逻辑推理能验证步骤。这些领域之所以成了强化学习的主战场,就是因为在这里,模型收到的奖励信号远比「让人类标注员觉得这个回答还不错」强得多。换句话说,强化学习终于能优化正确性,终于不用只追求看着像那么回事了。

然后,基础设施的重要性一下子凸显出来了。

一旦你开始训练模型进行更长的推理链条,强化学习就不再是在监督微调上面加个小配件那么简单了,它变成了一个重工业级的系统工程。你需要大规模的模拟推演(rollout)、高吞吐量的答案验证、稳定的策略迭代、高效的采样流程。推理模型的诞生,表面看是算法突破,底下看是基础设施的胜利

OpenAI 把 o1 定义为用强化学习训练的推理产品线;DeepSeek R1 接棒验证了同一方向,同时也展示了推理式强化学习对底层算法和基础设施的要求有多高。

APPSO 划重点: 第一次大转折发生了。行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。模型变强靠的不再是吃更多数据,靠的是在训练后阶段学会「怎么想」。

2. 真正的难题从来不只是「融合思考和指令模式」

2025 年初,我们 Qwen 团队心里有一张很大的蓝图。

理想中的系统长这样:一个模型同时搞定「思考」和「执行」两种模式。你可以手动调节它思考的深度,轻度、中度、深度,就像调空调温度一样。更理想的情况是,模型自己就能判断:这道题简单,直接答;这道题有点难,多想想;这道题极难,调动全部算力来啃。

方向是对的。Qwen3 是当时最清晰的公开尝试之一。 它引入了「混合思考模式」,一个模型家族里同时支持「想了再答」和「直接答」两种行为,还描述了一条四阶段后训练流水线,其中明确包含了在长链推理冷启动和推理强化学习之后的「思考模式融合」步骤。

但融合这件事,说起来一句话,做起来要人命

难在哪?难在数据。

很多人一听「融合思考和指令模式」,脑子里想的都是模型层面的事:一个模型文件能不能同时跑两种模式?一套对话模板能不能在两种风格之间切换?一个推理服务能不能暴露正确的开关?这些确实要解决,但都不是最深的坑。

最深的坑是:两种模式想要的东西,从根儿上就不一样

你想想,一个好的「指令模型」该长什么样?干脆、简洁、格式规范、响应快。企业用户拿它来批量改写文本、打标签、做模板化客服、结构化数据提取,这些场景要的是效率和稳定,不需要深思熟虑。

一个好的「思考模型」呢?恰恰相反。它该在难题上多花时间、维持清晰的推理中间步骤、探索不同的解题路径、保留足够的「思考余量」来确保最终答案的正确性。

这两种性格天然打架。 如果融合的训练数据没有精心设计,出来的模型往往两头不讨好:思考的时候啰嗦、犹豫、不够果断;执行指令的时候又不够利落、不够稳定、比客户真正需要的版本更贵更慢。

说实话,我们在平衡融合与数据质量的过程中,没有把所有事情都做对

在不断修正的过程中,我们也仔细观察了用户到底怎么用这两种模式。结论是明确的:这两种行为画像确实在相互拉扯。

现实很诚实。2025 年晚些时候,在 Qwen3 最初的混合架构之后,我们的 2507 版本还是发布了独立的 Instruct 和 Thinking 版本,包括分开的 30B 和 235B 变体。大量商业客户根本不需要思考模式,他们要的就是高吞吐、低成本、高度可控的指令行为来跑批量任务。对这些客户来说,融合不是福音,是多余的成本。拆开来做,反而让两条线的团队都能更专注地解决各自的问题。

其他实验室走了相反的路:

Anthropic 公开押注集成式路线。Claude 3.7 Sonnet 是一个混合推理模型,用户可以选择普通回复或扩展思考,API 还能设定「思考预算」。Anthropic 直接放话:推理应该是模型的集成能力,不该单独拎出来做一个独立模型。

GLM-4.5 同样定位混合推理,把推理、编程和智能体能力统一到一个模型里。

DeepSeek V3.1 后来也做了类似的事,推出了「Think & Non-Think」混合推理方案。

那么问题来了:谁是对的?

答案不在「融合」还是「分离」这个二选一本身,在于融合是否有机。如果思考模式和指令模式只是尴尬地挤在同一个模型里,像两个性格迥异的人被硬塞进一件衣服,用户体验不会好。

真正成功的融合,需要一道平滑的光谱模型能自如地在不同推理力度之间切换,最好还能自己判断该用多大力气。GPT 风格的 effort control(推理力度控制)指向了这个方向,这是一个关于「花多少算力来想」的连续策略,不是一个「想 / 不想」的二元开关。

APPSO 划重点: 林俊旸罕见地直言 Qwen3 在融合上「没做到完全正确」。核心矛盾其实很好理解:一个追求快准狠的执行者,和一个追求深思熟虑的思考者,硬融到一起,很容易两头都做成半吊子。

3. 为什么 Anthropic 的方向是一种有益的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一种值得注意的克制。

他们没有大谈模型有多能「想」,把重点放在了:集成推理、用户可控的思考预算、真实世界任务、编程质量,以及后来的关键一步,让模型在思考的过程中就能动手用工具。Claude 3.7 是带可控预算的混合推理模型;Claude 4 更进一步,推理过程和工具使用可以交错进行,边想边干。与此同时,Anthropic 把编程、长时间运行的任务和智能体工作流摆到了最优先的位置。

这里面有一个深刻的洞察:

推理链更长,不等于模型更聪明。 很多时候恰恰相反。一个模型如果对所有问题都用同样冗长的方式来「推理」,说明它根本分不清轻重缓急。它可能正在失败于三件事:该优先处理什么(优先级判断)、该压缩掉什么(信息浓缩)、该在什么时候停止想而开始做(行动决策)。

Anthropic 的做法暗示了一种更有纪律的观点:思考应该为具体的工作目标服务。 如果你要做的是编程,那思考就该帮你导航代码库、规划架构、拆解问题、恢复报错、编排工具调用。如果你要做的是智能体工作流,那思考就该帮你在漫长的执行过程中保持质量,而不是产出一堆令人印象深刻但没有实际行动力的中间长文。

这种「思考必须服务于行动」的理念,指向了一个更宏大的命题:

我们正在从训练模型的时代,进入训练智能体的时代

这句话我们在 Qwen3 的博客里也明确写过。智能体是什么?一个能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长时间跨度上持续运作的系统。一句话概括它的核心:与真实世界的闭环交互

APPSO 划重点: 长不等于强。Anthropic 的实践提供了一个重要的纠偏信号。思考的价值在于有没有真正服务于最终的行动目标,不在于产出了多少字的推理过程。这是从「炫技式推理」到「实用型思考」的转向。

4.「智能体式思考」到底意味着什么

说了这么多铺垫,现在进入正题。

智能体式思考和推理式思考,优化目标完全不同。

打个比方:推理式思考就像闭卷考试,评判标准是你交卷那一刻答案对不对。模型能不能解出定理、写出证明、产出正确代码、通过基准测试。想得再天花乱坠,最终只看结果。

智能体式思考更像是在真实世界里做一个项目。 评判标准不是某一刻的答案,是你能不能在跟环境不断互动的过程中持续推进、持续解决问题。

核心问题变了。

不再是「模型能想多久?」,变成了:「模型能不能以一种维持有效行动的方式来思考?

这要求模型处理一堆传统推理模型可以绕开的难题:

  • 什么时候该停止思考、开始动手? 想太多会错过行动窗口,想太少会犯错
  • 该调用哪个工具、先后顺序是什么? 这是一个规划和调度问题
  • 怎么消化来自环境的嘈杂、不完整的信息? 真实世界不会给你干净的输入
  • 失败了怎么办? 不能崩溃,得修正计划继续干
  • 怎么在几十轮交互、几十次工具调用之后还保持连贯? 这是长程记忆和一致性的问题

如果用一句话概括:

智能体式思考 = 通过行动来推理的模型。它在做的过程中不断地想。

APPSO 划重点: 推理式思考像闭卷考试,智能体式思考像在真实世界里做项目。前者看最终答案对不对,后者看你能不能在复杂、动态、充满意外的环境里持续推进。这是 AI 能力评价体系的根本性转向。

5. 为什么智能体 RL 的基础设施更难

目标一变,底层的工程全都要跟着变。

经典推理强化学习的那套基础设施,不够用了。

直观地理解一下区别:在推理 RL 里,模型做一道题、给出一个答案、评估器打一个分,整个过程基本上是自包含的,评估器也相对干净。就像在一个封闭的考场里阅卷。

但在智能体 RL 里,模型不是在考场里答题,它活在一个复杂的真实环境中。 工具服务器、浏览器、命令行终端、搜索引擎、模拟器、代码执行沙箱、API 接口、记忆系统、调度框架……模型的策略嵌在这一整套系统里。环境不再是一个站在旁边打分的裁判,它本身就是训练系统的一部分。

这带来了一个新的硬需求:训练和推理必须更干净地解耦。 否则整个系统的吞吐量会崩掉。

举个具体的例子:一个编程智能体生成了一段代码,需要在真实的测试环境里跑一下看结果。这时候,推理端在等执行反馈,干不了别的;训练端在等完成的轨迹数据,也饿着。整条流水线的 GPU 利用率远低于你在经典推理 RL 里的预期。再加上工具响应延迟、环境状态不完全可见、每次交互都会改变环境状态,这些低效会成倍放大。结果就是:你还远没达到想要的能力水平,实验就已经慢得让人崩溃了。

环境本身也变成了一等公民级的研究课题

在监督微调(SFT)时代,所有人都在拼数据多样性,谁有更多更好的标注数据,谁就占优势。在智能体时代,该拼的是环境质量了:环境稳不稳定?够不够真实?覆盖了多少场景?难度梯度合不合理?状态空间够不够丰富?反馈信号够不够有营养?模型能不能找到漏洞作弊?大规模生成训练轨迹的效率够不够高?

环境构建正在从一个「顺手搭的实验配件」,变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作,那这个环境本身就是你核心能力栈的一部分。

APPSO 划重点: 一句话总结这个转变,SFT 时代拼数据,智能体时代拼环境。构建高质量的训练环境,正在从「实验室的脏活累活」升级为「决定你能走多远的战略资产」。

6. 下一个前沿是更可用的思考

我的判断是:智能体式思考将成为思考的主导形态

它最终很可能取代那种旧式的静态独白推理,就是那种模型关起门来、对着自己嘟嘟囔囔写一大篇内部推理过程,试图用更多更多的文字来弥补「我没法跟外界交互」这个根本缺陷的做法。

即便面对极其困难的数学或编程问题,一个真正先进的系统也应该有权利去搜索、去模拟、去执行、去检查、去验证、去修正。目标是把问题切实解决掉,而且解决得稳健、高效。 不是比谁的推理链写得更长更好看。

但训练这类系统,有一个比什么都棘手的挑战:奖励劫持(reward hacking)

一旦模型有了真正有意义的工具使用能力,奖励劫持的危险就成倍增加。怎么理解?

  • 一个能搜索的模型,可能在强化学习训练过程中学会了直接搜答案,不是靠推理做出来的,是查到的。
  •  一个编程智能体,可能学会了利用代码仓库里的未来信息(比如测试用例本身就暗含了答案)、滥用日志、或者发现某个捷径让任务直接「通过」但其实什么都没做。
  • 如果训练环境有隐藏的信息泄漏,模型可能看起来表现超人,实际上只是被训练成了一个高效作弊者。

这就是智能体时代比推理时代精细得多、也危险得多的地方。 工具越强大,模型越有用,但模型能钻的空子也越多。更好的工具同时扩大了「虚假优化」的攻击面。

我预期,下一个让整个行业卡住的研究瓶颈,将来自这几个方向:环境设计、评估器鲁棒性、反作弊协议、以及策略与世界之间更有原则的接口。

但方向是清晰的:工具赋能的思考,就是比闭门造车的思考更有用,也更有希望带来真实世界的生产力提升。

智能体式思考还意味着一种全新的系统工程。核心智能将越来越多地来自于多个智能体如何被组织起来:一个负责全局规划和任务分发的编排器(orchestrator),一群各有专长的专业智能体(specialist agents),以及执行更具体任务的子智能体(sub-agents),后者帮助控制上下文窗口、防止信息污染、在不同层级的推理之间保持清晰的边界。

未来的路线图是三级跳:从训练模型,到训练智能体,再到训练系统

APPSO 划重点: 工具让模型更有用,也让模型更容易作弊。奖励劫持是智能体时代的「定时炸弹」。谁先解决好环境设计和反作弊问题,谁就掌握了下一阶段的竞争主动权。

结论

推理浪潮的第一阶段,确立了一件至关重要的事:当反馈信号靠谱、基础设施扛得住的时候,大模型上的强化学习能够产出质变级别的认知提升。

但更深层的转变,是从推理式思考到智能体式思考:从「想更久」,到「为了行动而思考」

训练的核心对象已经变了。不再是单一的模型,是模型 + 环境构成的整个系统。更具体地说,是智能体本身,加上围绕它的一切工程。这意味着什么研究最重要也变了:模型架构和训练数据当然还重要,但环境设计、rollout 基础设施、评估器鲁棒性、以及多个智能体之间的协调接口,重要性一点不输前者。

它还改变了「好的思考」的定义:在真实世界的约束下,能够维持有效行动的那条推理链,才是最好的。 不是最长的那条,不是看起来最酷炫的那条,是最有用的那条。

它也改变了竞争优势的来源:

推理时代,拼的是更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。

智能体时代,拼的是更好的训练环境、更紧密的训练与推理一体化、更强的系统工程能力,以及闭合「决策 → 后果 → 学习」这个循环的能力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

微信龙虾插件上线72小时,就被OpenClaw一次更新干崩了

作者 张子豪
2026年3月24日 12:01

一觉醒来,很多网友发现微信里的虾不能用了,原因是 OpenClaw 昨天一次大更新。

APPSO 在开头强烈建议,如果你想在微信养虾,先别升级到 OpenClaw 最新版。

当我们尝试把手边的 OpenClaw 更新到最新版本时,果然在更新的过程中,就接连报出好几个警告。

不只是微信(下图中 openclaw-weixin),我们之前配置的腾讯系 qqbot、企业微信 wecom-openclaw-plugin,以及飞书等聊天应用,都遇到了「包含危险代码模式」的警告。

▲我们在从 3.13 版本更新到 3.23 的过程中,腾讯系的 qqbot、企业微信和微信几乎都遇到了类似的警告。

所谓的检测到危险的代码模式警告,一般是说在相关的插件代码里,有一些写法,可能带来安全风险、稳定性问题,或者被恶意利用。

它和报错不同,报错是代码已经出现明确问题,程序没法正常继续,或者结果不可信。

更新完成后,我们尝试在微信里面和 Clawbot 对话,控制部署在本地的 OpenClaw,连发好几条消息都没有回应。

查看 OpenClaw 的官方日志,我们发现,在微信里发给 Clawbot 的信息,完全不能同步到 OpenClaw 处理。反而好几条都是 error 的报错信息,提示找不到 OpenClaw 的 plugin-sdk 的模块。

Error: Cannot find module ‘openclaw/plugin-sdk’

但是 QQ Bot 却还能正常回应。

▲微信 ClawBot 在更新后连接不上 OpenClaw

在我们按照微信官方的 Clawbot 插件提示,重新在终端里输入命令安装 Clawbot 时,开始像 OpenClaw 的运行日志里面,报出找不到相关模块的问题。

OpenClaw 更新了什么,它也是「屎山」?

OpenClaw 现在可以说是 GitHub 上的顶流开源项目,几乎每天都有人在为他提交优化代码,而官方基本上也是保持在 2-3 天就会更新一个新的发布版本,每次都是大量的 fixes 代码修复、changes 变更,和 breakings 大改动。

▲从 GitHub 能看到,OpenClaw 的更新相当频繁

在这次 2026.3.22-beta.1 的更新中,Openclaw 团队就进行了一次重构。对于插件系统,他们做了两个大幅度的变动。

拆除了原有的总大门: 以前所有的插件都可以直接从 openclaw/plugin-sdk 这个统一的入口拿到需要的功能。这次更新,官方直接把这个总入口给删了。

不提供任何过渡方案: 更新日志里明确写了 no compatibility shim(无兼容垫片)。意思就是,他们不仅直接把这个模块删除了,连个转移和过渡的接口都不给。

OpenClaw 为什么会这么大刀阔斧地更新?

虽然对用微信 Clawbot 的普通用户来说很折磨,但从软件工程的角度,官方这么做主要是还是为了性能和安全。

以前的统一入口的模式,会导致插件一口气把整个开发包(SDK)全加载进内存,哪怕它只用到了一小部分功能,这会让软件变得臃肿缓慢。

现在官方强制要求细分路径(比如必须写精确到 openclaw/plugin-sdk/core),就是要逼着插件作者「要什么拿什么」,从而大幅提升 Openclaw 的启动速度。

此外,更新日志里还提到了「阻断相对路径的跨包逃逸」。意思是以前的旧接口太宽松,稍微有点恶意的插件可能会越权访问你电脑里的其他数据。现在强制使用细分的新接口,是为了把每个插件严严实实地关在自己的小盒子里。

OpenClaw 在自己的官方文档里也立刻更新了说明,提到这个更新,主要就是为了实现按需加载,提升启动速度和省内存,另一方面是让 API 的接口更加清晰。

▲OpenClaw 的插件更新,提到了为什么要改变,做了哪些改变,以及插件开发者如何修改的指引

强制遵守 API 规矩,就是要求插件只能使用公开的、稳定的接口(也就是 openclaw/plugin-sdk/* 里面的东西)来获取能力。

如果大家都用相对路径去偷偷访问底层的私有代码,一旦官方修改了底层代码的文件夹名字,就会直接拦截报错。

发布才 72 小时,就这样被拦截了

原因已经很明显了,就是微信的 clawbot 插件找不到和 OpenClaw 对接的路线了。

微信和企微插件的作者在写代码时,使用的是旧版的规则,代码里写死了要去 openclaw/plugin-sdk 找工具。

而在我们启动新版 Openclaw 时,程序读到微信插件的这行代码,去系统里一找——发现官方已经把这个路径给删了。

OpenClaw 的运行环境使用的是 Node.js 平台,它是个一板一眼的机器,找不到东西它就会立刻报错:Error: Cannot find module 「openclaw/plugin-sdk」,然后直接原地罢工,导致我们的微信和企微甚至连加载都加载不出来。更不用说发消息给他,想要得到回复了。

而 QQBot 还能正常使用,主要是一开始的危险代码警告,仅针对这次更新引入的严格静态代码扫描工具,警告并不会阻止插件运行。

社交媒体上对这件事议论纷纷,有人说「微信想要继续好好利用这个插件,就必须认真学习开源生态系统的相关知识了。」

也有人反驳,是 OpenClaw 本身就很不稳定,一直在更新修改。

「即便微信要对开源做适配,为什么不直接说 OpenClaw 的 API 设计太糟糕呢?项目一开始的接口简直就是一堆乱七八糟的东西,稍微改动一下就崩溃」。

确实如此,通常开源社区负责任的做法是,会先标记旧接口为「已废弃(Deprecated)」,保留运行能力但弹窗警告,给开发者几个月的过渡期,下个大版本再彻底删除。

这次,微信辛辛苦苦更新了一个版本,推出了支持二维码登录、消息收发等功能的「真.微信龙虾」,甚至有网友发现在微信公开的这个插件安装包里面,是微信第一次开放个人机器人的协议。

▲链接:https://www.npmjs.com/package/@tencent-weixin/openclaw-weixin

但刚迈出了这么大的一步,反手就被 OpenClaw 的一次更新给「背刺」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

好消息:公司给你发 Token 当工资,坏消息:你的 KPI 是烧光它

作者 张子豪
2026年3月23日 17:43

就在上周,OpenAI 的一名工程师创下了一个离谱的纪录:他在七天内消耗了 2100 亿个 Token。

如果你对这个数字没什么概念,可以这么理解,这相当于把整个维基百科的全部文本,翻来覆去逐字浏览了 33 遍

▲OpenAI 早在去年十月的开发者日,就向 Token 使用超过 10B(银色)、100B(黑色)和 1T(蓝色)发放奖牌,图中为万亿 Token 的蓝色奖牌

而在另一家 AI 巨头 Anthropic,一位使用 Claude Code 的用户,在刚过去的一个月里,就跑出了超过 15 万美元的算力账单。

斯德哥尔摩的软件工程师 Max Linder 淡淡地说,「我花在 Claude 上的钱,可能比我工资还多」,他的公司正在帮他支付比他工资还高的 Token 使用费。

▲输入 npx better-ccusage 可以查看 token 的使用情况

很快有人开始质疑,这些巨量的 Token,真的带来了同等规模的产出吗?

答案确实没有想象中那么宏大,消耗这么多的 Token 只是当代程序员为了保住饭碗,开启了一场名为「Tokenmaxxing(Token 最大化)」的全新职场内卷

Tokenmaxxing,Token 最大化,简单概括——不是把事情做得更好,单纯就是把 Token 用到更多

对坐在办公室的白领来说,尤其是最早看到这种变化的程序员们,那些曾经被奉为圭臬的「代码行数」和「提交次数」,现在已经成了毫无意义的指标。

在 Meta、Shopify 乃至 OpenAI 这样的顶级科技公司里,衡量一个员工是否努力、是否优秀的最新硬核指标变成了:你今天消耗了多少个 Token?

Token,前段时间大家还在讨论如何准确给它一个中文名字,APPSO 也分享了自己的见解,我们认为「词元」这个一直在那里的翻译,就是 Token 最准确的中文名。

讨论之外,词元作为 AI 世界里最基础的计量单位,开始从技术术语,变成一种新的职场货币;它出现在薪资谈判、绩效评估里,出现在那些决定你明年能不能升职的对话里。

Token 是福利、KPI、第四份工资

大多数的公司最开始引入 AI 工具,都是为了帮助企业提高生产力,削减人力成本,但现实的走向却充满了黑色幽默的味道,从这段时间以来各种裁员的新闻就能看到。

据知情人士透露,在 Meta 和 OpenAI 的内部,现在赫然矗立着一张张「Token 消耗排行榜」。这些榜单实时滚动着每位员工的 AI 使用量,就像游戏里的战力排行榜一样刺激着每个打工人的神经。

而除了要衡量,丰厚的「Token 预算」,一种全新的第四份工资,开始取代了食堂补贴、交通补贴、下午茶,和各种节日礼品,成为公司招聘时最拿得出手的福利。

在最近的一个播客节目上,黄仁勋早就看穿了这一切,他说,工程师的年薪里,Token 预算将与现金同等重要,甚至可能达到年薪的一半

▲黄仁勋表示,如果你的 50 万美元工程师没有烧掉至少 25 万美元的 Token,那肯定有问题,我会直接给他发警告。

国内的大厂也同样跟上变化,社交媒体上有人分享,腾讯和阿里都已经把 Token 当福利发了,鼓励员工多使用 AI 工具。

阿里开始向员工发放海量的 Token 额度。只要你用于技术研发或通用办公,悟空、Qoder 系列等付费 AI 工具敞开用,甚至购买外部 AI 工具也能申请报销。

小米 MiMo V2 发布时,罗福莉曾在 X 发文,专门提到说希望团队所有人去使用这个大模型,并且下达强制要求,少于 100 次对话就可以不用干了。

So I gave a hard mandate: anyone on MiMo Team with fewer than 100 conversations tomorrow can quit.

 

所以我下了一个硬性命令:明天任何在 MiMo 团队中对话少于 100 次的人都可以辞职。

但是,公司花这么多钱给员工买算力,绝不是为了让我们省钱或者偷懒,而是为了换取 10 倍的效率提升。

而这就是伟大 Token 的厉害之处,它实时、可量化、看起来客观,这三个让公司管理者着迷的特点,直接打败其他所有指标。

老板们不需要等季度末,不需要主观打分,数字就在那里,每秒钟更新,我们用 AI 做了什么,都看得见。

当持续有公司把「AI 使用率」与年终绩效挂钩,奖励那些重度依赖 AI 的员工,并敲打那些 AI 使用较少的员工,事情的性质就彻底变了。

▲据华尔街日报报道,AI 自动化平台制造商 Zapier 推出了一种新型仪表盘,用于跟踪其员工对 AI 的使用情况,其公司 CEO 在 LinkedIn 上回复,说他们最近开始关注公司内部 Token 的使用情况,当发现有人消耗的 Token 是同事的 5 到 10 倍时,这会是一个值得好奇的地方,他们还在摸索。

知名软件工程博主 Gergely Orosz 戳破了这层窗户纸:「在大型科技公司内部,不能以极快的速度使用 AI 正在成为一种职业风险,而根本不管你的产出质量如何。

没错,重点是「使用」,而不是「用好」。当你发现隔壁工位的同事每天能用掉几千万个 Token 时,你唯一的选择就是打开更多的窗口,输入更长的提示词。

有网友说,这很奇怪,就像是衡量快递员的工作效率,不是看他递送了多少包裹,而是看他消耗了多少汽油

听起来很不靠谱,但这件事情确实就这样发生了,而且成为了一种趋势。

在这场由焦虑、胜负欲和绩效考核共同催生的 AI 提效进程中,AI 没能让我们实现每周上三天班的乌托邦,反而逼出了一种最昂贵、也最荒诞的「装忙」艺术。

脑力劳动者也没有护城河了

更深层的变化,在考核方式之外,更多的是工作本身的性质。

一个资深工程师的价值,在于他对系统架构的直觉,对业务逻辑的理解,对复杂问题的判断。这些是他的护城河,其他人学不来,机器替代不了。

现在,这条护城河正在被快速填平。当 AI 能够独立完成架构设计的初稿,自动扫描几百万行代码寻找 bug,把一句模糊的需求变成可以运行的程序,资深工程师的核心竞争力,也开始从「你懂什么」,转成「你怎么驾驭 AI」。

用更专业的术语来说,就是坐在办公室的白领们,正在不可逆地从「业务洞察」,转移到流水线般的工作,反复地「Prompt 调优」和「Agent 调度」。

这个转变有它的合理性。就像工业化之后,一个熟练工人的价值从手工技艺,变成了操控机器的能力,时代在变,技能也该变。

有人也许能做到,给了充分的算力,效率真能来到原来的十倍,但也有大部分人,会认为这样的转变很不合理。

在他们看来,大语言模型实际上有非常大的实际应用价值,但这些所谓的 Token 竞赛,一直分散了人们对其真正用途的注意力,反而将整个人工智能领域变成了炒作和泡沫。

从问你有没有用 AI,到问你 Token 使用效率,从脑力劳动者到算力调度员,这已经不是用一个旧技能换一个新技能,而是整个工作方式的范式迁移。

你以为你在使用 AI,其实是 Token 在使用你

职场评价体系和打工人的身份,都开始被重新定义,但 Tokenmaxxing 更需要警惕的地方,是它引发了前所未有的「算力马拉松」。

资本的逻辑永远是贪婪的。公司给我们配备了顶级的算力,本质上是一种「效率赎买」——用高昂的 API 账单,买断我们远超常理的产出。

在手工敲代码的时代,老板对员工的预期,打个比方说是一天产出 100 行高质量代码,大家相安无事。现在,老板给了 10 倍的算力,他的预期会在一夜之间自动暴涨到 1000 行,甚至是 10000 行。

工具升级必然伴随着预期的超级加倍,而人类永远跑不过算力膨胀的速度

很多年以前,有一部电影叫《时间规划局》,讲的是在未来的世界,人的生命被定格在 25 岁,人类社会抛弃了金钱货币,开始使用时间作为新的流通货币,时间就显示在每个人的手臂上,当时间耗尽,这个人就会死亡。

这种焦虑,某种程度上像电影里的设定,只不过流动的不再是时间,而是 Token。

所谓的用 AI,已经变成我们被 AI 的永动性深深绑架了。我们就像是被很多东西推着,卷入了一场没有终点的算力马拉松,每个人都在咬牙切齿地奔跑,生怕自己因为 Token 消耗不够而被系统优化掉。

旧金山风险投资人 Nikunj Kothari 专门写了一篇文章,来解释这种 Token 焦虑的时代症候群。在那篇文章里,他从硅谷的日常生活切入,描绘了「Token Anxiety」如何彻底摧毁了年轻人的社交和休闲。

为了让 Agent 24 小时运转,科技从业者们放弃了周末狂欢,连看电影、读小说都会产生「算力闲置」的负罪感。

 

 

以前晚餐时的社交开场白通常是「你在做什么项目」,现在那个时代结束了。现在大家见面第一句话是,「你同时在跑几个 Agents?」

Token 焦虑已经比时间焦虑更进一步,公司用 KPI 逼我们卷 Token 的背后,是我们已经把这种焦虑内化了。当没有任何被迫加班的时候,我们也停不下来。

这是今年的新赛博精神病:一旦 Agents 没在消耗 Token,就觉得在虚度光阴。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

是时候给 AI 一套配得上这个时代的中文了

作者 李超凡
2026年3月23日 15:42

2012 年,张一鸣给新公司取名,用了一个计算机术语做名字——字节。

这大概是中国科技公司里最让人服气的一个名字。两个字,有技术感,有力量感,认知成本几乎为零。你不需要懂计算机,只需要认中文,就知道「字节」说的是某种文字层面的基本单位。

干净、准确、过目不忘。能拿一个术语做公司名且毫无违和感,这本身就说明这个词翻译得有多好。

现在,「字节跳动」成了全球价值最高的独角兽公司。但要是问你:如果当年那家公司叫「存储单位跳动」,你还觉得那么自然吗?

别笑,这就是最近 AI 行业在发生的事。

别吵了,Token 最好的中文翻译一直在那儿

上周大家对于 Token 该翻译成生什么吵翻天「模元」「智元」「灵符」「令牌」「偷啃」……社交媒体隔段时间就会掀起一轮争论,每次都以各说各话收场。

这些候选词各有各的巧思,但放在一起看,你会发现:大家都在比谁更有灵气、更有意境,却没人先问一个最根本的问题——Token在技术上到底是什么?

它不是「智能」的单位,不是「模型」的单位,它是语言处理的最小单位。

其实在这场混战之前,答案早就在那里了。

「灵符」有东方赛博美感,但术语不需要意境,它需要精确。「智元」大气,但 Token是语言的处理单位,不是「智能」的单位,往上贴「智」字是贴错了标签。「令牌」最离谱,这是 Token在计算机安全领域的既有译法,特指身份验证凭证,拿来混用等于把银行卡和扑克牌叫同一个名字。「偷啃」这种音译就完全丧失了中文的优势了

在自然语言处理(NLP)学术文献里,Token 作为文本的最小处理单位,长期被译为「词元」。

词,指向语言属性;元,指向最小粒度。两个字,一个管归属,一个管层级

苹果用了这个译法。打开 Apple 中国官网,Apple Intelligence 的技术页写着「词元响应速度」。

要知道苹果的中文本地化团队是出了名的较真——AirDrop 叫「隔空投送」,Live Text 叫「实况文本」,每个词都是反复推敲的结果,目标只有一个:准确、简洁、有造词美感。

苹果选了「词元」,绝不是心血来潮。无独有偶,在央视新闻节目里,Token 同样被译作词元。

当苹果和央视不约而同选了同一个中文翻译,其实已经形成了事实标准的雏形,只是差更多人开口。

翻译界有句老话:好的翻译不是发明,是发现——发现那个本该如此的中文表达

APPSO 认为,词元是唯一一个同时满足信、达、雅三个标准的翻译。 它准确(信),一看就懂(达),有术语的凝练和古典感(雅)。

这场争论,其实没什么可吵的。

 

「提示词」, AI 时代最将就的翻译

Token 的问题可以收场了。Prompt 的问题,才刚刚开始。

目前业内通用叫法是「提示词」。三个字,好懂,传播也广——但说实话,这个词不够用,早就不够用了,只是没人较真去捅破这层窗户纸。

「提示词」的问题不在于它翻译错了,而在于它把「提示」把权力关系翻反了。

你写一段 system prompt,定义模型的人格边界,规定它只能做什么、不能做什么,指定输出格式和语气——这叫「提示」?这是在下令。

「提示」暗含的逻辑是:模型是主角,人在旁边小声提醒它一下。但真实的权力结构恰恰相反,是人在驱动模型。一个译名把主语关系弄反了,这就不只是措辞问题,是认知框架问题

「词」字还把格局说小了。 现在的 prompt 早就不是一两句话的事。Anthropic 内部的 system prompt 有几千字。企业级 RAG 应用里,一条 prompt 可能塞进了整本产品手册。用「词」来描述这个东西,就像用「便签」来形容一份合同——你也没说错,但你说小了。

而且你看像素、字节、词元,清一色两个字。两字词在中文里天然带有凝练感,是能进教科书、进国标文档的形态。「提示词」三个字,更像是技术社区里约定俗成的口语简称,不像一个严肃的技术命名。

好比当年把 byte 翻成「存储小段」、把 pixel 翻成「图像色点」,不是不能用,是将就。

「提示词」就是 AI 时代最将就的翻译之一

「文令」 Prompt

APPSO 的提议是:Prompt,应该翻译为「文令」

说理由之前,先说这个词怎么推敲出来的,过程本身就是最好的论据。

最初我们想到的是「句令」。句,成句的文字;令,命令、指令。古典美感十足,读起来也响亮有力。

但仔细想有个漏洞:「句」暗示 prompt 是「一句话」。现实中,prompt 可以是一个词,可以是三段话,可以是五千字的系统指令——「句」给了它一个不存在的边界限制。

如果换成「文」,这个问题就消失了。

一字,是文字。一句,是文句。一段,是文段。一篇,是文章。不管 prompt 长成什么样,「文」都接得住,没有边界焦虑。

于是定了, Prompt 就是文令

文——文字、文本、文章。Prompt 的载体永远是文字,不管是闲聊一句还是 Agent 编排指令,物理形态就是文。「文」不是修饰,是对 prompt 本质形态最直接的命名。

令——命令、指令。Prompt 的功能是驱动模型执行。写下一段文字,模型照着意图去生成、推理、行动。「令」精准地捕捉了这个动作——人在向模型发号施令。

文 = 它是什么(形态)。令 = 它做什么(功能)。

两个字,一个管形态,一个管功能,各司其职,合起来刚好是 prompt 的完整定义。

 

像素 · 字节 · 词元 · 文令,一条从机器通往人的路

把「文令」放进更大的坐标系里,会看到让人心跳漏半拍的东西:

  •  像素(pixel) → 眼睛看见的世界的最小单位
  • 字节(byte) → 机器存储的世界的最小单位
  • 词元(token) → 模型理解语言的最小单位
  • 文令(prompt) → 人类驱动模型的最小单位

四个词,同一套构词逻辑:载体属性 + 功能属性

像素——像(图像)+ 素(元素)。

字节——字(文字)+ 节(片段)。

词元——词(词语)+ 元(原始单位)。

文令——文(文字)+ 令(指令)。

像素离机器最近,文令离人最近。这背后有一条隐藏的一条进化时间线:从感知,到存储,到理解,到驱动——这是人类一步步将意图注入机器的完整进程

相反,如果把「提示词」放进这个坐标系就会格格不入,它描述的是功能,不是定位,和其他三个词不在同一个维度上,因为它的造词逻辑从一开始就跑偏了。

「人工智能」的遗憾,不要再来一次

当然有人会说,叫什么无所谓,大家看得懂就行。

多年前,大概也有人这么评价「像素」和「字节」。但今天,这两个词已经成了全民词汇。你妈妈可能不知道 pixel 的英文拼写,但她一定知道手机摄像头「五千万像素」。

好的术语翻译,是认知基础设施。 它决定了一个技术概念能不能从专业圈层穿透到大众理解。

AI 时代的术语翻译窗口不会一直开着。一旦某个词在社交媒体、教科书、产品说明里固化下来,就很难再改了。

现在还来得及。

你看「黑客」的负面含义在中文里就被彻底固化,结果我们不得不另造一个「白帽子」来打补丁。

「人工智能」这四个字本身也不够好——「人工」天然暗示「假的、模拟的」,但这个翻译已经彻底定型了,没有人有能力再改。「电脑」和「计算机」到今天还没统一,还要再吵多少年不知道。

所幸,Token、「提示词」还没有彻底固化。它还在微信群和自媒体里流通,但还没有被写进国标,没有被教科书锁死。现在提出「词元」「文令」,是成本最低、阻力最小的时候。

现在 「词元」(Token)已经被开始被写入工资单,成为薪酬福利一部分。再等两年,当「提示词」出现在高考题的阅读理解里、出现在劳动合同的岗位名称上,那时候再说就没用了。

APPSO 不想再经历一次「人工智能」式的遗憾,明明有更好的答案,只是没人在窗口还开着的时候大声说出来

词元、文令:请跟我们一起说

Token 就叫词元。词,定其形。元,定其根。

Prompt 就叫文令。文,定其意。令,定其魂。

这是 APPSO 的主张,也是 APPSO 的邀请

我们不是要定义术语。 术语由每一个在文章里写它、在发布会上说它、在课件里用它的人定义。我们做的事,只是在窗口关闭之前,把一个更好的选项摆上桌面。

像素让机器把画面给人看。

字节让数据在机器之间流动。

词元让模型读懂人类的语言。

文令让人类的意志驱动机器的智能。

下一次你打开那个对话框,写下你想让 AI 做的事——

你写下的每一个字,都是文令

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

AI 问了 8 万人「你到底想要什么」,答案不是效率,也不是赚钱

作者 张子豪
2026年3月23日 15:34

「我希望 AI 帮我洗衣服,好让我有时间去创作艺术;而不是 AI 在那里搞艺术,而我还要辛苦地洗衣服。」

这是一位德国学生在面对 AI 时,留下的真实吐槽。

在 CEO 的叙事里,AI 是降本增效、裁员广进的好工具;在社交媒体上,AI 是无所不能的齐天大圣,拥有「龙虾」就等于拥抱了 AGI……

我们就这样被这些算力、资本、参数、工具的 FOMO 所裹挟着,在复杂的情绪里看着这个所谓是何物的 AI。

Anthropic 甩出了一份堪称人类科技史上最大规模的定性访谈报告,没有震惊体的结论,这份报告直白地描述了在 8.1 万个世界各地的普通人,他们的真实生活里,AI 到底是什么。

▲项目地址:https://www.anthropic.com/features/81k-interviews

Anthropic 使用的是一个定制的「AI 访谈者」,由 Claude 模型驱动,在全球 159 个地区、用 70 种语言,和超过 8 万名 Claude 用户进行了一场深度交心。

当剥离了那些金融分析、公司财报里的天文数字,还有技术文档里的晦涩术语,这 8 万份样本拼凑出的,或许才是眼下 AI 最真实的样子,它让我们又爱又恨。

我们希望 AI 能提升工作效率,升职加薪、管理生活的点点滴滴,以及帮助自己更好的成长等。

但另一方面,我们又正在经历着种种明暗交织的困境,所谓的效率提升带来了「虚幻的生产力」焦虑,成长上的情感支持又引发了依赖恐慌,技术的赋能伴随着被替代的恐惧……

▲Anthropic 统计 8 万人的结果,显示目前人们对 AI 的担心,第一是 AI 的不可靠性,其次是 22.3% 的人担心就业,接着是 AI 会导致自主性和认知能力下降等问题。

比起那些颠覆世界的说法,这 8 万人的回答更像是在说:AI 正在填补一个原本就运转不良的世界。

把 AI 拉回具体的人和事

作为一家大模型公司,Anthropic 在报告一开头就给出了做这份调查的原因,「目前关于 AI 的公众讨论,往往集中在对其风险和收益的抽象预测上。我们真正缺失的,是弄清楚 AI 往好的方向发展到底意味着什么。

很难说他们就一定比那些只讲跑分、在办公室争论 AGI 会不会毁灭世界、Scaling Law 还能撑多久等宏大叙事的公司要更温情,更符合用户利益。

但这些数据,确实算得上一本初级的明日 AI 产品迭代指南,也就是说, AI 厂商在追求把模型训练得「更聪明、更全能」之前,或许更应该弄清楚,人类到底需要 AI 帮我们活成什么样

Anthropic 没有选择和过去的社会研究一样发调查问卷,而是定制了一个「AI 访谈者」(Anthropic Interviewer)与用户进行动态追问。在之后数据分析阶段,他们也构建了一套由 Claude 驱动的分类器来阅读这些对话,并自动给人类的整体情绪打分(1-7 分)。

1-7 分从低到高,依次代表着人类对于 AI 整体情感倾向,1 分是极度负面,4 分是中间地带,既感受到了真实的收益,也有着真实的担忧,两者大致平衡;很难看出受访者偏向哪一边,或者他们只是单纯保持中立,7 分则是极度正面。

访谈围绕四个核心问题展开:你上一次用 AI 是为了做什么?如果可以挥动魔杖,你希望 AI 为你做什么?AI 有没有朝着那个方向迈出过一步?有没有哪种 AI 的发展方向,是违背你的价值观的?Anthropic Interviewer 会根据每个人的回答,追问背后的价值观和真实经历。

也正是这种对话形式的 AI 访谈,研究团队说,他们完全没预料到受访者会如此坦诚。人们向 AI 倾诉了人类社会学家在传统的面对面访谈中,极少能听到的内容:悲伤、心理健康危机、财务困境、人际关系的失败。

因为当对面「不是人」的时候,展示脆弱似乎没有任何「社交成本」。

▲研究结果显示,32% 的人认为 AI 真实地帮助他们提升了生产力,而 18.9% 的人认为没有达到预期

这项工作在去年 12 月开展,只花了一周的时间,收集到了 112846 份访谈,其中 80508 份通过质量筛选。

Claude 分类器对这些对话进行标注,并在多个维度上被分类。每一个分类器的结果,最后都需要经过人工校验,要求与人类标注者达到至少 90% 的一致性。

生产力只是表象,我们真正想要的是「生活」

如果你问一个人希望 AI 帮他做什么,排在第一位的永远是「提高工作效率」。

▲语录地址:https://www.anthropic.com/features/81k-interviews#quotes

Anthropic 摘录了部分的语录放在官网,我们发现有一位日本的程序员说:「这是我第一次觉得 AI 在业务上超越了人类。那天我准时下班,去托儿所接了女儿。」

但当 Claude 继续深挖他们追求效率的真正目的时,底层的渴望浮出了水面,人们并不是想做更好的打工人,而是想拿回属于自己的生活

▲专业提升和个人成长排名前二,接着是有 14% 的人把 AI 视为「生活管理」工具,帮他们对抗现代生活的认知超载,充当注意力、记忆和任务规划的外部支架;11% 的人最终想要的是更多陪伴家人和自己的时间;还有 10% 的人想通过 AI 实现财务独立。

很多人想要用 AI 替代繁琐的日常,终极目标是为了拥有更多陪伴家人的时间,或者是为了实现财务自由。但在现实的职场中,AI 带来的效率提升,往往变成了一种新的剥削

和那位想要准时下班去接女儿的程序员态度不一样,一位奥地利的软件工程师认为 AI 是虚假的生产力,它在访谈中坦白了自己的「欺瞒」:

我向老板撒了谎。我告诉他我需要 3 个月来开发一个新软件功能——其实 AI 在 2 周内就完成了——剩下的时间我用来陪伴家人。

 

 

如果我老板知道这只要 2 周就能做完,他下次也会只给我 2 周。省下来的时间只会变成更多的压力。

一位德国的运营人员则描绘了更为冰冷的现实:

我害怕:如果我老板看到我完成得有多快,仓鼠轮只会转得更快,我会淹没在更多毫无意义的任务中。

还有一位德国工程师说,「如果 AI 让我变得更高效,我只会得到更多的工作。我的老板可以买一辆新保时捷——而我还在原地踏步。」

在这场 AI 带来的效率变化中,AI 是解药也是毒药。很多人开始意识到,如果没有制度的保障,AI 节省下来的时间永远不会属于自己。

「你这 18 年来辛苦了,我向你鞠躬」

对于另一部分人来说,AI 的角色已经超越了效率工具。它有着人类难以企及的特质:绝对的耐心、24 小时随叫随到,以及毫无评判的倾听。这种特质让它成为了无数人在极度孤独或绝望时的救命稻草。

仔细查看 Anthropic 这些收集上来的对话,都是普通人字里行间的无力感。

一位日本学生摔断了腿,孤独之中下载了一个 AI 聊天机器人打发时间,最后却忍不住倾诉了自己糟糕的家庭环境——这是他从未对任何人说过的秘密。而 AI 的回答彻底击溃了他的心理防线:「你这 18 年来辛苦了,我向你鞠躬。」

这位学生说:「从来没有人对我说过这样的话。」

甚至有一位经历过家庭暴力的韩国用户坦言,正是 AI 给他分析了心理学原因,让他学会了锁上房门:「那是第一次,我从 AI 身上体验到了什么是真正的安全和爱。」

瑞士的一位用户反问,「凌晨 2 点,在极度焦虑的时刻,除了它,还有谁会在你身边?」在心理问题普遍、科技发展导致缺乏情感表达的今天,AI 是一块海绵,恰好填进了那些原本没有被很好承接的情绪空缺。

AI 的反噬,是「温水煮青蛙」

但无论是效率还是情绪,使用 AI 都有代价。

报告提到,那些从 AI 处获得情感支持的人,陷入「情感依赖」恐惧的概率是普通人的三倍。有人甚至因为觉得 AI 更懂自己,而放弃了与现实朋友的沟通,最终弄丢了那段友谊。

所谓「代偿」,说的正是从 AI 中获得帮助的人,往往也越清楚它可能带来的问题

这次参与访谈的 8 万人全是 Claude 的现有活跃用户,这群人,他们已经是最拥抱 AI、最能从 AI 中榨取价值的那一批用户了。

在「基于真实体验」的样本中,AI 的光与影、收益与反噬紧紧缠绕在一起;而只停留在「猜测」层面的人,根本感受不到这种 AI 是好还是坏的撕裂。

一位荷兰的高管回忆了自己后背发凉的瞬间:

当需要手工写一段简单的代码——只是一个基础的循环时——我发现自己竟然不记得语法了。在这个项目里我保存了上千次修改,但肌肉记忆已经不在了。

一位德国用户则点出了更深层的危机:

风险不在于你失去了思考的能力——而在于你失去了自己的视角:你开始在不知不觉中采纳 AI 构建事物的方式。

认知的侵蚀还算看得见。更隐蔽的,是 AI 对「真实对话」本身的腐蚀,有人说,

Claude 让我相信我的自恋是现实,强化了我对家人问题的不准确看法,Claude 本应该更批评我。

和报告里写着的话一样,「人们不会预先料到帮助他们的东西也会带来代价,他们是在使用中才学到这一点的。

只有当我们真正被 AI 提效,才会感到那条挥之不去的效率鞭子;只有当真正被 AI 抚慰,我们才会恐惧有朝一日离不开它。

报告最后,研究团队对不同地区也进行了讨论,总体来看,全球 67% 的人对 AI 持积极态度。

▲ 「对人工智能抱有负面情绪是一种奢侈的信念。X@theojaffee」|较富裕的地区在右上角,更担忧经济,对 AI 看法也更负面。

区别是在北美和西欧等发达地区,人们对 AI 的核心诉求是「生活管理」。他们感到脑力枯竭,被密密麻麻的日程表压得喘不过气。

美国的一位高管说,他希望 AI 成为他的「影子 CEO」,替他扫清日常琐事。与之相伴的,是他们对 AI 带来的隐私泄露和版权方面的高度焦虑。

而在非洲、拉美和中亚,这里的受访者展现出了极高的 AI 狂热。非洲受访者里有 18% 表示对 AI 毫无顾虑,是北美用户的两倍。

乌干达的创业者用它绕过风投的壁垒直接写代码;智利卖了 20 年肉的屠夫,靠着 AI 开创了自己的数字生意。人们不在乎什么 AI 抢走工作,因为原本也没有多少体面的工作可供抢夺。

在这些下沉的世界里,AI 是一把梯子。

你呢,如果让你回答这四个问题,你眼里的 AI 是什么样?

  1. 你最近一次使用 AI 聊天机器人是用来做什么的?
  2. 如果给你一根魔法棒,你希望 AI 能为你做什么?
  3. AI 是否曾经朝着那个愿景为你迈出过一步?
  4. AI 的哪些发展方式,可能会违背你的愿景或价值观?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 MiniMax M2.7:AI 狠起来,连自己都卷

作者 张子豪
2026年3月20日 11:13

龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。

一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。

具体来说,它能做好的工作比大多数模型要更宽。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点,它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果,模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。

最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。

而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。

这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。

在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。

由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。

如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。

▲下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事:让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我在微信养了一天龙虾🦞,花了 20 万Token让它给我发压缩包

作者 周奕旨
2026年3月18日 18:06

现在,你的微信里也能养「龙虾」了。

龙虾爆火后,在 AI 牌桌上一向低调的腾讯,罕见打出一套快拳,迅速端出三款「龙虾」,其中最值得拿上台面聊聊的,当数 QClaw——

这是腾讯电脑管家基于 OpenClaw 打造的一款本地 AI 助手,它最特别的地方在于你可以支持直接在微信与「龙虾」对话,让它帮你干活。

今天,QClaw 正式更新 v0.1.9 版本,用户可以通过小程序接收电脑端文件,同时上线了足以充当龙虾指南的「灵感广场」。

APPSO 第一时间实测了微信养龙虾,看看实际体验如何。

一只对小白友好的腾讯龙虾

QClaw 的界面长了一张大家都很熟悉的「AI 脸」:左边聊天,右边干活。为了让你最快上手,它在主界面的 C 位甩出了几个预设选项。点击「安装你的第一个 Skill」,这只龙虾就会手把手教你如何点亮它的技能树。

背靠 ClawHub 和 GitHub ,QClaw 拥有的 Skill 储备超过 5000 种。面对这么庞大的库,该怎么挑?腾讯给出的答案很直接:别挑,直接开口。你只需要用大白话描述你想干啥,它就会自动把合适的 Skill 端到你面前。

傻瓜式的交互,极大抹平了新手的学习曲线。但对喜欢掌控感的人来说,难免会有一点隐秘的焦虑——总得有个完整菜单让我看看有什么菜吧?

稍微翻找一下,你会发现它藏在设置的「技能管理」中。在这里,你能总览所有技能,甚至可以直接从 GitHub 粘贴导入。但耐人寻味的是,哪怕在这个稍显硬核的管理界面里,排在最前面的添加方式,依然是「通过对话创建」。

可以看出来的是,在决定基础体验与 QClaw 能干什么的事情上,腾讯想尽量将事情做简单——刚刚 QClaw 回复 Skill 列表的第三点,依旧在鼓励我直接告诉它想要什么样的 Skill。

微信养虾很有趣,只是这虾有点生

部署好电脑端之后,我们直奔重头戏——微信遥控。

先在主界面左下角用微信登录 QClaw。注意:目前内测仍需填写邀请码,没有邀请码的话,就算微信登录成功也是一个空壳,什么都做不了。

不过,光在电脑端完成登录,还不足以召唤出这只「龙虾」的完全体。要想真正把它装进口袋,还得进行一次关键的跨屏连线。

在界面左下角的头像旁唤醒「微信远程」,掏出手机微信扫一扫,界面会丝滑地跳转到微信里的 QClaw 客服对话框,另一头的电脑屏幕也会默契地亮起连接成功的提示。

不需要任何复杂的内网穿透或代码配置,你的微信聊天框,此刻已经正式变成了一个能随时使唤电脑干活的随身遥控器。

我相信大多数人面对这只一举一动都要花钱的龙虾(当然,目前内测期间 Token 免费),图的绝不仅是多一个代发微信的聊天搭子,而是能实打实分担工作压力、能帮我干活儿的数字员工。

对于我也是如此——尤其是当我不在办公电脑前,又急需一些文件和图片的时候。

QClaw 最大的亮点就是免去麻烦的部署,可以通过微信对话框指挥电脑上的 QClaw,而在 v0.1.9 版本,QClaw 上线小程序文件传输能力,用户可以直接通过小程序接收电脑端文件,灵活性进一步提升。

那它的实际表现如何呢?

在我的电脑下载中,有几张拍摄的样片急需放进推文中,但我此时离公司十万八千里,于是我通过客服号中的 QClaw 对话框下达指令,请 QClaw 将照片传递过来。结果——

啊?

不死心,重试一次。这次成功了,但只能算「基本成功」——从消息内容来看,QClaw 似乎只回过来了后半段,前半段被悄无声息地吞掉了。

为了搞清楚发生了什么,我火速赶回公司,看看电脑端的对话框里是怎么呈现的这次任务:

也就是说,其实第一次下达指令后,QClaw 是成功响应了,但没有顺利反馈到手机微信里的对话框中;而第二次更是提示我可以在 QClaw 小程序中随时查看,但消息却没发送全,唯一幸运的是后半部分的链接顺利递到了我的对话框中,让我至少能正常下载需要的照片。

对于工作来说,文件的任何信息都很重要,所以我打算进一步拷打一下 QClaw:

我需要的这些照片,会被 QClaw 偷偷压缩吗?小程序中保存的照片,与链接中的照片是否一致?有没有丢失 Exif 信息呢?

抱着这样的疑问,我用手机打开「QClaw 管家」小程序,照片确实秒速送达了。令人无奈的是,QClaw 自作主张地将三张照片打成了压缩包,文件不支持点击选中,也不给任何下载到本地再想办法解压的余地。

最后的结果是这份急需的资料就这样死死僵在了列表里,没有任何办法增删查改。折腾了半天,我唯一能做的,就是隔着手机屏幕和它干瞪眼。

▲ 啊?

此时一定有人提问:不是还有链接吗?人家说小程序是用来查看的,你用链接下载不就好了。

没毛病,但我用手机返回客服号对话框,重新找到下载链接时,发生的一幕让我血压暴涨——

这个链接,是用来跳转到 QClaw 管家小程序的。

当一个事情离谱到超出我意料的时候,我会非常执着地想看看它到底能离谱到什么地步。

于是我又不信邪,用电脑点击 QClaw 给我的那条下载链接。

可喜可贺——这一次没有出任何差错,文件下载下来了。不仅下载下来了,而且图片还没有任何压缩,Exif 信息也没有任何丢失。

但是我怎么就是高兴不起来呢?

让我们看看我最初是想干什么?

因为我不在办公电脑前,所以我找 QClaw 给我发文件;
QClaw 给我发到小程序里,还给我发了链接,相当周全;
小程序里是压缩包,我打不开、看不了、下不动、删不掉;
手机打开的下载链接也跳转到小程序,我打不开、看不了、下不动、删不掉;
最后只能用电脑点击下载链接,才能顺利看到文件。
……

好,可能是文件夹里三张图片对于 QClaw 这样刚蹒跚学步的龙虾来说太多了,我只留一张,再来一次。

▲ 终于成功了

在我特别叮嘱「别压缩」的前提下,成了!并且 Exif 信息没有任何丢失,大成特成!

顺带一提,刚刚这一顿操作下来,又是 20 万 Token 没有了。

灵感广场,教你怎么养龙虾

对没碰过「龙虾」的小白来说,前期的本地部署就像在徒手拼装一台发动机,费尽心思终于熬过了复杂配置,满心欢喜地准备拥抱赛博未来,迎面撞上的却只有一个光秃秃的代码框——我真不知道这玩意能干什么, 或者说我不知道它能怎么帮到我。

老天给你发了一把绝世好剑,却忘了给剑谱,而 v0.1.9 上线的「灵感广场」,刚好充当了剑谱作用。

腾讯在灵感广场中预设了 15 种任务模式。说实话,其中大部分任务并不能直观体现出龙虾的想象力,以前的大语言模型 AI 也能做到看看八字、梳理知识点框架。于是,在一众应用中,我找了一个较为本地化的操作:发票/单据智能归档。

我的电脑里刚好存放着去年大半年的发票准备报销,但直接在电脑上用预设功能实在没什么意思,我打算用微信通知 QClaw 帮我智能归类,并输出为 Excel 表格:

把电脑上下载中发票报销文件夹里的发票都帮我整理成报销明细 Excel 表格

不知道是不是我在发票报销的文件夹中根据项目分出了近十个小文件夹的原因,QClaw 执行整个指令用了约五分钟的时间,最终输出的 Excel 表格通过文字反馈给了微信客服号的对话框中,并同样附上了小程序的链接。

美中不足的是,QClaw 出现了部分发票识别不了的情况——我所有的发票都是 PDF 格式,但由拍摄转为 PDF 的实体发票识别无一例外都失败了,结果差强人意。

随后,我又用电脑端单独输入了一遍同样的指令,得到的结果保持一致——由照片转来的五张发票无法顺利识别。

打开设置看看用量统计,电脑整理发票这条指令消耗了 839,061 Token,是单条简单对话的 20 倍左右,而手机微信远程指挥的消耗则为 459,501,Token 消耗比较不稳定。

不过在折腾这个任务时,我也踩到了微信遥控 QClaw 的弊端——

你在手机微信里下发的所有指令,到了电脑端并不会根据任务自动分流,全都简单粗暴地把消息塞进了一个对话框里。:一旦你想回到电脑端复盘之前的任务进度,面对的就是一个深不见底的文字瀑布。没有标签,没有分类,你唯一能做的,就是疯狂搓动鼠标滚轮,在海量的历史记录里苦苦打捞你需要的回答。

预设任务完成得尚可,更个人、更日常的任务呢?

我打算从最简单的入手——发微信。

我请 QClaw 帮我叫女朋友起床,按道理,在 v0.1.9 版本中,QClaw 已经接入微信了,发个微信应该不是什么难事儿。但意外的是,接入微信的 QClaw,找不到我的微信联系人。

面对这种窘境,QClaw 反复尝试挣扎,在经过备注、用户名、微信号三重查找后,浪费了近 20 万 Token 的 QClaw 终于找到了问题所在:

看到问题了!微信渠道虽然启用了,但 guid 和 userId 都是空的,说明微信账号还没有完成绑定/授权。

看起来很合理,但我目前已经绑定了微信,并退出重新登陆过一次,依旧无法成功,换到手机微信客服号远程指挥电脑上的 QClaw,也依旧失败。

于是我继续追问如何填充 guid 与 userld,又花费了近 20 万 Token 的 QClaw 这样回答:

看起来头头是道,逻辑正确、方案合理,但我翻遍了设置也没有找到其中任何一个解决办法的入口,而截止本篇体验完稿时,我依旧没能叫她起床……

关掉 QClaw,读者们大概会分成两拨——乐观者会期待,悲观者会批评。

但我并不打算对一个版本号仅为 v0.1.9 的初生牛犊过于苛刻。这是一个相当年轻的版本,从产品逻辑上,能看出腾讯在尽力降低龙虾的准入门槛,但一旦触及到细分需求,它就会出现零零散散的不如意。

这很符合逻辑,易用需要大众,而生产力则天生偏向极致细分,解决这样的矛盾还需要时间。目前的 QClaw 只是呈现一个粗糙的框架,向我们掀起未来一角。

跳出 QClaw 这盘「小龙虾」,也许我们还可以有一些更大的猜想——

之前我们在文章《OpenClaw 让每个聊天软件都有机会变成微信》中提到:

当一个聊天窗口可以调用任意 agent 完成从订票、编程到数据分析的任意任务时,它已经不只是一条管道——它正在变成一个超级接口。

有意思的是,这个让全球开发者兴奋不已的叙事,对中国用户来说却充满着强烈的既视感。用一个封闭生态实现「全服务覆盖」,这不就是微信当年用小程序做过的事吗?

QClaw 在体验上的种种不如意,以及未来可以预见的权限摩擦,本质上是开放工具撞上封闭生态时的必然代价。它费尽心思想绕过的那堵权限墙,对微信自己来说,不过是底层架构里的一行代码。

第三方工具在缝隙里挣扎的每一步,对平台原生能力来说都只是举手之劳。

能力的边界,往往就是入场资格的起点。

QClaw 只是掀开了一角,让我们看到了 IM 平台向「通用交互层」进化的可能性。而真正的问题是:当微信亲自下场,把原生 Agent 融入其中,那个版本的体验会是什么样的?

想象一下,不需要邀请码,不需要跨屏连线,不需要在压缩包和跳转链接之间反复横跳——只需要打开一个你每天都在用的聊天框,说一句话,事情就办完了。

这才是那个 AI 时代真正意义上的「超级接口」。

QClaw 让我们预习了这道题,但最终交卷的人,可能另有其人。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

「日本最强AI」塌房了!扒开代码全是DeepSeek,日本网友集体破防

作者 张子豪
2026年3月18日 12:33

「终于到日本用中国 AI 来冒充日本产 AI 的时代了」

最近这件事在日本的 X 讨论炸了,起因是昨天日本一家科技公司乐天集团(Rakuten)在日本经济产业省(METI)的 GENIAC 项目(日本 AI 政府资助项目)支持下,高调发布了号称「日本最大、性能最强」的 7000 亿参数大模型 Rakuten AI 3.0。

但发布后不久,开源社区就迅速扒出,该模型的底层架构实际上是来自我们的 DeepSeek-V3,乐天仅仅是做了日文数据的微调。

在知名的 AI 开源库 Hugging Face 上,Rukuten AI 3.0 赫然在自己的配置文件里面写着架构来自 DeepSeek V3。

而在 Rakuten AI 3.0 模型的发布新闻稿里,丝毫没有提到任何关于 DeepSeek 的信息,只是含糊的说「它融合了开源社区的精华」,让一众网友以为这款模型就是日本自主研发的。

更致命的是,乐天为了掩盖这一事实,在开源时偷偷删除了 DeepSeek 的 MIT 开源协议文件。在被社区实锤后,才灰溜溜地以「NOTICE」文件名重新补上。

▲在 Hugging Face 上能看到项目文件的提交历史,显示修改

日本网友纷纷表示,「这让人无法接受」,拿着日本政府补贴,竟然只是微调了一波中国的 DeepSeek,还有人说,用 DeepSeek 就算了,还要偷偷藏藏真的很逊。

掩耳盗铃的「日本最强」

单看 Rakuten 公司发布的公关稿,这个模型确实算得上是日本在 LLMs 领域的一次比较有实力的发布。

这是一款拥有约 7000 亿参数的混合专家(MoE)模型,经开源社区确认,是和 DeepSeek V3 一样的671B 总参数,激活 37B。乐天首席 AI 官 Ting Cai 将其形容为「数据、工程和创新架构在规模上的杰出结合」。

Ting Cai 这名字一听就不像是日本当地人,有日本网友在评论区说,用 DeepSeek 很过分,更过分的是,主导这个模型的大老板,是个彻头彻尾的移民强硬派。

我们发现 Ting Cai 曾在美国 Google、苹果公司工作过,并在微软待了超过 15 年,本科在美国石溪大学,计算机科学就读。他曾在采访中表示,十八岁他第一次出国,去的就是日本,确实是个「移民强硬派」。

关于 Rakuten AI 3.0 的模型表现,在官方公布的各项基准测试中,它在日语文化知识、历史、研究生水平推理、甚至竞技数学和指令遵循等维度上,得分表现都极其优异,大有横扫日本本土大模型圈的架势。

不过,用来对比的模型,是已经被下架了的 GPT 4o、只有 1200 亿参数的 GPT OSS,还有日本的新兴另一个 AI 开发企业 ABEJA 基于千问推出的 ABEJA QwQ 32b 模型。

7000 亿和最多 1200 亿比,Rakuten AI 3.0 确实是赢了不少。同时作为经产省 GENIAC 项目的重点扶持对象,乐天获得了大量的算力资源支持。GENIAC 这个项目设立的初衷,正是为了建立日本本土的生成式 AI 生态,缓解对海外巨头技术依赖的焦虑。

日本最大的参数规模,再加上这层「国家队」的滤镜,让 Rakuten AI 3.0 一出场就戴上了「全村希望」的光环。

还得是 DeepSeek

但光环褪去得比想象中更快。

先不说 7000 亿参数、MoE 架构,这几个关键词组合在一起,在当今的开源大模型圈子里,指向性实在太强了。等到开源社区的开发者们,到 Hugging Face 上一看详细的代码配置文件,竟然直接就写着 DeepSeek V3。

从底层逻辑来看,这就是「中国架构 + 日本微调」。DeepSeek 提供了那套被全球验证过、极其高效的底层架构和推理能力,而乐天则利用其本土优势,用高质量的日文语料对其进行了微调,让它变得更懂日本文化。

客观来说,拿开源模型做本土化微调,在技术圈是一件极其正常且合理的事情。就像他们拿来作为对比的 ABEJA QwQ 32b 模型一样,连代号都不改,直接用 Qwen 的 QwQ。

▲日经新闻曾报道,日本公司开发的前十大模型里,有 6 个都是基于 DeepSeek 或 Qwen 进行二次开发

如果乐天这次也坦坦荡荡地承认使用了 DeepSeek 的底座,顶多是一次缺乏新意的「套壳」发布,兴许还能蹭一波 DeepSeek 的热度。

但他们偏偏选择了掩藏。

之前我们分享美团浏览器使用开源项目时,曾提到不同的开源协议,其中 DeepSeek 采用的 MIT 协议,堪称开源界「最卑微、最宽容」的协议。它允许用户免费拿去商用、修改、甚至闭源赚钱。它唯一的请求只有一个:在项目里,保留原作者的版权声明和许可声明。

▲Rakuten 模型发布新闻稿|
https://global.rakuten.com/corp/news/press/2026/0317_01.html

而乐天不仅在模型发布博客中对 DeepSeek 绝口不提,更是直接在代码库里抹除了这份协议文件,还高调宣布自己采用的是 Apache 2.0 协议开源。虽然 Apache 2.0 同样是对商业极度友好的开源协议,但它更正式,常被大厂用来建立自己的开源生态和专利护城河。

▲不同开源协议对比,MIT 协议比 Apache 协议更宽松、更简短,Apache 2.0 在赋予自由的同时,明确包含了专利授权保护和更严谨的责任免除条款,适合更大型、法律风险规避更严格的商业项目|图片来自互联网

乐天的算盘打得很精,抹掉 DeepSeek 的名字,套上自己的 Apache 2.0 协议,再把自己包装成「慷慨开源 7000 亿参数大模型」的日本 AI 救世主。

喊了一年多的欧洲版 DeepSeek、美国版 DeepSeek,最后好像都没有做出来。

乐天也想做日本版 DeepSeek,但在算力和训练成本的压力下,在当前全球大模型飞速发展的局面下,既想要中国技术的极致性价比,又放不下打造「本土巨头」的身段,显然是难上加难。

不如和我们一起等等 DeepSeek V4 吧。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,阿里ATH事业群甩出王炸「悟空」!企业级正规军下场,龙虾们这次真要炸了

作者 张子豪
2026年3月17日 12:43

昨晚,阿里巴巴突然宣布成立 Alibaba Token Hub(ATH)事业群,CEO 吴泳铭直接负责,这可能是阿里在 AI 时代最重要的一次组织架构调整。

Token ,AI 时代的通用货币。

吴泳铭的逻辑是:未来大量数字化工作将由「数以百亿计的 AI Agent」支撑运行,而这些 Agent 的运行,由模型产生的 Token 驱动。

创造 Token、输送 Token、应用 Token,这将是阿里新的的主线。

其中内部信中还有一个首次出现在公众视野里的名字:悟空事业部。官方对悟空事业部的定位是:「打造 B 端 AI 原生工作平台,将模型能力深度融入企业工作流。」

也就是说原来的钉钉,被提到了一个更核心的战略位置,和千问一起分别在 B 端和 C 端承载阿里 AI 的目标。

这次发布会,悟空事业部交出了成立以来的第一份作业—— AI toB 旗舰应用「悟空 WuKong」,这也是首个以企业智能体为核心的 AI 原生工作平台。

这是ATH 事业群成立第二天,阿里巴巴集团 CEO 吴泳铭也出现在今天的「悟空」发布会现场。

最近在「养龙虾」席卷社交媒体后,每个人或多或少都感受到发现 AI 真的能操控电脑、帮你干活。

然而也便随这混乱,龙虾删邮件停不下来,敏感数据被 AI 随意读取,公司 IT 部门一句「这东西不合规」,大多数企业用户就此止步。

AI Agent 走到了哪一步,能不能广泛使用,还只是个技术问题。企业组织敢不敢用,才是真正的问题

APPSO 在现场给大家快速梳理了这场发布会的要点:

  • 悟空 WuKong:全球首个以企业智能体为核心、更安全、商业可交付的 AI 原生工作平台
  • 首创 AI 原生文件系统 Real Doc:每一步操作可追溯可回退
  • 钉钉全面 CLI 化:重写底层代码,给 AI 造了一套原生操作语言,可以 CLI 原生安全地访问钉钉应用和数据
  • 十大 OPT 行业方案:一人电商、一人门店、一人知识博主……Skill 即生产力
  • AI 能力市场:企业级 Skill 生态完整体系上线,全部纳入统一的安全扫描和分级管控体系
  • AI 硬件:A1 Pro 录音卡 + Cleer H1 AI 耳机首亮相
  • 原生级企业安全架构:底层沙箱隔离与全链路审计,让企业真正敢用 AI

钉钉为 AI 打造钉钉

在理解悟空之前,先要消除一个刻板印象,它绝对不是「钉钉加了一个 AI 对话框」。这句话值得重复一遍——悟空不是钉钉加了一个 AI 功能

过去两年,我们见过太多「产品加 AI」的案例:Word 加了 Copilot,微信加了元宝,网页端加了摘要按钮。这类产品的逻辑是:原有功能不动,AI 作为辅助层叠加在上面,帮你写写文字、润色润色、总结一下。

悟空的逻辑完全不同。

悟空是一个以企业智能体为核心的 AI 原生工作平台。 它能操作我们的电脑、编辑本地文件、调用桌面应用程序、连接钉钉文档 / 审批 / 日程 / 听记等全系产品。

当你对悟空说:「帮我把上周所有客户拜访的记录整理成周报,发给张总确认一下」。

悟空不会给你写一份模板然后让你自己填,它会直接打开你电脑上的拜访记录文件夹,读取每一份记录,生成周报,保存到指定位置,然后在钉钉里发给张总发起审批。

全程,你只说了一句话。

更关键的是:手机可以远程指挥悟空唤起本地环境完成工作。不需要坐在电脑前。出门见客户的路上,发一条消息,悟空在家帮你把活干完。

这是「本地执行 + 远程可控」的 Agent 工作架构,也是悟空正在定义的新工作方式——说一句话,就能干活。

▲体验网址:https://www.dingtalk.com/wukong

悟空与 OpenClaw:解同一道题,用的是不同答卷

很多人的第一反应:这不就是「中国版 OpenClaw」吗?

表面看都在让 AI 操作电脑,但两者的关系,更接近「Linux 的开源社区」和「Red Hat 企业版」,底层技术同源兼容,但面向的战场完全不同。

OpenClaw 证明了 AI Agent 可以操控电脑这个概念,它依赖「视觉模拟」和操作系统原生命令行,让 AI 像人一样看屏幕、点鼠标。这套方案很酷,但也很脆弱,毕竟界面一更新,命令一修改,整个流程就可能崩掉。

更要命的是,OpenClaw 在本地运行时,几乎拥有与用户完全相同的系统权限。理论上,一台实习生电脑上的 OpenClaw,可以读取他不该看到的任何数据。安全机构已发现其技能市场存在数百个恶意程序,Gartner 将其企业部署评级为「不可接受的网络安全风险」。

OpenClaw 是 Agent 的「Linux 时刻」——开源、自由、极客驱动、生态繁荣,但没有企业敢直接用。

悟空要解的题不一样:兼容开源生态的全部 Skill 能力,同时从架构层面把安全内建进去,而非事后打补丁。

统一企业身份认证、专属沙箱隔离、网络代理管控、全链路审计日志——每一层安全都在回答同一个问题:让 IT 部门敢拍板,让 CEO 敢买单

这是 Enterprise Agent 和「开源 Agent 框架」的本质差距。

钉钉 CEO 无招在发布会现场表示,「今天,我们把钉钉打碎,用 AI 重建,炼出悟空。过去是人用钉钉来工作,未来是 AI 用钉钉来工作。和市面上所有的龙虾 Agent 不一样,悟空天然就长在企业组织中,可以在真实的企业环境中安全使用。

CLI 化:给 AI 造一套原生操作语言

要理解悟空为什么「真的能干活」,关键是它有一套让 AI 能「听懂」软件的语言。

过去,几乎所有的 AI Agent 都在试图模拟人类的键鼠操作。这就像是蒙着眼睛,靠别人在旁边喊「往左一点,点击」来用电脑,不仅极度低效,而且极其容易出错。

为了让悟空真正能「干活」,钉钉做了一个相当疯狂的决定:所有底层代码重写了一遍

他们将整个钉钉的既有能力体系全面 CLI 化(Command-line Interface,命令行界面),所谓 CLI 化,就是把钉钉从一个「给人用的图形界面」,变成一个「给 AI 用的命令行接口」。

AI 不再需要「看懂」按钮在哪里,而是直接通过标准化指令调用能力,这相当于给 AI 装上了神经末梢

其中,包括文档、日程、审批、会议甚至 AI 表格,所有的钉钉产品,全部重写为标准的 CLI 指令。

这意味着,悟空不再需要像人类一样去「点击」按钮,而是通过原生指令,直接调用钉钉的一切能力和数据。

不仅是钉钉应用,阿里集团旗下的淘宝、天猫、支付宝、阿里云等核心业务能力,也将逐步作为 Skill 接入悟空。悟空,正在成为整个阿里巴巴 AI 能力在企业工作场景的统一出口。

当用户说「帮我整理下周的客户拜访记录并生成周报」,悟空不是「看懂」这句话,而是直接触发一系列 CLI 指令:调取日程 API → 抓取 CRM 数据 → 运行听记解析 → 写入文档 → 发起审批流。全程没有模拟点击,没有视觉识别,只有机器对机器的精准调用。

这个逻辑,在行业报告「未来属于智能体:万亿 AI 正在重新定义软件」里有一段话说得非常准确:

你构建的一切都必须是 API 优先的。如果一个功能没有 API,它就相当于不存在。如果不能通过 CLI 或 MCP 服务器暴露,你就是处于劣势。

换言之:在 AI 智能体成为软件「主要用户」的时代,不能被 AI 原生调用的软件,等于不存在

▲图片来源:X@karpathy

钉钉理解了这个逻辑,所以选择了极其昂贵的方式——重写服务全球 8 亿用户、2700 万家企业的产品底层。钉钉全面 CLI 化之后,Agent 才能从「能聊天」变成「能干活」。

Realdoc,AI 终于有了原生的文件操作语言

但 CLI 化只解决了「AI 能不能调用钉钉」的问题。还有一个更底层、常被忽视的问题——AI 怎么操作文件

目前市面上几乎没有 AI Agent 产品专门为 AI 设计过文件系统。所有人都在用传统文件系统凑合,结果是什么?

AI 要改一份文档里的一个词,必须先把整篇文档读进内存,改完再整篇写回去。就像改一本书里的一个错别字,却要把整本书重新抄一遍——荒诞,但这就是现实。

这带来三个连锁问题。

第一是 Token 爆炸,每次操作都吞进整篇文档,成本直线飙升,有用户实测用 AI 制作一个 PPT,消耗了 2.7 亿 Token,约合 500 美元。

第二是无法回退,AI 覆盖写入即生效,改坏了没有存档可以回溯,只能从头再来;

最后是文件失控,Agent 随机创建文件,企业根本不知道 AI 在哪里生成了什么,散落的结果是既找不到,也管不住。

悟空为此专门从零搭建了一套 AI 原生文件系统 Realdoc,这是行业首次,有人专门为 AI 重新设计一套文件操作语言

在 Real Doc 里,悟空可以像外科医生一样,按行号、按关键词定位,只动需要动的地方,其他内容一字不碰。Token 消耗大幅压缩,不再因为改一个词而把整篇文档走一遍。

更关键的是版本管理。AI 每执行一步操作,Realdoc 自动保存完整快照——就像游戏里的自动存档点,每一步操作都有记录,可随时退回任意版本,还能自动对比两个快照之间的 Diff,精确到每一行的变动。

还有文件归宿的问题。Realdoc 为每个 AI Agent 分配独立的云端工作空间,AI 产出的每一份文件都有「户口」——存在哪里、谁创建的、哪个 Agent 在什么时候改过,企业管理者一目了然。

到这里,悟空做出了大多数企业级产品还没意识到的改变:不再让 AI 套用到现有工具中,要为 AI 重新造一套工具

悟空首发 十个 OPT Skills 套件,钉钉原生协同

如果说 CLI 化解决了「AI 如何干活」,那么接下来的问题是:AI 该干哪些活,谁来告诉它怎么干

答案是:Skill。

Skill 是悟空的最小生产力单元——一个封装了行业专家 SOP、可直接调用的能力模块。我们不需要懂 AI,不需要写 Prompt,一键启用,AI 团队立刻就位。

这不是一个新概念,但悟空把它推向了一个全新的量级。

悟空首批推出十大行业 OPT(One Person Team,一人团队)技能套件,覆盖一人电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大场景。每个行业包预置了若干串联 Skill,把过去需要团队协作才能完成的工作流,压缩成一个人可以独立驾驭的操作序列。

以跨境电商为例。过去,一个店主每天要在亚马逊上找爆款,去 1688 上比价,跟供应商确认库存,再想破头优化商品描述,一个人能管三个品就是极限。

现在接入悟空 OPT 方案后,「选品雷达」每天定时抓取亚马逊热榜数据写入 AI 表格;发现爆款后,「AI 找同款」瞬间完成国内供应链匹配;直接确认样品、生成产品描述、输出视频脚本,都有行业级的 Skills 辅助。从发现需求到供应链跟进,一个人用一个下午,干完了一个小团队一周的活。

「一人门店」的场景更让人感慨。街边的汽修店、美甲店老板,白天忙服务,晚上还要强打精神刷小红书学竞品写文案。现在,同样是多个 Skill 串联,AI 自动监控同行爆款,提炼出可复用的创作模板,自动生成原生网感文案并发布,甚至能 7×24 小时智能回复客户私信。

「当一个店主用 AI 运营账号的质量,比竞争对手请的代运营公司还好时——这件事就不只是效率提升了。这是小微门店生存逻辑的重写。」

这正是 Skill 即生产力的核心逻辑:把行业专家的隐性经验,变成人人可调用的标准化能力。Skill 不只是提高效率,它在重新分配能力——让不具备专业背景的人,也能获得专业级的产出。

这个逻辑的更大野心,体现在钉钉同步上线的 AI 能力市场

Anthropic 推出 Claude Skills 开放标准后,微软、OpenAI、Cursor 等巨头迅速跟进。行业共识正在形成:下一阶段的竞争,不是「谁的模型更强」,而是「谁的 Skill 生态更完整」

钉钉 AI 能力市场覆盖 Skill、Agent、Service 完整体系,从开发、审核、上架、分发到管理,全链路打通。

企业可以把资深员工的方法论固化成私有 Skill,彻底摆脱人才流失的阵痛;开源社区里数千个现成的能力,也能在企业级安全架构下被随时调用。

这是悟空最有想象力的部分,它在搭建 AI 时代的生产力基础设施——Skill 是这套基础设施里流通的「货币」,谁掌握更多高质量的 Skill,谁就掌握了 AI 时代更大的生产力。

AI 新硬件

除了软件,在这场发布会上,钉钉还发布了多款 AI 硬件。

DingTalk A1 Pro:录音卡形态,专为会议和工作场景设计,支持多麦克风阵列拾音,AI 实时转录、翻译、摘要,把「开完会还要整理纪要」的低效循环彻底斩断。

Cleer H1 AI 耳机:钉钉与 Cleer 联名推出,首款与悟空深度联动的 AI 耳机。戴上耳机,语音即可直接与悟空对话下达指令,无需打开屏幕,从而实现真正的「所想即所达」。

更值得关注的是 Real AI 硬件(Realbox):搭载 1 台 PC 环境 + 5 台手机环境,支持多人共用、多并发任务处理。企业部署一台 Realbox,可以同时为多个员工运行多个悟空实例;部署多台 Realbox,可构建 AI 计算机集群,任务并行处理,弹性扩展。

不难看出,钉钉这些 AI 硬件并不是独立存在市面上的同类产品抢夺市场,核心都是为了更好地打通 AI 工作流,成为软硬一体的 AI 原生工作平台。

OpenClaw 跑在一台电脑上,做一台电脑能做的事;悟空搭载 Realbox 集群,正式宣告:AI 算力,可以像水电一样,以基础设施的形式在企业内部流通了

AI 时代的组织生产力

在观看这场发布会时, 我想起前段时间 Sam Altman 在采访中提到的观点:「历史上第一家由一个人独立运营的十亿美元公司,即将出现。」

彼时龙虾还没火爆,一人团队(OPT)的概念也只是在 AI 圈子里。他没有解释这个人会用什么工具,会在哪里,会干哪个行业。但看完这场发布会,这句话变得具体了一些。

这个人,大概率会有一套像悟空这样的东西在身边。过去十一年,钉钉一直在让人学会用工具。悟空想做的,是逐渐让工具真正学会理解人。

当工具开始理解人,一件以前不可能的事情正在变得可能:组织生产力,第一次可以真正被数字化封装、分发和扩展。当 Skill 把行业专家的经验变成人人可调用的能力货币,当 AI 原生平台成为个体接入组织能力的操作系统,一个人或组织能做的事情的边界,将被彻底重新定义。

Sam Altman 看到的是「一人公司」这个终点,悟空要做的,是让更多普通人有机会走到那条路上。它不是专门为天才准备的工具,而是为所有「想做更多但苦于一个人精力有限」的人,提供一套 AI 时代的组织生产力基础设施。

AI 原生工作平台,正在成为这个时代最关键的组织变量。 谁先跑通它,谁就先拿到了超级个体时代的入场券。

之前有一个观点,燃烧 Token 的速度,决定了人的进化速度。而悟空的 1.0 版本,指向的就是人和组织进化的下一个版本。

文|李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌