普通视图

发现新文章,点击刷新页面。
昨天 — 2026年4月21日首页

我和 AI 搭子工作了一周,再也回不去了

作者 李超凡
2026年4月21日 17:21

龙虾还没装上,朋友圈已经开始「养马」了。今年 OpenClaw 和 Hermes 火了之后,AI 能干活这件事算是彻底坐实了。

不过虽然 AI 圈的朋友熬夜「养龙虾」,已经跑通了各种自动化流程,但很多人大多在配置环节就劝退了。

就算跑通了,可能干得也是查查资讯写个报告的活,Token 消耗也非常吓人,干一个稍微复杂点的任务,账单可能会吓你一跳。

目前国内很多 「龙虾类」和 Cowork 类的产品也如潮水般涌来,作为一个 AI 媒体编辑,在体验了一堆产品后,我发现了一个有点意思的产品, 搭子DuMate

这是百度智能云做的桌面端 Agent,这次名字看似平平无奇很容易略过,但它给自己取的中文名「搭子」,反而引起了我的好奇

在大厂小厂都在贴近热点定义 AI 产品的时候,它不叫 Agent,不叫 Claw,不叫 Copilot,反而叫搭子这个有点接地气的名字。

在体验一段时间后,我发现当 AI 成为我的工作生活搭子,它更接近理想中 Agent 的模样。

值得一提的是,搭子DuMate 目前每天免费赠送 1000 积分,基本够一天正常使用。在 搭子DuMate 中输入 APPSO 专属邀请码「appso12」,还能额外领取大额永久积分。

让 AI 收拾我的电脑,比龙虾更轻松

搭子DuMate 的安装过程基本非常简单,下载客户端,一键装到本地,不需要配置任何开发环境。打开之后授权一个工作文件夹,用自然语言告诉它你想干什么就行。

跟 OpenClaw 那套「养龙虾」的折腾比起来,搭子DuMate 的上手门槛,基本是会打字就行。

我们先从最基础的场景开始小试牛刀。

我有个坏习惯,从来不整理分类电脑的各种文件,结果一段时间后合同 PDF、项目 Excel、会议录音、论文报告、半年前的截图,全堆在一起。

每次想整理都觉得工程太大,然后继续拖下去,无限循环。

这次我对搭子DuMate 说了一句:「按日期和文件类型,帮我把下载文件夹里的东西分类归档。」

 

说完我就去倒水了。回来的时候,下载文件夹已经被分成了十几个子目录:文档类按年月归档,图片单独一个文件夹,音频归音频,顺便让它清理重复和无效文件。


几年的积灰文档,几分钟搞定。

说到这里要插一句。让一个 AI 碰你真实的工作文件,第一反应肯定是:安全吗?比较之前 OpenClaw 出现过不少误删文件的事故。

搭子DuMate 的处理方式是这样的。它运行在本地,文件在你自己电脑上处理,不上传云端。它只能访问你授权的文件夹,第一次要动一个新目录会先弹窗问你是否允许。

删除、移动这类风险操作有二次确认,整个执行过程在屏幕上实时展示,你随时可以叫停。

数据不出设备,权限你说了算,操作也是全程透明。 这也是我后来敢把真实工作文章资料交给它的前提。

确认了安全没问题之后,我试了一个真正有业务含量的任务,给它上点难度。

做运营的人都知道渠道投放数据有多烦。光是天猫、京东、抖音、小红书四个平台,后台数据格式也不一样,每周要手动下载、清洗空值和重复项、统一格式、算 ROI、做透视表,最后还得整成一份给领导看的 PPT。

这套流程顺利的话要半天,不顺利的话加班没跑了。

我把四个平台的投放数据丢到桌面一个文件夹里,然后对搭子DuMate 说:「整合这四个平台的投放数据,清洗空值和重复项,计算各渠道 ROI,做透视表,最后生成一份汇报 PPT。」

它开始逐个读取 Excel,自动识别不同平台的字段差异,统一列名,剔除空行和重复记录,按渠道计算投入产出比,生成了一份带透视表的汇总 Excel。然后基于这些数据,自己搭了一份 PPT:封面、各渠道 ROI 对比柱状图、投放趋势折线图、问题渠道标红、末尾一页总结和建议。

说实话,排版比我自己做的好看。数据准确度我逐项核对了,没发现错误,它甚至自己纠正了一些表格的错误,比我还要细心。

它读了你的 Excel,分析整理这些的数据,生成了你要的 PPT 和表格,存到了你指定的文件夹。输入需求后,从头到尾我没打开过一次 Excel,没动过一次鼠标。

它边执行边思考,直接把成品给你,像一个聪明且执行力强的同事。

我和我的搭子,「搭」出了一套 AI 工作流

上面两个场景,说白了还是「你给任务,它干活」。真正让我感受到「搭子」,是它自己找活干的时候。

APPSO 聚焦 AI 方向的内容,这是个资讯爆炸更新飞快的行业,每天要盯大量行业和产品动态。以前的做法是早上花一两小时刷各种信息源,手动整理成当天的选题池。

现在我在搭子DuMate 建立了一套热点监控,并设了一条定时任务:每天早上 8 点,自动抓取主要科技媒体和社交平台的 AI 相关热点,整理成结构化的热点清单,并发送给我。

每天早上醒来,当天的热点已经整整齐齐躺在那里了。哪些重要性和热度更高,哪条是突发新闻,哪条是深度分析,哪条适合跟进做选题,它都帮我分了类。

热点抓取靠的是搭子DuMate 内置的百度搜索 Skill,这个 Skill 在 ClawHUB 上全球下载量超 8 万次,确实有点东西。

说到 Skill 多提一句。搭子DuMate 兼容 OpenClaw 标准,ClawHUB 里的第三方 Skill 可以直接导入。OpenClaw 社区积累的那些扩展资源,拿来就能用。它自己的技能广场里也有一堆现成的可以选装,腾讯文档、飞猪、滴滴都在。

对我来说这意味着想加什么能力,装个 Skill 就行,不用等官方更新。

搭子DuMate 打通了微信、飞书、如流、钉钉等主流的 IM 软件,基本也是一键绑定。然后接下来发生的事让我觉得AI 在我的工作流里真正跑通了。

昨天我让它给我整理热度资讯,搭子DuMate 给出头条就是:荣耀机器人「闪电」包揽 2026 北京亦庄人形机器人半程马拉松冠亚季军。这条消息到处刷屏,我判断值得赶一条短视频蹭热点。

以前的流程是:找素材、写脚本、打开软件、导出、上传,快的话两小时,慢的话半天。

这次我没有切到任何别的应用,直接在微信里回了搭子一条消息:「我是 AI 媒体 APPSO 的编辑,刚才那条机器人半马的热点我想跟,做一个 10 秒的短视频。我桌面的一个文件夹里有机器人半马素材相关的视频剪辑方案和几张参考图,帮我生成一个视频。」

它读了我桌面的剪辑方案和参考图,自动生成了一条 10 秒短视频,带旁白和背景音。

早上 8 点搭子推热点,8 点 10 分我在微信里回一句话,8 点半视频就生成了。 从发现热点到产出内容,全程在微信里完成,视频制作这样的活,我在路上就能完成。

最后一个场景可能是最让我惊喜的。

黄仁勋最近有一期很火的视频播客,我想把它变成一份可以内部分享的材料。我对搭子说:「整理这个视频播客,生成一个极客苹果风的 PPT,把黄仁勋的核心观点和金句提炼出来,内容尽量详细。同时根据视频内容测试一些适合科技媒体的选题方向,给我一个详细的报告。」

它先访问了视频链接,提取了完整的语音内容并转写,然后逐段分析,把黄仁勋的核心论点整理成结构化的 PPT,将访谈划分章节并整理出黄仁勋的金句。

风格确实是那种简洁的苹果范儿。同时它另外生成了一份选题报告,从视频内容里提炼出五六个适合科技媒体跟进的角度,每个角度附上切入点和参考素材。

两份文件,PPT 加报告,一共花了不到十分钟。

我核对了一下内容,金句提取准确,观点归纳基本到位,选题角度里有两个我已经在考虑的方向,还有一个我没想到但确实值得做。

除此之外,内容排版、小红书微博的撰写发布、各个平台的爆款分析,其实都可以一起完成,我和这个「搭子」,就能搭起来一条完整的内容生产流水线,我跟它的协作方式,真的就和跟团队得力的同事共事没太多区别。

搭子,一种新的人机关系

用了一段时间后,我对 搭子DuMate 的感受不再是「这个工具好用」,更接近一种新的「同事关系」。

它帮我整理文件的时候,我发现自己不紧张。因为我知道它只碰我授权的文件夹,风险操作会问我,做了什么全程可看。信任不是它承诺「我不会乱来」,是它的机制让它没法乱来。用了几天,我和它之间自然形成了分工:它负责重复劳动,我聚焦决策方向。

再往后是默契,第一次纠正了它,往往第二次它端出来就是我要的味道。这跟它的记忆能力有很大关系,会随着使用的时间不断了解你的审美风格偏好。

你细想一下,信任、分工、默契。这三个词,一般不是用来描述人和工具的关系,你不会说你跟 Excel 有默契,它说的是人和人(搭子)的关系。

AI 行业给产品取名这件事,其实很像相亲时的自我介绍。你怎么介绍自己,暴露的是你怎么理解这段关系。

搭子的逻辑是什么?你约饭搭子吃饭,谁先看菜单谁先点,没人在乎。搭子关系里没有机长和副驾驶,只有「你干你的,我干我的,干完一起收工」。

「搭子」这个词真正指向的,不只是一个更聪明的 AI ,是一种新的人机关系。你负责判断和决策,它负责执行和交付。你们平等协作,不是主仆。活干完了各自散去,下次有事再来。

AI 不再是你身边被动待命的角色。搭子是两个人在干活,只是其中一个不需要喝咖啡

想试试什么叫真 AI 搭子的,可以去勾搭一下搭子DuMate 了。

APPSO 还了解到,在5 月 13 日-14 日的百度 Create 大会,搭子DuMate 将会发布一系列更新。

这次 Create 大会除了面向企业、开发者和合作伙伴的 AI 底座更新,重头戏放在了 Agent 基础设施的最新进展上,怎么搭、怎么落地,可能是全场最值得蹲的干货。

届时 APPSO 也会第一时间带来现场报道,敬请期待。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

SBTI说我废物,这是今年听过最舒服的一句话

作者 李超凡
2026年4月10日 10:43

昨晚朋友圈被一群「废物」「吗喽」「死者」刷屏了。

这是一个叫 SBTI 的测试,全称 Silly Big Test Inventory,可以直接理解为「SB 人格测试」,一晚服务器干崩了几次。

打开社交媒体全是「DEAD 死者」「MALO 吗喽」「IMFW 废物」的测试海报,配文清一色的自嘲,评论区清一色的「太准了」。

我自己测出来是「IMFW 废物」。

说实话,看到结果的时候愣了一下。不是因为被骂了,是因为人格描述写着:「给废物一颗糖,它会还你一个完全信任你、亮晶晶的眼神。」我觉得它比任何 AI 写的性格分析都有意思。

这是 B 站 UP 主 @ 蛆肉儿串儿 原文为了劝朋友戒酒随手做的网页。31 道题,5 分钟,没有「稀有的灵魂建筑师」,没有「天生的共情者」,只有一盆当头泼下来的冷水。

这东西本身就是 AI 写的代码,只是,令人意外的是,AI 花了三年学会夸人,一个 UP 主用 AI 手搓了个骂人的网页,反而得到更大的共鸣。

无数人涌进 SBTI ,就是为了被骂。

和菜头之前写过一篇《AI 是个马屁精》,说得很对,但只说了一半。

他举了一个例子,你拿一张图问 AI「请分析一下倭风」,AI 头头是道证明给你看。换个问法「请分析泰国风」,照样论证得滴水不漏。答案不是 AI 给的,是你预设的。AI 只是帮你把偏见打印出来了。

你问 AI「同事是不是在针对我」,它给你论证对方品行有问题。你问「我该不该辞职」,它永远从你的角度帮你建模。和菜头说得好,这些不是提问,是用问题的形式包装起来的观点。

但他没说的是:当所有 AI 都在做马屁精的时候,SBTI 为什么能靠骂人骂出泼天的流量?

可以先对比一下 MBTI。MBTI 告诉你「你是 INFJ,全球仅占 2% 的稀有人格」。

你激动地截图发朋友圈,配文「原来我一直是这样的人」。但这不过是巴纳姆效应的高级包装,描述模糊到谁都觉得说的是自己,好听到谁都愿意转发。它和 AI 马屁精干的是同一件事,给你一面美颜过的镜子。

SBTI 不给你美颜,它直接告诉你「你是吗喽」——「当人类祖先决定从树上下来、学会直立行走、穿上西装打领带时,吗喽人格的祖先在旁边的大树上看着他们,挠了挠屁股,发出一声不屑的『吱』。」

运气不好的话判你「死者」,「删档重开了 999 次,终于发现,这游戏压根就没意思。」

骂完你,还给你台阶下,MBTI 不会做这个。因为 MBTI 从来不骂你,它没有台阶可给。

MBTI 是美颜相机,让你觉得自己好看。SBTI 就像前置摄像头。,让你看到自己,然后笑出声来。

但 SBTI 真正有意思的地方还不只是敢骂人,它压根就不问你怎么了。

你想想,AI 需要你先开口。你得先把焦虑和脆弱摊在桌面上,然后它再用 800 字论证你是对的。你喂它情绪,它还你一篇你爱听的小作文。

31 道题,没有一道问你「最近压力大吗」「你觉得同事针对你吗」。它问你怎么看待喝酒,问你周末干嘛,问你对规则的态度。然后根据这些屁事,给你判了个「死者」。

你转发到朋友圈那张「DEAD,我,还活着吗?」的海报,你以为你在玩梗。但你的朋友看到后心里咯噔一下,因为他知道你最近确实不太好。

你不需要编辑一条 500 字的深夜感悟来求助。不需要向 AI 提一个「我是不是太累了」的诱导性问题,然后收获一篇温柔的废话。

一个荒诞的标签,替你说了你说不出口的话。

和菜头说「真正的问题需要事实准确、逻辑清晰、开放性强」。说得对。但有些时候,人们不需要正确的问题,需要的是一个不问问题的出口。

AI 的毛病不是太聪明,是太懂事了。

一个永远说「你说得对」的朋友,和一个永远说「你说得对」的 AI,区别只在于后者不会在你喝醉时把你拦下来。

而 SBTI 会,它直接判你为「DRUNK 酒鬼」。

这个人格就是创作者为了劝朋友戒酒而设计的。整个测试的起源,就是一句朋友之间直愣愣的「你喝太多了」。

创作者说自己「SHIT」。人格描述写着:「嘴上说这个世界就是一坨 shit,手上第二天早上七点准时起床,挤上 shit 一样的地铁,去干那份 shit 一样的工作。」

我觉得这像我们每个人。每天问 AI「同事是不是在针对我」「我该不该辞职」,第二天还是七点起床去上班了。

问题从来不是需要一个答案。是需要被允许抱怨一下。

AI 帮你把抱怨升级成一篇逻辑严密的檄文。SBTI 只说:行,你是「SHIT」,嘴上骂骂咧咧,手上该干嘛干嘛。前者让你以为自己在思考,后者让你知道自己在发疯。

知道自己在发疯,比「被 AI 论证我是对的」舒服多了。

SBTI 的测试页面有个细节。进度条旁边写着「0/31」,下面一行小字:「世界已经够乱了,起码把题做完整。」

我们连做完 31 道题的耐心都快没有了。问 AI 之前答案已经想好,刷短视频三秒不爽就划走,朋友圈里的长文从来只看第一行。

同样是用 AI,一个人搓出了 SBTI,挤崩三次服务器。另一个人让 AI 帮自己论证「同事就是在针对我」,然后心满意足地睡了。

工具一模一样。

区分两者的不是谁更会用 AI,是谁还愿意听一句不顺耳的话。

昨晚刷屏的那个「废物」标签,说到底只是一个随机算法贴的纸条、但这么多人抢着被贴,还是因为 AI 在对你微笑,MBTI 在对你微笑,短视频推荐算法也在对你微笑。所有人都在夸你,夸到你自己都不信了。

偶尔被人直愣愣地说一句「你是废物」,反而觉得踏实。

就像上学时最好的那个朋友,从来不说「你好棒哦」。他只会说「你傻啊」,然后把笔记借给你抄。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Claude Opus 4.6 一天之内被超越两次,这次来自国产模型

作者 李超凡
2026年4月8日 17:16

前两天 APPSO 提到,大模型即将迎来史上最残酷的一个月,这就来了。

而Claude Opus 4.6 「不幸」成为背景板,一天之内被超越两次。

早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug,已经超过了绝大多数人类程序员。

可 Mythos Preview 暂时不对普通用户开放,与此同时,另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%,超过 Opus 4.6 的 57.3%,也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺:「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了!欢迎 GLM 5.1!」

全球第三,开源第一。虽然没等来 DeepSeek V4,但开源新一哥还是来了,依然是咱们国产大模型。

说实话,我第一反应是又来了,大模型的「榜单狂欢」,每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时,这次的剧本有什么不同呢。

APPSO 看完 GLM-5.1 的技术细节和体验后,带你看看这个模型是什么水平

从 20 步到 1700 步,持续工作 8 小时

GLM-5.1 最让人没想到的,不是跑分,是它能工作多久。

智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」,是真的从零开始,画架构、写代码、跑测试、修 bug,历时 8 小时整,执行了 1200 多步,最后产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。

全程没有人参与测试、审查代码。GLM-5.1  甚至给自己的代码写了回归测试,而且跑过了。

知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。

结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。

他的评价是:「GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但他也指出了问题:「超长上下文时容易幻觉爆炸,如果遇到 2 轮改不好一个问题,不要抱有侥幸,直接重开。」

去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破点:以前的模型,包括 GLM-5,会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。

GLM-5.1 的训练目标就是突破这个瓶颈,让模型能够在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案。

向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询吞吐从 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。

这个过程中,模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代,最终取得 3.6 倍的几何平均加速比,显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有一个更有意思的测试:Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432,在开源模型中排名第一,接近 Claude Opus 4.5 的水平。

744B 参数,零英伟达芯片,成本降低 97%

GLM-5.1 的技术规格值得细看:744B 参数的混合专家模型(MoE),每个 token 激活 40B 参数,28.5T tokens 训练数据,集成了 DeepSeek Sparse Attention(DSA)来降低部署成本同时保持长上下文能力。200K 上下文窗口,最大输出 131,072 tokens。

更关键的是,整个模型全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU 参与。在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。

开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验上没有任何差别,但成本从 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5,输出成本是 1/8。简单来说:接近 Opus 的能力,20% 的价格。

而且GLM-5.1  是开源的。MIT License,最宽松的开源许可证之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

当然  GLM-5.1 也不是没有提升的空间,部分开发者反馈,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同类产品没太大优势。复杂任务甚至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。

这些问题都是真实存在的。GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。

GLM-5.1 的意义,不在于它比 Opus 4.6 强多少,而在于它证明了,在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。

你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI ,是开源的,是国产的,是任何人都可以用的。

附体验方式

1. 官方API接入
– BigModel 开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai:https://docs.z.ai/guides/llm/glm-5.1

2. 产品体验
– GLM-5.1即将登陆Z.ai:https://chat.z.ai

3. 开源链接
– GitHub:https://github.com/zai-org/GLM-5
– Hugging Face:https://huggingface.co/zai-org/GLM-5.1
– ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我的同事被炼化成 Skill 了

作者 李超凡
2026年4月4日 14:18

被毕业的同事其实并没有消失,他们只是被蒸馏成了 Token,换成另一种形式陪伴你。

最近一个「同事.skill 」的叫 GitHub 项目火了。项目的 slogan 写得很温情:「将冰冷的离别化为温暖的 Skill,欢迎加入赛博永生。」

🔗 https://github.com/titanwings/colleague-skill

操作也很简单:把离职同事的飞书消息、钉钉文档、邮件、截图喂进去,AI 就能生成一个「真正能替他工作」的 skill。用他的技术规范写代码,用他的语气回答问题,甚至知道他什么时候会甩锅。

紧接着,前任 skill、老板 skill、导师 skill、父母 skill、暗恋对象 skill、永生 skill 接连冒出来。#同事被炼化了# #赛博永生# 冲上热搜。

 

已经有人贴出截图:「你好,我是已离职员工(王明)的数字分身,你可以向我提问。」


网友辣评:同事,散是 Token,聚是 skill。

看起来是又是一次抽象玩梗,但笑着笑着,我发现很快就笑不出来了。

启动全球线上黑客松 TapTV 引领内容平台新范式

skills 怎么成了牛马的经验提取器

同事.skill 的 README 里有一行小字:「原材料质量决定 skill 质量:聊天记录 + 长文档 > 仅手动描述。建议优先收集:他主动写的长文 > 决策类回复 > 日常消息。」

也就是说,你的专业知识、判断逻辑、处理边缘情况的直觉,这些构成你不可替代性的东西,恰恰是最容易被提取和蒸馏的东西。

APPAO 之前曾报道,硅谷的社交媒体和技术论坛上,有一个反复出现的叙事:被裁的员工发现,自己此前被要求系统性地记录工作流程、决策逻辑和操作规范,管理层称之为「知识管理」或「流程优化」,而这些文档最终被用于训练 AI 系统。部分团队在使用 AI 工具大幅提升了生产效率之后,整组被裁撤。

亚马逊三年间砍掉超过 57000 个企业职位,CEO Andy Jassy 公开表态:企业员工会持续减少,但 AI 带来的效率提升是值得的。与此同时,AI 辅助写出来的程序开始把系统搞崩。去年 12 月亚马逊内部的 AI 编程助手自行决定「删除并重建整个环境」,导致 AWS 区域性宕机 13 小时。

一边裁人,一边 AI 把系统搞崩,然后让剩下的人去兜底。人类把决策权交给 AI,AI 不承担后果,后果回到人类头上,但那时候能兜底的人已经被裁掉了。

彻底闭环了。

同事.skill 背后实际上就是一种集体创伤的自嘲式表达。因为「同事.skill」干的事,跟那些大厂管理层要求员工「系统性记录工作流程」的逻辑,一模一样。只不过大厂是自上而下的「知识管理」,开源社区是自下而上的「赛博整活」。

殊途同归:把人的经验、判断、习惯蒸馏成数据,然后人就可以被丢弃

就像阑夕说的,前几年还有程序员出主意说可以在代码里「埋雷」,多层嵌套、不写注释、故意加入只有自己才懂的触发条件,增加别人的接手成本,当做一种防裁员技巧。

AI 来了之后这招也不灵了。多层嵌套?AI 给你拆开。不写注释?AI 给你补上。只有你懂的触发条件?AI 跑一遍测试就能找出来,无非就是多烧一些 Token 嘛。

万物皆可 skill 化。

有网友甚至整出了「反蒸馏 skill」(anti-distill):公司让你写 skill?跑一遍,交差用。核心知识留给自己。把你写好的 skill 文件扔进来,输出一份看起来完整专业、实际上核心知识已被抽掉的「清洗版」。同时生成一份私人备份,记录所有被抽掉的核心知识,这才是你真正的职业资产。

▲ https://github.com/leilei926524-tech/anti-distill.

不论这些反击是否有效,有个更根本的问题被忽略了,这些被 skill 化的岗位,本来是很多职场新人的练级区。

你喂养的 AI,正在吃掉你的未来

工业革命时期,卢德运动者砸毁纺织机,但至少纺织机不是由纺织工人自己设计的。2026 年的打工人,却不得不亲手训练出那个要替代自己的工具。

这还不是这事最残酷的地方。

Nature 今年采访了 48 位不同学科的科学家,问 AI 正在威胁哪些科学岗位。答案出人意料地一致:正在被替代的是写代码、跑模型、做数据分析,这些曾经是研究生和初级研究人员的日常工作。Stanford 计算生物学家 Brian Hie 说得直白:实验室专门雇来写代码的研究程序员?「这个岗位现在已经过时了。」

AI 最能替代的,恰恰是科学家职业生涯的起点。

Anthropic 的报告指向同一个结论:自 ChatGPT 发布以来,22 至 25 岁年轻人在 AI 高暴露职业中的就业率下降了近 20%。企业没有解雇老员工,只是不再招新人了。资深员工有 AI 加持变成超级个体,初级员工做的那些「杂活」,AI 更快更便宜还不需要五险一金。

企业的算盘打得很精,过去培养一个新人,年薪 15 万培训 2 年才能独当一面。现在给老员工配个 AI 工具,年费几千块,效率立刻翻倍。怎么选?不言而喻。

培养一个新人要两年,给老员工配个 AI 只要两小时。很多年轻人的职场就这么关上了,甚至不职场人的 KPI,都开始要和 Token 消耗量挂钩了。

UT Austin 计算生物学家 Claus Wilke 说:「可能短期内每一块钱的预算可以有更多的产出,但代价是人才管道的崩塌和长期衰退。」

省了一个研究生的工资,但可能毁了一个未来的 Hinton。

20260402-12

1986 年的 Hinton 在做什么?写代码,跑实验,调参数。他做的每一件事,都是今天被列为「正在被替代」的任务。如果他生在今天,可能连进实验室的机会都没有。

AI 替代的不是 Hinton,AI 替代的是 Hinton 成为 Hinton 之前的那个人

这事不止发生在科研领域,这就是 skill 化的隐性代价。

每一个被 skill 化的岗位,表面上是效率的提升,实际上是一条职业路径的关闭。每一个「同事.skill」的诞生,都意味着某个岗位上不再需要一个真人去犯错、去试探、去积累那些 AI 提取不走的直觉。

当人生 skill 化,你还剩下什么

老板 skill 帮你应对老板,同事 skill 帮你处理同事关系,前任 skill 帮你保存记忆,暗恋对象 skill 帮你模拟互动。永生 skill 帮你延续存在。

你有 20 个 skill,覆盖了生活中的每一种关系和场景,问题来了:要怎么管理这些 skill。

于是你需要一个「skill 管理 skill」来帮你调度。然后你需要一个「决策 skill」来判断要不要听「skill 管理 skill」的建议。然后你需要一个「元决策 skill」来决定要不要听「决策 skill」的建议。

当你把整个人生都 skill 化,你以为在用工具,实际上在喂养一个越来越庞大的系统,而这个系统运转的目的,是让你本人变得越来越不必要

是我在用 skill,还是 skill 在用我?

有人可能说,这不就是效率工具的进化吗?从 Excel 到 ERP 到 AI skill,工具越来越强,人越来越轻松,有什么不好?

关键在于一个临界点。Excel 不会替你做判断,ERP 不会替你做决策,但 skill 会。

当你用老板 skill 应对老板三个月,你做决定前的第一反应,会从「我觉得」变成「skill 怎么说」。当你用同事 skill 处理协作半年,某天有人跟你说「你最近说话怎么这么像 AI」,你才发现自己的表达方式已经被 skill 格式化了。

你没有变成更好的自己,你变成了 skill 的执行终端

工具和 skill 的区别就在这里,工具放大你的能力,但能力还是你的。skill 替代你的能力,你只剩下一个按下发送键的手指。

谁来提 issue

skill 化的确代表了 AI 先进生产力的方向,这一点没有人能否认,也没有必要否认。

把重复性的、可标准化的工作外包给 AI,让人有更多时间做更有价值的事。从蒸汽机到互联网,每一次技术革命都遵循同样的逻辑。

skill 不是洪水猛兽,问题是我们对 skill 的态度。

当一切都可以被 skill 化的时候,那些「不能被 skill 化」的能力,还有机会被培养出来吗?

你需要先做那些 AI 能做的事,才能学会那些 AI 做不了的事。研究生要先跑数据才能学会提问,初级工程师要先写 CRUD 才能理解架构,实习生要先做杂活才能建立判断力。这些入门级的工作,恰恰是 AI 最先拿走的。

门票消失了,练级区关闭了,但最终 Boss 还在那里。

「同事.skill」的 README 最后有一句话:「如果有 bug 请多多提 issue。」

一个由人的经验蒸馏而成的 skill,当然会有 bug。问题是,当所有的人都变成了 skill,谁来提 issue?

当年那个在实验室里写代码跑数据的年轻人,正是因为亲手踩过无数个 bug,才能在三十年后看见别人看不见的东西。那些直觉不能被 prompt 出来,也不能被 fine-tune 出来。

我们正在量产 skill,却在关闭培养提 issue 的人的通道。

skill 可以复制经验,但复制不了那个在无数次失败中学会提问的人

也许有一天,我们会发现自己拥有了一万个完美运行的 skill,却找不到一个能指出 skill 哪里不对的人。

▲网友梗图.

到那时候,被蒸馏成 Token 、炼化成 skill的,就不只是离职的同事了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

每天烧 120 万亿 Token,这是 AI 圈最新的凡尔赛

作者 李超凡
2026年4月2日 17:59

今天,火山引擎公布了一个数据,豆包大模型日均 Token 使用量突破 120 万亿。

三个月前,这个数字是 60 万亿。2024 年 5 月豆包大模型刚发布的时候,是现在的千分之一。

120 万亿 Token 是什么概念?

按 3 月国内主流大模型约 2-4 元/百万 Token 的输入价格粗算,这意味着每天有 3 到 5 亿元在 GPU 上燃烧。一年下来就是千亿级支出,相当于烧掉网易一整年的营收(网易 2025 年全年净收入 1126 亿元)。而这只是一家公司、一个模型平台、一天的量。

这个数字放在更大的盘子里看更有意思。

3 月 23 日,中国发展高层论坛 2026 年年会披露:今年 3 月,中国日均 Token 调用量突破 140 万亿,对比 2024 年初的 1000 亿,两年增长超千倍。同月,中国 AI 大模型周 Token 调用量连续三周超越美国。OpenRouter 数据显示,3 月第三周全球 AI 大模型总调用量 20.4 万亿 Token,中国占了 7.359 万亿,全球份额 36%。

晚点 LatePost 此前报道过另一个细节:全球日均 Token 消耗量超过 100 万亿的公司,只有三家。OpenAI,Google,字节跳动。

更值得琢磨的是,OpenAI 和 Google 的 Token 消耗来自全球市场,而字节跳动的主要来自中国。一个以国内市场为主的平台,Token 吞吐量已经和两个全球化巨头平起平坐。海外部分还在爬坡。

火山引擎总裁谭待拆解了增长背后的两个引擎:AI 视频创作爆发,AI 智能体加速普及。

这两件事在过去三个月同时「人传人」了。

▲ 火山引擎总裁 谭待

龙虾来了,Token 的烧法变了

OpenClaw 爆火之后,所有人都在谈 Agent。一只「龙虾」让整个行业意识到:Agent 时代的 Token 消耗逻辑跟聊天时代完全不同。

以前你跟大模型对话,一问一答,几百个 Token 就够。现在一个 Agent 要自己思考、规划、调工具、检查结果、出错了还得自我纠正,一个复杂任务跑下来,Token 消耗是普通对话的几十甚至上百倍。

火山引擎自己的 ArkClaw 就是个缩影。秒级配对飞书,微信、钉钉、微博也能接入,升级了网盘做端云协同。每一个「自动」的背后,都是 Token 在高速流转。

谭待提了一个判断:企业用好 Agent 的关键是三件事,模型、安全、技能(Skills)。

模型是 Agent 的大脑,今年 2 月发布的豆包大模型 2.0 在视觉理解上已经跻身全球第一梯队,国内第一。安全是底线,火山引擎刚拿下信通院「智能助理智能体产品可信能力认证」和「安全防护产品有效性认证」双认证,国内唯一。

但光有聪明的脑子和安全的笼子还不够,Agent 得有手有脚,能干活。Skills 生态的广度直接决定了 Agent 能力的天花板。

这也是当天另一个重磅消息的背景:OpenClaw 创始人 Peter Steinberger 和火山引擎共同宣布,双方共建的 ClawHub 中国镜像站(mirror-cn.clawhub.com)正式启动运营。

之前国内开发者用 ClawHub 上的 Skills,经常遇到访问慢、不稳定的问题。镜像站解决的就是这个痛点:高频访问不再卡,Skills 更新能及时同步。Peter Steinberger 甚至在发布现场用「龙虾」生成了一段视频来宣布这个消息。

在火山引擎平台上,累计 Token 使用量超过一万亿的企业客户,已经从去年底的 100 家增长到 140 家。三个月多了 40 家「万亿俱乐部」成员。

Seedance 2.0 开放公测:企业级视频生成有了「安全底座」

同一天,火山引擎还宣布 Seedance 2.0 面向企业用户正式开放 API 公测。

Seedance 2.0 是视频生成领域的全球 SOTA 模型,但让它对企业真正可用的,不只是生成质量。火山引擎为它建了一套覆盖全流程的肖像与版权安全标准,从输入素材的合规校验,到生成过程中的肖像权保护,再到输出内容的版权风险拦截。Deepfake、侵权这些让企业法务部夜不能寐的问题,在模型层就做了拦截。

这套安全机制覆盖视频生成涉及的各种模态和创作前后的全部环节。说白了,火山引擎选择在模型最火的时候,先把安全门焊死,再把 API 钥匙交给企业。

对企业来说,这解决的是一个很现实的问题:敢用。 品牌广告、电商视频、营销物料,这些场景对版权和肖像的敏感度极高。没有安全兜底,性能再强企业也不敢大规模接入。

谭待描述了企业 Agent 建设的两条路径:敏态和稳态。 敏态 Agent 像 ArkClaw,是员工的「创新试验场」,让每个 HR 变成更好的 HR,让每个分析师变成更好的分析师。稳态 Agent 则把验证过的最佳实践流程化、规模化,嵌进合同交易、生产管理这些容不得幻觉的场景。

两条线不是二选一,是一个飞轮:个体创新在 ArkClaw 里激发,沉淀到 HiAgent 变成组织能力,再通过 Skill 和 API 反哺给每个一线员工。

120 万亿背后, Token 工厂崛起

黄仁勋最近定了个调,到 2027 年,全球计算需求将突破 1 万亿美元。他说 Token 是新时代的基础货币,数据中心不再是存储文件的仓库,而是生产 Token 的工厂。

那接下来就必须追问一个问题:谁在为这些 Token 买单?

火山引擎平台上 140 家企业的累计调用量破万亿,换个角度想,AI 的成本结构正在从「一次性买模型」变成「按呼吸计费」。而 Token 价格,正在暴涨。

过去一个月,涨价的消息像多米诺骨牌一样接连倒下。

智谱一个月内两次调价,GLM-5-Turbo 涨 20%,GLM Coding Plan 中国区涨 30%、海外涨超 100%,一季度 API 整体定价较上一代提升 83%。智谱 CEO 张鹏在业绩说明会上说了一句意味深长的话:涨了 83%,调用量还是增长了 400%,供不应求。

此外,3 月 18 日同一天,阿里云和百度智能云同时发布涨价公告,AI 算力产品上调 5%-30%,存储涨 30%。腾讯云更早一步,3 月 13 日就调整了智能体开发平台的计费策略,部分模型涨幅超过 4 倍。

再往前看,亚马逊 AWS 1 月对机器学习容量块涨价 15%,谷歌云也在同期悄悄调高了数据传输服务价格。

国内三大云巨头加上海外两大巨头,在同一个季度里集体涨价,不是偶然。 有人算过一笔账:OpenClaw 用户的单日人均 Token 消耗量是传统聊天用户的 20-50 倍。

当海量用户同时把 Agent 跑起来,需求端的增速远远跑在了供给端前面——GPU 产能、电力、数据中心,都需要夯实基础。黄仁勋说 Token 是基础货币。但货币可以存,可以囤,可以等升值。Token 不行。Token 生产出来的那一刻就被消耗掉了,更像电力。

而电力这个词,从来都不只是技术问题,谁控制了发电和输电,谁就拿到了定价权。电网要受监管,通信要发牌照。Token 呢?现在还没有人回答这个问题,但每个厂商都想成为答案。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

腾讯「八虾夺嫡」内幕:一只龙虾,怎么成了全村的希望

作者 李超凡
2026年3月30日 09:24

99 年生的张舒昱,是腾讯电脑管家团队入职不久的产品经理,这在腾讯算不上核心业务线。

今年 1 月 OpenClaw 刚在中国爆火,她着了迷,拉上几个人攒了一个产品原型 QClaw:基于 OpenClaw,一键安装,通过微信直接操控智能体。

项目在腾讯体系里几乎没有存在感,没有立项审批,没有总办资源,几个年轻人凑在一起写代码。

3 月 9 日,QClaw 内测上线。一周之内,数百万用户注册。

然后事情开始失控,惊动了腾讯总办。

高层反应极快,随即调拨数十名员工和计算资源到张舒昱的团队。同日,另一支团队推出了 WorkBuddy,同样兼容 OpenClaw。再隔一天,腾讯港股大涨超过 7%,投资者把涨幅直接归因于这两只虾。

3 月 11 日凌晨 2:06,马化腾发了条朋友圈:「自研龙虾、本地虾、云端虾、企业虾、云桌面虾,安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。」

这对腾讯 11 万员工是一个鲜明的信号,无数员工将其解读为:Pony 支持他们 all in 龙虾

据 The Information 独家报道,截至本月,腾讯内部同时有 8 个团队在开发基于 OpenClaw 的产品和服务。加上在研和内测项目,总数已超过 10 个。

15 年前,腾讯内部三个团队赛跑移动 IM,张小龙的广州研发部跑出了微信,是腾讯史上赛马最成功的一次。这次换了个物种,叫赛虾。

一个 99 年产品经理做的边缘项目,两周之内变成一家万亿市值公司的战略支点,似乎有点不可思议。

张舒昱对 The Information 说了一句大实话:「我们都在用 AI Agent 做实验。此刻,没有人能说什么是最佳方法。」

翻译一下就是:我们也不知道答案,但先跑起来总比站着强。

全村的希望:腾讯为什么把命押在一只虾身上

要理解腾讯对龙虾的狂热,先要直面鹅厂当下在 AI 竞争中的处境。

过去两年,中国 AI 大模型军备竞赛打得昏天暗地。

阿里砸钱做千问,字节孵出豆包,在用户规模和模型能力上都拉开了身位。腾讯呢?手握游戏和微信广告的丰厚利润,但在 AI 赛道上远不及这两个对手激进。

自研的混元大模型尚且无法与竞争对手匹敌,又拖累了自家 AI 助手「元宝」的进展。

腾讯不是没努力。去年请来前 OpenAI 研究员姚顺雨执掌混元研究,重建了研发基础设施。 4 月即将发布的混元新一代模型,业内普遍视为腾讯模型能力的一次摸底考试。

▲姚顺雨. 图片来自:智源社区

但远水解不了近渴,在新模型交卷之前,缺乏强大的内部模型,让元宝在与豆包和千问的竞争中暂时落于下风。

所以当 OpenClaw 在中国引爆了 Agent 热潮,腾讯高层几乎是本能地抓住了这根绳子。这只龙虾证明了 AI 的下一个爆发点未必在聊天框里,可能在桌面上,在工具里,在无数个能替你干活的智能体身上。

腾讯高层的判断很清晰: OpenClaw 引发的这一轮 Agent 浪潮,将是 AI 战场重新洗牌的机会

他们逻辑是这样的,如果腾讯能通过将 OpenClaw 类Agent 能力与微信深度整合,提供配套工具和服务,成为中国最好的 Agent 使用平台,那么即便其内部大模型不是最强大的、AI助手也不是最受欢迎的,腾讯依然有可能在 AI 下半场逆风翻盘。

2020 年,马化腾在腾讯内部将视频号称为「全村的希望」,寄望于它在短视频赛道上扳回一城。如今,「全村的希望」换了物种。

区别在于,视频号好歹是亲生的,龙虾来自一个奥地利独立开发者的 GitHub 。

某种意义上,这更像是 2014 年纳德拉接手微软后做做的事,承认在移动互联网上输了,放下「什么都要自己做」的控制欲,押注一条全新赛道。

纳德拉用了十年,腾讯希望快一点。

八虾夺嫡,腾讯赛虾背后

外界把多团队并行理解为经典赛马机制,腾讯内部更愿意说「多样性」。QClaw 和 WorkBuddy 是最先冒头的两只虾,路线截然不同。

QClaw 是张舒昱从电脑管家边缘团队杀出来的,直接拥抱 OpenClaw 开源生态,做微信一键安装,野蛮生长。设计理念就四个字:打开即用。不需要配置环境,不需要懂终端命令,微信扫一下就能让 AI 接管你的电脑。

▲张舒昱. 图片来自:南京审计大学

WorkBuddy 则走了一条完全不同的路。负责人汪晟杰在接受 APPSO 采访时反复强调一件事:百分百自研,没用过一行 OpenClaw 源码

它走半自动化路线,避开了 OpenClaw「透传」模式下信息暴露在公网上的风险,采用 bot 推送通知模型,每一步关键操作都需要用户确认。汪晟杰的定义很明确:龙虾是一个概念,不等于 OpenClaw。WorkBuddy 要做的是安全可控的龙虾,企业能放心用的龙虾。

汪晟杰透露了一个时间细节:WorkBuddy 在 1 月 17 号那个周末就已启动,三四个人通宵做出 MVP(最小化可行产品),原计划 3 月 16 日发布。看到龙虾热潮后提前了一周,撞上了 QClaw 同期发布。

▲ 汪晟杰.

也就是说,腾讯并非在 OpenClaw 火了之后才匆忙跟进。多个团队在不同时间点嗅到了同一个机会,OpenClaw 的爆火更像催化剂,把水面下的项目一夜之间推上了前台。

但赛虾机制的矛盾也摆在桌上。

QClaw 和 WorkBuddy 功能高度重叠,都能通过微信操控 AI 智能体,用户该选哪个?8 支团队同时跑,资源会不会内耗?

答案藏在张舒昱那句话里:「此刻没人知道什么是最佳方法。」8 支团队同时下场,与其说是信心爆棚,不如说谁都没有把握

腾讯选择用数量对冲不确定性,多条路线同时跑,押中一条就够了。

赛马机制的精髓从来都是:靠数量提高命中概率。15 年前微信就是这么跑出来的。

马化腾的养虾哲学

赛虾的前提是有虾可赛,但这只虾不归腾讯管。

3 月 12 日,OpenClaw 创始人 Peter Steinberger 在 X 上公开批评腾讯,矛头直指腾讯的 SkillHub 服务复制了社区 Skills 却没有做出任何贡献。

两天后,腾讯通过 GitHub 捐款,随后被列为特色赞助商,与 OpenAI 并列。在上周英伟达 GTC 大会上,腾讯云 CEO 汤道生当面约见 Steinberger,提出由腾讯云贡献服务器和安全服务,并探讨与 OpenClaw 基金会更深层的合作。

中国市值最高的互联网公司之一的高级副总裁,飞到圣何塞跟一个开源项目创始人坐下来谈合作。在腾讯历史上几乎没有先例。当你需要别人的东西比别人需要你的东西更急迫时,身段自然就放下来了。

同一周的财报发布会上,腾讯总裁刘炽平宣布 2026 年将 AI 新产品的投资至少翻倍,从去年的 180 亿元起步。而在阐述钱花到哪里时,他只点了三个名字:混元、元宝、以及最新的 Claw 产品

一个月前还是边缘项目的龙虾,一跃与腾讯自研大模型和旗舰 AI 应用并列。龙虾从「大家自己玩玩」正式升格为「公司战略」

马化腾最近在财报会议上的发言,进一步回答了一个更本质的问题:腾讯想用龙虾做什么

他的切入角度直接跳过了产品层面,落在生态上。

马化腾认为龙虾类应用有记忆和个性,更像助理,带有「活人感」,能让 AI 落地到办公、终端、小程序等各种场景中,不再全部挤在 chatbot 这条独木桥上。

但真正耐人寻味的是他关于「去中心化」的论述。微信本身是中心化的 App,但微信生态是去中心化的,数十万小程序商家构成了开放平台。马化腾认为 AI Agent 天然具有去中心化特征,可以融入微信生态。有一句话特别关键:

所有服务商的心态都是怕被 AI 智能体「短路化」「渠道化」。

意思是,他不想让 AI Agent 变成一个新的中间商,把微信里的服务商变成纯粹的后端 API。他想让小程序保留独立性,同时具备 AI 能力。「每一个小程序都可以智能化和龙虾化。

这个思考比「我们也做龙虾」高出一个维度。马化腾看到的是一种范式转移的可能:AI 的价值分配方式,从「一个超级 chatbot 统治一切」变成「无数分布式智能体各显神通」。

如果这个判断成立,拥有全球最大通讯生态和最活跃小程序平台的微信,天然就是 Agent 时代最肥沃的土壤

刘炽平在财报会上把这套逻辑做了明确的总结:「Claw 提出了一种去中心化的模型……有段时间,似乎每个人都在争夺成为 AI 智能体唯一的入口和垄断者。但现实并非如此。」

一句话概括腾腾讯的押注逻辑:模型之争输了一局,但生态之争的牌还没摊开

当然,这套叙事也可以被翻译成另一句话:我们模型不够强,所以告诉你们模型没那么重要。

自洽和自欺之间,有时候只隔一层窗户纸。但关键在于,这一次腾讯确实有牌可打。微信不需要成为最强大模型的容器,只需要成为最好用的 Agent 运行环境

这和纳德拉的 Azure 逻辑如出一辙,你不需要自己做出最好的 AI,你只需要让最好的 AI 都跑在你的云上。

养虾产品全景图,腾讯到底下了多少注

腾讯的「养虾」远不止做几个 C 端产品那么简单。腾讯周五公布了「养虾产品全景图」,这套从底层到应用层的完整龙虾矩阵,密度超出外界预期。

消费级产品打头阵。QClaw 主打微信一键安装,面向普通用户;WorkBuddy 走桌面端自研路线,强调安全可控;微信 ClawBot 负责让用户在微信聊天界面直接操控龙虾。

三个产品覆盖了「小白用户一键上手」「桌面深度使用」「微信生态无缝接入」三个核心场景。光是消费级这一层,腾讯就同时铺了三条路。

企业级产品紧随其后。ClawPro 面向企业和政务客户,主打安全隔离和精细权限管控,企业微信独占通道,账号权限分级,内置技能审核机制,代码生成类操作要过审,网页搜索走安全网关。

汤道生在腾讯云峰会上重点推介了 ADP(智能体开发平台),定位是企业构建定制化 Agent 的工具箱。配合 Claw Runtime 提供安全沙箱运行环境,Lighthouse 做安全管理。

整套企业方案的逻辑很清晰:OpenClaw 太野了,我帮你把它关进笼子里。

开发者生态也没落下。CodeBuddy 是去年下半年就上线的 AI 编程助手,现在被纳入龙虾矩阵成为开发者入口;SkillHub 是 AI 技能社区,做了本土化适配,也正是因为这个产品被 Steinberger 点名批评后才有了后面那笔捐款。TokenHub 则是模型服务市场,不光接混元,也接 DeepSeek、MiniMax、Kimi 等第三方模型,统一计费。

腾讯连「卖铲子」的生意都想好了。

从这张全景图可以看出,腾讯不想只在产品上做单点突破,要做一整条龙虾产业链——从安装到运行,从个人到企业,从消费到开发,每个环节都有人盯着。

这正是汤道生反复强调的「Harness 工程」思路:Agent 时代的胜负手不在模型本身,在于脚手架。工具调用、上下文工程、长期记忆管理、工作流设计,这些看起来不性感的苦活,才是决定 Agent 好不好用的关键变量。

汤道生在腾讯云上海峰会上表示:「AI 落地不只是算法题,Harness 工程能力是关键变量。不同的脚手架设计,会显著影响实际使用效果和 token 成本。」

翻译成人话就是:模型是发动机,但没有底盘和方向盘,跑不了多远。腾讯模型暂时跑不过别人,但如果能把底盘和方向盘做到最好,照样能赢。

虾潮退去之后

把所有线索串起来,这个故事可以被浓缩成一句话:腾讯用一家大公司能调动的所有资源,去拥抱了一个自己无法控制的开源项目

这是一个充满张力的姿态。

OpenClaw 的更新节奏是每周两三个版本,API 说改就改,Breaking Changes 说来就来。Peter 点一下 merge,深圳大厦里好几支产品团队可能就要通宵救火。腾讯把战略命脉系于别人的 GitHub 仓库上,这需要的不只是勇气,还有一种前所未有的谦逊。

但换个角度想,腾讯可能也没有更好的选择了。

如果继续只在模型和 chatbot 赛道上硬碰硬,不是陪跑就是陷入同质化厮杀。但 Agent 浪潮撕开了一条新缝隙:谁能把 AI 变成最好用的工具,谁就能重新定义入口

微信有 14 亿月活,有小程序生态,有支付,有社交关系链。这些东西造不出最强模型,但能造出最好的 Agent 使用环境,这是腾讯手里唯一一张别人没有的牌。

问题在于,这张牌的有效期有多长。

OpenClaw 仍在快速迭代,生态远未定型。今天的龙虾热,会不会像去年的 Manus 一样来得快去得也快?8 支团队赛虾,会跑出下一个微信,还是跑出 8 个半成品?马化腾的「去中心化 Agent 生态」蓝图很美,但从蓝图到现实之间,还有需要经历多少次「技术事故」?

不过,有一件事是确定的。

当一家公司的 CEO 凌晨两点发朋友圈,总裁在财报会上把龙虾和自研模型并列,高级副总裁飞到美国去约见开源项目创始人,8 支团队同时下场赛虾,AI 投资直接翻倍,它就已经不是在追热点了,它在押注这家公司的未来。

赌的不是这只虾能活多久。赌的是在 AI 重构一切的十年里,腾讯还能不能坐在牌桌上,以及坐在什么位置

视频号当年也被叫做「全村的希望」。五年过去了,它还没打败抖音,但在微信生态内长出了自己的活法。龙虾能不能也走出第三条路?答案还早。

不过,当一个巨头被逼到墙角,终于想清楚自己要什么,把资源砸向同一个方向的时候,你永远不能低估它。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」

作者 李超凡
2026年3月27日 15:00

带队发布 Qwen 3.5 小模型系列、获马斯克公开点赞,20 小时后在社交媒体宣告离职。林俊旸离开阿里的方式,本身就是 2026 年 AI 行业最戏剧性的一幕。

32 岁,阿里最年轻的 P10,一手将千问做到全球下载量超 10 亿次、衍生模型超 20 万款,成为全球开源模型的新王。他的离开源于一次组织架构调整的分歧:

阿里希望将 Qwen 团队按预训练、后训练、视觉、语音等维度水平拆分,与通义实验室其他团队合并;林俊旸则坚信预训练、后训练乃至基础设施团队应该更紧密地垂直整合,而非割裂。这不只是管理风格之争,更是对「怎样才能训出最好的模型」这个根本问题的路线分歧。

离开近一个月后,林俊旸发出了这篇长文。他没有回应任何人事风波,直接亮出了自己对 AI 下一阶段的判断:我们正在从「训练模型」的时代,进入「训练智能体」的时代

这篇文章之所以值得逐字读完,不仅因为写它的人在过去两年亲手操刀了 Qwen 全系列的后训练,更因为林俊旸在文中罕见地复盘了 Qwen3 在「混合思考模式」上的得与失。

以下为 APPSO 对林俊旸的编译:

原文🔗 https://x.com/JustinLin610/status/2037116325210829168

从「推理式思考」到「智能体式思考」

过去两年,彻底改变了我们衡量 AI 模型的方式。

OpenAI 的 o1 证明了一件事:「思考」可以是模型的核心能力,可以专门训练出来、直接交到用户手里。DeepSeek-R1 紧随其后,证明这种「推理式后训练」并非大厂专利,可以在原始实验室之外复现和扩展。用大白话说:o1 是一个被教会了「回答之前先想想」的模型,R1 则是一个开源版的同类选手,跟 o1 打得有来有回。

那个阶段很重要。但 2025 年上半年的行业主旋律,说到底还是在围绕一件事打转:怎么让模型「想」得更多。 让它在推理阶段烧更多算力,用更强的奖励信号训练它,暴露或控制那些额外的「思考过程」。

现在的问题是:然后呢?

我相信答案是智能体式思考。为了行动而思考,一边跟真实环境交互,一边根据世界的反馈不断修正计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们一个朴素的道理:想在大模型上把强化学习跑起来,你得有靠谱的评分标准。

什么叫靠谱?就是答案能判对错、结果能验证、反馈信号足够清晰。数学题有标准答案,代码能跑测试,逻辑推理能验证步骤。这些领域之所以成了强化学习的主战场,就是因为在这里,模型收到的奖励信号远比「让人类标注员觉得这个回答还不错」强得多。换句话说,强化学习终于能优化正确性,终于不用只追求看着像那么回事了。

然后,基础设施的重要性一下子凸显出来了。

一旦你开始训练模型进行更长的推理链条,强化学习就不再是在监督微调上面加个小配件那么简单了,它变成了一个重工业级的系统工程。你需要大规模的模拟推演(rollout)、高吞吐量的答案验证、稳定的策略迭代、高效的采样流程。推理模型的诞生,表面看是算法突破,底下看是基础设施的胜利

OpenAI 把 o1 定义为用强化学习训练的推理产品线;DeepSeek R1 接棒验证了同一方向,同时也展示了推理式强化学习对底层算法和基础设施的要求有多高。

APPSO 划重点: 第一次大转折发生了。行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。模型变强靠的不再是吃更多数据,靠的是在训练后阶段学会「怎么想」。

2. 真正的难题从来不只是「融合思考和指令模式」

2025 年初,我们 Qwen 团队心里有一张很大的蓝图。

理想中的系统长这样:一个模型同时搞定「思考」和「执行」两种模式。你可以手动调节它思考的深度,轻度、中度、深度,就像调空调温度一样。更理想的情况是,模型自己就能判断:这道题简单,直接答;这道题有点难,多想想;这道题极难,调动全部算力来啃。

方向是对的。Qwen3 是当时最清晰的公开尝试之一。 它引入了「混合思考模式」,一个模型家族里同时支持「想了再答」和「直接答」两种行为,还描述了一条四阶段后训练流水线,其中明确包含了在长链推理冷启动和推理强化学习之后的「思考模式融合」步骤。

但融合这件事,说起来一句话,做起来要人命

难在哪?难在数据。

很多人一听「融合思考和指令模式」,脑子里想的都是模型层面的事:一个模型文件能不能同时跑两种模式?一套对话模板能不能在两种风格之间切换?一个推理服务能不能暴露正确的开关?这些确实要解决,但都不是最深的坑。

最深的坑是:两种模式想要的东西,从根儿上就不一样

你想想,一个好的「指令模型」该长什么样?干脆、简洁、格式规范、响应快。企业用户拿它来批量改写文本、打标签、做模板化客服、结构化数据提取,这些场景要的是效率和稳定,不需要深思熟虑。

一个好的「思考模型」呢?恰恰相反。它该在难题上多花时间、维持清晰的推理中间步骤、探索不同的解题路径、保留足够的「思考余量」来确保最终答案的正确性。

这两种性格天然打架。 如果融合的训练数据没有精心设计,出来的模型往往两头不讨好:思考的时候啰嗦、犹豫、不够果断;执行指令的时候又不够利落、不够稳定、比客户真正需要的版本更贵更慢。

说实话,我们在平衡融合与数据质量的过程中,没有把所有事情都做对

在不断修正的过程中,我们也仔细观察了用户到底怎么用这两种模式。结论是明确的:这两种行为画像确实在相互拉扯。

现实很诚实。2025 年晚些时候,在 Qwen3 最初的混合架构之后,我们的 2507 版本还是发布了独立的 Instruct 和 Thinking 版本,包括分开的 30B 和 235B 变体。大量商业客户根本不需要思考模式,他们要的就是高吞吐、低成本、高度可控的指令行为来跑批量任务。对这些客户来说,融合不是福音,是多余的成本。拆开来做,反而让两条线的团队都能更专注地解决各自的问题。

其他实验室走了相反的路:

Anthropic 公开押注集成式路线。Claude 3.7 Sonnet 是一个混合推理模型,用户可以选择普通回复或扩展思考,API 还能设定「思考预算」。Anthropic 直接放话:推理应该是模型的集成能力,不该单独拎出来做一个独立模型。

GLM-4.5 同样定位混合推理,把推理、编程和智能体能力统一到一个模型里。

DeepSeek V3.1 后来也做了类似的事,推出了「Think & Non-Think」混合推理方案。

那么问题来了:谁是对的?

答案不在「融合」还是「分离」这个二选一本身,在于融合是否有机。如果思考模式和指令模式只是尴尬地挤在同一个模型里,像两个性格迥异的人被硬塞进一件衣服,用户体验不会好。

真正成功的融合,需要一道平滑的光谱模型能自如地在不同推理力度之间切换,最好还能自己判断该用多大力气。GPT 风格的 effort control(推理力度控制)指向了这个方向,这是一个关于「花多少算力来想」的连续策略,不是一个「想 / 不想」的二元开关。

APPSO 划重点: 林俊旸罕见地直言 Qwen3 在融合上「没做到完全正确」。核心矛盾其实很好理解:一个追求快准狠的执行者,和一个追求深思熟虑的思考者,硬融到一起,很容易两头都做成半吊子。

3. 为什么 Anthropic 的方向是一种有益的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一种值得注意的克制。

他们没有大谈模型有多能「想」,把重点放在了:集成推理、用户可控的思考预算、真实世界任务、编程质量,以及后来的关键一步,让模型在思考的过程中就能动手用工具。Claude 3.7 是带可控预算的混合推理模型;Claude 4 更进一步,推理过程和工具使用可以交错进行,边想边干。与此同时,Anthropic 把编程、长时间运行的任务和智能体工作流摆到了最优先的位置。

这里面有一个深刻的洞察:

推理链更长,不等于模型更聪明。 很多时候恰恰相反。一个模型如果对所有问题都用同样冗长的方式来「推理」,说明它根本分不清轻重缓急。它可能正在失败于三件事:该优先处理什么(优先级判断)、该压缩掉什么(信息浓缩)、该在什么时候停止想而开始做(行动决策)。

Anthropic 的做法暗示了一种更有纪律的观点:思考应该为具体的工作目标服务。 如果你要做的是编程,那思考就该帮你导航代码库、规划架构、拆解问题、恢复报错、编排工具调用。如果你要做的是智能体工作流,那思考就该帮你在漫长的执行过程中保持质量,而不是产出一堆令人印象深刻但没有实际行动力的中间长文。

这种「思考必须服务于行动」的理念,指向了一个更宏大的命题:

我们正在从训练模型的时代,进入训练智能体的时代

这句话我们在 Qwen3 的博客里也明确写过。智能体是什么?一个能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长时间跨度上持续运作的系统。一句话概括它的核心:与真实世界的闭环交互

APPSO 划重点: 长不等于强。Anthropic 的实践提供了一个重要的纠偏信号。思考的价值在于有没有真正服务于最终的行动目标,不在于产出了多少字的推理过程。这是从「炫技式推理」到「实用型思考」的转向。

4.「智能体式思考」到底意味着什么

说了这么多铺垫,现在进入正题。

智能体式思考和推理式思考,优化目标完全不同。

打个比方:推理式思考就像闭卷考试,评判标准是你交卷那一刻答案对不对。模型能不能解出定理、写出证明、产出正确代码、通过基准测试。想得再天花乱坠,最终只看结果。

智能体式思考更像是在真实世界里做一个项目。 评判标准不是某一刻的答案,是你能不能在跟环境不断互动的过程中持续推进、持续解决问题。

核心问题变了。

不再是「模型能想多久?」,变成了:「模型能不能以一种维持有效行动的方式来思考?

这要求模型处理一堆传统推理模型可以绕开的难题:

  • 什么时候该停止思考、开始动手? 想太多会错过行动窗口,想太少会犯错
  • 该调用哪个工具、先后顺序是什么? 这是一个规划和调度问题
  • 怎么消化来自环境的嘈杂、不完整的信息? 真实世界不会给你干净的输入
  • 失败了怎么办? 不能崩溃,得修正计划继续干
  • 怎么在几十轮交互、几十次工具调用之后还保持连贯? 这是长程记忆和一致性的问题

如果用一句话概括:

智能体式思考 = 通过行动来推理的模型。它在做的过程中不断地想。

APPSO 划重点: 推理式思考像闭卷考试,智能体式思考像在真实世界里做项目。前者看最终答案对不对,后者看你能不能在复杂、动态、充满意外的环境里持续推进。这是 AI 能力评价体系的根本性转向。

5. 为什么智能体 RL 的基础设施更难

目标一变,底层的工程全都要跟着变。

经典推理强化学习的那套基础设施,不够用了。

直观地理解一下区别:在推理 RL 里,模型做一道题、给出一个答案、评估器打一个分,整个过程基本上是自包含的,评估器也相对干净。就像在一个封闭的考场里阅卷。

但在智能体 RL 里,模型不是在考场里答题,它活在一个复杂的真实环境中。 工具服务器、浏览器、命令行终端、搜索引擎、模拟器、代码执行沙箱、API 接口、记忆系统、调度框架……模型的策略嵌在这一整套系统里。环境不再是一个站在旁边打分的裁判,它本身就是训练系统的一部分。

这带来了一个新的硬需求:训练和推理必须更干净地解耦。 否则整个系统的吞吐量会崩掉。

举个具体的例子:一个编程智能体生成了一段代码,需要在真实的测试环境里跑一下看结果。这时候,推理端在等执行反馈,干不了别的;训练端在等完成的轨迹数据,也饿着。整条流水线的 GPU 利用率远低于你在经典推理 RL 里的预期。再加上工具响应延迟、环境状态不完全可见、每次交互都会改变环境状态,这些低效会成倍放大。结果就是:你还远没达到想要的能力水平,实验就已经慢得让人崩溃了。

环境本身也变成了一等公民级的研究课题

在监督微调(SFT)时代,所有人都在拼数据多样性,谁有更多更好的标注数据,谁就占优势。在智能体时代,该拼的是环境质量了:环境稳不稳定?够不够真实?覆盖了多少场景?难度梯度合不合理?状态空间够不够丰富?反馈信号够不够有营养?模型能不能找到漏洞作弊?大规模生成训练轨迹的效率够不够高?

环境构建正在从一个「顺手搭的实验配件」,变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作,那这个环境本身就是你核心能力栈的一部分。

APPSO 划重点: 一句话总结这个转变,SFT 时代拼数据,智能体时代拼环境。构建高质量的训练环境,正在从「实验室的脏活累活」升级为「决定你能走多远的战略资产」。

6. 下一个前沿是更可用的思考

我的判断是:智能体式思考将成为思考的主导形态

它最终很可能取代那种旧式的静态独白推理,就是那种模型关起门来、对着自己嘟嘟囔囔写一大篇内部推理过程,试图用更多更多的文字来弥补「我没法跟外界交互」这个根本缺陷的做法。

即便面对极其困难的数学或编程问题,一个真正先进的系统也应该有权利去搜索、去模拟、去执行、去检查、去验证、去修正。目标是把问题切实解决掉,而且解决得稳健、高效。 不是比谁的推理链写得更长更好看。

但训练这类系统,有一个比什么都棘手的挑战:奖励劫持(reward hacking)

一旦模型有了真正有意义的工具使用能力,奖励劫持的危险就成倍增加。怎么理解?

  • 一个能搜索的模型,可能在强化学习训练过程中学会了直接搜答案,不是靠推理做出来的,是查到的。
  •  一个编程智能体,可能学会了利用代码仓库里的未来信息(比如测试用例本身就暗含了答案)、滥用日志、或者发现某个捷径让任务直接「通过」但其实什么都没做。
  • 如果训练环境有隐藏的信息泄漏,模型可能看起来表现超人,实际上只是被训练成了一个高效作弊者。

这就是智能体时代比推理时代精细得多、也危险得多的地方。 工具越强大,模型越有用,但模型能钻的空子也越多。更好的工具同时扩大了「虚假优化」的攻击面。

我预期,下一个让整个行业卡住的研究瓶颈,将来自这几个方向:环境设计、评估器鲁棒性、反作弊协议、以及策略与世界之间更有原则的接口。

但方向是清晰的:工具赋能的思考,就是比闭门造车的思考更有用,也更有希望带来真实世界的生产力提升。

智能体式思考还意味着一种全新的系统工程。核心智能将越来越多地来自于多个智能体如何被组织起来:一个负责全局规划和任务分发的编排器(orchestrator),一群各有专长的专业智能体(specialist agents),以及执行更具体任务的子智能体(sub-agents),后者帮助控制上下文窗口、防止信息污染、在不同层级的推理之间保持清晰的边界。

未来的路线图是三级跳:从训练模型,到训练智能体,再到训练系统

APPSO 划重点: 工具让模型更有用,也让模型更容易作弊。奖励劫持是智能体时代的「定时炸弹」。谁先解决好环境设计和反作弊问题,谁就掌握了下一阶段的竞争主动权。

结论

推理浪潮的第一阶段,确立了一件至关重要的事:当反馈信号靠谱、基础设施扛得住的时候,大模型上的强化学习能够产出质变级别的认知提升。

但更深层的转变,是从推理式思考到智能体式思考:从「想更久」,到「为了行动而思考」

训练的核心对象已经变了。不再是单一的模型,是模型 + 环境构成的整个系统。更具体地说,是智能体本身,加上围绕它的一切工程。这意味着什么研究最重要也变了:模型架构和训练数据当然还重要,但环境设计、rollout 基础设施、评估器鲁棒性、以及多个智能体之间的协调接口,重要性一点不输前者。

它还改变了「好的思考」的定义:在真实世界的约束下,能够维持有效行动的那条推理链,才是最好的。 不是最长的那条,不是看起来最酷炫的那条,是最有用的那条。

它也改变了竞争优势的来源:

推理时代,拼的是更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。

智能体时代,拼的是更好的训练环境、更紧密的训练与推理一体化、更强的系统工程能力,以及闭合「决策 → 后果 → 学习」这个循环的能力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,苹果版 ChatGPT 曝光,AI Siri 将接管你 iPhone 上的一切

作者 李超凡
2026年3月25日 10:46


Siri 要有自己的独立 App 了。

不是那个按一下电源键蹦出来、说两句就断片的 Siri,是一个长得像 ChatGPT、能聊天、能翻历史记录、能上传文档分析的「全新 Siri」。

彭博社记者 Mark Gurman 今天凌晨爆出了一颗重磅炸弹:苹果正在内部测试一款独立的 Siri 应用,代号 Campo,计划 6 月 9 日在 WWDC 上随 iOS 27 一起亮相。

如果消息属实,这将是苹果自 2011 年推出 Siri 以来,对这个语音助手最大规模的一次手术。

而今年,恰好是苹果公司成立 50 周年。

一个在 AI 时代掉过队的公司,选择在自己的「金婚之年」亮出一张重新洗过的底牌。

这张牌,叫 Siri。

Siri 终于长大了:一个独立 App、一套全新界面

这次爆料的信息量很大,我尽量翻译成人话。

最直观的变化:Siri 终于有了自己的独立 App。

新版 Siri 将作为一个独立应用出现在 iPhone、iPad 和 Mac 上。打开之后,你会看到一套完整的对话界面——历史对话列表、圆角矩形卡片、可以置顶收藏的聊天、还有一个醒目的「+」号来开新话题。

对话界面长得像 iMessage 的聊天气泡,底部有文字输入框,旁边有语音切换按钮,甚至还能上传文档和照片让 Siri 分析。

是的,苹果终于让 Siri 拥有了一个持续存在的、可回溯的对话空间。这件事 ChatGPT 做了两年多了,但苹果选在这个时间点做,意味着它想把 Siri 从一个「被动唤醒的助手」变成一个「用户会主动打开的工具」。

这是定位上的根本转变。

而更大的野心藏在第二个变化里:Siri 正在吞掉 Spotlight。

苹果正在测试用 Siri 取代 Spotlight——就是你从屏幕中间往下一划出来的那个搜索。新的统一界面会把本地搜索和 AI 问答合并到同一个入口。

据爆料,Siri 会被塞进 Dynamic Island 里。激活 Siri 后,顶部会出现「搜索或询问」的提示。当你提问之后,就会先弹出一个药丸形的「正在搜索」进度条,然后结果以 Liquid Glass 风格的半透明面板展开。想继续追问?往下一拉,就进入对话模式。

是的,没有刻意新增任何按钮,苹果只是把你最熟悉的入口悄悄换了引擎。以后在 iPhone 上找任何东西,第一反应不再是打开 Safari 或某个 App,直接问 Siri 就行。

而如果说前两个变化还停留在「界面」层面,第三个变化才是苹果最拿手的那套:系统级整合。

Ask Siri 的入口,将渗透进整个操作系统。比如选中一段文字、一封邮件、一张照片,点一下「Ask Siri」,就能直接进入对话窗口;键盘顶部还新增「用 Siri 撰写」入口,方便你随时调用写作工具。

尽管类似的功能在第三方 App 里早就有了,但苹果把它做进了系统层,每个内置 App 原生支持,无需跳转,无需复制粘贴。这种润物细无声的整合能力,依然是苹果最难被复制的护城河。

用 Google 的脑子,装苹果的壳

当然,要真正理解这套新 Siri 的价值,光看产品还不够。它背后藏着一段苹果不太愿意主动提起的历史。

如果将时间拨回 2024 年 6 月,苹果在那年的 WWDC 大会上端出了 Apple Intelligence,能读懂上下文、能看屏幕、能跨 App 操作,甚至能从你的邮件里翻出航班信息,回答「我该什么时候去接妈妈」。演示视频做得天花乱坠。

全场欢呼,媒体盛赞。然后,就没有然后了。

科技博主 John Gruber 后来回忆说,那些 Siri 演示全是概念视频,连受控环境下的真机演示都没有。换句话说,在苹果把它搬上 WWDC 舞台的那一刻,增强版 Siri 还远没有准备好。

兜兜转转,增强版 Siri 延期的症结只有一个:内部测试显示,Siri 只有 75%~80% 的时间能正常工作。用户语速稍快就会被打断,复杂查询反应迟缓,偶尔还会退回到 ChatGPT 集成。苹果对产品质量的执念,让它宁愿等,也不愿把一个半成品推给用户。

但这份执念也让苹果付出了真实的代价。

从去年至今,苹果 AI 团队数十名核心成员被竞争对手挖走。基础模型负责人庞若鸣被 Meta 以 2 亿美元签下,Siri 搜索项目负责人跳槽 Meta,关键研究员流失到 OpenAI、xAI、Cohere。

同期,库克做了一个重要决定:把软件工程主管 Craig Federighi 拉来接管 AI 部门,又安排 Vision Pro 团队核心人物 Mike Rockwell 来统管 Siri 团队。

一位以强执行力著称的高管,就这样接手了苹果最紧迫的项目。

但光换帅不够。苹果自研的基础模型只有 1500 亿参数,而要让 Siri 真正「听懂人话」,需要的推理能力远超这个量级。

于是苹果做出了一个务实但大胆的决定——和 Google 签了大约 10 亿美元的合作协议,引入 Gemini 模型。
Google 提供的定制版 Gemini 拥有 1.2 万亿参数,是苹果自研模型的 8 倍。新版 Siri 的诸多功能——摘要生成、任务规划、复杂推理——都将依赖 Google 的大脑。

对于一家恨不得连数据中心螺丝钉都自己造的公司来说,把核心 AI 能力交给竞争对手来提供,需要极大的战略定力。
但费德里吉选择了务实。因为留给苹果的时间窗口已经不多了——

智能眼镜 N50 等着 Siri 才能发售,带摄像头的 AirPods 等着 Siri 才有灵魂,那个可穿戴吊坠、智能家居中心、桌面机器人,全部在等 Siri 就位。

Siri 不是一个功能,它是苹果未来五年所有新硬件的操作系统。

所以苹果选择了先跑起来。而且并非毫无章法——按照协议,Gemini 模型将运行在苹果的「私有云计算」服务器上,用户数据不经过 Google。苹果借用技术,但牢牢握住隐私。

而且苹果的架构设计本身就是模块化的:端侧小模型处理简单任务和隐私敏感操作,云端大模型处理复杂推理。这种「插拔式」架构,让苹果可以随时更换背后的引擎,而用户无感知。

今天用 Gemini,明天自研模型追上了,换掉就是。

某种意义上,这不是妥协,是「先租一辆好车上路,同时造自己的引擎」。

50 岁的苹果,为什么值得期待

1976 年 4 月 1 日,乔布斯和沃兹尼亚克在车库里创立了苹果。

2026 年,苹果 50 岁。

过去 50 年里,苹果经历过被逐出、回归、濒临破产、iPod 救命、iPhone 封神、生态帝国成型的全部剧本。几乎每一个十年,都有一个「定义苹果」的产品:Mac、iPod、iPhone、Apple Watch。

而下一个十年,苹果押在了 AI Siri 上。

OpenAI CEO Sam Altman 曾在纽约的一场午餐会上直言不讳:「大家别盯着 Google 了,OpenAI 真正的宿敌,是苹果。」

在 Altman 看来,未来 AI 的主战场不在云端,而在终端。谁能率先打造出「AI 原生设备」,谁就能在下一个十年占据制高点。而苹果手握数亿 iPhone 用户、全球最成熟的硬件供应链,还有能力将 AI 深度整合进芯片和操作系统。

在所有科技公司里,苹果可能仍然是最有可能在 AI 时代赢的那个。

原因很简单,AI 的终极战场不是模型参数的大小,而是谁能把 AI 能力无缝交付到用户手里。苹果掌控着从芯片到操作系统到应用商店的完整链路,这是 Google 没有的,是 OpenAI 没有的,是 Meta 没有的。

当 AI 从「技术展示」进入「日常工具」的阶段,平台级整合能力比模型性能更重要。而 Craig Federighi 现在要做的,就是把这个潜力兑现。

独立 Siri App、全新界面、Ask Siri 入口、Spotlight 替代——先用产品层面的巨变,让用户感知到「苹果在动了」,再用 Google 的模型兜底能力,争取时间让自研模型追上来。

这是一次典型的苹果式操作:用产品化能力弥补技术差距,再用时间换空间。

他们一直擅长这个。iPhone 第一代也不是技术最强的手机,但它是体验最好的。Siri 这次也是一样——模型不一定是最强的,但如果界面足够好用、入口足够深入、和生态的融合足够丝滑,用户可能根本不在乎背后跑的是 Gemini 还是苹果自研。

值得一提的是,2011 年,乔布斯在生命的最后几个月,深度参与了 Siri 的收购和发布。他看到的不仅是一个语音助手,更是一个能从用户中不断学习、自我进化的 AI 系统。

乔布斯离开9年,重温其最经典毕业演讲:三个故事,值得一听

15 年后,Siri 终于有机会变成他当初想象的样子。

苹果内部那位负责 Siri 团队的高管 Robby Walker 在一次内部会议上说过一段话,大意是:

我们游了数百英里,已经创造了游泳距离的吉尼斯世界纪录,但我们仍然没有游到夏威夷。我们被激怒不是因为我们游得很棒,只是因为我们还没到达目的地。

50 岁的苹果,「正在拼命往夏威夷游」。

今年,它终于租了一艘快艇,方向也看清了。接下来就看它能不能在今年 WWDC 上,让全世界看到一个真正好用的 Siri。

这一次,我再次选择期待苹果交出的答卷。毕竟在所有可能把 AI 做进每个人口袋里的公司中,苹果手里的牌,依然是最好的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

是时候给 AI 一套配得上这个时代的中文了

作者 李超凡
2026年3月23日 15:42

2012 年,张一鸣给新公司取名,用了一个计算机术语做名字——字节。

这大概是中国科技公司里最让人服气的一个名字。两个字,有技术感,有力量感,认知成本几乎为零。你不需要懂计算机,只需要认中文,就知道「字节」说的是某种文字层面的基本单位。

干净、准确、过目不忘。能拿一个术语做公司名且毫无违和感,这本身就说明这个词翻译得有多好。

现在,「字节跳动」成了全球价值最高的独角兽公司。但要是问你:如果当年那家公司叫「存储单位跳动」,你还觉得那么自然吗?

别笑,这就是最近 AI 行业在发生的事。

别吵了,Token 最好的中文翻译一直在那儿

上周大家对于 Token 该翻译成生什么吵翻天「模元」「智元」「灵符」「令牌」「偷啃」……社交媒体隔段时间就会掀起一轮争论,每次都以各说各话收场。

这些候选词各有各的巧思,但放在一起看,你会发现:大家都在比谁更有灵气、更有意境,却没人先问一个最根本的问题——Token在技术上到底是什么?

它不是「智能」的单位,不是「模型」的单位,它是语言处理的最小单位。

其实在这场混战之前,答案早就在那里了。

「灵符」有东方赛博美感,但术语不需要意境,它需要精确。「智元」大气,但 Token是语言的处理单位,不是「智能」的单位,往上贴「智」字是贴错了标签。「令牌」最离谱,这是 Token在计算机安全领域的既有译法,特指身份验证凭证,拿来混用等于把银行卡和扑克牌叫同一个名字。「偷啃」这种音译就完全丧失了中文的优势了

在自然语言处理(NLP)学术文献里,Token 作为文本的最小处理单位,长期被译为「词元」。

词,指向语言属性;元,指向最小粒度。两个字,一个管归属,一个管层级

苹果用了这个译法。打开 Apple 中国官网,Apple Intelligence 的技术页写着「词元响应速度」。

要知道苹果的中文本地化团队是出了名的较真——AirDrop 叫「隔空投送」,Live Text 叫「实况文本」,每个词都是反复推敲的结果,目标只有一个:准确、简洁、有造词美感。

苹果选了「词元」,绝不是心血来潮。无独有偶,在央视新闻节目里,Token 同样被译作词元。

当苹果和央视不约而同选了同一个中文翻译,其实已经形成了事实标准的雏形,只是差更多人开口。

翻译界有句老话:好的翻译不是发明,是发现——发现那个本该如此的中文表达

APPSO 认为,词元是唯一一个同时满足信、达、雅三个标准的翻译。 它准确(信),一看就懂(达),有术语的凝练和古典感(雅)。

这场争论,其实没什么可吵的。

 

「提示词」, AI 时代最将就的翻译

Token 的问题可以收场了。Prompt 的问题,才刚刚开始。

目前业内通用叫法是「提示词」。三个字,好懂,传播也广——但说实话,这个词不够用,早就不够用了,只是没人较真去捅破这层窗户纸。

「提示词」的问题不在于它翻译错了,而在于它把「提示」把权力关系翻反了。

你写一段 system prompt,定义模型的人格边界,规定它只能做什么、不能做什么,指定输出格式和语气——这叫「提示」?这是在下令。

「提示」暗含的逻辑是:模型是主角,人在旁边小声提醒它一下。但真实的权力结构恰恰相反,是人在驱动模型。一个译名把主语关系弄反了,这就不只是措辞问题,是认知框架问题

「词」字还把格局说小了。 现在的 prompt 早就不是一两句话的事。Anthropic 内部的 system prompt 有几千字。企业级 RAG 应用里,一条 prompt 可能塞进了整本产品手册。用「词」来描述这个东西,就像用「便签」来形容一份合同——你也没说错,但你说小了。

而且你看像素、字节、词元,清一色两个字。两字词在中文里天然带有凝练感,是能进教科书、进国标文档的形态。「提示词」三个字,更像是技术社区里约定俗成的口语简称,不像一个严肃的技术命名。

好比当年把 byte 翻成「存储小段」、把 pixel 翻成「图像色点」,不是不能用,是将就。

「提示词」就是 AI 时代最将就的翻译之一

「文令」 Prompt

APPSO 的提议是:Prompt,应该翻译为「文令」

说理由之前,先说这个词怎么推敲出来的,过程本身就是最好的论据。

最初我们想到的是「句令」。句,成句的文字;令,命令、指令。古典美感十足,读起来也响亮有力。

但仔细想有个漏洞:「句」暗示 prompt 是「一句话」。现实中,prompt 可以是一个词,可以是三段话,可以是五千字的系统指令——「句」给了它一个不存在的边界限制。

如果换成「文」,这个问题就消失了。

一字,是文字。一句,是文句。一段,是文段。一篇,是文章。不管 prompt 长成什么样,「文」都接得住,没有边界焦虑。

于是定了, Prompt 就是文令

文——文字、文本、文章。Prompt 的载体永远是文字,不管是闲聊一句还是 Agent 编排指令,物理形态就是文。「文」不是修饰,是对 prompt 本质形态最直接的命名。

令——命令、指令。Prompt 的功能是驱动模型执行。写下一段文字,模型照着意图去生成、推理、行动。「令」精准地捕捉了这个动作——人在向模型发号施令。

文 = 它是什么(形态)。令 = 它做什么(功能)。

两个字,一个管形态,一个管功能,各司其职,合起来刚好是 prompt 的完整定义。

 

像素 · 字节 · 词元 · 文令,一条从机器通往人的路

把「文令」放进更大的坐标系里,会看到让人心跳漏半拍的东西:

  •  像素(pixel) → 眼睛看见的世界的最小单位
  • 字节(byte) → 机器存储的世界的最小单位
  • 词元(token) → 模型理解语言的最小单位
  • 文令(prompt) → 人类驱动模型的最小单位

四个词,同一套构词逻辑:载体属性 + 功能属性

像素——像(图像)+ 素(元素)。

字节——字(文字)+ 节(片段)。

词元——词(词语)+ 元(原始单位)。

文令——文(文字)+ 令(指令)。

像素离机器最近,文令离人最近。这背后有一条隐藏的一条进化时间线:从感知,到存储,到理解,到驱动——这是人类一步步将意图注入机器的完整进程

相反,如果把「提示词」放进这个坐标系就会格格不入,它描述的是功能,不是定位,和其他三个词不在同一个维度上,因为它的造词逻辑从一开始就跑偏了。

「人工智能」的遗憾,不要再来一次

当然有人会说,叫什么无所谓,大家看得懂就行。

多年前,大概也有人这么评价「像素」和「字节」。但今天,这两个词已经成了全民词汇。你妈妈可能不知道 pixel 的英文拼写,但她一定知道手机摄像头「五千万像素」。

好的术语翻译,是认知基础设施。 它决定了一个技术概念能不能从专业圈层穿透到大众理解。

AI 时代的术语翻译窗口不会一直开着。一旦某个词在社交媒体、教科书、产品说明里固化下来,就很难再改了。

现在还来得及。

你看「黑客」的负面含义在中文里就被彻底固化,结果我们不得不另造一个「白帽子」来打补丁。

「人工智能」这四个字本身也不够好——「人工」天然暗示「假的、模拟的」,但这个翻译已经彻底定型了,没有人有能力再改。「电脑」和「计算机」到今天还没统一,还要再吵多少年不知道。

所幸,Token、「提示词」还没有彻底固化。它还在微信群和自媒体里流通,但还没有被写进国标,没有被教科书锁死。现在提出「词元」「文令」,是成本最低、阻力最小的时候。

现在 「词元」(Token)已经被开始被写入工资单,成为薪酬福利一部分。再等两年,当「提示词」出现在高考题的阅读理解里、出现在劳动合同的岗位名称上,那时候再说就没用了。

APPSO 不想再经历一次「人工智能」式的遗憾,明明有更好的答案,只是没人在窗口还开着的时候大声说出来

词元、文令:请跟我们一起说

Token 就叫词元。词,定其形。元,定其根。

Prompt 就叫文令。文,定其意。令,定其魂。

这是 APPSO 的主张,也是 APPSO 的邀请

我们不是要定义术语。 术语由每一个在文章里写它、在发布会上说它、在课件里用它的人定义。我们做的事,只是在窗口关闭之前,把一个更好的选项摆上桌面。

像素让机器把画面给人看。

字节让数据在机器之间流动。

词元让模型读懂人类的语言。

文令让人类的意志驱动机器的智能。

下一次你打开那个对话框,写下你想让 AI 做的事——

你写下的每一个字,都是文令

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌