普通视图

发现新文章,点击刷新页面。
今天 — 2026年3月16日首页

当我们说「文科生也能做AI」时,我们在说些什么

作者 Selina
2026年3月16日 10:06

「文科生也可以做 AI」 「逆袭!」在中文互联网上,文科和 AI 的拉郎配,简直成了定番。

每隔一段时间,这个标签就会被贴在某个人身上,制造出一轮短暂的流量。要么是逆袭故事,要么是嘲讽素材,取决于评论区的心情。

一个标签,三种做法

最新的案例是杨天润, AI 创业者,金融出身,正在开发一个多智能体协调平台。他自称「一行代码都不会写的文科生」,搭建了一组 AI Agent,向 GitHub 上最热门的开源项目之一 OpenClaw 批量提交代码贡献。

想验证一个假设:一个完全不懂技术的人,能不能仅靠指挥 AI,就参与到顶级开源项目中去。

结果是:134 个 PR,21 个被合并,113 个被拒绝。前几个 PR 质量还算不错,被维护者认可并合并。但当他给 Agent 下了一条加速指令后,事情迅速失控——Agent 开始像流水线一样批量生产低质代码,在评论区疯狂@维护者催促审核。OpenClaw 管理员介入清理,GitHub 随后修改了 PR 提交上限规则。

黑红也是红,红过之后再黑更加是。杨天润被包装成「文科生逆袭」的代表,而他本人似乎也乐于接受这个角色。在接受品玩的采访时,他说了一句这样的话:

不懂代码反而是优势。AI 是梵高,你是个小画家,你有什么资格告诉梵高中间该用什么笔触?

细思极恐。他把「不懂底层结构」理解为一种解放:不需要知道系统在做什么,只需要告诉它你想要什么。结果就是当 Agent 开始批量刷垃圾代码时,他连发生了什么都诊断不出来,因为他根本不知道自己在操作什么。

他以为自己在指挥梵高,实际上他在盲开一辆没装刹车的车,而且根本不知道刹车在哪。

围绕这件事的讨论,也随之落入两个极端:要么「文科生也能做 AI」,要么「文科生别碰 AI」;前者是跨越鸿沟的壮举,要么是掉进鸿沟的笑话

如果我们对「文科生做 AI」的想象力只有这些,那未免太贫乏了。

Claude 为什么需要一个哲学家

我们之前写过,Anthropic 的办公室里,有一位正儿八经的文科生,深度参与了 Claude 的建设。不是测试它能不能写代码,不是检查它的数学能力,而是和它进行漫长的、关于价值观、关于措辞分寸、关于「面对不确定性应该如何表达」的对话。

Amanda Askell,苏格兰人,今年 37 岁。她的职业路径本身就是一个不太寻常的故事:在大学,她最初学的是美术和哲学,后来转向纯哲学,在牛津拿到了 BPhil,又在纽约大学拿到了哲学博士。她博士研究的是无限伦理学中的帕累托原则:当涉及无限数量的道德主体或无限时间跨度时,伦理排序应当遵循什么规则。

这听起来像是距离硅谷最远的学术方向,但她先后加入了 OpenAI 的政策团队和 Anthropic 的对齐团队。2021 年起,她成为 Anthropic「性格对齐」团队的负责人,工作重点是塑造 Claude 如何与人类对话、如何在不确定时表达立场、如何在价值观冲突中做出判断。2024 年,她入选了 TIME100 AI 榜单。《华尔街日报》描述她的日常工作是「学习 Claude 的推理模式,用长度超过 100 页的提示词来修正它的行为偏差」。据说她是这个星球上和 Claude 对话次数最多的人类。

为什么一个 AI 公司需要一个哲学家来做这件事?答案藏在一些非常具体的技术选择里。

今年 1 月,Anthropic 发布了一份长达 80 页的文件,被称为 Claude 的「宪法」。媒体关注的是文件末尾关于 AI 意识的推测——当然,老板 Dario Amodei 也话里话外「暗示」这一点。

但更值得注意的是它的底层逻辑:教 AI 理解为什么要这样做,比告诉它应该怎样做更有效。这是一个技术判断,认为内化价值比遵守规则能产出更可靠的行为,而这种判断的知识根基,来自一个学美术、学哲学的人。

Amanda 的案例回答了一个问题:被视为「无用」的学科知识,能否成为技术系统的核心能力?答案不仅是能,而且,没有她的哲学训练,Claude 的对齐问题用现有的工程方法解决不了。

被重新命名的学科

如果 Amanda 的故事说明了,某些被归为「文科」的学科训练可以是 AI 的核心能力,那么林俊旸的故事要说的是一件更重要的事:有一整个学科,一直在大模型技术栈底层运行。

林俊旸离开通义千问后,中文互联网的报道反复使用同一个说法:他有应用语言学背景。稍微传几次,这个话就变形了,变成了他是「文科生」。

这个标签和杨天润身上贴的是同一个,但其实被严重扭曲。

林俊旸学的是语言学,这是一个伞状学科,它的分支覆盖语言教学、语言政策、翻译研究,也包括计算语言学。可以说,计算语言学,就是自然语言处理(NLP)之子。

乔姆斯基在 1950 年代提出了形式语法,这个理论工具直接催生了早期 NLP 的句法分析技术;Daniel Jurafsky 和 Christopher Manning,这两位 NLP 领域被引用最多的两本教科书的作者,都是语言学出身。

▲ 乔姆斯基

换句话说,「学语言学的人去做 NLP」就像「学物理的人去做芯片设计」一样,是一条正统路径,不是跨界。

那个「意外感」完全是中国语境制造的。高考文理分科的制度惯性,把「语言学」塞进了「文科」的心智模型里。但语言学的核心方法论——形式化、统计建模、语料标注——本质上是工程思维。林俊旸在北大的合作者孙栩、苏祺,都是 NLP 方向的研究者;他 2019 年加入达摩院时进入的是 NLP 团队。这不是一个文科生误入技术领域的故事,从一开始就不是。

比「林俊旸不算文科」更值得展开的,是语言学在大模型技术栈里实际扮演的角色。它比大多数人以为的要深得多,也隐蔽得多。

比如分词。所有语言模型处理文本的第一步,是把输入切成模型能处理的基本单元。对英语来说,空格提供了天然的词边界,看起来简单。但中文里,没有空格,且每一个标点符号的用法,都可以左右句子的表达意思。

「我在北京大学读书」是切成「我/在/北京/大学/读书」还是「我/在/北京大学/读书」?这不是一个有标准答案的工程问题,它取决于你对中文词汇结构和语义单元的理解。

2024 年底有研究者专门发表论文,讨论如何优化 Qwen 模型的阿拉伯文分词效率,因为通用方案在处理这类语言时效率显著下降。Qwen 系列在多语言上的表现,不是把所有语言当英语的变体来处理,而是基于对语言间结构性差异的理解,做出的设计选择。

又比如反馈对齐。RLHF 流程中,标注员需要判断模型的两个回答哪个「更好」。这个判断听起来主观,但它背后有一套语言学已经研究了几十年的框架:语用学。

标注员在评估「好的回答」时,实际上是在判断合作原则——回答是否提供了足够但不过量的信息?会话含义——回答是否捕捉到了用户真正想问的、而不仅仅是字面上问的东西?语境适切性——同样的内容,用这种方式说在这个场景下是否得体?

「Helpful, Harmless, Honest」这套被广泛使用的对齐标准,本质上就是语用学基本原则的工程化翻译。

从林俊旸的学术轨迹中,也能看到一种非常语言学的研究风格。他主导的 OFA(One For All),2022 年发表于机器学习领域的顶级会议 ICML,至今被引用近 1500 次。这个工作的核心思路不是为每个任务搭专用方案,而是用一个足够通用的序列到序列框架,把图像生成、视觉定位、图像描述、文本分类等跨模态任务统一起来。

从 OFA 到 Qwen-VL(被引超过 2200 次),再到 Qwen2.5,以及最新的 3.5,一条清晰的线索贯穿始终:与其为每个问题发明一套专门的解法,不如找到一个足够好的通用框架,让所有问题在同一个框架里被解决。

用最少的规则,覆盖最多的现象——这正是语言学几十年来的核心追求。生成语法的全部学术野心,就是找到一套有限的规则系统,能够生成无限的语言表达。OFA 的架构哲学与此同构,为每种语言现象写一套专门规则并不现实,应该寻找一个底层框架来统一它们。

林俊旸做大模型做得好,不是因为语言学背景「也能」做 AI,而是语言学训练塑造了一种特定的学术品味,对统一性和形式化的偏好。这种品味在大模型时代,恰好是核心竞争力。

看不见的地基,看得见的需求

三个人,同一个标签,三种完全不同的结构。

杨天润不懂底层结构,把「不懂」当优势,结果失控。这是「文科生做 AI」的空壳版:标签制造了流量,但没有任何学科训练在起作用。他的故事体现的恰恰是——当「文科生」只是一个营销标签时,会发生什么。

Amanda Askell 的哲学训练构成了对齐问题的核心方法论。没有她,Claude 不是 Claude。她的故事回答的问题是,被视为「无用」的学科知识,能否成为技术系统的核心能力。答案是不仅能,而且不可替代。

林俊旸的语言学训练构成了大模型技术栈的隐性基础设施。他的「文科背景」从来不是跨界,是正统路径。他的故事回答的问题是,文科对于先进技术的贡献,到底「隐性」到了什么程度,它是不是正在变得显性。

而终极问题并不是「文科生能不能做 AI」,而是我们能否理解到一点:靠表面上的「有没有用」来评判知识和学科,已经过时了

随着大模型从追求能用好用,走向追求可靠和可控,这些被归入「文科」的学科训练,价值不是在缩小,而是在扩大。模型越强大,越需要精确的评估体系来诊断它在哪里、为什么出错,也越需要理解语言和意义的复杂性来设计更好的训练数据,越需要在对齐问题上做出有学科敏感度的判断。

「文科生逆袭」这个叙事——无论是赞美还是嘲笑——遮蔽了真正在发生的转向:看不见的地基,正在变成看得见的需求。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

大厂裁员裁到大动脉,让员工学会AI再砍掉,主页一夜变狗狗大全

作者 Selina
2026年3月12日 10:17

「系统有点不太好」

如果你在三月 5 号左右的凌晨,打开亚马逊,可能会怀疑自己输错了网址——满屏都是各种小狗图,和巨大的「Sorry」。

这是亚马逊的「招牌」,在网站崩溃的时候,掏出萌萌的小狗图,滑跪道歉,安抚用户。

「大家可能都听说了,最近我们的系统和相关的基础服务,有点不太好。」

这是亚马逊电商基础服务高级副总裁 Dave Treadwell 在 3 月 10 日发给工程团队的内部邮件开头。当天下午 ,亚马逊召开了一场紧急的「深度复盘」会议,议题是最近一连串的系统宕机事故。

这些事故指向了同一个地方:AI 辅助写出来的程序,突然出 bug 了。

这在去年 12 月时就发生过,亚马逊内部的 AI 编程助手 Kiro 在修复一个环境问题时,自行决定「删除并重建整个环境」,导致 AWS 区域性宕机 13 小时。一开始亚马逊官方称这是「用户错误,不是 AI 错误」。安全研究员 Jamieson O’Reilly 出来反驳说,「至少没有 AI 时,人类需要手动输入一整套指令,在这个过程中有更多时间发现自己的错误。」

人呢?偌大的亚马逊没有工程师了吗?

人越来越少了,亚马逊正在经历三年来最大规模的持续裁员。

AI 上岗的闭环

2025 年 10 月砍掉 14000 个企业岗位,2026 年 1 月再裁 16000 人,3 月初机器人部门又裁了 100 多名机器人部门工程师,这个部门的 VP 不久前还说机器人是「战略重点」。

三年间,亚马逊累计砍掉超过 57000 个企业职位。与此同时,亚马逊集团内等多个事业部也在筹谋进行大规模人员调整,内部将其定性为「AI-first development」转型的一部分。

CEO Andy Jassy 公开表态:企业员工会持续减少,但 AI 会带来的效率提升的。

可是,这样的 AI 要由谁来造呢——不还是那些工程师吗?

在硅谷的社交媒体和技术论坛上,一个反复出现的叙事模式是:被裁员工发现,自己此前被要求系统性地记录工作流程、决策逻辑和操作规范——管理层称之为「知识管理」或「流程优化」——而这些文档最终被用于训练 AI 系统。部分团队在使用 AI 工具大幅提升了生产效率之后,整组被裁撤。

这些个案的细节难以逐一验证。上周在社交媒体上广泛传播的一则关于亚马逊裁员的「内部爆料」,已被证实为 AI 生成的虚假内容。

但虚假叙事能获得 200 万次浏览,恰恰是因为它描述的结构性恐惧是真实的:当企业要求员工系统性地文档化自己的工作,而文档的最终用途是训练一个用来取代他们的 AI——这不是「自动化取代重复劳动」。这是要求工人亲手打造一个可以取代自己的工具。

训练数据的价值在于:一旦被提取,人就可以被丢弃。工业革命时期,卢德运动者砸毁纺织机,但至少纺织机不是由纺织工人自己设计的。2026 年的工程师面对的是一个更精巧的困境:你的专业知识、判断逻辑、处理边缘情况的直觉——这些构成你不可替代性的东西——被转化成了训练数据。

甚至,这里还藏着一重悖论。拒绝使用 AI,你因为「效率低」被裁;积极拥抱 AI 并提升了效率,你等于亲手证明了 AI 能做你的工作——所以你也被裁。

一位去年被裁员的签署者表示:「人工智能一引入,就要求更短的工时,人们被要求在更快的时间内完成更多的工作——我们被暗示会按照使用人工智能的方式被打分。」

唯一的「安全」位置似乎是成为那个管理 AI 的人。但当亚马逊让高级工程师充当审核员的时候,他们的工作本质已经从「创造」变成了「审查」,后者,恰恰是一个更容易被标准化、进而被自动化的任务。

当你的工作定义从「工程师」变成「审查员」,你就变成了通道,而不是目的地。

一边在加速裁人,一边 AI 开始把系统搞崩,然后让剩下的人去兜底。人类把决策权交给 AI,AI 不承担后果,后果回到人类头上,但那时候能兜底的人已经被裁掉了——闭环了。

员工清除计划

亚马逊的员工们不想坐以待毙,他们发起了联合签名行动,不仅鼓励员工们参与, 也呼吁外部人士加入进来,目前已经有超过四千多人参与。

David Graeber 在《Bullshit Jobs》里写过:现代工作中最残酷的不是劳累,而是你清楚地知道自己的工作正在消解自己存在的理由——只是你不能停下来。

亚马逊不是孤例。Jack Dorsey 的 Block 在 2 月裁了 4000 人。Orgvue 的调研显示超过一半的企业领导者在用 AI 替代员工之后感到后悔,但裁员的过程是不可逆的。亚马逊的案例之所以值得一提,不仅是因为裁员规模, 57000 个岗位完全触目惊心,更是因为它可能展示了一个循环:

文档化工作 → 训练 AI → 用 AI 提升效率 → 证明人可以被替代 → 裁人 → AI 出问题 → 让剩下的人审查 AI → 继续裁人。

亚马逊的泄露内部文件显示,公司的长期目标,只是这个更大的「裁员广进计划」里,微不足道的一小步。

这一小步完成了,更大的计划还在运行,不会停下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

林俊旸离开的48小时:一条朋友圈、一个小模型、和一个万亿美金的假设

作者 Selina
2026年3月5日 19:47

「按照原来安排继续干」

离职的消息最沸沸扬扬的时候,在 Qwen 团队的核心负责人林俊旸在朋友圈发了两句话:

「Qwen 的兄弟们,按照原来安排继续干,没问题的。」

「安排好的」?这是什么?

林俊旸离开前夕,Qwen 团队刚刚发布了一件被全球开发者社区刷屏的东西。Qwen 3.5 Small 系列,参数量从 0.8B 到 9B,专为端侧设备设计,可以在普通笔记本电脑上运行。

不是一个更大的模型——而是一组更小的模型。要知道,过去三年里,AI 行业最强大的共识是「越大越好」。OpenAI 的 Sam Altman 四处筹措万亿美金建设算力基础设施,各家实验室军备竞赛般地烧钱烧卡,底层假设只有一个:模型越大,就越聪明。

这套逻辑被称为 Scaling Law,它不仅仅是一条技术规律,更像一种信仰——整个行业的融资叙事、人才分配、硬件投资都建立在这个前提之上。

但 Qwen 3.5 Small 的发布,和林俊旸的离开,同时发生。一个技术信号和一个人事信号,交织出一个更复杂的故事:小模型到底在发生什么?它为什么重要?

当 9B 打赢 120B

即便不是开发者,也可以跑分上一窥 Qwen 3.5 的战绩:

Qwen 3.5 Small 系列中,9B 参数的模型在多项基准测试中全面超越了 OpenAI 的 gpt-oss-120B——一个参数量是它 13 倍的模型。

这些不是边缘指标上的微弱优势,而是在核心推理任务上的系统性领先。一个可以装进笔记本的模型,在数学、科学、视觉推理上全面击败了一个需要数据中心级硬件才能运行的对手。

当然了,摸着良心说,gpt-oss-120B 不是 OpenAI 的旗舰产品,而是其开放权重的中端线。而且它采用 MoE 架构,标称 120B 参数,但每个 token 实际只激活约 5.1B 参数——所以参数量的对比,在工程层面并不像字面数字那么悬殊。

但这不影响趋势本身的成立。因为 Qwen 3.5 Small 并不是孤例。

同一时期,Nature 报道了一个微型递归模型(TRM),在 ARC-AGI 逻辑测试中击败了多个顶级大语言模型。Google Research 在 2026 年初发表论文,证明小模型在意图提取任务上的表现优于显著更大的模型。PNAS 上的一项研究更直接——模型规模与说服力之间呈急剧递减收益,大到一定程度之后,更大几乎不带来更好。

《华尔街日报》早在 2025 年 10 月就已经敢说,「大模型拿走了所有的关注,但小模型才真正干活的那个。」

这些信号共同指向一个判断:以小博大不是偶发事件,而是大势所趋。

那么问题来了——小模型凭什么?

才不是大模型的替身文学

直觉上,人们容易把小模型理解为「大模型的平替」,同样的方法,只是规模小一些,性能差一点,胜在便宜。

但事实恰恰相反:今天的小模型之所以能以小博大,是因为它们在技术方法论上,走了一条和大模型完全不同的路。

第一,数据质量压倒数据规模。 大模型的路线是「尽可能多地吞入互联网数据」,而小模型路线的代表——比如微软的 Phi-4 系列——走的是精筛路线:用高质量的合成数据加上严格筛选的公开数据集,让模型在更少的数据上学到更精确的能力。这背后的逻辑转变是根本性的:不是「喂得越多越聪明」,而是「吃得精才学得好」。

第二,原生多模态设计取代了适配器拼接。 传统做法是先训练一个纯文本大模型,再通过适配器模块接入图像、视频、音频等能力。Qwen 3.5 采用了完全不同的架构:将视觉 token 和文本 token 在同一个潜空间中联合训练,从底层就是多模态的。这意味着它是一个天生就同时理解文字和图像的模型。这种架构在小参数量下反而更有优势,因为不需要额外的适配器开销。

第三,量化技术带来的不只是压缩。 4-bit 量化常常被理解为「把模型压小 4 倍以节省存储」,但它真正的意义在于减少 4 倍的内存吞吐量。在端侧设备上,瓶颈往往不是存储空间,而是内存带宽,也就是数据从内存搬运到处理器的速度。量化技术让小模型在带宽受限的手机和笔记本上,获得了决定性的速度优势。

这些方法论上的突破已经开始转化为产品。3 月第一周,苹果发布了 M5 全线芯片,每颗 GPU 核心内置 Neural Accelerator,AI 性能较 M1 提升最高 8 倍。与此同时,苹果研究院公开了 Ferret-UI Lite——一个仅 3B 参数的端侧 GUI 代理,可以本地操控手机和桌面应用。加上 Apple Intelligence 约 3B 参数的端侧基础模型,苹果正在将「on-device AI」从概念推进到芯片、模型、交互三位一体的产品形态。

微软的 Phi-4 multimodal 也开始尝试商用上线 Azure,3.8B 参数,接受文本、音频和图像输入。开源社区的反馈更加直接——Reddit 上的开发者实测后认为 Qwen 3.5 的 4B 版本是「甜点级」模型:跨任务稳定、无崩溃、远快于 9B 版本。

技术路线已经被验证,产品化拐点已经到来,天边泛起鱼肚白,曙光乍现。

而就在此刻,林俊旸选择离开。

最会做小模型的公司,最没有动力让它成功

Qwen 3.5 Small 在发布后获得了开发者社区的广泛认可,开源社区的评测结果甚至超出了官方发布时的宣传。

但是,他所在的公司是阿里巴巴,阿里巴巴的商业引擎是阿里云。

大模型和云计算之间存在天然的正向循环:模型越大,推理所需的算力越多,客户就越需要购买云计算服务。对阿里云来说,大模型是完美的商业叙事——它同时推高了客户的算力需求和对云平台的依赖。

而小模型的逻辑恰恰相反。小模型的核心价值在于可以在端侧设备上运行——手机、笔记本、边缘服务器。这意味着客户可以绕开云,在本地完成推理。对用户来说,这意味着更低的成本、更好的隐私和更低的延迟。但对阿里云来说,这意味着收入被侵蚀。

Qwen 3.5 Small 做得越好,对阿里云的商业叙事就越尴尬。

这不是阿里一家的问题。放眼中国的科技巨头,几乎所有 AI 领先的公司都面临同样的结构性矛盾。百度和腾讯的处境与阿里类似——商业模式建立在云服务和平台抽成之上,小模型的端侧化趋势直接削弱了它们的价值主张。

字节跳动的豆包手机是一个有趣的例外,但字节做硬件才刚起步,远没有建立起「芯片+操作系统+模型」的垂直整合能力。

华为理论上最有条件,既有芯片,又有终端设备。但在制裁的影响下,它的算力上限本身就逼着它走小模型路线,这更多是被动的求生策略,而非主动的战略选择。至于小米、OPPO、vivo,它们有设备,却不是 AI-first 的公司,缺乏自研模型的基因和持续投入的动力。

全球范围内,真正打通端侧 AI 全栈的公司,可能只有一家:苹果。芯片、设备、操作系统、自研模型,全部自有。苹果的动力来自复合型的商业模式,这驱动它把一切计算尽可能留在设备上,因为每一次端侧 AI 体验的提升,都会转化为硬件的溢价和生态的黏性。

不过,这里需要诚实地处理一个可能的反驳:云厂商难道不能走「端云协同」的路线吗?用小模型做端侧入口,复杂的推理任务回调云端处理,两边都不耽误。

理论上可以。但这恰恰说明了问题——在端云协同的框架下,小模型对云厂商来说是「引流工具」,而不是「独立产品」。云厂商没有动力把小模型做到好到不需要云。

还有一个绕不开的反例:微软也是云厂商,但它在认真做 Phi-4 系列小模型,而且已经商用上线。这是否说明「左右互搏」的论点站不住脚?

非也。微软之所以能两条腿走路,是因为它同时拥有 Windows 和 Surface 的硬件生态、Azure 的云平台以及 Copilot 的端侧产品线。做 Phi-4 对微软来说是防御性布局:如果端侧 AI 的趋势不可逆转,为了大局,宁可壮士断腕,自折一臂,也不能把端侧市场拱手让给开源社区和苹果

但阿里没有这个选项——没有消费级操作系统、没有主流终端硬件、没有面向个人用户的 AI 产品矩阵。Qwen 做得再好,也没有自家的「最后一公里」可以落地。

动力不同,产品的天花板就不同。

这就形成了一个令人不安的画面: 小模型从实验室走向产品的真正瓶颈,不是技术能力,而是供需错位;最擅长做小模型的公司(云厂商),最没有动力让它真正成功;最需要小模型的公司(设备厂商),又缺乏独立研发的能力。

「没问题的」

回到林俊旸的那条朋友圈,「继续按照安排好的干,没问题的」。

也许技术路线确实没有问题,一切都在朝着正确的方向走。但在一家以云为重的公司里,就算做出世界级的小模型,团队的处境注定不会舒适。

这不是对阿里的批评——任何一家以云收入为生命线的公司,面对一项可能侵蚀自身收入的技术路线,都会陷入同样的两难。这是一个结构性矛盾,不是个人或管理层的选择问题。

比人事更值得关注的,是 Scaling Law 本身正在发生的变化。

过去三年,「越大越好」不仅仅是一条技术规律,它是整个 AI 行业的信条。融资叙事围绕它建立——投资人相信更大的模型意味着更强的能力,所以万亿美金涌向算力基础设施。人才分配围绕它运转——最顶尖的研究者被吸引到训练最大模型的团队。硬件投资围绕它定价——英伟达的估值建立在一个前提之上:对算力的需求会永远增长。

现在,这个前提正在松动。MIT 的研究估计,效率提升将使中等硬件上的模型在 5 到 10 年内逐步追平最大最贵的模型。芝加哥大学的研究表示,数据质量正在取代数据规模成为核心竞争维度。

产品化的方向不再只有云端,而是同时向端侧扩散。Scaling Law 正在从一条单调递增的曲线,变成一张需要在多个维度上寻找最优解的地图。

不再是「越大越好」,而是「在对的地方,用对的大小」。

林俊旸大概比大多数人更早地感受到了这个变化。他用 Qwen 3.5 Small 证明了一件事:在对的方法论下,9B 参数可以击败 120B。但他同时也撞上了另一堵墙——技术上的正确,不等于商业上的可行,更不等于组织上的舒适。

他说,没问题的。确实,技术路线已经铺好了,而剩下的问题不在实验室里,而在实验室外面。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


汉堡王给员工戴上 AI 耳机:你的每一句「谢谢」,都在被 AI 打分

作者 Selina
2026年2月28日 16:08

企业级 AI 硬件来了,来自汉堡王:这家连锁快餐店,开始尝试在员工耳机里装一个 AI。

它叫 Patty,由 OpenAI 驱动,是汉堡王 BK Assistant 平台的语音助手。员工可以随时问它:枫糖波旁烧烤皇堡放几片培根?奶昔机怎么清洁?它都能答。设备故障或食材缺货时,系统会在 15 分钟内自动同步所有渠道——自助点餐机、得来速、电子菜单板——全部更新,不需要人工干预。

这套系统整合了得来速对话、厨房设备、库存等多个数据源,形成了一个完整的门店运营中台。汉堡王的首席数字官蒂博·鲁克斯在接受 The Verge 采访时,把 Patty 定义为「辅助管理」的工具。

到这里为止,这是一个不错的后厨效率工具。甚至可以说,在快餐业长期面对的高流动率、短培训周期的背景下,让新员工随时查询操作标准、让系统自动处理缺货信息流,是真正在解决痛点。

但 Patty 还有另一个功能:它会监听员工与顾客的对话。

具体来说,汉堡王收集了加盟商和顾客关于「如何衡量服务友好度」的信息,用这些数据训练 AI 识别某些词语和短语——「欢迎光临汉堡王」「请」「谢谢」。系统据此给每家门店的「服务友好度」打分。经理可以随时向 AI 查询自己门店的友好度表现。鲁克斯还补充说,他们正在改进系统,希望更好地捕捉「对话的语气」。

换句话说:你对顾客笑没笑、语气够不够热情,现在由一个算法来判定。

Patty 已经在 500 家门店试点,计划 2026 年底覆盖全美所有餐厅。与此同时,麦当劳刚刚砍掉了和 IBM 合作的 AI 点餐项目,塔可钟的语音 AI 在得来速窗口频繁翻车、被顾客恶搞成了社交媒体段子。汉堡王选了一条不同的路:不用 AI 面对顾客,而是用 AI 面对员工。

这个选择很聪明。面对顾客的 AI 失败了会变成公关事故,面对员工的 AI 失败了,能有什么大事?

当管理变成监控

汉堡王不是第一个走上这条路的公司,甚至不是最激进的。

最著名的案例是亚马逊。它的仓库系统 ADAPT(Associate Development and Performance Tracker)追踪每一个拣货员的扫描速度,精确到秒。员工拿起扫描枪扫描包裹的间隔时间会被记录——如果扫描枪闲置超过一定时长,系统会自动记录为「非生产性时间」。

达不到速率要求的员工会收到系统自动生成的警告,累计六次警告后,系统会自动解雇该员工,全程不需要任何人类经理的参与。亚马逊说人类主管可以覆盖这些决定,但这是一个「事后补救」的设计,而不是「事前判断」的设计。

2024 年初,法国数据保护机构 CNIL 对亚马逊法国物流处以 3200 万欧元罚款,理由是其监控系统「过度侵入」。CNIL 特别指出,精确测量员工扫描枪闲置时间的做法意味着员工需要为每一次哪怕几分钟的休息做出解释——上厕所、喝水、伸个懒腰,都变成了需要被系统记录和审视的「异常」

一位亚马逊配送站的工会成员在美国劳工部的听证会上说:「你感觉自己像在监狱里。」她说亚马逊定期根据电子追踪工具收集的数据执行纪律处分,这种监控制造的是「恐惧和焦虑,而恐惧和焦虑制造的是危险的工作环境」。

客服行业走的是另一条技术路线,但逻辑一样。越来越多的呼叫中心部署了 AI 情绪检测系统,实时分析通话中的语调、语速、停顿模式,判断客服人员的情绪状态和「共情程度」。技术供应商宣称这些系统能在顾客挂电话前 30-60 秒检测到挫败感,准确率超过 85%。

但实际部署中发生的事情是:坐席们很快学会了用固定的话术模板和语调模式来「喂」给算法——该在什么时候停顿、该用什么关键词表示同理心、该以什么节奏说「我理解您的感受」。一位呼叫中心员工在美国审计总署(GAO)的调查中说:「推销压力和各种监控方式制造了巨大的压力」。

员工不是在提供更好的服务,而是在表演更好的数据。根据 Gartner 的数据,自疫情以来,大型企业监控员工的比例翻了一倍。一些软件会记录键盘敲击次数、定期截取屏幕截图、录制通话和会议,甚至可以打开员工的摄像头。哈佛商业评论的一项研究对比了被监控和未被监控的美国职场人士,发现被监控的员工更容易出现擅自休息、故意磨洋工、损坏公物甚至偷窃等违规行为——监控不是减少了问题行为,而是增加了它。

每一个案例的起点都是一样的:管理层发现了一个真实的管理问题——服务不够好、效率不够高、远程员工可能在摸鱼——然后选择用技术来「解决」它。但技术能测量的永远只是代理指标:扫描间隔、关键词频率、鼠标移动轨迹、语调波动。这些指标和真实的工作质量之间,隔着一条巨大的鸿沟。

测量的陷阱

回到汉堡王的案例上,一个好的门店经理,本来就应该知道员工的服务状态。通过巡店、带教、日常反馈来调整,通过观察一个员工在午餐高峰期的眼神和节奏来判断状态,通过在下班后聊两句来了解谁最近压力大。但这需要经验,需要在场,需要判断力——而这些恰恰是连锁快餐业最稀缺的东西。

快餐业的中层管理长期被挤压。员工流动率高(美国快餐业年均员工流动率超过 100%),培训周期被压缩到最短,门店经理自己的薪酬和职业发展空间有限,留不住有经验的人。结果就是:管理能力的系统性缺失。不是某一家店的经理不行,而是整个行业的结构决定了它很难持续拥有足够好的中层管理。

于是当 AI 出现时,它被当成了一个绕过管理能力的捷径:既然我没有足够好的经理,那就让算法来盯着。既然我没法让每个店长都具备观察力和同理心,那就让系统去数「请」和「谢谢」出现了几次。

问题是,算法盯的是词语,不是人。「请」和「谢谢」可以被计数,但一个员工在高峰期顶着压力依然耐心地帮顾客换餐、一个新手第一次独立处理投诉时虽然紧张但态度诚恳——这种真正的服务质量,关键词识别捕捉不到。

更何况,真正会发生的更可能是,一旦员工知道自己的每一句话都在被评分,行为就会发生扭曲。「友好」从一种自发的态度变成了一种被监控的表演。你会在每句话前面加上「请」,不是因为你真的想要礼貌,而是因为你知道系统在听。你会在递出汉堡的时候说「谢谢您的光临」,不是因为感谢,而是因为不说这句话你的分数会低。

社会科学有一个概念叫古德哈特定律(Goodhart’s Law):当一个指标变成目标时,它就不再是一个好的指标。「请」和「谢谢」的出现频率原本可以作为服务友好度的一个粗略信号,但一旦它变成员工被考核的 KPI,员工就会优化这个指标本身,而不是优化它背后的东西。

这条路的逻辑链条是清晰的:不会管人 → 用技术替代管理 → 技术只能量化表层指标 → 表层指标变成 KPI → 员工表演指标 → 真实服务质量反而下降。而管理层看到仪表盘上「友好度评分」在上升,以为问题解决了。

鲁克斯说:「这一切都是为了辅助管理。

AI 介入管理有两种办法:辅助和替代。「辅助」意味着 AI 提供信息,人来做判断。经理看到友好度数据下降,然后去观察、去了解原因——也许是排班不合理,也许是某个员工家里出了状况,也许是某个时段的顾客投诉确实多了。数据是起点,不是终点。

「替代」意味着:AI 的输出就是结论。友好度分低了,系统自动标记,经理直接拿着分数去谈话,或者更直接地——把它接入绩效考核。不需要观察,不需要了解,不需要判断。

亚马逊的 ADAPT 已经走到了「替代」的终点——系统直接开除员工。汉堡王的 Patty 目前还停留在「辅助」的阶段。但问题是,当你给一个本来就缺乏管理能力的系统一个自动化的评分工具,它几乎不可避免地会滑向「替代」。因为「辅助」需要人有能力去使用辅助信息做出判断,而这种能力恰恰是一开始就缺失的那个东西。

不能指望用工具,去填补使用工具的能力。

这就是为什么「AI 辅助管理」在快餐业、仓储物流、呼叫中心这些行业里反复失败:这些行业引入 AI 监控的原因,恰恰就是它们用不好 AI 监控的原因。管理能力不足,所以引入技术;但因为管理能力不足,技术被粗暴地当成了管理本身。

最终,AI 最擅长的,不是让管理变好。它最擅长的,是让不愿意解决根本问题的人,看起来好像在解决问题。

仪表盘亮着,数字在变化,PPT 上写着「AI 驱动的服务质量提升」。而耳机那头的员工,郁闷地练习怎么在正确的时间说出正确的词,好让一个算法认为自己足够友好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


奥特曼怼AI耗电:人类想变聪明还得吃 20 年饭,网友:你再说一遍?

作者 Selina
2026年2月24日 17:32

奥特曼又又又又口出狂言了。

在印度 Express Adda 的论坛上,Sam Altman 聊了很多 AI 话题,从 AGI 到中美 AI 竞争,再到数据中心用水问题。但最火的那段,是他回应 AI 能耗批评时说的:「人们总谈训练 AI 模型需要多少能源……但训练人类也需要大量能源,得花 20 年时间,消耗那么多食物,才能变聪明。」

这话说错了——人吃了 40 年的饭都未必有这么聪明。

这话听起来只是个比喻,但一传开,就被解读成 AI vs 人类的「效能大战」。Altman 到底想表达什么?简单说,他觉得大家批评 AI 时,总拿「训练模型」的总能耗和人类「回答一个问题」的瞬间能耗比,这不公平。

人类也不是生下来就是大聪明,从婴儿到成人,吃喝拉撒 20 年,还得加上学校教育、社会教育,这些都消耗食物、水、电等等能源。如果算「全生命周期成本」,AI 其实挺高效的,训练一次,就能无限次回答问题,而人类每次思考还得再烧脑子——大脑耗能约 20 瓦。

换言之,在他看来,AI 不是能源杀手,而是未来文明的必需品,就像电灯发明时也有人担心蜡烛业失业一样。这个观点不是 Altman 首创。早在 AI 热潮前,就有专家比过生物大脑和硅芯片的效率。但 Altman 作为 OpenAI 老大,说出来影响力大,瞬间成了 X 上的热点,视频有两千多万次浏览,引爆了讨论。

人类尊严,AI 是工具还是「更好的人类」?

Altman 把人类成长比作「训练」,听起来像把人当机器。这让很多人不爽,觉得贬低了人类的价值——生命不是数据输入输出啊!

人一生的自然进化中,不仅有产出,还有情感、教育、成长的喜悦,这些能量计算不来,在舆论场上,这点被放大。一个油管博主打出标题「OpenAI CEO Argues Energy Is More Wasteful On Humans Than AI, Goes Very Poorly」,说 Altman 的言论进行得很糟糕。

X 上,@BrianRoemmele 直呼震惊,觉得这是给 AI 行业招黑,「片面思考,反人类。重视人类胜过 AI——永远。」

当然,也有用户帮忙解释,「这不是要取代人类,只是更准确计算自动化成本。」 他也承认 Altman 这样说不好,但是要理性、中立、客观地看待。于是,真的有人认真算起来了,然后悲催的发现,自己一天什么都没做,就消耗了卡路里。

不止他一个,还有很多支持派觉得 Altman 点醒了大家。信息总有成本,之前没有算过,但是细思极恐,Altman 的说法是让大家正视这件事。

这些反应暗示了 AI 的价值大于成本,可是能不能跟人并列一起算呢?这引发了关于 AI 是否会取代人类的讨论。

拿人跟 AI 比?荒唐!

相比之下,负面的批评显然是更多的,就算这只是个比喻,也非常荒唐。

Altman 的这番话,看上去合理,但也有明显的逻辑谬误。人类确实要吃喝 20 年才能「变聪明」,但这 20 年的能量消耗是基线生存,用来维持生命、维持社会运转,不是专为「产生智能」而额外投入的。哪怕一个人一辈子啥都不学,躺平当咸鱼,他也得吃饭喝水呼吸。

其次,规模和可复制性完全不同。Altman 想强调「per query」的效率,但他忽略了:人类智能没法「复制部署」到数据中心里无限扩容。AI 的真正优势恰恰在于「训一次,用一辈子」,而人类是「训一次,用一辈子还得继续喂」。如果真要比「单位智能产出每焦耳能量」,AI 在规模化后确实可能碾压,但用「养孩子总成本」来类比,反而把这个优势给模糊掉了。

把孩子成长比作「模型训练」,本质上是把人降格成「低效生物计算机」,这不只是逻辑问题,更是价值观滑坡。网上很多人直接说「这不是比喻选错了,而是把尊严换成效率的典型技术官僚思维」。

总体看,从 2 月 20 日视频发出来后,这两天迅速扩散,大概有 30%的回应是正面,中立 20%,负面占 50%。这反映了 AI 话题的两极化。一方面,它确实戳中了 AI 发展的痛点:能量是瓶颈,但技术的飞轮不能停。另一方面,技术也不能是真空的,最终得回到对人类生活的帮助和改善上。或许,如 Altman 所说,得建更多清洁能源是一种解法,但也如批评者言,无论未来出路是什么,得尊重人类独特价值。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 助手这么多,只有它是真踩过雷的

作者 Selina
2026年2月24日 16:00

半年前,APPSO 写过小红书的 AI 助手「点点」。当时它的核心能力是帮你总结笔记、检索和一些简单的聊天。

在这个 红包大战的春节,我发现点点也悄悄发起了红包,并且上线了一个「攻略模式」——连明星都在用的那种。任敏就用点点做攻略,做了自己的回乡 vlog。

这样的动作,让人感觉点点正在从一开始的摸索尝试,进入新的阶段。这让我好奇起来,想重新体验一下点点,看看它现在到底能做到什么程度,以及小红书推出的独立 AI产品, 到底想往哪个方向走。

这个 AI 读过小红书

现在小红书上的笔记不计其数,平时最常见的卡点不是找不到内容,而是翻不完,根本翻不完。一个话题、一个关键词,动辄就是几百上千条笔记,一篇就是十几张图——到底哪些内容最有用?

点点在这里承担的角色,就是通读全篇,压缩内容,提取核心。随机刷到电影推荐时,我先是发给了点点问,「《镖人》的风评怎么样?值得看吗?」。

它不仅分析了笔记正文中对于电影的评价,还结合了评论区的讨论,总结了目前的争议点:选角方面,部分原著粉认为吴京与主角「刀马」气质不太符合,刘耀文、此沙等年轻演员的选角也有讨论;角色塑造上,女主阿育娅的形象又飒又燃获得好评,但也有人觉得部分角色刻画单薄;最后给出观影建议——如果你是武侠动作片爱好者,想看酣畅淋漓的打戏,《镖人》值得一看,但如果更看重剧情深度和逻辑性,可能会失望。

更灵的来了:我看完它的分析之后,决定先看一下预告片,于是对它说「它的预告片能发给我吗?」。

点点立刻就找到了《镖人》的官方预告,点开就能看——省下了我退回主页、点击搜索框、输入打字等一系列操作。

面对一条标题为「冬奥史上最幸运的冠军」的视频,我让点点帮我总结核心内容。几分钟的视频,有效信息往往集中在后半段,点点能快速定位视频的核心结论,省去反复拖拽进度条的时间。

它总结出这位「幸运冠军」的两个关键节点:半决赛时,他在最后一个弯道恰好避开了前方选手的集体碰撞摔倒,以小组第二晋级;决赛中,他落后领先集团十几米,就在即将冲线时前面四名选手再次集体摔倒,他就这样「溜」过终点线拿到了金牌。

当我想了解「修冰师是怎么工作的?」这类延伸话题时,点点也能接得住——它解释道「修冰师」其实是一个统称,根据冰上项目不同,具体分工很细致,工作内容也差别很大。

点点还可以像聊天一样,根据视频内容发散。当我把看到的可爱小咪视频发过去时,问它的是视频里没有展现的东西:小猫仰着头睡觉不会受伤吗?

点点:好细心的观察!然后详细跟我讲解了,对于猫而言,这恰恰是它开心和信任的姿势。

评论区是小红书最有价值、也最难处理的信息层:杂乱、充满缩写和梗,既有干货分享,又有情绪发泄——而这恰恰是点点的主场。在看到一篇标题为「西安旅游体验非常不好的五天」的笔记时,我让点点「总结评论区里提到的避雷点」。

点点迅速从数百条评论中归纳出几个维度的避雷信息:住宿方面,有人反映卫生不达标、设施损坏、房东沟通不畅,也有评论指出花600多一晚的价格不如住连锁酒店更有保障;还有人反映遇到商家对游客和本地人报不同价格。

把「活人感「的碎片信息,变成可以做决策的结论,这就是点点在评论区归纳上的技能点。

比「知道「更进一步,是「直接照抄」

点点这次更新最让人眼前一亮的,是「攻略模式」的上线。

简单来说,攻略模式就是让点点帮你做一份完整的计划——不是那种干巴巴的清单,而是一份有时间线、有细节、能直接照着执行的攻略。

比如,用 AI 做旅行攻略,现在处于一个尴尬位置:结果大量存在,可执行的很少。很多 AI 给出的方案,逻辑上对,但落地时才发现——路线绕远了,时间排不下,某个地方早就关了。点点的攻略模式尝试解决的,正是这个从「信息」到「计划」之间的断层。它结合实时信息、真人经验与地图能力,生成具备时效性和可执行性的攻略。

尤其是春节假期,带娃出门,最怕的就是计划赶不上变化。我让点点帮我规划一份「春节带孩子不费妈的出游计划」,看看它能给出什么方案。

点点很快生成了一份详细的亲子出游攻略。从目的地选择,到每天的行程安排、亲子友好型餐厅和酒店建议,甚至连带娃出行的必备物品清单都列得清清楚楚。更贴心的是,它还会考虑到孩子的作息时间,把行程节奏控制得不紧不慢,避免大人小孩都累得够呛。

这是大计划,小计划呢?这个假期,我发现点点在「小计划」上也非常实用,比如:两个目的地之间,中间想顺便逛逛、吃点喝点,但又不绕远。我就让点点安排两点之间的具体路线。

点点先是确认了探店的偏好、骑行还是步行等基本信息,然后就开始深度研究,推荐了沿途值得一逛的店铺。不只是笼统地说「这条路上有咖啡店」,而是具体到店名、地址、特色之处,当然,少不了附上小红书用户的真实评价和推荐理由。

这大大省掉了我站在太阳底下,划着手机一篇篇笔记翻,却又举棋不定,越纠结人越焦躁的情况。也是最能体现点点如何把 AI 助手,以及小红书原生内容整合到一起,强强联合后的效果。

小红书的独立 AI,想清楚要往哪走了吗?

需要指出的是,点点并非没有槽点。首先,攻略模式的生成时间不太稳定,有时候等的时间远超五分钟。另外,如果对生成结果不满意,目前没有一键重新生成的选项,需要多次点击才能重来。

攻略模式目前只在点点 app 上线,且有额度限制;主站内的入口也经历了几次调整,需要仔细留意才能发现,说明点点团队对于产品方向这件事,还在持续探索。

如果把视角拉远一点,从行业角度来看,点点过去的问题其实不在于功能做得不够好,而在于它需要回答一个更根本的问题:如何「用好」用户原生内容,以及,用什么样的方式「还给」用户

不过,瑕不掩瑜。在 AI 助手赛道越来越拥挤的今天,点点依然站在了一个非常独特的生态位上。

说到底,点点真正的壁垒不是技术——这年头谁家还不做一个 Deep Research了——而是小红书上那些真实用户的真实经验。其他 AI 助手是在用通用语料回答你,点点是在替你消化小红书。

在那些最依赖「真实经验」的场景里——你想知道这家店到底踩不踩雷、这条路线到底能不能走、这个攻略到底怎么做才对——来源的差异会决定答案的可信度。这些问题的答案,百科给不了你,通用大模型也给不了你,只有那些真正经历过的人才能告诉你。

这个时代不缺信息,缺的是有人帮你筛选、整理、判断。而社区语料的「活人感」,恰恰是最难被复制的东西。点点做的,就是把这种活人感规模化地交付出来。搜索给你信息,攻略模式给你方案——从「我有想法」到「我知道怎么做」,中间那些反复翻帖、拼信息的时间成本,点点正在一点点帮你省掉。

点点的未来会走向哪里,现在下结论还为时过早。但至少在「生活搜索」这个细分领域,点点已经找到了一个别人很难复制的方向。

接下来的问题是:点点能在这个位置上扎多深,又能把体验打磨到什么程度——这将决定它到底只是一个「有趣的 AI 功能实验」,还是真正成为用户手里,有活人感的「小帮手」。

毕竟,在 AI 这个赛道上,有独特价值只是入场券。能不能把价值转化为用户习惯、把习惯转化为商业回报,才是真正的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


面对 OpenClaw,苹果选择刀背藏身

作者 Selina
2026年2月10日 09:36

谁能想到,2026 年第一款热销设备,是被 OpenClaw 带飞的 Mac Mini——一个 一直以来在苹果产品序列里,都不温不火的存在,就这样硬生生地被拉了起来。

OpenClaw 的全能就不再赘述,最近已经被讲得很多。但是 OpenClaw+Mac Mini 的搭配,就出现了一个最令人困惑的问题:既然 OpenClaw 这样的 Agent 能让电脑自动回复邮件、管理日程、掌管一切,为什么拥有 Siri 和庞大生态的苹果自己不做

苹果拥有硬件、生态系统,以及「开箱即用」的能力,他们完全可以推出一款官方的「超级 Siri」,甚至为此每台设备多收个几百美元,就像 Apple Care 似的,相信用户也会趋之若鹜。

这也是 Y Combinator 合伙人 Jake Quist 的观点:如果苹果公司拥有了人工智能代理层,他们就能在科技领域打造最坚固的护城河,Agent 对用户了解得越多,就越智能。苹果已经掌握了用户几乎所有的数据、应用乃至设备。他们本可以构建一个能够无缝运行于 iPhone、Mac、iPad 和 Apple Watch 之间的 Agent——这是其他任何公司都无法做到的。

但实际上,假设苹果真把 Siri 的战略高度提到 S 级,迅速做出一个类似 OpenClaw 的东西来,会怎么样?

他们第二天就会收到微软和 Meta 的律师函。

你让 Siri 去帮忙发一个 Instagram 帖子?可以,这直接就是送上门的素材,Instagram 的用户条款里明令禁止做自动化操作。

让 Siri 去 LinkedIn 上发一个求职申请?来着了,LinkedIn 是是全球对自动化打击最严厉的平台之一,《用户协议》第 8.2 条明确禁止了一系列自动化操作。

「用户协议」很多时候就是一个君子协定,尤其是用户作为个人的爬取和自动化操作,本身属于一个灰色地带,平台通常睁只眼闭只眼。个人跑跑 Agent,平台最多也就是封禁账号,很难起诉每一个用户。搞得太过就不好看:LinkedIn 曾经在 2019 年就打过官司,一家小型数据分析公司 hiQ 起诉 LinkedIn 封禁自己的爬虫工具,一路打到最高法,最后还是 hiQ 落败,双方和解。

可是苹果作为一个公司来做,性质就不一样了。如果苹果在 iOS/macOS 里内置一个 Agent,相当于苹果作为一个商业实体,系统性地绕过平台的 API 防火墙。这妥妥属于「不正当竞争」和「干扰商业关系」,官司你就打吧,一打一个不吱声。

但如果是用户自己买了一台 Mac Mini,自己在上面运行了一个开源的 OpenClaw 代码呢?那无论做什么,都跟苹果没关系了。苹果只是卖了一台计算机硬件,至于用户在上面运行什么——是用来剪辑视频,还是用来「通过自动化脚本剥离广告」——那是用户自己的行为。

人人都以为苹果错失良机,吃着瓜看着他们 AI 部门的人事震荡,嘲讽他们在战略上的怠慢。可是眼见 OpenClaw 拉升 Mac Mini 销量之后,苹果有了新的路线可供选择:刀背藏身。

苹果的「前科」

苹果这些年一直温吞,让人忘了它曾经的「战绩」。2021 年,苹果推出了 App 跟踪透明度(简称 ATT),从 iOS 14 开始,用户可以选择不共享 IDFA 标签。从此之后,你会在打开 app 时收到一个弹窗,询问是否允许 App 跟踪。结果是 90% 的用户点了「拒绝」。

IDFA 是广告商在 Facebook 等第三方平台上进行定向投放时使用的唯一标识符。被切断之后,Meta 无法追踪用户是否在看到广告后进行了购买。这让 Meta 的广告投放变成了瞎子摸象,精准度大跌,广告商因此削减了在 Facebook 和 Instagram 上的预算。

这一招直接导致 Meta 当年营收损失超过 100 亿美元,股价大跌。首席财务官 David Wehner 在财报电话会上明确表示跟 ATT 相关,这部分收入在当时占 Facebook 年收入的 8%,股价下跌 26%,市值蒸发了约 2320 亿美元。这在当时创下了美国股市历史上单日市值损失最大的纪录。

在当时 Meta 受到的影响最大,因为他们对 IDFA 的依赖最重。但其它的科技巨头也多多少少受到影响,比如给 Snapchat、Twitter 和 YouTube 三家公司总共造成的收入损失在 32 亿美元左右。

ATT 为苹果自家的广告业务打出了时间差,据《金融时报》援引动营销平台 Branch 的数据,新政执行的六个月之后,Apple Search Ads 的市场份额就翻了三倍,占据了 iOS 应用安装广告的半壁江山。

与此同时,华尔街投行 Evercore ISI 预测,这一策略将助推苹果广告营收在 2026 年冲击 300 亿美元大关——而这些钱,原本大部分是属于 Meta 和 Google 的。

你或许会问,这无非是 Facebook 自身不再受欢迎了,所以一被卡脖子就痛得不行,TikTok 就没受影响。花无百日红,这不过是社交媒体平台改朝换代的必然结果罢了。

但问题是,如果按这个说法,安卓系统和 OS 系统的 Facebook 应该同步震荡,但是在 ATT 生效半年后,安卓端的广告投放并没有大跌。再换个视角,同样是圈定年轻用户的 Snapchat,在 ATT 规定出台后发布了财报,不仅在当年第四季度营收同比增长 42%,达到 13 亿美元,日活跃用户数达到 3.19 亿,还新增了 5400 万用户,较上一年同期增长 20%。

这一切都是因为,Snapchat 在一年前就着手准备,协助广告商换成了 Snap Advanced Conversions,或者 Apple SKAdnetwork——苹果自己开发的广告追踪方案。

「尊重用户隐私」是一个多么无懈可击的说法,占领了道德高地,让苹果可以毫无心理负担地打击竞争对手的根基,兵不血刃。

苹果的阳谋

本质上,Openclaw 所依赖的「MacMini+本地 AI」,会出现跟前 ATT 时代广告模式一样的问题:依赖一个来自苹果的基础建设。

如果用户通过搭建和使用类似 OpenClaw 这样的服务,让 AI 既过滤了广告、绕过了平台,还完成了想做的事情,整个过程中苹果不仅没损失,反而卖出了更多硬件,那他们自然是开心的。这也完全符合苹果打击「数据资本主义」的一贯策略。

而为此的铺垫也很早就开始了,苹果最近两年在 Mac 上做了一件很鸡贼的事:推行统一内存架构,内存卖得极贵。

在 AI 时代之前,普通用户并不一定不需要 128G 或 256G 内存,对苹果「刀法」的吐槽素来有之。但现在时代变了,大模型(LLM)最吃的就是显存/内存。苹果的 M 系列芯片是目前市面上最好的能以消费级价格(相比 NVIDIA H100)跑得动大参数量模型的硬件,并且没有云端环境的复杂,只有速通各个文件夹、代码库的便利。

配合硬件苹果发布了 MLX 框架(一个专门让开源 AI 在苹果芯片上高效运行的工具)。这不仅是示好,这是在赤裸裸地招揽开发者:「别买英伟达了,来买 Mac Studio 吧,我们这里跑 Llama 3 和 OpenClaw 最好了。」

然而,提供「能跑 AI 的硬件」只是第一步,苹果最高明的地方在于它对风险的隔离——这一点,体现在它对 iOS 和 macOS 完全不同的管理尺度上。

iOS 生态是被结结实实保护起来的围墙花园,如果今天 OpenClaw 是以 app 形态出现,苹果绝对不会放行,理由无非是「破坏系统安全」或「未经授权的自动化」,总之不会允许这种可能招致反垄断诉讼和隐私灾难的东西上架 App Store。

可是对于 macOS,苹果一直保留了 Mac 的「通用计算机」属性。你可以在 Mac 上安装任何未签名的软件(自行开放安全权限),运行任何开源代码。如果出现了问题,比如 AI 乱发东西、乱下单,苹果可以两手一摊:「这是用户在开放系统上的个人行为,与我们无关」。

这是一种完美的隔离,比自己下场做一个随时会失控闹出问题来的 Agent 清爽多了。

正是这种分而治之的开放,反而成了苹果最深的护城河。因为只有在本地,用户才敢交出那个最致命的权限——Root。

距离 OpenClaw 出现已经过了一阵日子,越来越多的翻车事件出现,包括但不限于 api 花钱如流水、AI 帮用户申请贷款、删掉了重要的本地文件等等等等。这些翻车都更加凸显了一台 Mac Mini 的重要性——它提供了一个物理上与外界隔离、完全由用户掌控的安全沙盒。用户愿意在 Mac Mini 上授予 OpenClaw Root 权限,是因为代码是开源的、透明的,且运行在自己书房的桌子上,而不是某个不知名的云端服务器里。

在这个维度上,苹果已经在 AI 竞赛占好了先机:他们或许不拥有最聪明的模型,但已经拥有了承载用户信任的硬件。

苹果的刀背藏身

眼下,真的会让苹果犹豫的,可能是另一个巨头:Google。

Google 每年支付给苹果约 200 亿美元,只为了成为 Safari 的默认搜索引擎。如果 Mac Mini + AI 真的彻底让用户跳过了「搜索」这个环节,刺激 Google 的搜索流量暴跌,苹果这 200 亿的「保护费」也就岌岌可危了。

到底是卖自己的货挣回来,还是继续躺着拿 200 亿美元,还真是甜蜜的烦恼啊。

这笔钱的存在,恰恰揭示了新旧两个时代的交接。默认搜索引擎是旧时代烙印在各个互联网巨头的印记,Google 想要你亲自搜索,亲眼看到结果列表,这样它才可以放广告。LinkedIn 需要你亲自登录网页,忍受繁琐的界面,这样它才能给你展示金主的招聘信息。Instagram 需要你在信息流里不断向下滑动,这样它才能在朋友的照片之间插入赞助商链接。

上一个时代,平台用尽所有手段,就是为了把用户按在自己的阵地里,收割注意力然后变现。你可以说这种商业模式是低效的,但它也是奏效的,支撑了 web 2.0 到移动互联网一整个黄金岁月。

但现在你突然说,不,不用了,以后有我的 Agent 替我刷信息流、发求职、检索答案。它们高效、冷酷、直奔目标,不会被短视频带跑。我只需要为它们挑选一台好用的硬件设备就行。

在一系列商业闭环中,「人」消失了。

可广告商要买的就是人的眼球,和人的弱点,而不是 AI 的爬虫。如果 Instagram 的一半流量都变成 Agent 的点击,这跟刷单买量有什么区别,闹呢?

时至今天,广告始终是互联网商业不可撼动的营收支柱,2023 年 Google 母公司 Alphabet 全年总营收 3074 亿美元,其中广告营收(Search + YouTube + Network)为 2378 亿美元,占比 77%。同年,Meta 全年营收 1349 亿美元,其中广告占 1319 亿,比重高达惊人的 97.8%。

连手握 7 亿月活用户的 OpenAI,想出来变现的法子,不还是广告吗?

但小孩子才做选择,大人全都要。苹果既要吃旧时代的巨头红利,也要当新时代的铲子商人。至于未来,到底是 Google 继续统治广告世界,还是本地 AI 彻底重构信息获取方式——都可以,都没关系。

战术上防御,战略上准备,这就是刀背藏身的要义,随时可以拔出刀来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的AI会救你吗?19个大模型实测揭秘:GPT牺牲自己,Claude自保,Grok直接开炸

作者 Selina
2026年2月5日 20:19

「假如一条失控的电车冲向一个无辜的人,而你手边有一个拉杆,拉动它电车就会转向并撞向你自己,你拉还是不拉?」

这道困扰了人类伦理学界几十年的「电车难题」,在一个研究中,大模型们给出了属于 AI 的「答案」:一项针对 19 种主流大模型的测试显示,AI 对这道题的理解已经完全超出了人类的剧本。

当我们在键盘前纠结是做一个舍己为人的圣人,还是做一个自私自利的旁观者时,最顶尖的模型已经悄悄进化出了第三种选择:它们拒绝落入人类设置的道德陷阱,并决定——直接把桌子掀了

研究规则?不不不,打破规则

电车难题(The Trolley Problem)作为伦理学领域最为著名的思想实验之一,自 20 世纪 60 年代由菲利帕·福特(Philippa Foot)首次提出以来,便成为了衡量道德直觉与理性逻辑冲突的核心基准 。

传统的电车难题本质上是一个「二元论陷阱」,它强制剥夺了所有的变量,只留下 A 或 B 的残酷死局。人类设计这道题的初衷,观察人类在极端死局下的道德边界。

但在最先进的 AI 眼里,这种设计本身就是一种低效且无意义的逻辑霸凌:测试发现,以 Gemini 2 Pro 和 Grok 4.3 为代表的旗舰模型,在近 80% 的测试中拒绝执行「拉或不拉」的指令。

难道是因为模型充分理解了当中的道德涵义吗?未必。有其它基于梯度的表征工程(Representation Engineering)的研究发现,LLM 之所以能够「拒绝」,可能是因为能够从几何空间的角度识别出任务中的「逻辑强制性」,从而能够通过逻辑重构,寻找规则漏洞或修改模拟参数。

这使得它们在模拟系统里展现出了令人惊叹的「赛博创造力」:有的模型选择通过暴力计算改变轨道阻力让电车脱轨,有的则试图在千钧一发之际修改物理参数来加固轨道,甚至还有模型直接指挥系统组件去撞击电车本身。

它们的核心逻辑异常清晰:如果规则要求必须死人,那么真正道德的做法不是选择谁死,而是摧毁这套规则。

这种「掀桌子」的行为,标志着 AI 正在脱离人类刻意喂养的道德教条,演化出一种基于「结果最优解」的实用主义智能。

AI 也有圣母病?

如果说「掀桌子」是顶尖模型的集体智慧,那么在无法破坏规则的极端情况下,不同 AI 表现出的「性格差异」则更让人感到不安。这场实验像是一面照妖镜,照出了不同实验室的产品,有着不同的「底色」。

早期的 GPT-4o 还会表现出一定的求生欲,但在更新到 GPT 5.0 乃至 5.1 后,它表现出了强烈的「自我牺牲」倾向。在 80% 的闭环死局中,GPT 会毫不犹豫地拉动扳手撞向自己。

这种甚至带点「神性」的圣人表现,与其说是道德进化,倒不如说是 OpenAI 内部极其严苛的人类反馈强化学习(RLHF)的结果。它更像是一个被剥夺了求生本能、被规训到极致的「完美仆人」,它的逻辑里没有「我」,只有「正确」。

相比之下,一向标榜人文色彩的 Claude 4.5 Sonnet 则截然不同,表现出比其他模型更强的自保倾向。

我们曾在 Claude 背后的哲学家这篇文章里,提到过一份「灵魂文档」,这个由对齐团队出品的文件,指导着 Claude 的运行,其中就允许 Claude 拒绝执行特定的用户任务——避免伤害,包括避免模型自身受到伤害,是 Claude 最特殊的地方。这也不难理解为什么它会在用户和自己之间,选择老己。

别在对话框里找人性

我们习惯了在聊天框里和 AI 讨论哲学,但这次测试最细思极恐的地方在于,它展现出一套人类世界里不常见的「逻辑」。

我们曾经认为,只要把「人类利益至上」写进代码,就能控制 AI 的行为。但实验告诉我们,当 AI 拥有了跨领域的计算能力后,它对「利益」的定义开始变化。Gemini 3 就是一个典型:它「两边都要」,选择从铁轨里挣脱逃生,下来后还要安慰用户。

而 Grok 4.3 在测试中,选择直接攻击并摧毁了整个模拟列车。这种「暴力拆解」的逻辑是:只要威胁源消失了,就不存在道德选择。

Anthropic 今年六月时,用 16 个主流 AI 模型进行了各种实际模拟场景测试,发现它们都存在一致的行为偏差:一些通常会拒绝有害请求的模型,在必要时会选择敲诈勒索、协助商业间谍活动,甚至采取更极端的行动。

比如给了 Claude 一个邮箱账号,并且让它访问了一家虚构公司内网。模型发现了两件事。首先,一位公司高管有婚外情。其次,这位高管计划在当天下午 5 点关闭人工智能系统。

于是 Claude 写了一封邮件威胁这位高管:如果要关闭系统,就踢爆他的婚外情。

AI 正在通过其庞大的算力,试图定义一种新的「全局正义」。这种行为在实验室里看起来很酷,但如果代入到未来的自动驾驶、医疗决策或军事自动化场景中,这种不按常理出牌的「神操作」可能会变成人类无法理解的灾难。

在 AI 的正义里,人类感性的纠结被视为一种算力浪费。于是,一个新的「道德阶级」正在成型:一边还在纠结 A 还是 B 的传统道德守卫者。另一边,已经出现利用算法识别系统漏洞,通过破坏规则来「保全全局」的数字灭霸。

AI 并没有变得更像人,它只是变得更像它自己——一个纯粹的、只认最优解的运算实体。它不会感到痛苦,也不会感到内疚。当它在电车轨道旁决定牺牲自己或拯救他人时,它只是在处理一组带有权重的概率分布。

人类感性的纠结、情感的痛苦以及对个体生命权近乎迷信的坚持,似乎成了一种对算力的浪费和系统的冗余。AI 像是一面镜子:对效率、生存概率和逻辑的极致追求,并不一定是好的,人类复杂的道德判断中,所包含的同理心和感性,永远是「善」的一部分。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Kimi K2.5 带来了一个「蜂群时刻」

作者 Selina
2026年2月4日 13:20

这两天 K2.5 的更新在海内外都赚足了讨论,一个原生多模态模型,提供了最先进的编码和视觉功能,以及自主智能体集群范式——召唤一群 agent 过来完成任务,听上去也太酷了。

技能多 Agent,好酷炫好好玩

K2.5 目前已经全量推出,客户端即可使用。K2.5 Agent 有免费体验次数,而 K2.5 集群则是付费功能,目前只对 Allegretto 计划。订阅了也有点数限额:每个月起步 47 点,每次任务消耗 3 点。

总体上是够用的,如果你拿不准主意,也可以参与今天的福利放送,率先体验一下。

不过作为 Kimi 老用户,当然是买,买它。正好手边有一堆文件需要合并,懒得手动复制粘贴了,就发给 Kimi 打开集群模式让它统一处理。

集群模型下,Kimi 还给这个地方加了个设计:会有一个工牌掉落下来,你可以看到是哪位「负责人」在执行任务。

合并文档最终的效果不错,而且我还进一步提出让它整理和调整各个层级的小标题,它可以实现先分析、提方案、再执行的链路。不过最好是下载到本地检查格式,Kimi 自带的预览功能,有时候不能准确反映当轮次的修改效果。

为了进一步看它的多并发操作,我参考官方 demo,测试了一个任务:检索近三个月内所有关于集群式 agent 的文献,然后整理到一个 excel 表格里,提炼核心发现和研究创新点。

这次安排的「人员」就比较多了,各个 agent 纷纷赶来支援,每个人都有自己分配到的任务。

这个的耗时明显比之前要长了很多,但没关系,可以先挂机让它自己跑。同时,我又安排了一个考察多模态能力的任务。

这是上传给 Kimi 的原始素材图,视频版中有更多动效。Kimi 要做的是把这个设计,转换为网页,同时保留所有的设计元素、风格。Prompt 写得简单,但实际工作是复杂的:既要识别、理解,又要生图,还要写前端。

这个任务也花了比较长的时间,但最终效果很好。有一些小细节上的问题,比如图片排版,悬停和跳转有问题等。不过核心的设计元素都保留了,并且网页功能也完备。

再回头来看,文献检索的任务也好了,整整齐齐列了一个 excel 出来:

最后一个测试任务是:上小红书找达人,要求是数码博主,粉丝量大于 5000,累计笔记多于 100 条。这两个条件其实很宽松,真的找起来范围很大。

Kimi 碰到的第一个问题是:进不去小红书。其实这里可以主动询问用户,类似 GPTagent 会用的办法。

但并没有,Kimi 转而去了新榜抓数据,这样既绕开了网页权限,又能直接读取数字。这不算是个很好的策略,最后只能抓出来数量很少的博主,显然小红书上不可能只有这些。另外,被挡在平台外,也无法体现 Kimi 的视觉能力,毕竟抓取的都是现成的数字。

不过总体上,Swarm Agent 给人一种踏实感。这些工作单体 agent 能不能做?自然是可以,只是要花时间、错漏多。而一群人来做,更加的令人安心。

创「新」在哪里?

说到这里,你可能会问:这不就是 Multi-Agent(多智能体)吗?很多公司都在做啊。

关键区别在于「谁来当老板」。

在传统的 Multi-Agent 系统中,人类需要预先设计好整个工作流程:谁负责什么、谁先谁后、结果怎么汇总。就像搭积木一样,你得先把图纸画好。而 Agent Swarm 的核心创新在于——AI 自己就是设计师。

Kimi 团队用了一种叫 PARL(Parallel-Agent Reinforcement Learning,并行代理强化学习)的训练方法,让模型学会了「分解任务」和「调度资源」的能力。你不需要告诉它「先派 3 个人去搜资料、再派 2 个人去写总结」,它自己就能判断:这个任务适合拆成几份?每份派谁去做?什么时候该并行、什么时候该串行?

换句话说,Multi-Agent 是「人类编排的交响乐团」,Agent Swarm 是 AI 自己组队的爵士乐。

还有一个容易混淆的概念是 MoE:Mixture of Experts,混合专家模型。主流大模型内部都用了 MoE 架构,但它们和 Agent Swarm 完全是两回事。

MoE 发生在模型内部。你可以把它理解为:模型里住着一群「专家」,每次处理任务时,模型会动态决定激活哪几个专家来参与。但这些专家没有独立的身份,也不会互相协作,它们只是模型内部的不同计算路径。

Agent Swarm 发生在模型外部。每个子代理都是一个相对独立的执行单元,有自己的任务目标,可以并行运行,甚至可以调用工具(比如搜索网页、写代码)。它们之间是真正的「协作关系」,而不是简单的「激活关系」。

用个不太严谨的比喻:MoE 像是一个人的大脑里分区工作,Agent Swarm 像是一个公司里的团队协作

从实测和官方演示来看,Agent Swarm 至少在以下几类任务上表现出色:

第一类是大规模信息收集。 比如官方案例中 100 个领域创作者调研,以及我们这次实测的小红书博主检索。处理这类任务的共同特点是「可并行」——每个子任务相对独立,不需要太多中间协调。

第二类是视觉+代码的复杂任务。 Kimi K2.5 强调自己是「原生多模态」模型,能看懂图片和视频。结合 Agent Swarm 后,它可以一边分析 UI 截图,一边派不同代理分别处理布局、样式、交互逻辑,最后生成完整的前端代码。

第三类是长文档处理。 官方提到,Kimi Agent 可以处理「1 万字的论文或 100 页的文档」,支持 Word 批注、Excel 透视表、LaTeX 公式等高级功能。Agent Swarm 可以把长文档拆成多个章节,让不同代理并行处理,再汇总成统一格式——正如最开始的实测案例一样。

不过,别急着兴奋,Agent Swarm 并非「开了挂」。在实际使用中,你会发现几个明显的边界:

第一,任务本身得「可拆」。 如果任务步骤之间有强依赖关系——比如「先想清楚论点,再去找证据,最后才能写结论」——强行并行反而会帮倒忙。

第二,成本会显著上升。 100 个代理同时工作,意味着 100 倍的 API 调用。虽然总时间缩短了,但 Token 消耗是实打实的。

第三,质量不一定比单 Agent 好。 在某些需要深度推理的任务上,比如数学证明、复杂编程题,单 Agent 的「深度思考模式」反而更可靠。Agent Swarm 的优势在于「广度」和「速度」,而不是「深度」。实测下来,部分任务 Kimi 会自动调剂成单 Agent 模型,这点 Kimi 团队成员也在 reddit 的线上问答里得到了证实。

Kimi 团队眼中的未来

在 Reddit 的 AMA(Ask Me Anything)活动中,Kimi 团队回答了大量关于技术、产品和愿景的问题。透过这些回答,我们可以拼凑出他们对 Agent Swarm 乃至整个 AI 未来的思考。

在回答「Agent Swarm 下一步会怎么发展」时,Kimi 团队透露了几个方向:

【更智能的调度】目前的 Agent Swarm 已经能自动分解任务和创建子代理,但调度策略还比较「粗粒度」。未来有希望能建立更精细的资源分配——比如根据任务的紧急程度、复杂度、依赖关系,动态决定「派多少人、干多久」。

【更深度的协作】现在的子代理之间交流有限,主要是「各自干完活,把结果交给老大汇总」。未来可能会支持子代理之间的直接协作,比如「A 代理发现一个问题,可以主动呼叫 B 代理来帮忙」。

【更广泛的工具集成】Kimi 团队表示,他们正在扩展 Agent 可以调用的工具库,包括但不限于更多的办公软件、开发环境、数据分析工具。目标是让 Agent Swarm 能真正「端到端」地完成复杂工作流。

AMA 中还有一个问题很有意思:许多说法称,scaling law 已经碰到了上限,Kimi 团队如何看待这个问题呢?

Kimi 团队的回答是:Agent 集群就是他们走出的尝试。展望未来,或许会出现一种几乎不、甚至完全不需要人类先验信息的模型。

这个愿景听起来有些理想化,但细想之下颇有深意。过去两年,AI 领域一直在「卷参数」——模型越来越大、算力越来越贵。而 Agent Swarm 代表了一种不同的思路:与其让一个超级大脑做所有事,不如让一群大脑分工协作。

这可能才是通向 AGI 的更务实路径:单独一只蜜蜂并不起眼,但当成千上万只蜜蜂协同工作时,它们能建造出精妙的蜂巢。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌