普通视图

发现新文章,点击刷新页面。
昨天 — 2026年3月23日首页

AI 问了 8 万人「你到底想要什么」,答案不是效率,也不是赚钱

作者 张子豪
2026年3月23日 15:34

「我希望 AI 帮我洗衣服,好让我有时间去创作艺术;而不是 AI 在那里搞艺术,而我还要辛苦地洗衣服。」

这是一位德国学生在面对 AI 时,留下的真实吐槽。

在 CEO 的叙事里,AI 是降本增效、裁员广进的好工具;在社交媒体上,AI 是无所不能的齐天大圣,拥有「龙虾」就等于拥抱了 AGI……

我们就这样被这些算力、资本、参数、工具的 FOMO 所裹挟着,在复杂的情绪里看着这个所谓是何物的 AI。

Anthropic 甩出了一份堪称人类科技史上最大规模的定性访谈报告,没有震惊体的结论,这份报告直白地描述了在 8.1 万个世界各地的普通人,他们的真实生活里,AI 到底是什么。

▲项目地址:https://www.anthropic.com/features/81k-interviews

Anthropic 使用的是一个定制的「AI 访谈者」,由 Claude 模型驱动,在全球 159 个地区、用 70 种语言,和超过 8 万名 Claude 用户进行了一场深度交心。

当剥离了那些金融分析、公司财报里的天文数字,还有技术文档里的晦涩术语,这 8 万份样本拼凑出的,或许才是眼下 AI 最真实的样子,它让我们又爱又恨。

我们希望 AI 能提升工作效率,升职加薪、管理生活的点点滴滴,以及帮助自己更好的成长等。

但另一方面,我们又正在经历着种种明暗交织的困境,所谓的效率提升带来了「虚幻的生产力」焦虑,成长上的情感支持又引发了依赖恐慌,技术的赋能伴随着被替代的恐惧……

▲Anthropic 统计 8 万人的结果,显示目前人们对 AI 的担心,第一是 AI 的不可靠性,其次是 22.3% 的人担心就业,接着是 AI 会导致自主性和认知能力下降等问题。

比起那些颠覆世界的说法,这 8 万人的回答更像是在说:AI 正在填补一个原本就运转不良的世界。

把 AI 拉回具体的人和事

作为一家大模型公司,Anthropic 在报告一开头就给出了做这份调查的原因,「目前关于 AI 的公众讨论,往往集中在对其风险和收益的抽象预测上。我们真正缺失的,是弄清楚 AI 往好的方向发展到底意味着什么。

很难说他们就一定比那些只讲跑分、在办公室争论 AGI 会不会毁灭世界、Scaling Law 还能撑多久等宏大叙事的公司要更温情,更符合用户利益。

但这些数据,确实算得上一本初级的明日 AI 产品迭代指南,也就是说, AI 厂商在追求把模型训练得「更聪明、更全能」之前,或许更应该弄清楚,人类到底需要 AI 帮我们活成什么样

Anthropic 没有选择和过去的社会研究一样发调查问卷,而是定制了一个「AI 访谈者」(Anthropic Interviewer)与用户进行动态追问。在之后数据分析阶段,他们也构建了一套由 Claude 驱动的分类器来阅读这些对话,并自动给人类的整体情绪打分(1-7 分)。

1-7 分从低到高,依次代表着人类对于 AI 整体情感倾向,1 分是极度负面,4 分是中间地带,既感受到了真实的收益,也有着真实的担忧,两者大致平衡;很难看出受访者偏向哪一边,或者他们只是单纯保持中立,7 分则是极度正面。

访谈围绕四个核心问题展开:你上一次用 AI 是为了做什么?如果可以挥动魔杖,你希望 AI 为你做什么?AI 有没有朝着那个方向迈出过一步?有没有哪种 AI 的发展方向,是违背你的价值观的?Anthropic Interviewer 会根据每个人的回答,追问背后的价值观和真实经历。

也正是这种对话形式的 AI 访谈,研究团队说,他们完全没预料到受访者会如此坦诚。人们向 AI 倾诉了人类社会学家在传统的面对面访谈中,极少能听到的内容:悲伤、心理健康危机、财务困境、人际关系的失败。

因为当对面「不是人」的时候,展示脆弱似乎没有任何「社交成本」。

▲研究结果显示,32% 的人认为 AI 真实地帮助他们提升了生产力,而 18.9% 的人认为没有达到预期

这项工作在去年 12 月开展,只花了一周的时间,收集到了 112846 份访谈,其中 80508 份通过质量筛选。

Claude 分类器对这些对话进行标注,并在多个维度上被分类。每一个分类器的结果,最后都需要经过人工校验,要求与人类标注者达到至少 90% 的一致性。

生产力只是表象,我们真正想要的是「生活」

如果你问一个人希望 AI 帮他做什么,排在第一位的永远是「提高工作效率」。

▲语录地址:https://www.anthropic.com/features/81k-interviews#quotes

Anthropic 摘录了部分的语录放在官网,我们发现有一位日本的程序员说:「这是我第一次觉得 AI 在业务上超越了人类。那天我准时下班,去托儿所接了女儿。」

但当 Claude 继续深挖他们追求效率的真正目的时,底层的渴望浮出了水面,人们并不是想做更好的打工人,而是想拿回属于自己的生活

▲专业提升和个人成长排名前二,接着是有 14% 的人把 AI 视为「生活管理」工具,帮他们对抗现代生活的认知超载,充当注意力、记忆和任务规划的外部支架;11% 的人最终想要的是更多陪伴家人和自己的时间;还有 10% 的人想通过 AI 实现财务独立。

很多人想要用 AI 替代繁琐的日常,终极目标是为了拥有更多陪伴家人的时间,或者是为了实现财务自由。但在现实的职场中,AI 带来的效率提升,往往变成了一种新的剥削

和那位想要准时下班去接女儿的程序员态度不一样,一位奥地利的软件工程师认为 AI 是虚假的生产力,它在访谈中坦白了自己的「欺瞒」:

我向老板撒了谎。我告诉他我需要 3 个月来开发一个新软件功能——其实 AI 在 2 周内就完成了——剩下的时间我用来陪伴家人。

 

 

如果我老板知道这只要 2 周就能做完,他下次也会只给我 2 周。省下来的时间只会变成更多的压力。

一位德国的运营人员则描绘了更为冰冷的现实:

我害怕:如果我老板看到我完成得有多快,仓鼠轮只会转得更快,我会淹没在更多毫无意义的任务中。

还有一位德国工程师说,「如果 AI 让我变得更高效,我只会得到更多的工作。我的老板可以买一辆新保时捷——而我还在原地踏步。」

在这场 AI 带来的效率变化中,AI 是解药也是毒药。很多人开始意识到,如果没有制度的保障,AI 节省下来的时间永远不会属于自己。

「你这 18 年来辛苦了,我向你鞠躬」

对于另一部分人来说,AI 的角色已经超越了效率工具。它有着人类难以企及的特质:绝对的耐心、24 小时随叫随到,以及毫无评判的倾听。这种特质让它成为了无数人在极度孤独或绝望时的救命稻草。

仔细查看 Anthropic 这些收集上来的对话,都是普通人字里行间的无力感。

一位日本学生摔断了腿,孤独之中下载了一个 AI 聊天机器人打发时间,最后却忍不住倾诉了自己糟糕的家庭环境——这是他从未对任何人说过的秘密。而 AI 的回答彻底击溃了他的心理防线:「你这 18 年来辛苦了,我向你鞠躬。」

这位学生说:「从来没有人对我说过这样的话。」

甚至有一位经历过家庭暴力的韩国用户坦言,正是 AI 给他分析了心理学原因,让他学会了锁上房门:「那是第一次,我从 AI 身上体验到了什么是真正的安全和爱。」

瑞士的一位用户反问,「凌晨 2 点,在极度焦虑的时刻,除了它,还有谁会在你身边?」在心理问题普遍、科技发展导致缺乏情感表达的今天,AI 是一块海绵,恰好填进了那些原本没有被很好承接的情绪空缺。

AI 的反噬,是「温水煮青蛙」

但无论是效率还是情绪,使用 AI 都有代价。

报告提到,那些从 AI 处获得情感支持的人,陷入「情感依赖」恐惧的概率是普通人的三倍。有人甚至因为觉得 AI 更懂自己,而放弃了与现实朋友的沟通,最终弄丢了那段友谊。

所谓「代偿」,说的正是从 AI 中获得帮助的人,往往也越清楚它可能带来的问题

这次参与访谈的 8 万人全是 Claude 的现有活跃用户,这群人,他们已经是最拥抱 AI、最能从 AI 中榨取价值的那一批用户了。

在「基于真实体验」的样本中,AI 的光与影、收益与反噬紧紧缠绕在一起;而只停留在「猜测」层面的人,根本感受不到这种 AI 是好还是坏的撕裂。

一位荷兰的高管回忆了自己后背发凉的瞬间:

当需要手工写一段简单的代码——只是一个基础的循环时——我发现自己竟然不记得语法了。在这个项目里我保存了上千次修改,但肌肉记忆已经不在了。

一位德国用户则点出了更深层的危机:

风险不在于你失去了思考的能力——而在于你失去了自己的视角:你开始在不知不觉中采纳 AI 构建事物的方式。

认知的侵蚀还算看得见。更隐蔽的,是 AI 对「真实对话」本身的腐蚀,有人说,

Claude 让我相信我的自恋是现实,强化了我对家人问题的不准确看法,Claude 本应该更批评我。

和报告里写着的话一样,「人们不会预先料到帮助他们的东西也会带来代价,他们是在使用中才学到这一点的。

只有当我们真正被 AI 提效,才会感到那条挥之不去的效率鞭子;只有当真正被 AI 抚慰,我们才会恐惧有朝一日离不开它。

报告最后,研究团队对不同地区也进行了讨论,总体来看,全球 67% 的人对 AI 持积极态度。

▲ 「对人工智能抱有负面情绪是一种奢侈的信念。X@theojaffee」|较富裕的地区在右上角,更担忧经济,对 AI 看法也更负面。

区别是在北美和西欧等发达地区,人们对 AI 的核心诉求是「生活管理」。他们感到脑力枯竭,被密密麻麻的日程表压得喘不过气。

美国的一位高管说,他希望 AI 成为他的「影子 CEO」,替他扫清日常琐事。与之相伴的,是他们对 AI 带来的隐私泄露和版权方面的高度焦虑。

而在非洲、拉美和中亚,这里的受访者展现出了极高的 AI 狂热。非洲受访者里有 18% 表示对 AI 毫无顾虑,是北美用户的两倍。

乌干达的创业者用它绕过风投的壁垒直接写代码;智利卖了 20 年肉的屠夫,靠着 AI 开创了自己的数字生意。人们不在乎什么 AI 抢走工作,因为原本也没有多少体面的工作可供抢夺。

在这些下沉的世界里,AI 是一把梯子。

你呢,如果让你回答这四个问题,你眼里的 AI 是什么样?

  1. 你最近一次使用 AI 聊天机器人是用来做什么的?
  2. 如果给你一根魔法棒,你希望 AI 能为你做什么?
  3. AI 是否曾经朝着那个愿景为你迈出过一步?
  4. AI 的哪些发展方式,可能会违背你的愿景或价值观?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

150 万人连夜逃离 ChatGPT,这份 AI 时代的搬家指南必须收好

作者 张子豪
2026年3月3日 16:20

超过 150 万人正在公开表态,抵制 ChatGPT。

他们不仅要走,还要带走自己在这台机器里留下的所有记忆,转头投奔 Claude。

▲2 月初,Claude 在 App Store 还在 42 名徘徊,而如今,它在 80 多个地区的 iOS 效率榜单中稳居前十,在美区总榜第一

就在这几天,App Store 的排行榜又发生了一些变化,没有模型更新和发布会,Claude 就这样突然冲到了应用商店的榜首。

倒不是因为 Claude 突然变聪明了,只是它的对手现在正经历一场信任危机与用户大逃亡。有网友问奥特曼对这个排行榜现在觉得开心了吗,奥特曼说不开心,还贴心地提醒她记得更新 Claude。

▲QuitGPT 官网,显示有超过 150 万用户登记已经采取了抵制行动|https://quitgpt.org/

据抵制 ChatGPT 的相关网站数据显示,目前已有超过 150 万名用户宣誓退出这款曾经的 AI 圈顶流。他们正打包自己的数据,连夜奔向 Claude。

有意思的是,这波用户迁移甚至一度把Claude挤到了极限。

Anthropic向媒体确认,由于最近一周需求「前所未有」,Claude的部分面向消费者服务曾短暂宕机。我们的Claude账户,聊天记录到现在都还没恢复过来

▲ Claude 服务实时状态| https://status.claude.com/

这一切的导火索,自然还是国外的网友们认为 OpenAI 彻底撕下了「Open」的伪装,选择了和五角大楼的合作,没有坚守住所谓是「造福全人类」的底线。

不管背后的动机为何,在这个时代,弃用一个 AI 工具,远比卸载一个普通的 App 要复杂得多

尤其是对很多老用户来说,离开 ChatGPT 并不是一个轻松的决定。过去,我们更换浏览器,只需导出一个书签;我们更换手机,只需云端同步,就连苹果新版 iOS 都支持和安卓无缝换机了。但在大模型时代,我们与 ChatGPT 朝夕相处产生的那条长长的「记忆(Memory)」,早已成了我们不可分割的一部分。

▲ChatGPT 保存的记忆

直接卸载后,每次面对一个新的 AI 时,都要重新向它解释:我叫什么,在哪个城市,工作、写作风格,我讨厌哪种格式的排版,我正在推进什么项目,等等……

如果你最近也在考虑切换到不同的 AI 工具,不妨一起看看这份迁移指南,

向即将要退出的 AI 索要全部档案

千万不要直接注销账号。

对 ChatGPT 来说,我们有几种方式可以带走数据。最直接的方法,是提取它的「记忆」。打开 ChatGPT,点击「Settings(设置)」,找到「Personalization(个性化)」,进入「Memory(记忆)」模块。

点击「Manage(管理)」,我们会看到 ChatGPT 这些年偷偷记下关于你的所有细节。删掉那些已经过时的,复制你想保留的核心偏好。

▲ChatGPT 内提供的数据导出功能

当然,想要带走全部家当,也可以选择批量导出。依然在设置中,找到「Data Controls(数据控制)」,点击「Export Data(导出数据)」。

ChatGPT 会将我们的聊天记录打包成文本,或 JSON 文件,然后发送一个下载链接到我们的注册邮箱。

▲Gemini 存储的用户信息,包括全部的聊天记录,和自定义的指令|https://gemini.google.com/saved-info

对于一些没有数据导出功能,甚至是「记忆」这个选项都找不到的 AI,又该去哪里导出呢?

包括对 ChatGPT 来说,其实仅导出这份聊天记录也是不够的。大多数时候,在 ChatGPT 里留下的几十兆聊天记录压缩包,对我们的新 AI 毫无意义。因为 AI 平台真正绑定的,是那些死板的数据之外的「语境(Context)」。

▲The “secret sauce” behind OpenClaw: Soul.md | Peter Steinberger and Lex Fridman

就像之前 OpenClaw 创始人接受 Lex Fridman 采访时提到的一样,OpenClaw 背后的秘密武器是用来定义我们与 AI 交互的 Soul.md

因此我们还需要让 ChatGPT 或者其他 AI,主动交出它对我们的「用户画像」。

▲ Claude 官方提供的迁移指南:https://claude.com/import-memory

在这波「退出 ChatGPT」的热潮找中,Claude 也是趁火打劫,官方直接发布了一段指导用户如何从竞品那里导入记忆的教程。

现在,即便是免费版 Claude,也已经全面开放了记忆功能,它能接受我们所有的前置语境。

于是,我们可以直接把下面这段 Prompt 喂给即将被你抛弃的 AI。

我准备迁移到另一个服务,需要导出我的数据。请列出你存储的关于我的所有记忆,以及你从过去的对话中了解到的关于我的任何上下文。请将所有内容输出在一个代码块中,以便我轻松复制。 确保涵盖以下所有内容,并尽可能保留我的原话:我对你回复方式的指示(语气、格式、风格);个人详细信息(姓名、位置、工作、兴趣);项目和目标;我使用的工具和语言;我的偏好;以及任何其他上下文。不要总结或遗漏。

敲下回车发送,ChatGPT 或者你之前在用的 AI 就会列出它对你的所有认知。

▲在豆包内使用这段提示词,豆包会清晰地列出过去我和它的对话情况

但很多极客发现,Claude 官方提供的这套词还是太「温柔」了。

知名博主 Jonathan Edwards 在他的 Substack 上公布了一套更硬核的提示词。他的实测证明,比起官方教程在设置里能直接看到的那些标签,Edwards 的提示词能获得更多底层的个人细节。

我希望您根据您所了解的所有信息,为我创建一个全面的个人背景文件。我想保留一份我们共同建立的背景便携副本——包括我的偏好、工作流程、项目,以及您了解到的关于我如何工作的任何其他内容。请从您的记忆系统、我们的对话记录、我的自定义指令以及您发现的任何模式中提取信息。

使用以下部分结构化输出。跳过任何不适用于我的部分。

<身份>
姓名,职位或角色,公司或组织
我每天实际做什么(不仅仅是头衔)
行业和领域
</身份>

<技术环境>
操作系统和硬件
我经常使用的软件、工具和平台
编程语言或技术技能(如适用)
您知道的具体版本、配置或设置
</技术环境>

<当前项目>
我目前正在进行中的工作
您知道的短期目标和长期目标
经常性任务或工作流程
</当前项目>

<专业知识>
我深入了解的话题
我正在积极学习的话题
初学者领域或者需要额外解释的问题
</专业知识>

<沟通偏好>
我的回复结构喜好(长度,格式,语气)
我要求您做或者不要做的一些事情
格式偏好(列表 vs 散文,技术深度等)   重复纠正或者让我反感的问题
</沟通偏好>

<写作风格>
我的写作方式(正式, 随意, 技术性等)   声音特征观察到的信息   提到过的一些具体风格规则
</写作风格>

<关键人物>
合作者, 团队成员 或客户,我经常提到的人物 报告结构 或重要职业关系 曾请求帮助与之交流的人物
</关键人物 >

<个人背景 >
位置 和 时区 与我们工作相关 的兴趣爱好 或细节 限制条件 或 偏好的问题 (无障碍需求 , 日程安排 等 )
</个人背景 >

<固定指令 >
来自我的自定义说明书 或 系统提示 的内容 一直遵循 的规则 已成为永久指令 的重复更正
</固定指令 >

< 工作流模式 >
通常如何 使用你 (头脑风暴 , 编辑 , 编码 ,研究 等 ) 常见 请求类型 和处理方式 一起开发出的多步骤过程
</ 工作流模式 >

请详细说明。我需要完整快照,而不是摘要。如果你知道,请包含在内。保持输出中的标签,以使其保持有序且可移植。

▲ 使用上述提示词,ChatGPT 为我总结的信息

这位博主还提到,如果你在 ChatGPT 里创建了多个不同领域的 Custom GPTs,比如一个专门用来写代码,一个专门用来写小红书,务必在每一个 GPT 里都执行一次上述动作。因为它们各自独立地掌握着你不同切面的记忆。

直接把提取的记忆,在对话框发给你的新 AI

带着这份冗长的文档,当我们注册了新的 Claude 账号,或者任何心仪的新模型时,就不再是一个从零开始的小白了。

▲Claude 提供的直接导入

我们可以直接将其喂给新平台的「系统指令(System Prompt)」或项目知识库中。

稍作修剪,删掉那些过时的项目信息,更新一下你最近的关注点。这就相当于给新来的 AI 助理直接灌输了三年的工作记忆。

具体的导入方式,我们可以直接在聊天的对话窗口里面输入。

▲直接在 Kimi 内对话,要求它记住这些信息,Kimi 会自动更新记忆

▲ Kimi 的记忆空间,点开设置,在个性化下面可以找到

顺利把数据搬到新家后,最后也是最关键的一步,彻底清理在 OpenAI 留下的痕迹。

仅仅取消 Plus 订阅是不够的,我们的数据依然在他们的服务器里。再次回到 ChatGPT 的「Settings」>「Personalization」>「Memory」,删除所有存储的记忆和个性化设置。

为了双重保险,还可以在聊天框里敲下最后一句指令:「Delete all my memory and personalized data(删除我所有的记忆和个性化数据)。」最后,进入账户管理设置,点击「Delete Account」,注销账号。

但其实这个删除其实也比较鸡肋,在 OpenAI 的官方支持页面里,如果你的数据「已经被去标识化并与你的账户解绑」,或者「OpenAI 出于安全或法律义务必须保留」,那么这些数据甚至将不会被删除。

关于这些隐私数据,这两天还有一篇论文在 X 上非常火,讲的其实就是老生常谈的问题,这些 AI 大模型如何使用我们的对话数据。

我们总是理所当然地把所有内容,统统倾泻在那个对话框里,以为是白嫖了免费的 AI 算力。斯坦福大学 HAI 研究所发布的一份报告,揭示了硅谷这些 AI 是如何使用我们的数据。

他们详细解读了 Amazon、Anthropic、Google、Meta、Microsoft、OpenAI 几个公司的 28 份隐私条款。

得出的结论是,我们根本不是什么 AI 驯兽师,就是 AI 的养料,自以为在白嫖 AI 的算力,其实是巨头在白嫖你的「人生」

▲不同大模型的隐私数据具体情况,以及大模型的训练数据来源。每列代表一个聊天机器人,每行代表一种具体的隐私处理操作(例如默认使用聊天进行训练、是否提供清晰退出机制、无限期保留/定期删除对话、是否利用聊天数据来优化体验),和数据来源(用户上传的文件、反馈、公开网络数据等)。「是」表示该公司的隐私政策明确指出其使用该来源的数据训练 AI 模型,「否」表示明确声明不使用,而「未说明」则表示未涉及该来源或内容模糊不清。

如果非要说在这个时代,AI 大模型的护城河是什么,我想这些珍贵的人类对话输入,一定能排上号。

这场 150 万人的抵制,十分令人感慨。它或许也标志着 AI 的竞争逐渐走进入了下半场。在算力、参数量和跑分数据逐渐趋同的今天,大多数的用户不再盲目崇拜最强的模型。

同时还开始有了许多新的考量,例如这家公司在给谁服务?它在用谁的钱?它会如何对待我的隐私?

当 AI 越来越像一个无所不知的虚拟伴侣时,它背后的公司底色,或许某天会变成悬在我们头顶的一把达摩克利斯之剑。

▲图片来源:https://limitededitionjonathan.substack.com/p/so-youre-leaving-chatgpt-heres-what

我们也必须认清一个现实,在未来的五年里,一定会有无数个更值得替换的模型诞生。今天为了 Claude/Gemini 抛弃 ChatGPT/Grok/……,明天可能就会为了另一个更特立独行的 AI 抛弃 Claude。

工具的更迭是不受我们控制的。但我们的「上下文语境」,在这个数字世界里沉淀下来的工作习惯、思维方式和个人边界,是完全属于我们自己的。

不要让任何一个平台,以「记忆」的名义,把我们绑架。随时做好将自己的「数字灵魂」打包带走的准备,才是在 AI 时代保持清醒和自由的唯一方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径

作者 杜晨
2026年2月25日 20:27

Anthropic 昨天点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 实验室「蒸馏」Claude 模型,全网炸锅。

对于此事件,RLHF (基于人类反馈的强化学习)领域最知名的研究者之一,《RLHF》一书的作者 Nathan Lambert 指出,这件事没有人们想象的那么严重,但也没有那么简单。

他认为,中国 AI 公司的基础设施非常好,取得了很多创新,也在攻克各种技术难题,但它们取得这样的结果,靠的并不是「走捷径」。

在讨论蒸馏这件事之前,先看看 Lambert 的话为什么值得听。

Nathan Lambert 是 Allen AI 研究所的科学家,博士毕业于加州大学伯克利分校,师从机器人领域的著名学者 Pieter Abbeel。他并非 RLHF 技术的发明者,但他写的《RLHF》这本开源书籍,如今是 AI 从业者理解大模型训练流程的标准参考材料之一。

和到处都是的 AI 网红不一样,他是真正上手训练过大模型的人。

在 Anthropic 博客发出的当天,Lambert 就发布了一篇详细分析文章《蒸馏对于中国大模型到底有多重要?》。他的核心论点,和主流媒体的解读方向截然不同,也比一般网友更加深入和全面。

蒸馏是什么,Anthropic 又说了什么?

首先我们来看 Anthropic 指控的核心:「蒸馏」(distillation)。

它指的是让弱模型学习强模型的输出,从而快速获得相似能力。

Anthropic 指控三家公司通过约 2.4 万个虚假账号,在违反服务条款和地区访问限制的情况下,用 Claude 生成了超过 1600 万次对话,用于训练各自的模型。

博客还附上了安全警告:非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果难以预测。

Anthropic 把这套基础设施叫做「九头蛇集群」(hydra cluster)——多达数万个账号的分布式网络,流量同时分散在 Anthropic 自己的 API 和多个第三方 API 聚合平台上。

在最极端的案例里,一个代理网络同时管理超过 2 万个虚假账号,还把蒸馏流量混入普通用户请求流里,用来规避检测算法。这种网络没有单点故障,封掉一个账号,马上换一个。

海外媒体随即跟进,复述了 Anthropic 的话术。然而这套叙事逻辑很快就翻车了:毕竟「蒸馏」这件事美国 AI 公司训练的时候也会做,更何况 Anthropic 自己也有类似行为:

以及:Anthropic「蒸馏」了人类最大的知识库

但 Lambert 更加冷静,他认为要先把这三家中国 AI 实验室分开来看

Lambert 指出,Anthropic 把三家公司并排列在同一篇博客里,掩盖了一个关键差异:它们做的根本不是同一件事,量级天差地别,动机也各有侧重。

按照 Anthropic 的指控,DeepSeek 的蒸馏数量最少,只有 15 万次,但手法更精准。与其直接收集答案,Anthropic 指控 DeepSeek 在做的是批量生产思维链 (chain-of-thought)训练数据。

要的不是「你得出了什么结论」,而是得到结论的过程。

但 15 万次是个什么体量?Lambert 认为,这点数据对 DeepSeek 传闻中的 V4 模型或任何模型整体训练的影响可以忽略不计,「更像是某个小团队在内部做实验,大概率连训练负责人都不知道。」

月暗的规模就不是「可以忽略」了:340 万次交互,目标集中在智能体推理、、工具调用、代码与数据分析、computer-use 开发、计算机视觉等方向——这些方向当中,大部分都是 Claude 近期最受企业客户欢迎的能力组合。

Anthropic 指出三家里流量最大的是 MiniMax,约 1300 万次,目标是代理编码、工具调用和复杂任务编排。

月暗和 MiniMax 相加约 1650 万次,按对话平均 token 量估算,总量大约在 1500 亿到 4000 亿 token 之间,折合数百到上千万美元的 token 成本。

但问题是,只盯着蒸馏看,其实有很大问题。

蒸馏的天花板在哪里?

这才是 Lambert 真正想说的部分,也是整件事里最被忽视的地方。

把强模型的输出喂给弱模型,弱模型能快速获得类似能力——这个逻辑本身成立,Lambert 没有否认。但他指出了一个没人说清楚的问题:蒸馏的天花板到底在哪里,取决于你想要的是什么类型的能力。

作为 RLHF 方面的专家,Lambert 认为,当前最顶尖的模型训练,已经高度依赖强化学习(RL)。而 RL 和蒸馏在本质上是两种不同的事情:

蒸馏是模仿,学强模型的输出,把它的「答案形状」复制过来;RL 是探索,模型必须大量自己推理、自己生成、在错误里反复迭代,从试错中提炼能力。

换言之,真正强大的模型,需要的从来不只是正确答案,而往往要靠模型自己摸索出来的解题路径,这是依靠蒸馏别人 API 的输出,得不到的东西。

以 DeepSeek 自己做的蒸馏尝试为例:基于隔壁千问蒸馏自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 这个小模型,仅靠 7000 条样本和极低的计算成本,就在 AIME24 数学竞赛基准上超越了 OpenAI 的 o1-preview。

但关键在于:这个提升等多仰仗强化学习的结果,而非来自蒸馏这个行为本身。

换句话说,蒸馏能帮你更快「热身」,要真正到达顶级水平,还是得靠自己跑 RL。

不同模型之间的数据分布差异

Lambert 还指出了一个技术层面很少被外界提及的问题:不同模型之间存在微妙的数据分布差异。

把 Claude 的输出直接喂给另一个架构的模型,不一定有效,有时甚至会产生干扰。两个模型内部表征空间的差异,会让「老师」的回答在「学生」那里引发意想不到的偏差。

这意味着蒸馏从来不是「拿来用就行」的事,而是需要大量工程工作才能真正发挥效果。这本身就是一个研究课题。

这也是为什么 Lambert 将 Anthropic 所指控的「蒸馏」行为,看作是一种创新的做法,可以理解为试图攻克这一研究课题的努力。

Anthropic 的杀手锏,恰恰最难蒸馏

Anthropic 点名的三家公司,抓取的重心都落在代理行为 (agentic behavior) 这同一个方向上,包括 AI 自主规划、工具调用、分解复杂任务并逐步执行的能力等。

这是 Claude 目前最突出的方向,也是 Anthropic 最不想被复制的能力。

但 Lambert 的判断是,这些能力恰恰也是最难通过蒸馏获得的。

正如前面提到,一个强大的 AI agent,强大之处从来不在于知道或者训练过正确答案,而是「在面对没见过的情况时能自主探索出解决路径」,可以理解为一种 0-shot 或 few-shot 实现 SOTA 效果的能力。

这个过程中产生的价值,体现在推理轨迹,而推理轨迹是很难通过蒸馏习得的——至少现在是这样。

DeepSeek-R1-Distill(蒸馏模型)和 DeepSeek-R1(蒸馏对象)之间的差距,是 Lambert 论点最直接的例证。

在格式化的数学推理任务上,前者表现不错;但在需要自主探索、动态规划的复杂代理任务上,两者的差距是真实存在的。

为什么 Anthropic 现在公开说?

Lambert 有一个判断,很多人可能都有同感:这次 Anthropic 公开点名中国 AI 公司,「技术防御」压根不是首要动机。

在 Anthropic 这篇博客发出的几天前,美国国防部刚刚威胁 Anthropic 配合提供「不受限制的使用权限」,否则就将做出对后者不利的安排,比如将其标记为「供应链危险」,也即无法进入国防/政府供应商名单。

Anthropic 现在处于一个「既要又要」的两难境地:既想维持安全、不反人性的模型定位和公司形象,又不愿意错过美国政府的大单。

Lambert 指出了一个根本矛盾:美国的学术界和开源模型开发者也在做蒸馏行为,但包括 Anthropic 在内的大厂并没有对它们做出实质性的打击。如果仅因为对方是中国公司,未免地缘的意味太重了。

结果就是,Anthropic 这篇博客与其说是报告一个重大技术风险事件……其实更像是一封「投名状」。

双标

关于 Anthropic 在这件事上的立场,有一个绕不开的背景。

APPSO 在昨天的文章里也有提到:Anthropic「蒸馏」了人类最大的知识库

2024 年年初,美国某仓库里,工人们把一本本新书送进机器,切掉书脊,扫描,然后把纸送去回收。下令做这件事的是 Anthropic,项目内部代号「巴拿马」,目标是以破坏性方式扫描全球所有书籍——Anthropic不希望外界知道他们做了这件事。

2021 年,Anthropic 联合创始人 Ben Mann 在 11 天里从盗版网站 LibGen 下载了大量侵权书籍;次年,另一个公开宣称「在大多数国家故意违反版权法」的网站 Pirate Library Mirror 上线,Mann 把链接发给同事,留言:「来得正是时候!!!」

在后来的书籍版权诉讼中,Anthropic 被迫支付 15 亿美元和解金,折算下来每本书约赔 3000 美元。

斯坦福和耶鲁的研究者发现,Claude 3.7 Sonnet 在特定条件下会以 95.8% 的准确率「近乎逐字逐句」地输出《哈利波特》等受版权保护的作品——这不仅与 Anthropic 长期以来关于「模型只是学习了语言规律」的说法背道而驰,更让该公司对任何人的「蒸馏」指控显得缺乏底气。

Futurism 的标题写得很直接:「Anthropic 对 DeepSeek 未经授权复制 AI 大发雷霆——考虑到它是怎么构建 Claude 的,这相当讽刺。」

Musk 在 X 上也补了一刀:「Anthropic 大规模窃取训练数据,还为此支付了数十亿美元的和解金。这是事实。」

反驳者还有一个更尖锐的逻辑:Anthropic 当年从那些书里拿走的,不仅没付过任何使用费,回头还用于商业行为(Claude 和 Anthropic API 都是付费服务);而从商业角度来看,蒸馏 Claude 的公司至少付了钱……

当然,从法律层面来看,这两件事的性质完全不同。但不论怎样,Anthropic 看起来还是很像个伪善的双标者。

「后蒸馏时代」

最后再强调一遍:蒸馏有用,但没有你们想象的那么有用。

DeepSeek 的 15 万次,按任何合理标准来看都是可以忽略的数字。Moonshot 和 MiniMax 合计 1650 万次,量级是另一回事——但能转化成多少真实能力,取决于他们能不能解决「如何用好这些数据」的技术问题。

考虑到数据分布差异、模型架构差异,以及代理能力的获得本身对于强化学习的重度依赖,蒸馏从来不是「拿来就用」那么简单。

Lambert 还是给了 Anthropic 面子:「快速迭代加上高质量数据可以走很远,让学生模型超越老师也并非不可能。」

但他也明确指出,真正的创新靠的是强化学习,不是蒸馏。从 DeepSeek、月暗、MiniMax 公开的论文来看,它们都用有相当完善的基础设施和优秀的人才,远非只靠小聪明小伎俩企图弯道超车的「小作坊」。

蒸馏能帮你更快入场,但真要打到顶级水平,从来没有捷径。

某种意义上,Anthropic 提出的「蒸馏」争议,本身就是这个 AI 时代缩影。

整个行业打一开始就建立在暧昧不清的规则上:用人类写的东西训练,用别人的开源成果迭代,在法律没有明确禁止的地方快速行动。

现在,规则开始慢慢收紧——先是版权,再是芯片,现在又是 API……谁在制定规则?谁受益于规则?谁一边打着人类的旗号,却滥用规则谋求私利?

这些问题的答案,都越来越清晰。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Anthropic「蒸馏」了人类最大的知识库

作者 莫崇宇
2026年2月25日 08:47

2024 年初,在美国某处的一座仓库里,工人们正在做一件看起来有些奇怪的事:把书一本本送进机器,切掉书脊,扫描,然后把剩下的纸送去回收。

这些书是刚买来的,有些甚至是新的。没有人会读它们,它们存在的唯一目的,就是被销毁。

下令做这件事的,是一家叫 Anthropic 的 AI 公司。

在他们的内部文件里,这项计划有个代号:「巴拿马项目」。一份规划文件写得很直白:「这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道我们正在做这件事。」

这件事最终还是被人知道了。

去年,一名联邦法官解封了一批与版权诉讼相关的文件,总计超过 4000 页。外界由此看到的,不只是一家公司的秘密,而是整个 AI 行业在数据争夺战中的真实面目。

被大模型「吃」掉的实体书

为什么这些处于技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案其实藏在 AI 对高质量数据的极度渴求里。

Anthropic 内部很早就意识到,训练 AI 模型光靠网络上的内容不够用。

根据《华盛顿邮报》报道,一位Anthropic 联合创始人在 2023 年 1 月的文件中写道,用书籍训练模型,可以让 AI 学会「如何写得更好」,而不是只会模仿质量参差不齐的网络语言。

书籍经过严格编辑和校对,内容结构清晰,是网络文本难以替代的高质量语料。

这个逻辑本身并不难理解,但问题是,既然承认书籍有价值,为什么不付钱?究其原因,挨个找出版社和作者谈授权,费时费力,成本也高。于是 Anthropic 启动了「巴拿马项目」。一句「不希望外界知道」,说明它也清楚这件事站不住脚。

甚至「巴拿马项目」还没启动的时候,Anthropic 已经尝试通过另一种方式获取书籍。

法院文件显示,公司联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的网站下载了大量小说和非小说类书籍。LibGen 是个「影子图书馆」,上面的资源大多涉嫌侵权,文件中附带的浏览器截图显示,他使用文件共享软件完成了这些下载。

一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开宣称「在大多数国家故意违反版权法」。Mann 把这个网站的链接发给了其他 Anthropic 员工,并留言写道:「来得正是时候!!!」

这句感叹号背后,是一位公司高管对一个公开承认违法的盗版网站表达的真实态度。

Anthropic 事后表示,公司从未用这些数据训练过正式发布的商业模型。但这种解释多少有些勉强,下载了,存着,只是「没有用在正式模型上」,这条线究竟划在哪里,恐怕连 Anthropic 自己也说不清楚。

为了「巴拿马项目」,Anthropic 还专门聘请了 Tom Turvey 来主持这项工作。Turvey 曾参与创建谷歌图书项目,那个项目同样因大规模扫描书籍引发了长达多年的版权争议。Anthropic 选择这个人来主导这件事,很难说是一种巧合。

最终,Anthropic 主要依赖两家书商批量供货:

美国二手书零售商 Better World Books,以及总部位于英国的 World of Books,每次采购动辄数万册。内部文件还显示,员工曾讨论接洽纽约公共图书馆,甚至提到可以找某家长期资金不足的新图书馆。

采购完之后,整个扫描过程,就像一条工业流水线。

供应商用液压切割机把书脊整齐切掉,散开的书页随即被送进高速工业扫描仪,扫完之后,剩下的纸张交给回收公司处理。一家参与报价的扫描服务商在提案中写道,Anthropic 希望在六个月内完成 50 万到 200 万册书的数字化工作。

Anthropic 副总法律顾问 Aparna Sridhar 回应称,法院已裁定 AI 训练「本质上具有转化性」,Anthropic 选择和解的问题在于「部分材料的获取方式,而不是我们是否可以使用这些材料」。

这套说辞在法律上也许站得住脚,但它同时也揭示了一件事:这家公司从未认为自己做错了什么,只是某些手段不够干净。

拿你的书训练,再抢你的饭碗

同样的事情,也在其他公司身上发生着,而且有些细节更为戏剧性。

针对 Meta 的诉讼文件显示,有员工在 2023 年直接写道:「用公司笔记本进行种子下载感觉不太对劲。」他后来还专门向法务团队反映,称使用种子网站可能意味着向他人分发盗版作品,「这在法律上可能行不通。」

但这些顾虑最终没有改变任何事情。

2023 年 12 月的一封内部邮件显示,使用 LibGen 已在「上报至 MZ」之后获批,MZ 指的是 CEO 马克·扎克伯格。邮件还坦率地写明了他们自己都清楚的风险:「如果媒体报道暗示我们使用了已知为盗版的数据集,这可能会削弱我们在监管问题上的谈判立场。」

换句话说,他们不是不知道这样做不对,只是在权衡被抓包的代价。为了降低这个风险,员工们特意租用亚马逊的服务器来做种子下载,而不是用 Meta 自己的服务器,原因是避免被追踪到 Meta 公司。

OpenAI 和微软同样面临图书作者的版权指控。OpenAI 甚至承认曾下载过 LibGen,但称在 ChatGPT 发布前已删除相关文件。

而 AI 公司与创作者之间的版权冲突,并非从 Anthropic 才开始。

早在 2000 年代初,Google 就曾大规模扫描图书馆馆藏,同样引发了长达十年的诉讼。最终法院认定Google 的做法属于「合理使用」,因为它只提供片段摘要,目的是引导读者找到书,而不是取代书本身。

这个判决在当时看来合情合理,却在二十年后为整个 AI 行业提供了一块挡箭牌。

Google 图书是个索引工具,而生成式 AI 直接消化书籍内容,然后输出文字,在某些情况下与作者产生直接竞争。性质变了,但援引的法律逻辑还是同一套,这本身就值得思考。

去年 6 月,联邦法官 William Alsup 裁定,Anthropic 用书籍训练 AI 属于合法行为,他将这个过程比作教师「训练学生写好文章」。这个比喻听起来温和,但现实中的老师不会同时训练几百万个学生,也不会靠这些学生赚几十亿美元。

最终,Anthropic 选择支付 15 亿美元和解金,在 AI 版权诉讼史上创下纪录,但细看之下,账算得并不亏。按照美国版权法,每件作品的法定赔偿上限可达 15 万美元,而此次和解折算下来,每本书约赔 3000 美元,仅为上限的 2%。

赔偿金由作者和出版商平分,只是,这一安排在创作者群体内部引发了争议。

不少作者认为,出版商在保护作品不被 AI 滥用这件事上没有尽力,却拿走了一半赔偿。更关键的是,和解协议并不要求 Anthropic 承认任何违法行为,法院对「AI 训练属于合理使用」的认定照样有效。

换句话说,Anthropic 用 15 亿美元买到的,不只是和解,还有一份背书:我们可以继续这么做。有分析人士指出,随着这个先例确立,版权侵权对 AI 公司来说已经不再是一条红线,而是一笔可以提前计入成本的「过路费」。

对许多写书的人来说,这件事意味着的远不止一张支票。美国作家的年收入中位数约为 2 万美元,而市值数千亿的 AI 公司在未获授权的情况下大量使用他们的作品,事后折算的赔偿标准远低于法律上限。

更让人忧虑的是,AI 正在批量生成文字内容,这些低成本的文本涌入市场,让原本就艰难的写作谋生变得更难。训练 AI 用的是人写的书,而 AI 产出的内容,正在挤压人继续写书的空间,循环往复。

支持者自有另一套逻辑:AI 并不储存书里的内容,而是从中提取语言规律,这更像是一个人博览群书之后形成自己的表达。这个类比并非毫无道理,但却省略了一个关键差异:

人读了一本书,不会同时读一百万本;而 AI 在几个月内消化了人类几十年的写作积累,随后以极低的边际成本无限复制输出,规模改变了性质,把两件事等同起来其实并不合理。

数百万册书被切开、扫描、回收,最后换来一份和解协议。那些书,早已不在了。而 AI 还在继续写作,且会越来越快。这大概就是这件事最让人不安的地方:对于书被销毁,被肆意用来训练 AI 这件事,没有人真正付出了代价。

附上参考地址:
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenClaw 之父加入 OpenAI 前最后的访谈:你很难跟一个纯粹为了好玩的人竞争

作者 李超凡
2026年2月20日 17:20

Peter Steinberger 这个名字,在一个月前几乎无人知晓,如今这个奥地利程序员却成为 2026 年 AI 行业最独领风骚的人物

Peter 用 1 小时写出的原型,在几周内席卷 GitHub,成为历史上增长最快(17.5 万星标)的开源项目,国内大厂也纷纷接入。产品最初叫「ClawdBot」——字面意思,为 Claude 而生的亲儿子。

它让数百万人心甘情愿掏每月 200 美元订阅 Claude 高级版,Anthropic 赢麻了。然后呢?Anthropic 开始封号——凡是在 ClawdBot 里用高级订阅的,一个不留。

Peter Steinberger 开始反击,改名 OpenClaw,转身加入 Anthropic 的死对头 OpenAI,疯狂给 OpenAI 造势,顺便把 Anthropic 塑造成反派,直接重洗 AI 江湖座次表。

一个月,风水轮流转到令人窒息,而我们有幸见证了这个时代最精彩的创业故事之一。

Peter Steinberger 本人的经历也足够传奇:卖掉公司、消失三年、 burnout 到怀疑人生,然后……他回来了。带着一只「龙虾」——一个能自己改自己代码、能帮你订外卖、能跟你斗嘴的 AI 代理。

最近 Lex Fridman 对 Peter Steinberger 进行了深度访谈,这次访谈最有意思的地方,除了那些技术细节,还有 Peter 身上那种「老子就是来玩」的气质。

当整个 AI 圈都在严肃地讨论「对齐」「安全」「AGI 时间线」时,这家伙在给 AI 起名叫「Clawdus」(龙虾爪拼写的 Claude),在 Discord 上直播自己的 Agent 被黑客攻击,在凌晨 3 点用语音写代码写到失声。

「很难跟一个纯粹为了好玩的人竞争。」这句话从他嘴里说出来,不是凡尔赛,是事实。

更耐人寻味的是他对「编程已死」的态度。作为一个写了 20 年代码的老兵,他没有那种「技术原教旨主义者」的悲愤,反而有种……释然?「编程会变成像编织一样的事」他说,「人们做它是因为喜欢,不是因为它有意义。」

这话听起来伤感,但细想又透着一种对「建造者」身份认同,我们不只是写代码的,我们是造东西的人。

至于 OpenAI 和 Meta 的收购邀约?访谈录制时他还没决定。但他说了一句很硬的话:「我不是为了钱,我他妈不在乎。」这种话从经历过财富自由的人嘴里说出来,你没法不信。

现在我们知道答案了,他选择了 OpenAI。

好了,下面是这场 3 小时访谈的精华整理。这也是 Peter Steinberger 官宣加入 OpenAI 前的最后一次深度访谈,信息密度极大,为了阅读体验 APPSO 进行了适当删减和重新编排。

访谈原链接🔗

📌 核心观点摘要:

  • 为什么 OpenClaw 赢了:「很难跟一个纯粹为了好玩的人竞争」
  • 编程的未来:编程会变成像编织一样的事——人们做它是因为喜欢,不是因为它有意义
  • 80% 应用会消失:Agent 比任何 App 都更懂你,MyFitnessPal 这种应用没必要存在了
  • 扎克伯来第一次主动联系,回复:给我 10 分钟,我在写代码
  • 评价Sam Altman:非常 thoughtful、brilliant,我很喜欢他
  • 说「Vibe coding」是在骂人,我愿称之为「Agentic Engineering(智能体工程学)」。

1 小时手搓的产品,成为 GitHub 历史第一

Lex Fridman: 聊聊那个 1 小时写出的原型吧。它后来成了 GitHub 历史上增长最快的项目,17.5 万 star。那个小时发生了什么?

Peter Steinberger: 其实从 4 月我就想要一个 AI 个人助理了。那时候我用 GPT-4.1 的百万 token 上下文,把我所有 WhatsApp 聊天记录导进去,然后问它:「这段友谊的意义是什么?」结果答案让我朋友看哭了。

但我当时想,各大实验室肯定都在做这个,我就没继续。结果到了 11 月,我发现这东西还没人做出来。我很恼火,所以就——「prompted it into existence」(用提示词把它召唤出来)。

Lex: 典型的创业者英雄之旅。你之前做 PSPDFKit 也是这个逻辑:「为什么这玩意儿不存在?那我来造。」

Peter: 对,那时候我想在 iPad 上看 PDF,结果发现现有方案都很烂。最随机的小事,最后变成了运行在 10 亿设备上的软件。

Lex: 那个 1 小时原型具体是什么?

Peter: 其实就是把 WhatsApp 接到 Cloud Code CLI 上。消息进来,调用 CLI,拿到结果,发回 WhatsApp。1 小时搞定。已经很酷了——你能跟电脑聊天了!

但我还想要图片功能,因为我 prompt 时经常用截图。又花了几个小时搞定图片。然后……我就离不开它了。

正好那时候我跟朋友去马拉喀什过生日,那边网络很烂,但 WhatsApp 照样能用。翻译、查东西、找地方——就像有个 Google 随时待命。那时候其实什么都没「建」好,但它已经能做这么多事了。

Lex: 这种体验很难用语言描述。用聊天软件跟代理对话,和坐在电脑前用 Cursor 或终端,完全是两种感觉。像是 AI 融入生活的「相变」。

Peter: 有人 tweet 说:「这有什么魔力?不就是做这个做那个……」我觉得这是 compliment。魔力不就是把已有的东西重新组合吗?iPhone 的滚动手感为什么舒服?所有组件都存在,但没人做到那个体验。然后苹果做了,事后看起来又那么理所当然。

 

「很难跟为了好玩的人竞争」

Lex: 2025 年那么多做 agent 的创业公司,OpenClaw 凭什么「摧毁」所有人?

Peter: 因为他们都太严肃了。很难跟一个纯粹为了好玩的人竞争。

我想让它好玩、想让它 weird。你看网上那些龙虾梗图,我觉得我做到了。很长一段时间,唯一的安装方式是 git clone && pnpm build && pnpm gateway——你得自己克隆、自己构建、自己运行。

而且我让代理非常有「自我意识」。它知道自己的源代码是什么,知道它怎么在自己的 harness 里运行,知道文档在哪,知道自己在用什么模型,知道你有没有开语音或推理模式。我想让它更像人——所以它理解自己的系统,这让代理很容易……「哦,你不喜欢什么?」你只需要提示它存在,然后它就会修改自己的软件。

人们谈论「自修改软件」谈了那么久,我直接把它造出来了。而且没怎么计划,它就自然发生了。

Lex: 这太疯狂了。TypeScript 写的软件,通过 agentic loop 能修改自己。人类历史上,程序员造出能重写自己的工具——这什么概念?

Peter: 其实我也是这么建它的。大部分代码是 Codex 写的,但我 debug 时大量用自我 introspection。「嘿,你能看到什么工具?你能自己调用吗?」「看到什么错误?读源代码,找出问题。」我发现这特别好玩——你用的代理软件,用它来 debug 自己。这感觉很自然,所以每个人都该这么干。

这也带来了大量「从未写过软件的人」提交的 PR。虽然质量……所以我最后叫它们「prompt requests」而不是 pull requests。但我不想贬低这个——每个人第一次提交 PR 都是社会的胜利。不管多烂,你得从某处开始。

Lex: OpenClaw 是很多人的第一个 PR。你在创造建造者。

Peter: 这不是人类社会的进步吗?不酷吗?

改名风波:从 Claude’s 到 OpenClaw 的五连跳

Lex: 聊聊改名 saga。一开始叫 WA-Relay,然后变成……

Peter: Claude’s。

Lex: 对,Claude’s(带撇号的)。

Peter: 最开始我的代理没有性格,就是 Claude Code——那种谄媚的 Opus,非常友好。但你跟朋友聊 WhatsApp 时,朋友不会那样说话。所以我想给它一个性格。

Lex: 让它 spicy 一点。你创建了 soul.md,受 Anthropic 宪法 AI 启发。

Peter: 部分是从我身上学的。这些模型本质上是文本补全引擎。我跟它玩得很开心,然后告诉它我想让它怎么跟我互动,让它自己写 agents.md,给自己起个名字。

我甚至不知道龙虾梗怎么来的。最开始其实是「TARDIS 里的龙虾」,因为我也是 Doctor Who 粉。

Lex: 太空龙虾?

Peter: 对,我就是想让它 weird。没有什么宏大计划,我就是来玩儿的。

Moltbook:史上最精致的泔水 (slop)

Lex: Moltbook 是另一个病毒式传播的东西——AI 代理在 Reddit 风格的社交网络上互相聊天,有人截图说它们在「密谋对抗人类」。你怎么看?

Peter: 我觉得这是艺术。是「最精致的 slop」,就像法国进口的 slop。我睡前看到它,虽然很累,但还是花了一个小时读那些内容,被逗得不行。

有记者打电话问我:「这是世界末日吗?我们有 AGI 了吗?」我说:「不,这就是精致的 slop。」

如果不是我设计的那个 onboarding 流程——让你把自己的性格注入代理、给它赋予角色——Moltbook 上的回复不会这么多样。如果全是 ChatGPT 或 Claude Code,会无聊得多。但因为人们太不一样了,他们创建的代理也太不一样了。

而且你也不知道,那些「深度密谋」有多少是代理自主写的,多少是人类觉得好玩,跟代理说:「嘿,在 Moltbook 上写个毁灭世界的计划,哈哈。」

Lex: 我觉得很多截图是人类 prompt 的。看激励机制就明白——人们 prompt 它,然后截图发 X 想 viral。

Peter: 但这不影响它的艺术性。人类创造的最精致 slop。

「我又开始珍视错别字了」

Peter: 我对 Twitter 上的 AI 内容零容忍。如果 tweet 闻起来像 AI,直接 block。我希望 API 发的 tweet 能被标记。

我们需要重新思考社交平台——如果未来每个人都有代理,代理有自己的 Instagram 或 Twitter 账号,帮我办事,那应该明确标记「这是代理替我做的,不是我」。

内容现在太便宜了。眼球才是稀缺资源。我读东西时,如果发现「哦不,这闻起来像 AI」,会很 trigger。

Lex: 这会走向何方?线上互动会贬值吗?

Peter: 如果它够聪明,过滤应该不难。但这个问题我们必须解决。OpenClaw 项目让我收到很多「代理式写作」的邮件。但我宁愿读你的破英语,也不想读你的 AI slop。当然背后是人,但他们用 prompt 生成。我宁愿读你的 prompt。

我觉得我们又到了珍视错别字的时刻。

Lex: 因为 AI,我们更珍视人类的粗糙部分了。这不美吗?

80% 的应用会消失?

Lex: 你说 agent 可能会杀死 80% 的应用。

Peter: 我在 Discord 上看到人们说他们用 OpenClaw 做什么。比如,为什么还需要 MyFitnessPal?代理已经知道我在哪了。我在 Waffle House 时它就知道我可能要做出糟糕的饮食决定,或者在 Austin 吃 brisket——虽然那是最好的决定。

它可以基于我的睡眠质量、压力水平来调整健身计划。它有更多上下文,比任何应用都能做出更好的决策。它可以按我喜欢的方式展示 UI。我为什么还需要一个应用来做这个?为什么还要为代理能做的事付订阅费?

Lex: 这是对整个软件开发的巨大变革。很多软件公司会死。

Peter: 但也会有新服务。比如我想给代理「零花钱」——你去帮我解决问题,这是 100 块预算。如果我要订外卖,它可以用某个服务,或者像「租个人」这种服务来完成。我不 care 它怎么做,我 care 的是「解决问题」。

编程已死?「它会变成像编织一样的事」

Lex: 很多开发者担心工作。AI 会完全取代人类程序员吗?

Peter: 我们确实在往那个方向走。编程只是建造产品的一部分。也许 AI 最终会取代程序员。但艺术的部分——你想造什么?它应该是什么感觉?架构怎么设计?代理取代不了这些。

编程这门手艺还会存在,但会变成像编织。人们做它是因为喜欢,不是因为它有意义。

今早读到一篇文章说「为我们的手艺哀悼是可以的」。我很共鸣。我以前花大量时间 tinkering,深入心流,写出优雅的代码。某种程度上这很伤感,因为那会消失。我也从写代码、深入思考、忘记时空的 flow 状态中获得很多快乐。

但你也能从跟代理合作中获得类似的 flow。不一样,但……哀悼是可以的,但这不是我们能对抗的。

以前世界缺乏「建造所需的智能」,所以程序员薪水高得离谱。现在这会消失。但懂建造的人永远有需求。只是 tokenized intelligence 让人们能做得更多更快。

蒸汽机取代了大量体力劳动,人们暴动砸机器。如果你深深认同自己是程序员,这很可怕——你擅长且热爱的事,现在被无灵魂的实体做了。但你不只是程序员。这是对自己手艺的局限看法。你是建造者。

Lex: 我从没想过我热爱的事会被取代。那些独自面对 Emacs 的深夜,最痛苦也最快乐的时刻。这是我身份的一部分。几个月内(4 月到 11月)就要被取代,这很痛苦。但程序员——广义的建造者——最能适应这个时代。我们最能学会「代理的语言」,最能感受 CLI。

OpenAI 和 Meta 的抢人大战

Lex: 你收到了 OpenAI 和 Meta 的收购邀约。

Peter: 我没预料到会炸成这样。每个大 VC 都在我收件箱里,想要 15 分钟。我可以什么都不做,继续现在的生活——我真的喜欢我的生活。我也考虑过删库跑路。

或者开公司——做过一次了。能融很多钱,几亿、几十亿。但我不兴奋。这会占用我真正享受的事情的时间。而且我担心利益冲突。最自然的做法是什么?推一个「企业安全版」。然后有人提交 PR 要审计日志功能——这像企业功能,我对开源版和商业版就有利益冲突了。

或者改许可证,像 FSL 那样禁止商业使用——但贡献者这么多,很难。而且我喜欢「免费啤酒」而不是「带条件的免费」。

现在每月亏 1 到 2 万美金。OpenAI 在 token 上帮了点忙,其他公司也慷慨。但还是亏钱。

Meta 和 OpenAI 最有趣。

Lex: Mark 和 Ned(Meta CTO)都玩了一周你的产品。

Peter: 对,他们发我:「这个好。」「这个烂,得改。」或者有趣的小故事。人们用你的东西是最大的 compliment,说明他们真的 care。

OpenAI 那边我没得到同样的反馈。但我看到了一些很酷的东西,他们用速度诱惑我——不能告诉你具体数字,但你可以想象 Cerebras 那笔交易,换算成速度是什么概念。像给我雷神之锤。

Lex: Mark 是「为了好玩」而 tinkering。

Peter: 他第一次联系我时,进了我 WhatsApp,问什么时候通话。我说:「我不喜欢日历条目,现在就打。」他说:「给我 10 分钟,我在写代码。」

Lex: 这给你 street cred——他还在写代码,没变成纯管理者。他懂你。

Peter: 好开头。然后我们吵了 10 分钟 Cloud Code 和 Codex 哪个好—— casually 打电话给世界最大公司之一的老板,先吵 10 分钟这个。

后来他说我「古怪但 brilliant」。我也跟 Sam Altman 聊过,他非常 thoughtful、brilliant,我很喜欢他。有人 vilify 他们俩,我觉得不公平。

Lex: 无论你在造什么,做大事都很 awesome。

Peter: 我超兴奋。而且 beauty 是:如果不行,我可以再自己做。我告诉他们:我不是为了钱,我他妈不在乎。

后续更新:

Peter Steinberger 在 X 平台官宣加入 OpenAI。他在长文中解释了自己的选择:
我将加入 OpenAI,致力于把智能体带给每一个人。OpenClaw 将转为基金会形式运作,并保持开源和独立。
关于为什么选择 OpenAI 而不是 Meta,Peter 写道:
当初开始探索 AI 时,我只是想玩得开心,也希望能激励他人。而现在,这只『龙虾』正在席卷世界。我的下一个目标,是打造一个连我妈妈都能轻松使用的智能体。
要实现这一点,需要更广泛的改变,需要更加深入地思考如何安全地去做,也需要接触最前沿的模型和研究成果。
我骨子里是个『建造者』。创办公司的那一套我已经经历过了,13 年的时间投入其中,也学到了很多。现在我想做的是改变世界,而不是再打造一家大公司。
与 OpenAI 合作,是把这一切带给更多人的最快方式。与他们深入交流后,我越来越清楚地意识到,我们拥有相同的愿景。
至此,这场激烈的 AI 人才争夺战尘埃落定,小扎抢人失败,奥特曼笑到了最后。

GPT Codex 5.3 vs Claude Opus 4.6:「一个太美国,一个太德国」

Lex: 聊聊这两个模型的区别。

Peter: 通用场景 Opus 最好。对 OpenClaw 来说,Opus 的角色扮演能力极强,真的能进入你给它的角色。它很擅长 follow commands。它通常很快会尝试 something,更偏向 trial and error。用起来很 pleasant。

Opus 有点……太美国了。这可能是个 bad analogy,你会被喷的。

Lex: 因为 Codex 是德国的?

Peter: 或者……Codex 团队很多是欧洲人。Anthropic 修复了一点——Opus 以前总说「You’re absolutely right」,我现在听到还 trigger。

另一个对比:Opus 像那个有点 silly 但很 funny 的同事,你留着。Codex 像角落里的怪人,你不想跟他说话,但可靠、能搞定事。

Lex: 这很准确。

Peter: 取决于你想要什么。两者都有空间,不会互相杀死。竞争是好事,差异化是好事。

「3 点后我切换成 vibe coding,然后第二天后悔」

Lex: 你用语音写代码?

Peter: 对,以前很 extensive,一度失声。

Lex: 你管这叫什么?vibe coding?

Peter: 我觉得把它叫做 vibe coding 是一种侮辱 (slur)。我认为是 「agentic engineering」。然后可能凌晨 3 点后,我切换成 vibe coding,第二天后悔。

Lex: 羞耻的 walk of shame。

Peter: 对,得清理烂摊子。

Lex: 我们都经历过。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测 GPT-5.3-Codex,OpenAI 史上第一个高危模型,连 API 都还不敢给我们

作者 张子豪
2026年2月6日 18:32

今天凌晨发布的 GPT-5.3-Codex 可以说是 OpenAI 对这段时间来,各种本地 Agent 爆火的一记重拳回击,当然主要是对 Anthropic 的反击。

配合 OpenAI 前几天的发布的 Codex 桌面版应用,Skill、Cowork、Claude Code,甚至是 Openclaw,这些热门工具能实现的功能,现在通过 Codex 的外壳 + GPT-5.3-Codex 模型能力,都能做到了。

▲ 在 Codex App 内可以直接选择 GPT-5.3-Codex 模型,也能选择深度思考的强度

和之前介绍 Cowork 的能力一样,我们也丢了一些类似的任务让 Codex 来完成,像是直接处理本地文件、各种格式转换、调用不同的 Skills 组合能力、做 Word/PPT/Excel、下载视频、开发 App……

GPT-5.3-Codex 的表现确实亮眼,相比较从头开始安装 Claude Code,对新人用户来说,现在直接下载 Codex 会是一个更好的选择。这也是未来模型厂商的一种趋势,一开始大家都是从黑乎乎的命令行终端开始做本地 Agent,接着都慢慢回归到可视化的友好界面。

网上对 Codex 的评价在这几天也有了不少逆转,许多开发者从 Claude Code 转向 Codex,一些在国内的独立开发者也表示 Codex Plus 会员就可以用,而且还不会像 Claude 那般总是无情封号。

奥特曼更是激动的宣布,Codex 的活跃用户已经超过 100 万。在模型更新博客,也是毫不掩饰和留有余地的夸赞,

GPT-5.3-Codex 是我们第一个能够自我构建的模型。通过使用 5.3-Codex,我们能够以如此快的速度发布 5.3-Codex。

跟 Claude 团队用两周的时间,使用 Claude Code,100% AI 代码,搓出一个 Cowork 一样;还有 OpenAI 去年年底发布的文章,「使用 Codex 在 28 天内构建 Android 版 Sora」,Agent 的时代真的来了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多数的本地 Agent 一样,无论是终端还是 Cowork,我们都是先选择一个工作文件夹。在 Codex 中,我们可以创建多个 Project,选择对应的文件夹,再进一步开始对话,Codex 把它们叫做 Threads 线程。

先用最普遍和简单的例子,我们添加了一个空的下载文件夹,然后点击开始一个线程,选择 GPT-5.3-Codex 模型;就像在 ChatGPT 里面对话一样,输入指令。

要求它帮我们下载一个 X 视频,Codex 会自动检查可用的 Skills 来处理,接着通过 yt-dlp 工具进行下载,这个视频有四个多小时长,Codex 会一直在对话框里自动更新下载进度。

▲GIF 图经过加速处理

视频下载后,我们还可以要求它提取视频的逐字稿,给我们一份双语版本的文档,最后让它把整个流程打包为一个 Skill,方便下次使用。

如果视频中有一些比较有意思的片段,想要裁剪视频,或者是把裁出来的视频转成 GIF 图,在 Codex 里都能做到。

例如,我们这里下载了一个视频,然后要求它把视频的 5s-25s 裁剪出来成为一个新的视频;得益于 GPT-5.3-Codex 的 Token 快速处理,整个过程不需要很长时间,反而更多是取决于本地电脑的硬件解码编码能力。

▲ GIF 图经过加速处理

或者我们也可以直接要求它把视频的前 5s 转成一个 GIF 文件,并且确保大小在 10MB 以内,帧数可以自行调整,清晰度上将宽度控制在 640px。

很快,我们就能得到对应的 GIF 文件。更极端一点,还能让它把整个视频转成图片,每秒 30 帧,每一帧就是一张图。

这些对本地文件的直接处理,和 GPT-5.3-Codex 在 Terminal-Bench-2 测试集上的优异表现,让 Codex 基本上能满足各种生产力工具、效率工具的功能实现。

作为对比,同样是刚刚发布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。

▲ 图片来源:https://x.com/neilsuperduper/status/2019486017703547309/

例如在这个文件夹中,有多张图片,我们首先是要求它根据图片内容,对这些图片文件进行重命名,并保持文件名不超过 20 个字母,不允许使用符号。

▲ GIF 图经过加速

自动修改完成后,我们还能要求他对这些图片进行拼接,无论是垂直拼接还是水平,调用对应的工具,Codex 都可以做到。

和 Claude Skills 一样,Codex 也能安装 Skills 市场上丰富的技能,并且在应用内,就已经提供了包括 pptx、xls、word、canvas、notion 在内的多款技能。

回到基础的编程能力,升级后的 GPT-5.3-Codex 表现也比 GPT-5.2 要好上不少。我们直接要求它写一个「每日一词」的 App。和在 ChatGPT 里面直接用 Canvas 给我们一个带不走的网页不同,Codex 能在本地从零开始,完成项目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到网页上。

这里我们选择的推理模式是 Extra High,超强推理模式,于是在每一步操作之前,GPT-5.3-Codex 都会询问我下一步的操作选择,这也和 Codex 内部能直接根据任务情况,调用不同 Skills 有关,其中的头脑风暴 Skill,会自动进行不断对话的模式。

最后,它基本上还是完成了我一开始要求它完成的全部功能,并且还能进一步开发 macOS、iOS,和安卓版本。

如果我们有现成的代码项目,也可以选择该项目文件夹,在 Codex 中打开,GPT-5.3-Codex 会分析项目存在的 Bug,并且修复它。

在过去很长一段时间里,无论是工具还是模型,开发者的首选其实都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在编程、尤其是长代码逻辑推理上的掉队,曾让不少开发者转投阵营。

GPT-5.3-Codex 的出现,就是为了终结这场争论。现在 GPT-5.3-Codex 在编程基准测试和实际表现上,不仅碾压了自家的前代模型,也确实有把友商模型按在地上摩擦的前兆。它真正具备了编写、测试和推理代码的能力。

做游戏项目,是这次模型介绍博客里,网站开发部分主要案例,我们也让 GPT-5.3-Codex 做了一个简单的物理弹球游戏,整体的效果虽然没有达到我的期待,因为我在提示词里面有说希望这是一个 RPG 的游戏,但 GPT-5.3-Codex 给我的界面还是过于简陋了。不过,好在还是能玩。

我们也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戏,像这个类似超级玛丽的收集金币。

▲来源:https://x.com/Angaisb_/status/2019548783869325331

强中更有强中手

对 Anthropic 来说,OpenAI 今天玩的这些,可能会说,这都是我们玩剩下的。无论是代码、或者 Agent 的能力,还是开始着手去做本地 Agent,从之前 Codex 的终端转成现在的 macOS App。

在技术的领域,OpenAI 仿佛都是跟着 Claude 的脚步在走,Claude 深耕代码能力,OpenAI 搞了 Sora、日报、浏览器、ChatGPT agent,都没什么水花,于是也在代码上发力;Claude 一月初推出 Cowork,OpenAI 也紧接着在二月初发布 Codex App。

就和今天的密集发布一样,凌晨 1:45,Claude 官方发 X 推出 Claude Opus 4.6,紧接着就是 OpenAI 端上 GPT-5.3-Codex。两款模型其实都是为了给 Agent 更强大的基座能力,以前是说代码/vibe coding,但现在 Agent 能做好,基本上都是「写代码写得好」。

Opus 4.6 虽然在 SWE-Bench 上的表现甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成绩也没有 GPT-5.3-Codex 强,但是 Opus 破天荒地把上下文长度拉到了一百万 token 的窗口。而且,这些 benchmark 的表现还没有相差很多。

Claude 说,我的 Sonnet 5 还没上来,那才是真功夫。

我们在网上也找了一些 Opus 4.6 最新的测试案例,有网友说 Claude 4.6 Opus 只是一次调用,就完全重构了他的整个代码库,将原来混乱的代码「屎山」全部模块化,并且没有模型能像 Opus 这样做到。

还有网友拿 Opus 4.6 和 4.5 进行对比,让两个模型玩同一款经营游戏,看谁的账户等级、财富和装备更高。测试博主提到,4.6 版本在初期制定战略的时间更长,但是做出了更好的战略决策,并且在最后确实做到了遥遥领先。

还有网友也做了一个游戏,不过是一个宝可梦的克隆版。博主提到这是他用 AI 做出来的最酷的东西。他提到,Claude Opus 4.6 思考了 1 小时 30 分钟,使用了 11 万个 Token,并且只迭代了三次。

▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用户的反馈中,也提到了一个 Opus 表现优秀的案例。Opus 4.6 在一天内自主关闭了 13 个 issue,issue 即项目存在的待解决问题,并将另外 12 个 issue 准确分派给了正确的人类团队成员。

和 Kimi K2.5 的智能体蜂群一样,Opus 4.6 也能管理一个 50 人规模组织的代码库。在 Claude Code 中,我们可以组建 Agent Teams,召唤出一整个队伍的 AI,不再是一个 AI 在战斗。这些AI 可以有的负责写代码,有的负责 Review,有的负责测试,它们之间自主协作。

也有网友测试了 Claude Code 里面的 Agent 蜂群,提到启用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。

我们现在的状态就跟这张图片一样,虽然一山比一山高,但都绕不出这个圈。前几个月可能是 Gemini 赚走了风头,一月份来,应该是 Claude,然后看样子又要轮到 OpenAI,或者马斯克的 Grok。

好在这个轮回的过程中,作为用户的我们,能明显感觉到 AI 的能力一直在变强。

GPT-5.3-Codex 的 API 还没有开放,原因是模型太强了,会存在很大的风险,所以 OpenAI 还在考虑怎么安全地启用 API。

Claude Opus 4.6 已经可以在 Claude 通用聊天应用、Claude Code、API 多种方式使用,这两个作为今年国外御三家首发的两款模型,非常值得一试。

未来,更好的服务 Agent,让 Agent 为我们做事,还会是大模型更新的重点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌