阅读视图

发现新文章,点击刷新页面。

Agent Loop 简介

一、一个反直觉的事实

先说一个看起来有点反常识的事:LLM 本身是无状态的

每次调用模型,本质上就是一次”文本补全”——你扔一段 prompt 进去,它根据这段 prompt 续写一段输出,然后整个过程结束。下一次再调用,模型对上一次的事一无所知。从机制上讲,它和 2020 年的 GPT-3 没有本质区别,都是一次性的补全器。

但 2024 年之后,我们看到的 Claude Code、Cursor Agent、各种 deep research 工具,明明可以连续工作几十分钟、调用几十个工具、修改几百个文件,看起来”自主”得不得了。

这两件事怎么对得上?

答案藏在外面那个 while 循环里。

Agent ≠ 模型
Agent = 模型 + Loop + Tools + Context 管理

模型本身没有变,变的是包在它外面的那层东西。这层东西现在常被称作 harness(脚手架),而 harness 里最核心的部件,就是 Agent Loop

这篇文章想回答三个问题:

  1. 这个 loop 长什么样?
  2. 它为什么这样设计?
  3. 它什么时候会失效?

二、最小可运行的 Agent Loop

把所有花哨的东西都剥掉,一个 Agent Loop 的本质大概是这样:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
messages = [{"role": "user", "content": user_input}]

while True:
response = llm(messages, tools=available_tools)
messages.append(response)

if response.stop_reason != "tool_use":
# 模型没要求调用工具,说明它认为任务结束了
return response.text

# 模型要求调用一个或多个工具
for tool_call in response.tool_calls:
result = execute(tool_call)
messages.append({
"role": "tool",
"content": result
})
# 进入下一轮,让模型看到工具结果,决定下一步

就这么二十行。这就是 Claude Code、Cursor、几乎所有 coding agent 的核心。

拆解一下,里面只有四个动作:

  1. 模型推理:把当前 messages 丢给 LLM,让它产出下一步的 response
  2. 工具调用判断:如果 response 里有 tool_use,就执行;如果没有,循环结束
  3. 工具执行:在沙箱/真实环境里跑这个工具,拿到结果
  4. 结果回灌 context:把工具结果塞回 messages,进入下一轮

到这里,请允许我强调一个关键认知:

所谓”Agent 的自主性”,本质就是模型在每一轮看到更新后的 context,自己决定下一步。没有任何魔法。

不是模型变得”会规划”了,是循环让它有机会根据上一步的结果,再做一次补全。它的”思考”只发生在每一次模型调用的那一瞬间,loop 只是一遍遍把它叫醒,告诉它”环境又变了,你再看看”。

理解了这一点,后面所有的工程设计,都只是这个最小循环的变体。


三、Loop 的关键设计决策

最小循环能跑,但不够用。一旦把它放到真实场景里,会立刻撞到一堆问题:循环什么时候停?context 越涨越长怎么办?工具调用错了怎么办?要不要并行?

围绕这些问题做的工程取舍,决定了一个 Agent 框架的性格。下面是五个最关键的决策维度。

1. 终止条件:什么时候跳出 loop

最朴素的写法是”模型不再要求调用工具就停”,但这在生产里远远不够。常见的多重终止条件:

  • 模型主动 stop:response 里没有 tool_use,正常出口
  • 达到 max_iterations:硬性步数上限(比如 50 步),防止失控
  • 检测到循环:连续几次调用相同工具+相同参数,强制中断
  • 用户中断:Ctrl+C、关闭对话窗口
  • 预算耗尽:token 数或时间超限

每个出口背后都是一次工程权衡:上限太小,复杂任务做不完;上限太大,一旦模型卡住就烧钱。

2. Context 增长策略:长任务下怎么办

工具结果一律塞回 context,会带来一个朴素但致命的问题——context 是线性增长的

一个改 50 个文件的任务,可能要读 100 次文件,每次读取的内容都进 context。跑到一半,context 已经塞了几十万 token,模型注意力开始稀释,关键信息被淹没。

工程上有几种常见思路:

  • 全量回灌:最简单,短任务够用,长任务必崩
  • 滑动窗口:只保留最近 N 轮,老的丢掉,但可能丢关键信息
  • 摘要压缩:触发阈值后,让模型自己总结前面的内容,用摘要替换原文
  • 分层压缩:Claude Code 的 /compact 机制就属于这一类——保留最近上下文 + 历史摘要 + 关键信息(如已修改的文件列表)

这一项是目前差异最大的设计点。后面会看到 learn-claude-code 项目专门有一节叫 s06_context_compact,就是为了解决这件事。

3. 工具选择机制:模型怎么”选工具”

两种主流做法:

  • 原生 function calling:通过 API 把工具 schema 一并传给模型,模型在 response 里直接产出结构化的 tool_use 块。Claude、GPT、Gemini 都支持。优点是稳定,几乎不会出格式错误。
  • 提示词约定格式:在 system prompt 里告诉模型”想调用工具就输出 <tool>...</tool> 这样的 XML”,外层用正则解析。早期 ReAct 论文就是这么做的,胜在通用,任何模型都能用。

现在新项目基本都默认用 function calling,但提示词约定法在一些场景仍有价值——比如要让一个本地小模型当 agent,或者要做更细粒度的格式控制。

4. 错误处理:工具调用失败怎么办

工具会出错。文件不存在、API 超时、参数类型不对、权限不足……

两种处理思路,本质是信任谁

  • 塞回 context 让模型自我纠正:把 error message 当作普通的 tool_result 回灌,相信模型能看懂错误并调整。优点是灵活,模型常常能从”file not found”反推出”我应该先 ls 一下”。
  • 外层拦截:harness 直接处理特定错误类型,比如重试、降级、报警。优点是可预测。

实践里通常是混合策略:致命错误外层拦截,业务错误丢给模型。这件事的判断需要工程经验。

5. 并行 vs. 串行:单 Agent 还是多 Agent

单 Agent 的极致是一轮内并行调用多个工具。Claude 现在原生支持一次返回多个 tool_use 块,harness 并行执行后一次性把所有结果回灌。这能显著降低延迟。

更复杂的是多 Agent 协作:主 agent 派发子任务给子 agent,子 agent 独立 loop,结束后回报。这里立刻冒出一个新问题——路由:主 agent 怎么知道哪个子 agent 适合这个任务?是基于 metadata 标签匹配,还是让主 agent 读子 agent 的描述自己判断?这两种思路的优劣,是另一篇文章的话题了。


四、从 50 行到 1000 行:一个 Agent 是怎么长出来的

讲完抽象的设计维度,看一个具体的项目——开源项目 learn-claude-code

这个项目的好处是:它把一个 nano 版 Claude Code 的演化拆成了 12 个递进的 Python 脚本,每一步只引入一个新机制。从 s01 到 s12,代码从大约 50 行长到 1000+ 行。

读它,相当于把上一节的设计决策亲眼看一遍怎么落到代码里。

下面挑几个最关键的节点:

s01 Agent Loop:朴素的 while

1
2
3
4
5
6
while True:
response = model(messages, tools)
if response.stop_reason != "tool_use":
return response.text
results = execute(response.tool_calls)
messages.append(results)

这就是上一章伪代码的真实版本。50 行,能跑,能调用 bash 完成简单任务。这是一切的起点

s02 Tool Use:从一个工具到多个工具

引入 read_filewrite_filebashgrep 等多个工具。重点不在工具本身,而在 wire——怎么把工具 schema 注册给模型,怎么 dispatch 到真实函数。

到这里,agent 已经能完成”读文件、改文件、跑测试”这种基础编程任务了。

s03 TodoWrite:对抗”目标漂移”的第一道防线

一个有意思的设计:让 agent 自己维护一个 todo list。

为什么?因为长任务里,模型很容易跑偏。任务一大,model 在第 30 轮已经忘了第 1 轮的目标是什么。TodoWrite 工具强制 agent 在开工前把任务拆成清单,每完成一项划掉一项。

这本质上是用工具调用替代记忆——不指望模型记住,而是把目标固化成 context 里随时可见的状态。Claude Code 现在就是这么做的,效果非常显著。

s04 Subagent:什么时候该拆出去

主 agent 不是万能的。当一个子任务的 context 会污染主 agent 的判断(比如要读一大堆代码才能定位 bug),就该把它丢给子 agent。

子 agent 有自己独立的 loop、独立的 context,跑完只把结论返回给主 agent。这是用 context 隔离换取主 loop 的清晰

s06 Context Compact:长任务的生存策略

直接对应第三章讲的”context 增长策略”。当 messages 长度超过阈值,触发 compact:让模型把前面的对话总结成一段摘要,用摘要替换原始消息,保留最近几轮原文。

这是目前所有长任务 agent 的共同方案。没有 compact,agent 就走不远

s07–s12:再往后

任务系统、后台任务、多 agent 团队、worktree 隔离……每一层都是在同一个 loop 上叠加工程能力。但本质都没变:还是那个 while 循环


读完这个项目,最值得记住的是它的核心宣言:

The model is the agent. The code is the harness.
模型才是 Agent,代码只是脚手架。

这句话听起来像废话,其实暗藏一个反直觉的判断——你写的那一千行 harness 代码,不是在让 Agent “更聪明”,只是在帮模型别搞砸。模型本身已经具备 Agent 能力,harness 的工作是给它工具、管好上下文、防止失控。

Harness 越薄,说明模型越强。


五、Loop 的边界与失效模式

Agent Loop 不是银弹。在生产里,它会以几种典型方式翻车:

1. 上下文窗口爆炸

最常见。长任务跑到一半,context 涨到几十万 token,模型注意力被稀释,开始重复读同一个文件、忽略关键约束。Compact 是缓解,但不是根治——压缩本身也会丢信息。

2. 工具调用幻觉

模型有时会编造不存在的工具,或者给真实工具传错误参数(比如发明了一个本不存在的 flag)。这件事在小模型上尤其严重。缓解办法是收紧 tool schema 的描述、用 function calling 而不是提示词约定,以及在 harness 里做参数校验。

3. 死循环

模型反复调用同一个工具拿同样的结果,不收敛。常见于”修一个 bug 但根本没想清楚”的场景:跑测试 → 失败 → 改一行 → 跑测试 → 失败 → 改回来。需要在 harness 里检测这种模式并强制中断。

4. 目标漂移

多轮之后忘了原始任务。前面提到的 TodoWrite 是一种缓解,更激进的做法是定期”自检”:让 agent 每隔 N 轮 reflect 一次,对照原始目标审视当前进展。

工程上常见的缓解组合是:context 压缩 + 工具白名单 + step budget + 显式 reflection 节点。每一项都不彻底,但叠在一起能撑很久。


六、Agent Loop 是临时方案,还是终极形态

最后留一个开放问题。

回看现在所有的 Agent 框架——Claude Code、Cursor、LangGraph、OpenClaw、learn-claude-code——本质都在围绕同一个 while 循环做工程优化。终止条件、context 压缩、子 agent、todo 管理……每一项都是因为模型本身做不到,所以 harness 替它做

但模型还在变强。

Claude 已经支持 extended thinking——模型在一次调用里能做更长的内部推理。原生的 tool use 在每一代都更稳。multi-step 的 planning 能力肉眼可见地在涨。

那么一个不那么好回答的问题是:

当模型本身具备足够长的推理链和原生工具使用能力时,外部那个 while 循环还需要存在吗?

也许某一天,你只需要一次 API 调用,模型在内部就完成了全部规划、工具调用、上下文管理。harness 被吸收进了模型本身。我们今天精心设计的这些 loop 控制机制,会变成一段历史。

也可能不会。也许 harness 永远存在——因为外部环境永远是 harness 的边界,模型再强,也需要一个东西替它和真实世界对接。

不知道。但这就是现在做 Agent 最有意思的地方:你不知道自己写的这一千行 harness 代码,到底是产品的核心资产,还是即将过时的过渡方案

唯一确定的是,所有故事的开头,都还是那个最朴素的 while 循环。


参考项目:shareAI-lab/learn-claude-code,一个把 Claude Code 拆成 12 个递进版本的开源教学项目。建议从 s01_agent_loop.py 开始读。

Claude 封号限流砍权益,OpenAI 趁机用 Codex 稳稳接住你

天下苦 A 社久矣。

这是前段时间 Anthropic 持续推出各种功能,但是一边又不断加强使用限制,读者在评论区最普遍的反应。

本身就是御三家(OpenAI、Google、Anthropic)里对使用限制最严格的一个,另一边又加码推出身份验证,实名制才能使用。今天凌晨,再把 Pro(20 美元/月)用户的 Claude Code 使用权给砍了。

Anthropic 的增长负责人出来回应,提到他们正在对约 2% 的新专业用户注册者进行小规模测试,现有 Pro 和 Max 用户不受影响;并表示目前的订阅计划无法应对用户大量的 Token 消耗,他们在研究新的付费方案。

▲来源:https://x.com/TheAmolAvasare/status/2046724659039932830

OpenAI 这边也立马回应了 Claude Code 踢掉 Pro 会员的争议,一位 Codex 负责人 Rohan Varma 直接怼脸和 Claude Code 竞争,连发文格式都和 Claude Code 一样。

▲来源:https://x.com/rohanvarma/status/2046769635350241292

Anthropic 为 2% 的用户测试更贵的计划,而 Codex 给 100% 用户测试,让免费和付费套餐都能使用 Codex。还特别调皮的加了一句「Claude Code 用户不受影响。」

▲Claude Code 用户 PAY(付钱),Codex 用户 PLAY(玩)

另一位 Codex 负责人 Tibo,也在 X 发文说 Codex 将继续提供免费版和 PLUS 版(20 美元/月),还提到 OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作

奥特曼也转发了这条推文,表示 「我们希望你们可以有大量的 AI。

▲来源:https://x.com/sama/status/2046752492093165708

Codex 口碑在社交媒体上一直不算太差,尤其是前段时间 OpenAI「大撒币」,先是说为了让每个人都能体验到 Codex 推出的相关插件,给所有订阅计划都重置了使用限制

4 月初,Codex 发现用户达到使用限制的频率增加,且未找到背后的原因,干脆就重置了所有用户的额度限制。几天前,为了庆祝 Codex 周年庆和新功能上线,又一次重置了所有套餐的用量限制

今天,Codex 负责人和奥特曼再发推文,表示不到两周 Codex 增加了 100 万新用户,为了庆祝这件事,Codex 的速率限制又又又重置了。

▲来源:https://x.com/sama/status/2046604989527912590

早在上周 Anthropic 发布 Opus 4.7 的那天,Codex 就更新了一大堆重要功能,Computer Use、内置浏览器、持久记忆,以及 90 多项插件。

这些更新几乎是直接对标 Claude Cowork 的功能,把 Codex 从一个听着就像是给开发者用的工具,重新变成了一个适用于电脑所有场景的效率助手工具。

昨天,Codex 在此前推出记忆功能的基础上,又上线了一项名叫「Chronicle」的研究预览功能,让 AI 能读我们的屏幕,把我们最近做过的事整理成记忆。

Codex 不再只依赖聊天记录来理解上下文,结合它读取的近期屏幕内容,我们给它发送「这个」、「那个」,Codex 能知道我们到底指的是什么。

今天刚刚发布的 GPT Image 2 也已经集成到了 Codex 里。我们可以在 Codex 生成并迭代图像,在一套工作流里,从产品原型、前端设计,到视觉效果图和游戏开发等任务,使用 GPT Image 2 快速生成视觉元素。

如果你的 Claude 账号总是被封,用不了官方的 Claude Cowork、Claude Code 桌面版,又或者是那 2% 的新用户,开通了 20 美元/月的 Pro 会员也用不了 Claude Code,不妨来试试 OpenAI 出品的 Codex。

从代码工具到全能助手

Codex 最近这段时间的更新,最重要的莫过于上周发布的 Computer Use。这项能力并不算新鲜,之前是模型有 Computer Use 的能力,现在是需要工具也要有配套的支持,才能发挥模型能力。

它本质上就是 Agent 工具可以像人类操作电脑一样,通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。

之前的 Codex 操作电脑上的软件,是通过一些命令来执行不同的应用任务,整体更像是我们喊「Siri,明天的天气怎么样」,做这些比较简单的任务。

有了 Computer Use 的能力之后,不仅支持一些调用 API 或者终端命令的工具,还能真的能帮我们完成一些电脑上的实际操作,尤其适合前端调试、应用测试、操作没有开放 API 的软件。

而且支持多个智能体并行在 Mac 上工作,不会影响我们正常使用其他应用。

需要注意的是,Computer Use 的能力只支持 macOS 15 以上的版本,我们的电脑(macOS 14.6.1)在测试 Codex 时,会自动弹出一个 SkyComputerUseClient 的问题报告。

另外,现在 Codex 支持内置浏览器,能更好地处理 Web 场景。我们在 Codex 里生成的网页,可以直接在网页上标注,给 Codex 更精准的操作指令,对一些前端、应用和游戏开发的快速迭代非常有用。

▲从 Coding、设计、生活方式、生产力到研究,Codex 现在有丰富的插件系统来处理各项任务

这次的更新还新增了 90 多个插件和更丰富的工具集成,让 Codex 能接入更多工具、获取更多上下文,并跨平台执行操作,提到的热门插件包括 Atlassian Rovo(JIRA)、Microsoft 套件、Neon by Databricks、Remotion、Render、Superpowers 等。

在 Codex 应用里,我们只需要输入斜线就能快速进入一些关于 Codex 的配置,输入 $,则可以选择不同的 Skills,包括我们安装在本地的各种 Skills。

同时,在自动化任务上,Codex 的 Automation 功能升级后,可以复用之前的对话线程,保留已有上下文。新的自动化还支持 Codex 自主规划后续工作、自动在未来某个时间继续执行任务,以及支持持续数天甚至数周的长期任务。

官方提到这项更新主要用于代码的提交合并、跟进日常工作生活的待办事项,以及跨越不同平台和工具的信息追踪等任务。

还有一些对于桌面应用交互的小更新,像是增加了多标签页的终端窗口,侧边栏可以直接打开文件,预览 PDF、表格、PPT 等文档。

新的摘要面板,也可以持续跟踪当前执行任务的计划和进度、参考信息来源,和输出结果等。这些应用上的增强,也让 Codex 在整体上更像是一个统一的工作台,而不再是单一的对话窗口。

用定时截屏的方式来维护 Agent 记忆

个性化的记忆功能向来就是 AI 的一大难题,虽然 AI 博古通今能记住所有的知识,但是对于每个用户的私人记忆处理,工作记忆等,AI 需要用不会占据大量的 Token,同时又能记清楚的方式来处理日复一日的对话。

尤其是现在到了 Agent 这类巨消耗 Token 的任务上,每个用户每天产生的上下文,如果 Agent 要全部记住,估计再来一百万 Token 上下文也难顶住。

上周 OpenAI 就已经为 Codex 带来了记忆功能,它可以记住我们的个人偏好、之前做过的修正,以及一些不容易获取但很重要的信息。

而为了获取更多的记忆,更快地处理我们的工作流。Codex 这次推出的 Chronicle 功能,说白了就是看我们的屏幕,记住我们的工作,再把这些记忆喂给 AI。

具体来说,在 Codex 设置>个性化里面,开了 Chronicle 功能之后,会自动执行这些操作:屏幕上下文捕获 → 本地临时截图 → 后台代理分析 → 临时 Codex 会话总结 → 生成本地 Markdown 记忆 → 后续会话中作为上下文使用。

Codex 获取了屏幕录制和无障碍权限之后,Chronicle 会在后台运行一个沙箱 Agent,这些 Agents 使用默认模型 GPT-5.4-mini,基于捕获到的屏幕图像,周期性地启动一个临时的 Codex 会话,把最近的屏幕上下文整理出记忆。

屏幕截图只会临时保存在本地,Codex 提到运行期间,超过 6 个小时截图会被自动删除。

▲GPT Image 2 生成的信息图

以后我们和 Codex 对话,它会自动检索这些记忆文件,作为上下文来使用,减少我们重复描述背景的需要。

OpenAI 官方也给了多个案例,像是如果不开启 Chronicle,Codex 不知道我们说的「这里会失败」,是指的什么。

以及针对一些个人任务中出现的人名、项目名等,在通用知识外的内容,Codex 也会根据 Chronicle 获取的信息,自动补充上下文。

能够捕获屏幕图像,也意味着使用 Codex 处理任务的全流程,Chronicle 都能记住。包括我们的工作流,常用的工具。像下面的例子里,使用了 Chronicle 的 Codex 会知道这份宣传材料使用何种格式,以及何种工具,是 Google 文档还是 Markdown 文档。

不过这项功能也面临着一些争议,例如视觉识别的方法会消耗大量的 token,更严重的是这些截图可能包含我们屏幕上可见的敏感信息。

虽然 OpenAI 说所有保存的记忆都会存放在本地的 markdwon 文档里,用户可以随时查看,Codex 根据这些截屏获取到了哪些信息。但是他们也提醒用户,当 Chronicle 截屏到一些有风险的网站时,网站可能通过提示词注入的方式,在屏幕上隐藏一些恶意指令,让 Codex 执行。

Chronicle 这项功能目前仅向 ChatGPT Pro(200 美元/月)用户开放,支持 macOS 版本的 Codex 应用,作为研究预览版推出。待 Chronicle 正式上线之后,相信 Codex 会把它开放给更多用户使用。

手机遥控、电子宠物、「Hermes Agent」都有机会上线

这段时间,Codex 被网友们称作是一款正在用力追赶 Claude 的产品。虽然一方面是在说 OpenAI 没有主见,随大流。但另一方面,能看到好的产品之间展开你追我赶的竞争,对我们用户来说未尝不是一件好事。

Codex 开发者在 X 上问大家对 Codex 有何意见,网友们非常积极的表示,要加上手机控制功能,还有人说 Codex 也应该从 ChatGPT App 里面进入。而这些都是 Claude 目前已经做到的功能。

也有网友在下面反馈 Codex 存在的各种 Bug,像是内存泄露、会话只能存档不能删除等问题。

最新的 Codex 更新爆料里还提到,Codex 也打算做一个小小电子宠物,放在 Codex 桌面上,来提示用户目前会话的各种状态。

这个电子宠物共有 8 种预设形象,用户还可以创建使用自己的虚拟形象。

▲来源:https://x.com/testingcatalog/status/2046366630528143827

另一个爆料则提到 OpenAI 正在为 ChatGPT 开发智能体(代号 Hermes),其中包括智能体构建器、模板、日程安排、在 Slack 中使用智能体的选项、添加应用程序、技能、文件、内存、指令等功能。

▲来源:https://x.com/btibor91/status/2046545878538961304/

眼下的 Codex 是一个活跃开发的产品,OpenAI 必然不会把本地 Agent 产品这一块的市场拱手让给 Claude。

别说 OpenAI 这位 AI 界的老大哥,前几天,Gemini 也不声不响地发布了桌面版应用,但是被一众网友评价「拉爆了」。

只能鼓励一下 OpenAI 和 Gemini,赶快结束 Claude 在本地 Agent 助手和代码这块的领先地位。

天下苦 A 社久矣。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测Claude Design:小白也能做出专业级设计|附最全玩法+官方实用技巧

所有你能想到关于设计的工作,Claude Design 现在都能做。

无论是惊艳复杂的动效模拟,用简单的一句提示词,就能创建一个能互动的着色器壁纸库。

▲提示词:想象一下,你正在为一款未来操作系统设计壁纸。我们希望它具有互动性,让人忍不住想摆弄一番。请创建五款不同的交互式着色器壁纸,它们能够对鼠标位置甚至点击做出反应。

还是能套在应用开发过程中的打字机效果,以及文字爆炸。

用一句提示词,Claude Design 就能给我们设计打字机、单词渐隐、单词滑入、字符模糊、点转文字、打乱、交错下落、上升进入、字符弹出、加粗进入、倾斜进入共 11 种文本流格式。

▲在一个响应式网格中,为聊天应用制作 10 种不同的文本流动画;在 300×300 的单元格中分别展示每种动画;显示用户提问并在下方显示回复。循环播放。单色显示。

Claude Design 实现的文本粒子特效,包括对 火 Fire、烟 Smoke、金属 Metal、风 Wind、雪 Snow 等单词添加了对应的视觉特效。

▲提示词:创建一个非常大的可编辑文本框,预先填充示例文本。对于某些词语,例如「火」、「烟」、「金属」、「风」,渲染与这些词语相匹配的视觉效果和粒子效果。

甚至可以说,Claude Design 一发布就导致 Figma 股价大跌的原因,是因为现在用它做原型设计,不仅审美高,而且完全不需要手工干预。

想要给共享单车应用创建一个简单的 iOS 注册流程,过去用 Figma 要先找到 iOS 对应的应用套件,然后自己想合适的配色逻辑,添加对应的布局,现在用 Claude Design 直出可交付的方案。

▲提示词:为一款共享单车应用创建一个简单的 iOS 注册流程。在画布上展示界面。采用蓝橙相间的现代配色方案。

我们从网上找到了 Claude Design 最全的玩法,以及上手使用 Claude Design 的保姆级教程。可以说 Claude 这次的更新,让过去一年那些做 PPT、做精美网页设计的工具,瞬间黯然失色了。

Claude Design 体验地址:https://claude.ai/design

玩法一:真正的 Vibe Coding 上线

让 AI 做一个网页似乎是检查模型代码能力,最重要的一项测试。一些 Agent 产品也利用现有的模型,进行优化组合,来控制模型的输出,以得到更精确、更遵循提示词指令的网页。

但现在当 Claude 自己下场来做设计类 Agent,基本上就没有给别的产品留任何空间了。

有网友用一句话就做出了一个高品质的公司官网,生成的网页内容 UI 精美、色彩搭配高级,配有符合场景特征的动效,和其他产品的渐变紫完全不在一个等级。

▲来源:https://x.com/0x0funky/status/2045392224096280905

并且,Claude Design 生成的网页,可以无缝衔接到 Claude Code 进行项目的优化和迭代。

除了落地页,还有网友生成了一个个人仪表盘,把每天的日程、健康信息、以及待办事项等信息放在一个页面,并且能自动切换夜间和白天模式。

▲来源:https://x.com/jerrod_lew/status/2045493141709464047

功能性的网页,Claude Design 能自动编排好信息,并且以高品质的 UI 设计呈现。对于一些单纯是用来「炫技」的网页设计,Claude Design 的表现也比其他工具要好。

像这个地球加载系统,也是只用一句提示词,就能得到可用的结果。

▲提示词:设计一个加载指示器原型,显示一个旋转的地球仪,带有真实的地区轮廓,全单色,无文字,尺寸为 200×200,居中显示在米白色背景上,为其添加旋转效果。

玩法二:不只是设计,办公人的 PPT 也可以做

有网友分享了自己使用 Claude Design 做 PPT 的经历,在 Claude Design 工具里,也有专门一项是用来生成 Slide Deck(幻灯片)。

▲图片来源:https://x.com/MatthewBerman/status/2045241894930915466/

其他的办公场景,像是营销邮件的设计,通过上传自己的图片素材和商业广告信息给 Claude Design,它会自动编排好所有的内容,再简单的迭代优化之后,能得到可以直接发给潜在用户的广告邮件。

▲ 来源:https://x.com/Salmaaboukarr/status/2045211046680334745?s=20

还有网友用 Claude Design 做了一本电子指南,她提到自己仅用一次提示就完成了这本书的设计。

▲来源:https://x.com/AunySillyMe/status/2045265533390762157

玩法三:产品、UI 设计、画原型图

在软件开发的过程中,前端一般负责实现产品经理+设计的想法,过去的 AI Coding 告诉我们「前端已死」,但设计的「Taste(品味)」无法被替代。

现在的 Claude Design + Claude Code 就是要设计+产品经理+前端,统统承包,并且让生成的内容有「taste」。

原型图一般是产品经理在拿到设计的方案后,给出一款产品成型之前的一个简单的框架,将页面的排版布局展现出来,每个功能键的交互,使产品的初步构思有一个可视化的展示。

社交媒体上大量的网友分享了自己用 Claude Design 完成的 APP 原型设计,其中不乏交互友好、赏心悦目的各种实例。

▲来源:https://x.com/runthistown5416/status/2045583979185676303,部分提示词:设计一款名为「Lumi」的 iOS 和 Android 移动应用——一款以灵性健康为主题,专注于日记和显化功能的应用。期望输出:每个主屏幕:高分辨率浅色和深色模式的模型、交互式原型流程(最少:引导 → 主页 → 创建新清单 → 撰写日志 → 查看见解)、组件库(按钮、输入框、卡片、底部面板、芯片、模态框变体)和设计系统文档(颜色、排版、间距、立面)。

无论是何种类型的 APP,Claude Design 都能找到最适合对应主题的设计方案。有网友设计了一个简单的、基于 AI 的游戏化生活管理应用程序,在生成的原型图里,有经典的热力图、各种成就等级系统,和课程等详细内容

▲来源:https://x.com/Eli5defi/status/2045544042591854804

玩法四:视频动画也能生成

基于强大的代码能力,Claude 能组合不同的动效库,生成各种各样的动画。例如在 Claude Design 的官方案例展示里,他们使用一句提示词,生成了一段宇宙运动的模拟动画。

▲创建一个基于精灵的动画,提供关于天体距离和大小的趣味知识。将使用不同大小圆形作为天体的抽象动画与文字动画相结合。采用单色调、Helvetica字体配色方案。

也有网友输入提示词「请制作一个基于精灵图的动画,介绍任天堂的历史趣闻。将各种动画与文字动画结合起来。使用符合任天堂品牌风格的配色方案和字体。」

▲来源:https://x.com/riku720720/status/2045378538422018195

最后生成的动画不仅详细介绍了任天堂的历史趣闻,同时采用了动画设计来衔接和过渡不同的页面,整个动画时长 1 分 02 秒。

也有网友直接给 Claude Design 的博客文章和一些推文粘贴进去,就生成了这个 30 秒的动画视频。

▲来源:https://x.com/petergyang/status/2045181813484884396

所谓的精灵图 Sprite,又叫拼合图,是一个计算机图形学术语,也是目前在 Web 前端开发中常用的图像拼合技术,是指当一张二维图像集成进场景中,成为整个显示图像的一部分时,这张图就称为精灵图。

我们看到这些由 Claude Design 生成的动画,都是使用精灵图来切换显示不同的图像、排版、控制纹理尺寸等工作,保证动画效果的同时提升网页的渲染性能。

实测上手,和来自官方的 7 个实用小技巧

目前 Claude Design 仅向 Pro、Max、Team 和 Enterprise 订阅用户开放,并且有每周额度限制。我们在创建三个 Claude Design 任务之后,基本上都是动效风格比较丰富的项目,占据了 37% 的周额度。

通过 Claude 网页侧边栏的 Design 一行,或是直接输入网址 https://claude.ai/design 我们可以访问 Claude Design 的首页。

和一般的网页生成 Agent 工具不同,Claude 并没有在首页放一个大大的对话框,而是大多数的传统设计工具一样。主页左边可以让我们新建不同的项目,原型、幻灯片、从模板开始或者其他类型,还有一个设计系统的设置。

在原型设计中,又分为线框图和高保真内容,幻灯片则可以开启「使用演讲者备注」的功能,以及选择已有的模板,从模板开始设计。

输入项目名字,点击创建,来到项目首页。Claude Design 在左侧边栏为我们提供了对话窗口,而在右边则可以用先画草图的方式,让 Claude Design 通过草图来完成设计。

我们输入了一句简单的提示词,「帮我设计一个 Spotify 2026 wrapped 的年度总结动画」,等 Claude 自动跑完所有的流程,它最后生成了一段 44s 的动画,包括年度歌手、音乐风格、收听时长等信息,并且提供了 Tweak,我们可以直接在右侧边栏进行修改。

在测试 PPT 制作时,我们发送了一句简单的提示词,Claude 会生成一份问卷,要求我们回答,最后的 PPT 是什么形态,例如语言的要求、页数的要求、演讲者备注是否要详细、听众技术背景等等。

最后,Claude Design 生成的 40 页 PPT,在内容上不仅要比一些动不动深度研究几十分钟的工具要全面,并且还直接在下方提供了讲稿,还允许我们对主题进行修改,使用深色/午夜蓝/暖色调,以及对字体大小的修改等。

▲提示词:我要给高中生做演讲,主题是大语言模型的发展–从 2026 到 2030,时长是一个小时,帮我设计一份 PPT。

Claude Design 的设计师 Ryan Mather,在 X 上也分享了一些充分利用 Claude Design 的小技巧。

  1. 搭建你的设计系统和核心界面。花一个小时进行设置和完善是值得的。
  2. 与工程师实时迭代。通常在一次会议中,就能和工程师一起设计出新功能。因为 Claude 在做原型方面非常快,我们可以把讨论保持在较高层次,一边围绕概念和约束进行头脑风暴,一边看着它们逐渐成形。
  3. 使用评论工具进行快速、精准的修改。在完成一个粗略的初稿之后,可能会发现有几十个细节想要调整。用语言去描述所有这些修改会很棘手,所以应该使用评论工具,直接指出并进行修改。
  4. 让 Claude 为我们的想法制作视频演示。Claude Design 几乎可以做到我们能想到的任何事情,它更像 Claude Code,而不是一个基于画布的设计工具。
  5. 使用连接器(尤其是 docs / slack)。 一旦设置完成,我们可以发送类似这样的提示:「请阅读产品交流会的会议记录,并创建一个演示文稿,探讨所有出现问题的不同设计解决方案」。
  6. 让 Claude 即时创建定制工具。通常情况下,不要试图像使用基于画布的工具那样去使用 Claude Design。它是另一种存在,拥有不同的能力。多尝试,玩出点花样!你会发现自己的设计方式已经远远超出了过去的思路。
  7.  知道何时放慢节奏,亲手完成。新的图标、点缀插画、命名。有些细节始终会产生超出预期的影响。很容易被 Agent 设计的高速节奏卷入其中。知道何时放慢下来,本身也是一门艺术。

▲就像每个学校、公司都会有自己的品牌使用指引,规范颜色、字体、Logo 等形象,Claude Design 的设计系统,也能让我们一次性规范这些设计资源。

得益于 Claude 目前强大的生态系统, Claude Design 的能力有机会真正融入到 AI 工作流里,彻底改变过去那些 AI 网页生成类工具里,输出过于泛化、忽视现有设计语言,以及很难以在团队流程中复用等问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Claude Opus 4.7 或本周上线,但 Anthropic 要查你证件了

生产队的驴都没有 Anthropic 这么忙,从今年年初 Claude Cowork 发布之后, Anthropic 的更新就没有停止过,说一天一项都不为过。

根据 the information 的报道,Anthropic 在本周甚至会推出 Opus 4.7,和前几天社交媒体上爆料,类似 Lovable 的 AI 设计工具。

与此同时,Anthropic 在帮助中心更新的一则内容,引发了更大的争议。

官方正在为 Claude 的「部分使用场景」引入身份验证,例如在触及到某些能力、平台例行完整性检查、安全与合规要求时,用户会被要求验证身份,此举被很多网友推测是针对中国用户的「实名制」。

▲ https://support.claude.com/en/articles/14328960-identity-verification-on-claude

Anthropic 给出的核心理由很直接,强大技术要负责任地使用,平台需要知道「谁在使用」。

▲目前,已经有网友发现,在 Claude 内尝试订阅 Max(即最高档会员计划)时,会被触发身份验证。

能不能继续用成了个问题,但 Anthropic 这边的发货是马不停蹄。今天凌晨,Anthropic 再对桌面版的 Claude Code 进行了重新设计。

Claude Code 支持一个窗口内并行运行多个 Claude 会话,同时还新增了侧边栏管理会话、集成终端、文件编辑、HTML / PDF 预览、更快的 diff 查看器、拖拽式布局等多项新功能。

除了软件交互层面的更新,Anthropic 还给 Claude Code 加了一个很关键的新能力,「Routines」。

顾名思义,它是把这些可重复执行的日常任务,完全自动化,支持定时和触发运行。同时,这些任务可以跑在 Anthropic 的 Web 基础设施上,不依赖于本地 Mac 在线。

关掉电脑,Claude Code 还在干活

定时任务在 OpenClaw 出来之后并不算新鲜,无论是使用已有的工具配置 Cron Job,还是通过编写 HEARTBEAT.md 文档来告诉 Agent 需要以什么周期来跑什么任务。

Claude Code 这次更新的 Routine 功能,一方面是接管了这些重复性的任务,另一方面它既可以本地也可以远程,能做到不依赖我们的电脑在线,运行在 Anthropic 托管的云基础设施上,笔记本合上也能继续跑。

本质上,Routine 是一个保存在云端的 Claude Code 配置包,里面包括提示词、代码仓库、连接器和运行环境。

Routine 触发方式有三种,三种触发方式分别瞄准三种不同场景。

  • 定时触发:按小时、每天、工作日、每周,或者用 cron 自定义
  • API 触发:外部系统发一个 HTTP POST 就能拉起任务
  • GitHub 触发:PR、push、issue、workflow run 等事件发生时自动执行

定时触发最直觉,每天晚上跑一次日志整理,给新 issue 贴标签、分配负责人,早上团队上班时收到一份整理好的摘要。这些任务的共同点是:重复,规律,不需要人实时参与判断。

▲Claude Code 在网页端也能使用 Routine

API 触发针对的是已有工具链的接入场景。例如监控系统发现错误率异常,触发 Routine,Claude 自动拉取内容跟踪,并给出修复建议。

GitHub 事件触发则把 Routine 直接嵌进代码协作流程。Routine 能按照项目配置,自动对代码进行审查,以及决定是否要合并仓库等。

一个 Routine 可以叠加多种触发方式。比如同一个任务,既能定时每天夜里跑,也能在有事件触发时跑,还能被部署脚本手动触发。

这些场景的共同特征都是人工也可以做,但是做起来很枯燥又容易忘记。Routine 的重点就是把这些「无人值守、可重复、有明确结果」的工作流完全自动化。

Routine 主要是配合 GitHub 使用,官方给出的典型场景都是集中在项目开发上,例如代码审查、项目部署验证、文档修复等软件开发常见的流程。这也符合 Anthropic 一路以来在 B 端,在 AI Coding 方向上的发力。

目前 Routines 只对 Pro、Max、Team 和 Enterprise 用户开放,而且每天有次数限制。Pro 用户每天最多运行 5 个 routines,Max 用户 15 个,Team 和 Enterprise 用户是 25 个。

桌面端大改版,从工具到工作台

同一天发布的还有 Claude Code 桌面端的大改版。

▲ 右下角的 Claude Code 像素吉祥物,点击它,还会有鞭子抽打的效果

新版桌面端将顶部的 Chat、Cowork,和 Code 分类栏移动到左边的侧边栏顶部。增加的多对话并排,也是通过左侧边栏管理,现在我们可以在一个窗口里同时跑多个 Claude Code 对话,以拖拽的形式就能分屏显示或置顶不同对话。

我们也在 Claude Code 桌面端体验了一波这次的更新。

和之前的 Claude Code 终端处理多个会话不同,我们不再需要维持多个终端窗口。现在的 Claude Code 同样如此,一个人就能同时监督多条不同的任务线。

▲在电脑上是应用可以这样分屏拖拽,在应用内是文件,在 Claude Code,是每一个运行的 Agent

此外,Claude Code 还内置了终端、文件编辑、HTML 和 PDF 预览,原先需要用浏览器打开,或者编辑器处理,这些反复切换的场景,现在在同一个窗口就能完成。

如果你是开发者,想要查看每次更新后 Claude 动了哪些地方,现在也提供了像 Git 一样的 diff 视图,开发者可以快速看到不同版本之间的区别。

以前是在 Cursor、终端里面用 Claude 模型,现在 Claude Code 直接把这些常见的代码编辑器会有的功能,统统搬上来。

这次桌面端改版的方向,很明显是要把 Claude Code 从一个单一的工具,变成一整套全面的工作台。

把两个更新放在一起看,Routines 解决了「我不在时谁来做」,桌面端升级解决了「我们在时怎么同时做多件事」。这两项更新既让 Claude Code 有了在后台独立运行的能力,也让用户在前台的操作密度和体验更强了。

Claude Code 桌面端负责人 Anthony Morris 也发推文说,他自己连续好几周没有用过终端、代码编辑器、集成开发环境这类产品了。

现在的 Claude App,已经完全从一个聊天的对话工具,进化到了真正接管任务的调度和执行本身。

▲Karpathy 此前发文表示传统的编程开发软件形态正在改变,文件不再作为基本处理单元,而是 Agents。

网友@Yuchen Jin 也说 Claude Code 走了一条和 Cursor 完全不同的路,这两项更新很清楚地说明,Anthropic 正在重新设计用于智能体编码的 IDE,完全地脱离之前 VS Code 变体(像是 Cursor、Windsurf、TRAE、CodeBuddy 等应用)的形态。

Anthropic 表示这周还有更新

根据 The Information 今天的独家消息显示,Anthropic 还在准备下一个旗舰模型 Claude Opus 4.7,以及一款 AI 设计工具,帮助用户用自然语言生成网站、演示文稿和落地页。

这两款产品最快本周就会发布,消息一放出来,Adobe、Wix 和 Figma 的股价在几小时内跌超 2%。

▲Figma 股价

模型本身的能力边界、面向(企业)开发者的 Agent 工作流、面向普通用户的生产力工具,Anthropic 在这三条线上同时加速,收获不少新增用户和好评的同时,也带来了不少的算力压力。

除去此前宣布「封杀」OpenClaw,以减少额外的 Token 支出。Anthropic 近期还调整了 Claude 企业版的定价方式,不再主要按「席位」收费,而是在每月每用户 20 美元基础上,额外按实际 AI 使用量收费。

这次变动主要影响大企业客户,尤其是 150 人以上、重度使用 Claude Code 和 Claude Cowork 的团队,部分客户成本可能翻倍,甚至涨到 3 倍。

Uber CTO Praveen Neppalli Naga 透露,Uber 在 2026 年才过去几个月,就已经用了一整年的 AI 预算,核心原因就是 AI 编程工具使用量飙升,尤其是来自 Anthropic 的 Claude Code。

▲Anthropic面临的成本压力,随着运行AI模型的成本激增,Anthropic下调了其最乐观的毛利率预期,其中绿色代表收入,红色代表模型推理支出,后面两项分别是截止到 2025 夏天和 12 月中旬预期

算力紧张,定价调整是必然的,但 Anthropic 增长的势头目前没有停下来的迹象。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

让 Claude Code 在你睡觉时持续运行:完整实战指南

Claude Code 可以通过 -p 标志、权限绕过、循环模式和终端持久化的组合,实现数小时甚至整夜的无人值守运行。 开发者社区已经形成了一套可靠的操作手册:容器化运行环境、使用 “Ralph Wiggum” 循环模式、安装四个关键 Hook 防止卡死、保持 CLAUDE.md 精简。有开发者记录了 27 小时连续自主会话完成 84 个任务;另一位在睡觉时让 Claude 构建了一个 15,000 行的游戏。但社区也反馈,大约 25% 的过夜产出会被丢弃,而且如果没有适当的防护措施,Claude 曾在至少一位开发者的机器上执行过 rm -rf /。以下是你今晚就能用上的完整设置方案。


一、消除人工干预的三种模式

Claude Code 提供三个级别的自主运行模式,每个级别都在安全性和速度之间做取舍。理解它们是所有过夜方案的基础。

模式 1:-p(print/pipe)标志 —— 所有自动化的核心。 这是非交互式运行模式。接收 prompt,执行到完成,输出到 stdout,然后退出。无需 TTY,512MB 内存的服务器也能跑。

1
claude -p "查找并修复 auth.py 中的 bug" --allowedTools "Read,Edit,Bash"

模式 2:--permission-mode auto —— 更安全的折中方案。 2026 年初推出,使用 Sonnet 4.6 分类器自动批准安全操作,同时阻止高风险操作。分类器分两阶段运作:快速判定(8.5% 误报率),对标记项目进行思维链推理(0.4% 误报率)。如果连续 3 次操作被拒绝或单次会话累计 20 次被拒,系统会升级到人工介入——或者在 headless 模式下直接终止。

1
claude --permission-mode auto -p "重构认证模块"

模式 3:--dangerously-skip-permissions —— 完全绕过权限。 所有操作无需确认直接执行。Anthropic 自己的安全研究员 Nicholas Carlini 也使用这个模式,但有一个关键前提:“在容器里跑,不要在你的真实机器上。” 一项调查发现 32% 的开发者使用这个标志时遭遇了意外的文件修改,9% 报告了数据丢失

1
2
# 仅限 Docker/VM —— 绝对不要在宿主机上运行
claude --dangerously-skip-permissions -p "构建这个功能"

推荐的过夜运行方式是将 -p 与细粒度工具白名单 --allowedTools 结合使用,允许特定命令而非授予全面访问权限:

1
2
3
4
claude -p "修复所有 lint 错误并运行测试" \
--allowedTools "Read" "Edit" "Bash(npm run lint:*)" "Bash(npm test)" "Bash(git *)" \
--max-turns 50 \
--max-budget-usd 10.00

--max-turns--max-budget-usd 是无人值守会话的必备成本控制手段。没有它们,一个失控的循环可以在几分钟内烧光你的 API 预算。


二、Ralph Wiggum 循环:开发者的实际过夜方案

最经过实战验证的长时间自主工作模式是 Ralph Wiggum 循环——以《辛普森一家》中的角色命名,现已成为 Anthropic 官方插件。概念非常简单:一个 bash while 循环持续向 Claude 喂相同的 prompt。每次迭代中,Claude 查看当前文件状态和 git 历史,选择下一个未完成的任务,实现它,然后提交。

1
2
3
4
5
while true; do
claude --dangerously-skip-permissions \
-p "$(cat PROMPT.md)"
sleep 1
done

那位记录了 27 小时会话 的开发者使用了这个模式,配合一个详细的 prompt 文件,包含架构说明、目标、约束条件和明确的”完成”标准。他的核心发现:“一句话 prompt 在一两个小时后就没劲了。27 小时的会话能持续下去,是因为 prompt 文件有足够多的上下文。”

Prompt 文件比循环本身更重要。 一个有效的过夜 PROMPT.md 示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 任务:测试并加固认证系统

## 上下文
- 后端:Express + TypeScript,位于 src/api/
- 数据库:PostgreSQL,schema 在 prisma/schema.prisma
- 认证流程:JWT 中间件在 src/middleware/auth.ts

## 目标
- 查看 docs/plan.md,选择下一个未完成的任务
- 实现它,包含完善的错误处理
- 运行测试,修复失败,确认没有回归
- 做通用修复,不要打临时补丁
- 每完成一个任务后用描述性消息提交

## 成功标准
- 每次修改后所有测试通过
- 不会引入之前修复的回归
- 当 plan.md 中所有任务完成后输出 DONE

社区有几个工具扩展了这个基础循环。Ralph CLI 增加了速率限制(100次调用/小时)、熔断器、会话过期(默认24小时)和实时监控仪表板。Nonstop 增加了飞行前风险评估和阻塞决策框架——走之前输入 /nonstop 即可。Continuous-claude 自动化完整 PR 生命周期:创建分支、推送、创建 PR、等待 CI、合并。


三、防止过夜灾难的四个 Hook

开发者 yurukusa 记录了 108 小时无人值守运行,识别出七类过夜事故——包括 Claude 执行 rm -rf ./src/、进入无限错误循环、直接推送到 main 分支,以及产生每小时 8 美元的 API 费用。解决方案:四个关键 Hook,共同预防最常见的故障模式。

10 秒快速安装:

1
npx cc-safe-setup

Hook 1:No-Ask-Human 阻止 AskUserQuestion 工具调用,强制 Claude 自主做出决定,而不是坐在那里等几小时等人回复。这个 Hook 决定了 Claude 是整夜工作还是在晚上 11:15 卡住。在你坐在电脑前时,用 CC_ALLOW_QUESTIONS=1 覆盖。

Hook 2:Context Monitor 将工具调用次数作为上下文使用量的代理指标,在四个阈值(剩余 40%、25%、20%、15%)发出分级警告。在临界水平时,配套的空闲推送脚本会自动向终端注入 /compact 命令——两个进程,共 472 行代码,零人工干预

Hook 3:Syntax Check 在任何文件编辑后立即运行 python -m py_compilenode --checkbash -n,在错误级联成 50 次调试之前就捕获它们。

Hook 4:Decision Warn 在执行前标记破坏性命令(rm -rfgit reset --hardDROP TABLEgit push --force)。通过 CC_PROTECT_BRANCHES="main:master:production" 配置受保护分支。

.claude/settings.json 中配置:

1
2
3
4
5
6
{
"permissions": {
"allow": ["Bash(npm run lint:*)", "WebSearch", "Read"],
"deny": ["Read(.env)", "Bash(rm -rf *)", "Bash(git push * main)"]
}
}

四、tmux 设置与保持机器不休眠

Claude Code 的交互模式需要 TTY —— 不能用 nohup 或将其作为 systemd 服务运行(大约 15-20 秒后会因 stdin 错误崩溃)。tmux 是会话持久化的必备工具

1
2
3
4
5
6
7
8
9
10
11
12
13
# 启动命名会话
tmux new -s claude-work

# 在其中启动 Claude
claude --permission-mode auto

# 分离(Claude 继续运行):Ctrl+B,然后按 D

# 从任何地方重新连接(SSH、手机 Termius 等)
tmux attach -t claude-work

# 不连接就查看进度
tmux capture-pane -t claude-work -p -S -50

对于真正的 7×24 运行,社区推荐 VPS + Tailscale + tmux 方案:便宜的 VPS(Hetzner、Vultr、DigitalOcean)提供永不关机的算力,Tailscale 提供私有网络,mosh 在不稳定网络上保持连接持久性。给 Claude 一个任务,分离,合上笔记本,明天再回来。

macOS 防止休眠:

1
2
3
4
5
# 绑定到 Claude 进程
caffeinate -i -w $(pgrep -f claude) &

# 或者在接通电源时全局禁用休眠
sudo pmset -c sleep 0

管理多个并行会话方面,Amux 是一个约 12,000 行的 Python 文件,提供 Web 仪表板、手机 PWA 监控、自愈看门狗(自动重启崩溃会话)、按会话 token 追踪和 git 冲突检测。Codeman 提供类似的 Web UI,带 xterm.js 终端,支持最多 20 个并行会话。

一个强大的过夜 agent tmux 配置:

1
2
3
4
5
6
7
8
9
#!/bin/bash
tmux new-session -d -s claude-dev
tmux rename-window -t claude-dev:0 'Claude'
tmux new-window -t claude-dev:1 -n 'Tests'
tmux new-window -t claude-dev:2 -n 'Logs'
tmux send-keys -t claude-dev:0 'claude --permission-mode auto' Enter
tmux send-keys -t claude-dev:1 'npm run test:watch' Enter
tmux send-keys -t claude-dev:2 'tail -f logs/app.log' Enter
tmux attach-session -t claude-dev

五、CLAUDE.md 与长时间运行的上下文管理

过夜失败的最大原因是上下文窗口耗尽。Claude Code 的上下文窗口大约 200K token,使用率超过 70% 时性能开始下降。自动压缩在接近阈值时触发,但会丢失信息——仅保留 20-30% 的细节。有开发者报告 Claude 压缩后遗忘了所有内容,重新开始同一个任务,浪费了三个小时。

解决方案是检查点/交接模式,能够在上下文重置后存活:

1
2
3
4
5
6
# 在 CLAUDE.md 中
当上下文变大时,将当前状态写入 tasks/mission.md。
包括:已完成的、下一步的、被阻塞的、未解决的问题。
错误处理:最多重试 3 次。如果没有进展,记录到
pending_for_human.md 然后转到下一个任务。
压缩前,务必保存完整的已修改文件列表。

将 CLAUDE.md 控制在 200 行以内——每个词在每个会话中都消耗 token。从 800 行切换到 100 行的开发者达成社区共识:更短的配置实际上表现更好,因为 Claude 不会忽略被噪音淹没的指令。使用”仅在不可逆时才提问”规则,将提问频率降低约 80%:

1
2
3
4
5
6
# 自主运行的决策规则
- 技术方案不确定 → 选择传统方案
- 两种可行实现 → 选择更简单的那个
- 尝试 3 次后仍有错误 → 记录到 blocked.md,切换任务
- 需求模糊 → 应用最合理的理解,记录假设
- 永远不要提问。做出最佳判断然后继续。

CLAUDE.md 文件是分层的:~/.claude/CLAUDE.md(全局)、./CLAUDE.md(项目级,git 追踪)、.claude/CLAUDE.local.md(个人覆盖,gitignore)。自主运行时,全局文件保持最小,把运行特定指令放在项目文件中。

关键 token 节省技巧:在里程碑后主动使用 /compact,而非等待自动压缩;对独立任务使用子 agent(每个有自己的上下文窗口);不相关的工作启动新会话;积极使用 .claudeignore 排除无关文件。


六、过夜运行的速率限制处理

速率限制作为三个独立的、重叠的约束运作:每分钟请求数、每分钟输入 token 数、每分钟输出 token 数。一个可见的命令在内部可能产生 8-12 个 API 调用(lint、修复、测试、修复循环)。15 次迭代后,单个请求可能发送 20 万+ 输入 token

过夜运行速率限制生存策略:

在非高峰时段运行。 Anthropic 确认工作日太平洋时间早 5 点到 11 点限制更严格。过夜运行和周末会话完全避开高峰期限流——恰好就是你在睡觉的时候。

利用 Ralph 循环的内置重试。 运行 while 循环时,速率限制错误只会导致当前迭代失败,但循环不在乎——它在速率限制窗口重置后的下一次迭代中重试。有开发者警告:“不要在 API/按用量计费模式下运行——重试会烧光你的预算。”

运行中切换模型。 Sonnet 能处理 60-70% 的常规任务,每 token 成本比 Opus 低约 1.7 倍。过夜工作设置 --model sonnet,将 Opus 留给复杂推理。也可以设置 --fallback-model sonnet,让 Claude 在主模型过载时自动降级。

Token 消耗的真实数据:20 条消息会话消耗约 105,000 token;30 条消息会话跳到 232,000 token。大约 98.5% 的 token 花在重新读取对话历史——只有 1.5% 用于实际输出。这就是为什么全新会话和积极压缩如此重要。

成本估算:持续运行 Sonnet 大约 $10.42/小时。基于 cron 每 15 分钟运行一次的 agent,预计约 $48/天。使用 --max-budget-usd 作为硬上限。


七、CI/CD 流水线与 Cron 任务集成

对于计划性的自动化工作,Claude Code 可直接与 CI/CD 系统集成。官方 GitHub Action 是 anthropics/claude-code-action@v1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
name: Claude Code Review
on:
pull_request:
types: [opened, synchronize]
jobs:
review:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
with:
fetch-depth: 0
- uses: anthropics/claude-code-action@v1
with:
anthropic_api_key: ${{ secrets.ANTHROPIC_API_KEY }}
prompt: "审查这个 PR 的安全和代码质量问题。"
claude_args: "--max-turns 5 --model claude-sonnet-4-6"

对于基于 cron 的自主 agent,Boucle 模式通过 state.md 文件在运行之间维持状态:

1
2
3
4
5
6
7
8
9
10
11
12
#!/bin/bash
# run-agent.sh —— 由 cron 调用
STATE="$HOME/agent/state.md"
LOG="$HOME/agent/logs/$(date +%Y-%m-%d_%H-%M-%S).log"

claude -p "你是一个自主 agent。读取你的状态,决定做什么,
然后用你学到的内容更新 state.md。
$(cat $STATE)" \
--allowedTools Read,Write,Edit,Bash \
--max-turns 20 \
--max-budget-usd 1.00 \
--bare 2>&1 | tee "$LOG"
1
2
# crontab -e
0 * * * * /path/to/run-agent.sh

200 次迭代后的关键教训:state.md 必须保持在 4KB 以下(它会被注入每个 prompt),使用结构化键值对而非散文,并添加文件锁防止重叠运行。每次迭代后 git commit——git log 就是你最好的调试工具。

CI 环境使用 --bare 模式(跳过 hook、MCP 服务器、OAuth 和 CLAUDE.md 加载,最快最可复现的执行方式)和 --permission-mode dontAsk(拒绝所有未显式允许的操作——自动化环境中最安全的模式)。


八、已知陷阱与可能出错的地方

社区已广泛记录了以下故障模式:

故障模式 后果 预防方法
破坏性命令 Claude 运行 rm -rfgit reset --hard 或覆盖生产数据 PreToolUse hook 阻止危险命令;Docker 配合 --network none
无限错误循环 修复 → 测试 → 同样错误 → 修复 → 重复 20+ 次 CLAUDE.md 规则:”最多重试 3 次,然后记录到 blocked.md 继续下一个”
压缩后上下文丢失 Claude 遗忘一切,重新开始同一任务 压缩前将状态写入 mission.md;使用 Ralph 循环获得全新上下文迭代
权限提示阻塞 会话无限期挂起等待人工输入 No-Ask-Human hook;--dangerously-skip-permissions--permission-mode auto
直接推送到 main 未测试的代码部署到生产环境 分支保护规则;PreToolUse hook 阻止 git push 到受保护分支
API 成本失控 子 agent 进入循环调用外部 API($8/小时) --max-budget-usd;速率限制 hook;熔断器
OAuth token 过期 中途打断自主工作流 所有自动化使用 ANTHROPIC_API_KEY 环境变量而非 OAuth
订阅 ToS 违规 用 Pro/Max 订阅(非 API key)的 headless 模式可能违反消费者条款 自动化/脚本使用务必用 ANTHROPIC_API_KEY

最重要的单一安全措施是容器化。多位经验丰富的开发者独立推荐使用带网络隔离的 Docker:

1
2
3
4
5
docker run -it --rm \
-v $(pwd):/workspace -w /workspace \
--network none \
-e ANTHROPIC_API_KEY="$ANTHROPIC_API_KEY" \
claude-code:latest --dangerously-skip-permissions -p "$(cat PROMPT.md)"

正如一位开发者所说:“用 --dangerously-skip-permissions 运行 Claude Code 就像不做防护措施。所以用个套… 我是说容器。”


九、今晚的快速启动清单

15 分钟设置过夜自主运行:

  1. 创建 git 检查点git add -A && git commit -m "pre-autonomous checkpoint"
  2. 安装四个关键 Hooknpx cc-safe-setup
  3. 编写 PROMPT.md,包含架构上下文、任务列表、成功标准,以及每完成一个任务就提交的指令
  4. 启动 tmux 会话tmux new -s overnight
  5. 防止休眠(macOS):caffeinate -s &
  6. 启动循环
1
2
3
4
5
6
7
8
while true; do
claude -p "$(cat PROMPT.md)" \
--allowedTools "Read" "Edit" "Bash(npm run *)" "Bash(git *)" \
--max-turns 30 \
--max-budget-usd 5.00 \
--permission-mode acceptEdits
sleep 2
done
  1. 分离 tmuxCtrl+B,然后按 D
  2. 去睡觉

早上起来:tmux attach -t overnight,然后查看 git log(git log --oneline)看 Claude 完成了什么。预计保留大约 75% 的产出,丢弃 25%。这很正常——正如一位开发者说的,“不是完美,甚至不是最终版,但是在前进。”

十、总结

先用 plan 模式,把 PRD.mdTODO.md 生成好。

  • 安装 cc-safe-setup
1
npx cc-safe-setup
  • 安装 format-claude-stream
1
npm install -g @khanacademy/format-claude-stream
  • 编写项目的 CLAUDE.md
1
2
3
- 当上下文变大时,将当前状态写入 tasks/mission.md。包括:已完成的、下一步的、被阻塞的、未解决的问题。
- 错误处理:最多重试 3 次。如果没有进展,记录到 pending_for_human.md 然后转到下一个任务。
- 压缩前,务必保存完整的已修改文件列表。
  • 编写 PROMPT.md
1
2
3
4
5
6
7
8
9
10
11
12
13
14
## 目标
- 查看 TODO.md,选择一个未完成的任务执行
- 执行的代码必须包含测试用例并测试通过
- 每做完一个任务,及时提交 Git,并在 TODO.md 标记为已完成
- 当所有任务都完成后,在 TODO.md 中顶部注明:“全部任务已完成”

## 要求
- 技术方案不确定 → 选择传统方案
- 两种可行实现 → 选择更简单的那个
- 需求模糊 → 应用最合理的理解,记录假设
- 永远不要提问,做出最佳判断然后继续

## 环境(如有)
# - CLOUDFLARE API 在 key.md 中
  • 编写 key.md
1
2
CLOUDFLARE_API_TOKEN=xxx
CLOUDFLARE_ACCOUNT_ID=xxx
  • 编写 nostop.sh
1
2
3
4
5
6
7
8
9
mkdir -p logs
while true; do
claude -p "$(cat PROMPT.md)" \
--dangerously-skip-permissions --model opus \
--output-format stream-json --verbose \
tee "logs/$(date +%Y%m%d_%H%M%S).jsonl" \
| format-claude-stream
sleep 60
done

不到 24 小时,奥特曼的天塌了两次

Sam Altman 估计又要失眠了。

早上,《纽约客》刚发一篇万字调查报道来指责自己是「反社会骗子」,转头 OpenAI 的年化营收就被自己最大的竞争对手 Anthropic 反超了。

2024 年初,Anthropic 的年化营收还只有 10 亿美元。十六个月后,这个数字变成了 300 亿,超过了 OpenAI 的 250 亿

值得注意的是,年化营收(ARR)是一种推算,不是已经装进口袋的真金白银。Anthropic 的算法是把最近四周的 API 营收乘以 13,订阅收入乘以 12,加总得出。OpenAI 的计算方式与此类似,用四周总收入乘以 13。口径相对一致,但也意味着一旦某个月需求骤然爆发,数字就会被放大,反之亦然。

数字背后,还藏着两种完全不同的商业逻辑。

一个五天原型,25 亿美元的生意

Anthropic 的营收里,70% 到 75% 来自企业和开发者的 API 消耗。客户把 Claude 嵌进自家产品和工作流,用多少付多少。剩下的来自 Claude Pro、Claude Max 等消费端订阅,以及 Claude Code 的企业合同。

Claude Code 值得单独说一下。

2024 年 9 月,Anthropic 内部一位 TypeScript 工程师写了个 Apple Script 提升自己的效率,五天之内半个工程团队都在用。这个意外的原型后来变成了 Claude Code,一个在终端里运行的智能编程代理,能读懂代码库,规划操作步骤,自主执行编辑、测试、提交。

目前,Claude Code 的年化营收已经达到 25 亿美元。全球 GitHub 公开代码提交中有 4% 是由它生成的,这个数字在一个月内翻了一番,预计年底将达到 20%。届时全球每五条代码提交,就有一条出自同一个模型之手。
就是这样一个五天搓出来的原型,变成了 25 亿美元的生意。

直接去找愿意付钱的人

OpenAI 拥有 9 亿周活跃用户,ChatGPT 是人类历史上增长最快的消费级应用之一。

但这 9 亿用户中,只有大约 5% 到 6% 是付费的,其余 94% 免费使用。

此前我们写过一篇文章,指出了 OpenAI 为了维持 ChatGPT 这个「大体上免费」的产品,需要付出极高的算力成本,相当于是在做「补贴」。(考虑到 OpenAI 此前宣布在免费档上加入广告,无疑是因为在 7-8 亿周活用户的量级上做算力补贴的成本实在太难以接受。)

据 The Information 报道,OpenAI 预计 2026 年将亏损 140 亿美元,累计亏损到 2028 年底将达到 440 亿,最早也要 2029 年才能盈利——甚至,就连 ChatGPT Pro 订阅都是亏钱的,奥特曼自己也承认了这一点。

去年,汇丰银行环球投资研究对 OpenAI 的收入模型做了分析,指出:OpenAI 需要在 2030 年实现至少 30 亿周活跃用户,并且其中付费用户的比例达到 10%,才能够避免「入不敷出」。

和现在相比,这个周活跃用户只需要再翻两倍多一点;但是,付费用户数量却需要增长 6.5 倍才行

Anthropic 走的是另一条路。

它大约 80% 的收入来自企业客户。两年前有 12 家公司每年向 Anthropic 支付超过 100 万美元,现在这个数字超过了 1000 家,而且在不到两个月内就从 500 家翻了一番。八家「财富」前十强企业都是它的客户。

Anthropic 每位月活跃用户平均收入为 211 美元,OpenAI 每位周活跃用户平均收入为 25 美元。虽然口径不一,但即便统一口径计算,A 社的变现能力都比 OpenAI 要强得多。

今年 3 月,首次购买 AI 工具的企业中,有 73% 选择了 Anthropic。十周前这个比例还是五五开,去年 12 月甚至是 60:40 偏向 OpenAI。Axios 在报道中指出,AI 竞赛的焦点正在从「谁的模型最好」转向「谁能最快变现」,而 Anthropic 正在企业客户这个最重要的战场上拉开距离。

消费互联网的流量思维和企业软件的价值思维之间,存在一种根本性的差异:OpenAI 选择了前者,用免费产品圈住数亿用户,再想办法转化。Anthropic 选择了后者,直接去找愿意付钱的人。

在 AI 模型的推理成本高居不下的今天,后者看起来是更健康的路径。但这并不意味着 OpenAI 做错了。9 亿用户这个数字还是令人不可小觑的,只是,OpenAI 这个用户体量(特别是前面提到的付费比例)想要兑现为真实收入,周期要比企业软件路线更长、风险更大。

可能这也是为什么 OpenAI 正在考虑收缩它的消费级产品,将重心转向企业市场。

只是,这可能又落入了我们今天在前一篇文章里提到的陷阱:在 AI 事业的关键议题上,OpenAI 经常摇摆不定,会有重视-忽略-重视-忽略的循环。

谁也没法说,OpenAI 今天看重企业市场,回头过两年会不会又改主意。

(成天改主意,每次都 all in,这味道倒是像极了某公司……)

而且,转身需要时间,而 Anthropic 从一开始就已经站在终点线上。

300 亿美元的营收需要相应的基础设施来支撑,Anthropic 今天宣布与谷歌、博通的三方协议,就是为此而来。

根据提交到了美国证券交易委员会的文件,博通将承担更多谷歌 TPU 的代工业务,而从 2027 年起 Anthropic 将通过该公司获得大约 3.5 吉瓦的 TPU 算力。

瑞穗分析师估算,在 2026 年,博通仅从 Anthropic 一家就将获得 210 亿美元的 AI 收入,2027 年达到 420 亿。

Anthropic 的算力策略也值得注意。它同时使用 AWS 的 Trainium、Google 的 TPU 和 NVIDIA 的 GPU 三种芯片平台,同时也是唯一一家在 AWS Bedrock、Google Cloud Vertex AI 和 Microsoft Azure Foundry 三大云平台上都提供前沿模型的 AI 公司。

这种多平台策略,让企业客户此前无论在哪个云平台上,都可以无需更换平台即可接入 Claude 大模型 API,同时更让 Anthropic 避免了对单一供应商的依赖

二级市场已经开始重新定价

买方对 Anthropic 股票的需求目前高达 20 亿美元,几乎找不到愿意出手的卖家。隐含估值从两个月前 G 轮融资时的 3800 亿美元上升到了约 6000 亿美元。高盛对 Anthropic 配售收取 15% 到 20% 的业绩报酬。

与此同时,价值 6 亿美元的 OpenAI 股票据说无人问津。

IPO 的话题正在变得越来越具体。据 The Information 报道,包括 CEO Dario Amodei 在内的 Anthropic 高管已经在讨论最早于 2026 年 10 月上市,公司聘请了 Wilson Sonsini 作为法律顾问,并与高盛、摩根大通组成的银行团队推进 S-1 文件的准备。

承销方预计此次募资将超过 600 亿美元,若成真,将成为科技史上仅次于 SpaceX 的第二大科技 IPO。目前的目标估值从最初的 5000 亿美元起步,市场预期最终可能突破 8000 亿美元。

华尔街日报在两家公司预计今年晚些时候上市前,获取了 OpenAI 和 Anthropic 的机密财务资料。在这场竞赛里,两家公司都在以一种惊人的速度烧钱,只是 Anthropic 的账面比率看起来稍微好看一些。

OpenAI 预计到 2028 年在算力上的支出将达到 1210 亿美元,尽管收入几乎翻了一番,但仅那一年就会亏损 850 亿美元。

剔除训练成本,两家公司现在都接近盈利;把训练成本加回去,OpenAI 的盈亏平衡目标则推到了 2030 年。Anthropic 预计会更早达到,目前其规划 2027 年实现正向自由现金流。

▲ 图片来自:WSJ

增长放缓几乎是不可避免的。Epoch AI 在建模时也注意到,Anthropic 的增速从 2025 年 7 月起已经从每年 10 倍降到了每年 7 倍左右。这依然是一个惊人的数字,但趋势已经在发生变化。

更大的体量意味着每一个百分点的增长都需要绝对量上更大的增量,市场会在某个时点开始出现饱和,竞争也在加剧。

两种 Token 烧法,要解决同一个问题

前文提到,OpenAI 是先圈用户,再想办法变现。这是消费互联网的经典路径,Facebook、Google、TikTok 都是这么走过来的。风险在于,AI 模型的推理成本远高于传统互联网产品,免费用户不是资产,你需要在烧光钱之前找到转化路径。

而 Anthropic 直接去找愿意付钱的人。这是企业软件的经典路径,Salesforce、Oracle、SAP 都是这么走过来的。这里的风险在于,企业市场的天花板比消费市场低得多,而且一旦增长放缓,估值就会被重新定价。

OpenAI 赌的是时间,赌推理成本会快速下降,赌 9 亿用户中总有一部分会转化为付费用户。Anthropic 赌的是确定性,赌企业客户的付费意愿足够强,赌自己能在增长放缓之前建立起足够深的护城河。

现在的问题是,谁的时间窗口会先关闭。

OpenAI 的时间窗口是推理成本下降的速度。如果成本下降得不够快,免费用户就会变成一个无底洞。Anthropic 的时间窗口是企业市场的饱和速度。如果增长放缓得太快,二级市场就会开始重新定价。

两家公司都在和时间赛跑,只是跑道不同。一个在消费市场的长跑道上狂奔,一个在企业市场的短跑道上冲刺。谁会先撞线,谁会先撞墙,现在还不知道。

但有一点是确定的:AI 行业的竞争,已经从「谁的模型最好」变成了「谁能活到最后」。而活到最后的前提,是你得先找到一条能养活自己的路。

Anthropic 找到了,OpenAI 还在找。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

惹众怒!Anthropic 疯狂删库,他连夜爆改 Claude Code 源码拿下史上最快 10 万星

凌晨四点,韩国开发者 Sigrid Jin(instructkr)被手机震醒。

消息铺天盖地:Claude Code 的底层源码被泄露了,开发者们正在疯狂转发、下载、存档。他的消息列表里全是同一件事。他也在第一时间拿到了那份代码,并上传到 GitHub 仓库。

但未经授权持有、传播一家公司的专有源码,在美国版权法框架下,完全可能构成侵权。他的女朋友也提醒他:你可能要被起诉了。

思考过后,他打开 OpenAI 的 Codex,连夜用 Python 从头重写了一遍,推上了 GitHub。2 小时,突破 50K。单日,超过 110K,成为 GitHub 史上增速最快的项目。

马没跑,马鞍丢了

事情发生在 2026 年 3 月 31 日。

Anthropic 在推送 Claude Code 更新时,打包出了问题。一个本不该公开的文件类型被上传到了 GitHub,这个文件指向内部源码,外人可以直接下载、直接阅读。

正常情况下,Claude Code 的源码是经过混淆处理的,逆向极其困难。但这一次,保护层消失了。

一个名为 Chaofan Shou 的 X 用户最先注意到这件事,截图发出,消息开始指数级扩散。几小时内,开发者们在 GitHub 上创建了超过 8000 份拷贝和衍生版本,每个人都在争分夺秒地把这份代码保存下来。

而要理解这次事件的严重性,需要先搞清楚泄露的是什么。

Claude Code 的底层,是 Anthropic 的 AI 模型,这部分没有泄露。泄露的,是套在模型之上的 harness。

如果说,AI 模型是一匹马,harness 是缰绳和马鞍。模型提供原始能力,harness 决定骑手能否真正驾驭它、指挥它干活。Claude Code 之所以能让开发者用得顺手、效率极高,靠的正是这套精心设计的 harness 体系。

这里面,包含 Anthropic 在工具调用、任务编排、上下文管理、模型行为调校上的全部积累。因此,竞争对手和无数开发者拿到的,是一张无需逆向工程的完整设计图。

后续,Anthropic 的发言人随即回应:此次泄露「没有暴露任何客户数据」,也「没有泄露模型的权重参数」。公司声明将其定性为「打包时的人为失误,不是安全漏洞」,并表示正在推出措施防止重演。

Claude Code 之父 Boris Cherny 也在 X 上简短留言,确认这只是「开发者的操作失误」。

消息发酵后,马斯克也来凑了个热闹,转发网友调侃 Anthropic 现在比 OpenAI 更开放的帖子,并留下一句「太绝了😂」。

DMCA 出手,先误伤了无辜

面对失控的传播,Anthropic 启动了 DMCA 删除程序。

DMCA,即《数字千年版权法》(Digital Millennium Copyright Act),是美国版权保护的主要武器。版权方向平台发出删除通知,平台需在审核后响应,否则可能连带承担侵权责任。

GitHub 作为平台,必须处理这些请求。

Anthropic 初始提交的 DMCA 请求,覆盖了超过 8000 个 GitHub 账号。随后,自己意识到范围过大,把请求收窄到了 96 个账号。

但伤害已经造成。比如开发者 Theo(YouTube 频道 t3.gg 主理人)被「DMCA」了。他的仓库里,根本没有任何泄露的 Claude Code 源码。唯一的关联,是他几周前编辑过一个 skill 的 PR(Pull Request),仅此而已。

「这不是愚人节玩笑,这是对法律的违反,我会全力抗争,」Theo 在 X 上写道,并点名 GitHub,要求撤销 Anthropic 的删除请求。

几小时后,他的仓库恢复了,但他没有收到任何通知。Theo 最终发了一条跟进推文:「看起来像是真实的失误,他们也迅速处理了。」

DMCA 的滥用问题,在开源圈由来已久。

2020 年,RIAA 向 GitHub 发出 DMCA 通知,指控 youtube-dl 绕过 YouTube 的版权保护机制,GitHub 随即下架了该仓库。事后电子前沿基金会(EFF)介入,证明投诉方误读了技术和法律,仓库最终恢复。

GitHub 随后设立了 100 万美元防御基金,专门帮助开发者应对错误的 DMCA 投诉。这一次,Anthropic 这次的大范围误伤,多少让整个开源社区有种似曾相识的愤怒。

维权的节奏,被 AI 降维打击

尽管开发者 Sigrid Jin 的重写行为本身是有争议的,从法律风险规避的角度看,至少比持有原始代码更安全。

他用的工具叫 oh-my-codex(OmX),@bellman_ych 开发的一个工作流框架,底层跑在 OpenAI Codex 上。原始的 TypeScript 代码库约有 51.2 万行,体量不小。

他开了两个模式同时推进:$team 负责并行代码审查,$ralph 负责持续执行和架构验证,迅速完成了从 TypeScript 到 Python 的整体重写。

并且他号称全程没有复制一行原始代码。

这里有个法律上的基本逻辑:版权只保护代码本身的写法,不保护背后的思路和设计。你把一个系统的架构摸清楚了,换一种语言重新实现出来,就像看完一本菜谱,自己下厨做出来,厨师管不着你。

目前,Rust 版本已经在 dev/rust 分支上动工,API 客户端、运行时、工具执行框架、斜杠命令、插件模型这些模块都在计划里。

Sigrid Jin 的仓库最早发的是直接复制的原始代码,上线瞬间,star 数量几乎垂直拉升,2 小时突破 5 万,创下 GitHub 平台有史以来最快达成该里程碑的纪录。

这个 stars 增长速度有多夸张,拿同期的 OpenClaw 来比就清楚了。

OpenClaw 已经是这个时代增速最快的开源项目之一,一个本地 AI agent 框架,在 2026 年 3 月初积累了超过 30 万 GitHub stars,超过了 React 的 24.3 万和 Linux 的 22 万。

React 跑了 13 年,Linux 跑了 35 年,OpenClaw 用了不到 100 天。而就目前的增速来看,claw-code 比 OpenClaw 还快,而且快得多。

更重要的是,AI 的介入也让今天开发者社区的复制、传播、重写速度,已经快到让版权武器有些跟不上节奏了。DMCA 能删掉 8000 个仓库,但删不掉工程师脑子里已经消化掉的架构思路。

以前,把「理解」变成「可运行的代码」需要相当的时间和人力成本,这个时间差,某种意义上是版权执法的窗口期。现在这个窗口几乎关闭了。

理解一套系统的架构,然后用 AI 辅助重写,几个小时就能完成。法律的节奏,和代码传播的节奏,已经完全不在同一个时间维度上。

Claude Code 源码传播到这个量级,早已超出任何版权手段能覆盖的范围。

对 Anthropic 来说,源码泄露本身已经是一件棘手的事。更棘手的,是两层叠加的麻烦。

第一层,是技术上的暴露。harness 的设计细节、dreaming 怎么压缩记忆、undercover mode 什么时候触发、工具调用怎么编排,这些原本的内部设计,现在摆在所有人面前,供所有人参考、复现、改进。

第二层,是形象上的裂痕。Anthropic 走到今天,最引以为傲的就是「负责任的 AI」这块金字招牌。企业客户敢把数据交给它,投资人愿意给出千亿估值,都建立在这个人设之上。但这次乱挥大棒,不仅暴露了技术底牌,更让这块招牌添上了一道难以抹平的划痕。

今年愚人节,Anthropic 送出了最贵的一份礼物。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌