普通视图

发现新文章,点击刷新页面。
今天 — 2026年4月16日首页

Claude Opus 4.7 或本周上线,但 Anthropic 要查你证件了

作者 张子豪
2026年4月16日 10:15

生产队的驴都没有 Anthropic 这么忙,从今年年初 Claude Cowork 发布之后, Anthropic 的更新就没有停止过,说一天一项都不为过。

根据 the information 的报道,Anthropic 在本周甚至会推出 Opus 4.7,和前几天社交媒体上爆料,类似 Lovable 的 AI 设计工具。

与此同时,Anthropic 在帮助中心更新的一则内容,引发了更大的争议。

官方正在为 Claude 的「部分使用场景」引入身份验证,例如在触及到某些能力、平台例行完整性检查、安全与合规要求时,用户会被要求验证身份,此举被很多网友推测是针对中国用户的「实名制」。

▲ https://support.claude.com/en/articles/14328960-identity-verification-on-claude

Anthropic 给出的核心理由很直接,强大技术要负责任地使用,平台需要知道「谁在使用」。

▲目前,已经有网友发现,在 Claude 内尝试订阅 Max(即最高档会员计划)时,会被触发身份验证。

能不能继续用成了个问题,但 Anthropic 这边的发货是马不停蹄。今天凌晨,Anthropic 再对桌面版的 Claude Code 进行了重新设计。

Claude Code 支持一个窗口内并行运行多个 Claude 会话,同时还新增了侧边栏管理会话、集成终端、文件编辑、HTML / PDF 预览、更快的 diff 查看器、拖拽式布局等多项新功能。

除了软件交互层面的更新,Anthropic 还给 Claude Code 加了一个很关键的新能力,「Routines」。

顾名思义,它是把这些可重复执行的日常任务,完全自动化,支持定时和触发运行。同时,这些任务可以跑在 Anthropic 的 Web 基础设施上,不依赖于本地 Mac 在线。

关掉电脑,Claude Code 还在干活

定时任务在 OpenClaw 出来之后并不算新鲜,无论是使用已有的工具配置 Cron Job,还是通过编写 HEARTBEAT.md 文档来告诉 Agent 需要以什么周期来跑什么任务。

Claude Code 这次更新的 Routine 功能,一方面是接管了这些重复性的任务,另一方面它既可以本地也可以远程,能做到不依赖我们的电脑在线,运行在 Anthropic 托管的云基础设施上,笔记本合上也能继续跑。

本质上,Routine 是一个保存在云端的 Claude Code 配置包,里面包括提示词、代码仓库、连接器和运行环境。

Routine 触发方式有三种,三种触发方式分别瞄准三种不同场景。

  • 定时触发:按小时、每天、工作日、每周,或者用 cron 自定义
  • API 触发:外部系统发一个 HTTP POST 就能拉起任务
  • GitHub 触发:PR、push、issue、workflow run 等事件发生时自动执行

定时触发最直觉,每天晚上跑一次日志整理,给新 issue 贴标签、分配负责人,早上团队上班时收到一份整理好的摘要。这些任务的共同点是:重复,规律,不需要人实时参与判断。

▲Claude Code 在网页端也能使用 Routine

API 触发针对的是已有工具链的接入场景。例如监控系统发现错误率异常,触发 Routine,Claude 自动拉取内容跟踪,并给出修复建议。

GitHub 事件触发则把 Routine 直接嵌进代码协作流程。Routine 能按照项目配置,自动对代码进行审查,以及决定是否要合并仓库等。

一个 Routine 可以叠加多种触发方式。比如同一个任务,既能定时每天夜里跑,也能在有事件触发时跑,还能被部署脚本手动触发。

这些场景的共同特征都是人工也可以做,但是做起来很枯燥又容易忘记。Routine 的重点就是把这些「无人值守、可重复、有明确结果」的工作流完全自动化。

Routine 主要是配合 GitHub 使用,官方给出的典型场景都是集中在项目开发上,例如代码审查、项目部署验证、文档修复等软件开发常见的流程。这也符合 Anthropic 一路以来在 B 端,在 AI Coding 方向上的发力。

目前 Routines 只对 Pro、Max、Team 和 Enterprise 用户开放,而且每天有次数限制。Pro 用户每天最多运行 5 个 routines,Max 用户 15 个,Team 和 Enterprise 用户是 25 个。

桌面端大改版,从工具到工作台

同一天发布的还有 Claude Code 桌面端的大改版。

▲ 右下角的 Claude Code 像素吉祥物,点击它,还会有鞭子抽打的效果

新版桌面端将顶部的 Chat、Cowork,和 Code 分类栏移动到左边的侧边栏顶部。增加的多对话并排,也是通过左侧边栏管理,现在我们可以在一个窗口里同时跑多个 Claude Code 对话,以拖拽的形式就能分屏显示或置顶不同对话。

我们也在 Claude Code 桌面端体验了一波这次的更新。

和之前的 Claude Code 终端处理多个会话不同,我们不再需要维持多个终端窗口。现在的 Claude Code 同样如此,一个人就能同时监督多条不同的任务线。

▲在电脑上是应用可以这样分屏拖拽,在应用内是文件,在 Claude Code,是每一个运行的 Agent

此外,Claude Code 还内置了终端、文件编辑、HTML 和 PDF 预览,原先需要用浏览器打开,或者编辑器处理,这些反复切换的场景,现在在同一个窗口就能完成。

如果你是开发者,想要查看每次更新后 Claude 动了哪些地方,现在也提供了像 Git 一样的 diff 视图,开发者可以快速看到不同版本之间的区别。

以前是在 Cursor、终端里面用 Claude 模型,现在 Claude Code 直接把这些常见的代码编辑器会有的功能,统统搬上来。

这次桌面端改版的方向,很明显是要把 Claude Code 从一个单一的工具,变成一整套全面的工作台。

把两个更新放在一起看,Routines 解决了「我不在时谁来做」,桌面端升级解决了「我们在时怎么同时做多件事」。这两项更新既让 Claude Code 有了在后台独立运行的能力,也让用户在前台的操作密度和体验更强了。

Claude Code 桌面端负责人 Anthony Morris 也发推文说,他自己连续好几周没有用过终端、代码编辑器、集成开发环境这类产品了。

现在的 Claude App,已经完全从一个聊天的对话工具,进化到了真正接管任务的调度和执行本身。

▲Karpathy 此前发文表示传统的编程开发软件形态正在改变,文件不再作为基本处理单元,而是 Agents。

网友@Yuchen Jin 也说 Claude Code 走了一条和 Cursor 完全不同的路,这两项更新很清楚地说明,Anthropic 正在重新设计用于智能体编码的 IDE,完全地脱离之前 VS Code 变体(像是 Cursor、Windsurf、TRAE、CodeBuddy 等应用)的形态。

Anthropic 表示这周还有更新

根据 The Information 今天的独家消息显示,Anthropic 还在准备下一个旗舰模型 Claude Opus 4.7,以及一款 AI 设计工具,帮助用户用自然语言生成网站、演示文稿和落地页。

这两款产品最快本周就会发布,消息一放出来,Adobe、Wix 和 Figma 的股价在几小时内跌超 2%。

▲Figma 股价

模型本身的能力边界、面向(企业)开发者的 Agent 工作流、面向普通用户的生产力工具,Anthropic 在这三条线上同时加速,收获不少新增用户和好评的同时,也带来了不少的算力压力。

除去此前宣布「封杀」OpenClaw,以减少额外的 Token 支出。Anthropic 近期还调整了 Claude 企业版的定价方式,不再主要按「席位」收费,而是在每月每用户 20 美元基础上,额外按实际 AI 使用量收费。

这次变动主要影响大企业客户,尤其是 150 人以上、重度使用 Claude Code 和 Claude Cowork 的团队,部分客户成本可能翻倍,甚至涨到 3 倍。

Uber CTO Praveen Neppalli Naga 透露,Uber 在 2026 年才过去几个月,就已经用了一整年的 AI 预算,核心原因就是 AI 编程工具使用量飙升,尤其是来自 Anthropic 的 Claude Code。

▲Anthropic面临的成本压力,随着运行AI模型的成本激增,Anthropic下调了其最乐观的毛利率预期,其中绿色代表收入,红色代表模型推理支出,后面两项分别是截止到 2025 夏天和 12 月中旬预期

算力紧张,定价调整是必然的,但 Anthropic 增长的势头目前没有停下来的迹象。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

Claude Opus 4.6 一天之内被超越两次,这次来自国产模型

作者 李超凡
2026年4月8日 17:16

前两天 APPSO 提到,大模型即将迎来史上最残酷的一个月,这就来了。

而Claude Opus 4.6 「不幸」成为背景板,一天之内被超越两次。

早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug,已经超过了绝大多数人类程序员。

可 Mythos Preview 暂时不对普通用户开放,与此同时,另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%,超过 Opus 4.6 的 57.3%,也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺:「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了!欢迎 GLM 5.1!」

全球第三,开源第一。虽然没等来 DeepSeek V4,但开源新一哥还是来了,依然是咱们国产大模型。

说实话,我第一反应是又来了,大模型的「榜单狂欢」,每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时,这次的剧本有什么不同呢。

APPSO 看完 GLM-5.1 的技术细节和体验后,带你看看这个模型是什么水平

从 20 步到 1700 步,持续工作 8 小时

GLM-5.1 最让人没想到的,不是跑分,是它能工作多久。

智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」,是真的从零开始,画架构、写代码、跑测试、修 bug,历时 8 小时整,执行了 1200 多步,最后产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。

全程没有人参与测试、审查代码。GLM-5.1  甚至给自己的代码写了回归测试,而且跑过了。

知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。

结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。

他的评价是:「GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但他也指出了问题:「超长上下文时容易幻觉爆炸,如果遇到 2 轮改不好一个问题,不要抱有侥幸,直接重开。」

去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破点:以前的模型,包括 GLM-5,会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。

GLM-5.1 的训练目标就是突破这个瓶颈,让模型能够在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案。

向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询吞吐从 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。

这个过程中,模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代,最终取得 3.6 倍的几何平均加速比,显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有一个更有意思的测试:Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432,在开源模型中排名第一,接近 Claude Opus 4.5 的水平。

744B 参数,零英伟达芯片,成本降低 97%

GLM-5.1 的技术规格值得细看:744B 参数的混合专家模型(MoE),每个 token 激活 40B 参数,28.5T tokens 训练数据,集成了 DeepSeek Sparse Attention(DSA)来降低部署成本同时保持长上下文能力。200K 上下文窗口,最大输出 131,072 tokens。

更关键的是,整个模型全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU 参与。在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。

开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验上没有任何差别,但成本从 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5,输出成本是 1/8。简单来说:接近 Opus 的能力,20% 的价格。

而且GLM-5.1  是开源的。MIT License,最宽松的开源许可证之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

当然  GLM-5.1 也不是没有提升的空间,部分开发者反馈,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同类产品没太大优势。复杂任务甚至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。

这些问题都是真实存在的。GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。

GLM-5.1 的意义,不在于它比 Opus 4.6 强多少,而在于它证明了,在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。

你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI ,是开源的,是国产的,是任何人都可以用的。

附体验方式

1. 官方API接入
– BigModel 开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai:https://docs.z.ai/guides/llm/glm-5.1

2. 产品体验
– GLM-5.1即将登陆Z.ai:https://chat.z.ai

3. 开源链接
– GitHub:https://github.com/zai-org/GLM-5
– Hugging Face:https://huggingface.co/zai-org/GLM-5.1
– ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌