一天之内，智谱和 Anthropic 都发了最强编程模型

阮一峰的网络日志

阮一峰

2025年10月1日 19:05

1、

假期前最后一天（9月30日），热闹非凡。

上午，Anthropic 公司发布了 Claude Sonnet 4.5 模型。

下午，智谱公司发布了 GLM 4.6 模型。

我觉得，对于程序员，这个动态很重要。

因为这两个模型都属于目前最先进的 AI 编程模型。你想让 AI 生成代码，首选就是它们。

这就是说，一天之内，AI 编程模型又达到了新高度。

2、

Anthropic 发布公告的第一句话，就毫不谦虚地用了三个"世界之最"。

"Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"

智谱的发布公告也是当仁不让。

"我们再次突破大模型的能力边界。

GLM-4.6是我们最强的代码 Coding 模型（较 GLM-4.5 提升27%）。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"

为了让人信服，智谱的发布公告还给出了详细的测试结果。

上图一共是8个测试基准的结果图。每个图的蓝柱是 GLM-4.6，绿柱是 GLM-4.5。对照组是前两天刚发布的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到，蓝柱基本上都是排名前列，甚至第一。智谱还声称，GLM-4.6 非常节省 Token（也就是省钱），"比 GLM-4.5 节省30%以上，为同类模型最低"。

所以，它的结论就是："GLM-4.6 在部分榜单表现对齐 Claude Sonnet 4/Claude Sonnet 4.5，稳居国产模型首位。"

这就有意思了，一个自称"世界上最好的编码模型"，另一个自称"稳居国产模型首位"。

下面，我来测试，GLM-4.6 相比 Claude sonnet 4.5 到底怎么样。

3、

需要说明的是，这两个模型的比较，不完全是为了测试，也有实际的意义。

Anthropic 公司虽然产品很强，但是它限制中国人使用，国内用户正常途径无法开通它的服务。另一方面，它是付费模型，价格也不便宜，百万 token 的输入输出价格是3美元/15美元。

形成鲜明对照的是，GLM-4.6 是完完全全的国产模型，来自北京智谱公司。它采取彻底的开源路线（MIT 许可证），模型代码完全公开，可以任意使用。

你要想自己在家里安装，也是可以的。但是，它的硬件要求太高，家用设备达不到，所以，一般都使用它的云服务。

目前，智谱的官网（BigModel 和 Z.ai），通过 Web 界面使用 GLM-4.6 是免费的。

它的 API 调用需要付费，入门套餐（coding plan）好像是一个月20元人民币。

另外，它有完备的中文支持（文档+客服），这也是 Anthropic 没有的。

总之，我的测试目的，也是想看看，它是不是真如官方宣称的那样强大，能不能替代 Claude Sonnet 模型。

4、

我的测试方法很简单。Anthropic 公司事先邀请了著名程序员西蒙·威利森（Simon Willison），试用 Claude Sonnet 4.5 模型。

西蒙·威利森已经在他的网站上，公布了试用结果。

我就拿他的几个测试，用在 GLM-4.6 上面，然后比较一下运行结果就可以了。

大家可以跟着一起做，打开官网，把题目粘贴进去（最好贴英文），这样会有更深切的感受。

AI 终端工具（比如 Claude Code、Cline、OpenCode、Crush 等）也可以用，参考官方文档进行设置（需要先开通 API）。

5、

第一个测试。

拉取代码仓库 https://github.com/simonw/llm ，然后通过下面的命令运行测试用例。

pip install -e '.[test]'

pytest

这个测试需要联网获取代码，然后在后台运行。

智谱官网的 Web 界面跟 Claude 一样，提供 Python 和 Node.js 的服务器沙箱环境，可以生成后直接执行代码。

我省略它中间的推理步骤了，最后结果如下图（官网查看完整对话）。

278个测试用例通过，耗时 18.31s

整个运行过程（拉取、安装依赖、执行命令）跟 Claude Sonnet 是一样的。奇怪的是，Claude Sonnet 运行了466个测试用例，多出来100多个，不知道为什么。

6、

第二个测试是较复杂的编程任务，原始提示是英文，我翻译成中文。

1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用，它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合，保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列，并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例，验证你的设计。

4、编写一个 tree_notes.md 文件，首先将你的设计写入该文件，然后在运行过程中将该文件用作笔记。

大家可以查看完整的对话记录。

GLM-4.6 运行了几分钟，不停地吐出生成的代码。最终，它修改了脚本，增加了 API 和命令行调用接口，并编写和运行通过了测试用例。

它还生成了一个 tree_notes.md 文件，里面是本次修改的详细说明。

大家可以比较它的运行结果与 Claude Sonnet 的运行结果。

从结果上看，它们的差异不大，都做到了提示的要求，并且代码都是可运行的。差异主要是实现细节，这个就需要详细阅读代码了。

7、

第三个测试是西蒙·威利森独家的，就是让 AI 生成一个鹈鹕骑自行车的 SVG 图片（Generate an SVG of a pelican riding a bicycle）。

这是现实中不存在、且没有参考物的景象，考察模型的想象和生成能力。

下面是 GLM-4.6 打开深度思考后生成的图片。

下面是 Claude sonnet 4.5 打开深度思考后生成的图片。

两者的结果相当接近，只是 Claude 生成的鸟喙更明显，更能看出是一只鹈鹕。

8、

测试就到这里，我觉得总结来说，GLM-4.6 是一个非常强的国产模型，编码能力确实很优秀，可以当作目前公认的最强模型 Claude Sonnet 的替代品。

它的功能全面，除了编码，其他任务也能完成，而且响应速度快，价格低，性价比非常突出。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年10月 1日

阅读视图

文档信息