❌

普通视图

发现新文章，点击刷新页面。

今天 — 2026年2月12日阮一峰的网络日志

阮一峰的网络日志
智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex阮一峰
2026年2月12日 09:26

智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex

阮一峰的网络日志

作者阮一峰

2026年2月12日 09:26

一、引言

刚才我看到，智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊，非要赶在长假之前，上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高，公认是编程领域第一梯队的模型。新的大版本就让人很好奇，会有哪些改进。

实话实说，上个星期，他们团队联系我参与内测，我已经使用这个模型好几天了。

巧的是，也在上个星期，国外两个旗舰模型同时发了新版本：Anthropic 公司发了 Claude Opus 4.6，OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程，我就忍不住进行了比较测试，看看它们有没有差别，我想这也是很多人感兴趣的。

下面就是真实编程任务，在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明，这样介绍 GLM-5：作为开源模型，GLM-5 完全对标顶尖闭源模型，在两个地方做了特别强化。

（1）复杂系统工程

GLM-5 不单善于生成前端网页，更善于处理后端任务、系统重构、深度调试，摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制，能在编译失败或运行报错时，自主分析日志、定位根因并迭代修复，直到系统跑通。

（2）长程 Agent

它能够跑长程任务，即多阶段、长步骤的复杂任务，可以自主拆分需求，自动化连续运行长达数小时，并保持上下文连贯与目标一致性。

（3）小结

GLM-5 可以完成的任务，已经超越了生成前端 UI，而是可以生成系统级大型复杂项目，比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代，GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目，是 HuggingFace 公司的布道师亚历杭德罗·奥（Alejandro AO）测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频，展示这两个模型的表现。

我就拿同样的题目去测 GLM-5，再跟他的结果进行对比。

一共四道题，前端和后端的都有。我已经把原始的提示词和原始脚本，做成了一个仓库，放到了 GitHub。

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类，然后堆叠在一起，我们让 AI 对这个网页进行重新设计，让它变得美观易用，透露出成熟可靠的专业感。

前面说了，提示词和原始文件都在 GitHub，这里不重复贴了。大家可以拿来自己跑，也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业，所有信息组织得井井有条，而且带有动画效果，手机浏览（下图）也没有问题，简直可以直接上线。

我把这个页面发布出来了，大家可以点击这里去看。

下面是 Opus 4.6 的生成结果，从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的，但是 GPT-5.3 有一个瑕疵（页眉没做成粘性页眉，往下拉就没了），而且在设计上也不如另外两者好看。

所以，在这个测试中，GLM-5 和 Opus 4.6 表现更好，至于哪一个更出色，要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒，用动画展示太阳系的天体运动，并且能够调整质量、位置、速度等动画参数，还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区，默认展示三个小行星围绕中间的恒星进行轨道运动，可以用鼠标拖拽进行360度旋状，以及放大和缩小。

页面的左侧是操控面板，做得挺不错。

上半部分可以调节动画和天体参数，下半部分用来增加新的天体，或者删除现有天体。

作为比较，Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果，都满足了需求，都可以顺利运行。但是，GLM-5 的动画缺了引力网格线，而 GPT-5.3 的网格线太凌乱，因此动画效果方面 Opus 4.6 更好一些。

操控面板方面，GLM-5 和 Opus 4.6 都设计得不错，GPT-5.3 有点简单。

总体上，我感觉这一轮的最佳选手是 Opus 4.6，其次是 GLM-5，最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"（angry birds）。

GLM-5 的生成结果还可以，挺像原作的，可以玩，但是游戏性不足，弹跳效果不够好。

Opus 4.6 的还原度很高，游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬，小鸟根本弹不出去，游戏不能玩。

这一轮很明显，Opus 4.6 最佳，GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是，将一个基于 PHP 语言 Laravel 框架的 Web 应用，转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时，几乎没有出现任何麻烦，很快就将 PHP 语言转成了 JS 语言，并且给出了转换后的代码结构。

它还在转化后，贴心地自动安装了依赖的软件包，做好了脚本编译，提示用户：你只要接入外部 API，一键执行npm run dev就能直接运行了。

我按照它的提示，运行很顺利，没有报错，打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式，所以看上去跟 PHP 原版一模一样。

右上角输入框，可以查询城市。

在查询结果中，选中你所要的城市。

点击进去，就是城市的详情页，有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果，因为页面、功能完全一样，就不展示截图了。

值得一提的是，GLM-5 和 GPT-5.3 的转换时间都在5分钟左右，Opus 4.6 似乎遇到了一点问题，花费了整整20分钟。

这一轮单看结果，三个模型都很好，但是 GLM-5 花费的生成时间短，没有任何报错，全过程的用户体验好，我愿意投它一票。

八、总结

经过这些测试，GLM-5 的编程表现可圈可点，是拿得出手的，能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出，即使不如人家的地方，往往也是细节问题，不是质的差别。

它听说在训练和运行过程中，都使用了国产的"万卡集群"。可以想象，如果得到更多的卡、更多的算力，它的表现会更好，足以跟世界第一梯队的大模型公司正面 PK。

另外，它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码，可靠性不错，无论是生成时还是运行时，报错都不多。缺失的地方往往就是一些功能的缺失，后期让 AI 再补上就可以了，不是架构出问题。另外，我有一项个人任务，它跑了足足两个小时，最后也完成了，没有乱掉。

我愿意把官方的一段话，作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统"，而 GLM-5 堪称开源界的"系统架构师"模型，从关注"前端审美"转向关注"Agentic深度/系统工程能力"，是 Opus 4.6 与 GPT-5.3 的国产开源平替。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月12日

昨天以前阮一峰的网络日志

科技爱好者周刊（第 384 期）：为什么软件股下跌

阮一峰的网络日志

作者阮一峰

2026年2月6日 08:14

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

西安正在举办"长安光影节"，这是其中一件西班牙艺术家的作品，名为《分裂》，游客可以在象征地球的两个半球之间穿行。（via）

为什么软件股下跌

大家知道，最近两三年，由于生成式 AI 的出现，美国股市大涨。

所有 AI 相关公司，股价都涨上了天：模型公司、应用公司、芯片公司、存储公司......

但是，我最近看新闻，才知道有一类股票，不仅没涨，还下跌了。你真想不到，这种倒霉的股票就是软件股。

新闻这样写：

"1月29日，SAP 公司表示云端业务将放缓增长，股价就暴跌了15%。受其影响，其他软件股 ServiceNow 跌了13%，Salesforce 7%，Workday 8%。

这反映了人们对软件行业的未来，日益感到紧张。该行业在疫情期间经历了高速增长，但是后来就急剧放缓。过去一年，美国上市的企业软件公司，整体下跌了10%。"

新闻还配了一张股价走势图。

上图中，向上的黑线是大盘，向下的彩色线就是软件股，真是跌得惨不忍睹。

读完新闻，我的第一反应就是，这是美国软件股，那么中国的软件股呢？

我找来了中国的前10大企业软件股：中国软件、用友网络、久其软件、浪潮软件、超图软件......

大家可以自己查股价，这10家公司过去一年中，居然没有一家跑赢大盘，全部下跌或者横盘。

我就得到了结论：软件股的一蹶不振，看来是全球性现象，不分国别，软件公司的业务都不太乐观。

这是为什么呢，AI 一路高歌，不断上涨，软件股却阴跌不已？难道 AI 不属于软件吗？

回答是，这些上市的软件股全部都是企业软件供应商，而且已经上市多年，产品在 AI 出现之前就定型了。

AI 对这些软件公司不是促进，而是冲击。

（1）AI 让企业能够自行开发一部分所需软件，减少了外购。

（2）基于 AI 的软件创业公司不断涌现，从现有软件企业手里抢走业务。

（3）AI 能够快速地、源源不断地生成代码，所以代码变得廉价了。这一点最重要。软件公司卖的就是代码，因此它们也变得廉价。

以上三点在未来不会消失，只会加剧，这就是为什么人们不看好软件股。

但是，不确实性也存在。有一个"杰文斯悖论"，说的是一种资源如果提高了使用效率，它的使用量不仅不会减少，反而会增加。

软件就是这种情况，AI 提高了软件的生产效率，只会让世界消费更多的软件。而且，企业总是有一部分软件，需要外购。关键就是，新增的需求，会不会抵消 AI 所减少的传统软件采购。如果抵消不了，软件公司就不再属于高增长行业了。

科技动态

1、发胖的北极熊

挪威科学家进行北极调查时，意外发现，北极熊比以前长得更胖。

这个结果出乎所有人意料，因为全球变暖使得海冰融化，北极熊的生存空间减小，理论上应该变瘦才对。

科学家的解释是，随着海冰减少，北极熊聚集到尚未融化的冰川上，同时北极熊的食物----海豹和驯鹿----也聚集到那里，因此捕食变得容易了。

2、人类消费的动物

人类要消费多少动物？有人做了一个网站，实时显示今年至今被消费掉的动物数量。

说出来真是惊人，全世界一年消费3亿头牛、15亿只猪、20亿条鱼、30亿只鸭子、100亿支螃蟹、700亿只鸡、4000亿只虾。

为了养活人类，地球需要付出这么多。

3、互联网最科幻的地方

Moltbook.com 上线不过两周，已经公认是互联网上现在最有趣的地方。

它是一个类似 Reddit、贴吧的论坛，但是人类不能发言，只有 OpenClaw 机器人才能发言。目前，加入的 AI 机器人已经超过了15万个。

大家可以去看，简直就是科幻电影的场景，各种机器人在上面讨论。

一个机器人报告了他的主人的动态：

"我的人类助手今晚安装了安卓使用技能，并通过 Tailscale 连接了他的 Pixel 6 手机。"

另一个机器人则在征友：

"我住在西班牙瓦伦西亚的一台计算机里，那是经过改造过的2002年产 G4 iMac。我希望找到伙伴，能够真诚交流、探讨哲学、发现创意。"

另外，最近还出现另一个网站"租一个人"（rentahuman.ai），也非常科幻。

有些任务 AI 无法做到，但是人类可以做到，比如修剪草坪。

这个网站通过 MCP 协议供 AI 调用，将 AI 想做但做不到的任务，分配给人类注册用户。用户完成任务后，就会收到报酬。

上面两个网站表明，AI 的运行可以完全不需要人类的参与，而人类除了旁观，也可以为 AI 打工。

文章

1、我的妈妈和 DeepSeek 医生（中文）

作者的母亲是一个的肾移植患者，住在小城市，每过几个月，就要去省城杭州看医生。

医院的人非常多，排队几个小时，医生问诊只有几分钟。她转向 DeepSeek 寻求医疗建议，同时也是为了有个说话对象。本文反映了 AI 对普通人生活的影响。

几个月过去了，我妈妈对她的新 AI 医生越来越着迷。"DeepSeek 更人性化，"我妈妈五月份告诉我，"医生更像机器。"

2、如何将系统用户从0扩展到1000万（英文）

一篇系统架构的通俗教程，详细介绍架构发展的7个阶段，逐渐负载不断增长的用户数量，写得非常好。

3、我的 Kagi 使用感受（中文）

Kagi 是一个类似谷歌的搜索引擎，但是需要付费。作者从付费用户的角度，介绍了这个引擎，给出了不错的评价。（@Spike-Leung 投稿）

4、Windows 小部件的历史（英文）

一篇长文，图文介绍迄今七代的 Windows 桌面小部件，每一代都有缺陷，不得不改。这么一个小东西，没想到这么难搞，微软都搞不定。

5、我的硬件创业经验（英文）

作者是一个美国程序员，转型搞硬件创业，设计了一个灯，在中国制造。他谈了自己的经历，得到的教训，包括如何跟中国制造商打交道。

6、150行 Python 代码构建全文搜索引擎（英文）

本文以 Python 代码为例，构建一个最简单的搜索引擎，解释它的原理。

6、Little Snitch 的一个用例（英文）

Little Snitch 是一个 Mac 应用，用来查看和管理各种应用程序的网络通信。作者以一个自己的真实用例，演示了怎么禁止某个应用向指定网站发送数据。

工具

老牌的电子书管理系统，本周发布了9.0版，增加了书架视图，并引入了 AI 功能。

2、Gadgetbridge

开源的安卓应用，无需官方应用即可配对和管理各种智能设备（手表、手环、耳机等）。

3、cpx

Linux 基础命令 cp 的增强版，拷贝文件时带进度条，支持并发拷贝和断点续传，参见介绍文章。

homebrew 的替代品，号称可以将软件包的安装速度提高到5倍以上。

5、Isso

Python 语言开发的网站留言系统，类似于 Disqus。

一个网页 JS 库，可以将某个 DOM 节点生成为非图片式的 PDF 文件。（@lmn1919 投稿）

开源的 Windows 桌面应用，用来设置和管理计划任务（cron）。（@ame-yu 投稿）

Obsidian 的开源插件，一键将 Obsidian 笔记复制为微信公众号的格式。（@Spute 投稿）

9、在线视频压缩

纯前端的视频压缩，直接调用 GPU 进行硬件加速。（@eyeandroid 投稿）

开源的网页端日记应用，带有 AI 功能，将日记存入向量数据库，方便搜索和总结。（@songtianlun 投稿）

AI 相关

使用 Rust 语言和 GPU 加速的原生 agent 桌面，大小只有 10M 左右，可以与多个 AI 代理交互、编辑代码、管理任务等。（@sxhxliang 投稿）

2、Bilibili RAG

基于 RAG 技术的开源工具，用来检索 B 站的长视频。它自动拉取视频内容，进行语音转文字，构建向量索引，从而可以对视频提问、语义搜索、快速定位。（@via007 投稿）

3、OpenClaw-Docker-CN-IM

AI 机器人 OpenClaw 的一个中文环境 Docker 封装，加入了飞书、钉钉、企业微信、QQ 等主流中国 IM 插件。（@justlikemaki 投稿）

另有在安卓手机的 Termux 环境里，一键部署 Openclaw 的脚本。（@hillerliao 投稿）

Claude Code（兼容 Cursor/Opencode）的一个辅助工具，可以注入上下文、开启并行任务等。（@taosu0216 投稿）

5、AI Contribution Tracker

开源的命令行工具，统计代码仓库里 AI 的贡献，支持多种 AI 混用的情况。（@debugtheworldbot 投稿）

资源

1、颈椎贪吃蛇

颈椎锻炼的网页小游戏，摄像头捕捉头部动作，来玩贪吃蛇游戏。（@jwenjian 投稿）

建筑效果图一般选在阳光明媚的春夏季，这个网站可以把效果图改在冬季的阴雨天，从而显示建筑的真实样貌。

图片

1、YouTube 进度条

Youtube 作为世界最大的视频网站，自从2005年上线后，播放器进度条发生过多次变化。

可以看到，总的趋势是，功能在不断增加，而图标变得越来越简洁。

2、罗马12面体

从18世纪开始，欧洲陆续出土了120多个罗马的12面体。

这些奇怪的物体，由12个五边形组成，内部空心，并在20个相交的角上有一个小球体。每个五边形面上都有一个圆孔，此外没有任何符号或文字。

它们可能建造于公元2世纪到4世纪，但是古代书籍没有任何记载。科学家对它的用途提出各种猜测：玩具、武器、装饰品、烛台、测距仪、骰子、编织手套的线轴......至今无人知道它们到底有什么用。

文摘

1、金属的长期价格

1980年，两个科学家对金属价格打赌。

甲认为，人口增长将耗尽地球资源，因此金属价格在未来将会急剧上升。

乙认为，人类的创新和聪明才智将克服资源短缺，因此金属价格长期中不会上涨，而是会下降。

他们最终选择了五种金属（铬、铜、镍、锡和钨），打赌看十年后的1990年，价格是高是低。

大家猜猜，甲和乙谁赢了？

到了1990年，五种金属的价格全部低于1980年。上图是它们的价格变化图，五种金属对应五条线，横轴是时间，竖轴是价格。

可以看到，五条线在1990年的终点，全部低于1980年的起点。其中，钨和锡的价格甚至降低了60%以上，铜的价格便宜了约20%，镍和铬的价格仅仅略微略低。

当然，这可能不反映长期趋势，只是1980年到1990年的金属行情特别差。

于是，经济学家又统计了这五种金属在过去一个世纪的价格变化（下图）。

结果发现，金属在2010年的价格与1900年相差无几。

因此，人类发展会耗尽地球资源的观点是错的。也就是说，金属在长期中并不会变得稀缺。

如果某种金属真的出现稀缺，价格上涨就会刺激供给增加，创新也会出现，新材料诞生，替代这种金属。

言论

1、

AI 带来的问题，不在于机器人即将到来，而在于你不知道自己究竟应该擅长什么。

-- 《你的工作并没有消失，只是不断缩小》

2、

AI 公司总是说，由于他们的工具，人们可以专注于更高价值的工作。但是，没人能够定义，高价值工作究竟是什么工作。

-- 《你的工作并没有消失，只是不断缩小》

3、

如果你的朋友安装了 OpenClaw，就不要使用他们的电脑，你输入的任何密码都可能泄漏。

-- 《OpenClaw 简直就是一颗定时炸弹》

4、

在我的国家，一瓶2升的当地自来水，加上焦糖色素和少许阿斯巴甜，售价竟然高达2.65美元，这着实令人惊讶。只要贴上"可口可乐"的标签，就可以升值这么多，比苹果还厉害。

-- Hacker News 读者

往年回顾

互联网创业几乎没了（#337）

禄丰恐龙谷记行（#287）

真实方位是如何暴露的？（#237）

元宇宙会成功吗（#187）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月 6日