普通视图
套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云
1、
本周末,有一条最热闹的 AI 新闻,震动了太平洋两岸,连马斯克都关注了。
昨天,AI 编程工具 Cursor 推出了"自己的"模型 Composer 2。
![]()
上图是官网截图,现在点进去还写着"自有模型"。
自从2024年10月,Composer 1 发布以来,外界就一直怀疑,它是套壳的中国模型,因为行为很类似,但苦于找不到证据。
现在 Composer 2 来了,很多人就开始研究,它的背后到底是什么模型,真的是 Cursor 自家的吗?
Cursor 为了防止破解,做了很多限制,但是百密一疏。国外推友 @fynnso 发现,有一个地方在上一个版本是禁止的,但是这个版本却可以执行。
首先,你自己架设一台服务器,充当 AI 模型的调用接口,有没有模型无所谓,只要能收到客户端请求就行。
然后,你在本地的 Cursor 里面,设置使用的模型为 Composer 2,模型网址就是你刚架设的服务器。这样一来,Cursor 就会向你的服务器发出请求,从而可以看到它到底在请求什么模型。
真相就暴露了,它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast(下图)。
![]()
2、
这位国外推友就把上面的截图,发布到网上。这下炸锅了,明眼人都看出来,这是铁证,Composer 2 实际上是套壳的 Kimi K2.5。
![]()
可笑的是,事情一爆发,Cursor 第一时间就把漏洞堵上,现在已经没法复现这个请求(下图)。
![]()
但是为时已晚,网上传遍了,就连马斯克也发推:"它就是 Kimi K2.5"。
![]()
这下好了,变成了公开的秘密,再也无法掩盖了。
3、
大家的关注点,很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型,但是采用的是修改的 MIT 许可证(下图)。
![]()
许可证这样说:你可以任意使用这个模型,唯一的条件是如果你的商业产品月活用户超过1亿,或者月收入超过2000万美元,你必须在用户界面的醒目位置披露,你使用了 Kimi K2.5。
Cursor 最新披露的年化收入是20亿美元,相当于月收入1.67亿美元,显然满足上面的条件。但是,它隐藏了使用 K2.5 的事实。
就在大家认定 Cursor 侵权的时候,他们的一个负责人终于坐不住了,出来说话了。
![]()
他承认确实使用 Kimi K2.5,但是没有侵权,他们的许可证来自合作伙伴 Fireworks AI。
稍后,Kimi 官方也发推了。
![]()
Kimi 官方确认,Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司,从事 AI 模型的微调和强化学习,它从 Kimi 得到授权对模型进行再训练,然后又转授权给了 Cursor。
4、
事情到这里就基本清楚了,Cursor 并没有违反 Kimi 的授权条款,因此不存在侵权。
既然如此,为什么它拼命掩盖这个事实,大大方方承认,提供 Kimi K2.5 的修改版模型,很难吗?
我猜测,原因跟 Cursor 不断膨胀的估值有关。
彭博社本月报道,Cursor 正在进行下一轮融资,估值达到500亿美元。
![]()
大家知道吗,它以前的估值是多少?
2023年10月,Cursor 成立时的估值是5000万美元;2024年8月的 A 轮融资,估值上升到4亿美元;12月的 B 轮融资,估值快速上升到26美元;2025年11月的最新一轮融资,估值已经到了293亿美元。
可以看到,每过几个月,估值就会翻倍。这种火箭式的上升速度,需要有业绩支持。但它本身只是一个 VS Code 的修改版,使用的都是开源技术。
为了支撑越来越高的估值,它有动机把自己从 AI 工具,包装成具有模型研发能力的大模型公司。
我认为,这才是它不愿意披露使用了 Kimi K2.5 的主要原因。
5、
纵观整个事件,Cursor 无疑是输家,Kimi 则是这次的赢家,免费得到一大波高价值的曝光。
Cursor 发布 Composer 2 时,披露了性能和成本比较。
Composer 2 的性能低于 GPT-5.4,但高于 Opus 4.6。
![]()
但是,它的生成速度比 GPT-5.4 和 Opus 4.6 都快,成本也是最低的。
![]()
既然 Composer 2 就是微调的 Kimi K2.5,那么直接使用 Kimi,也能得到同样的效果。
6、
以前,国外总是有人指责,中国公司窃取外国技术。但是,这个事件证明了,中国公司也有技术输出。那些国外的明星公司,背地也在偷偷摸摸使用中国技术。
联想到上周,Kimi 的创始人杨植麟收到黄仁勋的邀请,在 Nvidia GTC 大会演讲,是唯一的中国大模型公司代表。
![]()
他在台上宣讲,Kimi 团队刚刚发表的论文《注意力残差》(Attention Residuals)。
![]()
这种新技术据说可以显著提升大模型的推理能力。
我的想法是,大家要对国产大模型有信心,日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距,正在不断缩小,而且价格实惠。
![]()
据杨植麟说,下一个要发布的 K3 模型性能提升巨大,即便没有强10倍,也比 K2.5 强得多,我们可以期待一下。
(完)
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 发表日期: 2026年3月21日
零安装的"云养虾":ArkClaw 使用指南
一、引言
大家这两天,有没有被"龙虾"(OpenClaw)刷屏?
到处是它的新闻,就连两会代表和新华社都在谈论。真让人跌破眼镜,一个 AI 软件竟能引起这么大的反响。
![]()
人们的热情高涨,免费的线下安装活动人满为患,网上的"付费安装"生意兴隆。
![]()
很多人大概还不知道,现在有一种最简单的龙虾使用方法:ArkClaw。
简单到你根本不需要操心安装,因为这是一个免安装的方案,它直接内置了龙虾,开箱即用。
我也是昨天才开始用,迫不及待跟大家分享,初步使用的感受。没有用过的同学,也可以把它当作《龙虾零门槛上手》教程,看看龙虾到底是怎么回事。
二、ArkClaw 是什么
事情是这样的,老读者可能还记得,我在春节前测评了字节最新发布的 Seed 2.0 模型。
![]()
我在文章里说,这是字节目前最强的基础模型,手机豆包用的就是它,测试表现很不错。
字节的同学后来就向我赠送了 Coding Plan 套餐,方便继续测试这个模型,各种 AI 编程工具都可以调用它的 API(当然套餐还包含其他国产模型,也是自由使用)。
![]()
本周一,我突然发现,字节的这个 Coding Plan 套餐开通了一个捆绑服务,就是 ArkClaw。
我问了客服才知道,只要现在开通 Coding Plan,就能免费使用龙虾。
也就是说,只要你用字节的 AI 编程套餐,不用多花一分钱,字节就提供一台远程主机,里面安装好了龙虾,你可以自由使用。
需要说明的是,Coding Plan 分成 lite(首月9.9元)和 Pro(首月49.9元)两种套餐。lite 套餐只能免费体验7天,只有 Pro 套餐可以长期使用 ArkClaw。
三、云养虾
ArkClaw 属于"云养虾"(又称"云龙虾"),就是把龙虾(OpenClaw)安装在火山方舟(字节的 AI 云服务品牌)的云主机上,它名字里的 ark 就是"方舟"的意思。
除了"云养虾",也可以把龙虾安装在本地计算机。
![]()
不了解的朋友可能会好奇,两者有什么区别,我简单说一下。
首先,你要知道OpenClaw 属于自动化软件,它的作用就是让用户使用自然语言描述需求,它通过大模型找出满足需求的方法,然后自动去完成。
当它安装在本地计算机(你的笔记本),就方便自动操作本地文件和本地设备,比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯,并查询最近一周的耗电量"。
当它安装在云端,就能 7x24 小时跟各种网络服务互动,比如"收到电子邮件时,自动生成30字的内容摘要,向手机发送通知"。
所以,如果你需要自动化操作网络服务,并且需要长时间在线或者每天定时运行,那么就合适使用"云养虾"。
四、ArkClaw 基本操作
4.1 界面
我给大家看一下,ArkClaw 的样子。
进入控制台,点击"立即创建",创建一个龙虾实例。
![]()
创建完成后,就已经安装好了,直接使用。
![]()
界面非常简洁,就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制,简化了操作界面。
4.2 抓取信息
你可以在对话框里面,跟 AI 模型对话,这跟其他模型的用法并无二致。
举例来说,我们可以让它抓取信息。
![]()
可以看到,由于抓取的是动态内容,所以模型想到了很多实施方案,最后顺利完成。
大家要记住,ArkClaw 就是一台远程主机,任何服务器可以用的技术方案,它都能用,这比安装在一般个人工作电脑上的龙虾更强大。
4.3 发送消息
获取信息以后,龙虾可以把这些信息发到手机。
目前,ArkClaw 支持与企业微信、钉钉和飞书绑定。其中,飞书因为是自家的产品,绑定操作最简单,便捷快速,扫码即可。其他两家操作都比较麻烦,具体见官方文档。
点击对话框上方的"飞书配对"按钮。(前面的"消息渠道"按钮,用于绑定企业微信和钉钉。)
![]()
系统会打开一个终端窗口,输出一个二维码,飞书扫描后可以创建一个机器人,跟当前的 ArkClaw 实例绑定。
![]()
通过这个机器人,你就可以在手机上跟当前这台 ArkClaw 实例对话了。
![]()
你也可以在电脑上,通过 ArkClaw 网页控制台,向你的手机发消息。
![]()
电脑端输入上面指令后,手机端就会推送消息(下图)。
![]()
4.4 定时任务
我们还可以规定,龙虾执行某些任务的时间和频率,也就是定时任务。
首先,使用自然语言,在对话框设置定时任务。
![]()
设置完成后,你的手机就会每天收到消息了。
如果要删除定时任务,也是使用自然语言发出指令。
五、Skill 和其他设置
5.1 Skill
龙虾本身的能力是有限的,总会遇到一些它不知道如何处理的问题。这时,就可以通过 Skill(技能)扩展它的能力,这大大增加了龙虾的用途。
什么是 Skill?简单理解,它就是一个文件包,里面包含了指令和示例,用来教模型如何完成某些特定的任务。
网上已经有很多别人写好、分享出来的 Skill,只要挑一些自己需要的,让龙虾加载,就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill,已经有近20000个了。
![]()
我本来想用小红书 SKill 来举例,演示龙虾如何学会写小红书。但是,官方昨天发公告了,最近这样做的人太多了,现在开始封账号了。
那么就换一个例子。
![]()
上面截图就是使用自然语言,让龙虾从 ClawHub 网站下载安装高德地图(amap)的技能。
龙虾本来不知道怎么使用高德地图,有了这个技能就学会了,可以从中查询信息。这个技能的具体详细,可以查看它的主页。
使用的时候,也是直接用自然语言描述需求,模型会自己加载调用所需的技能。
![]()
上图的截图就是通过高德地图,查询实时路况。
5.2 其他设置
ArkClaw 的其他功能,都在"设置"菜单(下图),比如调整底层模型。
![]()
只要是 Coding Plan 套餐提供的模型,这里都能使用。
"设置"菜单还有两个很有用的功能。
一个是"打开终端",它会在网页上打开一个终端窗口,让你通过命令行直接操作 ArkClaw 所在的远程主机。
![]()
从上面的终端窗口截图可以看到,ArkClaw 底层是 Ubuntu 系统。
另一个是"配置网盘"。某些情况下,你可能需要向 ArkClaw 上传/下载文件,这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定,相当于有了一个无限容量的网盘。
![]()
六、总结
以上就是我昨天第一天使用 ArkClaw 的主要内容。
我的感受是,它确实大大简化了龙虾的使用,免安装、开箱即用,让龙虾的操作变得简单直观。通过自然语言加载调用 Skill,也很自然流畅。
它最大的强项就是跟字节生态深度融合,配合得十分丝滑:底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘,完全不必复杂的配置。
它是一个跟字节 Coding Plan 捆绑的服务,不用额外付费。相比自己从头搭建"云龙虾",云主机和 AI 模型的费用就省掉了,这是一笔不小的费用。
作为程序员,这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案,还是很有吸引力的。
(完)
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 发表日期: 2026年3月12日
字节全家桶 Seed 2.0 + TRAE 玩转 Skill
一、引言
国产大模型之中,字节是一个异类。
不像其他大模型轰轰烈烈、争夺眼球,它更低调,不引人注目。
但是,它做的事情反倒最多,大模型、Agent、开发工具、云服务都有独立品牌,遍地开花,一个都不缺,都在高速推进。
![]()
Seed 是字节的大模型团队,底下有好几条产品线,最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。
![]()
今天,我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。
大家会看到,它们组合起来既强大,又简单好用,(个人用户)还免费。这也是我想写的原因,让大家知道有这个方案。
只要十分钟,读完这篇教程,你还会明白 Skill 是什么,怎么用,以及为什么一定要用它。
二、Seed 2.0 简介
先介绍 Seed 2.0,它是 Seed 家族的基座模型。
![]()
所谓"基座模型"(foundation model),就是一种通用大模型,可用来构建其他各种下游模型。最大的两个特征有两个:一个是规模大,另一个是泛化能力强,这样才方便构建别的模型。
大家熟知的豆包,就是基于 Seed 模型,它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型,以及专为开发者定制的 Seed 2.0 Code 模型。
由于各种用途都必须支持,Seed 2.0 的通用性特别突出,比以前版本都要强。
1、支持多模态,各种类型的数据都能处理:文字、图表、视觉空间、运动、视频等等。
2、具备各种 Agent 能力,方便跟企业工具对接:搜索、函数调用、工具调用、多轮指令、上下文管理等。
3、有推理和代码能力。
正因为最后一点,所以我们可以拿它来编程,尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用,效果很好,特别方便全栈开发,个人用户还免费。
三、TRAE 的准备工作
下载安装 TRAE 以后,它有两种模式,左上角可以切换:IDE 模型和 SOLO 模型。
![]()
选择 IDE 就可以了,SOLO 是 AI 任务的编排器,除非多个任务一起跑,否则用不到。
然后,按下快捷键 Ctrl + U(或者 Command + U),唤出对话框,用来跟 AI 对话。
![]()
我们要构建 Web 应用,左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。
![]()
可以看到,TRAE 自带的国产开源编程模型很全,都是免费使用。
准备工作这样就差不多了。
四、编程测试
我选了一个有点难度的任务,让 Seed 2.0 生成。
ASCII 图形是使用字符画出来的图形,比如下图。
![]()
我打算生成一个 Web 应用,用户在网页上输入 ASCII 图形,自动转成 Excalidraw 风格的手绘图形。
提示词如下:
"生成一个 Web 应用,可以将 ASCII 图形转为 Excalidraw 风格的图片,并提供下载。"
![]()
模型就开始思考,将这个任务分解为四步。
![]()
五、生成结果
等到 Seed 2.0 代码生成完毕,TRAE 就会起一个本地服务 localhost:8080,同时打开了预览窗口。
![]()
生成的结果还挺有意思,上部的 ASCII 输入框提供了四个示例:Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。
![]()
然后是 Excalidraw 参数的控制面板:线宽、粗糙度、弯曲度、字体大小。
![]()
点击 Convert(转换)按钮,马上得到手绘风格的线条图。
![]()
整个页面就是下面的样子。
![]()
六、Skill 简介
这个页面的设计,感觉不是很美观,还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能,使其能够做出更美观的页面。
所谓 Skill(技能),就是一段专门用途的提示词,用来注入上下文。
有时候,提示词很长,每次都输入,就很麻烦。我们可以把反复用到的部分提取出来,保存在一个文件里面,方便重复使用。这种提取出来的提示词,往往是关于如何完成一种任务的详细描述,所以就称为"技能文件"。
格式上,它就是一个 Markdown 文本文件,有一个 YAML 头,包含 name 字段和 description 字段。
![]()
name 字段是 Skill 的名称,可以通过这个名称调用该技能;description 字段则是技能的简要描述,模型通过这段描述判断何时自动调用该技能。
有些技能比较复杂,除了描述文件以外,还有专门的脚本文件、资源文件、模板文件等等,相当于一个代码库。
![]()
这些文件里面,SKILL.md 是入口文件,模型根据它的描述,了解何时何处调用其他各个文件。
这个库发到网上,就可以与其他人共享。如果你觉得 AI 模型处理任务时,需要用到某种技能,就可以寻找别人已经写好的 Skill 加载到模型。
七、前端设计技能
下面,我使用 Anthropic 公司共享出来的前端设计技能,重构一下前面的页面。它只有单独一个 Markdown 文件,可以下载下来。
打开 TRAE 的"设置/规则和技能"页面。
![]()
点击技能部分的"+ 创建"按钮,打开创建技能的窗口。
![]()
你可以在这个窗口填写 SKill 内容,也可以上传现成的 Skill 文件。我选择上传,完成后,就可以看到列表里已经有 frontend-design 技能了。
![]()
然后,我就用下面的提示词,唤起这个技能来重构页面。
"使用 frontend-design 技能,重构这个页面,让其变得更美观易用,更有专业感。"
下面就是模型给出的文字描述和重构结果。
![]()
![]()
页面确实感觉变得高大上了!
八、Vercel deploy 技能
最后,再看一个技能的例子。
代码生成以后,都是在本地机器上运行,能不能发布到网上,分享给更多的人呢?
回答是只要使用 Vercel 公司的 deploy 技能,就能一个命令将生成结果发布到 Vercel 的机器上。
在 Vercel 官方技能的 GitHub 仓库里,下载 Vercel-deploy 技能的 zip 文件。
然后,把这个 zip 文件拖到 TRAE 的技能窗口里面,就会自动加载了。
![]()
输入提示词:"将生成的网站发布到 Vercel"。
模型就会执行 vercel-deploy 技能,将网站发布到 Vercel,最后给出两个链接,一个是预览链接,另一个是发布到你个人账户的链接。
![]()
大家现在可以访问这个链接,看看网站的实际效果了。
九、总结
如果你读到这里,应该会同意我的观点,Seed 2.0 的编程能力相当不错,跟自家的编程工具 TRAE 搭配起来,好用又免费。
Skill 则是强大的能力扩展机制,让模型变得无所不能,一定要学会使用。
(完)
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 发表日期: 2026年2月14日
智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex
一、引言
刚才我看到,智谱新一代的旗舰模型 GLM-5 已经正式发布了。
真的拼啊,非要赶在长假之前,上一个版本 GLM-4.7 发布还不到两个月呢......
![]()
GLM-4.x 在国内外评价很高,公认是编程领域第一梯队的模型。新的大版本就让人很好奇,会有哪些改进。
实话实说,上个星期,他们团队联系我参与内测,我已经使用这个模型好几天了。
巧的是,也在上个星期,国外两个旗舰模型同时发了新版本:Anthropic 公司发了 Claude Opus 4.6,OpenAI 公司发了 GPT-5.3-Codex。
这三个新模型都主打编程,我就忍不住进行了比较测试,看看它们有没有差别,我想这也是很多人感兴趣的。
下面就是真实编程任务,在这三个 AI 模型上的生成结果。
二、GLM-5 简介
官方的发布说明,这样介绍 GLM-5:作为开源模型,GLM-5 完全对标顶尖闭源模型,在两个地方做了特别强化。
(1)复杂系统工程
GLM-5 不单善于生成前端网页,更善于处理后端任务、系统重构、深度调试,摒弃了"重前端审美、轻底层逻辑"的模式。
它具备极强的自我反思与纠错机制,能在编译失败或运行报错时,自主分析日志、定位根因并迭代修复,直到系统跑通。
(2)长程 Agent
它能够跑长程任务,即多阶段、长步骤的复杂任务,可以自主拆分需求,自动化连续运行长达数小时,并保持上下文连贯与目标一致性。
(3)小结
GLM-5 可以完成的任务,已经超越了生成前端 UI,而是可以生成系统级大型复杂项目,比如操作系统内核、浏览器内核、V8 引擎之类的。
它的宣传语是"在大模型进入 Agent、大任务的时代,GLM-5 是你可以使用的开源选择。"
三、测试方法
我选择的测试题目,是 HuggingFace 公司的布道师亚历杭德罗·奥(Alejandro AO)测试 Opus 4.6 和 GPT 5.3 的题目。
![]()
他拍了一个视频,展示这两个模型的表现。
我就拿同样的题目去测 GLM-5,再跟他的结果进行对比。
一共四道题,前端和后端的都有。我已经把原始的提示词和原始脚本,做成了一个仓库,放到了 GitHub。
四、网页设计测试
第一个测试是网页设计和重构能力。
原始页面非常简陋。
![]()
它只是把信息做了分类,然后堆叠在一起,我们让 AI 对这个网页进行重新设计,让它变得美观易用,透露出成熟可靠的专业感。
前面说了,提示词和原始文件都在 GitHub,这里不重复贴了。大家可以拿来自己跑,也可以让其他模型跑。
下面就是 GLM-5 的生成结果。
![]()
![]()
![]()
![]()
![]()
这个结果称得上美观又专业,所有信息组织得井井有条,而且带有动画效果,手机浏览(下图)也没有问题,简直可以直接上线。
![]()
我把这个页面发布出来了,大家可以点击这里去看。
下面是 Opus 4.6 的生成结果,从视频截图的。
![]()
![]()
![]()
下面是 GPT-5.3 的生成结果。
![]()
![]()
![]()
这三个设计都是可用的,但是 GPT-5.3 有一个瑕疵(页眉没做成粘性页眉,往下拉就没了),而且在设计上也不如另外两者好看。
所以,在这个测试中,GLM-5 和 Opus 4.6 表现更好,至于哪一个更出色,要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。
五、3D 沙盒测试
第二个测试看看 AI 模型的 3D 动画生成能力。
要求是生成一个教育目的的网页 3D 沙盒,用动画展示太阳系的天体运动,并且能够调整质量、位置、速度等动画参数,还能手动增加新的天体。
下面是 GLM-5 的生成结果。
![]()
页面的右侧是动画区,默认展示三个小行星围绕中间的恒星进行轨道运动,可以用鼠标拖拽进行360度旋状,以及放大和缩小。
![]()
页面的左侧是操控面板,做得挺不错。
![]()
![]()
上半部分可以调节动画和天体参数,下半部分用来增加新的天体,或者删除现有天体。
作为比较,Opus 4.6 的生成结果。
![]()
![]()
GPT-5.3 的生成结果。
![]()
![]()
这三个生成结果,都满足了需求,都可以顺利运行。但是,GLM-5 的动画缺了引力网格线,而 GPT-5.3 的网格线太凌乱,因此动画效果方面 Opus 4.6 更好一些。
操控面板方面,GLM-5 和 Opus 4.6 都设计得不错,GPT-5.3 有点简单。
总体上,我感觉这一轮的最佳选手是 Opus 4.6,其次是 GLM-5,最后是 Codex 5.3。
六、网页游戏
第三个测试是生成一个网页游戏"愤怒的小鸟"(angry birds)。
GLM-5 的生成结果还可以,挺像原作的,可以玩,但是游戏性不足,弹跳效果不够好。
![]()
![]()
![]()
Opus 4.6 的还原度很高,游戏体验也接近原作。
![]()
![]()
![]()
GPT-5.3 的生成结果令人尴尬,小鸟根本弹不出去,游戏不能玩。
![]()
![]()
这一轮很明显,Opus 4.6 最佳,GLM-5 其次。
七、Laravel 转为 Next.js
最后一个测试是,将一个基于 PHP 语言 Laravel 框架的 Web 应用,转为 JavaScript 语言 Next.js 框架。
GLM-5 在处理时,几乎没有出现任何麻烦,很快就将 PHP 语言转成了 JS 语言,并且给出了转换后的代码结构。
![]()
它还在转化后,贴心地自动安装了依赖的软件包,做好了脚本编译,提示用户:你只要接入外部 API,一键执行npm run dev就能直接运行了。
![]()
我按照它的提示,运行很顺利,没有报错,打开localhost:3000就能访问应用了。
![]()
这是一个查看城市天气的应用。因为没有要求改变样式,所以看上去跟 PHP 原版一模一样。
右上角输入框,可以查询城市。
![]()
在查询结果中,选中你所要的城市。
![]()
点击进去,就是城市的详情页,有天气、日出日落时间、空气质量、地图等信息。
![]()
Opus 4.6 和 GPT-5.3 也生成了同样的结果,因为页面、功能完全一样,就不展示截图了。
值得一提的是,GLM-5 和 GPT-5.3 的转换时间都在5分钟左右,Opus 4.6 似乎遇到了一点问题,花费了整整20分钟。
这一轮单看结果,三个模型都很好,但是 GLM-5 花费的生成时间短,没有任何报错,全过程的用户体验好,我愿意投它一票。
八、总结
经过这些测试,GLM-5 的编程表现可圈可点,是拿得出手的,能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出,即使不如人家的地方,往往也是细节问题,不是质的差别。
它听说在训练和运行过程中,都使用了国产的"万卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表现会更好,足以跟世界第一梯队的大模型公司正面 PK。
另外,它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。
它生成的系统逻辑和后端代码,可靠性不错,无论是生成时还是运行时,报错都不多。缺失的地方往往就是一些功能的缺失,后期让 AI 再补上就可以了,不是架构出问题。另外,我有一项个人任务,它跑了足足两个小时,最后也完成了,没有乱掉。
我愿意把官方的一段话,作为结尾。
2026年编程大模型正在从"能写代码"进阶为"能构建系统",而 GLM-5 堪称开源界的"系统架构师"模型,从关注"前端审美"转向关注"Agentic深度/系统工程能力",是 Opus 4.6 与 GPT-5.3 的国产开源平替。
(完)
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 发表日期: 2026年2月12日