阅读视图

发现新文章,点击刷新页面。

套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云

1、

本周末,有一条最热闹的 AI 新闻,震动了太平洋两岸,连马斯克都关注了。

昨天,AI 编程工具 Cursor 推出了"自己的"模型 Composer 2

上图是官网截图,现在点进去还写着"自有模型"。

自从2024年10月,Composer 1 发布以来,外界就一直怀疑,它是套壳的中国模型,因为行为很类似,但苦于找不到证据。

现在 Composer 2 来了,很多人就开始研究,它的背后到底是什么模型,真的是 Cursor 自家的吗?

Cursor 为了防止破解,做了很多限制,但是百密一疏。国外推友 @fynnso 发现,有一个地方在上一个版本是禁止的,但是这个版本却可以执行。

首先,你自己架设一台服务器,充当 AI 模型的调用接口,有没有模型无所谓,只要能收到客户端请求就行。

然后,你在本地的 Cursor 里面,设置使用的模型为 Composer 2,模型网址就是你刚架设的服务器。这样一来,Cursor 就会向你的服务器发出请求,从而可以看到它到底在请求什么模型。

真相就暴露了,它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast(下图)。

2、

这位国外推友就把上面的截图,发布到网上。这下炸锅了,明眼人都看出来,这是铁证,Composer 2 实际上是套壳的 Kimi K2.5

可笑的是,事情一爆发,Cursor 第一时间就把漏洞堵上,现在已经没法复现这个请求(下图)。

但是为时已晚,网上传遍了,就连马斯克也发推:"它就是 Kimi K2.5"。

这下好了,变成了公开的秘密,再也无法掩盖了。

3、

大家的关注点,很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型,但是采用的是修改的 MIT 许可证(下图)。

许可证这样说:你可以任意使用这个模型,唯一的条件是如果你的商业产品月活用户超过1亿,或者月收入超过2000万美元,你必须在用户界面的醒目位置披露,你使用了 Kimi K2.5

Cursor 最新披露的年化收入是20亿美元,相当于月收入1.67亿美元,显然满足上面的条件。但是,它隐藏了使用 K2.5 的事实。

就在大家认定 Cursor 侵权的时候,他们的一个负责人终于坐不住了,出来说话了。

他承认确实使用 Kimi K2.5,但是没有侵权,他们的许可证来自合作伙伴 Fireworks AI。

稍后,Kimi 官方也发推了。

Kimi 官方确认,Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司,从事 AI 模型的微调和强化学习,它从 Kimi 得到授权对模型进行再训练,然后又转授权给了 Cursor。

4、

事情到这里就基本清楚了,Cursor 并没有违反 Kimi 的授权条款,因此不存在侵权。

既然如此,为什么它拼命掩盖这个事实,大大方方承认,提供 Kimi K2.5 的修改版模型,很难吗?

我猜测,原因跟 Cursor 不断膨胀的估值有关

彭博社本月报道,Cursor 正在进行下一轮融资,估值达到500亿美元。

大家知道吗,它以前的估值是多少?

2023年10月,Cursor 成立时的估值是5000万美元;2024年8月的 A 轮融资,估值上升到4亿美元;12月的 B 轮融资,估值快速上升到26美元;2025年11月的最新一轮融资,估值已经到了293亿美元。

可以看到,每过几个月,估值就会翻倍。这种火箭式的上升速度,需要有业绩支持。但它本身只是一个 VS Code 的修改版,使用的都是开源技术。

为了支撑越来越高的估值,它有动机把自己从 AI 工具,包装成具有模型研发能力的大模型公司

我认为,这才是它不愿意披露使用了 Kimi K2.5 的主要原因。

5、

纵观整个事件,Cursor 无疑是输家,Kimi 则是这次的赢家,免费得到一大波高价值的曝光。

Cursor 发布 Composer 2 时,披露了性能和成本比较。

Composer 2 的性能低于 GPT-5.4,但高于 Opus 4.6。

但是,它的生成速度比 GPT-5.4 和 Opus 4.6 都快,成本也是最低的。

既然 Composer 2 就是微调的 Kimi K2.5,那么直接使用 Kimi,也能得到同样的效果

6、

以前,国外总是有人指责,中国公司窃取外国技术。但是,这个事件证明了,中国公司也有技术输出。那些国外的明星公司,背地也在偷偷摸摸使用中国技术。

联想到上周,Kimi 的创始人杨植麟收到黄仁勋的邀请,在 Nvidia GTC 大会演讲,是唯一的中国大模型公司代表。

他在台上宣讲,Kimi 团队刚刚发表的论文《注意力残差》(Attention Residuals)。

这种新技术据说可以显著提升大模型的推理能力。

我的想法是,大家要对国产大模型有信心,日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距,正在不断缩小,而且价格实惠。

据杨植麟说,下一个要发布的 K3 模型性能提升巨大,即便没有强10倍,也比 K2.5 强得多,我们可以期待一下。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月21日

零安装的"云养虾":ArkClaw 使用指南

一、引言

大家这两天,有没有被"龙虾"(OpenClaw)刷屏?

到处是它的新闻,就连两会代表和新华社都在谈论。真让人跌破眼镜,一个 AI 软件竟能引起这么大的反响。

人们的热情高涨,免费的线下安装活动人满为患,网上的"付费安装"生意兴隆。

很多人大概还不知道,现在有一种最简单的龙虾使用方法:ArkClaw

简单到你根本不需要操心安装,因为这是一个免安装的方案,它直接内置了龙虾,开箱即用。

我也是昨天才开始用,迫不及待跟大家分享,初步使用的感受。没有用过的同学,也可以把它当作《龙虾零门槛上手》教程,看看龙虾到底是怎么回事。

二、ArkClaw 是什么

事情是这样的,老读者可能还记得,我在春节前测评了字节最新发布的 Seed 2.0 模型。

我在文章里说,这是字节目前最强的基础模型,手机豆包用的就是它,测试表现很不错。

字节的同学后来就向我赠送了 Coding Plan 套餐,方便继续测试这个模型,各种 AI 编程工具都可以调用它的 API(当然套餐还包含其他国产模型,也是自由使用)。

本周一,我突然发现,字节的这个 Coding Plan 套餐开通了一个捆绑服务,就是 ArkClaw。

我问了客服才知道,只要现在开通 Coding Plan,就能免费使用龙虾

也就是说,只要你用字节的 AI 编程套餐,不用多花一分钱,字节就提供一台远程主机,里面安装好了龙虾,你可以自由使用。

需要说明的是,Coding Plan 分成 lite(首月9.9元)和 Pro(首月49.9元)两种套餐。lite 套餐只能免费体验7天,只有 Pro 套餐可以长期使用 ArkClaw。

三、云养虾

ArkClaw 属于"云养虾"(又称"云龙虾"),就是把龙虾(OpenClaw)安装在火山方舟(字节的 AI 云服务品牌)的云主机上,它名字里的 ark 就是"方舟"的意思。

除了"云养虾",也可以把龙虾安装在本地计算机。

不了解的朋友可能会好奇,两者有什么区别,我简单说一下。

首先,你要知道OpenClaw 属于自动化软件,它的作用就是让用户使用自然语言描述需求,它通过大模型找出满足需求的方法,然后自动去完成。

当它安装在本地计算机(你的笔记本),就方便自动操作本地文件和本地设备,比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯,并查询最近一周的耗电量"。

当它安装在云端,就能 7x24 小时跟各种网络服务互动,比如"收到电子邮件时,自动生成30字的内容摘要,向手机发送通知"。

所以,如果你需要自动化操作网络服务,并且需要长时间在线或者每天定时运行,那么就合适使用"云养虾"。

四、ArkClaw 基本操作

4.1 界面

我给大家看一下,ArkClaw 的样子。

进入控制台,点击"立即创建",创建一个龙虾实例。

创建完成后,就已经安装好了,直接使用。

界面非常简洁,就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制,简化了操作界面。

4.2 抓取信息

你可以在对话框里面,跟 AI 模型对话,这跟其他模型的用法并无二致。

举例来说,我们可以让它抓取信息。

可以看到,由于抓取的是动态内容,所以模型想到了很多实施方案,最后顺利完成。

大家要记住,ArkClaw 就是一台远程主机,任何服务器可以用的技术方案,它都能用,这比安装在一般个人工作电脑上的龙虾更强大。

4.3 发送消息

获取信息以后,龙虾可以把这些信息发到手机。

目前,ArkClaw 支持与企业微信、钉钉和飞书绑定。其中,飞书因为是自家的产品,绑定操作最简单,便捷快速,扫码即可。其他两家操作都比较麻烦,具体见官方文档

点击对话框上方的"飞书配对"按钮。(前面的"消息渠道"按钮,用于绑定企业微信和钉钉。)

系统会打开一个终端窗口,输出一个二维码,飞书扫描后可以创建一个机器人,跟当前的 ArkClaw 实例绑定。

通过这个机器人,你就可以在手机上跟当前这台 ArkClaw 实例对话了。

你也可以在电脑上,通过 ArkClaw 网页控制台,向你的手机发消息。

电脑端输入上面指令后,手机端就会推送消息(下图)。

4.4 定时任务

我们还可以规定,龙虾执行某些任务的时间和频率,也就是定时任务。

首先,使用自然语言,在对话框设置定时任务。

设置完成后,你的手机就会每天收到消息了。

如果要删除定时任务,也是使用自然语言发出指令。

五、Skill 和其他设置

5.1 Skill

龙虾本身的能力是有限的,总会遇到一些它不知道如何处理的问题。这时,就可以通过 Skill(技能)扩展它的能力,这大大增加了龙虾的用途。

什么是 Skill?简单理解,它就是一个文件包,里面包含了指令和示例,用来教模型如何完成某些特定的任务。

网上已经有很多别人写好、分享出来的 Skill,只要挑一些自己需要的,让龙虾加载,就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill,已经有近20000个了。

我本来想用小红书 SKill 来举例,演示龙虾如何学会写小红书。但是,官方昨天发公告了,最近这样做的人太多了,现在开始封账号了。

那么就换一个例子。

上面截图就是使用自然语言,让龙虾从 ClawHub 网站下载安装高德地图(amap)的技能

龙虾本来不知道怎么使用高德地图,有了这个技能就学会了,可以从中查询信息。这个技能的具体详细,可以查看它的主页

使用的时候,也是直接用自然语言描述需求,模型会自己加载调用所需的技能。

上图的截图就是通过高德地图,查询实时路况。

5.2 其他设置

ArkClaw 的其他功能,都在"设置"菜单(下图),比如调整底层模型。

只要是 Coding Plan 套餐提供的模型,这里都能使用。

"设置"菜单还有两个很有用的功能。

一个是"打开终端",它会在网页上打开一个终端窗口,让你通过命令行直接操作 ArkClaw 所在的远程主机。

从上面的终端窗口截图可以看到,ArkClaw 底层是 Ubuntu 系统。

另一个是"配置网盘"。某些情况下,你可能需要向 ArkClaw 上传/下载文件,这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定,相当于有了一个无限容量的网盘。

六、总结

以上就是我昨天第一天使用 ArkClaw 的主要内容。

我的感受是,它确实大大简化了龙虾的使用,免安装、开箱即用,让龙虾的操作变得简单直观。通过自然语言加载调用 Skill,也很自然流畅。

它最大的强项就是跟字节生态深度融合,配合得十分丝滑:底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘,完全不必复杂的配置。

它是一个跟字节 Coding Plan 捆绑的服务,不用额外付费。相比自己从头搭建"云龙虾",云主机和 AI 模型的费用就省掉了,这是一笔不小的费用。

作为程序员,这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案,还是很有吸引力的。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月12日

字节全家桶 Seed 2.0 + TRAE 玩转 Skill

一、引言

国产大模型之中,字节是一个异类。

不像其他大模型轰轰烈烈、争夺眼球,它更低调,不引人注目。

但是,它做的事情反倒最多,大模型、Agent、开发工具、云服务都有独立品牌,遍地开花,一个都不缺,都在高速推进。

Seed 是字节的大模型团队,底下有好几条产品线,最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。

今天,我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。

大家会看到,它们组合起来既强大,又简单好用,(个人用户)还免费。这也是我想写的原因,让大家知道有这个方案。

只要十分钟,读完这篇教程,你还会明白 Skill 是什么,怎么用,以及为什么一定要用它。

二、Seed 2.0 简介

先介绍 Seed 2.0,它是 Seed 家族的基座模型

所谓"基座模型"(foundation model),就是一种通用大模型,可用来构建其他各种下游模型。最大的两个特征有两个:一个是规模大,另一个是泛化能力强,这样才方便构建别的模型。

大家熟知的豆包,就是基于 Seed 模型,它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型,以及专为开发者定制的 Seed 2.0 Code 模型。

由于各种用途都必须支持,Seed 2.0 的通用性特别突出,比以前版本都要强。

1、支持多模态,各种类型的数据都能处理:文字、图表、视觉空间、运动、视频等等。

2、具备各种 Agent 能力,方便跟企业工具对接:搜索、函数调用、工具调用、多轮指令、上下文管理等。

3、有推理和代码能力。

正因为最后一点,所以我们可以拿它来编程,尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用,效果很好,特别方便全栈开发,个人用户还免费。

三、TRAE 的准备工作

下载安装 TRAE 以后,它有两种模式,左上角可以切换:IDE 模型和 SOLO 模型。

选择 IDE 就可以了,SOLO 是 AI 任务的编排器,除非多个任务一起跑,否则用不到。

然后,按下快捷键 Ctrl + U(或者 Command + U),唤出对话框,用来跟 AI 对话。

我们要构建 Web 应用,左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。

可以看到,TRAE 自带的国产开源编程模型很全,都是免费使用。

准备工作这样就差不多了。

四、编程测试

我选了一个有点难度的任务,让 Seed 2.0 生成。

ASCII 图形是使用字符画出来的图形,比如下图。

我打算生成一个 Web 应用,用户在网页上输入 ASCII 图形,自动转成 Excalidraw 风格的手绘图形。

提示词如下:

"生成一个 Web 应用,可以将 ASCII 图形转为 Excalidraw 风格的图片,并提供下载。"

模型就开始思考,将这个任务分解为四步。

五、生成结果

等到 Seed 2.0 代码生成完毕,TRAE 就会起一个本地服务 localhost:8080,同时打开了预览窗口。

生成的结果还挺有意思,上部的 ASCII 输入框提供了四个示例:Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。

然后是 Excalidraw 参数的控制面板:线宽、粗糙度、弯曲度、字体大小。

点击 Convert(转换)按钮,马上得到手绘风格的线条图。

整个页面就是下面的样子。

六、Skill 简介

这个页面的设计,感觉不是很美观,还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能,使其能够做出更美观的页面。

所谓 Skill(技能),就是一段专门用途的提示词,用来注入上下文。

有时候,提示词很长,每次都输入,就很麻烦。我们可以把反复用到的部分提取出来,保存在一个文件里面,方便重复使用。这种提取出来的提示词,往往是关于如何完成一种任务的详细描述,所以就称为"技能文件"。

格式上,它就是一个 Markdown 文本文件,有一个 YAML 头,包含 name 字段和 description 字段。

name 字段是 Skill 的名称,可以通过这个名称调用该技能;description 字段则是技能的简要描述,模型通过这段描述判断何时自动调用该技能。

有些技能比较复杂,除了描述文件以外,还有专门的脚本文件、资源文件、模板文件等等,相当于一个代码库。

这些文件里面,SKILL.md 是入口文件,模型根据它的描述,了解何时何处调用其他各个文件。

这个库发到网上,就可以与其他人共享。如果你觉得 AI 模型处理任务时,需要用到某种技能,就可以寻找别人已经写好的 Skill 加载到模型。

七、前端设计技能

下面,我使用 Anthropic 公司共享出来的前端设计技能,重构一下前面的页面。它只有单独一个 Markdown 文件,可以下载下来。

打开 TRAE 的"设置/规则和技能"页面。

点击技能部分的"+ 创建"按钮,打开创建技能的窗口。

你可以在这个窗口填写 SKill 内容,也可以上传现成的 Skill 文件。我选择上传,完成后,就可以看到列表里已经有 frontend-design 技能了。

然后,我就用下面的提示词,唤起这个技能来重构页面。

"使用 frontend-design 技能,重构这个页面,让其变得更美观易用,更有专业感。"

下面就是模型给出的文字描述和重构结果。

页面确实感觉变得高大上了!

八、Vercel deploy 技能

最后,再看一个技能的例子。

代码生成以后,都是在本地机器上运行,能不能发布到网上,分享给更多的人呢?

回答是只要使用 Vercel 公司的 deploy 技能,就能一个命令将生成结果发布到 Vercel 的机器上。

在 Vercel 官方技能的 GitHub 仓库里,下载 Vercel-deploy 技能的 zip 文件。

然后,把这个 zip 文件拖到 TRAE 的技能窗口里面,就会自动加载了。

输入提示词:"将生成的网站发布到 Vercel"。

模型就会执行 vercel-deploy 技能,将网站发布到 Vercel,最后给出两个链接,一个是预览链接,另一个是发布到你个人账户的链接。

大家现在可以访问这个链接,看看网站的实际效果了。

九、总结

如果你读到这里,应该会同意我的观点,Seed 2.0 的编程能力相当不错,跟自家的编程工具 TRAE 搭配起来,好用又免费。

Skill 则是强大的能力扩展机制,让模型变得无所不能,一定要学会使用。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月14日

智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex

一、引言

刚才我看到,智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊,非要赶在长假之前,上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高,公认是编程领域第一梯队的模型。新的大版本就让人很好奇,会有哪些改进。

实话实说,上个星期,他们团队联系我参与内测,我已经使用这个模型好几天了。

巧的是,也在上个星期,国外两个旗舰模型同时发了新版本:Anthropic 公司发了 Claude Opus 4.6,OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程,我就忍不住进行了比较测试,看看它们有没有差别,我想这也是很多人感兴趣的。

下面就是真实编程任务,在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明,这样介绍 GLM-5:作为开源模型,GLM-5 完全对标顶尖闭源模型,在两个地方做了特别强化。

(1)复杂系统工程

GLM-5 不单善于生成前端网页,更善于处理后端任务、系统重构、深度调试,摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制,能在编译失败或运行报错时,自主分析日志、定位根因并迭代修复,直到系统跑通。

(2)长程 Agent

它能够跑长程任务,即多阶段、长步骤的复杂任务,可以自主拆分需求,自动化连续运行长达数小时,并保持上下文连贯与目标一致性。

(3)小结

GLM-5 可以完成的任务,已经超越了生成前端 UI,而是可以生成系统级大型复杂项目,比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代,GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目,是 HuggingFace 公司的布道师亚历杭德罗·奥(Alejandro AO)测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频,展示这两个模型的表现。

我就拿同样的题目去测 GLM-5,再跟他的结果进行对比。

一共四道题,前端和后端的都有。我已经把原始的提示词和原始脚本,做成了一个仓库,放到了 GitHub

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类,然后堆叠在一起,我们让 AI 对这个网页进行重新设计,让它变得美观易用,透露出成熟可靠的专业感。

前面说了,提示词和原始文件都在 GitHub,这里不重复贴了。大家可以拿来自己跑,也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业,所有信息组织得井井有条,而且带有动画效果,手机浏览(下图)也没有问题,简直可以直接上线。

我把这个页面发布出来了,大家可以点击这里去看。

下面是 Opus 4.6 的生成结果,从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的,但是 GPT-5.3 有一个瑕疵(页眉没做成粘性页眉,往下拉就没了),而且在设计上也不如另外两者好看。

所以,在这个测试中,GLM-5 和 Opus 4.6 表现更好,至于哪一个更出色,要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒,用动画展示太阳系的天体运动,并且能够调整质量、位置、速度等动画参数,还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区,默认展示三个小行星围绕中间的恒星进行轨道运动,可以用鼠标拖拽进行360度旋状,以及放大和缩小。

页面的左侧是操控面板,做得挺不错。

上半部分可以调节动画和天体参数,下半部分用来增加新的天体,或者删除现有天体。

作为比较,Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果,都满足了需求,都可以顺利运行。但是,GLM-5 的动画缺了引力网格线,而 GPT-5.3 的网格线太凌乱,因此动画效果方面 Opus 4.6 更好一些。

操控面板方面,GLM-5 和 Opus 4.6 都设计得不错,GPT-5.3 有点简单。

总体上,我感觉这一轮的最佳选手是 Opus 4.6,其次是 GLM-5,最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"(angry birds)。

GLM-5 的生成结果还可以,挺像原作的,可以玩,但是游戏性不足,弹跳效果不够好。

Opus 4.6 的还原度很高,游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬,小鸟根本弹不出去,游戏不能玩。

这一轮很明显,Opus 4.6 最佳,GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是,将一个基于 PHP 语言 Laravel 框架的 Web 应用,转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时,几乎没有出现任何麻烦,很快就将 PHP 语言转成了 JS 语言,并且给出了转换后的代码结构。

它还在转化后,贴心地自动安装了依赖的软件包,做好了脚本编译,提示用户:你只要接入外部 API,一键执行npm run dev就能直接运行了。

我按照它的提示,运行很顺利,没有报错,打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式,所以看上去跟 PHP 原版一模一样。

右上角输入框,可以查询城市。

在查询结果中,选中你所要的城市。

点击进去,就是城市的详情页,有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果,因为页面、功能完全一样,就不展示截图了。

值得一提的是,GLM-5 和 GPT-5.3 的转换时间都在5分钟左右,Opus 4.6 似乎遇到了一点问题,花费了整整20分钟。

这一轮单看结果,三个模型都很好,但是 GLM-5 花费的生成时间短,没有任何报错,全过程的用户体验好,我愿意投它一票。

八、总结

经过这些测试,GLM-5 的编程表现可圈可点,是拿得出手的,能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出,即使不如人家的地方,往往也是细节问题,不是质的差别。

它听说在训练和运行过程中,都使用了国产的"万卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表现会更好,足以跟世界第一梯队的大模型公司正面 PK。

另外,它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码,可靠性不错,无论是生成时还是运行时,报错都不多。缺失的地方往往就是一些功能的缺失,后期让 AI 再补上就可以了,不是架构出问题。另外,我有一项个人任务,它跑了足足两个小时,最后也完成了,没有乱掉。

我愿意把官方的一段话,作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统",而 GLM-5 堪称开源界的"系统架构师"模型,从关注"前端审美"转向关注"Agentic深度/系统工程能力",是 Opus 4.6 与 GPT-5.3 的国产开源平替。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月12日
❌