普通视图

发现新文章,点击刷新页面。
昨天 — 2026年1月30日阮一峰的网络日志

科技爱好者周刊(第 383 期):你是第几级 AI 编程

作者 阮一峰
2026年1月30日 08:10

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

刚刚建成四川宜宾高铁枢纽门户区,以高铁站为核心,包括8座塔楼、中央公园、数字艺术中心和商业文化街区。(via

你是第几级 AI 编程

史蒂夫·耶格(Steve Yegge)是一个著名的美国程序员。

他在亚马逊和谷歌都干过,但是他出名的不是写软件,而是写博客。

他喜欢在个人网站发布长篇大论,滔滔不绝地议论,直抒胸臆,毫不避讳。他的好多文章都在业内被广泛阅读,引起很大反响。

这些文章后来结集出版,甚至引进了国内,书名就叫《程序员的呐喊》(人民邮电出版社,2014)。

它的书名里面的"呐喊",英文单词是 ranting,直译就是"咆哮",确实就是他的文章风格。

这个月,他又发表了一篇最新文章,谈他对 AI 编程的看法。

他说 AI 编程有8级,他已经到了第8级,也就是最高级。

第1级,还没有接触到 AI 编程,你的 IDE 还是正常的样子(下图)。

第2级,你在 IDE 装了 AI 插件,开启了侧边栏,AI 时不时提出代码建议,问你是否接受(Yes or No)。

第3级,你开始信任 AI 编程,进入了 YOLO 模式("你只活一次"模式, You Only Live Once)。为了节省时间精力,你不再逐条确认 AI 的建议,只要是 AI 生成出来的东西,你就一路按 Yes,统统接受。

第4级,AI 占据的屏幕宽度越来越大,手工编辑的代码区仅用于比对代码差异。

第5级,你索性不要代码区了,改用命令行(比如 Claude Code),所有的屏幕宽度都留给了 AI。你现在不看 AI 的生成结果了,只看它的完成进度。

第6级,你觉得只用一个 AI 太慢,于是打开3到5个窗口,同时进行 AI 编程,加快速度。

第7级,同时打开的 AI 编程窗口到了10个以上,已经是你手工管理的极限了。

第8级,你开始使用 AI 任务编排器,让计算机管理并行的多个 AI 编程。

以上就是 AI 编程的8个级别,你是第几级?

到这里还没完,前面说了,史蒂夫·耶格本人已经到了第8级。他需要工具来管理并行的 AI 编程,但是找不到满意的工具。

于是,他就指挥 AI 写,并将这个工具起名为"煤气镇"(Gas Town)。这个名字来自电影《疯狂麦克斯》(Mad Max)第四部,是里面大反派老乔的老巢。那里到处都是二手零件组成的燃气机,能正常工作,但是看上去摇摇欲坠。

他说,"煤气镇"的开发就是东拼西凑,不考虑合理性,能用就加上去,没抛错就接受。"它有22.5万行 Go 语言代码,我从来没看过它的代码,也从来没想过要看。"

他建议用户不要使用这个工具,因为使用它需要全心全意信任 AI。并且,就算相信它,它也可能把事情搞得一团糟。另外,多个 AI 一起跑,很费钱。

但是,他还是把这个工具放到网上,因为它非常好玩。截至到上周,已经得到了6000颗星。

科技动态

1、牛的智力

一个奥地利农民惊奇地发现,自家的牛会从地上,叼起一根棍子来挠痒。

这个发现令人震惊,因为这表明牛会使用工具,以前从未有人提过。

目前,除了人类之外,只有黑猩猩被发现会使用工具。科学家表示,需要重新认识牛的智力。

2、轨道储能系统

一家美国公司设计出"轨道储能系统",利用山地轨道储藏能量。

电力充足时,索道通过电动机,把重物从山脚运到山顶。

电力不足时,就利用重力势能,让重物顺着轨道从山顶滑到山脚,通过索链带动发电机。

这个系统的优点是简单可靠,成本低,连续使用多年,也不会出现性能衰减。

3、喉部发声贴片

上一期周刊介绍了会说话的围脖,本期还有一个类似的发明。加州大学洛杉矶分校的研究团队发明的喉部贴片,可以让不能说话的病人重新发声。

某些病人由于喉部疾病,无法再发声了,成了哑巴,但是他们的喉部肌肉还能动。

这种贴片贴在病人的喉部,能够感知病人的喉部肌肉运动,并将这种运动转为电信号,发送出去。

计算机收到电信号以后,再转成对应的语音,从而实现发声。

为了将喉部肌肉运动与各种语音对应起来,研究团队使用了机器学习,通过算法将电信号与单词之间实现了关联。

文章

1、2026年的 Linux 音乐播放器(英文)

本文介绍 Linux 系统现在主要的几种音乐播放器。

2、选择性禁用 HTTP/1.0 和 HTTP/1.1(英文)

本文介绍如何设置 nginx,禁止 HTTP/1.0 和 HTTP/1.1 协议,只有白名单里面的客户端可以通过,这杜绝了绝大部分的攻击和爬虫。

3、我扫描了所有的 GitHub "孤儿提交"(英文)

如果你不小心把密码提交到 GitHub,怎么办?你可能会立刻修改代码,强制覆盖上次的提交。

本文告诉你,这样不行。因为 GitHub 不删除任何提交,你上次提交实际上还在。作者扫描了所有 GitHub 的强制提交事件,真发现了许多泄漏的密码,

4、CSS 动画计数器(英文)

本文介绍纯 CSS 动画计数器的各种写法。

5、我的 n8n 用例(英文)

n8n 是一个工作流编排器,可视化生成自动操作脚本。作者介绍了自己的用例:通过聊天软件,将每一笔费用发给 n8n 本地服务器,它会用 AI 进行分类,再将结果存入谷歌表格。

6、2025应该知道的 HTML 新知识(英文)

本文介绍 HTML 的一些新属性和新功能。

7、新的自托管应用推荐(英文)

作者推荐一些他个人喜欢的自托管应用,都相当不错。

工具

1、teemux

一个基于 JS 语言的命令行工具,将多个进程输出的日志放在一处查看,可以命令行查看,也可以浏览器查看。

2、daedalOS

浏览器里面的虚拟桌面环境,代码开源。

3、Dendron

VS Code 的笔记插件,将笔记的层级结构当作目录,并支持图表和内部链接,参见介绍文章

4、CWD(Cloudflare Workers Discuss)

基于 Cloudflare Workers 的网站评论系统。(@anghunk 投稿)

5、Mouse Gestures

开源的 Chrome 浏览器插件,使用鼠标滑动轨迹,完成各种浏览器操作。(@Chance-fyi 投稿)

6、relationship-ts

一个 JS/TS 库,用来计算中国亲戚关系(称谓),Demo 试用。(@ExploringTheCodeWorld 投稿)

7、Deck

macOS 剪贴板管理的开源桌面应用,特点是有 Touch ID 保护和端到端加密。(@yuzeguitarist 投稿)

8、EdgeTunnel (Refactored)

一个部署在 Cloudflare Workers 的隧道方案,代码进行了重构。(@tianrking 投稿)

9、Mail Studio

开源的可视化邮件编辑器,通过拖拽组件,生成响应式邮件模板,试用 Demo。(@wzc520pyfm 投稿)

10、TermClean

macOS 开源应用,在终端界面显示各种软件包占用的磁盘空间,并提供清除软件包功能。(@daijinhai 投稿)

AI 相关

1、ebook2audiobook

电子书转成有声书的工具。

2、WorkAny

开源的 AI Agent 桌面客户端,能够执行任务、操作文件,类似于 Claude Cowork。(@idoubi 投稿)

3、Voice Key

开源的桌面端 AI 语音转文字的工具。(@yexia553 投稿)

4、分镜大师(Storyboard Studio)

开源的 Windows 应用,使用 AI 对视频进行分镜。(@BroderQi 投稿)

资源

1、Claude Code 实战(Claude Code in Action)

Anthropic 官方的 Claude Code 免费入门教程,一共15节视频课,总长约1小时。

2、GitHub 证书

这个网站可以将某个用户2025年的 GitHub 活动,变成一张证书样式的图片。

3、Fontsniff

上传文本图片,自动识别使用了什么字体。(@cosmicqbit 投稿)

4、Future Style Periodic Table

开源的可视化元素周期表,会展示核外电子排布。(@SeanWong17 投稿)

5、nihongo

免费的日语学习平台,有词汇、听力、文章等。(@FrankZhai367 投稿)

图片

1、我不再写代码,而是雕刻代码

我的编码方式发生了变化,现在很少自己写了,都交给 Claude Code 自动完成。

我要做的,就是将 AI 的输出结果打磨成更持久耐用的东西。

AI 几乎从不删除无用代码。如果没有雕塑家,最终只会得到一座臃肿不堪、毫无特色、重得无法站立、也无法讲述故事的雕像。

2、蝴蝶壁画

一位法国艺术家,在世界各地的大楼外立面,绘制栩栩如生的蝴蝶标本壁画,唤起人们对生物多样性的关注。

以下都是真实照片,不是 AI 生成的。

迈阿密

休斯顿

西班牙

纽约

法国

文摘

1、为什么有些公司愿意"黑箱编程"

有些公司已经把编程完全交给了 AI,根本不看代码了,AI 写什么就运行什么。

我把这叫做"黑箱编程",开发过程变成了一个黑箱,根本不需要人类介入,也不欢迎人类介入。它所做的就是把规格参数转换成软件。

我知道,有些小公司就这么干,公司的人数一般不到五个人。虽然这种事情简直难以置信,但很可能就是我们的未来。

我问过一个这样的公司,他们为什么要这么做?

他解释说,作为小公司,他们团队的目标是证明产品的有效性。

人类的作用是设计出一个系统:找到新的模式,帮助 AI 有效工作,证明正在构建的软件产品是稳健有效的。剩下的事情就都交给 AI,这样效率最高。

我认为,这个解释令人信服。

这个公司很小,但在短短几个月内就开发出了可以运行的产品。团队当中有些人拥有超过20年的软件开发经验,曾参与过开发可靠性要求极高的系统,所以他们并非抱着天真无知的心态选择了"黑箱编程"。

我期待着,看到他们拿出最终产品,投入市场的那一刻。

言论

1、

大多数组织习惯于收到系统警报后,直接质问:"是谁刚刚发布了代码变更?" 人们认定合并代码的人肯定了解它的工作原理,并且能够迅速修复问题。

如果你部署的代码既不是某个人写的,也没有人真正理解它,会发生什么?

-- 《二十年的 DevOps 实践》

2、

JavaDoc 之类的工具,可以从代码直接生成文档。我觉得,这种自动生成的文档,价值并不大,未必比直接阅读源代码容易。

没有什么可以替代手写的、有组织的和人工编辑的文档。

-- 《什么是好的文档,以及如何编写》

3、

你学过的、使用过的每种语言和技术,即使会过时,也是有价值的,它们都会让下一种语言或技术更容易学习。

-- 《他们骗了你,开发软件真的很难》

4、

习惯了 AI 编程之后,有一天,我震惊地发现,自己竟然如此轻易地掉进了陷阱。

我已经变得对自己的代码库一无所知,也懒得自己去修复。只要用上了 AI,我就心情愉快,AI 让我感觉自己更聪明、更高效、掌控一切。一旦离开了 AI,我才发现这一切都只是幻觉。

-- 《有了 AI,我变得懒惰和愚蠢》

往年回顾

面对 AI,互联网正在衰落(#336)

蓝色指示灯的解决方案(#286)

中国的阳光地带(#236)

低纬度,高海拔,气候优势(#186)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月30日
昨天以前阮一峰的网络日志

Kimi 的一体化,Manus 的分层

作者 阮一峰
2026年1月29日 16:02

一、

前天,Kimi 突然发布了旗舰模型 K2.5,事先没有一点风声。

在国内,Kimi 是比较低调的公司,关注度相对不高。但是,它的产品并不弱。

半年前,K2 模型一鸣惊人,得到了很高的评价,公认属于全球第一梯队。所以,新版本 K2.5 出来以后,立刻上了新闻,在黑客新闻、推特等平台都是热门话题。

著名开发者 Simon Willion 当天就写了详细介绍

但是,这一次真正有趣的地方,不是模型本身,而是 Kimi 做了另一件事。

二、

这次的 K2.5 很强,各方面比 K2 都有进步。官方给出的评测跑分,基本都是全球前三位,甚至第一名(见发布说明)。

根据 LMArena(现改名为 arena.ai)的榜单,Kimi K2.5 的编码能力,是所有开源模型的第一,在总榜上仅次于 Claude 和 Gemini(下图)。

但是,最大的亮点其实不是模型,而是 Kimi 同时发布了一个基于这个模型的 Agent(智能体)。

也就是说,这次其实同时发布了两样东西:K2.5 模型和 K2.5 Agent。K2.5 是底层模型,K2.5 Agent 则是面向最终用户的一个网络应用。

我的印象中,这好像是第一次,大模型公司这么干。以前发布的都是模型本身,没见过谁把模型和 Agent 绑在一起发布的。

这么说吧,Kimi 走上了一体化的道路。

三、

大家知道,大模型是底层的处理引擎,Agent 是面向用户的上层应用。

它们的关系无非就是两种:分层开发和一体化。前者是大模型跟 agent 分开,各自开发;后者是做成一个整体一起开发。

前不久,被 Meta 公司高价收购的 Manus,就是分层开发的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude,它自己在其上开发一个独立的智能体,最终被收购。

它的成功鼓舞了许多人投入智能体的开发。因为模型的投入太大,不是谁都能搞的,而智能体的投入比较少,再小的开发者都能搞。

Kimi 这一次的尝试,则是朝着另一个方向迈出了一大步,把大模型和 Agent 合在了一起。毕竟,大模型公司自己来做这件事更方便,更有利于扩大市场份额、争取用户。

很难说,这两种做法哪一种更好。就像手机一样,苹果和安卓的外部应用,可以更好地满足用户需求,而自带的内置应用则能充分跟操作系统融合,用起来更顺滑。

四、

模型的测试已经很多了,下面我就来测一下,这次发布的 K2.5 Agent。

看得出来,Kimi 对 Agent 很重视,倾注了很大心血,发布说明的大部分篇幅介绍的都是 Agent 的功能。

其中有几个功能是比较常规的:

(1)Kimi Office Agent:专家级的 Word、Excel、PowerPoint 文件生成。

(2)Kimi Code:对标 Claude Code 的命令行工具,专门用于代码生成。

(3)长程操作:一次性完成最多1500步的操作,这显然在对标以多步骤操作闻名的 Manus。

我比较在意的是下面两个全新的功能,都是第一次看到,其他公司好像没有提过。

(4)视觉编程:通过模型的视觉能力,理解图片和视频,进而用于编程。只要上传设计稿和网页视频,就能把网页生成出来。

(5)蜂群功能(agent swarm):遇到复杂任务时,Agent 内部会自动调用最多100个 Agent,组成一个集群,并发执行任务,比如并发下载、并发生成等。

碍于篇幅,我就简单说一下,我的"视觉编程"测试结果。

五、

首先,打开 Kimi 官网,K2.5 已经上线了,能够直接使用(下图)。

注意,模型要切换到"智能体模式" K2.5 Agent。

我的第一个测试是动效生成,即上传一段动画效果的视频,让它来生成。下面是原始动画,是用 Lottie 库做的。

上传后,在网页输入提示词:

视频里面的动画效果,一模一样地在网页上还原出来

模型很快推断出,这是橘猫玩球的动画。然后,居然把动画每一帧都截图了,进行还原。

最终,它使用 Python 生成了 SVG 动画文件。

尾巴、眼球、小球滚动的动画效果,都正确还原出来了。可惜的是,主体的小猫是由多个 SVG 形状拼接而成,没法做到很像。

大家可以去这个网址,查看最终效果和网页代码。

六、

第二个测试是上传一段网站视频,让模型生成网站。

我在 B 站上,随便找了一个设计师网站的视频

大家可以去访问这个网站,看看原始网页的效果。

我把视频上传到模型,然后要求"把视频里面的网站还原出来"。

生成的结果(下图)完全超出了我的预期,还原度非常高,几乎可以直接上线。

大家可以去这个网址,查看生成的结果。

七、

经过简单测试,我的评价是,Kimi K2.5 Agent 的"视觉编程"不是噱头,确实有视觉理解能力,完全能够生成可用的结果。

目前看上去,Kimi 这次"模型 + Agent"的一体化尝试是成功的。一方面,强大的 Agent 发挥出了底层模型的能力,方便了用户使用;另一方面,模型通过 Agent 扩展了各种用例,可以吸引更多的用户,有利于自身的推广。

最后,在当下国际竞争的格局之中,一体化还有一个额外的优势。

Manus 依赖的是美国模型,最终不得不选择在海外注册公司,而 Kimi 的底层模型是自研的,而且开源,完全不存在卡脖子的风险。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月29日
❌
❌