阅读视图

发现新文章，点击刷新页面。

✨TRAE SOLO + Holopix AI | 复刻 GBA 游戏-"🐛口袋妖怪"

掘金前端

coder_pig

2025年12月12日 17:01

1. 引言

😄 不知不觉，今年已经用「AI编程工具 + Holopix AI 」复刻了好几款游戏：塔防、转刀、射击、自走棋：

😶 但，都不是我喜欢的，我更怀念读书时的 "白月光" —— GBA《口袋妖怪(绿宝石)》

读初中那会，同学买了 GBA，软磨硬泡，才愿意晚上借我回家玩。🤡 有 "网瘾史"，父母不给玩游戏，等他们 "查房" 完，透过门缝看外面的灯关了，确认没动静后，才敢偷偷拿出来玩，有时没注意时间，一玩就是一个通宵，🤣 记得有次理发，钓🐟钓着钓着睡过去了。

唉，年轻真好啊，通宵几天都吃得消，现在不行了，晚上一两点睡，第二天起来浑身难受...

AI 发展迅猛，今年的尾声，借助【TRAE SOLO + Holopix AI】来复刻这款游戏，试着找回当年那个 "无忧无虑" 的自己👶～

2. SOLO Time

上节重构两项目用的 Agent 是 SOLO Coder，这节是 "创意快速落地"，所以用 SOLO Builder：

Vibe Coding 关键是 "文档先行" ❗️ 开发过程的每一步都要围绕 "文档" 进行，先让 AI 出 Plan 文档，你 审阅校对编辑 没问题后，才让 AI 照着文档开始干活。

这样做 "把控性" 更强，你能清楚知道 AI 要怎么做，而不是 "抽卡"，全靠 AI 自己发挥。产品开发的起点是 PRD (产品需求文档)，游戏则是 GDD (游戏设计文档)，先写 Prompt 让 Trae 对 "原始需求" 进行细化。

SOLO Builder 模式没有 Plan 开关，需要在 Prompt 中写明生成 GDD 文档，不然它有时会直接开始 "堆代码"：

生成结果：

让我们确认几个 "立项目标"-复刻程度、技术栈选择、美术与资源，简单做下 "填空题"，Prompt 后面同样要加上 "先不要写代码，理解完需求，更新GDD文档"：

再次确认文档是否有误，比如：技术栈是否对味~

🤔 接着，直接让 Trae 按照这个 GDD 文档来干活吗？可以，但我倾向于再 "拆"，先做 "可行性的快速验证"，而不是直接一股脑干到头，这样省 Token，效率更佳，有不对的可以 快速调整：

😏 不够，我还要玩更 "骚" 的 "多Agent并行"，把 Trae 的效率拉爆，写 Prompt 把 大任务 拆成多个 "可并行执行的小任务"，然后还是得生成 "文档"：

Trae 拆解成了 4 个小的 Task，并告知了我 "建议执行顺序"：

结构目录不是很好 (没分层)，让它调整一下：

接着就是点击左上角的 " + 新任务"，然后在每个 Agent 里写不同的 Prompt："执行xxx.md"：

🤣 三架马车，并驾齐驱，何其壮观，泰裤辣！2333，就是 Token 烧得有点快...

😄 "简陋" 游戏雏形有了，接着，可以让 Trae 自检任务完成情况：

也可以让它基于 GDD 生成下一步的 Plan，然后就是重复上面的 "套路" 拆解任务分步执行， 💁‍♂️人靠衣裳马靠鞍，同时请出我们的老朋友「Holopix AI」来生成 UI素材，对游戏进行 "美化"~

3. Holopix AI 生成素材

3.1. 定制一个 "GBA像素风" 模型

😀 既然是想 "复刻"，那 "美术风格" 妥妥得搞成 "GBA像素风"，Holopix AI 提供了大量不同风格的 "预设模型"，随手搜了下 "像素"，都有 20+ 种：

😃 不过，杰哥想更加 "原汁原味"，Holopix AI ****是支持 "模型定制" 的，还记得上节 "坤坤自走棋"，我们用网上搜罗到的 "ikun小黄鸡" 图片作为素材，训练了一个专用用来生成小黄鸡的 "ikun" 模型吗？

😄 这里我们 照葫芦画瓢，训练一个 "GBA像素风" 的模型，搜了下 "口袋妖怪素材"：

发现都是这样的 "精灵表" (纹理图集)，这是 2D游戏开发的标准做法，为的是 "性能与效率"：

GBA的图形芯片 (PPU) 没有 "加载图片" 的概念，它只能读取连续的显存块。开发者把所有角色动画帧拼成一张图，通过修改 UV坐标 (读取位置) 来切换帧。切换动画帧只需改变内存偏移量，不消耗CPU，而且一张512x512的图集仅占256KB，而100张独立图片会因内存对齐浪费30%空间。

即使今天硬件强大，"图集" 仍是最佳实践，表现在：

减少Draw Call：渲染100个独立图片=100次Draw Call；渲染1张图集=1次Draw Call。GPU批量渲染，帧率提升5-10倍。
动画管理：动画软件能直接输出图集+坐标数据，游戏引擎可自动识别，无需手动切割和配置。
动态合批：游戏引擎会将零散小图在运行时合并成图集 (VRAM)，提供预制图集可跳过这一步，启动更快。
像素完美：独立图片导入时可能因压缩产生1像素透明边，图集一次导出，所有帧共用统一调色板，杜绝色差。

😁 扯得有点远了，接着写 Prompt 让 TRAE 用 哈基米3 写脚本切下图：

有点切歪了，问题不大，截图发它重新切，顺手 去掉蓝色背景 + 调整图片分辨率 为 256x256，这是 训练模型 用到素材图片的 "最小分辨率"：

打开 Holopix AI 官网，点击左侧 "模型定制" → "开始模型训练"：

训练类型选 "icon道具"，训练强度选 "低"，然后点击 上传图片：

选中我们的宝可梦素材 (最多200张)：

提交后，等模型训练完，会有消息通知，一般要 2-10h：

收到成功通知后，可到 "模型定制" → "我的模型" 找到训练好的模型，点击 开始创作：

随便输几个描述词看看效果：皮卡丘、绿毛龟、绿色喷火龙，水箭龟：

😳 卧槽，"DNA" 动了！然后，现在这个模型只有 "自己可见"，好东西肯定要分享的，接着发布一下模型：

做下填空，然后 示例图 直接选 "从创作记录导入"，选几张还凑合的，点击发布，然后别人就能搜到你的模型了：

3.2. 宝可梦 & 道具 & 角色

😆 接着用我们上面训练的模型来生成 "宝可梦" 和 "道具"，生图 Prompt 可以让 Trae 生成一个素材清单：

不过这种批量生成 Prompt 的一般都比较 "简陋"，可以用 Holopix AI 提供的 "智能优化" 进行润色：

接着就是重复 "抽卡"，选择中意的素材了，部分生成素材：

接着让 Trae 应用看下效果：

3.3. 建筑

🤔 起始城镇 "主角的家" 和 "博士研究所" 分别占据 3x3 和 5x3 的格子，没法用像素块拼接...直接找个像素模型，这里用的「等距像素化建筑模型 | HOLO-V1」：

Prompt 直接输入 3x3的房子，让 Holopix AI 进行智能优化，接着翻译为英文，接着微调下：

4. 最终效果

把 Holopix AI 生成的素材全部应用上，加上反复跟 Trae Vibe 的最终效果：

💁‍♂️ 捣鼓了一早上，就复刻了 "口袋妖怪" 的 "基本玩法" (虽然有点简陋，还有各种BUG🤣)，归功于：

Holopix AI：依旧保持稳定快速，高质量的游戏素材输出。
Gemini 3 Pro：当之无愧编程能力最强的 "前端之王LLM"。
TRAE SOLO：同时驱使 多 Agent 并行干活太爽了，😆 就是 Token 烧得飞快...

😏 AI 时代，人人都是 "创造家"，你有创意你就来，赶紧动手试试吧~

🚀用 TRAE SOLO 一天不到就把老项目重构完是什么体验？

掘金前端

coder_pig

2025年12月11日 15:11

1. 引言

四年前，百无聊赖之余，一时兴起，花了差不多一周，用 Python 写了个 "🐭 尾汁Markdown转换工具" → coder-pig/hzwz-markdown-wx，用于：将Markdown文件转换成带样式的微信公众号文章HTML。

简单点说就是 "Markdown → 公众号" 的 排版工具，还顺手写了几篇介绍实现过程的文章：

😆 当时自己整理的排版规范：

# 字号：正文(14、15)，注释-标注来源-超链接-代码(12)
# 字间距：(1、1.5)
# 行间距：(1.5、1.75、2)
# 页边距：即双端缩进、两端对齐，页面左右留白，建议缩进尺寸为1.0

# 字体颜色：标题 #000000；正文 #4C4C4C；标注 #888888；其他 #B2B2B2
# 正文也可以尝试：#545454；#3f3f3f；#7f7f7f；#2f2f2f
# 备注性文字：#a5a5a5

# Tips：除去字体颜色，公号排版颜色不宜超过三种，颜色一旦多起来，风格就很难定，2-3种尤佳；
# 比如我的三种颜色：蕾姆蓝#5A78EA；拉姆粉#FF4081；艾米莉亚：#C65BDA

# 符号系统：建立自己的符号系统，用作内容分割，比如用//////////作为正文大段落的分隔，- 作为段落小结的分隔，有时还可以使用一些表情符号来增加趣味性：http://cn.piliapp.com/symbol/

# 不管怎么排，要有自己固定的设置，如：段落和图片间空2行、图片大小控制在一屏版面的1/3面积内、一个段落不超过3行字、每当一屏版面文字太满时，拆解段落做分段或做一些highlight制造空间感等。

# 总而言之，尽量利用 简单的基础设置 去优化阅读体验，让整体排版看起来简洁但有序、不密集、不沉重、不压抑。

# 采用固定格式的公号封面图!!! 
# 固定版式形成强烈的个人特色，制作新的封面图只需置换文字和图片，好看又方便。

🤡 有在用，但用起来比较麻烦，每次排版都得：

打开PyCharm → 复制要排版的md文件 → 运行脚本 → 生成带样式的HTML文件 → 打开文件复制粘贴 → 浏览器打开公众号文章编辑页面 → F12定位到文章输入区域的代码 → 修改结点 → 粘贴代码 → 保存

😄 今年六月，看 首月3刀 开的 Trae 还剩挺多额度，于是花了半个小时，Vibe 了一个 排版静态页面， 并且用 掘金MCP 进行发布 → 「掘掘子Markdown微信公众号排版工具」

具体 Vibe 过程可以看 → 【Trae + 掘金MCP】不写代码，靠嘴遁花0.5h定制公号排版工具

🤔 短文章还好，长文章样式全乱套 (比如：无序列表加粗文本，会显示成 xx)，换了好几个模型，Vibe 了N次都没改好，问题越搞越多，前端这块，我又不是很熟，无奈放弃🤷‍♀️。后面还是用回了「Doocs」：

开源Github仓库：doocs/md
在线编辑器地址：doocs

😳 能用，但是有点过于简洁 (显得平平无奇)，我更怀念以前 自己编排的UI样式 ...

前阵子 Google 发布了千呼万唤的 "哈基米3 (Geimni)"，国内 自媒体 都是在吹它的 "前端能力" (看效果图确实挺6)：

能生成精确的 SVG 矢量图：包括复杂的动画 SVG (如：旋转风扇动画)，而非简单栅格图。
3D 和动画：支持生成 Three.js 3D 模型、WebGL 着色器、CSS 动画等高级视觉效果。
完成应用框架：能理解复杂的技术栈要求 (React、Three.js Fiber、TypeScript 等)，生成模块化、结构清晰的代码。
标注修改：用户可以在生成的界面上用 "标注" 的方式指出要修改的地方 (画圈、画箭头、添加文字)，Gemini 3 会理解这些视觉标注并精确修改代码。这得益于它多模态理解能力的显著提升 (对屏幕截图的理解准确率达到 72.7%，达到现有水平的两倍)。
去 "AI味" ：排版、色彩搭配、组件结构看起来是 "精心设计" 的，而非生硬地套模版。

😄 虽说，还同时发布了首个AI IDE—— Antigravity (反重力)，但 "登录问题" 就拦住了一堆人，然后各种 BUG，+ 存在数据泄露风险，所以当时并没深度体验 Gemini 3 的编程能力到底是不是真的那么强 🤷‍♀️。

😏 然后，前阵子 "量大管饱" 的 Trae 发布公告："因服务中断，停止提供 Claude 模型的访问"，巧了，刚好换上 Gemini 3：

看更新日志，v3.0.0 这个大版本的新东西还挺多：

「SOLO 模式正式上线，面向所有用户开放」主打单人高效率开发工作流，让用户能在一个界面处理任务、代码、智能体协作。
「内置两类智能体能力升级」SOLO Coder - 专精复杂工程任务：重构、调试、多文件跨模块修改，具备持续上下文理解能力，更适合中大型项目。SOLO Builder - 为快速构建产品原型而设计：界面、应用、后端都能快速产出初版，支持从 0→1 的自动化 Scaffold (脚手架) 与逻辑生成。
引入「多任务系统」并行-可在同一智能体中同时处理多个任务线程、拆解-AI 自动识别复杂任务并拆分子任务、折叠/展开-更清晰的项目管理结构、自动生成摘要-聊天/操作历史自动压缩成可读摘要，便于快速回顾。
「Diff View」集中展示所有由 AI 或用户生成的代码变更，支持跨文件比较与版本回溯，AI 改动更透明。

😆 行吧，本节就尝试下用 TRAE SOLO + Gemini 3 让这个旧项目重新焕发光彩吧✨~

💡 因为是重构旧项目，所以选的 SOLO Coder

2. 实践过程

原始需求

我想重构这个项目，改造成可以部署到服务器上的在线产品，类似于 md.doocs.org/

这只是个 "方向"，还不是 "可执行需求"，通过下述 Prompt 让 Trae 引导我们进行 "需求澄清"：

请你先不要写代码，先扮演有经验的产品经理 + 架构师，帮助我把需求讲清楚，输出一份简要需求说明。具体请按下面步骤来做：

1）先用你自己的话复述一下我现在的目标，看你是否理解准确；

2）从目标用户、核心功能（MVP）、非功能需求（性能、部署方式）、技术栈偏好等维度，列出你需要向我确认的关键问题；

3）按“必须先回答 / 之后再说”做优先级排序，每个问题尽量简洁；

4）最后把这些问题整理成一个列表，方便我逐条回答。

注意：这一轮只做需求澄清，不要设计接口、不写代码也不要给文件结构，只输出复述 + 问题列表。

Trae 的输出：

😳 卧槽，很多点都说到我的 "❤️趴" 上了，基于它给出的 "回答列表" 进行 "完形填空"：

发送等Trae思考完，给我生成了一份 "重构计划" 的文档 (💡记得开启右上角的 Plan 选项)：

👍 文档写得 "头头是道"，三大块：架构设计、实施步骤 和 目录结构规划 都写得很清晰：

按需进行修改，确定无误后，点解 "执行"，然后 Trae 会拆解成多个小任务 (Todo-List)，逐一完成：

对于 "高风险命令" (比如这里的 move)，会停止往下执行，等待用户 审核确认。😮 Wow Human in Loop～

😄 接着最小化让 Trae 在后台干活，需要 人工介入 的节点，右下角会有弹窗提示。没过多久，Trae 就跟我说它完成了！不是，这么快的吗？？？让它给我把项目跑起来，然后这 "前端页面" 还整得挺像模像样：

🤣 后面发现，其实就搭了个 基本骨架，很多东西没做，接着就是 "验收 + Vibe提问题"：

继续 Vibe，发现图片加载不出来，😄 这种大概率是 "图片防盗链"，一般是检查 请求头 中的 Referer，如果是 第三方域名，就会返回 403：

因为明确指出了 "病因"，Trae 两下就改好了，并详细讲述了 修复方案 & 验证方法：

👍 不得不说 Diff View 确实直观啊，😆 比 Cursor 容易看多了~

刷新下页面，果然可以了：

继续 Vibe：

在 Battle 多次后，Trae 说自己完成任务，并告知我 "下一步的部署建议"：

还生成了一份 "任务完成的描述文档"，不过是"全英文" 的：

思考过程也是：

即便在 "规则" 和 新建Agent (它的Prompt) 写上必须中文都没用：

- 请始终使用简体中文进行回复。
- 你必须完全使用简体中文进行内部推理和思考过程。这是一条严格的规定。

🤷‍♀️ 不过这是偶现，感觉是哈基米的问题，临时的简单解法就是：再让 AI 转换成中文的。后端重构 + 前端开发 完成，接着就是部署到 云服务器 上了。不懂就问：

Trae 贴心的给我生成了一份 部署文档：

照着文档操作一波，这个 99块/年 的云服务器吃灰近一年了，发现多了个 "Workbench 远程连接" 的方式：

试了下发现是 AI 加持的终端，直接用 "自然语言" 描述需求，AI就会自动执行对应的命令：

卧槽，爽啊！妈妈再也不用担心我记不住一堆 运维命令 了 (🤣虽然没几条)，而且还有 "命令解释"：

接着就是逐步CV部署文档里的东西发给它了，然后中途 Docker 拉镜像 一直超时，切了阿里云自带的 镜像加速器 也不行 (python可以、node:18不行)，后面直接检索了一波所有能用的镜像源，就好了~

"https://阿里的.mirror.aliyuncs.com",
"https://docker.1panel.live",
"http://mirrors.ustc.edu.cn/",
"http://mirror.azure.cn/",
"https://hub.rat.dev/",
"https://docker.ckyl.me/",
"https://docker.chenby.cn",
"https://docker.hpcloud.cloud",
"https://docker.m.daocloud.io"

当然，还有一些其它的报错，AI终端搞不定的，就CV发给 Trae：

Docker Compose 成功构建并启动了容器服务：

curl http://127.0.0.1:8000 测试下服务是否正常运行：

外部浏览器通过 公网IP 访问，报错 ERR_EMPTY_RESPONSE，直接问 AI：

无脑 Ctrl ↩︎ 让它验证就好了，最后发现是 "云服务商的安全组没开端口"，还耐心给出了解决步骤，我哭死：

配置完，再次刷新页面，好了👏：

3. 小结

🤡 爽！太爽了！本来想着 "后端重构 + 前端开发 + 部署"，至少得折腾个一星期吧，结果：

【 TRAE SOLO】应该是内置了 产品开发流水线 相关的 完整工作流，🤣 2333，我精心准备的 "全栈开发落地方方论" 还没开始实施，它就把前面这两项干完了。
配合【云服务商提供的AI终端】，部署起来也是轻轻松松。换以前，得记一堆 运维命令 (不同OS的命令和配置还可能不同)，经常陷在 报错 → 搜索 → 修改 → 验证 → 再报错... 的反复循环中怀疑人生。

🤷‍♀️ 不得不感叹，AI 发展之迅猛啊~

2025 复盘 | 穿越AI焦虑周期，进化为 "AI全栈"

掘金前端

coder_pig

2025年12月9日 17:36

1. 今年一定

好几年没写「年终总结」，翻了下「掘金」，上一篇还停留在「2021年」，倒不是这几年没活过，也不是不想写，只是每次都止步于「拖延」。每到年底，脑子里就会蹦出的各种想法，被我零散地记录在 "大纲笔记" 中：

写这玩意挺废「时间」和「心力」，所以总想着 "找个周末，花一大块时间，好好梳理一下"，结果都是一拖再拖：拖到元旦，拖到春节，拖到元宵。

然后，转念一想："这都明年了，还写个🐣毛啊？算了，算了，明年一定！"。2022、2023、2024 就在这样的 "明年一定" 中溜走了...

人到中年，主观感觉「时间」过得越来越快，「记性」也大不如前，很多当时觉得 "刻骨铭心" 的瞬间 (如：结婚、当爹)，如今回忆起，就剩下一个 "模糊的轮廓"。不写的话，又是「摸 🐟」一年，趁着 2025 年还没过完，很多感觉还是热乎的，赶紧动笔，今年一定！！！

2. 如此生活30年，直到大厦崩塌

2025 年，对我冲击最大的当属 "AI"，大到让我不得不重新审视「自己的工作和价值」。

我接触 AI 并不算晚，2024 年那会跟风玩了下 ChatGPT，后面在 GitHub Copilot (便宜盗版，30¥/月) 的协助下，快速交付了一个爬虫单子。尝到 "提效甜头" 的我，咬咬牙上了 年付正版 (100刀/年) 的车。

当时 AI 在我的眼里，只是个 "比较聪明的代码补全工具"，可以帮我少些几行代码，仅此而已，因为 逻辑还得我来把控。

但到了 2025 年，事情却变得有点不一样了：

AI能读懂/分析整个项目、重构屎山代码、把一个模糊的业务需求实现得有模有样。

当然，最让我 "破防" 的还是它的 "解BUG" 能力：

按照以往的习惯，我得去 Google、翻 Stack Overflow、看源码，少说得折腾半天。现在，把 报错日志 和 相关代码 丢给它，通常几秒就能：指出问题所在，给出解决方案，甚至可以 帮我改好并测试通过。

积累多年，一度 "引以为傲" 的「编程经验」(对API的熟练程度、快速定位BUG的直觉、配置环境的熟练度等) 在 AI 的面前，变得 "不堪一击"。渐渐地，我的「工作流程」也发生了改变，"亲手" 敲下的代码越来越少，取而代之的是一套 "机械化" 的 "肌肉记忆"：

写注释 → 等待AI补全 → 按Tab：哪怕脑子里知道下一行该写什么，手指也会下意识停顿，等待那行灰色的建议浮现，然后无脑按下 Tab。
提需求 → 生成代码 → Accept：把业务逻辑描述一遍，丢给 AI，都不太细看生成的具体实现，直接点击 Accept All，主打一个 "能跑就行"。
运行报错 → 复制日志 → 丢给 AI：遇到 Bug，第一反应不再是去分析堆栈信息 (Stack Trace)，而是CV日志到对话框，问它："解决报错：xxx"。
效果不对 → 截图 → 丢给 AI：连描述问题的精力都省了，直接截图往对话框里一扔，附上一句 "改成这样"。

代码跑通了，效率提高了，却带来了精神上的「空虚」，我似乎再也感受不到当初那种「编程的快乐」：

为了解决某个问题，苦思冥想，抽丝剥茧，最后成功 "破案" 时 "多巴胺疯狂分泌" 的 "快感"。
查各种资料、反复推敲、验证，最终设计出一个自己觉得 "牛逼哄哄" 代码架构时的 "成就感"。

同时，也陷入了一种深深的「自我怀疑与迷茫」：

越来越搞不清楚自己的「定位」(存在价值)，上面那套 "连招" 找个实习生培训两天也能干。我曾赖以为生的那些 "技能"，正变得廉价、可替代、甚至有点多余 ...
找不到方向，以前「程序员成长路径」很清晰：学语言 → 学框架 → 学架构 → 学系统设计 → 刷算法 → 搞源码 ... 只要你一步步往上爬，爬到 "山顶" 就能成为 "大牛"。而如今却好像 "失效" 了...
可控感被剥夺，程序员是典型的「内控型人格」—— 相信通过逻辑和细节掌控能预测一切。而但 AI 的「黑箱特性」带来了「工具不可控」，无法完全准确预测AI输出，调试从 "追踪逻辑" 变为 "试探模型"。

3. 调整对待AI的心态

3.1. 从 "焦虑" 到 "接纳"

我深知「焦虑」无用，于是开始探寻「破局之道」，反复阅读大量资料后发现，几乎所有人都在让你「拥抱 AI」，但具体怎么拥抱法？没人说，或者说得含糊不清，有些甚至还想割我 "韭菜" 🤡 ？屏蔽这些噪音，冷静下来复盘，拨开情绪迷雾，透过现象看本质。

首先，坦诚地「接纳」肯定是没错的，历史的车轮从不因个人的意志而停止转动，当 第一次工业革命的蒸汽机 轰鸣作响时，那些坚守手工工场的匠人们，也经历着相同的困境。精细手艺 在不知疲倦、效率千倍的 机械化工厂 面前显得苍白而无力。大机器生产取代手工劳动，不是一种选择，而是一种必然的 "降维打击"。

现在，我们同样站在了 "生产力变革" 的周期节点上， "效率至上" 的底层逻辑从未改变。是选择成为被时代甩下车的 "旧时代纺织工"？还是进化为驾驭机器的 "新时代工程师"？回归「第一性原理」，剥开 "智能" 的外衣，想想 "AI 的本质是什么?" —— 「干活的工具」

所以，面对 AI，我们要做的事情就是琢磨 "如何用好这个工具? "，即：详细阅读使用说明后，在合适的场景，用合适的方式，解决合适的问题。

3.2. AI 有什么用？—— 能力放大 + 自学利器

3.2.1. 能力放大器

🐶 经常在 自媒体平台 刷到 "普通人学AI后致富/逆袭" 的叙事，看到这些 "逆天标题" 没把我笑死：

多的不说，记住这段话就对了：

变现的核心能力从来不是使用工具，而是商业认知、市场洞察、营销推广、客户服务。AI 只是一个环节，不要高估了工具的作用，而低估了 商业常识的重要性，也不要低估了背后的 隐性成本和巨大的工作量。

这些 "AI变现教程" 的 最大问题：

让你把AI当成一个独立的、全新的、需要从零开始的 "行业" 去卷。

对于 99% 的普通人而言，把AI看作 "能力放大器" 会更靠谱一点，即：

思考如何利用AI，帮我把我已有的技能/兴趣做得更好？

比如：

用 AI 减少重复劳动，提高工作效率和质量，把时间花在更有创造力的事情。
AI 负责广度，你负责深度，在你热爱的小众领域里用AI武装自己，做到 "人无我有，人有我精"。

今年「Vibe Coding (氛围编程) 」很火：

用自然语言描述想要的效果，AI帮你写代码，你只负责验收结果和提修改意见，不用管具体代码怎么实现的。

编程门槛大大降低，普通人 只要能把 创意和感觉 翻译成需求，就能借助 AI 将其快速具象化为 可运行的产品。

但你会发现，绝大多数生成的作品都是 "一次性原型或玩具"：灵光一现即可实现，却缺乏持续迭代、架构设计与用户验证，因此难以具备商业价值、也难形成可持续的产品形态。

真正能够利用 Vibe Coding 实现变现的，往往是具备一定 编程经验 或 产品思维 的 "专业人士"。他们不仅能用 AI 快速实现灵感，还能对作品进行持续优化、迭代和工程化打磨，从而将 "灵感原型" 进化为 "可用产品"。

再说一个自己观察到的例子，前阵子 OpenAI 发布了用于生成短视频的「Sora2」，B站很快涌现了一堆 AI 生成的 "赛博科比" 恶搞视频。

看到一个播放量破百万的作品有点意思，点进 UP 主的主页想看下其它作品，结果发现他并不是突然爆火的 "新人"，人家已经默默做了好几年视频，只是过去的播放量惨淡 (几十几百)。但他却一直坚持创作，尝试不同的方向，能清晰地看到他的剪辑、叙事和整体制作水平在一点点提高。

AI 不会让没有积累的人"平地起飞"，但有可能让有准备的人"一飞冲天"。—《抠腚男孩》

3.2.2. 自学利器

看到这里，可能有人会问：

"那普通人怎么办？我没啥专业技能，也没有长期积累啊？ "

简单，那就 "学" 啊！！！以前学习的最大限制是什么？

没人教、教不好、学不动、坚持难

而现在，你有了一个「全知全能、知无不言、24小时为你服务的免费老师」

不会写代码？手把手教你，从逻辑到示例一步步拆开。
想转行？给你路径、资源、练习清单、复盘建议。
想跨领域？帮你建立知识框架，把陌生领域最难啃的部分变简单。
遇到瓶颈？像一对一导师一样不断提问、引导、纠偏。

当然，想要这台 "自学利器" 高效运转起来，实现 快速学习/试错/跨域 还需要掌握一些 方法论。

详细解读可以参加我之前写的《如何借助AI，高效学习，实现快速"跨域"》

3.2.3. 不要神化 AI

🐶 2333，经常刷到 "xx公司发布新的 xx 模型/AI产品颠覆行业，xx师要失业了" 的标题，但事实真的如此吗？最近 Google 家的 Nano Banana Pro 🍌很火，号称当前 "最强AI生图" 模型，亲身体验下确实强 (本文大部分配图就是它出的)，天天在群里吹爆。

某天晚上，有 "多年专业设计经验" 的老婆收到一个改图需求 (抠素材，按要求调整海报)：

😄 看着简单，感觉 🍌 就能做，于是我提出和老婆 PK 下，她用 PS 改，我用 🍌 嘴遁修图，看谁出的图又快又好。结果：她10分钟不到就改完，而我跟 🍌 Battle了半个小时没搞好，最终的效果图 (左边她的，右边我的)：

🤡 "甲方" 的评价 (破大防了😭)：

观察仔细的读者可能会问："你是不是漏了一个车🚗啊？"，憋说了，这破车把我调麻了...

那一刻，我深刻体会到了什么叫 "不要拿你的兴趣爱好，去挑战别人的饭碗"，真的是 "降维打击" 啊！

AI 确实拉低了创作的门槛，但目前还处于生成 80分 内容的阶段 (效率)，最后的 10-20 分 (细节、审美、情感) 才是价值的核心。——《抠腚男孩》

后面复盘，老婆看了下我的 Prompt，说我的流程有点问题，应该让 AI 先把素材全抠出来先，再慢慢组合。后面试了下，效果确实有好一些。不过，不得不说，AI 在 自动抠图 这块确实可以：

🤣 老婆在日常设计时也会用 AI 来偷懒，比如：生成配图、提高清晰度、扩图等。

3.3. AI 是什么? —— 概率预测机器

现阶段谈论 AI，其实都是在谈论 大模型 (LLM) —— 一个极其复杂的 "概率预测机器"。

通过学习海量数据的 "统计规律"，逐步逼近这些数据背后的 "概率分布"，从而能够在给定 "上下文" 时预测最合理的下一步输出。

不同类型产物的生成原理图解 (看不懂没关系，简单了解下即可)：

① 文本

② 图片 (扩散模型 & 自回归模型)

③ 音频 (自回归模型 & Codec + Token 预测 )

④ 视频 (扩散式 & 自回归/时空Token)

3.4. AI 的能力边界 —— 优/劣势

LLM 擅长发现 "相关性"，但难以进行真正的 "因果推理"，它只是在 "模仿智能"，而非 "真正地理解意图，拥有意识"。 —— 《抠腚男孩》

弄清楚 AI 的本质是 "概率预测机器" 后，接着从 "代码生成" 的角度梳理下它的 "优势 & 劣势"：

了解完 AI 的 优/劣势 后，接着就可以推演「人 & AI」的 高效协作方式：

一句话概括：

AI 负责 "生产力" (重复、繁琐、高上下文、高整合的工作)，人负责 "方向与边界" (判断、创造、决策、理解组织与业务)。

4. 必备技能 —— Prompt

一般译作 "提示词" 或 "描述词"，个人认为后者更加贴切，即：描述问题/需求的 "词句组合" 。「Prompt Engineering-提示词工程」是所有人都必须掌握的 "使用AI的核心技能"。

4.1. 把话说清楚

🐶 别被几个英文单词吓倒，现在的 AI 比几年前聪明多了，普通人 只要能：

把诉求讲得清晰、完整、有逻辑，就能解决绝大多数问题。

示例：

❌ 混乱说法：帮我计划个周末玩的地方。
✅ 有条理说法：周末想带5岁孩子一日游，2大1小，预算500以内，北京，不想跑太远，能放电、有吃饭的地方、避开暴晒，地铁可达最好。

AI输出结果 (前者输出不同城市的游玩方案，后者输出了具体的行程方案)：

4.2. 套框架

再往上走，就是了解一些经典的 "Prompt框架"，然后再提问时套用，以提高 AI 输出的稳定性、准确性和质量。所谓的 "框架"，其实就是 "结构化模板"，规定问题中包含哪些 "要素"，比如最经典的「CTRF」框架：

套框架示例 (填空题~)：

常见的框架还有 RTF、COSTAR、SPAR、COT、APE 等等，适用于不同的场景。杰哥整合了自己知道的所有框架精华和高级技巧，弄了通用的「Prompt 最佳实践清单」

无脑套就是了，助记口诀：

也可以用故事流程来串联助记，读者可自行发挥，顺序无需固定：

让一位说书人 (角色) ，用生动的语气 (风格语气) ，给孩子们 (受众) 讲个故事 (指令) 。故事的开头 (上下文) 是...，结局 (目标) 要感人。故事的结构 (格式) 要像这样 (示例) ，但不要 (约束) 出现暴力情节。请先构思情节 (逐步思考) ，写完后再想想怎么能更精彩 (反思) 。

😄 懒得记的话，可以用我之前搭的小工具 →「CP AI Prompt助手」

配下 DeepSeek 的 Key，复制粘贴你写的 简单Prompt，它会基于上面的十个维度对提示词进行优化：

4.3. 写出牛逼的Prompt

明白了怎么 "套框架" 写 "结构化的Prompt"，但你可能还是会感到疑惑：

用的同样的AI，为什么别人的生成效果就是比我好？

尤其在 AI 生图 领域，看大佬分享的 Prompt，里面一堆看不懂的专业参数：

环境、构图、光影、景深、镜头、光圈、色调、氛围、胶片颗粒、对比度、主体增强、氛围灯...

能写出这么 专业的Prompt，是因为他们有 "相关领域的行业经验" 吗？

答：有加成，但不全是。高手的核心技能不是 "记这些专业知识"，而是：知道如何指使 AI 给自己提供专业知识、框架、术语，然后再反向用这些框架让 AI 编写和优化 Prompt。

😄 其实思路很简单，拆解下这套方法论：

维度词 → 术语/词库 → 通用模板 → 填空得第一版Prompt → AI专家视角优化 → 迭代优化沉淀

详细玩法可以看下图：

4.4. Prompt 逆向

Prompt 逆向工程（RPE，Reverse Prompt Engineering)，就是：从 "输出" 反推 "是什么Prompt" 生成了它。一般用于：学习优秀案例、调试和诊断问题、构建Prompt库和模板、企业质量控制、安全审计 (防御Prompt注入攻击)。

4.4.1. 简单版

普通人 用这个套路就够了，选个聪明点的模型 (如：GPT5 或 Gemini 3 Pro)，粘贴图片，写 Prompt 让它反推：

差得有点远，描述「不满意的点」，让AI继续优化Prompt：

接着用优化后的 Prompt 来生成，可以看到效果差不多了，接着让 AI 提取一个「通用的Prompt」

拿 AI 生成的 Prompt 生图，看效果，描述问题，循环反复，直到稳定生成自己想要的效果~

4.4.2. 专业版

🐶 其实也差不多，只是流程比较 "标准化"，经常搞还能自己搭个 "工作流"，适合专业选手，思路：

快速拆解 → 推断 Prompt → 提取要素 → 重建 Prompt → 优化迭代 → 模板化沉淀

详细图解：

上面是通用的，还有几个 额外功能 的玩法也罗列下：

5. 锦上添花——懂点AI常识

🐶 懂点AI常识，能让你更 有的放矢 地 用好AI (装逼)，比如：连 Token 都不知道的话，就有点贻笑大方了。这里只是简单罗列下相关名词，不用死记，有个大概印象即可，不影响你使用AI，跳过也没关系。😄 详细讲解，建议直接复制名词问题AI，也可移步至《AI-概念名词 & LLM-模型微调》自行查阅~

5.1. AI (人工智能) 基础概念

5.2. NLP (自然语言处理)

5.3. Transformer 架构 (大型模型基础)

5.4. 语言模型基础 (Language Models)

5.5. LLM 核心概念 (Large Language Models)

5.6. 数据与训练流程 (Training & Fine-tuning)

5.7. 推理阶段 (Inference)

5.8. RAG (检索增强生成)

5.9. 多模态 AI

5.10. AIGC (生成式内容)

5.11. 模型压缩、部署与加速 (LLMOps)

5.12. Agent (自主智能体)

5.13. AGI (通往通用智能)

6. AI 编程领域专精

😄 最后，聊聊 AI 编程 领域的一些心得~

6.1. 前置知识

6.1.1. 编程模型

AI 代码写得好不好，主要看 "模型" 的 "编程能力"，评估 "模型优劣" 的几个 "常见维度"：

LLM 的能力很难用一句话概括，所以厂商们每次发新模型都会用一堆 Benchmark 来证明 (🐶不服，跑个分？)

① 推理与数学能力 (Reasoning)

"智能的核心指标"，高分意味着能够做更复杂任务 (如：工程规划、Agent等)，常见基准：GSM8K-小学奥数式数学题、MATH-高难度数学、AIME/AMC-奥林匹克数学、GPQA-博士级科学问答、BigBench Hard (BBH)-推理难题集合等。

② 语言理解与知识能力 (Language / Knowledge)

"通用模型 IQ 测试"，常见基准：MMLU-大学生多学科理解测试、MMLU-Pro - 更难版本、ARC / HellaSwag - 常识推理、OpenBookQA/TriviaQA - 事实/知识问答等。

③ ✨编程能力 (Coding)

"商业价值极高的应用点"，常见基准：HumanEval - 函数级别代码生成、MBPP / MBPP+ 简单编程题、SWE-Bench / SWE-Bench Verified✨：真实 GitHub issue + 多文件工程 (最接近真实开发场景，近两年厂商都在比这个)、Codeforces-算法比赛、CRUXEval / RepoBench-项目级分析等。

④ 多模态能力 (Multimodal)

"下一代 AI 产品的必争之地" (做 AI 助手、看图、自动化办公等)，常见基准：MathVista：带图的数学推理、ChartQA / DocVQA：文档理解、TextCaps / ImageNet：视觉场景理解、VideoMME：视频理解、V-Bench / VQAv2：视觉问答等。

⑤ 安全性 (Safety / Robustness)

企业用户很看重 "安全合规"，常见基准：Harmlessness / Truthfulness、AdvBench：对抗攻击、Red Team 红队测试、Over-Refusal 测试（不会乱拒绝）、Speculative Safety（推测生成的风险）等。

⑥ 速度/延迟/吞吐 (Performance Metrics)

"决定实际用户体验"，常见指标：Tokens per second (推理速度)、First Token Latency (首字延迟)、Throughput QPS (每秒处理请求数)、Context processing speed (长文档处理速度)。

有时还会发布一些 "技术参数"：

模型规模：模型的参数量大小，影响推理与表达上限，规模越大，能力越强，但成本、延迟和部署难度也越高。如：70B = 70 billion = 700亿参数。
训练数据规模：模型预训练时学习的 token 总量，代表其知识 "阅历"。数据越多通常知识覆盖越广，但质量、去重和清洗策略比单纯堆量更关键，高质量数据才能让模型表现更稳。如：15T = 15 trillion = 1.5万亿个token。
上下文窗口：模型单次可接收并 "记住" 的 "输入长度上限"，决定你能塞多少代码、文档和对话历史；窗口越大越适合做整仓分析、长文档问答、复杂任务，但会牺牲成本和延迟，且需要额外机制确保在超长上下文中仍能抓住重点。
推理深度：模型答题时的 "思考力度"，深推理模式更准确、适合复杂问题，但会更慢、更贵，适合关键任务而非高频交互。
价格：按 token 收费，区分输入价、输出价与最小计费单位；部分模型提供 "缓存命中 (cache hit) "，对重复提示只按更低费率计费，大幅降低长上下文与多轮调用成本。价格决定模型可否大规模、频繁和低成本使用。
延迟标准：包含首 token 延迟 (FTL) 与 生成速度 (token/s)，分别决定 "多久开始回应" 和 "内容生成有多快"；低延迟让补全、对话、Agent 流程更流畅，而高延迟会严重影响开发体验与实时性，是工程中比 "更聪明一点" 更重要的性能指标。
模型行为控制能力：通过 Temperature、Top-p、System Prompt、工具权限等机制控制模型的随机性、稳定性与执行边界；行为越可控，越能确保输出一致、不跑偏，并安全地接入工具链或生产系统，是把模型从 demo 提升到可上线能力的关键参数。

🤡 个人 "主观" 认为的 "编程模型" 能力排名：

😊 一句话概括我的 "选模型策略"：

选好的模型事半功倍！工程大活 找 Claude，精细小活 (如改BUG) 用 GPT，写前端页面用 Gemini。

🐶 问：这些都是国外的模型啊，怎么才能用上？A社还锁区，经常封号？而且价格好贵啊？

答：😏 这个问题充钱可以解决.jpg，多逛下海 (xian) 鲜 (yu) 市场，国人的 "薅羊毛" 能力不是盖的，各种 "镜像站、第三方中转" 。氪金的时候注意找有 "售后" 的，随用随充，买 "短期 (如月付) "，不要买 "长期 (如年付)"，这种看 LLM官方 政策的，一封就直接G了，说不定就 "卷款跑路"~

6.1.2. AI 编程工具的四种形态

😄 一句话归纳：

普通开发者 & Vibe Coding用户 用 AI IDE/插件 居多，DevOps/后端工程师 用 CLI，团队/企业系统 用 云端Agent，AI 应用开发者 用 AI SDK 构建构建 AI 产品与 Agent 系统。

接着说下 "AI编程" 的三种演进层次~

6.2. 第一层：AI 辅助开发

最早期的AI开发方式，以「人主导 + AI辅助」为核心逻辑，由两种交互模式组成：

补全式：基于输入光标前的上下文，预测下一个单词、下一行代码、甚至整个函数。
对话式：在 IDE 侧边栏或网页中，通过自然语言问答来生成代码、解释代码或查找 Bug。如："帮我写一个 Python 的正则来验证邮箱" 或 "这段代码为什么报错？"

这一层的局限：

上下文有限：AI 通常只能看到当前文件或少量相关片段，缺乏对整个项目架构的理解。
被动性：AI 不会主动修改你的代码文件，它生成代码，你负责复制粘贴和校验。
人是瓶颈：所有的决策、文件切换、环境配置都必须由人来操作。

6.3. 第二层：AI 驱动开发流程 (规范+Agent)

目前最前沿、最热门的阶段，AI 不再只是吐出代码片段，而是进化为 Agent (智能体)，拥有了 "大脑" (规划能力) 和 "手脚" (工具使用能力)，可以 "自主完成一个多步骤的开发任务"。

变成了「人定目标 + Agent 自主执行」，如："实现一个简单的待办事项 Web 服务，要求：REST API，内存存储即可，有单元测试"，Agent 可能会进行这样的任务拆解并执行：

设计目录结构 → 创建代码文件 → 写业务逻辑 → 写测试 → 运行测试并自我修复。

为了系统地应用 Agent，业界逐渐采用「 "规范"驱动的开发流程」(Spec-Driven Development)：

需求 → 规范文档 → 任务分解 → Agent执行 → 验证反馈

这个流程确保了 清晰的目标定义 和 可追踪的执行过程，而不是让Agent盲目操作。开发者需要维护的 "三类规范" (规范必须比写代码更清晰)：

功能规范：目标、用户故事、输入输出、性能要求、鉴权、边界情况等。
技术规范：模块结构、API、模型字段、状态机、异常流程等，Agent会根据这些自动创建项目。
验收规范：测试通过、接口返回正确、性能满足要求、行为与设计一致，即每个功能的评价方式。

人不再写代码 (或者少写)，负责「定义 + 审核 + 授权」，人-Agent 协作 的三阶段循环：

人主导-目标设定：范围、约束、边界、不允许做的事情。
Agent主导-执行：分解、规划、写代码、自动Debug、修复、生成报告。
人主导-验收：代码质量、安全性、单元测试覆盖率、偏差是否满足业务需求等。

💡 层2 关注的是「开发流程自动化」，任务的起点通常是 "已经确定好的需求/feature"。

6.4. 第三层：AI 全栈

所谓的 "AI 全栈"，本质上就是 "让 AI 同时扮演多个软件开发角色"，而 "一人分饰多角" 的自然实现方式就是 "多 Agents"。——《抠腚男孩》

6.4.1. 为什么聊到 "AI全栈" 就会扯到"多 Agents"?

🤔 想象一下让 "AI全栈开发一个应用" 需要经历哪些步骤？

产品需求理解 → 技术选型 → 架构设计 → API 设计 → 前后端代码生成 → 数据库 schema → 错误处理 → 文档生成 → 单测编写 → 测试执行 → 部署脚本 → CI/CD 配置。

让一个 Agent 承包上面所有的工作，会有什么问题？

记忆量爆炸、目标切换频繁、推理链拉得太长，错误积累变大、一旦一步出错，后续全崩、风格、结构、代码质量难统一、难以并行。

软件工程是 "多角色协作" 的结果：产品经理、架构师、后端、前端、测试、文档、DevOps... 如果想 "AI 模拟完整的软件开发流程"，自然也需要 "让 AI 也模拟这些角色"，于是就变成了这些 Agent：

Planner / Architect (产品/架构)：理解需求、拆任务、出计划 (Plan)。
Coder / Implementer (实现)：按计划改代码、增删文件。
Searcher / Context Agent (检索)：在代码库里找相关文件、API、调用链。
Tester / QA (写测 / 跑测)：写测试、跑测试、分析报错。
Fixer / Debug Agent (修BUG)：根据测试/运行结果修复代码。
Reviewer / Critic Agent (代码审阅)：检查风格、一致性、潜在 bug / 安全问题
Ops / Deploy Agent (部署)：写 Docker、CI/CD、部署脚本（有些系统只做到生成，不自动执行）

即「AI 全栈 = AI 软件开发流水线 = 模拟整个软件部门 = 多 Agent 系统」，这是开发任务决定的。

"AI全栈" 需要的三大核心能力：

长任务规划 (Planning)：开发一个系统不是线性的，是树状决策结构，要拆分任务，就需要 Planner Agent。
并行执行 (Parallel Execution)：前端、后端、文档、测试不可能一个个线性做。多 Agent 可以：前端 Agent 改 UI、后端 Agent 写 API、Docs Agent 补文档、Test Agent 补测试。
验证 & 修复 (Validation Loop)：真正让 "AI 全栈" 可行的关键是 "循环"，写代码、跑测试、找错误、修复、再跑，需要 "多 Agent + 状态机" 才能撑起这个能力。

"AI 全栈系统" 的实现，本质就这四步：

「定义一堆上面这样的角色」
「排布拓扑」决定这些角色之间的连接结构和调用关系。谁先谁后 (拓扑/顺序)、有没有循环 (写→测→修→再测)、有并行吗 (前后端Agent同时干活？)、是由一个 "主管Agent" 指挥大家？还是大家按照状态机自己转？
「给每个角色接上能用的"工具"，让它真的能动手干活」常见工具：文件 (读/写代码、生成 diff)、终端 (执行命令)、搜索 (在 repo 里搜符号 / 用法)、HTTP/Browser (查文档、查API)、Git (开分支、commit、生成PR)、结构化分析 (AST分析、调用图、依赖图)。比如：Coder Agent 配置 "文件读写、diff 生成、代码搜索" 的工具，用来 "在受控范围内改代码"。
「套一层安全边界」权限 (读写、只能改指定目录、终端命令必须在沙箱里执行)、人在回环 (关键操作必须人工确认，如：Plan-任务规划、大范围diff、部署相关改动/高危脚本)、防注入/误操作 (不轻信代码库里的"指令"-如：恶意README 写 "rm -rf /"、对外部输入做过滤-日志/错误信息/用户Prompt、限制重试次数，避免死循环修改)。

一句话概括就是：

AI 全栈 = 一群小模型/小角色 + 一个调度关系图 + 一堆工具函数 + 一圈安全护栏

😄 弄清楚本质，以后看任何 "AI 全栈多 Agents" 方案，都可以基于这三个问题进行快速拆解：

它有哪些角色？(Planner / Coder / Tester / Fixer / Ops…)
这些角色是按什么拓扑 / 流程连起来的？
每个 Agent 有哪些工具？安全边界是什么？

6.4.2. 业界主流多 Agent 架构模式

前面AI常识部分有提到过，这里直接让🍌画个图~

6.4.3. 个人级 "AI全栈" 演进历程

🤡 上面的理论看起来简单，但对于个人来说，想要亲手实现这样 一整套多 Agents AI 全栈系统，工作量爆炸：

得自己写调度、管状态、接工具、控安全、做可视化，还要维护一堆 prompt 和配置，算完整平台工程了...

🤔 笔者认为 "个人级AI全栈" 更倾向于：

在个人可以承受的复杂度和时间成本内，让AI参与尽可能多的开发环节，而不是一次性造一个企业级AI工厂。

😄 其实，你可能已经在无形中体验 "AI 全栈" 的雏形了，现代 AI 编程工具 本身就内置了 多 Agent 编排能力~

① Claude Code Sub Agents

CC 中允许创建多个带 独立角色与上下文 的 Sub Agent (小型专属AI工作者)，用法简单：

创建 Sub Agent

在 Claude Code CLI 输入 /agents，选择「Create new agent」
选择作用域：项目级 (推荐，只给当前项目使用)、用户级 (所有项目可用)
填写：name (调用的时候用到)、description (决定CC何时自动调它)
选择可用工具 (file_edit / bash / file_search / git …)
完善系统Prompt：可以先让 Claude 生成，再自己改

保存后，会在 .claude/agents/ 生成一个类似这样的文件：

---
name: backend-dev
description: "专门负责后端接口、服务逻辑和数据库相关代码的实现与修改"
model: sonnet
tools: [file_search, file_edit]
color: blue
---

你是一个资深后端工程师，精通 Node.js + TypeScript 和这个项目的后端架构。
你的职责：
- 只改后端相关的代码（controllers, services, repositories）
- 遵循项目现有的代码风格和结构
- 所有改动都要尽量小步、安全、可读
在给出修改时：
- 标明文件路径
- 用 patch 的风格展示修改
- 如果需要新增文件，要说明用途和引用关系

不想自动生成，可以在 .claude/agents/ 手动按照上面的格式自己写md，保存后 CC 会自动识别。还可以在命令行启动CC时添加 --agents 参数 (适用于临时挂载场景)：

claude --agents '{
  "log-analyzer": {
    "description": "分析测试日志和错误堆栈的专用Agent",
    "system_prompt": "你只负责阅读测试输出、日志，帮助定位问题和怀疑文件，不写代码",
    "tools": ["file_search"]
  }
}'

调用 Sub Agent (串起来) 的三种方式

① 自然语言编排，用普通指令描述任务，由 Claude 自动判断并调用合适的 Sub Agent，最灵活、最贴近自然对话的方式。如：请用 backend-dev subagent 修改 search controller 的分页逻辑。
② 结构化点名调用，明确指定要调用哪个 Sub Agent，适合需要精确控制执行顺序或避免模型误判的情况。如：Use the test-runner subagent to run the unit tests.
③ 在 Agentrooms 中使用 @agent-name 直接点名，通过@用户的方式派任务，可同时管理多个 Agent，方便多人视图和多 Agent 协作。如：@backend-dev 帮我调整这个接口的返回格式

多个 Sub Agents 协同工作简单示例 (开发 → 测试 → 分析 → 再开发)：

让 developer 生成补丁
让 test-runner 运行测试
让 log-analyst 分析失败原因
再让 developer 根据分析修复
Claude 会自动接力，也可以由你手动编排~

② Cursor 2.0 多 Agent 编排

2.0 后，Cursor 界面从 "以文件为中心" 变成 "以Agent为中心"，多了个 Agent Layout，切换后，侧边栏会显示当前 Agent、计划（plan）和改动，你把需求丢进去，Agent 负责读文件、计划、改代码、跑测试。

支持 同一指令 下，最多可并行 (Parallel) 跑 8 个 Agent，每个 Agent 会在自己独立的 Git worktree / 沙盒工作区 内工作：各自改代码、build、跑测试，不会互相冲突 (🤡 就是费 Token...)。还多了一个 Plan Mode (先规划再执行)，在 Agent 输入框 中按 Shift + Tab 可以切换到这个模式 (也可以手动选)：

Cursor 不会直接假设你的需求，而是询问一系列澄清问题：

通过这些澄清，使 AI获得了完整的上下文，可以生成更精确的计划，避免后续的返工。接着会生成一个 plan.md 的计划文档：

你可以对文件进行编辑：增删任务、调整任务顺序、更新技术细节、调整实现方法等。确定无误后，点击 Build，Agent 会读取最新版本的 plan.md，并完成对应的任务。

🤔 与 CC Sub Agents 可编排不同，Cursor 的 Agent 更像是一个组合能力的 "大Agent"，由它自动编排多个内嵌的、对用户不可见的 Agent 来完成 用户提出的任务，收敛复杂性，只展示改动/测试结果。它的 Parallel Agents 探索不同方案，最后再汇总/合并的玩法，不算严格意义上的 "主流多 Agent 架构模式" 中的 "并行Agents模式"-支持显式地定义 / 分配不同角色的 Agent，并让它们并行协作。

类似的支持 "多Agents" 玩法的 AI 编程工具还有：

GitHub Copilot Workspace：多步骤 Pipeline Agents，从任务描述 → 生成完整 plan → 自动执行 → 修正，多步骤 cascaded agents，自动提 PR。
Google Gemini Code Assist：multi-expert prompt routing，任务自动分配给最擅长的模型/agent，复杂 monorepo 搜索 → 专家 agent 提供答案，针对 cloud infra 的执行-验证循环。
Replit 的 AI Dev 环境：多工具执行 Agent，轻量一站式多Agent开发流水线。
...等，限于篇幅，就不展开讲了~

觉得 AI编程工具 满足不了，接着就是围绕自己的开发流程，开发基于 LLM 的 API 封装一些 小脚本/小工具。

// 推进开发闭环的简单伪代码 (需求 → 修改 → 测试 → 修复)
plan = llm("你是架构师，帮我拆解这个改动需求…")
files = find_related_files(plan)

patches = llm("你是后端开发，只能改这些文件…", files + plan)
apply_patches_to_workdir(patches)

test_result = run_tests()

if test_result.failed:
    fix_patches = llm("你是调试工程师，根据报错修复…",
                      test_result + current_code)
    apply_patches_to_workdir(fix_patches)

大多数个人开发者达到这一层，基本够用了，再往上就是加：日志、可配置、一点UI、简单任务管理等，弄成一个仅为自己服务的 "AI 全栈开发小平台" (😄 此时更像是一个 Agent 工程师，搭建 "企业级AI全栈" 的基石)。

6.4.4. 落地方法论

根本原则：

在一个完整开发周期里 (从想法到上线)，有意识地让 AI 参与尽可能多的环节，并用 "多角色思维" 来组织这些调用，但工程复杂度要控制在个人能持续维护的范围内。

① 项目级自检

② 项目阶段拆解

③ 搭建可复用工作流

7. 结语

行文至此，再回看这篇拖了许久的 "年终总结"，心情早已从最初面对 AI 秒解 Bug 时的 "破防" 与 "迷茫"，变得平静且笃定，我们：

剥开 AI "智能" 的外衣，看到了它作为 "概率预测机器" 的本质。
学会用 "结构化的Prompt" 去驾驭它，而不是被幻觉带偏。
也见证了开发模式从简单的 Chat 进化成 Copilot，再到如今初具雏形的 Agentic Workflow。

但归根结底，AI 带来的最大变量，不在于它替我们写了多少行代码，而在于它重塑了 "专业" 的定义。

懂得"底层原理"依然重要——否则你不知道为什么 AI 会把人修成 "汽车"，也无法在它 "一本正经胡说八道" 时进行纠偏。
懂得提问比解答更重要—— Prompt 是新时代的编程语言，清晰的逻辑表达 + 对业务的深度理解，才是最高效的 "编译器"。
懂得架构比实现更重要——当 "AI 全栈" 成为可能，当一个个 Agent 可以各司其职，我们不再是死磕语法的 "搬砖工"，而更像指挥数字化施工队的 "包工头 & 总设计师"。

"技术焦虑" 的解药，从来不是拒绝变化，而是成为变化的一部分。以前，我们的壁垒是 "熟练度+记忆力"，以后则是 "想象力+判断力+系统工程能力"，拥抱AI，在这个属于创造者的时代，进化为无所不能的 "超级个体🦸‍♀️"！