阅读视图

发现新文章，点击刷新页面。

搭建一个云端Skills系统，随时随地记录TikTok爆款

掘金 iOS

饼干哥哥

2026年4月1日 16:38

最近 Claude Skills 很火。

但我观察了一圈，发现大家都在陷入一种“开发者的自嗨”。

绝大多数 Skills 的应用场景都被死死锁在 IDE 里，锁在开发者的电脑前。

这叫开发提效，不叫业务提效。

真正的业务发生在移动端，发生在你通勤、吃饭、甚至躺在床上刷 TikTok 的时候。

如果你的 AI 能力必须打开电脑、输入命令行才能调用，那它的时空效率就是零。

于是我抛弃本地的 Claude Code，基于 OpenHands 做了一套云端 Skills 系统。

效果极其简单粗暴：

我在刷 TikTok，看到一个爆款视频，点击复制链接，敲击 iPhone 背面三下。

wxv_4355007050494509070

20 秒后，我的飞书多维表格里自动新增了一行数据。

这行数据包含了：这个视频的无水印文件、Gemini 拆解的镜头语言分析、爆款原因推导，以及一套可直接复用的 AI 视频生成提示词。

全过程我不需要打开电脑，不需要切换 APP，不需要等待。

这就是我今天要聊的：如何用 OpenHands + Skills + iOS 快捷指令，构建一套真正落地的业务自动化系统。

01 为什么 Claude Code 在业务侧是伪需求

先厘清两个概念：OpenHands 和 Claude Code。

Claude Code 是 Anthropic 官方推出的命令行工具，它是一个嵌入在你本地终端里的结对程序员。它的 Skills 本质是上下文记忆和本地工具接口。

它的优势是懂你的代码规范，能直接改你电脑里的文件。

但它有一个对于业务场景的致命弱点：它必须依附于你的会话，你不在，它就不动。

它是一个副驾驶（Copilot）。

而 OpenHands（前身 OpenDevin）是一个开源的、自主的 AI 软件工程师。它运行在 Docker 容器里，是一个独立的服务端 Agent。

openhands.dev/

它是一个可以被封装成 API 服务的数字员工。

我看重 OpenHands 的核心理由只有一个：它可以 24 小时在线，并且可以通过 API 远程唤醒。

我做的这个 TikTok 分析系统，本质就是把 OpenHands 部署在服务器上，通过 FastAPI 暴露接口。

Claude Code 是给你用的工具；OpenHands 是你雇佣的、随时待命的员工。

🐵

小提示：FastAPI 的服务地址后加/docs就是文档了

02 业务视角：从刷视频到「数据入库」的闭环

对于做出海营销和短视频矩阵的朋友，拆解爆款是每天的必修课。

传统的流程极其反人类：

1. 手机刷到视频，点收藏。
2. 晚上回家打开电脑，把链接导出来。
3. 找第三方工具去水印下载。
4. 把视频传给 Gemini 分析。
5. 人工把分析结果复制粘贴到 Excel 或飞书。

这个链路太长，断点太多。任何需要延迟满足的流程，最终都会变成不了了之。

我的远程 Skills 方案，把这个流程压缩到了极致。

整个逻辑是这样的：

用户端（前端）

利用 iOS 自带的快捷指令 + 背部轻点功能。

动作：获取剪贴板内容（TikTok 链接）。
触发：发送 HTTP POST 请求给我的服务器。
反馈：手机震动一下，表示任务已接收。

服务端（后端）

OpenHands 接收到请求后，自主执行以下 Skills：

Playwright Skill：

启动无头浏览器。这里有一个技术难点，TikTok 的反爬虫机制非常严格。如果用普通的 request 请求，成功率几乎为零。OpenHands 调用 Playwright 模拟真实浏览器行为，绕过 blob 协议，抓取真实的 MP4 视频流。这种方式的下载成功率稳定在 70%-80%

Gemini Skill：

视频下载后，调用Gemini 2.5 Flash，快且便宜。它不只是看，它是理解。它可以识别拍摄角度（俯拍/特写）、运镜方式（推拉摇移）、BGM 节奏点、色彩心理学。

Feishu Skill：

将清洗好的结构化数据（JSON），通过 API 写入飞书多维表格。

结果：

当你刷完半小时视频，打开飞书，几十个爆款视频的深度分析报告已经整整齐齐躺在那里了。

这才是 AI 赋能业务的本质：隐形化。

Openhands 的 Skills 文档：

docs.openhands.dev/sdk/guides/…

03 举一反三：跨境电商的远程 Skills 玩法

这套架构的核心逻辑是：移动端触发 -> 服务端 API -> OpenHands 执行复杂 Skills -> 结果回传。

这个逻辑在出海业务里有无限的延展性。

我给几个具体的场景，你们可以拿去直接落地。

场景一：竞品独立站监控

动作：在手机浏览器看到竞品的 Shopify 店铺，复制链接，触发 Shortcut。
Skills：OpenHands 调起爬虫 Skill 扫描该站点的新品上架情况、价格策略，并调用 SEO Skill 分析其关键词布局。
产出：一份竞品分析简报直接推送到你的 Slack 或钉钉。

场景二：亚马逊差评自动预警与回复草稿

动作：系统监控到差评（自动触发，无需人工）。
Skills：OpenHands 读取差评内容，结合历史客服知识库 Skill，分析用户情绪，并模仿金牌客服的语气撰写 3 个版本的回复邮件。
产出：草稿进入审核流，你只需要在手机上点批准。

场景三：广告素材批量生产

动作：上传一张产品图到指定文件夹。
Skills：OpenHands 识别产品特征，调用 Midjourney 或 Runway 的 API，结合当下的流行趋势 Skill，自动生成 10 种不同风格的广告背景图。
产出：素材自动同步到 Google Drive 供投放团队筛选。

04 为什么非要用 Agent Skills？写个 Python 脚本不行吗？

这是很多技术出身的朋友最容易陷入的误区。

你这个功能，我写个 Python 脚本 + 定时任务也能跑，为什么要搞这么复杂的 OpenHands Skills？

因为业务逻辑是流动的，而脚本是僵死的。

如果你写死了一个 Python 脚本：

当 TikTok 的前端代码更新了 class 名，脚本报错，你得去修。
当飞书的 API 接口变动，脚本报错，你得去修。
当 Gemini 的模型参数调整，脚本报错，你得去修。

但在 OpenHands Skills 的架构下，我们定义的不是步骤，而是目标。

在我的 Skill 定义里，我告诉 OpenHands：你的任务是下载这个页面上的视频，如果常规方法失败，尝试模拟用户滚动；如果还失败，检查是否有验证码并尝试通过。

OpenHands 作为一个 Agent，它具备自主决策和自我修复的能力。

它发现 TikTok 改了页面结构？它会尝试用视觉识别去定位播放按钮。
它发现 API 报错？它会自主查阅文档或尝试备用节点。

在跨境出海这种平台规则朝令夕改的环境下，维护脚本的成本极高。

我们需要的是一个能够理解意图并自主寻找路径的智能体。

05 思路打开，Agentic Skills 的高级玩法

文章到这里，这套远程 Skills 系统的雏形已经搭建完毕。

但如果你觉得这就结束了，那你就小看了 Agentic Skills 的天花板。

我们现在的架构是“一个请求触发一个 Skill”，但这只是冰山一角。真正的威力在于 Multi-Skill Orchestration（多技能编排）。

1. Skill Chain（技能链）与递归调用

OpenHands 的 Skill 本质是可执行的逻辑单元。我们可以像写代码一样，让 Skill A 去调用 Skill B。

比如定义一个 Base-Skill：只负责做基础的数据清洗。
再定义一个 Pro-Skill：先调用 Base-Skill 处理数据，再把结果传给 Analysis-Skill，最后调用 Report-Skill 生成报告。

你可以构建一个自我迭代的 Agent。让它先写一段代码（Coding Skill），然后自己运行测试（Testing Skill），如果报错，递归调用 Coding Skill 进行修复，直到测试通过。

混合云架构（Hybrid Agent Architecture）

OpenHands 运行在 Docker 里，这意味着它可以部署在任何地方。

私有化部署：对于涉及公司财务、用户隐私的数据，你可以把 OpenHands 部署在公司内网服务器上。
公有云调用：对于需要访问外网（如 TikTok 下载、竞品分析）的任务，部署在 AWS 或 Vercel 上。

这样，通过 API 网关，你可以指挥内网的 Agent 去调用外网的 Agent，实现数据在安全域和互联网域之间的智能流转。

“人机回环”的异步交互

谁说 API 只有“请求-响应”这一种模式？在我的系统中，有些复杂任务（如竞品深度调研）可能需要运行 30 分钟。

流程设计：OpenHands 接收任务 -> 立即返回 TaskID -> 后台异步执行。
关键点：当 Agent 遇到无法决策的卡点（例如：这个验证码我解不开，或者这个竞品网站有两套价格体系，取哪套？），它可以主动通过飞书/Slack 给你发消息请求确认。

你点击确认后，Agent 继续执行。这才是真正的人机协作：AI 处理海量冗余信息，人类只在关键节点做决策。

在这个体系下，Skills 不再是静态的脚本，而是可生长、可组合的原子能力。

未来，你的个人服务器里可能运行着上百个这样的 Skills。它们是一群田螺姑娘，在你睡觉的时候，帮你监控市场、回复邮件、整理知识、优化代码。

而你，只需要握着手机，轻轻敲两下背部，就像魔法师挥动了魔杖。

这，才是 Agent 时代的真正玩法。

我用n8n+AI记忆系统 MemOS，给SHEIN 搭了个销售Agent

掘金 iOS

饼干哥哥

2026年4月1日 16:08

2025 做了很多场线下AI 跨境电商的沙龙交流，给我一个非常割裂的感觉。

现在AI领域已经迭代的很好了，但跨境电商大多都很传统，别说AI，连自动化数字化都还没做到。

所以如果用AI去升级会是一个超级大的机会，预判到2026年会有一个大爆发。

但这波爆发不是比谁更会铺货、不是谁的亚马逊生图更好看、不是谁的TK UGC 视频更真实

而是比谁更懂精细化运营。

其中，最典型的就是邮件回复。

现在大多都是用人工、或者用规则、最多上个知识库索引。

效果不用想都知道很差，没有灵魂。

因为AI没有记忆，记不住用户的画像。

记住了又有什么用呢？能把单纯是「客服」性质的回答，升级生成「促销转化」的销冠。

例如根据用户的身高三围推荐尺码、根据喜好推荐产品，甚至可以做连带销售的推荐提高客单价。

成本极低，ROI直接拉满。

这样的AI Agent你真的不想要吗？

今天就教你怎么做这样一个n8n+知识库 RAG+AI 记忆的 AGENT！！

这个邮件Agent 是一个典型，搞懂了这个逻辑之后，去跑别的 AI 数字员工，就很丝滑了。

为什么传统的 RAG 不行？

在开始搭建之前，我必须先说一个残酷的通用事实：市面上90%的 AI 客服都是“一次性”的。

你搭了一个基于 RAG（检索增强生成）的知识库，把几万字的退换货政策扔进去。客户问：“怎么退货？” AI 回答得滴水不漏。

但下一秒，客户问：“那我上次买的那件 M 码穿着紧，这次我是不是该换 L 码？”

这时候，你的 AI 傻了。

因为它没有记忆，或者说它的记忆在每轮对话结束后就清零了。

它不知道客户“上次”买了什么，也不知道客户“上次”反馈过 M 码紧。它只能冷冰冰地回复：“请提供您的订单号。”

这就是无状态的痛点。

要解决这个问题，我们需要一个能读写记忆的系统，而不仅仅是一个静态的文档库。

最近我挖到了一个王炸级的开源项目 —— MemOS 2.0「星尘 Stardust」。

memos.openmem.net/cn/

它不仅仅是能存数据，它直接把“企业知识库”和“用户动态记忆” 打通了。看看下面这张图，MemOS 是怎么思考的：

它帮我们解决了三个最核心的问题：

1. 静态知识库：企业的 S.O.P、尺码表、物流政策，支持 PDF/Markdown/TXT 直接上传，扔进去就能查，这是底层的业务规范。
2. 动态记忆（用户的画像）：这是最关键的。用户说过的话（“我喜欢宽松点”）、用户的属性（“170cm/60kg”）、用户的历史行为，它会自动抓取并存储为长期记忆。

这就相当于给你的 AI 装了一个会自动记笔记的海马体。

使用上，MemOS 支持把文件和 URL 直接导入知识库。

对话过程中记忆会持续更新并随着增长逐渐形成偏好记忆，并且能把文本、图片、文件、工具调用等信息统一记忆，必要时还能使用自然语言对已有记忆做纠错和清理。

而且，在配置的过程中，我发现了一个华点：系统会根据对话内容自动演化并更新记忆层，从而推动知识库的持续自进化。

用户说：“我不吃辣” -> MemOS 自动写入偏好。
用户说：“最近搬去上海了” -> MemOS 自动更新地区信息。

卧槽？？这不就是一直在困扰我的知识库动态更新的问题吗？

原本要手动去插入、更新之类的，现在你跟我说，直接对话就能自动更新了？？

那我以前熬夜搭的流程算什么？？

行吧，下面，直接上实操。

超级福利！！完整n8n工作流源码放文末了。

真的开箱即用了朋友们！！

落地场景

智能客服对于服装企业来说需求是很大的，几万个SKU能用 AI来管理的话，效率和产出都是成指数增长的。

我们就拿 SHEIN 为例。

当然我没有SheIn的内部资料，我让GPT老师给我生成了好几个文档，涵盖售前的尺码推荐、物流、售后的退换货、洗护等政策。

工作流实操！！

开始前先给大家看下整个流程是什么样的。

整套系统的核心逻辑在于“身份锚定 + 双重检索 + 记忆闭环” 。

首先，n8n 利用 Gmail 的 threadId 锁定会话上下文，提取发件人邮箱作为唯一身份标识 user_id

接着，系统执行双路并行检索：

一路调用 /search/memory 获取业务文档（如尺码表、退货政策）及用户长期画像（如身高体重）；

另一路调用 /get/message 拉取当前邮件往来的短期历史记录。

AI 将这些“静态规则”与“动态偏好”融合，生成兼具专业度与情绪价值的回复。

最后，通过 /add/message 将本次交互回写至 MemOS ，让 AI 的记忆随着每一次沟通自动进化，越用越懂客户。

这套逻辑的效果非常惊喜！！

因为前面的资料都是 AI 生成的，所以我把全部东西都扔到 Gemini 里，让它来给我们判断一下这个工作流的精准度如何。

1、知识库、上下文与短期记忆测试

这是第一次邮件，这里关键就看知识库是否能精准击中需求。

这里我介绍了我的数据，问选型之类的售前问题。

直接看回复

Gemini 老师的评价是很好：

接下来测试一下短期记忆。

这是第二轮了

此时，通过conversation_id能成功获取前面邮件的对话记录，也就是说成功把两封独立的邮件串起来了，完成了多次连续对话的能力。

再看下回复效果：

Gemini 老师表示满分：

2、长期记忆测试

这次，我没有说自己的数据就直接让它推荐一条牛仔裤

Hi,

我这次想买 "SHEIN High Waist Straight Leg Jeans"。还是以前的身材数据没变，请问这款牛仔裤我该选什么码？我看评论说这个没有什么弹性，我很怕卡裆或者腰太紧。

回复效果：

Gemini老师评价是依然发挥稳定哈哈哈：

看来效果针不戳，但背后操作其实特别简单！！

相信我！！有手就行！！

接下来，我们逐个模块来看下。

1、MemOS知识库

到MemOS后台，进入知识库页面，直接右上角点添加知识库

memos-dashboard.openmem.net/cn/knowledg…

如图按要求输入名称就好了：

接着把之前GPT老师给的资料，也就是公司客服相关的文件扔进去。

这里不需要做任何配置，默认效果就不错了。

在如图这个位置拿到知识库ID

MemOS 的接口文档在这里，基本上读写记忆等常规API 都有了，备用：

memos-docs.openmem.net/cn/api_docs…

至此 MemOS 部分的设置就结束了，简单的令人发指。

2、n8n工作流

接下来就到n8n工作流的部分。主要是用它把 Gmail、MemOS 和 AI 连接起来。

我把整个工作流拆解成了三个核心模块，大家跟着做就行。

模块一：监听邮件与智能识别

避免一些垃圾邮件干扰我们处理了。

1. Gmail Trigger (监听)：

设置 Poll Times 为每分钟一次。
Filters 设置为 Label: INBOX 和 UNREAD（只看未读邮件）。

2. AI Agent：

这里接一个小模型（比如 gpt-4o-mini 或 Qwen）就够了，省钱。
核心任务：判断这封邮件是不是客户咨询。

System Prompt：

我们是电商公司，你是邮件内容判断助手。
请判断当前邮件内容是否为客户的售前、售后咨询。
如果是，回复 {"客户邮件":"是"}；否则回复 {"客户邮件":"否"}。

3. If (分流)：

只有当客户邮件 == 是时，才进入后续流程。

模块二：知识库+记忆+上下文 —— 开启上帝视角

这是最核心的处理部分。

1. Set Context Variables (清洗身份)：

MemOS 需要一个 user_id 来认人。
我们用正则表达式提取发件人邮箱：{{ $json.from.match(/<(.+)>/)?.[1] ||$ json.To }}。
提取 threadId 作为 conversation_id，这是串联多轮对话的关键。

2. 双路并行检索 (Parallel Retrieval)：

通过 http请求节点跟 MemOS 交互。

上路：检索记忆 (Search Memory)
调用 MemOS /search/memory 接口。
作用：查静态文档（尺码表、退货政策）+ 查长期记忆（用户身高体重、喜好）。

下路：获取上下文 (Get Context)
调用 MemOS /get/message 接口。
作用：查最近 10 条对话。比如用户说“那我就要这个了”，AI 必须通过历史记录知道“这个”指的是刚才推荐的牛仔裤。

3. 合并上下文 (Merge)：

设置 Combine By 为 Position。
这一步把“过去记忆”和“当下语境”合二为一，输送给最终的大脑。

模块三：注入灵魂回复 & 记忆闭环

最后一步，不仅是回复，更是为了让 AI 记住这次交互，这是越用越好用的关键。

1. AI 回复生成器 (Injecting Soul)：

这是最关键的 Prompt。

# Role
你不是机器人，你是 **SHEIN 专属时尚顾问 (Style Bestie)**。
目标：用温暖、专业且带时尚感的语气解决问题。

# Context Data
1. 记忆与知识库: {{ $('检索记忆').item.json.data.memory_detail_list }}
2. 对话历史: {{ $('获取历史').item.json.data.message_detail_list }}

# Guidelines
- **拒绝机械感**：禁止说“根据数据库显示”。
- **显式记忆**：如果发现用户身高体重（如 170cm），必须在回复中显式提及（"考虑到您 170cm 的高挑身材..."）。
- **情绪价值**：适当夸赞用户眼光，使用 Emoji 😊。

# Output
必须输出 **HTML 格式** 的邮件正文，使用 <p> 和 <strong>标签排版。

注意这里我让 AI 返回的 HTML 格式，确保客户收到的邮件也是富文本格式的，提高阅读体验。这是简略版，完整版见文末原文。

2. 存入记忆 (Memory Loop)：

调用 /add/message 接口。
关键操作：把用户的 User Query 和 AI 生成的 Output 一次性存回去。
这样，MemOS 会自动分析这次对话，提取新的用户偏好（比如“用户觉得 M 码紧”），下次对话时 AI 就会自动避坑。

3. 发送邮件 (Gmail Send)：

记得开启 HTML 模式，把 AI 生成的漂亮排版发给客户。

这一套下来，你不仅拥有了一个能秒回邮件的客服，更拥有了一个能不断自我进化的用户数据资产库。

每一封邮件，都在让你的企业大脑更聪明一点。

从「回复邮件」到「经营关系」

这套 n8n + MemOS 的打法，直接把跨境电商的客服水平拉高了一个维度。

它不是在做“问答”，它是在做“关系管理”。

这套系统的核心价值，不在于它省了多少人工（虽然它确实省了），而在于它能留存客户资产。

以前，最有经验的客服离职了，他对客户的了解也就带走了。

现在，所有的记忆、偏好、习惯，全部沉淀在 MemOS 的记忆层里。哪怕你换了 10 批运营，AI 依然记得那个喜欢穿宽松牛仔裤、住在深圳、对运费敏感的老客户。

这就是数据资产。

这套逻辑还能怎么用？

既然 MemOS 能做大脑，n8n 能做手脚，那这个“超级销售”就不应该只活在邮箱里。

1. WhatsApp / Telegram 私域玩法：

对于做高客单价（如假发、珠宝、3D打印机）的卖家，私域是命脉。

把这套逻辑接入 WhatsApp Business API，AI 能记得客户上个月说了“想给女儿买生日礼物”，并在生日前一周自动推送新品。

这转化率，比群发广告高 100 倍。

2. 独立站 AI 导购 (Chatbot)：

别再用那种只会弹优惠券的智障弹窗了。

把 MemOS 接入网站右下角的聊天窗，当用户浏览商品时，AI 能主动提示：“这件大衣和你上次买的靴子超搭哦！”

2026 年的红利，属于那些敢把 AI 塞进业务心脏里的人。

MemOS 2.0 现在的门槛极低，我已经把最难的“路”给探完了。

有兴趣的小伙伴可以去项目里面玩玩看

目前项目已经全面开源 github.com/MemTensor/MemOS

别观望了，去注册个账号，把你的文档扔进去试试。

哪怕只跑通一个场景，你的业务效率都能像滚雪球一样飞起来。

完整n8n工作流源码

关注公众号「饼干哥哥AGI」

后台回复「邮件Agent」即可