阅读视图

发现新文章,点击刷新页面。

搭建一个云端Skills系统,随时随地记录TikTok爆款

最近 Claude Skills 很火。

但我观察了一圈,发现大家都在陷入一种“开发者的自嗨”。

绝大多数 Skills 的应用场景都被死死锁在 IDE 里,锁在开发者的电脑前。

这叫开发提效,不叫业务提效。

真正的业务发生在移动端,发生在你通勤、吃饭、甚至躺在床上刷 TikTok 的时候。

如果你的 AI 能力必须打开电脑、输入命令行才能调用,那它的时空效率就是零。

于是我抛弃本地的 Claude Code,基于 OpenHands 做了一套云端 Skills 系统。

效果极其简单粗暴:

我在刷 TikTok,看到一个爆款视频,点击复制链接,敲击 iPhone 背面三下。

wxv_4355007050494509070

20 秒后,我的飞书多维表格里自动新增了一行数据。

Image

这行数据包含了:这个视频的无水印文件、Gemini 拆解的镜头语言分析、爆款原因推导,以及一套可直接复用的 AI 视频生成提示词。

全过程我不需要打开电脑,不需要切换 APP,不需要等待。

这就是我今天要聊的:如何用 OpenHands + Skills + iOS 快捷指令,构建一套真正落地的业务自动化系统。

01 为什么 Claude Code 在业务侧是伪需求

先厘清两个概念:OpenHands 和 Claude Code。

Claude Code 是 Anthropic 官方推出的命令行工具,它是一个嵌入在你本地终端里的结对程序员。它的 Skills 本质是上下文记忆和本地工具接口。

它的优势是懂你的代码规范,能直接改你电脑里的文件。

但它有一个对于业务场景的致命弱点:它必须依附于你的会话,你不在,它就不动。

它是一个副驾驶(Copilot)。

而 OpenHands(前身 OpenDevin)是一个开源的、自主的 AI 软件工程师。它运行在 Docker 容器里,是一个独立的服务端 Agent。

Image

openhands.dev/

它是一个可以被封装成 API 服务的数字员工。

我看重 OpenHands 的核心理由只有一个:它可以 24 小时在线,并且可以通过 API 远程唤醒。

我做的这个 TikTok 分析系统,本质就是把 OpenHands 部署在服务器上,通过 FastAPI 暴露接口。

Claude Code 是给你用的工具;OpenHands 是你雇佣的、随时待命的员工。

🐵

小提示:FastAPI 的服务地址后加/docs就是文档了

02 业务视角:从 刷视频 到「数据入库」的闭环

对于做出海营销和短视频矩阵的朋友,拆解爆款是每天的必修课。

传统的流程极其反人类:

  1. 1. 手机刷到视频,点收藏。
  2. 2. 晚上回家打开电脑,把链接导出来。
  3. 3. 找第三方工具去水印下载。
  4. 4. 把视频传给 Gemini 分析。
  5. 5. 人工把分析结果复制粘贴到 Excel 或飞书。

这个链路太长,断点太多。任何需要延迟满足的流程,最终都会变成不了了之。

我的远程 Skills 方案,把这个流程压缩到了极致。

整个逻辑是这样的:

Image

用户端(前端)

利用 iOS 自带的快捷指令 + 背部轻点功能。

  • 动作:获取剪贴板内容(TikTok 链接)。
  • 触发:发送 HTTP POST 请求给我的服务器。
  • 反馈:手机震动一下,表示任务已接收。

Image

Image

服务端(后端)

OpenHands 接收到请求后,自主执行以下 Skills:

  1. Playwright Skill:

启动无头浏览器。这里有一个技术难点,TikTok 的反爬虫机制非常严格。如果用普通的 request 请求,成功率几乎为零。OpenHands 调用 Playwright 模拟真实浏览器行为,绕过 blob 协议,抓取真实的 MP4 视频流。这种方式的下载成功率稳定在 70%-80%

  1. Gemini Skill:

视频下载后,调用Gemini 2.5 Flash,快且便宜。它不只是看,它是理解。它可以识别拍摄角度(俯拍/特写)、运镜方式(推拉摇移)、BGM 节奏点、色彩心理学。

  1. Feishu Skill:

将清洗好的结构化数据(JSON),通过 API 写入飞书多维表格。

结果:

当你刷完半小时视频,打开飞书,几十个爆款视频的深度分析报告已经整整齐齐躺在那里了。

这才是 AI 赋能业务的本质:隐形化。

Image

Openhands 的 Skills 文档:

docs.openhands.dev/sdk/guides/…

03 举一反三:跨境电商的远程 Skills 玩法

这套架构的核心逻辑是:移动端触发 -> 服务端 API -> OpenHands 执行复杂 Skills -> 结果回传。

这个逻辑在出海业务里有无限的延展性。

我给几个具体的场景,你们可以拿去直接落地。

场景一:竞品独立站监控

  • 动作:在手机浏览器看到竞品的 Shopify 店铺,复制链接,触发 Shortcut。
  • Skills:OpenHands 调起爬虫 Skill 扫描该站点的新品上架情况、价格策略,并调用 SEO Skill 分析其关键词布局。
  • 产出:一份竞品分析简报直接推送到你的 Slack 或 钉钉。

场景二:亚马逊差评自动预警与回复草稿

  • 动作:系统监控到差评(自动触发,无需人工)。
  • Skills:OpenHands 读取差评内容,结合历史客服知识库 Skill,分析用户情绪,并模仿金牌客服的语气撰写 3 个版本的回复邮件。
  • 产出:草稿进入审核流,你只需要在手机上点批准。

场景三:广告素材批量生产

  • 动作:上传一张产品图到指定文件夹。
  • Skills:OpenHands 识别产品特征,调用 Midjourney 或 Runway 的 API,结合当下的流行趋势 Skill,自动生成 10 种不同风格的广告背景图。
  • 产出:素材自动同步到 Google Drive 供投放团队筛选。

04 为什么非要用 Agent Skills?写个 Python 脚本不行吗?

这是很多技术出身的朋友最容易陷入的误区。

你这个功能,我写个 Python 脚本 + 定时任务也能跑,为什么要搞这么复杂的 OpenHands Skills?

因为业务逻辑是流动的,而脚本是僵死的。

如果你写死了一个 Python 脚本:

  • 当 TikTok 的前端代码更新了 class 名,脚本报错,你得去修。
  • 当飞书的 API 接口变动,脚本报错,你得去修。
  • 当 Gemini 的模型参数调整,脚本报错,你得去修。

但在 OpenHands Skills 的架构下,我们定义的不是步骤,而是目标。

在我的 Skill 定义里,我告诉 OpenHands:你的任务是下载这个页面上的视频,如果常规方法失败,尝试模拟用户滚动;如果还失败,检查是否有验证码并尝试通过。

OpenHands 作为一个 Agent,它具备自主决策和自我修复的能力。

  • 它发现 TikTok 改了页面结构?它会尝试用视觉识别去定位播放按钮。
  • 它发现 API 报错?它会自主查阅文档或尝试备用节点。

在跨境出海这种平台规则朝令夕改的环境下,维护脚本的成本极高。

我们需要的是一个能够理解意图并自主寻找路径的智能体。

05 思路打开,Agentic Skills 的高级玩法

文章到这里,这套远程 Skills 系统的雏形已经搭建完毕。

但如果你觉得这就结束了,那你就小看了 Agentic Skills 的天花板。

我们现在的架构是“一个请求触发一个 Skill”,但这只是冰山一角。真正的威力在于 Multi-Skill Orchestration(多技能编排)。

  1. 1. Skill Chain(技能链)与递归调用

OpenHands 的 Skill 本质是可执行的逻辑单元。我们可以像写代码一样,让 Skill A 去调用 Skill B。

  • 比如定义一个 Base-Skill:只负责做基础的数据清洗。
  • 再定义一个 Pro-Skill:先调用 Base-Skill 处理数据,再把结果传给 Analysis-Skill,最后调用 Report-Skill 生成报告。

你可以构建一个自我迭代的 Agent。让它先写一段代码(Coding Skill),然后自己运行测试(Testing Skill),如果报错,递归调用 Coding Skill 进行修复,直到测试通过。

  1. 混合云架构(Hybrid Agent Architecture)

OpenHands 运行在 Docker 里,这意味着它可以部署在任何地方。

  • 私有化部署:对于涉及公司财务、用户隐私的数据,你可以把 OpenHands 部署在公司内网服务器上。
  • 公有云调用:对于需要访问外网(如 TikTok 下载、竞品分析)的任务,部署在 AWS 或 Vercel 上。

这样,通过 API 网关,你可以指挥内网的 Agent 去调用外网的 Agent,实现数据在安全域和互联网域之间的智能流转。

  1. “人机回环”的异步交互

谁说 API 只有“请求-响应”这一种模式? 在我的系统中,有些复杂任务(如竞品深度调研)可能需要运行 30 分钟。

  • 流程设计:OpenHands 接收任务 -> 立即返回 TaskID -> 后台异步执行。
  • 关键点:当 Agent 遇到无法决策的卡点(例如:这个验证码我解不开,或者这个竞品网站有两套价格体系,取哪套?),它可以主动通过飞书/Slack 给你发消息请求确认。

你点击确认后,Agent 继续执行。这才是真正的人机协作:AI 处理海量冗余信息,人类只在关键节点做决策。

在这个体系下,Skills 不再是静态的脚本,而是可生长、可组合的原子能力。

未来,你的个人服务器里可能运行着上百个这样的 Skills。它们是一群田螺姑娘,在你睡觉的时候,帮你监控市场、回复邮件、整理知识、优化代码。

而你,只需要握着手机,轻轻敲两下背部,就像魔法师挥动了魔杖。

这,才是 Agent 时代的真正玩法。

我用n8n+AI记忆系统 MemOS,给SHEIN 搭了个销售Agent

2025 做了很多场线下AI 跨境电商的沙龙交流,给我一个非常割裂的感觉。

现在AI领域已经迭代的很好了,但跨境电商大多都很传统,别说AI,连自动化数字化都还没做到。

所以如果用AI去升级会是一个超级大的机会,预判到2026年会有一个大爆发。

但这波爆发不是比谁更会铺货、不是谁的亚马逊生图更好看、不是谁的TK UGC 视频更真实

而是比谁更懂精细化运营。

其中,最典型的就是邮件回复。

现在大多都是用人工、或者用规则、最多上个知识库索引。

效果不用想都知道很差,没有灵魂。

因为AI没有记忆,记不住用户的画像。

记住了又有什么用呢?能把单纯是「客服」性质的回答,升级生成「促销转化」的销冠。

例如根据用户的身高三围推荐尺码、根据喜好推荐产品,甚至可以做连带销售的推荐提高客单价。

成本极低,ROI直接拉满。

这样的AI Agent你真的不想要吗?

今天就教你怎么做这样一个n8n+知识库 RAG+AI 记忆的 AGENT!!

这个邮件Agent 是一个典型,搞懂了这个逻辑之后,去跑别的 AI 数字员工,就很丝滑了。

为什么传统的 RAG 不行?

在开始搭建之前,我必须先说一个残酷的通用事实:市面上90%的 AI 客服都是“一次性”的。

你搭了一个基于 RAG(检索增强生成)的知识库,把几万字的退换货政策扔进去。客户问:“怎么退货?” AI 回答得滴水不漏。

但下一秒,客户问:“那我上次买的那件 M 码穿着紧,这次我是不是该换 L 码?”

这时候,你的 AI 傻了。

因为它没有记忆,或者说它的记忆在每轮对话结束后就清零了。

它不知道客户“上次”买了什么,也不知道客户“上次”反馈过 M 码紧。它只能冷冰冰地回复:“请提供您的订单号。”

这就是无状态的痛点。

要解决这个问题,我们需要一个能 读写记忆 的系统,而不仅仅是一个静态的文档库。

最近我挖到了一个王炸级的开源项目 —— MemOS 2.0「星尘 Stardust」。

Image

memos.openmem.net/cn/

它不仅仅是能存数据,它直接把“企业知识库”和“用户动态记忆” 打通了。看看下面这张图,MemOS 是怎么思考的:

Image

它帮我们解决了三个最核心的问题:

  1. 1. 静态知识库: 企业的 S.O.P、尺码表、物流政策,支持 PDF/Markdown/TXT 直接上传,扔进去就能查,这是底层的业务规范。
  2. 2. 动态记忆(用户的画像): 这是最关键的。用户说过的话(“我喜欢宽松点”)、用户的属性(“170cm/60kg”)、用户的历史行为,它会自动抓取并存储为长期记忆。

这就相当于给你的 AI 装了一个会自动记笔记的海马体。

Image

使用上,MemOS 支持把文件和 URL 直接导入知识库。

对话过程中记忆会持续更新并随着增长逐渐形成偏好记忆,并且能把文本、图片、文件、工具调用等信息统一记忆,必要时还能使用自然语言对已有记忆做纠错和清理。

而且,在配置的过程中,我发现了一个华点:系统会根据对话内容自动演化并更新记忆层,从而推动知识库的持续自进化。

  • 用户说:“我不吃辣” -> MemOS 自动写入偏好。
  • 用户说:“最近搬去上海了” -> MemOS 自动更新地区信息。

Image

卧槽??这不就是一直在困扰我的知识库动态更新的问题吗?

原本要手动去插入、更新之类的,现在你跟我说,直接对话就能自动更新了??

那我以前熬夜搭的流程算什么??

行吧,下面,直接上实操。

超级福利!!完整n8n工作流源码放文末了。

真的开箱即用了朋友们!!

落地场景

智能客服对于服装企业来说需求是很大的,几万个SKU能用 AI来管理的话,效率和产出都是成指数增长的。

我们就拿 SHEIN 为例。

Image

当然我没有SheIn的内部资料,我让GPT老师给我生成了好几个文档,涵盖售前的尺码推荐、物流、售后的退换货、洗护等政策。

Image

工作流实操!!

开始前先给大家看下整个流程是什么样的。

Image

整套系统的核心逻辑在于“身份锚定 + 双重检索 + 记忆闭环” 。

首先,n8n 利用 Gmail 的 threadId 锁定会话上下文,提取发件人邮箱作为唯一身份标识 user_id

接着,系统执行双路并行检索:

一路调用 /search/memory 获取业务文档(如尺码表、退货政策)及用户长期画像(如身高体重);

另一路调用 /get/message 拉取当前邮件往来的短期历史记录。

AI 将这些“静态规则”与“动态偏好”融合,生成兼具专业度与情绪价值的回复。

最后,通过 /add/message 将本次交互回写至 MemOS ,让 AI 的记忆随着每一次沟通自动进化,越用越懂客户。

这套逻辑的效果非常惊喜!!

因为前面的资料都是 AI 生成的,所以我把全部东西都扔到 Gemini 里,让它来给我们判断一下这个工作流的精准度如何。

1、知识库、上下文与短期记忆测试

这是第一次邮件,这里关键就看知识库是否能精准击中需求。

这里我介绍了我的数据,问选型之类的售前问题。

Image

直接看回复

Image

Gemini 老师的评价是很好:

Image

接下来测试一下短期记忆。

Image

这是第二轮了

此时,通过conversation_id能成功获取前面邮件的对话记录,也就是说成功把两封独立的邮件串起来了,完成了多次连续对话的能力。

Image

再看下回复效果:

Image

Gemini 老师表示满分:

Image

2、长期记忆测试

这次,我没有说自己的数据就直接让它推荐一条牛仔裤

Hi,

我这次想买 "SHEIN High Waist Straight Leg Jeans"。 还是以前的身材数据没变,请问这款牛仔裤我该选什么码? 我看评论说这个没有什么弹性,我很怕卡裆或者腰太紧。

回复效果:

Image

Gemini老师评价是依然发挥稳定哈哈哈:

Image

看来效果针不戳,但背后操作其实特别简单!!

相信我!!有手就行!!

接下来,我们逐个模块来看下。

1、MemOS知识库

到MemOS后台,进入知识库页面,直接右上角点添加知识库

memos-dashboard.openmem.net/cn/knowledg…

如图按要求输入名称就好了:

Image

接着把之前GPT老师给的资料,也就是公司客服相关的文件扔进去。

这里不需要做任何配置,默认效果就不错了。

Image

在如图这个位置拿到知识库ID

Image

MemOS 的接口文档在这里,基本上读写记忆等常规API 都有了,备用:

memos-docs.openmem.net/cn/api_docs…

Image

至此 MemOS 部分的设置就结束了,简单的令人发指。

2、n8n工作流

接下来就到n8n工作流的部分。主要是用它把 Gmail、MemOS 和 AI 连接起来。

Image

我把整个工作流拆解成了三个核心模块,大家跟着做就行。

模块一:监听邮件与智能识别

Image

避免一些垃圾邮件干扰我们处理了。

  1. 1. Gmail Trigger (监听):
  • 设置 Poll Times 为每分钟一次。
  • Filters 设置为 Label: INBOX 和 UNREAD(只看未读邮件)。
  1. Image
  2. 2. AI Agent:
  • 这里接一个小模型(比如 gpt-4o-mini 或 Qwen)就够了,省钱。
  • 核心任务:判断这封邮件是不是客户咨询。

Image

  • System Prompt:
我们是电商公司,你是邮件内容判断助手。
请判断当前邮件内容是否为客户的售前、售后咨询。
如果是,回复 {"客户邮件":"是"};否则回复 {"客户邮件":"否"}
  1. 3. If (分流):
  • 只有当 客户邮件 == 是 时,才进入后续流程。

模块二:知识库+记忆+上下文 —— 开启上帝视角

这是最核心的处理部分。

Image

  1. 1. Set Context Variables (清洗身份):
  • MemOS 需要一个 user_id 来认人。
  • 我们用正则表达式提取发件人邮箱:{{ json.from.match(/<(.+)>/)?.[1]json.from.match(/<(.+)>/)?.[1] || json.To }}。
  • 提取 threadId 作为 conversation_id,这是串联多轮对话的关键。

Image

  1. 2. 双路并行检索 (Parallel Retrieval):

通过 http请求节点跟 MemOS 交互。

  • 上路:检索记忆 (Search Memory)
  • 调用 MemOS /search/memory 接口。
  • 作用:查静态文档(尺码表、退货政策)+ 查长期记忆(用户身高体重、喜好)。

Image

  • 下路:获取上下文 (Get Context)
  • 调用 MemOS /get/message 接口。
  • 作用:查最近 10 条对话。比如用户说“那我就要这个了”,AI 必须通过历史记录知道“这个”指的是刚才推荐的牛仔裤。

Image

  1. 3. 合并上下文 (Merge):
  • 设置 Combine By 为 Position。
  • 这一步把“过去记忆”和“当下语境”合二为一,输送给最终的大脑。

模块三:注入灵魂回复 & 记忆闭环

最后一步,不仅是回复,更是为了让 AI 记住这次交互,这是越用越好用的关键。

Image

  1. 1. AI 回复生成器 (Injecting Soul):
  • 这是最关键的 Prompt。
# Role
你不是机器人,你是 **SHEIN 专属时尚顾问 (Style Bestie)**。
目标:用温暖、专业且带时尚感的语气解决问题。

# Context Data
1. 记忆与知识库: {{ $('检索记忆').item.json.data.memory_detail_list }}
2. 对话历史: {{ $('获取历史').item.json.data.message_detail_list }}

# Guidelines
- **拒绝机械感**:禁止说“根据数据库显示”。
- **显式记忆**:如果发现用户身高体重(如 170cm),必须在回复中显式提及("考虑到您 170cm 的高挑身材...")。
- **情绪价值**:适当夸赞用户眼光,使用 Emoji 😊。

# Output
必须输出 **HTML 格式** 的邮件正文,使用 <p><strong>标签排版。

注意这里我让 AI 返回的 HTML 格式,确保客户收到的邮件也是富文本格式的,提高阅读体验。这是简略版,完整版见文末原文。

  1. 2. 存入记忆 (Memory Loop):
  • 调用 /add/message 接口。
  • 关键操作:把用户的 User Query 和 AI 生成的 Output 一次性存回去。
  • 这样,MemOS 会自动分析这次对话,提取新的用户偏好(比如“用户觉得 M 码紧”),下次对话时 AI 就会自动避坑。
  1. 3. 发送邮件 (Gmail Send):
  • 记得开启 HTML 模式,把 AI 生成的漂亮排版发给客户。

这一套下来,你不仅拥有了一个能秒回邮件的客服,更拥有了一个能不断自我进化的用户数据资产库。

每一封邮件,都在让你的企业大脑更聪明一点。

从「回复邮件」到「经营关系」

这套 n8n + MemOS 的打法,直接把跨境电商的客服水平拉高了一个维度。

它不是在做“问答”,它是在做“关系管理”。

这套系统的核心价值,不在于它省了多少人工(虽然它确实省了),而在于它能留存客户资产。

以前,最有经验的客服离职了,他对客户的了解也就带走了。

现在,所有的记忆、偏好、习惯,全部沉淀在 MemOS 的记忆层里。哪怕你换了 10 批运营,AI 依然记得那个喜欢穿宽松牛仔裤、住在深圳、对运费敏感的老客户。

这就是数据资产。

这套逻辑还能怎么用?

既然 MemOS 能做大脑,n8n 能做手脚,那这个“超级销售”就不应该只活在邮箱里。

  1. 1. WhatsApp / Telegram 私域玩法:

对于做高客单价(如假发、珠宝、3D打印机)的卖家,私域是命脉。

把这套逻辑接入 WhatsApp Business API,AI 能记得客户上个月说了“想给女儿买生日礼物”,并在生日前一周自动推送新品。

这转化率,比群发广告高 100 倍。

  1. 2. 独立站 AI 导购 (Chatbot):

别再用那种只会弹优惠券的智障弹窗了。

把 MemOS 接入网站右下角的聊天窗,当用户浏览商品时,AI 能主动提示:“这件大衣和你上次买的靴子超搭哦!”

2026 年的红利,属于那些敢把 AI 塞进业务心脏里的人。

MemOS 2.0 现在的门槛极低,我已经把最难的“路”给探完了。

有兴趣的小伙伴可以去项目里面玩玩看

目前项目已经全面开源 github.com/MemTensor/MemOS

别观望了,去注册个账号,把你的文档扔进去试试。

哪怕只跑通一个场景,你的业务效率都能像滚雪球一样飞起来。

完整n8n工作流源码

关注公众号「饼干哥哥AGI」

后台回复「邮件Agent」即可

❌