从零基础入门到架构原理深度剖析——一份写给所有 AI 从业者的渐进式技术博客
写在最前面:这篇文章适合谁?
这篇文章按照由浅入深的结构组织,不同读者可以选择适合自己的起始章节。
如果你是对 AI 工具好奇的普通开发者,从第一章开始读,你将在 15 分钟内理解 Skill Seekers 是什么,并完成第一个实际操作。如果你是正在搭建 RAG 管线的 AI 工程师,可以直接跳到第四章和第五章,那里有针对 LangChain、LlamaIndex、向量数据库等场景的最佳实践。如果你是架构师或技术负责人,第六、七、八章从源码层面深入分析了项目的设计哲学、模块架构和工程体系。如果你是想参与开源贡献的开发者,第九章介绍了项目的工程规范与贡献流程。
开源项目地址:https://github.com/yusufkaraaslan/Skill_Seekers/tree/development
第一章:三分钟理解 Skill Seekers
1.1 一个故事开始
假设你是一名前端开发者,刚加入团队,团队技术栈基于 React。你希望让 Claude Code 成为你的"React 专家搭档"——不是那种只知道泛泛基础知识的通用 AI,而是真正了解 React 最新 API、Hooks 最佳实践、Server Components 细节的领域专家。
你面临一个尴尬的处境:React 官方文档有数百个页面,散布在 react.dev 网站上。你总不能一页一页复制粘贴到 Claude 的对话框里吧?即使你这么做了,Claude 的上下文窗口也装不下这么多内容。
Skill Seekers 做的事情,就是帮你把这几百页文档,在 15 分钟之内变成一个 Claude 能直接加载和使用的"技能包"。
打开终端,三条命令:
# 第 1 步:安装
pip install skill-seekers
# 第 2 步:一键抓取 React 文档并生成知识资产
skill-seekers create https://docs.react.dev/
# 第 3 步:打包为 Claude 能用的格式
skill-seekers package output/react --target claude
完成后你的 output/ 目录里会出现一个 react-claude.zip,上传到 Claude 就行了。从此 Claude 就是你的 React 领域专家。
但这只是冰山一角——同一份知识资产还可以导出为 Gemini、OpenAI、LangChain、Cursor 等十多个平台的格式,做一次就够了。
1.2 用一句话定义 Skill Seekers
Skill Seekers 是 AI 系统的"数据层"(Data Layer)——它将散落在文档网站、GitHub 仓库、PDF 文件中的非结构化技术知识,自动转化为各类 AI 系统可以直接消费的结构化知识资产。
你可以把它理解成一个"AI 的翻译官":一边读懂人类的文档,一边把知识翻译成 AI 能高效理解的格式。
1.3 它支持哪些输入和输出?
输入端,Skill Seekers 能从三种来源获取知识。第一种是文档网站——任意在线技术文档,如 React、Django、Godot 等官网文档。第二种是 GitHub 仓库——通过 owner/repo 格式指定,系统会分析代码结构、README、Issues 等。第三种是 PDF 文件——技术手册、API 文档、论文等。
输出端则覆盖了当前 AI 生态中几乎所有主流的消费方。包括 Claude AI(ZIP + YAML)、Google Gemini(tar.gz)、OpenAI / Custom GPT(ZIP)、LangChain Documents(JSON)、LlamaIndex TextNodes(JSON)、Haystack Documents、Pinecone / ChromaDB / FAISS / Qdrant 等向量数据库就绪格式,以及 Cursor / Windsurf / Cline / Continue.dev 等 IDE AI 助手的规则文件。
一次预处理,十六个目标平台,这是 Skill Seekers 最核心的价值主张。
第二章:手把手入门——从安装到创建第一个 Skill
这一章面向完全没有用过 Skill Seekers 的读者,按照实际操作步骤逐一展开。
2.1 环境准备
你需要准备的东西非常少:Python 3.10 或更高版本,Git,以及一台能联网的电脑(macOS、Linux 或 Windows 均可)。
检查 Python 版本:
python3 --version
# 看到 Python 3.10.x 或更高即可
检查 Git:
git --version
# 看到 git version 2.x.x 即可
如果 Python 未安装,macOS 用户可以用 brew install python3,Ubuntu/Debian 用户用 sudo apt install python3 python3-pip,Windows 用户从 python.org 下载安装器(注意勾选"Add Python to PATH")。
2.2 安装 Skill Seekers
最简单的安装方式只需一行命令:
pip install skill-seekers
这会安装核心功能:文档抓取、GitHub 分析、PDF 处理和所有平台的打包能力。如果你需要额外能力,可以按需安装可选组件:
# 如果你需要 Google Gemini 支持
pip install skill-seekers[gemini]
# 如果你需要 OpenAI 支持
pip install skill-seekers[openai]
# 如果你需要 MCP 服务器(与 Claude Code 集成)
pip install skill-seekers[mcp]
# 全部安装
pip install skill-seekers[all]
安装完成后,验证一下:
skill-seekers --help
看到帮助信息就说明安装成功了。
2.3 你的第一个 Skill:5 分钟搞定
我们用一个小型示例开始,避免第一次就等待太长时间。来抓取 Tailwind CSS 的文档,限制为 5 个页面:
skill-seekers scrape \
--name tailwind-test \
--url https://tailwindcss.com/docs/installation \
--description "Tailwind CSS quick reference" \
--max-pages 5
大约 30 秒后,你会看到类似这样的输出:
Scraping: https://tailwindcss.com/docs/installation
Page 1/5: Installation
Page 2/5: Editor Setup
...
✅ Skill created at: output/tailwind-test/
看看生成了什么:
ls output/tailwind-test/
# SKILL.md references/ scripts/ assets/
其中 SKILL.md 是核心知识文件,references/ 目录下是按主题分类的参考文档。
2.4 打包与上传
# 打包为 Claude 格式
skill-seekers package output/tailwind-test/
# ✅ Created: output/tailwind-test.zip
# 或者打包为其他平台格式
skill-seekers package output/tailwind-test/ --target gemini
skill-seekers package output/tailwind-test/ --target langchain
如果你配置了 Anthropic API Key,还可以一步到位自动上传:
export ANTHROPIC_API_KEY=sk-ant-...
skill-seekers package output/tailwind-test/ --upload
没有 API Key 也没关系——拿着生成的 .zip 文件去 claude.ai 的 Skills 页面手动上传即可。
2.5 使用预设配置:更省心的方式
Skill Seekers 内置了 24+ 个框架的预设配置,覆盖了 React、Vue、Angular、Django、FastAPI、Godot 等主流框架。用预设配置更加省心:
# 查看所有可用预设
skill-seekers list-configs
# 直接用预设抓取
skill-seekers scrape --config configs/godot.json
你也可以用交互式模式,系统会引导你一步步完成配置:
skill-seekers scrape --interactive
2.6 create 命令:最智能的入口
skill-seekers create 是项目提供的最便捷命令——它会自动识别你给的是什么来源,并选择对应的处理方式:
# 给一个 URL,自动走文档抓取
skill-seekers create https://docs.django.com/
# 给一个 owner/repo,自动走 GitHub 分析
skill-seekers create facebook/react
# 给一个本地路径,自动分析本地项目
skill-seekers create ./my-project
# 给一个 PDF 文件,自动走 PDF 提取
skill-seekers create manual.pdf
这种"零配置"体验大幅降低了上手门槛——你不需要记住不同的子命令,一个 create 就够了。
第三章:Skill Seekers 解决了什么问题?谁需要它?
理解了基本用法之后,我们退后一步,从更宏观的视角审视这个工具为什么存在。
3.1 AI 时代的"知识注入"难题
大语言模型的能力已经毋庸置疑,但模型本身有一个固有限制:训练数据的时效性。无论是 Claude、GPT-4 还是 Gemini,它们的知识都有一个截止日期。对于快速迭代的技术框架来说,官方文档可能每周都在更新,而模型的训练数据可能已经是半年前的了。
解决这个问题的主流方案有两种。第一种是 AI Skills / Knowledge:将结构化知识直接注入 AI 的上下文(如 Claude Skills、Custom GPTs),让 AI 在回答时能参考这些外挂知识。第二种是 RAG(检索增强生成):将知识向量化存储在数据库中,用户提问时检索最相关的文档片段,拼入上下文后让模型回答。
无论哪种方案,数据预处理都是第一步,也是最脏最累的一步。你需要从各种来源抓取内容、清洗 HTML、提取代码块、识别语言、分类组织、生成元数据……而且每换一个目标平台,格式要求就不一样。
Skill Seekers 将这整个预处理流程自动化了,并且做到了"一次处理、多目标导出"。
3.2 四类核心用户群体
经过对项目功能和文档的深入分析,Skill Seekers 的用户群体可以清晰地分为四类。
第一类:AI Skill 构建者。 这是使用 Claude Skills、Gemini Extensions、Custom GPTs 的开发者或技术写作者。他们的核心诉求是把特定领域的知识"教"给 AI,让 AI 成为该领域的专家助手。痛点在于手动整理文档耗时巨大,且不同 AI 平台要求的格式各异。
第二类:RAG 工程师。 这些是搭建企业级知识问答系统、智能客服、文档检索等 RAG 应用的工程师。他们的核心诉求是获得高质量、带元数据、分块合理的文档数据。痛点在于数据预处理流程繁琐,分块策略难以兼顾精度和上下文。
第三类:AI 编程助手用户。 这些是使用 Cursor、Windsurf、Cline 等 AI 辅助编程工具的开发者。他们的核心诉求是让 IDE 中的 AI 助手深度理解特定框架的最新用法。痛点在于 AI 助手的通用知识不够深入,需要手动维护上下文规则文件。
第四类:技术团队和企业。 这些团队需要将内部文档、私有 API 文档、跨项目知识等统一管理,构建团队级别的 AI 知识资产。痛点在于知识散落在多个系统中,且缺乏统一的预处理和分发管道。
3.3 适用场景全景
根据用户群体,Skill Seekers 的典型使用场景包括以下几类:
框架学习加速: 新入职开发者快速将团队使用的技术栈文档转化为 AI Skill,让 AI 成为"老员工"一样的带教导师。
文档智能检索: 将公司内部文档库转化为 RAG 数据集,搭建内部知识问答系统。
代码助手增强: 为 Cursor/Windsurf 生成精确的框架规则文件,让代码建议更准确。
文档质量审计: 利用冲突检测功能,发现文档与实际代码实现之间的不一致之处。
多源知识融合: 将文档网站 + GitHub 代码 + PDF 手册合并为一个统一的知识资产,消除信息孤岛。
第四章:面向不同用户的最佳实践与示例
这一章按用户群体分别给出详细的最佳实践方案和操作示例。
4.1 AI Skill 构建者的最佳实践
场景:为 Claude 创建一个 Django 专家技能
这是最基础也最常见的使用场景。完整工作流如下:
# 步骤 1:从文档创建知识资产
skill-seekers create https://docs.djangoproject.com/
# 步骤 2:AI 增强——将基础文档升级为专家级技能文件
skill-seekers enhance output/django/ --mode local
# 如果有 API Key,也可以用 API 模式:
# skill-seekers enhance output/django/ --mode api
# 步骤 3:打包并上传
skill-seekers package output/django/ --upload
增强步骤是关键——不经过增强的 SKILL.md 只是文档的简单组织,增强之后的 SKILL.md 会包含 500+ 行的内容,涵盖代码示例、最佳实践模式、快速参考指南和错误排查建议。
进阶:使用工作流预设做专项增强
如果你的 Django 项目对安全性有特殊要求,可以叠加安全增强工作流:
skill-seekers create https://docs.djangoproject.com/ \
--enhance-workflow security-focus \
--enhance-workflow api-documentation
这条命令会先执行安全聚焦的增强(审查 OWASP Top 10、认证授权模式等),然后再执行 API 文档增强。两个工作流链式执行,后续工作流会引用前序工作流的分析结果。
项目内置了 64 个工作流预设,覆盖了从 default、minimal 到 kubernetes-deployment、graphql-schema、compliance-gdpr、mlops-pipeline 等极为广泛的领域。你还可以创建自定义预设放到 ~/.config/skill-seekers/workflows/ 目录下。
进阶:多平台批量导出
一次处理,导出到所有平台:
# 批量导出到 Claude、Gemini、OpenAI、Markdown 四个平台
for platform in claude gemini openai markdown; do
skill-seekers package output/django --target $platform
done
4.2 RAG 工程师的最佳实践
场景:搭建一个基于 LangChain 的框架文档问答系统
RAG 工程师最关心的是数据质量——分块是否合理、元数据是否丰富、代码块是否保持完整。
# 步骤 1:抓取文档
skill-seekers create https://docs.react.dev/
# 步骤 2:导出为 LangChain Documents 格式
skill-seekers package output/react --target langchain
# 生成:output/react-langchain.json
导出的 JSON 文件中,每个 Document 都包含 page_content(文档内容)和 metadata(元数据,包括来源 URL、分类、内容类型等)。你可以直接将其加载到 LangChain 的检索链中。
项目的 examples/langchain-rag-pipeline/ 目录提供了完整的端到端示例。类似地,examples/llama-index-query-engine/ 提供了 LlamaIndex 的集成示例,examples/pinecone-upsert/ 提供了 Pinecone 向量数据库的写入示例。
进阶:使用 Docker Compose 搭建完整 RAG 基础设施
Skill Seekers 的 docker-compose.yml 已经预置了一个完整的 RAG 基础设施:
# 一键启动:CLI 工具 + MCP 服务器 + Weaviate + Qdrant + ChromaDB
docker-compose up -d
这会启动五个容器化服务。skill-seekers 容器是主 CLI 工具。mcp-server 在 8765 端口提供 MCP HTTP 服务。weaviate 在 8080 端口提供 Weaviate 向量数据库。qdrant 在 6333/6334 端口提供 Qdrant 向量数据库。chroma 在 8000 端口提供 ChromaDB。
所有服务通过内部 bridge 网络互联,向量数据库配置了持久化卷。你可以把文档抓取、增强、向量化入库的全流程在容器环境中完成。
进阶:处理超大型文档(10K-40K+ 页面)
对于 Godot、Unity 这类超大型文档,直接抓取会产生巨大的单一文件。Skill Seekers 提供了文档拆分和路由机制:
# 先评估文档规模
skill-seekers estimate --config configs/godot.json
# 📊 Estimated pages: 40,000
# ⚠️ Large documentation detected!
# 使用 router 策略拆分
skill-seekers split --config configs/godot.json --strategy router --target-pages 5000
# 会生成多个子配置:godot-scripting.json, godot-2d.json, godot-3d.json 等
# 并行抓取所有子技能
# (每个子技能独立抓取,可以并行执行)
# 最后生成路由器技能
skill-seekers generate-router --config-pattern "configs/godot-*.json"
路由器技能的 SKILL.md 包含智能路由逻辑——当用户提问时,路由器会根据关键词将问题导向合适的子技能。比如问到"physics"就路由到 godot-physics,问到"shader"就路由到 godot-shaders。
4.3 AI 编程助手用户的最佳实践
场景:让 Cursor IDE 的 AI 深度理解 React
Cursor、Windsurf 等 IDE 的 AI 助手支持加载上下文规则文件,让 AI 在生成代码时参考特定框架的最佳实践。
# 创建 React 技能
skill-seekers create https://docs.react.dev/
# 打包为 Claude 格式(Cursor 使用相同格式)
skill-seekers package output/react --target claude
# 复制到你的项目中
cp output/react-claude/SKILL.md my-react-project/.cursorrules
对于 Windsurf:
cp output/react-claude/SKILL.md my-project/.windsurf/rules/react.md
对于 Cline(VS Code 扩展):
cp output/react-claude/SKILL.md my-project/.clinerules
项目的 examples/ 目录提供了多个真实示例:cursor-react-skill/ 展示了 Cursor + React 的集成方式,windsurf-fastapi-context/ 展示了 Windsurf + FastAPI 的场景,cline-django-assistant/ 展示了 Cline + Django 的用法。
进阶:使用 install-agent 命令一键安装到所有 IDE
# 一键安装到 Cursor
skill-seekers install-agent output/react/ --agent cursor
# 或者安装到所有支持的 AI 编程助手
skill-seekers install-agent output/react/ --agent all
# 预览安装效果但不实际执行
skill-seekers install-agent output/react/ --agent cursor --dry-run
这条命令会自动将 Skill 文件复制到对应 IDE 的配置目录。支持的 Agent 包括 Claude Code(~/.claude/skills/)、Cursor(.cursor/skills/)、VS Code / Copilot(.github/skills/)、Amp(~/.amp/skills/)、Goose、OpenCode、Windsurf 等。
4.4 团队协作者的最佳实践
场景:在 5 人团队中共享内部 API 文档的 AI 技能
Skill Seekers 支持从私有 Git 仓库获取配置文件,实现团队级别的技能共享:
# 注册团队的私有配置仓库
# (通过 MCP 工具,在 Claude Code 中以自然语言操作更为便利)
skill-seekers config --add-source \
--name team \
--git-url https://github.com/mycompany/skill-configs.git
# 从团队仓库获取配置
skill-seekers config --fetch --source team --config internal-api
# 正常使用
skill-seekers scrape --config internal-api.json
支持 GitHub、GitLab、Gitea、Bitbucket 四种 Git 托管平台,通过对应的环境变量(GITHUB_TOKEN、GITLAB_TOKEN 等)进行认证。
场景:多源知识融合——将文档 + 代码 + PDF 合并为单一知识资产
这是企业场景中最有价值的能力之一。以 Godot 引擎为例,其预设配置展示了如何融合文档和代码两个来源:
配置中定义了 merge_mode: "claude-enhanced",然后在 sources 数组中分别配置了两个来源。第一个来源类型为 documentation,指向 Godot 官方文档网站,配置了 CSS 选择器、URL 过滤规则和内容分类。第二个来源类型为 github,指向 godotengine/godot 仓库,启用了深度代码分析、Issue 获取、Changelog 和 Release 信息抓取,以及特定的文件匹配模式(core/**/*.h、scene/**/*.cpp 等)。
运行统一抓取后,系统会自动执行冲突检测——发现文档中描述但代码中不存在的 API,或者代码中实现但文档中未记录的功能,并在最终输出中以醒目标注呈现。
第五章:核心功能全景透视
在理解了"谁在用"和"怎么用"之后,让我们系统性地审视 Skill Seekers 的功能全景。
5.1 llms.txt 优先检测:10 倍速度提升的秘密
llms.txt 是一个新兴的约定标准——越来越多的技术文档网站开始提供专门为 LLM 消费优化的纯文本文件。Skill Seekers 在正式爬取之前,会依次检查目标域名下是否存在 llms-full.txt、llms.txt 和 llms-small.txt。
如果检测到这些文件,系统直接下载解析即可——完全跳过了逐页爬取、HTML 解析、内容提取等耗时步骤。这在实际效果上意味着:原本需要 15 分钟的抓取任务,可能 1-2 分钟就完成了。
这个功能由三个模块协同实现:llms_txt_detector.py 负责探测文件是否存在,llms_txt_downloader.py 负责高效下载,llms_txt_parser.py 负责解析内容结构。
5.2 异步模式:2-3 倍的爬取加速
对于不支持 llms.txt 的网站,Skill Seekers 提供了基于 httpx 异步引擎的加速模式:
skill-seekers scrape --config configs/react.json --async --workers 8
--async 标志启用异步爬取(底层使用 httpx 的 async/await),--workers 指定并发工作者数量。在实际测试中,同步模式需要 15-45 分钟的任务,异步模式只需 5-15 分钟。
5.3 AI 增强工作流:从 75 行到 500+ 行的质变
基础的文档抓取只能生成结构化的参考文件。AI 增强步骤是将"数据"转化为"知识"的关键。
增强过程由 LLM 驱动——系统将抓取到的文档内容作为上下文,让 LLM 分析后生成一份综合性的 SKILL.md 文件。这份文件不是简单的摘要或合并,而是包含了以下几个维度的内容:核心概念和设计理念的阐述、带注释的代码示例和最佳实践、常见错误和解决方案、快速参考索引、以及从基础到进阶的导航建议。
系统支持三个 LLM 平台执行增强——Claude Sonnet 4(通过 Anthropic API 或 LOCAL 模式)、Gemini 2.0 Flash(通过 Google API)、GPT-4o(通过 OpenAI API)。LOCAL 模式的独特之处在于它利用 Claude Code Max 的本地执行能力,无需 API Key 也无需额外费用。
此外,通过 ANTHROPIC_BASE_URL 环境变量,中国大陆用户可以配置 GLM-4.7 等兼容 Claude 协议的国产 API 端点来完成增强。
5.4 冲突检测:文档与代码的一致性审计
当同时从文档和代码两个来源获取信息时,Skill Seekers 的冲突检测引擎会自动识别四类不一致。
红色:Missing in code(高优先级)。 文档中描述了某个 API 或功能,但在代码中找不到对应实现。这通常意味着文档描述了尚未实现的特性,或者该功能已被移除但文档未更新。
黄色:Missing in docs(中优先级)。 代码中实现了某个功能,但文档中完全没有提及。这是最常见的文档欠缺类型。
橙色:Signature mismatch(警告级别)。 同一个函数在文档和代码中有不同的参数列表、类型定义或返回值。
灰色:Description mismatch(信息级别)。 文档描述与代码注释对同一功能给出了不同的解释文字。
这个能力不仅提升了生成技能的可靠性,本身也是一个独立的文档质量审计工具。
5.5 MCP 集成:用自然语言驱动整个工作流
MCP(Model Context Protocol)是 Anthropic 推出的协议标准,用于让 AI 助手与外部工具交互。Skill Seekers 的 MCP 服务器暴露了 26 个工具,分为四类。
核心工具(9 个):list_configs, generate_config, validate_config, estimate_pages, scrape_docs, package_skill, upload_skill, enhance_skill, install_skill。
扩展工具(10 个):scrape_github, scrape_pdf, unified_scrape, merge_sources, detect_conflicts, add_config_source, fetch_config, list_config_sources, remove_config_source, split_config。
向量数据库工具(4 个):export_to_chroma, export_to_weaviate, export_to_faiss, export_to_qdrant。
云存储工具(3 个):cloud_upload, cloud_download, cloud_list。
配置好 MCP 后,你可以在 Claude Code 中直接用自然语言完成一切:
用户:帮我抓取 Svelte 文档并打包为 Claude Skill
Claude Code:[调用 generate_config] → [调用 scrape_docs] → [调用 enhance_skill] → [调用 package_skill]
✅ 已创建 output/svelte.zip,可以上传到 Claude
MCP 服务器支持两种传输模式——stdio 模式(用于 Claude Code、VS Code + Cline 的本地集成)和 HTTP 模式(用于 Cursor、Windsurf、IntelliJ 的网络集成,默认端口 8765)。
5.6 断点续传:永不丢失进度
考虑到大型文档的抓取可能需要数十分钟甚至数小时,Skill Seekers 实现了作业恢复机制。系统以可配置的间隔(默认 60 秒)自动保存进度。如果中途意外中断,可以查看并恢复:
# 查看所有可恢复的作业
skill-seekers resume --list
# 从中断处继续
skill-seekers resume github_react_20260117_143022
旧作业会在 7 天后自动清理,不会无限占用磁盘。
第六章:架构原理深度剖析
从这一章开始,我们深入到项目的内部设计中。
6.1 项目代码结构解析
Skill Seekers v3.1.3 的 development 分支采用 src 布局(即源码位于 src/skill_seekers/ 而非项目根目录),这是 Python 社区推荐的现代项目结构,通过 pyproject.toml 的 [tool.setuptools] package-dir = {"" = "src"} 配置实现。
核心源码分为六个子包。cli/ 是最庞大的模块,包含约 75 个 Python 文件和 5 个子目录(adaptors、arguments、parsers、presets、storage),承载了几乎所有的业务逻辑——从爬虫到分析到增强到打包。mcp/ 实现 MCP 协议服务器,将 CLI 能力暴露为 26 个可通过自然语言调用的工具。embedding/ 包含嵌入向量相关的模型(models.py)、生成器(generator.py)、缓存(cache.py)和服务器(server.py)四个模块。workflows/ 存放 64 个 YAML 格式的增强工作流预设。sync/ 处理同步监控逻辑,基于 schedule 库实现定时更新。benchmark/ 提供性能基准测试工具。
6.2 五阶段数据处理管线
Skill Seekers 的数据流遵循一条清晰的五阶段管线:Ingest → Analyze → Structure → Enhance → Export。
Ingest(摄取)阶段: 这是整个管线的入口,由三个专用爬取器负责。doc_scraper.py 处理文档网站,内部通过 llms_txt_detector.py 优先检测 llms.txt 快速通道,未命中时退回到基于 BeautifulSoup4 的 HTML 解析模式,markdown_cleaner.py 负责将 HTML 转化为干净的 Markdown。github_scraper.py 处理 GitHub 仓库,采用三流架构(Code / Docs / Insights),其中 Code 流使用 unified_codebase_analyzer.py 进行 AST 级别的深度代码分析,Docs 流提取 README 和文档文件,Insights 流通过 PyGithub 调用 GitHub API 获取 Issues、Labels、Stars 等社区数据。pdf_scraper.py 处理 PDF 文件,底层基于 PyMuPDF 引擎,叠加了三种互补的代码检测方法(字体特征、缩进模式、模式匹配)和支持 19+ 种语言的识别能力。
Analyze(分析)阶段: 这一阶段对原始内容进行深度语义分析。code_analyzer.py 执行 AST 解析(支持 Python、JavaScript、TypeScript、Java、C++、Go),提取函数签名、类结构、方法参数和类型信息。architectural_pattern_detector.py 识别工厂模式、单例模式、观察者模式等设计模式。dependency_analyzer.py 基于 networkx 构建依赖关系图谱。conflict_detector.py 执行前文描述的四级冲突检测。signal_flow_analyzer.py 分析代码中的信号和事件流。config_extractor.py