给普通人的 AI 黑话翻译手册：一文看懂 LLM、RAG、Agent 到底是什么

作者 Bernard_Li

2026年4月16日 23:21

给普通人的 AI 黑话翻译手册：一文看懂 LLM、RAG、Agent 到底是什么

这两年，人工智能像突然学会了"说人话"一样冲进了每个人的工作和生活。有人用它写文案，有人用它做表格、查资料、写代码、做客服。与此同时，一堆原本只在技术圈里流行的词，也开始频繁出现在产品发布会、行业新闻和公司汇报里：LLM、RAG、Embedding、向量数据库、微调、Agent、幻觉、上下文窗口……

很多人第一次看到这些词时，都会有一种共同感受：每个字都认识，连在一起就看不懂。

这篇文章就是写给这类读者的。你不需要会编程，也不需要有算法背景，只要把它当成一本"AI 黑话翻译手册"来看就行。我的目标不是把你训练成工程师，而是帮你建立一张足够清晰的地图：这些词分别是什么意思，它们在整套 AI 系统里干什么，彼此之间又是什么关系。

一、先把最基础的四个词分清：AI、机器学习、深度学习、神经网络

很多人一开始就被最基础的几个词绕晕了：人工智能、机器学习、深度学习、神经网络。它们不是并列关系，而更像一层层套着的盒子。

人工智能（AI） 是最大的那个框。凡是让机器表现出某种"像人一样"的智能能力，比如识别图片、理解语言、做判断、生成内容，都可以放进 AI 里。
机器学习（Machine Learning） 可以理解成：不给机器写死所有规则，而是让它从数据里自己学规律。传统编程更像"人先把规则写好"；机器学习更像"给机器很多例子，让它自己总结模式"。
深度学习（Deep Learning） 是机器学习里最火的一支。它依赖多层神经网络来学习复杂模式，所以叫"深度"。很多现代 AI 能力，比如语音识别、图像识别、大模型，背后都离不开深度学习。
神经网络（Neural Network） 则可以看成深度学习的骨架。它借用了"大脑神经元连接"的启发，用数学网络去完成"输入—加工—输出"的过程。

💡 只记一句话就够了：AI 是总称，机器学习是方法，深度学习是更强的一类方法，神经网络是深度学习的骨架。

graph TD
    subgraph AI [人工智能 AI]
        subgraph ML [机器学习 Machine Learning]
            subgraph DL [深度学习 Deep Learning]
                NN(("神经网络<br>Neural Network"))
            end
        end
    end
    style AI fill:#e1f5fe,stroke:#0288d1,stroke-width:2px
    style ML fill:#b3e5fc,stroke:#0288d1,stroke-width:2px
    style DL fill:#81d4fa,stroke:#0288d1,stroke-width:2px
    style NN fill:#4fc3f7,stroke:#0288d1,stroke-width:2px

二、生成式 AI 为什么会突然爆发？

过去很多 AI 系统主要只会"判断"，比如判断这封邮件是不是垃圾邮件、这张图里是不是有车、这笔交易有没有风险。它们更像"分类器"。

但这几年真正爆火的是 生成式 AI（Generative AI） 。它和以前 AI 最大的区别在于：以前很多系统只能告诉你"是什么"，现在它可以直接"写出来""画出来""做出来"。

你输入一句"帮我写一封道歉邮件"，它能给你整封信；你输入一句"画一张赛博朋克风的城市夜景"，它能直接生成图片；你给它一个需求，它甚至能写出一段代码。

所以，生成式 AI 的核心不是"更聪明地判断"，而是"更主动地创造内容"。

graph LR
    subgraph traditional [传统AI模型]
        A1["输入: 一张图片"] --> B1{"分类器"} --> C1["输出标签: 这是一只猫"]
    end
    
    subgraph generative [生成式AI]
        A2["输入 Prompt:<br>画一只赛博朋克的猫"] --> B2{"生成大模型"} --> C2["创造新内容:<br>一张赛博朋克猫的高清图"]
    end
    
    style traditional fill:#f5f5f5,stroke:#9e9e9e
    style generative fill:#f3e5f5,stroke:#9c27b0

三、NLP、LLM、多模态，这几个词差在哪？

1. NLP：让机器理解人类语言

自然语言处理（NLP） 是 AI 和计算机科学中的一个方向，目标是让机器理解、处理和生成人类语言。搜索引擎、语音助手、翻译软件、客服机器人，很多我们习以为常的能力，本质上都属于 NLP。

2. LLM：会读会写的大语言模型

LLM（Large Language Model，大语言模型） 是最近最常见的词之一。你可以把它想象成一个"读过很多东西、特别会组织语言的系统"。它擅长聊天、总结、翻译、写代码、改写文风、提取信息，甚至做一些初步推理。

但它也有局限：知识可能过时，不天然知道你的私有资料，而且有时会一本正经地胡说八道。

3. 多模态：不只懂文字，还会看图听音

现在越来越多模型不只处理文本，还能处理图片、音频、视频。这类模型通常被叫做 多模态模型（Multimodal） 。

💡 所以，如果说传统 LLM 更像"会读会写的人"，那多模态模型更像"既会读写，也会看、会听、会综合判断的人"。

graph LR
    A1["文本 Text"] --> B(("多模态大模型<br>Multimodal LLM"))
    A2["图像 Image"] --> B
    A3["音频 Audio"] --> B
    B --> C1["生成文字回答与推理"]
    B --> C2["生成全新的图像/语音"]

四、Prompt、Token、上下文窗口：为什么同一句话，问法不同结果差很多？

1. Prompt：你怎么问，决定它怎么答

Prompt 就是你给模型的输入，也就是提示词。提示词工程的本质，不是什么神秘咒语，而是：把任务说清楚，把边界讲明白，把结果定义好。

你说"帮我总结一下"，和你说"请用小白能看懂的语言，从背景、核心概念、例子、风险四部分总结，每部分不超过 120 字"，效果通常会差很多。前者太模糊，后者给了明确任务、目标读者和输出格式。

2. Token：AI 眼中的"文字颗粒"

模型处理输入时，会先把文本切成更小的单元，这些单元叫 Token。它不完全等于汉字，也不完全等于单词，但你可以把 token 理解成模型处理文字时的基本颗粒。

3. 上下文窗口：模型一次能看到多少内容

上下文窗口（Context Window） 指的是模型在单次请求里最多能处理多少 token。

你可以把它想象成模型面前的一张工作台。台子越大，一次能摊开的材料就越多；台子越小，就得先删减信息。为什么超长文档要切片？为什么对话太长模型会"忘事"？原因之一就在这里。

五、Embedding、向量数据库、语义搜索：RAG 之前必须懂的三件事

1. Embedding：把内容变成数字坐标

Embedding（向量嵌入） 是很多人第一次听会觉得很抽象的词。简单说，就是把一句话、一段文档甚至一张图片，转换成一串数字。数字本身你看不懂，但这些数字之间的距离，可以反映"语义上像不像"。

例如"苹果手机充电慢怎么办"和"iPhone 电池掉电快如何处理"这两句话，字面并不一样，但语义接近。Embedding 正是为了帮助系统发现这种"意思相近"。

2. 向量数据库：专门存这些坐标的地方

如果 Embedding 是把内容变成坐标，那么 向量数据库（Vector Database） 就是专门存这些坐标，并且能快速找出"谁最像谁"的数据库。

普通数据库更擅长精确查找，向量数据库更擅长找"语义相近"的内容。

3. 语义搜索：不是搜字面，而是搜意思

传统搜索偏关键词匹配；语义搜索则更进一步，它尝试理解"你真正想找什么"。

💡 所以，Embedding + 向量数据库 + 语义搜索，常常是现代 AI 检索系统的三件套。

六、RAG：为什么几乎成了企业 AI 的标配？

终于可以讲最常被提到的 RAG 了。

RAG（Retrieval-Augmented Generation，检索增强生成） ，你可以把它理解成：模型先别急着回答，先去查资料，再根据查到的资料作答。

你可以把 RAG 想成开卷考试系统。普通 LLM 更像"只靠自己记忆答题"；RAG 则是"先翻书，再作答"。这对企业尤其重要，因为企业里有大量模型训练时根本没见过的资料，比如公司制度、产品说明书、内部知识库、合同模板、项目文档。

RAG 的典型流程通常是：

sequenceDiagram
    actor 用户
    participant 检索系统
    participant 企业知识库
    participant 大语言模型
    
    用户->>检索系统: 1. 提问："公司最新报销额度是多少？"
    检索系统->>企业知识库: 2. 向量化检索相关内部文档
    企业知识库-->>检索系统: 3. 返回匹配片段：《员工手册.pdf》
    检索系统->>大语言模型: 4. 组装Prompt (原始问题 + 检索到的内部规则)
    大语言模型-->>用户: 5. 基于文档内容生成精准回答

它的价值很直接：

补私有知识：让模型能用企业自己的资料回答问题
补新知识：资料更新后，不必重训整个模型
降幻觉：回答更容易"有据可依"

当然，RAG 也不是万能药。它可能搜不到关键资料，也可能搜到的片段不完整，或者模型虽然看到了资料，却没有正确引用。所以工程上还会继续讨论"文档切片""重排序""引用""评测"等问题。

七、微调、SFT、RLHF：这是在"改模型"，不是在"查资料"

很多人会把 RAG 和 微调（Fine-tuning） 混在一起。其实它们解决的是两类问题。

1. 微调：让模型更像你想要的样子

监督微调（SFT） 可以理解成：用示例输入和理想输出去继续训练模型，让它更可靠地产生你需要的风格和内容。

所以：

RAG 是在回答前给模型临时补资料（查资料）。
微调是把行为习惯"练进模型里"（改模型）。

适合微调的场景通常包括：固定输出格式、品牌语气、特定行业术语、稳定执行某类任务。但如果你的问题是"知识经常更新"，更适合 RAG，而不是微调。

2. RLHF：让模型更符合人类偏好

你可能还听过一个词：RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习） 。它可以简单理解成：利用人类偏好不断给模型"打分"，让模型慢慢学会什么样的回答更好、更自然、更符合人类习惯。

如果继续用"训练一个助理"来打比方：

graph LR
    A["预训练模型<br>读书破万卷"] -->|SFT 监督微调| B["专项训练模型<br>做标准模拟卷"]
    B -->|RLHF 人类反馈| C["偏好对齐模型<br>老师根据表现打分"]
    C --> D(("懂规矩、听话的<br>AI 助手"))
    
    style A fill:#fff3e0,stroke:#ff9800
    style B fill:#e3f2fd,stroke:#2196f3
    style C fill:#f3e5f5,stroke:#9c27b0
    style D fill:#e8f5e9,stroke:#4caf50

八、Function Calling、Workflow、Agent：让 AI 不只是会说，还会做

1. Function Calling：模型开始学会调用工具

Function Calling（函数调用/工具调用） 的意思是：让模型不只是输出文字，还能去调用外部工具和系统，比如查数据库、调接口、搜订单、发邮件、写日历、执行代码。

这一步很关键，因为真实世界的很多任务，不是"会说"就够了，而是"得真的做"。模型相当于大脑，工具相当于手脚。

2. Workflow：先把流程钉住，再把模型放进去

很多企业一开始做 AI，最稳的路线不是直接上 Agent，而是先做 Workflow（工作流） 。也就是把流程先拆好、定好，再把模型嵌进其中某些步骤里。它的优点是稳定、可控、容易审计。

3. Agent：能规划、能调用工具、能多步完成任务的 AI

Agent（智能体） 是这两年另一个热词。它和普通聊天机器人的最大区别在于：聊天机器人通常是"你问一句，它答一句"；Agent 更像"你给一个目标，它自己拆步骤想办法完成"。

比如你说："帮我做一份某行业的竞品分析。"一个 Agent 可能会列提纲、搜资料、整理信息、生成表格、写总结，甚至在发现证据不够时回头继续查。

💡 但现实里最常见的情况其实不是"全都做成 Agent"，而是：Workflow 打底，Agent 只负责其中更灵活的部分。

graph TD
    subgraph workflow_sys [Workflow 固定工作流]
        W1["步骤1: 提取网页文本"] --> W2["步骤2: LLM翻译"] --> W3["步骤3: 存入数据库"]
    end
    
    subgraph agent_sys [Agent 智能体]
        A1(("Agent核心大脑")) <-->|"设定目标与拆解"| A2["自主规划"]
        A1 <-->|"执行"| A3["调用外部工具 / API"]
        A1 <-->|"记忆与反思"| A4["获取历史信息并调整策略"]
    end
    
    style workflow_sys fill:#f5f5f5,stroke:#9e9e9e
    style agent_sys fill:#e8eaf6,stroke:#3f51b5

九、幻觉、评测、护栏：为什么 AI 不是会回答就够了？

1. 幻觉：一本正经说错话

AI 幻觉（Hallucination） 指的是模型输出了看起来像真的、但其实不准确甚至完全错误的内容。这也是为什么很多人觉得 AI 很强，却又不敢完全信它。它厉害的地方在于表达流畅，危险的地方也在于此：它就算错了，也可能错得非常自信。

2. Evals：不评测，就不知道它到底行不行

很多 AI 产品演示时都很惊艳，但一到真实业务场景就容易翻车。于是就有了 Evals（评测） 。评测的核心不是"这次演示不错"，而是系统化地衡量准确率、幻觉率、检索命中率、格式稳定性、工具调用成功率等指标。

3. Guardrails：给 AI 装护栏

真实业务里，企业不会把 AI 裸奔上线。通常都会加各种 护栏（Guardrails） ，比如敏感信息过滤、高风险问题转人工、强制引用来源、限制工具权限、限制输出格式等。护栏的意义不是让模型变完美，而是让它在出错时别错得太离谱。

十、把这些词串起来，你就看懂现在的大多数 AI 应用了

如果你现在还是觉得词很多，不妨把它们拼成一张架构图：

graph TD
    User["用户输入 Prompt"] --> Token["Token化 & 受到上下文窗口限制"]
    
    Token -->|"如果需要查企业资料"| RAG["RAG 检索增强<br>Embedding + 向量数据库"]
    Token --> LLM
    RAG --> LLM
    
    LLM(("LLM / 多模态模型<br>系统核心大脑<br>经过SFT/RLHF微调"))
    
    LLM -->|"如果需要执行任务"| FC["Function Calling 工具调用"]
    FC --> Actions["Workflow 流程 / Agent 自主规划"]
    
    Actions --> Guard["Guardrails 护栏<br>敏感词过滤 / 拦截幻觉等"]
    LLM --> Guard
    
    Guard --> Output["产生最终的安全输出与执行结果"]
    
    style LLM fill:#e1bee7,stroke:#8e24aa,stroke-width:3px
    style RAG fill:#bbdefb,stroke:#1976d2
    style FC fill:#c8e6c9,stroke:#388e3c
    style Guard fill:#ffcdd2,stroke:#d32f2f

你会发现，AI 并不是某一个神奇按钮，而更像一整套拼装起来的系统工程。

结语：理解术语，不是为了显得专业，而是为了少被忽悠

今天的 AI 圈非常热闹，也非常容易制造概念泡沫。很多时候，术语一多，普通读者就容易被带着跑：好像只要产品里有 LLM、有 RAG、有 Agent，就一定很先进。但其实不是。真正重要的从来不是"用了多少热词"，而是：它到底解决了什么问题，稳定不稳定，成本高不高，是否真的比旧方案更有效。

所以，理解这些术语最大的价值，不是让你去背定义，而是让你在面对一切 AI 方案、AI 新闻和 AI 产品时，能多问几个关键问题：

这是在查资料，还是在改模型？
这是在回答问题，还是能执行任务？
它有没有接外部知识？
有没有做安全控制？
有没有做过评测？

当你开始这样看 AI，你就已经比很多只会复读流行词的人，更接近真正的理解了。

📚 延伸阅读

如果您对 AI 技术的实践细节、更多提效工具和落地案例感兴趣，推荐您进一步阅读这篇非常详细的实战汇总文档：

👉 AI 提效指北：从入门到实践

本文内容致力于用最平白的话翻译复杂的 AI 概念，希望能帮到在 AI 时代探索的你！如果觉得有帮助，欢迎点赞收藏。

普通视图

给普通人的 AI 黑话翻译手册：一文看懂 LLM、RAG、Agent 到底是什么

一、先把最基础的四个词分清：AI、机器学习、深度学习、神经网络

二、生成式 AI 为什么会突然爆发？

三、NLP、LLM、多模态，这几个词差在哪？

1. NLP：让机器理解人类语言

2. LLM：会读会写的大语言模型

3. 多模态：不只懂文字，还会看图听音

四、Prompt、Token、上下文窗口：为什么同一句话，问法不同结果差很多？

1. Prompt：你怎么问，决定它怎么答

2. Token：AI 眼中的"文字颗粒"

3. 上下文窗口：模型一次能看到多少内容

五、Embedding、向量数据库、语义搜索：RAG 之前必须懂的三件事

1. Embedding：把内容变成数字坐标

2. 向量数据库：专门存这些坐标的地方

3. 语义搜索：不是搜字面，而是搜意思

六、RAG：为什么几乎成了企业 AI 的标配？

七、微调、SFT、RLHF：这是在"改模型"，不是在"查资料"

1. 微调：让模型更像你想要的样子

2. RLHF：让模型更符合人类偏好

八、Function Calling、Workflow、Agent：让 AI 不只是会说，还会做

1. Function Calling：模型开始学会调用工具

2. Workflow：先把流程钉住，再把模型放进去

3. Agent：能规划、能调用工具、能多步完成任务的 AI

九、幻觉、评测、护栏：为什么 AI 不是会回答就够了？

1. 幻觉：一本正经说错话

2. Evals：不评测，就不知道它到底行不行

3. Guardrails：给 AI 装护栏

十、把这些词串起来，你就看懂现在的大多数 AI 应用了

结语：理解术语，不是为了显得专业，而是为了少被忽悠

📚 延伸阅读