大模型发展史-01
前言
2017年,一篇论文悄然发表,题为《Attention Is All You Need》。
当时没人预料到,这篇论文中提出的 Transformer 架构,会在短短几年内彻底改变人工智能的格局。
五年后的2022年11月30日,ChatGPT 发布。五天内,用户突破100万。两个月内,用户突破1亿。
这是互联网历史上增长最快的应用,也是人工智能发展史上的重要里程碑。
从默默无闻到席卷全球,大语言模型经历了怎样的进化之路?让我们一起回顾这段激动人心的技术演进史。
1. 什么是 Transformer
Transformer 是一种完全基于注意力机制的神经网络架构,于2017年由 Google 团队提出。
核心创新
| 特点 | 说明 |
|---|---|
| Self-Attention | 自注意力机制,捕捉长距离依赖 |
| 并行计算 | 可并行训练,大幅提升效率 |
| 可扩展性 | 为后续大模型奠定基础 |
核心思想
// Transformer 的核心:Self-Attention
class Transformer {
attention(Q, K, V) {
// Q (Query)、K (Key)、V (Value)
const scores = Q @ K.T / Math.sqrt(d_k); // 计算注意力分数
const weights = softmax(scores); // 归一化
return weights @ V; // 加权求和
}
}
重要术语
| 术语 | 解释 |
|---|---|
| 预训练 | 用大量无标注数据训练基础模型 |
| 微调 | 针对特定任务用小数据集优化模型 |
| RLHF | 人类反馈强化学习,对齐人类偏好 |
| 少样本学习 | 只需几个例子就能学会新任务 |
2. 案例
案例 1:GPT 系列的进化之路
让我们看看 GPT 系列是如何一步步进化的:
| 代际 | 发布时间 | 参数量 | 能力突破 |
|---|---|---|---|
| GPT-1 | 2018.06 | 117M | 预训练范式 |
| GPT-2 | 2019.02 | 1.5B | 零样本生成 |
| GPT-3 | 2020.05 | 175B | 少样本学习 |
| GPT-3.5 | 2022.11 | 未知 | 对话能力 |
| GPT-4 | 2023.03 | ~1.7T | 多模态+推理 |
| GPT-4o | 2024.05 | 未知 | 原生多模态 |
关键突破:GPT-3 的少样本学习
const prompt = `
翻译以下句子成中文:
Example 1: Hello world -> 你好世界
Example 2: How are you -> 你好吗
Input: Good morning -> ?
`;
// GPT-3: 早上好
// 没有专门训练,就能学会翻译任务
案例 2:ChatGPT 的 AI iPhone 时刻
发布时间:2022年11月30日
突破性改进:
训练流程:
1. 预训练(学习知识)
↓
2. 有监督微调(学习指令)
↓
3. 奖奖模型(学习人类偏好)
↓
4. 强化学习(优化输出)
成果:
- 对话能力大幅提升
- 指令遵循能力强
- 多轮对话流畅
- 5天用户破100万
案例 3:2023年百花齐放
闭源模型三强鼎立:
| 模型 | 公司 | 核心优势 |
|---|---|---|
| GPT-4 | OpenAI | 多模态、推理能力强 |
| Claude 3 | Anthropic | 超长上下文(200K) |
| Gemini | 原生多模态 |
开源模型快速追赶:
| 模型 | 组织 | 参数 | 特点 |
|---|---|---|---|
| Llama 3 | Meta | 8B/70B | 性能强劲 |
| Qwen | 阿里云 | 7B/14B/72B | 中文优秀 |
| Mistral | Mistral AI | 7B | 效率之王 |
中国大模型崛起:
| 模型 | 公司 | 特色 |
|---|---|---|
| 文心一言 | 百度 | 知识图谱增强 |
| 通义千问 | 阿里云 | 开源友好 |
| 讯飞星火 | 科大讯飞 | 语音能力强 |
| DeepSeek | 幻方量化 | 性价比高 |
案例 4:2024年的三大趋势
趋势1:开源模型追平闭源
2024年初:Llama 2 70B ≈ GPT-3.5
2024年中:Llama 3 70B 接近 GPT-4
2024年底:Qwen 2.5、DeepSeek V3 追平闭源
趋势2:多模态成为标配
- GPT-4o:原生多模态
- Claude 3.5:强大的视觉能力
- Gemini:从一开始就是多模态
趋势3:智能体技术成熟
// Agent 能力的进化
2022:简单对话
2023:工具调用
2024:
├── 复杂任务规划
├── 多智能体协作
├── 自主学习和改进
└── 真正的"AI 员工"
总结
- 规模即质量——更大的模型通常表现更好
- 数据是关键——高质量训练数据至关重要
- 架构创新——Transformer 是核心突破
- 开源加速——开源模型推动技术普及