普通视图

发现新文章,点击刷新页面。
今天 — 2026年1月31日首页

大模型发展史-01

2026年1月30日 23:01

前言

2017年,一篇论文悄然发表,题为《Attention Is All You Need》。

当时没人预料到,这篇论文中提出的 Transformer 架构,会在短短几年内彻底改变人工智能的格局。

五年后的2022年11月30日,ChatGPT 发布。五天内,用户突破100万。两个月内,用户突破1亿。

这是互联网历史上增长最快的应用,也是人工智能发展史上的重要里程碑。

从默默无闻到席卷全球,大语言模型经历了怎样的进化之路?让我们一起回顾这段激动人心的技术演进史。


1. 什么是 Transformer

Transformer 是一种完全基于注意力机制的神经网络架构,于2017年由 Google 团队提出。

核心创新

特点 说明
Self-Attention 自注意力机制,捕捉长距离依赖
并行计算 可并行训练,大幅提升效率
可扩展性 为后续大模型奠定基础

核心思想

// Transformer 的核心:Self-Attention
class Transformer {
  attention(Q, K, V) {
    // Q (Query)、K (Key)、V (Value)
    const scores = Q @ K.T / Math.sqrt(d_k);  // 计算注意力分数
    const weights = softmax(scores);           // 归一化
    return weights @ V;                        // 加权求和
  }
}

重要术语

术语 解释
预训练 用大量无标注数据训练基础模型
微调 针对特定任务用小数据集优化模型
RLHF 人类反馈强化学习,对齐人类偏好
少样本学习 只需几个例子就能学会新任务

2. 案例

案例 1:GPT 系列的进化之路

让我们看看 GPT 系列是如何一步步进化的:

代际 发布时间 参数量 能力突破
GPT-1 2018.06 117M 预训练范式
GPT-2 2019.02 1.5B 零样本生成
GPT-3 2020.05 175B 少样本学习
GPT-3.5 2022.11 未知 对话能力
GPT-4 2023.03 ~1.7T 多模态+推理
GPT-4o 2024.05 未知 原生多模态

关键突破:GPT-3 的少样本学习

const prompt = `
翻译以下句子成中文:
Example 1: Hello world -> 你好世界
Example 2: How are you -> 你好吗
Input: Good morning -> ?
`;
// GPT-3: 早上好
// 没有专门训练,就能学会翻译任务

案例 2:ChatGPT 的 AI iPhone 时刻

发布时间:2022年11月30日

突破性改进

训练流程:
1. 预训练(学习知识)
   ↓
2. 有监督微调(学习指令)
   ↓
3. 奖奖模型(学习人类偏好)
   ↓
4. 强化学习(优化输出)

成果

  • 对话能力大幅提升
  • 指令遵循能力强
  • 多轮对话流畅
  • 5天用户破100万

案例 3:2023年百花齐放

闭源模型三强鼎立

模型 公司 核心优势
GPT-4 OpenAI 多模态、推理能力强
Claude 3 Anthropic 超长上下文(200K)
Gemini Google 原生多模态

开源模型快速追赶

模型 组织 参数 特点
Llama 3 Meta 8B/70B 性能强劲
Qwen 阿里云 7B/14B/72B 中文优秀
Mistral Mistral AI 7B 效率之王

中国大模型崛起

模型 公司 特色
文心一言 百度 知识图谱增强
通义千问 阿里云 开源友好
讯飞星火 科大讯飞 语音能力强
DeepSeek 幻方量化 性价比高

案例 4:2024年的三大趋势

趋势1:开源模型追平闭源

2024年初:Llama 2 70B  GPT-3.5
2024年中:Llama 3 70B 接近 GPT-4
2024年底:Qwen 2.5、DeepSeek V3 追平闭源

趋势2:多模态成为标配

  • GPT-4o:原生多模态
  • Claude 3.5:强大的视觉能力
  • Gemini:从一开始就是多模态

趋势3:智能体技术成熟

// Agent 能力的进化
2022:简单对话
2023:工具调用
2024:
  ├── 复杂任务规划
  ├── 多智能体协作
  ├── 自主学习和改进
  └── 真正的"AI 员工"

总结

  1. 规模即质量——更大的模型通常表现更好
  2. 数据是关键——高质量训练数据至关重要
  3. 架构创新——Transformer 是核心突破
  4. 开源加速——开源模型推动技术普及

什么是大语言模型-00

2026年1月30日 22:56

前言

你有没有想过,当你问 ChatGPT 一个问题时,它是如何"思考"并给出回答的?

今天天气怎么样?——抱歉,我无法获取实时天气信息。 请用 JavaScript 写一个快速排序——几秒钟内,代码就出现在屏幕上。

同样是 AI,为什么能写代码却不能查天气?大语言模型的"知识"从哪里来?它是真的"理解"我们的话吗?

这些问题,正是我们探索大语言模型(Large Language Model,LLM)世界的起点。


1. 什么是大语言模型

大语言模型(LLM) 是一种经过海量文本数据训练的深度学习模型,能够理解和生成人类语言。

关键特征

特征 说明 例子
大规模训练 使用 TB 级文本数据 GPT-4 训练了约 1 万亿 tokens
深度神经网络 数十亿到数万亿参数 GPT-3 有 1750 亿参数
通用能力 不需要专门训练就能完成多种任务 翻译、写作、编程、推理

通俗理解

想象一下:

  • 你阅读了互联网上几乎所有的文本
  • 你记住了其中的模式、规律和知识
  • 当有人问你问题时,你能根据记忆生成回答

这就是大语言模型做的事情!

核心工作原理

LLM 的本质是一个文字接龙机器

输入: "今天天气"
LLM 预测下一个词可能是:
- "真好"    (概率 30%)
- "很热"    (概率 25%)
- "怎么样"  (概率 20%)

训练流程

┌─────────────────────────────────────────┐
│            LLM 训练流程                   │
├─────────────────────────────────────────┤
│                                         │
│  1. 数据收集                             │
│     ├── 网页文本                         │
│     ├── 书籍文章                         │
│     └── 代码库                           │
│                                         │
│  2. 预训练                               │
│     ├── 学习语言模式                     │
│     ├── 学习世界知识                     │
│     └── 学习逻辑推理                     │
│                                         │
│  3. 微调                                 │
│     ├── 对齐人类偏好                     │
│     ├── 遵循指令                         │
│     └── 安全性训练                       │
│                                         │
└─────────────────────────────────────────┘

四大核心能力

1. 语言理解

  • 理解文本含义
  • 识别情感倾向
  • 提取关键信息

2. 语言生成

  • 写文章、写代码
  • 创意写作
  • 总结提炼

3. 逻辑推理

  • 数学计算
  • 逻辑推理
  • 问题解决

4. 少样本学习

  • 看几个例子就能学会新任务
  • 不需要重新训练

2. 案例

案例 1:少样本学习的神奇之处

让我们看看 LLM 如何通过几个例子学会新任务:

const prompt = `
例子1:
输入:苹果
输出:水果

例子2:
输入:胡萝卜
输出:蔬菜

输入:香蕉
输出:?
`;
// LLM 能推断:香蕉 → 水果

image.png

解析:无需重新训练,只需几个示例,LLM 就能理解分类规律并应用到新问题。

案例 2:代码生成能力

输入:"请用 JavaScript 写一个快速排序"

LLM 输出

function quickSort(arr) {
  if (arr.length <= 1) {
    return arr;
  }
  const pivot = arr[Math.floor(arr.length / 2)];
  const left = arr.filter(x => x < pivot);
  const middle = arr.filter(x => x === pivot);
  const right = arr.filter(x => x > pivot);
  return [...quickSort(left), ...middle, ...quickSort(right)];
}

解析:LLM 从训练数据中学会了编程模式和算法逻辑,能够生成可运行的代码。

案例 3:发现 LLM 的局限性

测试 1:实时信息

用户: "今天天气怎么样?"
LLM: "抱歉,我无法获取实时天气信息。"

测试 2:精确计算

用户: "12345 × 67890 = ?"
LLM: "大约是 83,000,000 左右"
实际: 838,102,050

测试 3:知识截止

用户: "谁赢得了2024年奥运会?"
LLM: "抱歉,我的知识截止到2023年..."

解析:这些测试揭示了 LLM 的三大局限——知识截止、幻觉问题、无法访问实时信息。

案例 4:实际项目中的调用

在本项目的后端代码中,LLM 调用是这样实现的:

async chat(request: {
  question: string;    // 用户的问题
  model: string;       // 使用的模型(如 qwen-plus)
  apiKey: string;      // API 密钥
}) {
  // 调用阿里云百炼的 LLM
  const response = await axios.post(
    'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions',
    {
      model: request.model,
      messages: [{ role: 'user', content: request.question }]
    }
  );

  return response.data.choices[0].message.content;
}

解析:通过 HTTP API 调用,将用户问题发送给 LLM,获取生成的回复。


总结

  1. LLM 是文字接龙机器——核心原理是预测下一个词
  2. LLM 有强大但有限的能力——理解、生成、推理、学习都很强,但并非万能
  3. LLM 的知识来自训练数据——它学习的是模式和规律,而非简单记忆
  4. LLM 会犯错——幻觉、知识截止、计算不精确是常见问题
❌
❌