普通视图

发现新文章，点击刷新页面。

今天 — 2026年1月31日首页

大模型发展史-01

掘金前端

作者一诺滚雪球

2026年1月30日 23:01

前言

2017年，一篇论文悄然发表，题为《Attention Is All You Need》。

当时没人预料到，这篇论文中提出的 Transformer 架构，会在短短几年内彻底改变人工智能的格局。

五年后的2022年11月30日，ChatGPT 发布。五天内，用户突破100万。两个月内，用户突破1亿。

这是互联网历史上增长最快的应用，也是人工智能发展史上的重要里程碑。

从默默无闻到席卷全球，大语言模型经历了怎样的进化之路？让我们一起回顾这段激动人心的技术演进史。

1. 什么是 Transformer

Transformer 是一种完全基于注意力机制的神经网络架构，于2017年由 Google 团队提出。

核心创新

特点	说明
Self-Attention	自注意力机制，捕捉长距离依赖
并行计算	可并行训练，大幅提升效率
可扩展性	为后续大模型奠定基础

核心思想

// Transformer 的核心：Self-Attention
class Transformer {
  attention(Q, K, V) {
    // Q (Query)、K (Key)、V (Value)
    const scores = Q @ K.T / Math.sqrt(d_k);  // 计算注意力分数
    const weights = softmax(scores);           // 归一化
    return weights @ V;                        // 加权求和
  }
}

重要术语

术语	解释
预训练	用大量无标注数据训练基础模型
微调	针对特定任务用小数据集优化模型
RLHF	人类反馈强化学习，对齐人类偏好
少样本学习	只需几个例子就能学会新任务

2. 案例

案例 1：GPT 系列的进化之路

让我们看看 GPT 系列是如何一步步进化的：

代际	发布时间	参数量	能力突破
GPT-1	2018.06	117M	预训练范式
GPT-2	2019.02	1.5B	零样本生成
GPT-3	2020.05	175B	少样本学习
GPT-3.5	2022.11	未知	对话能力
GPT-4	2023.03	~1.7T	多模态+推理
GPT-4o	2024.05	未知	原生多模态

关键突破：GPT-3 的少样本学习

const prompt = `
翻译以下句子成中文：
Example 1: Hello world -> 你好世界
Example 2: How are you -> 你好吗
Input: Good morning -> ?
`;
// GPT-3: 早上好
// 没有专门训练，就能学会翻译任务

案例 2：ChatGPT 的 AI iPhone 时刻

发布时间：2022年11月30日

突破性改进：

训练流程：
1. 预训练（学习知识）
   ↓
2. 有监督微调（学习指令）
   ↓
3. 奖奖模型（学习人类偏好）
   ↓
4. 强化学习（优化输出）

成果：

对话能力大幅提升
指令遵循能力强
多轮对话流畅
5天用户破100万

案例 3：2023年百花齐放

闭源模型三强鼎立：

模型	公司	核心优势
GPT-4	OpenAI	多模态、推理能力强
Claude 3	Anthropic	超长上下文(200K)
Gemini	Google	原生多模态

开源模型快速追赶：

模型	组织	参数	特点
Llama 3	Meta	8B/70B	性能强劲
Qwen	阿里云	7B/14B/72B	中文优秀
Mistral	Mistral AI	7B	效率之王

中国大模型崛起：

模型	公司	特色
文心一言	百度	知识图谱增强
通义千问	阿里云	开源友好
讯飞星火	科大讯飞	语音能力强
DeepSeek	幻方量化	性价比高

案例 4：2024年的三大趋势

趋势1：开源模型追平闭源

2024年初：Llama 2 70B ≈ GPT-3.5
2024年中：Llama 3 70B 接近 GPT-4
2024年底：Qwen 2.5、DeepSeek V3 追平闭源

趋势2：多模态成为标配

GPT-4o：原生多模态
Claude 3.5：强大的视觉能力
Gemini：从一开始就是多模态

趋势3：智能体技术成熟

// Agent 能力的进化
2022：简单对话
2023：工具调用
2024：
  ├── 复杂任务规划
  ├── 多智能体协作
  ├── 自主学习和改进
  └── 真正的"AI 员工"

总结

规模即质量——更大的模型通常表现更好
数据是关键——高质量训练数据至关重要
架构创新——Transformer 是核心突破
开源加速——开源模型推动技术普及

什么是大语言模型-00

掘金前端

作者一诺滚雪球

2026年1月30日 22:56

前言

你有没有想过，当你问 ChatGPT 一个问题时，它是如何"思考"并给出回答的？

今天天气怎么样？——抱歉，我无法获取实时天气信息。请用 JavaScript 写一个快速排序——几秒钟内，代码就出现在屏幕上。

同样是 AI，为什么能写代码却不能查天气？大语言模型的"知识"从哪里来？它是真的"理解"我们的话吗？

这些问题，正是我们探索大语言模型（Large Language Model，LLM）世界的起点。

1. 什么是大语言模型

大语言模型（LLM） 是一种经过海量文本数据训练的深度学习模型，能够理解和生成人类语言。

关键特征

特征	说明	例子
大规模训练	使用 TB 级文本数据	GPT-4 训练了约 1 万亿 tokens
深度神经网络	数十亿到数万亿参数	GPT-3 有 1750 亿参数
通用能力	不需要专门训练就能完成多种任务	翻译、写作、编程、推理

通俗理解

想象一下：

你阅读了互联网上几乎所有的文本
你记住了其中的模式、规律和知识
当有人问你问题时，你能根据记忆生成回答

这就是大语言模型做的事情！

核心工作原理

LLM 的本质是一个文字接龙机器：

输入: "今天天气"
LLM 预测下一个词可能是:
- "真好"    (概率 30%)
- "很热"    (概率 25%)
- "怎么样"  (概率 20%)

训练流程：

┌─────────────────────────────────────────┐
│            LLM 训练流程                   │
├─────────────────────────────────────────┤
│                                         │
│  1. 数据收集                             │
│     ├── 网页文本                         │
│     ├── 书籍文章                         │
│     └── 代码库                           │
│                                         │
│  2. 预训练                               │
│     ├── 学习语言模式                     │
│     ├── 学习世界知识                     │
│     └── 学习逻辑推理                     │
│                                         │
│  3. 微调                                 │
│     ├── 对齐人类偏好                     │
│     ├── 遵循指令                         │
│     └── 安全性训练                       │
│                                         │
└─────────────────────────────────────────┘

四大核心能力

1. 语言理解

理解文本含义
识别情感倾向
提取关键信息

2. 语言生成

写文章、写代码
创意写作
总结提炼

3. 逻辑推理

数学计算
逻辑推理
问题解决

4. 少样本学习

看几个例子就能学会新任务
不需要重新训练

2. 案例

案例 1：少样本学习的神奇之处

让我们看看 LLM 如何通过几个例子学会新任务：

const prompt = `
例子1：
输入：苹果
输出：水果

例子2：
输入：胡萝卜
输出：蔬菜

输入：香蕉
输出：？
`;
// LLM 能推断：香蕉 → 水果

解析：无需重新训练，只需几个示例，LLM 就能理解分类规律并应用到新问题。

案例 2：代码生成能力

输入："请用 JavaScript 写一个快速排序"

LLM 输出：

function quickSort(arr) {
  if (arr.length <= 1) {
    return arr;
  }
  const pivot = arr[Math.floor(arr.length / 2)];
  const left = arr.filter(x => x < pivot);
  const middle = arr.filter(x => x === pivot);
  const right = arr.filter(x => x > pivot);
  return [...quickSort(left), ...middle, ...quickSort(right)];
}

解析：LLM 从训练数据中学会了编程模式和算法逻辑，能够生成可运行的代码。

案例 3：发现 LLM 的局限性

测试 1：实时信息

用户: "今天天气怎么样？"
LLM: "抱歉，我无法获取实时天气信息。"

测试 2：精确计算

用户: "12345 × 67890 = ？"
LLM: "大约是 83,000,000 左右"
实际: 838,102,050

测试 3：知识截止

用户: "谁赢得了2024年奥运会？"
LLM: "抱歉，我的知识截止到2023年..."

解析：这些测试揭示了 LLM 的三大局限——知识截止、幻觉问题、无法访问实时信息。

案例 4：实际项目中的调用

在本项目的后端代码中，LLM 调用是这样实现的：

async chat(request: {
  question: string;    // 用户的问题
  model: string;       // 使用的模型（如 qwen-plus）
  apiKey: string;      // API 密钥
}) {
  // 调用阿里云百炼的 LLM
  const response = await axios.post(
    'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions',
    {
      model: request.model,
      messages: [{ role: 'user', content: request.question }]
    }
  );

  return response.data.choices[0].message.content;
}

解析：通过 HTTP API 调用，将用户问题发送给 LLM，获取生成的回复。

总结

LLM 是文字接龙机器——核心原理是预测下一个词
LLM 有强大但有限的能力——理解、生成、推理、学习都很强，但并非万能
LLM 的知识来自训练数据——它学习的是模式和规律，而非简单记忆
LLM 会犯错——幻觉、知识截止、计算不精确是常见问题