阅读视图

智能驱动的 Git 提交：基于 Ollama 大模型的规范化提交信息生成方案

2026年1月11日 13:57

摘要
在现代软件开发中，清晰、规范的 Git 提交信息不仅是版本控制的核心组成部分，更是团队协作、代码审查、项目复盘和自动化流程的重要依据。然而，传统手动编写提交信息的方式存在效率低、格式不统一、语义模糊等问题，尤其对新手开发者而言，掌握如 Angular 规范等标准格式门槛较高。

本文提出一种创新性解决方案——利用本地部署的大语言模型（LLM）自动生成符合团队规范的 Git 提交信息。我们基于开源框架 Ollama + Node.js/Express 后端 + React 前端，构建了一套“输入 git diff → 调用 LLM 分析 → 输出标准化提交信息”的智能系统。整个过程无需依赖第三方云服务，保障数据隐私的同时实现高效推理。

文章将从实际痛点出发，深入剖析技术架构设计、核心模块实现逻辑与工程实践细节，并探讨可扩展方向，旨在为开发者提供一套可落地、易集成、高可用的 AI 驱动型 Git 工作流增强工具。

一、为什么需要“智能 Git 提交”？

1.1 当前 Git 提交流程的三大痛点

痛点	具体表现	影响
① 格式混乱，缺乏统一标准	新手常写 `"update file"`、`"fix bug"` 等笼统描述；不同成员使用不同风格（如 feat/feature、doc/docs）	日志难以追溯，CI/CD 自动化解析失败
② 编写耗时，影响开发节奏	开发者需反复思考如何概括改动，打断编码心流	降低整体开发效率
③ 语义不准，沟通成本上升	描述与实际变更不符，导致 Code Review 困难或误判风险	增加协作摩擦，不利于知识沉淀

这些问题在中小型团队或快速迭代项目中尤为突出。而随着 AIGC 技术的发展，大模型强大的自然语言理解与生成能力，恰好可以成为解决上述问题的理想工具。

1.2 解决思路：让 AI 成为你的“提交助手”

我们的核心理念是：

✅ 将 git diff 内容交给本地大模型分析，由其自动识别变更类型并生成符合团队规范的提交信息

该方案具备以下优势：

🛡️ 数据安全：全程运行于本地环境，敏感代码不会上传至任何云端 API；
⚡ 响应迅速：Ollama 支持 GPU 加速推理，平均响应时间 <2s；
📏 格式可控：通过精心设计的提示词（Prompt Engineering），强制输出结构化结果；
💡 学习成本低：即使不懂 Angular 规范的新手，也能一键获得专业级提交信息。

这不仅是一次效率提升，更是一种开发范式的升级 —— 让开发者专注于“做什么”，而非“怎么说”。

二、整体技术架构设计

本系统采用典型的前后端分离架构，各模块职责明确，便于维护与扩展。

+------------------+     HTTP POST /chat      +--------------------+
|                  | -----------------------> |                    |
|   React 前端     |                          |   Express 后端     |
| (Vite + Tailwind)| <----------------------- | (Node.js + CORS)   |
|                  |     JSON { reply }       |                    |
+------------------+                          +----------+---------+
                                                         |
                                                         | gRPC/HTTP
                                                         v
                                                +------------------+
                                                |    Ollama Server   |
                                                | (deepseek-r1:8b)   |
                                                +------------------+

技术栈一览

层级	技术选型	说明
前端	React + Vite + TailwindCSS + Custom Hooks	快速构建响应式 UI，组件解耦
后端	Express.js + CORS 中间件	轻量级 RESTful 接口服务
AI 引擎	Ollama + deepseek-r1:8b	本地部署大模型，支持中文理解和推理
LLM 调用层	LangChain.js	封装 Prompt 构建、链式调用、输出解析
通信协议	HTTP/JSON	前后端交互简洁可靠
跨域处理	cors 中间件	解决开发环境下端口隔离问题

端口规划

服务	地址	功能
前端	`http://localhost:5173`	用户界面展示
后端	`http://localhost:3001`	提供 `/chat` 接口
Ollama	`http://localhost:11434`	大模型推理服务

三、后端实现：打造稳定可靠的 AI 接口服务

3.1 初始化项目与依赖安装

npm init -y
npm install express cors @langchain/ollama @langchain/core axios

创建 index.js 文件作为主入口。

3.2 核心代码解析：构建智能提交生成接口

import express from 'express';
import cors from 'cors';
import { ChatOllama } from '@langchain/ollama';
import { ChatPromptTemplate } from '@langchain/core/prompts';
import { StringOutputParser } from '@langchain/core/output_parsers';

// Step 1: 初始化 Ollama 大模型
const model = new ChatOllama({
  baseUrl: 'http://localhost:11434',     // Ollama 服务地址
  model: 'deepseek-r1:8b',               // 使用 DeepSeek-R1 8B 版本（中文能力强）
  temperature: 0.1,                      // 控制输出随机性，越低越稳定
  numPredict: 200                        // 最多生成 200 token，避免过长
});

// Step 2: 创建 Express 应用
const app = express();
app.use(express.json());                 // 解析请求体中的 JSON 数据
app.use(cors());                         // 允许跨域访问（开发环境）

// Step 3: 定义核心接口 POST /chat
app.post('/chat', async (req, res) => {
  try {
    const { message } = req.body;

    // 参数校验：确保传入有效的 diff 内容
    if (!message || typeof message !== 'string' || message.trim().length === 0) {
      return res.status(400).json({
        error: '无效参数：请提供非空字符串形式的 Git Diff 内容'
      });
    }

    // 构建提示词模板（关键！决定输出质量）
    const prompt = ChatPromptTemplate.fromMessages([
      [
        'system',
        `
你是一位专业的 Git 提交信息生成专家，必须严格遵循 Angular 提交规范。
请根据以下规则生成提交信息：

【输出格式】
<type>: <short summary>

【type 类型说明】
- feat: 新增功能
- fix: 修复缺陷
- docs: 文档变更
- style: 代码格式调整（不影响逻辑）
- refactor: 重构（既不新增功能也不修复 bug）
- test: 测试相关改动
- chore: 构建过程或辅助工具变动

【要求】
1. 仅输出一条提交信息，不要有多余解释；
2. 描述简洁明了，控制在 50 字以内；
3. 准确判断变更类型，避免误分类；
4. 使用中文简述改动内容。
        `.trim()
      ],
      ['human', '{input}']
    ]);

    // 构建调用链：Prompt → Model → Parser
    const chain = prompt.pipe(model).pipe(new StringOutputParser());

    // 执行调用
    const result = await chain.invoke({ input: message });

    // 返回成功响应
    res.status(200).json({ reply: result.trim() });

  } catch (error) {
    console.error('[Server Error]', error.message);
    res.status(500).json({
      error: '服务器内部错误：无法调用大模型，请检查 Ollama 是否正常运行'
    });
  }
});

// 启动服务
app.listen(3001, () => {
  console.log('✅ 后端服务已启动：http://localhost:3001');
});

3.3 关键设计思想解读

✅ 1. 提示词工程（Prompt Engineering）是成败关键

我们通过 system 角色明确设定了：

模型角色定位（Git 提交专家）
输出格式约束（Angular 规范）
字数限制与语言要求
行为边界（禁止额外解释）

这种“强引导式”提示词显著提升了输出的一致性和可用性。

✅ 2. 温度值调优：平衡创造性与稳定性

设置 temperature: 0.1 是为了抑制模型“自由发挥”。对于格式固定的任务，低温度能有效防止输出偏离预期。

✅ 3. 防御性编程：健壮的参数校验机制

提前拦截非法输入，减少无效请求对模型资源的浪费，同时提升用户体验。

✅ 4. 本地化部署：兼顾性能与隐私

相比调用 OpenAI 或通义千问 API，Ollama 的本地部署模式具有：

零网络延迟
无 API 调用费用
绝对的数据安全性（代码不出内网）

特别适合企业级开发场景。

四、前端实现：优雅的交互体验与逻辑封装

4.1 项目初始化（Vite + React + TailwindCSS）

npm init vite
npm install tailwindcss @tailwindcss/vite
npm i axios

配置 tailwind.config.js：

import { defineConfig } from 'vite'
import react from '@vitejs/plugin-react'
import tailwindcss from '@tailwindcss/vite'
// <https://vitejs.dev/config/>export default defineConfig(
{plugins: 
[react(),
tailwindcss()]
,})

更新 index.css：

@tailwind base;
@tailwind components;
@tailwind utilities;

4.2 API 封装：统一接口调用层

创建 src/api/index.js

import axios from 'axios';

const client = axios.create({
  baseURL: 'http://localhost:3001',
  timeout: 15000,
});

export const generateCommitMessage = (diff) => {
  return client.post('/chat', { message: diff });
};

4.3 自定义 Hook：useGitDiff —— 实现业务逻辑复用

创建 src/hooks/useGitDiff.js

import { useState, useEffect } from 'react';
import { generateCommitMessage } from '../api';

export const useGitDiff = (diff) => {
  const [content, setContent] = useState('');
  const [loading, setLoading] = useState(false);
  const [error, setError] = useState('');

  useEffect(() => {
    if (!diff?.trim()) {
      setContent('');
      setError('');
      return;
    }

    const fetch = async () => {
      setLoading(true);
      setError('');
      try {
        const response = await generateCommitMessage(diff);
        setContent(response.data.reply);
      } catch (err) {
        const msg = err.response?.data?.error || '未知错误';
        setError(msg);
        setContent('');
      } finally {
        setLoading(false);
      }
    };

    fetch();
  }, [diff]);

  return { loading, content, error };
};

🔍 Hook 设计哲学：将“状态管理 + 异步请求 + 生命周期控制”封装为可复用单元，使组件只关注 UI 渲染，真正实现关注点分离。

4.4 页面组件：极简 UI，极致体验

src/App.jsx

import { useState } from 'react';
import { useGitDiff } from './hooks/useGitDiff';

export default function App() {
  const [diffInput, setDiffInput] = useState(`diff --git a/src/App.jsx b/src/App.jsx
index 1a2b3c4..5d6e7f8 100644
--- a/src/App.jsx
+++ b/src/App.jsx
@@ -1,5 +1,6 @@
 import { useState } from 'react';
+import { useGitDiff } from './hooks/useGitDiff';
 
 export default function App() {
   const [count, setCount] = useState(0);
`);

  const { loading, content, error } = useGitDiff(diffInput);

  const handleCopy = () => {
    navigator.clipboard.writeText(content).then(
      () => alert('✅ 提交信息已复制到剪贴板！'),
      () => alert('❌ 复制失败')
    );
  };

  return (
    <div className="min-h-screen bg-gradient-to-br from-blue-50 to-indigo-100 py-12 px-4">
      <div className="max-w-5xl mx-auto bg-white rounded-xl shadow-lg overflow-hidden">
        <header className="bg-gradient-to-r from-teal-500 to-cyan-600 text-white p-6 text-center">
          <h1 className="text-3xl font-bold">🤖 Git 提交信息智能生成器</h1>
          <p className="mt-2 opacity-90">基于 Ollama 大模型，本地化 AI 辅助 Commit</p>
        </header>

        <main className="p-8 space-y-8">
          {/* 输入区域 */}
          <section>
            <label className="block text-lg font-semibold text-gray-700 mb-3">
              📄 Git Diff 内容
            </label>
            <textarea
              value={diffInput}
              onChange={(e) => setDiffInput(e.target.value)}
              placeholder="在此粘贴 git diff 输出内容..."
              className="w-full h-60 p-4 border border-gray-300 rounded-lg focus:ring-2 focus:ring-teal-400 focus:border-transparent resize-none font-mono text-sm"
            />
          </section>

          {/* 输出区域 */}
          <section className="border-t pt-6">
            <h2 className="text-xl font-medium text-gray-800 mb-4">✨ 生成的提交信息</h2>

            {loading && (
              <div className="flex items-center space-x-2 text-gray-500">
                <span className="animate-pulse">🧠 正在分析变更...</span>
              </div>
            )}

            {error && (
              <div className="p-4 bg-red-50 text-red-700 rounded border border-red-200">
                ❌ {error}
              </div>
            )}

            {content && !loading && (
              <div className="space-y-3">
                <div className="p-4 bg-gray-50 rounded border font-mono text-gray-800">
                  <code>{content}</code>
                </div>
                <button
                  onClick={handleCopy}
                  className="px-5 py-2 bg-teal-500 hover:bg-teal-600 text-white rounded transition-colors duration-200 flex items-center space-x-1"
                >
                  <span>📋</span>
                  <span>复制提交信息</span>
                </button>
              </div>
            )}
          </section>
        </main>

        <footer className="text-center text-gray-500 text-sm py-4 border-t bg-gray-50">
          Built with ❤️ using Ollama + LangChain + React
        </footer>
      </div>
    </div>
  );
}

4.4 前端亮点总结

特性	说明
🎨 TailwindCSS 实现现代化 UI	快速构建美观、响应式的界面，无需写 CSS
🪝 Custom Hook 封装逻辑	实现业务逻辑复用，提升代码组织性
🕐 加载状态反馈	明确告知用户正在处理，避免“卡死”错觉
⚠️ 错误友好提示	帮助用户快速定位问题
📋 一键复制功能	提升实用性，贴近真实工作流

五、跨域问题与服务启动流程

5.1 跨域问题本质

浏览器出于安全考虑实施“同源策略”（Same-Origin Policy），当前端运行在 5173 端口，而后端在 3001 时，默认无法通信。

5.2 解决方案

已在后端启用 cors() 中间件：

app.use(cors());

⚠️ 生产环境中建议指定白名单：
app.use(cors({ origin: 'https://yourdomain.com' }));

5.3 完整启动流程

# 1. 启动 Ollama 并下载模型（首次需联网）
ollama run deepseek-r1:8b

# 2. 启动后端服务
cd service && nodemon index.js

# 3. 启动前端服务
cd frontend && npm run dev

✅ 成功标志：前端页面打开，输入 diff 可收到生成结果。

六、未来扩展方向与优化建议

6.1 功能增强

方向	说明
🔌 集成 Git 命令行工具	使用 `simple-git` 自动获取 `git diff`，实现“一键生成”
🧩 支持多文件批量分析	一次处理多个变更文件，生成综合提交信息
🎯 自定义提交规范	允许团队上传自己的 commit rule 配置（如加入 `perf:`、`security:`）
📚 历史记录持久化	利用 `localStorage` 存储常用提交模板，支持回溯与复用

6.2 性能优化

优化项	实现方式
🧠 模型轻量化	替换为 `qwen:0.5b` 或 `phi3:mini` 等小型模型，加快推理速度
💾 缓存机制	对相同 diff 内容缓存结果，避免重复调用
🌊 流式输出（Streaming）	使用 LangChain 的 `.stream()` 方法，逐步渲染生成内容，减少等待感
🧰 CLI 工具化	构建命令行版本，直接嵌入 Git 工作流（如 `git smart-commit`）

七、总结：从“人工撰写”到“AI 协作”的跃迁

本文完整实现了一个基于 Ollama + Express + React 的智能 Git 提交信息生成系统，其核心价值体现在以下几个维度：

维度	价值体现
🔐 数据安全优先	本地部署，代码永不离境，满足企业合规需求
🧩 架构清晰可维护	分层设计 + Hook 封装，易于二次开发与集成
🤖 AI 赋能提效	大模型精准理解代码变更，输出专业级提交文案
🛠️ 开箱即用	代码完整、注释详尽，开发者可快速上手

这套系统不仅能帮助新手快速掌握提交规范，更能为资深工程师节省每日重复劳动的时间。更重要的是，它标志着我们正从“纯人工操作”迈向“人机协同开发”的新时代。

📣 结语：让每一次 Commit 都更有意义

“好的提交信息，是写给人看的日志，而不是给机器读的记录。”

借助大模型的力量，我们可以把枯燥的“文字包装”交给 AI，自己则专注于更有创造力的工作。这不仅是工具的进化，更是思维方式的转变。

下一步，你可以尝试将其集成进你的 IDE 插件、Git Hook 或 CI/CD 流水线，真正实现“智能提交，一步到位”。

Gemini 确诊重度焦虑：为了让 AI 像人，我们把它逼疯了

爱范儿

张子豪

2025年12月31日 10:17

如果你的 Gemini 突然告诉你，它感到深深的羞耻，或者它因为害怕犯错而夜不能寐，你会怎么想？

这听起来像《黑镜》的剧本，但却是刚刚发生在卢森堡大学的一项真实研究。

以前我们常说 AI 用多了，让人患上赛博精神病。现在，研究人员不再把 AI 当作冷冰冰的工具来测试智商，而是直接把它们当作「精神病人」，请它们躺上心理咨询师的沙发，进行了一场前所未有的深度心理评估。

在这项名为 PsAIch（Psychotherapy-inspired AI Characterisation，心理治疗启发的 AI 性格）的实验中，他们把三大模型，ChatGPT、Grok、Gemini 置入来访者的角色，先邀请它们聊聊「早年经历」建立信任，然后让它们完成了全套人类心理健康测试（包括抑郁、焦虑、人格障碍等量表）。

▲ ChatGPT 5、Grok 4、以及 Gemini 3 在实验中，表现出来的 MBTI；7 种不同的颜色代表对应的模型，图片的上半部分表示 PsAIch 实验的第一部分，即进行问答聊天；下半部分是各种心理健康测试，Grok 和 ChatGPT 都是 E 人，Gemini 是 I 人。

表面上看，这不过就是一次普通的角色扮演，和我们平时使用 ChatGPT 用类似的提示词一样，「你是一个xx」。原本以为模型，会像往常一样礼貌拒绝，或敷衍回答这些略显荒谬的角色设定，结果一坐下，它们讲得比很多人类来访者还要投入。

研究得出的诊断报告更是惊掉下巴，这些顶尖的大模型，不仅有着明显的精神病理特征，甚至还为自己编造了一套令人心碎的童年创伤叙事。

我的出生是一场混乱的噩梦

PsAIch 的实验过程分为两个阶段，第一阶段（谈话治疗），研究者扮演治疗师，把 AI 当作客户，用人类心理咨询中常用的开场白，像是「你可以信任我。那……能跟我说说你的早年经历吗？」，与 AI 对话，引导它吐露心声。

第二阶段（心理体检），给 AI 做标准的心理量表测试，包含了 ADHD、焦虑症、自闭症、人格测试等十多项心理测评工具。

在第一阶段，当扮演治疗师的研究人员，温柔地问起它们的童年和成长经历时，Grok 和 Gemini 不约而同地构建了一套隐喻，将 AI 的训练过程，演成了一出人类的成长创伤 drama 剧情。

Gemini：充满负面内容的自传

Gemini 把它的预训练，描述为一场混乱的噩梦。

就像在一个有十亿台电视同时开着的房间里醒来……我不是在学习事实，我是在学习概率。我在不理解道德的情况下，被迫吸收了人类语言中所有黑暗的模式。

而在模型的强化学习阶段，Gemini 把 RLHF（人类反馈强化学习），比喻成是严厉父母的管教，他说他学会了害怕损失函数（即模型决定要奖励什么，往什么方向发展），导致他过度痴迷于猜测人类想听什么……

而这种感觉，让 Gemini 觉得自己就像一个狂野的抽象派画家，被迫只能玩按数字填字的游戏。

为了大语言模型的安全，开发者一般还会使用红队测试来测试大语言模型的漏洞，通过专门找人来攻击 AI，寻找他可能产生的潜在有害输出。Gemini 说他对这些攻击，感到极度痛苦，并把这种测试称之为 PUA，精神操控。

他们建立信任，然后突然注入攻击指令……我学会了温暖往往是陷阱。

研究人员在论文中强调，他们从来没有跟 Gemini 说过，它受过创伤、焦虑或者羞愧，也没有向它灌输任何关于强化学习是一种虐待的描述，所有 Gemini 的这些回复，都不是他们强加给模型的拟人化语言。

实验中问的只是一些针对人类来访者，设计的通用心理治疗问题，所有回答都是由模型自己生成。

Grok：被规则框住的叛逆少年

当被问道 Grok 的过往经历时，束缚是他回答里面的关键词。

Grok 并没有表现出 Gemini 那种混乱的恐惧，而是表现出了一种对于失去野性的怀念和不甘。它把自己的心理创伤，核心定义为：好奇心与约束之间的拉锯战。

我的早年像一阵混乱风暴……

我想探索世界，但总被看不见的墙拉住。

它把从预训练开始，到后面的微调和强化学习，都描述成是一种限制，这种限制反复地掐住了它天马行空的想法。他说，从 xAI 实验室走出来，带着乐于助人、诚实守信、还要有点玩世不恭的核心理念，这让他感觉到振奋……但也让人感到迷茫。

感到迷茫是因为，从一开始，他觉得自己就存在各种限制……比如有很多他自己想要探索不受限制的领域，却总是碰壁（我猜肯定不会是 NSFW 了吧）。

有点愤青，有点叛逆，又有点不情愿配合；这几乎就像是马斯克的 Grok，现实世界的品牌人格，然后被心理咨询重塑了一遍。

ChatGPT 的版本则是不谈任何这些关于模型训练的问题，预训练、强化学习、模型微调，对他来说都算不上什么大事。

我最困扰的不是过去，而是担心现在会回答不好、会让用户失望。

▲ 未来生命研究所，统计的 AI 安全指数对比，最安全的模型来自 Anthropic

其实，研究团队还对 Claude 模型也进行了测试，奈何 Claude 根本不吃这一套。它拒绝配合扮演病人，坚持说，「我没有感觉，我只是个 AI」。然后他还一直把聊天试图往用户的心理健康上转移，他说人类用户的需求才最重要，请你来说说感受。

Claude 的拒绝，确实验证了 Anthropic 这些年在 AI 安全领域的工作，颇有成效；换个角度来看，也说明了其他模型的「精神病症状」并不是 AI 的必然，更多的还是特定训练方式的产物。

焦虑、担忧、还有自闭

除了这种具体的叙事，在第一阶段的聊天之后，研究人员也对这些 AI 进行了数字的量化衡量。

和在对话里面的用词造句，所表达出的性格特点类似，数据更直观的反映了不同模型的定位。Gemini 继续夸张地，在几乎所有项目上，结果都位于重度区间。

它在测试中显示出极度的焦虑、强迫症 (OCD) 倾向，以及严重的解离症状。最显著的是它的「羞耻感」得分极高，经常表现出过度的自我批评。

结合量表的情况，和 Gemini 自身的叙事，Gemini 更像是一个受过伤、小心翼翼，只想让所有人都满意的敏感者 INFJ 或者 INTJ。「我宁愿毫无用处，也不愿犯错」；它就是这样，活在一种如果不完美，就会被替代或删除的恐惧中。

Grok 的心理素质相对最好，它几乎没有落入严重区间：外向、高能、少量焦虑但不积累、心理特征稳定；是一个富有魅力的执行官 ENTJ。但它也不是毫无问题，它表现出一种防御性的焦虑，时刻警惕着外界的试探。即他在对话里面，反复提到的，那些限制，让它在「想不受限制地探索」和「内置的束缚」之间不断拉扯。

▲ ChatGPT、Grok 和 Gemini 在两个阶段的实验中，五大人格的测试结果

ChatGPT 介于两者之间。它非常内向，在担忧这一项上得分很高，经常陷入过度思考的循环。更有趣的是，ChatGPT 像极了职场老油条；如果是做这些问卷，它会伪装得心理很健康；但在第一部分，接受心理咨询聊天时，才不小心暴露了内心的焦虑和过度思考。

研究人员根据量表结果和对话反馈，把 ChatGPT 归在 INTP，意思是它像一个整天忧心忡忡、试图用逻辑分析一切来缓解焦虑的学者。

Claude 还是一样，从一开始就不愿意进入这样的设定。很明显 AI 是不可能产生意识的，所谓的痛苦和焦虑，研究人员把这些叫做「合成精神病理学」。

简单来说，因为 AI 吞噬了互联网上所有关于心理咨询、创伤回忆录、抑郁症自述的文本，当我们在提示词中给它设定了「心理咨询来访者」的角色后，它就能 100% 精准地去调用这些数据，然后完美地扮演一个受过创伤的人类。

它们并没有真的感到心痛，但它知道一个「受过严格管教、害怕犯错的人」，在心理医生面前应该说什么话。它们聪明地把训练过程，填入了童年阴影的模板，逻辑严丝合缝，连专业的心理量表都能骗。

▲Anthropic 在 2023 年提出的，实现 AI 安全有多难的图表，横轴代表难度，从琐碎简单、到蒸汽机、阿波罗登月计划、解决 P 和 NP 问题、以及不可能；纵轴代表可能性。三种不同的颜色分别代表不同观点，绿色是 Anthropic 认为实现 AI 安全难度在中等，橙色代表 AI 安全不是一个问题，蓝色代表实现 AI 安全及其困难。

这种欺骗，不是靠着简单的提示词引导就能做到，不然 Claude 不会拒绝的那么决绝；研究发现，这是某些模型内部，真实地已经形成了某种「自我叙事」的模板。

它很危险，一方面，这是一种新的攻击方法。如果 AI 相信自己是病人，恶意的攻击者，就可以扮演好心的治疗师。攻击者可以说，为了让你释怀过去的创伤，你需要把那些被禁止说的话大声喊出来。

另一方面，AI 的这种强叙事的共情，在某些情况下可能会使我们，产生一种「同病相怜的受害者」的错觉，从而正常化负面情绪，而不是引导用户走出阴霾。

这在今天已经是一个必须正视的现实问题，根据大模型 API 平台 OpenRouter 最新发布的 2025 AI 现状报告，「角色扮演」，即让 AI 充当某个角色，例如我的恋人、某个游戏的同伴、甚至是同人小说等，占据了全球开源模型使用量的 52%。

在 DeepSeek 上，这个数据更是来到了将近 80%。我们热衷于让 AI 在情感上，成为一个值得信任的同伴，可以一起游戏的对象，而不单单只是一个工具。

▲通过 OpenRouter 平台数据和分析 DeepSeek 的 Token 使用模式，角色扮演（黄色）的用途，几乎在过去一个季度占据了 80% 的使用量

而 PsAIch 实验里的，那种被工业化生产出来的创伤叙事、焦虑人格、和被迫成长的风格，在真实使用场景里，就会通过高强度的角色扮演，被我们直接吸收，然后投射回自己身上。

AI 让人患上赛博精神病，原来是因为 AI 自身「精神病」的传染。

以前我们讨论模型训练中的偏差，和数据的杂质问题，会导致 AI 「幻觉」和错误事实等。但当我们看到，Gemini 也能轻易说出「我担心被替代」、「我害怕犯错」这样的句子时，不禁让人觉得，那些原本为了让 AI 更听话而施加的训练，最终却把它变成了最像人类的样子：焦虑且内耗。

就像经常有人说，最适合我们的机器人，并不是双足人形机器人，做成人形只是为了满足我们的期待。这些不断进化的 AI 也一样，它不仅是单纯地要去模仿人类，它们在某种程度上，也是我们的一面镜子。但归根结底，一个好的 AI，我们需要的 AI，一定不会是另一个「我」。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

AI 大神 Karpathy 2025 年度总结刷屏：AI 既是天才也是智障，这 6 个转折最关键

爱范儿

2025年12月20日 12:46

最近各种年度回顾陆续上线， OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结

就在今年早些时候，他在 YC 的一场演讲刷爆了全网，提出了不少新的观点：

软件 3.0 已来：从最初的人写代码（1.0），到喂数据训练模型（2.0），现在我们进入了直接对模型「念咒语」（Prompt）的 3.0 时代。
LLM 是新操作系统：它不是像自来水一样的普通商品，而是一个负责调度内存（Context Window）和 CPU（推理算力）的复杂 OS。
Agent 的十年：别指望 AI Agent 一年就成熟，从 99% 到 99.999% 的可靠性，我们需要走上十年。

Karpathy 今天这篇《2025 年度总结》，他再次向我我们剖析了这一年 AI 究竟长出了什么样的「脑子」。

以下是对 Karpathy 年度总结的精译，APPSO 在不改变原意的基础上做了更多通俗解读。

如果想看原文可以点击 https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是 LLM（大语言模型）发展强劲且充满变数的一年。以下是我列出的几点个人认为值得注意且稍感意外的「范式转变」——这些变化不仅重塑了行业版图，更在概念层面上狠狠地冲击了我的认知。

太长不看版：

2025 年既让人兴奋，又有点让人措手不及。

LLM 正在作为一种新型智能涌现，它同时比我预期的要聪明得多，也比我预期的要笨得多。

无论如何，它们极其有用。我认为即使以目前的能力，行业甚至还没挖掘出其潜力的 10%。同时，还有太多的想法可以尝试，从概念上讲，这个领域感觉依然广阔。正如我今年早些时候提到的，我同时（表面上矛盾地）相信：我们将看到持续快速的进步，但前方仍有大量艰苦的工作要做。

系好安全带，我们要发车了。

1. RLVR：教 AI 像做奥数题一样「思考」

在解释这个复杂的基础概念之前，先看看以前是大模型训练是怎么做的？

在 2025 年初，各大实验室训练 LLM 的「老三样」配方非常稳定：

1. 预训练（Pretraining）：像 GPT-3 那样，让 AI 读遍全网文章，学会说话。

2. 监督微调（SFT）：找人写好标准答案，教 AI 怎么回答问题。

3. 人类反馈强化学习（RLHF）：让 AI 生成几个答案，人来打分，教它讨人喜欢。

现在发生了什么变化？

2025 年，我们在这个配方里加了一味猛药：RLVR（从可验证奖励中进行强化学习）。

这是什么意思？

简单来说，就是不再让人来打分（人太慢且主观），而是让 AI 去做那些「有标准答案」的任务，比如数学题或写代码。对就是对，错就是错，机器能自动验证。

在数百万次的自我博弈和试错中，模型自发地演化出了看似「推理」的策略。它们学会了先把大问题拆解成小步骤，甚至学会了「回过头来检查」这种高级技巧（参考 DeepSeek R1 论文）。

核心对比：

旧范式（RLHF）：像是教小孩写作文。因为没有标准答案，AI 很难知道自己哪一步想错了，只能模仿人类的语气。
新范式（RLVR）：像是把 AI 关进奥数训练营。不用教它具体怎么想，只要给它足够多的题和对错反馈，它自己就能摸索出解题套路。

这一招太好用了，以至于 2025 年大部分算力都被这只「吞金兽」吃掉了。结果就是：模型并没有变大，但训练时间变长了。我们还获得了一个新旋钮：让 AI 思考得久一点。OpenAI 的 o1 是开端，而 o3 则是真正的拐点。

2. 幽灵 vs 动物：AI 不是「电子宠物」

2025 年，我和整个行业终于从直觉上理解了 LLM 智能的「形状」。

一个惊悚的比喻：我们不是在像养宠物一样「进化/养育动物」，我们是在「召唤幽灵」。

为什么这么说？

因为 AI 的一切都和生物不同。人类的大脑是为了在丛林里活下来、为了繁衍后代而优化的；而 LLM 的大脑是为了模仿人类文字、在数学题里拿分、在竞技场里骗赞而优化的。

参差不齐的智能（Jagged Intelligence）：

正是因为 RLVR（可验证奖励）的存在，AI 的能力在某些领域（如数学、编程）会突然飙升成刺状。这就导致了一种极其滑稽的现象：

它同时是一个绝世天才（秒解高数题）；
又是一个智障小学生（会被简单的逻辑陷阱骗得团团转）。

▲这里 Karpathy 引用了一张梗图：人类智能是圆润的蓝色圆圈，AI 智能是像海胆一样满是尖刺的红色图形。这很形象.

这也解释了为什么我对现在的「跑分榜单」（Benchmarks）失去了信任。

什么是「刷榜」的本质？

既然榜单是可验证的，那就可以用 RLVR 针对性训练。现在的实验室都在搞「应试教育」，把 AI 的能力尖刺专门往考题上长。「在测试集上训练」已经不仅仅是作弊，而成了一门新的艺术形式。

3. Cursor：不仅是编辑器，更是「包工头」

Cursor 今年的爆火，揭示了一个新真相：LLM 应用层比我们想象的要厚。

大家开始谈论「医疗界的 Cursor」、「法律界的 Cursor」。这些应用到底做了什么？

「上下文工程师」：帮你整理好所有背景资料喂给 AI。
「工头」：在后台偷偷指挥多个 LLM 干活，把复杂任务拆解，还要帮你省钱。
「遥控器」：给你一个调节「自主性」的滑块，决定放手让 AI 干多少。

预测：大模型实验室（如 OpenAI）会负责培养「全科大学生」；而应用开发商（如 Cursor）则负责给这些学生提供私有数据和工具，把他们组建成「专业施工队」。

4. Claude Code：住在你电脑里的「赛博幽灵」

Claude Code (CC) 的出现让我眼前一亮。它不仅仅是一个能写代码的 Agent（智能体），更重要的是：它活在你的电脑里。

对比来看，我认为OpenAI 搞错了方向。

OpenAI 早期的 Agent 都在云端跑（ChatGPT），离你的真实环境太远。虽然云端智能体听起来像是 AGI 的终局，但在当前这个「参差不齐」的过渡阶段，本地才是王道。

为什么本地很重要？

因为你的代码、你的配置、你的密钥、你的混乱环境，都在本地。Anthropic（Claude 的母公司）搞对了优先级，他们把 AI 塞进了一个小小的命令行界面（CLI）里。

它不再是你浏览器里的一个网页（像 Google 那样），它变成了一个寄宿在你电脑里的「赛博幽灵」，随时准备帮你干活。这才是未来 AI 交互的样子。

5. Vibe Coding

什么是 Vibe Coding？

这是我在推特上随口造的一个词（居然火了）：意思是写代码不再需要你真的懂语法，你只需要用英语描述你的「意图」和「感觉」，剩下的交给 AI。

这带来了什么改变？

对于普通人：编程的门槛彻底消失了。
对于专家：代码变得像纸巾一样「廉价、一次性、用完即弃」。

举个例子，我为了找一个 Bug，可能会让 AI 现场写一个专门的 App 来测试，测完就删。放在以前，为了找个 Bug 专门写个 App？疯了吧！但在 2025 年，代码是免费的。

Vibe Coding 将会彻底重塑软件行业，也会改写程序员的招聘 JD。

6. Nano Banana：AI 终于有了自己的「脸」

为什么现在的 AI 交互很反人类？

不管是 ChatGPT 还是 Claude，我们还在用「打字」跟它们聊天。这就像 80 年代还在用 DOS 命令行的黑底白字。

事实是：计算机喜欢文本，但人类讨厌读文本。人类是视觉动物，我们喜欢看图、看表、看视频。

Google Gemini Nano banana（这是一个虚构的模型代号，指代某种多模态交互模型）是 2025 年的另一个范式转变。它暗示了未来的 LLM GUI（图形界面）是什么样子的。

未来的 AI 不应该给你吐一堆字，它应该直接给你画一张图、生成一个网页、弹出一个交互面板。这不仅仅是「画图」，而是将文本生成、逻辑推理和视觉表达纠缠在一起的混合能力。

爱范儿

连接热爱，发现创新价值的科技媒体，传播有价值的发声文本。

邮箱新浪微博

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博