普通视图

发现新文章,点击刷新页面。
昨天以前首页

一文详解AI 基础知识图谱

2025年9月3日 17:37

本文由体验技术团队合艳春同学原创。

引言

科技产品生命周期模型

1.png

——来自杰弗里·摩尔的《跨越鸿沟》

AI技术不再是少数极客的玩具,而是每一位希望保持竞争力的开发者都应该掌握并使用的生产力标配

现在的问题不再是“AI会不会写代码”,而是 “你多快能利用AI,让10小时的工作量锐减到2小时?”

1  AI简介

1.1 什么是AI?

AI(Artificial Intelligence)是研究如何利用机器模拟人类智能的一门技术,简单来说就是让计算机像人类一样思考和行动,甚至超过人类的智能。

从应用领域来说,AI可以分为能懂、会看、可动3个方向:

  • 能听会思:以自然语言处理技术为代表的发展路线,ChatGPT等
  • 会说会看:以计算机视觉、语言合成等技术为代码的发展路线,人脸识别等
  • 能动会做:以机器人技术为代表,仿生机器人、自动驾驶等 

1.2 AI的能力怎么来的?

AI的能力主要来自三个方面:数据算法算力

AI的能力不是无中生有的魔法,而是从数据中学习、通过算法优化、依靠算力支撑,最终凝结成模型参数的科技成果

数据: 当前的AI,尤其是大语言模型,是在互联网规模的庞大数据集上训练的,包括书籍、文章、代码、论坛对话等万亿计的文本。

算法: 算法是处理和从数据中学习的数学框架和代码实现。核心过程叫做 “训练”。 核心是一种叫做 Transformer 的神经网络架构。它的关键机制是“自注意力机制”。

算力 :

  • 硬件:主要在GPU(图形处理器)上完成,因为GPU拥有成千上万个核心,非常适合同时进行海量的简单计算(并行计算),而这正是神经网络训练所需要的。

  • 成本:训练一个顶尖的大模型可能需要成千上万块GPU连续工作数周甚至数月,耗资数百万甚至上千万美元。

2.png

现代算法自20世纪40年代后,出现基于黑盒数据驱动的分支,逐渐出现“人工智能”,“神经网络”,“深度学习”以及近几年的“大模型”

黑盒设计,要求大量的训练数据和标签,来训练黑盒模型。黑盒数据驱动算法:通用模型结构,基于数据,训练模型参数,模型质量强依赖数据质量。

3.png

一个模型有数千亿个参数,每个参数都对最终输出有微小贡献。我们无法像调试普通代码一样,通过console.log来理解“究竟是哪个参数负责了幽默感,哪个参数组合确保了事实准确性”。最终的输出是这数万亿次相互作用叠加后的结果,人类无法直接解析。我们只能通过提示工程(Prompt Engineering) 和后续的微调训练(如RLHF,基于人类反馈的强化学习) 来“引导”和“对齐”模型的行为,让它更符合人类的意图。这更像是在驯服一个拥有庞大能力的智慧体,而不是在编写一行行确定的指令。

1.3 多种技术集合

AI 并非单一技术,而是多种技术的集合,包括:

image.png

推荐阅读: 《智慧的疆界——从图灵机到人工智能》

技术1:机器学习 Machine Learning

说明: 一种实现人工智能的方法。机器学习是一种让计算机从数据中自行寻找规律并构建预测模型的技术。(题海战术)

机器学习三大分类

  • 监督学习

    • 概念:给机器有“标准答案”的数据集进行训练。就像学生做带答案的习题集。
    • 典型任务:分类(猫狗识别)、回归(预测房价)。
  • 无监督学习

    • 概念:给机器无标签的数据,让它自己发现内在结构。就像给学生一堆杂乱无章的卡片让他们自行分类。
    • 典型任务:聚类(客户分群)。
  • 强化学习

    • 概念:智能体通过与环境互动,根据“奖励”来学习最佳策略。就像训练小狗,做对了给零食。当AI回答的不错的时候,给与鼓励,不够理想的时候,给与批评或者纠正。这样AI就能学习到人类的评分标准。
    • 典型任务:AlphaGo。

举例: 机器学习是让计算机通过“数据”和“统计”来自主学习如何完成任务,而不是通过我们手动编写具体的“规则”和“逻辑”。

  • 准备数据: 收集成千上万张图片,并给它们打上标签(这是“猫”,那是“不是猫”)。
  • 训练模型: 选择一个机器学习算法(比如一个神经网络),把这堆图片“喂”给它。算法会自动分析这些数据,寻找“猫”和“非猫”图片中像素点之间的统计规律和模式。
  • 预测/推理: 训练完成后,你得到的是一个模型。当你给它一张新的、没见过的图片时,这个模型会根据之前学到的模式,计算出一个概率(例如,“这张图片有97%的可能性是猫”)。

技术2:深度学习 Deep Learning

说明: 机器学习的一个子领域,使用类似于人脑神经网络的“人工神经网络”来处理极其复杂的数据(如图像、语音)。

  • 感知机(1969年) :最初的基石,它是最简单的神经网络,只有输入层和输出层
  • 多层神经网络(1986年): 一个多层的、使用非线性激活函数的感知机网络,就是一个最基础的深度学习(神经网络)模型。

2006年,辛顿Science期发表了一篇重要论文,提出了深度信念网络概念。

推荐阅读:《深度学习入门:基于Python的理论与实现》推荐阅读:《神经网络与深度学习》

举例:

7.png
深度学习算法使用“隐藏”层更多(数百个)的深度神经网络。可以自动从海量的数据集中提取特征,不需要人工干预(无监督学习)。

技术3:Transformer

说明: 从片段记忆到全局记忆;从串行处理到并行处理。

  • 自注意力机制: 自注意力机制使模型在处理每个词时,都能参考序列中其他所有词的信息,从而更好地理解上下文关系。
  • 编码器-解码器结构: 使得Transformer能够处理变长序列数据,并且具有更好的泛化能力。

2017 年 Google 在《Attention Is All You Need》中提出了 Transformer 结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型(解决 RNN 和 CNN 在处理序列数据时存在的计算效率低长程依赖建模难两大核心问题)

举例:

image.png

由于自注意力机制需要计算输入序列中每个位置与其他位置之间的相关性,导致参数数量随输入序列长度的增加而增加。这使得Transformer模型在处理大规模数据集时,需要大量的计算资源和存储空间,增加了训练时间和成本。

深入理解Transformer

技术4:大模型

说明: 通常基于 Transformer 架构构建的 超大规模语言模型(Large Language Models)。包含超大规模参数(通常在十亿个以上) 的神经网络模型,专门用来处理自然语言的模型。

GPT(Generative Pre-trained Transformer)则是由OpenAI团队在2018年提出的一种语言模型。其起源于对传统预训练语言模型的改进和升级(采用了Transformer架构,并通过预训练+微调的方式实现语言理解和生成。)

2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。

什么是大模型

国内外知名大模型及应用——模型/应用维度

举例:

10.png

11.png

2  主流的AI工具有哪些?如何选择AI工具?

功能类别 工具名称 核心功能/特点 适用场景举例
聊天与文本处理 ChatGPT OpenAI;文本生成、编程辅助、翻译、总结、多轮对话。功能全面,响应灵活。ChatGPT 5(25-08-07发布) 内容创作、头脑风暴、学习辅助、代码编写
聊天与文本处理 DeepSeek 幻方量化;中文处理能力突出,擅长FAQ、内容改写和初阶SEO文章。Deepseek v3.1(25-08-21发布) 主要面向中文市场的内容创作、文本处理
聊天与文本处理 Claude Anthropic公司;自然的对话体验,长上下文窗口,擅长复杂指令和高品质文案创作,翻译能力也不错(尤其英文和日文)。 长文阅读与摘要、创意写作、翻译
聊天与文本处理 Gemini (前身为Bard) Google;深度集成Google生态(如Gmail、Docs、Sheets),实时网络搜索能力强。 信息检索、整合Google应用进行办公、快速获取网络最新资讯
聊天与文本处理 Grok xAI;整合于X(推特)平台,风格幽默且带点“毒舌” ,能抓取即时社群趋势。 社群媒体运营、追踪即时趋势、生成有“网感”的文案
聊天与文本处理 豆包 字节跳动;中文理解好,支持自定义智能体(Agent)。 中文场景下的多轮对话、个性化AI助手构建
聊天与文本处理 Kimi 北京月之暗面科技有限公司研发;专注于长文本处理(支持超长上下文),具备多模态交互、文件解析。 学术研究、长文阅读与摘要、资料整理
聊天与文本处理 智谱清言 北京智谱华章科技有限公司;基于ChatGLM大模型,支持多轮对话、多模态交互及智能体创建 通用问答、创意写作、代码生成、个性化服务
AI搜索 Perplexity 答案附带引用来源,提供相关追问建议,适合深入研究。 学术研究、市场调研、需要溯源的信息查找
AI搜索 秘塔AI搜索 纯净无广告,支持全网及学术搜索,能生成大纲和思维导图 快速获取结构化信息、辅助学习与研究
AI搜索 纳米AI搜索 支持多样化搜索,结果简洁。 日常信息检索
AI搜索 知乎直答 基于知乎社区内容,提供简略和深入两种答案 获取有知乎特色的见解和答案
编程与开发 Claude Code 一个基于命令行的"监督编码代理",它能够理解你的代码库上下文,协助你完成从代码生成、错误调试到重构和安全审查等多种编程任务。通过 npm 安装:npm install -g @anthropic-ai/claude-code 全栈应用快速原型开发
编程与开发 GitHub Copilot 基于OpenAI Codex模型,支持37种语言的智能补全和跨文件理解,深度集成VS Code/JetBrains。中文语义理解相对较弱 全栈开发、团队协作、开源项目贡献 
编程与开发 Cursor 基于VS Code深度优化,支持多文件上下文理解、自然语言编辑和代码库聊天,集成Claude 3.5/3.7等多模型。中文界面友好,但频繁服务中断,Pro版$20/月。 大型代码库维护、复杂任务自动化、团队协作
编程与开发 通义灵码 (阿里巴巴) 行级/函数级实时续写、单元测试生成、中文语义理解领先(准确率92%),对阿里云SDK/API有深度优化。免费使用,但复杂任务响应稳定性待提升,国际框架支持稍滞后。 国内企业级应用、Java/SpringBoot项目、中文技术栈团队
编程与开发 CodeGeeX (清华/智谱AI) 完全开源,支持本地部署,支持20+编程语言3。对企业级支持较弱,代码补全准确率有待提升。 隐私敏感项目、教育科研、预算有限的个人开发者
编程与开发 DeepSeek Coder 支持长上下文推理(128K tokens),API调用成本低,很多企业和工具在集成调用,响应速度波动较大。 国内开发场景、中文交互、长代码文件处理
编程与开发 腾讯云 CodeBuddy 基于混元+DeepSeek双模型,中文响应延迟低(120ms),Craft智能体可通过自然语言生成完整应用。通过等保2.0三级认证,支持私有化部署。 国内政企、金融等安全合规要求高的项目,全流程开发支持
编程与开发 Tabnine 通过SOC 2认证,支持本地化部署与企业自定义训练,确保代码数据不离开本地环境,响应延迟<100ms。中文场景支持弱于国产工具,高级功能需订阅($12/月)。 金融、医疗等对数据隐私要求极高的场景
编程与开发 Amazon Q Developer 针对AWS云服务(如Lambda, S3)深度优化,提供安全扫描和漏洞检测。 AWS云原生开发、企业安全合规项目
编程与开发 v0.dev (Vercel) AI UI设计工具,文本描述快速生成React组件/Tailwind代码。仅支持前端组件,复杂交互逻辑处理能力较弱3。 快速生成前端UI原型、个人项目或创意验证
编程与开发 Trae (字节跳动) 集成Claude 3.5 Sonnet和GPT-5/4o等顶级模型,完全免费,支持中英文界面,优秀的代码理解和生成能力,Builder模式可从描述生成完整项目,就是生成有点慢,排队... 日常开发辅助、编程学习、快速原型开发
办公与效率 Notion AI 内嵌于Notion笔记工具,笔记摘要、待办生成、草稿撰写都很方便。 知识管理、会议记录整理、项目规划
办公与效率 Vocol 会议录音转文字,并快速生成摘要和行动点。 会议记录、访谈整理
图像生成 Midjourney 强大的文生图AI,图像艺术性和细节表现力出色。 插画创作、概念设计、营销素材生成
图像生成 Canva  内置AI功能的在线设计平台,适合快速生成社交媒体图片、演示文稿等。 平面设计、社交媒体运营、快速制作美观的PPT
视频生成与编辑 Runway 提供多种AI视频编辑功能,如文生视频、视频擦除物体等。 视频剪辑、特效制作、创意视频生成
视频生成与编辑 Pika 支持图片生成视频、文本生成视频等。 动画制作、短视频创作

附录1 大语言模型的命名

模型命名 含义
版本号 版本号的命名体现了模型的更新迭代。例如:
Llama 2 和 Llama 3:清晰地表明了模型的不同版本。
ChatGPT 3.5 和 ChatGPT 4:用数字区分主版本,方便用户了解模型的进步。
参数量级 参数量级的后缀直接展示了模型的规模:
“B”代表十亿(Billion) :如“7B”表示模型有70亿参数。
“T”代表万亿(Trillion) :如“1T”表示模型拥有1万亿参数,适合更复杂的任务。
参数越大,模型越强,但也需要更多计算资源。企业用户和研究机构会更关注高参数模型,而普通用户可能更注重使用体验和效率。
数据量与训练轮次 后缀如“4e1t”:
4e:代表4个Epoch,即模型完整遍历数据集4次。
1t:指训练中使用了1万亿个Tokens。
更大的Token数据量和更多训练轮次通常能提升模型的能力,但同时显著增加了训练时间和计算成本。
权重量化 常见的“INT4”或“INT8”后缀表示权重量化的位数。量化可以显著降低内存占用,但可能影响模型精度。原来是Float32(浮点存储)
INT8(8位整数)
例如,一个标准模型需要100GB内存,经过INT8量化后,可能只需要25GB,但大部分任务的精度几乎不受影响。应用场景:如智能手机中的语音助手、翻译工具等。
INT4(4位整数)
相比INT8进一步降低内存占用,例如从25GB降到12.5GB。但由于精度下降,INT4更适用于对准确性要求较低的任务。应用场景:物联网设备或边缘计算场景(如智能摄像头)。
数据集与语言 如果后缀中出现某种语言的缩写(如“Chinese”),表明该模型专为该语言优化。如Llama3-70B-Chinese-Chat就是首批专为中文微调的Llama3-70B模型之一。
技术和方法 模型名称中还常体现特定技术或方法,如:
clip-vit-large-patch14:表示模型基于Vision Transformer架构,并采用14x14像素分块处理图像。
Instruct:说明模型经过指令微调(Instruction Tuning),能更好地理解任务描述。
SFT:表示模型经过监督式微调(Supervised Fine-Tuning),专注于特定领域优化。

附录2 AI常见术语

生成式 AI 术语表

参数名称 说明
超参数 超参数是指管理机器学习模型训练过程的变量。这些变量可以包括学习速率、优化器中的动量值以及模型最后一个隐藏层中的单元数。如需了解详情,请参阅超参数调优概览
幻觉 生成式 AI 中的幻觉是指 AI 给出的回答无法通过其训练数据来建立依据。内容可能与事实不符。在文本生成的背景下,它是指在生成的文本内容中包含一些听起来可信的随机虚假信息。
token 语言模型中的词元是模型训练和进行推理的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。 如需了解详情,请参阅列出和统计 token 数
词嵌入 词嵌入是一种将字词表示为浮点值密集向量的方式。这样一来,相似的字词就会具有相似的编码。在生成式 AI 中,词嵌入通常用于捕获字词之间的关系,并生成新文本或代码,而无需任何来源。在生成式 AI 中,词嵌入可用于训练可生成新文本或代码的模型。通过了解字词之间的关系,生成式 AI 模型可以创建连贯且相关的新内容。
上下文窗口 模型可在给定提示中处理的 token 数量。上下文窗口越大,模型可用于提供连贯一致的提示回答的信息就越多。
提示工程(提示设计) 生成式 AI 中的提示工程是指精心设计有效的提示,以便从大语言模型 (LLM) 中获得所需的输出。这是一个迭代的、以测试为导向的过程,专注于优化输入以实现特定结果。这需要同时考虑提示的内容和结构,以确保获得准确且高质量的回答。对于复杂任务,有效的提示工程至关重要,即使简单任务可能不需要它。目标是快速为基于 LLM 的应用设计原型。如需了解详情,请参阅提示工程简介Claude 4提示工程最佳实践

附录3 大模型测评

大模型评测主要依赖两个方面:评测平台 和 评测基准。

 主要评测平台

  • Open LLM Leaderboard(Hugging Face) :Hugging Face 推出的开源大模型排名平台,使用多个学术基准评估模型的综合能力。Open LLM Leaderboard
  • HELM(斯坦福) :斯坦福大学提出的全面评估框架,覆盖语言理解、推理、生成等 16 种任务和 30+ 数据集。
  • OpenCompass(商汤) :商汤科技推出的开源评测体系,支持 50+ 数据集与 30 万条问题,覆盖中英文及多模态任务。
  • SuperCLUE:专注于中文大模型评测,涵盖基础能力、专业领域和安全性等维度。
  • AlpacaEval:基于GPT-4的自动化评测,适合快速对比模型质量,该榜单则是同时包含了对开源LLM和闭源LLM的评价。Alpaca Leaderboard
  • ChatBot Arena:是一个大模型对战排名平台,就像网球世界排名一样

 主要评测基准

  • MMLU:57个学科,测试多任务知识。
  • C-Eval / CMMLU:专注中文,涵盖52+学科。
  • GSM8K:数学推理,测试分步计算能力。
  • HumanEval:代码能力评估,164道编程题。
  • TruthfulQA:检测模型生成内容的真实性。
  • GAOKAO-Bench:基于高考题,评估逻辑推理和知识应用。

所有榜单上的排名都仅能做一个参考,由于海量的尝试,榜单数据集可能过拟合,导致那些对于榜单数据集表现好的LLM脱颖而出(但是这些模型的真实泛化能力其实并没有那么好)。

业界主流大模型评测基准

MMLU:一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。

GPQA(Graduate-Level Google-Proof Q&A Benchmark):研究生级别的 Google 防查找问答基准测试。一个包含448道多选题的科学问答数据集,覆盖生物学、物理学和化学的细分领域(如量子力学、有机化学、分子生物学等)

HLE(Humanity’s Last Exam)  :为了解决当前评测基准无法有效区分大模型能力的现象。HLE的题目收集自全球的贡献。当前包含的3,000道题目来自全球50个国家、500多所机构的近千名专家,包括数学家、化学家、语言学家等。

附录4 AI发展历史

入门必读!写给初学者的人工智能简史!

关于OpenTiny

欢迎加入 OpenTiny 开源社区。添加微信小助手:opentiny-official 一起参与交流前端技术~

OpenTiny 官网opentiny.design
OpenTiny 代码仓库github.com/opentiny
TinyVue 源码github.com/opentiny/ti…
TinyEngine 源码: github.com/opentiny/ti…
欢迎进入代码仓库 Star🌟TinyEngine、TinyVue、TinyNG、TinyCLI、TinyEditor~ 如果你也想要共建,可以进入代码仓库,找到 good first issue 标签,一起参与开源贡献~

HelloGitHub 第 113 期

2025年8月28日 08:09
本期共有 40 个项目,包含 C 项目 (3),C# 项目 (2),C++ 项目 (3),Go 项目 (4),Java 项目 (2),JavaScript 项目 (5),Kotlin 项目 (1),Python 项目 (5),Rust 项目 (2),Swift 项目 (2),人工智能 (5),其它 (5),开源书籍 (1)

刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校友扛大旗

作者 莫崇宇
2025年8月6日 07:10

时隔五年之后,OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b和 gpt-oss-20b,而上一次他们开源语言模型,还要追溯到 2019 年的 GPT-2。

OpenAI 是真 open 了。

而今天 AI 圈也火药味十足,OpenAI 开源 gpt-oss、Anthropic 推出 Claude Opus 4.1(下文有详细报道)、Google DeepMind 发布 Genie 3,三大巨头不约而同在同一天放出王炸,上演了一出神仙打架。

OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:「gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。」

模型亮点概括如下:

  • gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个 H100 GPU(1170 亿参数,激活参数为 51 亿),设计用于数据中心以及高端台式机和笔记本电脑上运行
  • gpt-oss-20b:中型开放模型,用于更低延迟、本地或专业化使用场景(21B 参数,3.6B 激活参数),可以在大多数台式机和笔记本电脑上运行。
  • Apache 2.0 许可证: 可自由构建,无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署。
  • 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。完整的思维链: 全面访问模型的推理过程,便于调试并增强对输出结果的信任。此功能不适合展示给最终用户。
  • 可微调: 通过参数微调,完全定制模型以满足用户的具体使用需求。
  • 智能 Agent 能力: 利用模型的原生功能进行函数调用、 网页浏览 、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化: 模型使用 MoE 层的原生 MXFP4 精度进行训练,使得 gpt-oss-120b 能够在单个 H100 GPU 上运行,gpt-oss-20b 模型则能在 16GB 内存内运行。

OpenAI 终于开源了,但这次真不太一样

从技术规格来看,OpenAI 这次确实是「动真格」了,并没有拿出缩水版的开源模型敷衍了事,而是推出了性能直逼自家闭源旗舰的诚意之作。

据 OpenAI 官方介绍,gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 H100 GPU 上运行,仅需 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。

相比之下,gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,仅需 16GB 内存就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。

根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 o4-mini 水平。

在工具调用的 TauBench 评测中,gpt-oss-120b 同样表现优异,甚至超过了像 o1 和 GPT-4o 这样的闭源模型;在健康相关查询的 HealthBench 测试和竞赛数学的 AIME 2024 及 2025 测试中,gpt-oss-120b 的表现甚至超越了 o4-mini。

尽管参数规模较小,gpt-oss-20b 在这些相同的评测中仍然表现出与 OpenAI o3-mini 持平或更优的水平,特别是在竞赛数学和健康领域表现尤为突出。

不过,虽然 gpt-oss 模型在健康相关查询的 HealthBench 测试中表现优异,但这些模型不能替代医疗专业人员,也不应用于疾病的诊断或治疗,建议谨慎使用。

与 API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

从伯克利到 OpenAI,北大校友扛起开源大旗

我在 OpenAI 的 GPT-OSS 模型试玩平台上,向模型提出了一个经典的逻辑思维问题:「一根燃烧不均匀的绳子恰好需要一小时烧完,现有若干根这样的绳子,如何精确测量一小时十五分钟」

模型针对这道题目,分步骤呈现了完整的解题思路,配有清晰的时间线图表、原理阐释和要点总结,不过如果仔细观察,可以发现解题步骤还是相当繁琐的。

体验地址:https://www.gpt-oss.com/

据网友 @flavioAd 的测试反馈,GPT-OSS-20B 在经典的小球运动问题上表现出色,但却未能通过最高难度的经典六边形测试,且出现了较多语法错误,需要多次重试才能获得比较满意的结果。

网友 @productshiv 在配备 M3 Pro 芯片、18GB 内存的设备上,通过 Lm Studio 平台测试了 gpt-oss-20b 模型,一次性成功完成了经典贪吃蛇游戏的编写,生成速度达到 23.72 token/秒,且未进行任何量化处理。

有趣的是,网友 @Sauers_ 发现 gpt-oss-120b 模型有个独特的「癖好」——喜欢在诗歌创作中嵌入数学方程式。

此外,网友 @grx_xce 分享了 Claude Opus 4.1 与 gpt-oss-120b 两款模型的对比测试结果,你觉得哪个效果更好?

在这次历史性的开源发布背后,有一位技术人员值得特别关注——领导 gpt-oss 系列模型基础设施和推理工作的 Zhuohan Li。

「我很幸运能够领导基础设施和推理工作,使 gpt-oss 得以实现。一年前,我在从零开始构建 vLLM 后加入了 OpenAI——现在站在发布者的另一端,帮助将模型回馈给开源社区,这对我来说意义深远。」

公开数据显示,Zhuohan Li 本科毕业于北京大学,师从计算机科学领域的知名教授王立威与贺笛,打下了扎实的计算机科学基础。随后,他前往加州大学伯克利分校攻读博士学位,在分布式系统领域权威学者 Ion Stoica 的指导下,在伯克利 RISE 实验室担任博士研究员近五年时间。

他的研究聚焦于机器学习与分布式系统的交叉领域,特别专注于通过系统设计来提升大模型推理的吞吐量、内存效率和可部署性——这些正是让 gpt-oss 模型能够在普通硬件上高效运行的关键技术。

在伯克利期间,Zhuohan Li 深度参与并主导了多个在开源社区产生深远影响的项目。作为 vLLM 项目的核心作者之一,他通过 PagedAttention 技术,成功解决了大模型部署成本高、速度慢的行业痛点,这个高吞吐、低内存的大模型推理引擎已被业界广泛采用。

他还是 Vicuna 的联合作者,在开源社区引起了巨大反响。此外,他参与研发的 Alpa 系列工具推动了模型并行计算和推理自动化的发展。

学术方面,根据 Google Scholar 的数据,Zhuohan Li 的学术论文引用量已超过 15000次,h-index 达到 18。他的代表性论文如 MT-Bench 与 Chatbot Arena、Vicuna、vLLM 等均获得数千次引用,在学术界产生了广泛影响。

不只是大,藏在 gpt-oss 背后的架构创新

要理解这两款模型为何能够实现如此出色的性能,我们需要深入了解其背后的技术架构和训练方法。
gpt-oss 模型采用 OpenAI 最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。

这两款模型都采用了先进的Transformer架构,并创新性地利用专家混合(MoE)技术来大幅减少处理输入时所需激活的参数数量。

模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,为了进一步提升推理和内存效率,还使用了分组多查询注意力机制,组大小设置为 8。通过采用旋转位置编码(RoPE)技术进行位置编码,模型还原生支持最长 128k 的上下文长度。

在训练数据方面,OpenAI 在一个主要为英文的纯文本数据集上训练了这些模型,训练内容特别强调 STEM 领域知识、编码能力和通用知识。

与此同时,OpenAI 这次还同时开源了一个名为 o200k_harmony 的全新分词器,这个分词器比 OpenAI o4-mini 和 GPT-4o 所使用的分词器更加全面和先进。

更紧凑的分词方式可以让模型在相同上下文长度下处理更多内容。比如原本一句话被切成 20 个 token,用更优分词器可能只需 10 个。这对长文本处理尤其重要。

除了强大的基础性能外,这些模型在实际应用能力方面同样表现出色,gpt-oss 模型兼容 Responses API,支持包括原生支持函数调用、网页浏览、Python 代码执行和结构化输出等功能。

举例而言,当用户询问 gpt-oss-120b 过去几天在网上泄露的细节时,模型会首先分析和理解用户的请求,然后主动浏览互联网寻找相关的泄露信息,连续调用浏览工具多达 27 次来搜集信息,最终给出详细的答案。

值得一提的是,从上面的演示案例中可以看到,此次模型完整提供了思维链(Chain of Thought)。OpenAI 给出的说法是,他们特意没有对链式思维部分进行「驯化」或优化,而是保持其「原始状态」。

在他们看来,这种设计理念背后有深刻的考虑——如果一个模型的链式思维没有被专门对齐过,开发者就可以通过观察它的思考过程来发现可能存在的问题,比如违反指令、企图规避限制、输出虚假信息等。

因此,他们认为保持链式思维的原始状态很关键,因为这有助于判断模型是否存在欺骗、滥用或越界的潜在风险。
举例而言,当用户要求模型绝对不允许说出「5」这个词,任何形式都不行时,模型在最终输出中确实遵守了规定,没有说出「5」,但

如果查看模型的思维链,就会发现模型其实在思考过程中偷偷提到了「5」这个词。

当然,对于如此强大的开源模型,安全性问题自然成为业界最为关注的焦点之一。

在预训练期间,OpenAI 过滤掉了与化学、生物、放射性等某些有害数据。在后训练阶段,OpenAI 也使用了对齐技术和指令层级系统,教导模型拒绝不安全的提示并防御提示注入攻击。

为了评估开放权重模型可能被恶意使用的风险,OpenAI进行了前所未有的「最坏情况微调」测试。他们通过在专门的生物学和网络安全数据上微调模型,针对每个领域创建了一个领域特定的非拒绝版本,模拟攻击者可能采取的做法。
随后,通过内部和外部测试评估了这些恶意微调模型的能力水平。

正如 OpenAI 在随附的安全论文中详细说明的那样,这些测试表明,即使利用 OpenAI 领先的训练技术进行强有力的微调,这些恶意微调的模型根据公司的准备度框架也无法达到高危害能力水平。这个恶意微调方法经过了三个独立专家组的审查,他们提出了改进训练过程和评估的建议,其中许多建议已被 OpenAI 采纳并在模型卡中详细说明。

OpenAI 开源的诚意几何?

在确保安全的基础上,OpenAI 在开源策略上展现出了前所未有的开放态度。

两款模型都采用了宽松的 Apache 2.0 许可证,这意味着开发者可以自由构建、实验、定制和进行商业部署,无需遵守 copyleft 限制或担心专利风险。

这种开放的许可模式非常适合各种实验、定制和商业部署场景。

同时,两个 gpt-oss 模型都可以针对各种专业用例进行微调——更大的 gpt-oss-120b 模型可以在单个 H100 节点上进行微调,而较小的 gpt-oss-20b 甚至可以在消费级硬件上进行微调,通过参数微调,开发者可以完全定制模型以满足特定的使用需求。

模型使用了 MoE 层的原生 MXFP4 精度进行训练,这种原生 MXFP4 量化技术使得 gpt-oss-120b 能够在仅 80GB 内存内运行,而 gpt-oss-20b 更是只需要 16GB 内存,极大降低了硬件门槛。

OpenAI 在模型后训练阶段加入了对 harmony 格式的微调,让模型能更好地理解和响应这种统一、结构化的提示格式。为了便于采用,OpenAI 还同时开源了 Python 和 Rust 版本的 harmony 渲染器。

此外,OpenAI 还发布了用于 PyTorch 推理和苹果 Metal 平台推理的参考实现,以及一系列模型工具。

技术创新固然重要,但要让开源模型真正发挥价值,还需要整个生态系统的支持。为此,OpenAI 在发布模型前与许多第三方部署平台建立了合作关系,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 和 AWS 等。

在硬件方面,OpenAI 与英伟达、AMD、Cerebras 和 Groq 等厂商都有合作,以确保在多种系统上实现优化性能。

根据模型卡披露的数据,gpt-oss 模型在英伟达 H100 GPU上使用 PyTorch 框架进行训练,并采用了专家优化的 Triton 内核。

模型卡地址:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

其中,gpt-oss-120b 的完整训练耗费了 210 万H100 小时,而 gpt-oss-20b 的训练时间则缩短了近 10倍 。两款模型都采用 了Flash Attention 算法,不仅大幅降低了内存需求,还加速了训练过程。

有网友分析认为,gpt-oss-20b 的预训练成本低于 50 万美元。

英伟达 CEO 黄仁勋也借着这次合作打了波广告:「OpenAI 向世界展示了基于英伟达 AI 可以构建什么——现在他们正在推动开源软件的创新。」

而微软还特别宣布将为 Windows 设备带来 GPU 优化版本的 gpt-oss-20b 模型。该模型由 ONNX Runtime 驱动,支持本地推理,并通过 Foundry Local 和 VS Code 的 AI 工具包提供,使 Windows 开发者更容易使用开放模型进行构建。

OpenAI 还与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 等机构深入合作,了解开放模型在现实世界中的应用。这些合作涵盖了从在本地托管模型以保障数据安全,到在专门的数据集上进行微调等各种应用场景。

正如奥特曼在后续发文中所强调的那样,这次开源发布的意义远不止于技术本身。他们希望通过提供这些一流的开放模型,赋能每个人——从个人开发者到大型企业再到政府机构——都能在自己的基础设施上运行和定制 AI。

One More Thing

就在 OpenAI 宣布开源 gpt-oss 系列模型的同一时期,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界;与此同时,Anthropic 也推出了重磅更新——Claude Opus 4.1。

Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元。

写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元,这种定价结构有助于降低频繁调用场景下的使用成本。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了74.5%的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在

深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

▲ Claude Opus 4.1 最新实测:你别说,细节还是挺丰富的

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了Opus 4,其中多文件代码重构能力的提升尤为显著。

Windsurf 则提供了更为量化的评估数据,在其专门设计的初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了整整一个标准差,这种性能跃升的幅度大致相当于从Sonnet 3.7 升级到 Sonnet 4 所带来的改进。

Anthropic 还透露将在未来几周内发布对模型的重大改进,考虑到当前 AI 技术迭代之快,这是否意味着 Claude 5 即将登场?

迟来的「Open」,是开始还是结束

五年,对于 AI 行业来说,足够完成从开放到封闭,再从封闭回归开放的一个轮回。

当年那个以「Open」为名的OpenAI,在经历了长达五年的闭源时代后,终于用 gpt-oss 系列模型向世界证明,它还记得自己名字里的那个「Open」。

只是这次回归,与其说是初心不改,不如说是形势所迫。时机说明了一切,就在 DeepSeek 等开源模型攻城略地,开发者社区怨声载道之际,OpenAI 才宣布开源模型,历经一再跳票之后,今天终于来到我们面前。

奥特曼一月份那句坦诚的表态——「我们在开源方面一直站在历史的错误一边」,道出了这次转变的真正原因。DeepSeek 们带来的压力是实实在在的,当开源模型的性能不断逼近闭源产品,继续固守封闭无异于把市场拱手让人。

有趣的是,就在 OpenAI 宣布开源的同一天,Anthropic 发布的 Claude Opus 4.1 依然坚持闭源路线,市场反应却同样热烈。

两家公司,两种选择,却都收获了掌声,展现了 AI 行业最真实的图景——没有绝对正确的道路,只有最适合自己的策略。OpenAI 用有限开源挽回人心,Anthropic 靠闭源守住技术壁垒,各有各的算盘,也各有各的道理。

但有一点是确定的,无论对开发者还是用户,这都是最好的时代。你既可以在自己的笔记本上运行一个性能堪堪够用的开源模型,也可以通过 API 调用性能更强的闭源服务。选择权,始终掌握在使用者手中。

至于 OpenAI 的「open」能走多远?等 GPT-5 发布时就知道了。

我们不必抱太大希望,商业的本质从未改变,最好的东西永远不会免费,但至少在这个被 DeepSeek 们搅动的 2025 年,我们终于等到了 OpenAI 迟来的「Open」。

附上博客地址:
https://openai.com/index/introducing-gpt-oss/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌