普通视图

发现新文章,点击刷新页面。
昨天以前首页

扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋

作者 李超凡
2026年4月24日 19:18

今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配,性能比肩顶级闭源模型,首发适配华为昇腾芯片,随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器

这个技术名词,怎么看着这么眼熟呢?

原来是前两天发布的 Kimi 2.6 里,就是通过 Muon优化器,在相同的训练量下实现了2倍的效率提升,并在 1 万亿参数规模上解决了训练不稳定的难题。

早在上个月杨植麟站在英伟达 GTC 2026 的舞台上,花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。
(附APPSO解读文章链接)

杨植麟是这样说的:「用 MuonClip 而非 Adam 训练 Transformer 大模型,效果会好得多。」正确实现后,token 效率提升 2 倍。在数据墙面前,这相当于把 50 万亿 token 用出了 100 万亿的效果。

现在,这项技术出现在了 DeepSeek V4 的训练方案里。

我又回来翻了一下 Kimi K2 的架构底层,又发现了一个更有意思的细节:它用的是 DeepSeek-V3 提出的 MLA(Multi-head Latent Attention)。

DeepSeek 的技术报告写着 Kimi 的名字,Kimi 的架构底座写着 DeepSeek 的名字。 你中有我,我中有你。

这大概是中国 AI 圈最魔幻的一幕:两家被外界反复对比的开源双子星,技术底层早就长到了一起。

而且,Kimi 类似这样的巧合,已经不是第一次了。

五次「撞车」,五个拐点

算上 V4 和 K2.6 前后脚上线,这已经是 Kimi 和 DeepSeek 过去一年里的第五次「撞车」了。

▲ 图片由 image-2 制作.

五次「撞车」,如果只是时间重合,那叫巧合。但把每次发布的内容拉出来看,你会发现一条清晰的暗线:每次撞车恰好对应一个 AI 行业拐点的到来

第一次是最戏剧性的。2025 年 1 月 20 日晚 8 点 10 分,DeepSeek R1 发布并以 MIT 协议完全开源。不到两小时后,Kimi k1.5 亮相。

两者都瞄准同一件事:让模型从「张嘴就来」变成「先想后说」,用强化学习跑通 Long-CoT 长思维链推理。

在这之后,中国的开源力量就彻底改变了整个全球 AI 的格局。

后来 OpenAI 在一篇论文中点名指出:Kimi 和 DeepSeek 是「最早复现 OpenAI-o1 Long-CoT」的两家公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么,并且用自己的方式做了出来

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

最近这次就是今天。四天之内,K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力,V4 把百万上下文做成了所有服务的标配,输出长度拉到 384K tokens。

两家同时推进国产芯片适配:V4 下半年支持华为昇腾 950,寒武纪已完成 Day 0 适配;K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态,全齐了。

从「学会思考」到「学会干活」,从「改 Transformer」到「改算力底座」,五次撞车其实展现出来的,是中国 AI 不再一味对标 OpenAI ,逐渐不再依赖英伟达,在开源上走出属于自己的路。

撞车背后的必然

发布撞车的巧合固然有意思,但更值得关注的,其实是巧合背后的一些必然。

让我们先回到 DeepSeek 架构里的 Muon 。

杨植麟在 GTC 演讲中讲了一个技术困难:当 Kimi 把 Muon 扩展到 1 万亿参数时,训练不稳定性成了拦路虎。最大 logits 爆炸超过 1000,正常值只有 50 到 100。

损失先降后炸,根本无法收敛。他们的解法是 QK-Clip,对每个注意力头计算最大 logit 的裁剪值,把查询和键限制在合理范围内。训练损失不受影响,但稳定性问题消失了。

K2 模型用这套技术完成了训练,创下机器学习史上最大规模 Muon 训练的纪录。

而 DeepSeek V4 的技术报告里,Muon 被直接写进了训练方案。大多数模块用 Muon 加速收敛,嵌入层和预测头仍用 AdamW,混合使用。这是对 Kimi 底层创新的一次直接引用。

反过来,Kimi K2 的底层架构采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention,通过压缩 KV 缓存大幅降低推理成本,是 V3 最核心的架构创新之一。

你的论文成了我的基础设施,我的创新成了你的底座。 写在引用列表里的互相成就。

在硅谷,你很难看到这种事。OpenAI 和 Anthropic 之间的技术是「护城河」,能藏则藏。但 Kimi 和 DeepSeek 之间长出了一种更原始也更健康的关系:开源社区里的正向循环

Kimi 和 DeepSeek 是中国首批开源万亿参数模型的玩家,都相信 Scaling Law。技术路线上,DeepSeek 以推理模型见长,Kimi 以 Agent 能力著称。

底层架构上,两家都在挑战同一批「古老」的基础设施。Kimi 发了「注意力残差」论文,DeepSeek 做了 mHC 残差连接,都在改 ResNet 时代留下来的残差连接方式。

在长文本这条线,Kimi 探索线性注意力(Kimi Linear),DeepSeek 探索稀疏注意力(DSA),殊途同归。

所以当它们撞车时,与其说是巧合,不如说是对同一个方向的必然趋同。

用中国的芯片,跑中国的模型,对全世界开源

在 OpenRouter 上,Kimi 和 DeepSeek 稳居中国模型调用量前两名。

Cursor 接入了 Kimi,日本乐天 Rakuten AI 3.0 基于 DeepSeek 开发。被海外产品「套壳」这件事,放在两年前是耻辱,现在是勋章。

Meta 新模型 Muse Spark 发布时,官方 Blog 做的对比基准线里,Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站着。英伟达 GTC 上,黄仁勋用来展示芯片性能的中国模型就是这两家。

海外认可之外,更值得注意的是国产芯片这条线。H20 芯片已断供一年,高端推理芯片短期内只有国产一个选项。两家公司同时在做同一件事:让中国模型跑在中国芯片上。

上周黄仁勋在播客访谈里说了一句话:「如果当初 DeepSeek 先在华为平台上发布,那对我们来说非常可怕。

今天,V4真的首发适配华为昇腾,工程团队把整个技术栈从 CUDA 迁移到了华为 CANN 框架,从算子库到通信原语到内存管理,V4 的混合注意力、MoE 专家并行、FP4 量化训练,几乎每层从头实现。寒武纪也在 Day 0 完成了 V4 全系列的 vLLM 推理适配,代码已开源。

黄仁勋一语成谶。

而 Kimi 在国产芯片上走的路更早,也更深。为了给国产芯片「铺路」,Kimi 在架构创新上掏出了两个杀手锏。

Kimi Linear 混合注意力架构把线性注意力层与全注意力层以 7:1 配比混合,将 KV 缓存体积压缩到极低水平。实测数据很直观:32K 上下文下,混合架构模型 KV 吞吐量仅 4.66 Gbps,同规模稠密模型高达 59.93 Gbps。

KV 缓存传输需求被压到了普通以太网可承载的范围,RDMA 高速网络从「必选项」变成了「可选项」。

在此基础上,Kimi 联合清华大学发布了 PrFaaS(预填充即服务)论文,把推理的 Prefill 阶段和 Decode 阶段彻底解耦,调度到不同异构硬件集群上。实测吞吐量提升 54%,首词延迟降低 64%。

这套方案打破了「大模型推理必须绑定同一种高端 GPU」的前提:算力强的国产卡做 Prefill,带宽强的国产卡做 Decode,各司其职。

DeepSeek 用 V4 证明了国产芯片能跑万亿参数的旗舰模型,Kimi 用架构创新证明了国产芯片可以跑得好、跑得省。

一个从工程适配切入,一个从架构设计切入,终点都是同一个:让英伟达不再是唯一选项

以前的国产 AI 叙事是「用英伟达的卡,追 OpenAI 的模型」。现在这对双子星同时在写另一个剧本:用中国的芯片,跑中国的模型,服务全世界的开发者

你的 MLA 是我的基础,我的 Muon 是你的加速器

回看这一周AI 行业的疯狂更新,我们已经处在了一个新的转折点。

同一周内,两个中国团队各自发布了万亿参数级开源模型,性能逼近甚至持平美国顶级闭源模型。这在一年前是不可想象的。

当闭源模型的价格是开源模型的 50 倍,开源阵营每隔几个月就推出一个新的万亿参数选手,竞争天平正在发生微妙的倾斜。

这不是「赢了」或「超越」这么简单的胜负之分。闭源模型在复杂推理和系统可靠性上仍然有明显优势,Opus 4.6 的思考模式依然是 V4-Pro 追赶的目标。但开源阵营的速度、成本优势和生态覆盖面,正在改变这场竞赛的规则本身。

除了这五次撞车发布,这两家公司还有一个巧合。梁文锋来自广东湛江,杨植麟来自广东汕头。两个广东人,撑起全球开源 AI 半边天

梁文锋像工程师哲学家,相信开源和底层创新,V4 发布公告结尾引的是荀子,「不诱于誉,不恐于诽,率道而行,端然正己。」

至于杨植麟在我看来像产品科学家,他认为用户体验和技术突破可以兼得,在 K2.6 发布时他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一个古典,一个极客。就是这两个风格迥异的创始人,一起定位了中国开源模型在世界坐标系的位置。

你的 MLA 是我的基础,我的 Muon 是你的加速器。这大概也是中国在能在短时间内引领全球开源 AI 的重要原因之一

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

作者 莫崇宇
2026年4月24日 14:15

星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍,就在刚刚,正式发布并开源了 V4 系列模型预览版。

一上来就是王炸级别,而且双双标配百万 token 上下文:

  • 参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)
  • 284B 参数的 DeepSeek-V4-Flash(13B 激活参数)

即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务同步上线。

DeepSeek V4 登场,Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位,约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成均有提升。

工具调用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误,比上一代更可靠。

知识与推理层面,V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9,比最接近的开源竞争者高出约 20 个百分点,只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。

基座模型层面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base(对应分别是 87.8、65.5、28.3、40.2)。

值得一提的是,参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base,说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。

在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。

Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实,并非只在内部框架上表现良好。

长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

从分段数据来看,128K 以内的检索能力相当稳定,128K 之后开始出现明显下滑,但 1M 时的表现依然超过大多数同类模型。

中文写作同样是 V4-Pro 的强项。

官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型,在包含 3170 条样本的功能性写作评测中,V4-Pro 的胜率为 62.7%,Gemini 为 34.1%。

创意写作方面,V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景,Claude Opus 4.5 仍有优势,胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」,选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位,第一反应是「Flash 就是降配版」。

错,大错特错。 DeepSeek 的定位逻辑要更复杂,V4-Flash 的参数量和激活量都小得多,API 价格更有竞争力。推理能力和 Pro 很接近,世界知识储备稍逊,

简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务,以及思考模式的选择。

在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,和 Pro Max 的差距已相当有限。

日常任务用 Flash,遇到硬骨头开 Think Max,性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务,选对思考强度,比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换。

非思考模式响应速度快,适合日常轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,官方建议上下文窗口至少设置为 384K token,复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令,要求模型「以绝对最大力度推理,不允许走捷径」,并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显,也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文,榨干每一个 token

百万 token 上下文有不少模型都在宣传,但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长,上下文一长就成了最主要的计算瓶颈。

V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力只挑其中 k 条参与核心计算;HCA 则用更激进的压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。

CSA 里还有一个闪电索引器,用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,再挑出 top-k 个块参与后续注意力,进一步压缩计算量。为了避免压缩损失局部细节,两种注意力都额外引入了滑动窗口分支,让每个 token 能完整看到最近的若干个相邻 token。

效果是显著的,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进,同样场景下推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。

官方表示,百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外,V4 还引入了流形约束超连接(mHC)来强化残差连接。

传统残差连接把层与层之间的信号直接相加,而 mHC 把残差流的宽度扩展若干倍,再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上,保证谱范数不超过 1,让跨层信号传播更加稳定。

训练层面采用 Muon 优化器,通过迭代正交化梯度矩阵来更新参数,加快收敛速度并提升稳定性,和 AdamW 混用:大多数模块用 Muon,嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」,在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断,把数值范围钳制在 [-10, 10] 以内,直接压制异常值的出现。补货,两种方法目前只知道有效,机理还不够清晰,DeepSeek 在论文中坦承这个问题留待后续研究。

此外,两款模型均在超过 32T token 的高质量数据上完成预训练,数据构成涵盖数学、代码、网页、长文档等多个类别,中期训练阶段还额外加入了 agentic 数据来强化代码能力。

训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习独立培养领域专家,涵盖数学、代码、Agent、指令跟随等多个方向,再经在线蒸馏(OPD)将各领域能力整合进单一模型。

OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计,梯度估计更稳定,知识迁移更完整,代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载,隐藏层状态也做了专门缓存以避免显存爆炸。

当然,源神,依然是那个源神!

目前四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。

Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8。

FP4 到 FP8 的反量化是无损的,因为 FP8(E4M3)比 FP4(E2M1)多两位指数位,动态范围更大,能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。

此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供了 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。

API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上,调用时 base_url 不变,model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式,开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构,DeepSeek V4 这次一个更值得关注的变化,是英伟达不再是唯一选项。

也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。

图片
DeepSeek 选择在 V4 这个节点上做这件事,时机很精准。

V4 的性能已经比肩顶级闭源模型,如果它只能跑在英伟达芯片上,那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾,这个叙事也有所完整:算法是自己的,代码是开源的,芯片是国产的。

巧合的是,黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示,DeepSeek不是一个无足轻重的进展。

他还假设了一个情况,那就是 DeepSeek 新模型在华为平台上首发,黄仁勋表示这一天对美国来说将是一个可怕的结果,因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理,这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度,V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择,正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeek,该卸下扫地僧的枷锁了

作者 莫崇宇
2026年4月12日 16:53

我每次翻《天龙八部》,翻到少林寺藏经阁那一段,都要停下来。

萧远山、萧峰父子对上慕容博、慕容复父子,鸠摩智再从旁搅局,三十年的血海深恨搅在一处,眼看就要分出生死。就在这当口,一个枯瘦的扫地僧走了出来。

萧峰的降龙十八掌打在他身上,他虽受内伤吐血,却以浑厚内力生生受之;他举手投足间让慕容博陷入「假死」复又救活,这种生死由心的境界,令在场一众顶尖高手莫不震慑失语。

这一刻,谁强谁弱,答案不言而喻。

AI 圈最近几年,流行把 DeepSeek(深度求索)比作这位老僧。在所有人眼里,AI 赛道的格局早已注定,海外有御三家,国内有大厂和彼时风头正盛的 AI 六小虎,轮不到旁人来置喙。

结果一家做量化交易出身的中国公司,悄没声儿地走出来,用一套从天而降的招法,在各项核心评测上与这帮人正面交手,打得有来有回。

只是,扫地僧出场,是《天龙八部》行将收尾的时刻。他的使命是终结纷争、化解戾气,然后全书走向尾声。可大模型的故事,没有尾声,也没有终章,只有下一回,还有下下一回。

把 DeepSeek 比作扫地僧,是对它过去的最高赞誉,但如果这三个字正在慢慢变成困住它的枷锁,我倒觉得,赞誉和催命符,有时候只在一念之间。

扫地僧是怎么练成的

金庸写扫地僧,从来不正面写他的功夫。他写的是别人的反应,萧峰愣了,慕容复愣了,旁观的人也愣了。高手的境界,要从旁人失语的瞬间才能传递出来。

DeepSeek 的故事,也暗合这个逻辑。

作为杭州的一家对冲基金,外人提到幻方量化,第一反应是期货、是算法交易、是数学天才们盯着屏幕上跳动的数字。这和 AI 大模型,八竿子打不着,却悄悄把一批工程师和研究员聚在一起做大模型。

2023 年 11 月,他们发布首个开源代码大模型 DeepSeek Coder,后续拿出了一个 67B 的语言模型。在官方给出的多项评测中,67B 超过了 LLaMA2 70B,67B Chat 在部分中文和开放式评测中优于 GPT 3.5。只是,圈内少数几个消息灵通的人注意到了,大多数人没注意到。扫地僧还在扫地,少林寺的人都在忙着练少林长拳。

让其开始崭露头角,是 2024 年 5 月 7 日发布的 V2。V2 用的是 MoE(混合专家)架构,总参数 2360 亿,但每次推理实际激活的只有 210 亿。与此同时,V2 首次采用了 MLA(多头潜在注意力)机制,大幅压缩了推理时的显存占用。

两相叠加,让模型在同等效果下,跑得更快,花得更少。用金庸的话来说,这叫以柔克刚,以精妙的内功路数,弥补了真气总量上的不足。

🔗 https://arxiv.org/abs/2405.04434

但砸出最大水花的,是定价。V2 的 API 定价,每百万 token 输入 1 元,输出 2 元。GPT-4 Turbo 当时是它的七十倍,Meta 的 Llama3 70B 是它的七倍。一块钱,一百万个 token,大约相当于一本《三国演义》的字数。

这个价格摆出来,让整个国内大模型市场为之色变。当月,字节、阿里、百度、腾讯、讯飞、智谱,一家接一家跳出来宣布降价,最高降幅 97%,部分轻量级模型直接免费开放。

一场持续了大半年的价格战,就这么被 DeepSeek 的一句定价点燃了。那时候,业内给 DeepSeek 送了个外号,价格屠夫。

美国的半导体咨询公司 SemiAnalysis 在那段时间写了一篇分析,说这家公司有可能成为 OpenAI 的对手,也有可能碾压其他开源大模型。当时读到这句话的人,大概有一半觉得是危言耸听。一年多以后回头看,没有人再觉得是危言耸听了。

2024 年末的 V3 和 2025 年初的 R1,则是连续出手的两招,把对手打得目瞪口呆。DeepSeek 用极低的投入,打出了旗鼓相当的效果。

更让人震惊的是参与人数,139 名工程师和研究人员完成了这个项目,而 OpenAI 同期有 1200 名研究人员,Anthropic 有 500 名。Meta 超级智能实验室负责人亚历山大·王后来说了一句被广泛流传的话,当美国人休息时,他们在工作,而且以更便宜、更快、更强的产品追上我们。

紧接着便是是 R1,主打深度推理,数学、代码、逻辑,在相当多的测试维度上与 OpenAI o1 不落下风,训练方法用的是 GRPO 强化学习,靠让模型自己想清楚来提升推理能力。

最要紧的一步是开源。

R1 的开源,被广泛解读为一种慷慨。模型权重、技术论文、训练细节全部公开,全球开发者共享成果。这套叙事里,DeepSeek 是那个敞开藏经阁大门的人,路不拾遗,人人可进。

武功秘籍直接摆桌上,谁想学谁来拿的这一手,也打破了少数几家巨头对前沿模型的垄断,让全球数以万计的中小开发者有了和顶尖模型掰手腕的资格。

金庸写扫地僧,主要抓住几样东西,出身边缘、多年隐匿、一鸣惊人、技法精绝、胸怀坦荡。DeepSeek V2 的价格屠刀、V3 的成本奇迹、R1 的开源普惠,也让人们在 DeepSeek 身上,真真切切地看见了那个老僧的影子。

枷锁,以及枷锁之后

但武侠小说是会结束的,AI 赛道不会。

每次我写 DeepSeek 的文章,底下的评论区都像藏经阁又打了一场架。有人说它安安静静做产品,不收费、不立人设,能用就用,这才是正道。有人说它连国产其他巨头都未必打得过,已经无法搅局。

有人替它抱不平,有人觉得它早就该被淘汰。更有人说,「我们一直以来都没把 DeepSeek 当作优等生,而是当作扫地僧,真心希望它能如我们所愿」,这句话说得又期待,又带着一丝说不清楚的悲凉。

意见如此撕裂,本身就说明了一件事。DeepSeek 所受到的关注,早已超出了一家普通 AI 公司应有的体量。捧它的人把它捧上神坛,骂它的人把它踩进泥里,没有几家公司能在舆论场里同时承受这两种极端。

这篇文章大概也逃不过同样的命运,有人会说这是黑稿,有人会说这是 PR 稿,落个两头不讨好。但这无所谓,舆论从来都是这样,藏经阁里打架,不管谁赢,总有人不服。

说回正题,扫地僧出场那一幕,是《天龙八部》收尾的信号。他出手,纷争平息,故事逐渐走向终章。这个叙事结构,似乎天然就带着一种大结局的气息,英雄横空出世,一招定乾坤,从此江湖太平。

根据《创智记》援引知情人士消息称,按照创始人梁文锋在内部透露的时间,DeepSeek V4 将于四月下旬正式发布。
爽文里的主角,每一章都要有突破,读者翻到下一页,期待的永远是更大的惊喜。

V3 和 R1 用四两拨千斤的逻辑征服了世界,大众于是开始把它当成 DeepSeek 的固定输出,每一次出手都必须让硅谷巨头血溅千里,都必须让英伟达的股价抖一抖。V4 也应当如此。

可在这等待一年多的时间里,外界等得有些躁动,各路声音都出来了,说一拖再拖,是不是黔驴技穷了,扫地僧要不行了?说这话的人认为 DeepSeek 理应每次出手都是奇迹,一旦慢了半拍,便是江郎才尽。

慢,自然有慢的原因。

3 月 29 日,DeepSeek 的服务器崩了将近十三个小时,创下网页端和 App 平台上线以来最长中断纪录。连续的服务事故暴露了 DeepSeek 在运维监控、应急预案和灾备机制上的明显短板,也给整个 AI 行业敲响警钟。

当然,综合各家报道来看,V4 一再推迟的原因,还藏在芯片层面。

V3 和 R1 的成功,一定程度上建立在成熟的英伟达 CUDA 生态上,DeepSeek 的工程师们在工具完备、文档详尽、社区活跃的环境里,把算法效率一点一点榨到了极限,每一步都踩得踏实。

V4 要做的事,是把这套功夫移植到国产 AI 芯片上。工具链还在快速迭代,底层接口和 CUDA 差异巨大,分布式训练框架几乎需要从头重构。

DeepSeek 交出的答卷,如果是在受限条件下做出来的,这让它的每一分成绩,都带着额外的含金量。哪怕梁文锋愿意为这件事多拖几个月,也是一笔非常划算的决策。

至于 V4 本身,《创智记》报道称,技术重心据悉落在了 LTM(长期记忆)能力的突破上,同时将原生多模态从底层融入架构,文字和视觉在预训练阶段就融合在一起。

另一个值得关注的变化,是梁文锋本人的注意力在悄悄转移。尽管在过去的一年里,包括 R1 的核心作者郭达雅在内的部分 DeepSeek 核心骨干陆续离职,不过根据《晚点 LatePost》的观察,DeepSeek 的人才基本盘依然稳固,并未出现大规模的人才流失现象。

进入 2025 年下半年,梁文锋也愈发看重技术的商业落地与产品化进程,积极招募负责 Agent 领域的策略产品经理。与此同时,他正在为公司启动估值,给员工的期权一个明确的锚点,让团队对未来有更清晰的预期。

综合上述种种动向不难得出一个结论:曾经心无旁骛盯着 AGI 的 DeepSeek 也得开始面对一家成熟科技公司必须面对的那些现实:商业闭环、生态建设、可持续的收入来源。

扫地僧可以几十年不问江湖俗事,守着藏经阁一扫到底,一家公司,没有这个选项。

《笑傲江湖》里的令狐冲凭着独孤九剑可以破尽天下武功,但当他真正坐镇恒山派,每天迎来送往,护佑门人,一招鲜远远不够,他需要的是内政、是人心、是香火代代相传的根基。奇招,解决不了日常的柴米油盐。

因此,我们应该主动帮 DeepSeek 卸下「扫地僧」这个名号。这三个字是对过去的最高褒奖,却是对未来的过重负担。即便 V4 发布时没有断崖式的领先,只是一款 LTM 扎实、多模态原生融合、各项指标均衡的水桶机。

从产业的角度看,这依然是巨大的成功,成功在于它或许将证明 DeepSeek 有能力从一个创造奇迹的挑战者,变成一个稳定交付的基础设施提供者。

有意思的是,这件事或许本来就是双向的。《晚点 LatePost》此前的报道里,DeepSeek 对外的沟通姿态明显比以往克制,既没有大张旗鼓地预热,也没有放出足以吊足胃口的技术信号。

这种低调,很难说是无意为之。

他们比任何人都清楚,扫地僧这三个字背后悬着什么。每一次出手若不能再掀翻整张牌桌,舆论的落差就会被无限放大。这是一种预期管理,也是一种自我解绑——他们同样不想再背着这个包袱走下去。

▲AI 模型的世界,已经从少数几家机构的专属游戏,变成了全球开发者共同参与的基础设施建设,而且这个趋势还在加速。 🔗 https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

而话说回来,当舆论都在一窝蜂盯着 DeepSeek,却少有人往旁边多看一眼。

▲开源模型等级列表,图片来源:https://www.interconnects.ai/p/2025-open-models-year-in-review

这片江湖里,国内每一家 AI 都在苦修内功,押注多模态、Agent 生态、算力布局,也都在各自的赛道上走出了自己的路数。

DeepSeek 固然是那个最让人心跳加速的名字,但把眼光只锁死在它一家身上,未免看窄了这个时代。真正让天龙八部成为天龙八部的,是那一整代人各有来路,各有绝学,彼此激荡,才撑起了那个波澜壮阔的时代。

扫地僧的传说,止于藏经阁那一战,藏经阁外,才是真的江湖。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,DeepSeek 大升级,V4 真的不远了|附体验细节

作者 莫崇宇
2026年4月8日 11:43

就在刚刚,DeepSeek 网页端迎来大更新。

没有发布会,没有 blog,甚至连一条官方推文都没有。DeepSeek 网页端的输入框上方多了两个图标——一个闪电,一个钻石,分别对应「快速模式」和「专家模式」。

悬停一下,提示语出来了:快速模式「适合日常对话,即时响应」,专家模式「擅长复杂问题,高峰需等待」。

目前从实测和网友拆解来看,两个模式的差异大概是这样的:

快速模式,可以识别图片和文件中的文字,速度快,响应即时。代价是,背后跑的大概率是一个更轻量的 V4 Lite 模型,但针对速度做了优化。

专家模式,疑似路由到了更大、更强的模型——很可能就是 DeepSeek V4 正式版的某个形态。但目前它不支持文件上传,也没有多模态能力。等等,更强的模型,反而功能更少?

我们也做了一轮简单测试。

比如让两个模式各自写一个 p5.js 程序,模拟球在旋转六边形内弹跳,要求受重力和摩擦力影响。结果很直观——专家模式给出的物理行为更符合直觉,落点更准,弹跳轨迹更真实。

这种差距,其实挺能说明问题的。物理仿真对数学推理能力要求高,弱一点的模型容易出现「看起来像物理但实际上不对」的结果。专家模式在这里的表现,是实打实的能力差异。

但网友让其制作的太空侵略者游戏结果却让人有点意外:专家模式的输出和快速模式差距并不明显。

做测试的网友给出了一个判断:「我估计专家模式现在路由的仍然是某个版本的 V4 Lite。要看到完整版 V4 在网页端上线,可能还得再等一阵。」换句话说,这次灰度上线的「专家模式」,未必就是最终形态。

创意写作方面,我给两种模式出了一道辩论写作题,题目是「替无聊辩护,论证无聊是现代人的奢侈品」。专家模式的输出更长,逻辑链更完整;快速模式的文风则相对自然朴实。

有意思的是,在这个任务上,两个模式的速度差距并不明显,甚至专家模式的思考时间更短。这有点反直觉,但可能和任务性质有关——创意写作对模型规模的敏感度,远低于数学推理类任务。

对于简单任务,两个模式差异有限;越是需要深度推理的场景,专家模式的优势越明显。

在数学逻辑题「绳子绕地球一圈,加长 1 米均匀撑开,缝隙多高?」中,尽管两个模式给出了相同的答案,但过程截然不同。快速模式的回答很简略;专家模式则一步一步拆解,每个推导环节都交代清楚,更接近「把思考过程写出来」这个指令要求。

值得一提的是,目前网页端实际上线的只有快速和专家两个模式,但此前的爆料显示,还有第三个选项正在路上——「Vision 模式」。

关注 DeepSeek 技术路线的 KOL Teortaxes 认为:把 Vision 单独列为一个类,是很不寻常的设计。他提到,DeepSeek 此前拒绝在网页端部署 DS-VL 系列,原因是「尚未成熟」。如果 Vision 模式真的上线,背后支撑它的,很可能已经是一个「完全功能化」的 VLM。

而 Teortaxes 在他的长评里,给出了一个更大胆的猜测——这个视觉模型,有可能不是常规的 VLM,而是某种「深度统一世界模型」,是 Janus 系列的下一步演化,或者其他更非传统的架构。

当然,这是他的猜测,要打折扣。但有一点是确定的:DeepSeek 在多模态方向一直都有所布局,或许只是差一个良好的时间窗口。而把快速、专家等入口摆在用户面前,背后其实是一个更值得关注的方向:

DeepSeek 开始做产品分层了。

自去年初爆火以来,DeepSeek 的产品逻辑一直是高度「反商业」的——API 定价较低,网页端完全免费,功能也没什么门槛区分。这个策略确实奏效了。DeepSeek 在今年年初的那一波,把整个 AI 圈都搅动了一遍。

但问题也随之而来:长期维持这种「全免费、无分层」的运营方式,商业上是不可持续的。

现在,DeepSeek 开始把「更强的模型」和「更基础的模型」做成两个入口。专家模式目前还是免费的,但这个架构一旦搭好,后续要在上面做付费体系,技术上已经不是问题了。

Teortaxes 在评论里也提到一个细节:文件上传限制是暂时的,DeepSeek 正在整合系统,为的是之后让用户为更强大的「专家模式」付费。这整件事拼起来看,是一个很完整的铺垫路径:

先灰度上线分层入口 → 让用户感知差异 → 打通多模态和文件能力 → 视觉模式开闸 → 更强大的模式定价。当然,这仅仅是我个人的推测,也乐于被打脸,毕竟 DeepSeek 从来不按常理出牌。

诚然,大家给 DeepSeek 贴了太多标签——技术理想主义、反商业、普惠 AI。但 GPU 的推理成本、服务器的电费账单等等,每个月都是实打实的。幻方的量化收益再丰厚,也很难靠卖 API 填完一个全球级 AI 服务无限期免费运营的窟窿。

DeepSeek 搅动了整个 AI 圈,但现实也终将搅动 DeepSeek。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

凌晨三点,我在排队等一个 AI

作者 莫崇宇
2026年3月31日 17:11

「你见过凌晨四点的洛杉矶吗?」

这本是一句用来兜售自律的鸡汤文,可在 AI 浪潮漫过各行各业的今天,深夜走进一家 AI 漫剧制作公司,你可能会看到一群眼圈发黑的打工人在工位上使用 AI 来处理他们本该在白天完成的工作。

AI 能提升效率、解放劳动力的故事,我们听了太多年,不能说全是谎言。

但当算力变成紧俏的稀缺资源,「错峰使用」也成了全球 AI 公司心照不宣的统一话术时,打工人非但没有从冗余的工作里解脱,反而被塞进了另一套更拧巴的工作时间表里。

AI 算力不够,打工人的睡眠来凑

今年年初,字节跳动的 AI 视频生成模型 Seedance 2.0 爆火,火到无需多言。

宇树科技创始人王兴兴称它是「全球遥遥领先」。冯骥体验过后,给出「AIGC 的童年时代结束了」的评价,春节返工后的高峰时段,排队使用的人数一度冲到十万,足以见得市场对它的狂热。

行业大佬的背书、市场的狂热,直接推高了 Seedance 2.0 的旺盛需求,而这份需求,最终也传导到了下游的 AI 相关企业。

据 36 氪未来消费报道,AI 漫剧制作公司鹤芽漫剧,早早就把上班时间调到了中午,一干就到凌晨 1 点,目的只有一个:避开白天的算力高峰。

更戏剧性的情节是,凌晨 1 点的排队人数仍以万计,无奈之下,上班时间只能再往后提,最终定格在凌晨三点。

 

据此前 The Information 报道,想获得 Seedance 的企业授权,先要通过资质审核,想拿到谈判席位,企业需要先承诺至少 1000 万元人民币的使用预算,这还只是排队的起步价。

值得注意的是,这些报道的细节未必完全准确,但有一点大概率成立:能坐上谈判桌的,本来就是少数。

对大多数中小型公司来说,错峰上班,用人熬夜换机器运转,反倒成了最务实的办法。

究其原因,AI 工具的能力已经强到足以重组一家公司的工作方式,可支撑它的基础设施,却还没跟上这份能力的步伐。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。

没有免费的智能,每一次调用都是真金白银的损耗。这直接倒逼 AI SaaS 平台的定价模型,从过去的席位制,转向基于 Token、基于操作、基于消耗量的计费方式,一分一毫都算得清清楚楚。

在这样的 Token 经济学逻辑下,边际成本高企,平台方根本无法容忍用户在算力紧张时无节制消耗。因此,限制配额、排队等待、建议错峰使用成了必然选择。

另一个方面就是 Sora,据《华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一就是它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。

包括同一时期,Anthropic 宣布调整 Claude 的使用规则,将太平洋时间早 5 时至 11 时定为高峰时段,这个窗口内,用户的会话额度消耗会明显加快。换算成北京时间,恰好是晚 8 点到凌晨 2 点,也让不少网友自嘲,难得享受到了时差的红利。

去年 DeepSeek 爆火时,也因为服务器资源紧张做过类似的尝试,一度暂停了 API 充值。重新开放后推出了夜间优惠,表面上是给用户让利,本质上,就是用价格杠杆,把流量强行分散到夜间,缓解白天的算力压力。

只是,我们发明 AI 是为了像人一样思考,结果却要求人像机器一样「错峰运行」。

当然,这或许只是一个过渡阶段。当年宽带刚普及的时候,也有人半夜爬起来下载一部电影,谁也没想到后来流媒体会变得如此理所当然。

尽管我们还没有到完全被 AI 支配日程的地步。但这个苗头依旧值得留意——当越来越多的工作流开始依赖 AI,当 AI 的响应速度和可用性直接影响到一家公司的产出效率,人对它的依赖,也就在不知不觉中加深了。

用了 AI,为什么越来越累?

如果说第一部分的「错峰上班」还只是为了解决能不能用的问题,那么更深层的痛苦则来自于:即便算力充足,AI 也没有让工作变少。

在铺天盖地的宣传里,AI 是那个无所不能的超级助理,是解放双手的灵丹妙药。可一旦这些工具真正落到具体的工位上,打工人们发现,预想中的「一键下班」并没有发生。

Upwork 在 2024 年对 2500 名职场人士的调查发现,96% 的管理层坚信 AI 会提升员工效率,可实际上,77% 的员工反映,AI 的引入,反而让他们的工作量增加了。

领导们觉得 AI 在帮你减负,于是理所当然地给你加派任务;而你却像个被抽得越来越快的陀螺,忙得脚不沾地,连喘息的时间都没有。

EY 2025 年覆盖 29 个国家、1.5 万名员工的调查,给出了类似的结论:64% 的受访员工认为过去一年工作量有所增加,而真正能把 AI 用到改变工作方式、提高效率的,只有 5%。

换句话说,大多数人用 AI,还停留在搜索、总结这种浅层层面。并且根据《哈佛商业评论》今年 2 月份的研究,AI 非但没有减少工作,它让工作强度变高了。

研究发现,AI 引入后,员工的工作节奏被强行加快,承担的任务范围变宽,工作时间延伸到了更多碎片化的小时里,而且很多时候,并没有人明确要求他们这样做。

这背后,藏着一个容易被忽视的经济学逻辑——「杰文斯悖论」:

技术让某件事变得更高效,往往反而会增加对这件事的总需求。AI 在职场中的处境,完美契合了这个悖论:单项任务的效率提高了,但任务总量也跟着水涨船高,最终,打工人的总工作量,非但没有减少,反而越来越多。

尤其是当 AI 生成的内容如海啸般涌现,可事实核查、逻辑梳理、细节修改这些需要人类判断力的工作,仍然只能由人来完成。于是,打工人的工作,从具有成就感的创造,悄然变成了枯燥又疲惫的打扫和校对。

期间工作量并没有凭空消失,它只是换了一种更隐蔽、更折磨人的形式。

除此之外,人不光要把自己的本职工作做好,还得自己去琢磨那些不好懂的提示词,在各个 AI 模型之间来回切换、反复尝试,才能找到能用的工具。

伊万·伊利奇 1981 年提出的「影子劳动」,指的是为了维持正式工作运转而不得不做的无偿准备性劳动。学会用 AI、管理 AI 工具链、校验 AI 输出,这些也正在成为职场隐性的准入门槛,既不算工作时间,又不计入薪酬,却真实地消耗着人的时间和精力。

比如有的人为了不被时代落下,也为了完成公司要求的 AI 使用指标,只能自己花钱,每个月掏几百上千块,去订阅各种 AI 工具的高级账号。

凌晨三点上班,看上去是在抢算力红利,本质上,是个人在用自己的生物钟,替一个还未成熟的行业,扛下它转嫁出来的不稳定性和成本。这笔账,怎么算都不划算。

只是目前在时代浪潮面前,个体的反抗,大多显得苍白无力。

工业革命以前,人跟着太阳走,天亮干活,天黑睡觉,时间是自己的。后来有了电,夜班出现了,工作时间开始突破昼夜的界限。再后来有了互联网,下班的边界开始模糊,工作可以随时随地找上门。

再后来有了手机,随时在线变成了默认状态,工作彻底入侵了生活的每一个角落。

每一次技术迭代,都有人说,这是自愿的,是进步,是效率的提升。

每一次,也都有人发现,最后承担代价的人,从来都不是最先喊着技术革命的那个人。

我们最初希望 AI 能替人省力,让时间变得宽裕一些。可眼下的现实是,它在某些地方确实提升了效率,却也在另一些地方制造了新的紧迫感:因为它能做到,所以你必须用;因为人人都在用,所以你不能慢。

内卷的逻辑没有消失,只是换汤不换药。我不确定这算不算一种必然的规律。但我知道,AI 本该是给你一把伞,帮你遮风挡雨,而不是顺理成章地把你赶进一场更大的暴雨里。

*封面、正文图片源自互联网

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌