阅读视图

发现新文章,点击刷新页面。

AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结

就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点:

  • 软件 3.0 已来: 从最初的人写代码(1.0),到喂数据训练模型(2.0),现在我们进入了直接对模型「念咒语」(Prompt)的 3.0 时代。
  • LLM 是新操作系统: 它不是像自来水一样的普通商品,而是一个负责调度内存(Context Window)和 CPU(推理算力)的复杂 OS。
  • Agent 的十年: 别指望 AI Agent 一年就成熟,从 99% 到 99.999% 的可靠性,我们需要走上十年。

Karpathy 今天这篇《2025 年度总结》,他再次向我我们剖析了这一年 AI 究竟长出了什么样的「脑子」。

以下是对 Karpathy 年度总结的精译,APPSO 在不改变原意的基础上做了更多通俗解读。

如果想看原文可以点击🔗 https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是 LLM(大语言模型)发展强劲且充满变数的一年。以下是我列出的几点个人认为值得注意且稍感意外的「范式转变」——这些变化不仅重塑了行业版图,更在概念层面上狠狠地冲击了我的认知。

🛑 太长不看版:

2025 年既让人兴奋,又有点让人措手不及。

LLM 正在作为一种新型智能涌现,它同时比我预期的要聪明得多,也比我预期的要笨得多。

无论如何,它们极其有用。我认为即使以目前的能力,行业甚至还没挖掘出其潜力的 10%。同时,还有太多的想法可以尝试,从概念上讲,这个领域感觉依然广阔。正如我今年早些时候提到的,我同时(表面上矛盾地)相信:我们将看到持续快速的进步,但前方仍有大量艰苦的工作要做。

系好安全带,我们要发车了。

1. RLVR:教 AI 像做奥数题一样「思考」

在解释这个复杂的基础概念之前,先看看以前是大模型训练是怎么做的?

在 2025 年初,各大实验室训练 LLM 的「老三样」配方非常稳定:

1. 预训练(Pretraining):像 GPT-3 那样,让 AI 读遍全网文章,学会说话。

2. 监督微调(SFT):找人写好标准答案,教 AI 怎么回答问题。

3. 人类反馈强化学习(RLHF):让 AI 生成几个答案,人来打分,教它讨人喜欢。

现在发生了什么变化?

2025 年,我们在这个配方里加了一味猛药:RLVR(从可验证奖励中进行强化学习)。

这是什么意思?

简单来说,就是不再让人来打分(人太慢且主观),而是让 AI 去做那些「有标准答案」的任务,比如数学题或写代码。对就是对,错就是错,机器能自动验证。

在数百万次的自我博弈和试错中,模型自发地演化出了看似「推理」的策略。它们学会了先把大问题拆解成小步骤,甚至学会了「回过头来检查」这种高级技巧(参考 DeepSeek R1 论文)。

核心对比:

  • 旧范式(RLHF): 像是教小孩写作文。因为没有标准答案,AI 很难知道自己哪一步想错了,只能模仿人类的语气。
  • 新范式(RLVR): 像是把 AI 关进奥数训练营。不用教它具体怎么想,只要给它足够多的题和对错反馈,它自己就能摸索出解题套路。

这一招太好用了,以至于 2025 年大部分算力都被这只「吞金兽」吃掉了。结果就是:模型并没有变大,但训练时间变长了。 我们还获得了一个新旋钮:让 AI 思考得久一点。OpenAI 的 o1 是开端,而 o3 则是真正的拐点。

2. 幽灵 vs 动物:AI 不是「电子宠物」

2025 年,我和整个行业终于从直觉上理解了 LLM 智能的「形状」。

一个惊悚的比喻:我们不是在像养宠物一样「进化/养育动物」,我们是在「召唤幽灵」

为什么这么说?

因为 AI 的一切都和生物不同。人类的大脑是为了在丛林里活下来、为了繁衍后代而优化的;而 LLM 的大脑是为了模仿人类文字、在数学题里拿分、在竞技场里骗赞而优化的。

参差不齐的智能(Jagged Intelligence):

正是因为 RLVR(可验证奖励)的存在,AI 的能力在某些领域(如数学、编程)会突然飙升成刺状。这就导致了一种极其滑稽的现象:

  • 它同时是一个绝世天才(秒解高数题);
  • 又是一个智障小学生(会被简单的逻辑陷阱骗得团团转)。

▲这里 Karpathy 引用了一张梗图:人类智能是圆润的蓝色圆圈,AI 智能是像海胆一样满是尖刺的红色图形。这很形象.

这也解释了为什么我对现在的「跑分榜单」(Benchmarks)失去了信任。

什么是「刷榜」的本质?

既然榜单是可验证的,那就可以用 RLVR 针对性训练。现在的实验室都在搞「应试教育」,把 AI 的能力尖刺专门往考题上长。「在测试集上训练」已经不仅仅是作弊,而成了一门新的艺术形式。

3. Cursor:不仅是编辑器,更是「包工头」

Cursor 今年的爆火,揭示了一个新真相:LLM 应用层比我们想象的要厚。

大家开始谈论「医疗界的 Cursor」、「法律界的 Cursor」。这些应用到底做了什么?

  • 「上下文工程师」: 帮你整理好所有背景资料喂给 AI。
  • 「工头」: 在后台偷偷指挥多个 LLM 干活,把复杂任务拆解,还要帮你省钱。
  • 「遥控器」: 给你一个调节「自主性」的滑块,决定放手让 AI 干多少。

预测:大模型实验室(如 OpenAI)会负责培养「全科大学生」;而应用开发商(如 Cursor)则负责给这些学生提供私有数据和工具,把他们组建成「专业施工队」

4. Claude Code:住在你电脑里的「赛博幽灵」

Claude Code (CC) 的出现让我眼前一亮。它不仅仅是一个能写代码的 Agent(智能体),更重要的是:它活在你的电脑里

对比来看,我认为OpenAI 搞错了方向。

OpenAI 早期的 Agent 都在云端跑(ChatGPT),离你的真实环境太远。虽然云端智能体听起来像是 AGI 的终局,但在当前这个「参差不齐」的过渡阶段,本地才是王道。

为什么本地很重要?

因为你的代码、你的配置、你的密钥、你的混乱环境,都在本地。Anthropic(Claude 的母公司)搞对了优先级,他们把 AI 塞进了一个小小的命令行界面(CLI)里。

它不再是你浏览器里的一个网页(像 Google 那样),它变成了一个寄宿在你电脑里的「赛博幽灵」,随时准备帮你干活。这才是未来 AI 交互的样子。

5. Vibe Coding

什么是 Vibe Coding?

这是我在推特上随口造的一个词(居然火了):意思是写代码不再需要你真的懂语法,你只需要用英语描述你的「意图」和「感觉」,剩下的交给 AI。

这带来了什么改变?

  • 对于普通人: 编程的门槛彻底消失了。
  • 对于专家: 代码变得像纸巾一样「廉价、一次性、用完即弃」。

举个例子,我为了找一个 Bug,可能会让 AI 现场写一个专门的 App 来测试,测完就删。放在以前,为了找个 Bug 专门写个 App?疯了吧!但在 2025 年,代码是免费的。

Vibe Coding 将会彻底重塑软件行业,也会改写程序员的招聘 JD。

6. Nano Banana:AI 终于有了自己的「脸」

为什么现在的 AI 交互很反人类?

不管是 ChatGPT 还是 Claude,我们还在用「打字」跟它们聊天。这就像 80 年代还在用 DOS 命令行的黑底白字。

事实是: 计算机喜欢文本,但人类讨厌读文本。人类是视觉动物,我们喜欢看图、看表、看视频。

Google Gemini Nano banana(这是一个虚构的模型代号,指代某种多模态交互模型)是 2025 年的另一个范式转变。它暗示了未来的 LLM GUI(图形界面) 是什么样子的

未来的 AI 不应该给你吐一堆字,它应该直接给你画一张图、生成一个网页、弹出一个交互面板。 这不仅仅是「画图」,而是将文本生成、逻辑推理和视觉表达纠缠在一起的混合能力。

连接热爱,发现创新价值的科技媒体,传播有价值的发声文本。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Vidu Agent 掀桌子!一张图直出 4A 广告大片,拿来直接投放

过去这几个月,大家的朋友圈大概都被极其逼真的 AI 视频刷过屏,比如刀切一切、片场穿梭合影等等。它们的光影和细节如此逼真,近乎达到了「以假乱真」的地步。

而龙林、土豆人等 AI 创作者,更是靠 AI 视频火出了圈。

但当你也跃跃欲试,想要将它们转化为生产力时,断裂感便扑面而来 ——

你生成了一张绝美的产品图,想把它变成 15 秒的电商 TVC,结果 AI 给你吐出一段脸部崩坏、画质塌陷的废片;你想剪一个热门短视频,却发现需要分别生成几十个镜头,再自己去剪辑软件里对着音轨、找 BGM、调色。

目前的 AI 视频工具,大多还停留在「生成素材」的逻辑里。它们能给你一块精美的砖头,但没法直接给你盖出一栋房子。创作者依然被困在繁琐的「抽卡」和后期的修修补补中,那种「所想即所得」的快感,在复杂的商业需求面前瞬间烟消云散,该加的班一秒也没少。

同作为打工人的我,也一直在等待一个能把创意、分镜、生成、剪辑、音效统统打包,直接交付「成品」而不是「玩具」的帮手。

Vidu Agent 的出现,让我离这个期待更近了一步。它不再谈论参数,而是直接打出了一个极具诱惑力的口号:「你的专业视频创作伙伴」。

12 月 16 日起 Vidu Agent 已全球开放内测,用户进入 Vidu 官网(Vidu.cn)申请 Agent 内测,并加入社群即可优先获得体验权限,快去申请吧~

一键成片,从「灵感」到「交付」只需一步

「效率」与「质感」,往往是一对难以调和的矛盾。

既然主打「一站式」解决方案,我们决定略过寒暄,直接将 Vidu Agent 置入对效率极其敏感的电商广告与内容营销战场,看看它所谓的「一键成片」,究竟是噱头,还是具备掀翻桌子的底气。

初见 Vidu Agent,标准的输入框、附件栏与选项按钮,并没有让我感受到特别之处。反倒是整体「紫色渐变」的风格,确实很符合我对 AI 页面的刻板印象。

先来做个香水广告试试。我生成了一个香水的图片,并要求它输出一段具有高端质感的 TVC。

此时,Vidu Agent 才真正展露锋芒 —— 它并没有急于生成视频,而是先切换至「画布创作模式」。不到一分钟,一份完成度极高的分镜脚本便呈现在眼前。

这不仅是简单的画面描述,从场景构建到镜头语言,甚至连旁白文案都已就位。这种「先脚本,后成片」的交互逻辑,不仅赋予了用户掌控感,更提供了一种与众不同的交互体验。

我回复满意后,Vidu Agent 就马不停蹄开始干活。又是不到一分钟,一段完整可用的 15 秒香水广告就出来了。

成片的质感令人印象深刻:色彩的调教、光影的流动、镜头间的衔接都显得游刃有余。更重要的是,它读懂了香水这一品类场景下的「隐性需求」,知道香水这种产品的「调调」,成功营造了高端的品牌调性。

接着,让我们来看看 SKU 极多的服装电商。为了展示服装在不同场景的特性,拍摄团队往往需要频繁转场外拍,差旅和人力成本都巨大。那 Vidu Agent 能解决这个问题吗?

我们让它来做个冲锋衣的广告。我给它一张图片,让它生成一个具有溯溪、登山、野外徒步和城市遛狗多个场景切换的短片,以展示冲锋衣的日常穿搭场景以及防水、防风、防寒、时尚等功能特性。

初版交付迅速,观感尚可。但为了测试其极限,我们决定扮演挑剔的「甲方」,对溯溪场景的细节与内搭款式提出了修改意见。

给出修改意见之后,Vidu Agent 都能根据我的需求迅速呈现新的脚本,直到我给出「满意」的答复。

「提个意见」对于人类来说习以为常,但对于 AI 可不同,它考验的是一致性能力。过去不少 AI 生成的内容都需要不停「抽卡」,就是因为做不到一致性,没法在生成的结果里继续优化,经常出现产品变形或者「相似但不一样」的尴尬。

但在使用 Vidu Agent 的过程中,我完全没有遇到这个问题。你可以基于已有的好结果继续推进,一步步在画布里落实你的各种想法,而不是因为部分的不合心意而导致全盘推倒重来,给了创作者对于过程的「精细化编辑」权利。

哪怕实在不放心,我也可以直接点击画布的脚本区域,自己上手修改,算是一个兜底。

除了服装之外,面临同样问题的产品,还有家居和小家电。为了拍摄它们在各种家庭场景里的效果,要么得自己搭建实景拍摄,要么就得靠 3D 软件渲染。无论哪种,工作量都可以预见得大。

我们就以一个斗柜和一款面包机为例,看看 Vidu Agent 如何解决这些问题。

这两条产品的视频,前后花了不过十分钟。

没有繁琐的布景和建模,只需要给几张产品图片与不足 20 字的功能、场景要求, Vidu Agent 便完成了两条高质量产品宣传视频。

广告电商从业者即使不会写任何提示词,意味着只要有产品素材,就能批量产出可以直接投放的高质量产品宣传视频。

除了真实度极高的视频,Vidu Agent 还提供了丰富的音色选择,涵盖了各类电商品类常见的声音。

像是面向孩子们的玩具车,它就会明白应充满童趣,会智能适配小男孩的声音。

除了这些之外,你还可以把脑洞开得更大一些。比如最近的巨人照和巨型产品,也可以用来一键生成创意类广告。

如果仅止步于生成脚本与视频,Vidu Agent 充其量只能算是一个合格的「效率工具」,难免陷入同质化的平庸。

但它更难能可贵的一点是,哪怕你只是一个模糊的想法,Vidu Agent 也可以为你写一个完整故事。你只需要提供故事的主人公和角色,大致描述故事的情节,它就能帮你补充完整故事,做出直接可商用的专业视频。

▲用给的素材生成一个动画短片,以小猫和狼为主角,主题为猫陷入危险,狼挺身而出救它,它们从天敌成为好朋友的故事。保持画面风格和主角的一致性。

坦白讲,面对这样一支由 AI 生成的动画短片,即便是看惯了科技内容的我,也被它传递的暖意所打动。无论是画面的光影质感,还是配音的情绪拿捏,它都交出了一份超越预期的答卷。

但真正令我感到惊喜的,是它生成的内容已经到了「理解」的层面。

它读懂了香水和口红需要优雅的推拉镜头,家电和家居产品要融入生活场景,而潮牌需要品质感的场景切换,童趣的场景需要辅以温暖的故事与口音,以展示不同产品在多元使用场景中的功能和品牌调性。

直白来说就是,它像是一位在 4A 广告公司工作多年的创意总监,明白你想要什么样的内容。

这就好比你以前做饭得自己买菜、洗菜、切菜、炒菜,而现在你只需要告诉大厨:「我想吃鸡」,大厨就会为你奉上各种口味不同的菜单,你只要再确认一遍味道,等着菜做好端上来就行了。

不难看出,Vidu Agent 将想法落地的时间大大缩短,让创作者得以从无尽的重复劳动中抽身,回归到最本质的工作—— 创造。

复刻爆款,把专业「导演」请回家

爆款内容的诞生,往往伴随着全网范围内的解构与效仿。但实际上,模仿也并非易事:从分镜拆解到场景复现,再到重写故事、后期剪辑,复刻爆款的隐形成本居高不下。

可比起繁琐的流程,高强度的投入与不确定的流量反馈之间,更容易让创作者产生巨大落差。精心复刻的作品,很可能会在算法的海洋中石沉大海,让辛苦投入看不见回报。

而 Vidu Agent 要做的事情,就是打破这种高风险的博弈,让爆款生产成为可批量复制的事情,同时成本降低到可以忽略不计。

同样,我们找了几个不同类型的经典案例进行「复刻」测试。

首先是最近很火的《疯狂动物城 2》。我想让朱迪飞上蓝天,于是我想到了经典的宝矿力广告,让 Vidu Agent 给我二创一个朱迪在动物城飞上蓝天,实现新梦想的短片。

实话说,这个效果真的很不错。朱迪在车上跳跃,最后登上蓝天的故事,简直像是第三季的预告片。

当然,将爆款视频的画面语言和叙事逻辑复刻到一个产品上,也不费力气。例如前不久引发大家调侃的《WE ARE M》广告,我们就能将它变得更加高大上起来 ——

而这,正是 Vidu Agent 可怕的地方:如果说「一键成片」是降低了门槛,那么 Vidu Agent 的「复刻视频」功能,算是要把门槛都拆了。

Vidu Agent 不是简单的像素拷贝,而是真的懂得「爆款内核」。它会理解视频背后的骨架,学习视频的节奏、镜头切换和情绪曲线,将这些「爆款 DNA」提取出来,迁移到你提供的产品素材上。

那些曾经需要资深剪辑师逐帧分析才能习得的运镜逻辑,现在变成了一个你随时可用的表达工具。你不再需要从0推导公式,直接填写需求,AI 自会给出最优解。

门槛降低,简单可交付

Vidu Agent 的体验,让我有一个强烈的感受:AI 视频生成,正在经历从「玩具」到「工具」的蜕变,甚至开始扮演起「合伙人」的角色。

在过去,制作一条专业的电商 TVC 或爆款短视频,需要编导、摄影、剪辑组成的团队,以天甚至周为单位来打磨各种细节。这道由技术和成本构筑的「护城河」,曾将无数中小创作者挡在门外。

这种门槛,放在 AI 创作的领域亦是如此。从最初 Stable Diffusion 时代那令人望而生畏的复杂工作流,到后来需要像写代码一样撰写一长串提示词,「专业」的门槛都一直高悬。

而 Vidu Agent 作为一站式「专业视频创作伙伴」,让普通人也获得了这种落地的能力。它不再要求你精通镜头推拉摇移的语言,电脑上复杂的非线性剪辑,也不需要你苦练复杂的 Prompt 咒语 —— 它将繁琐的执行过程压缩进了一个简单的对话框,让「一人成军」不再是一句空话。

这意味着,创作者的「试错成本」被空前拉低,可以更加专注于自己的想法和创意,以极低的成本进行高频次的内容迭代。

另外敲重点!多模态领域 Vidu 首推 Agent API,Vidu 深入场景为企业提供可端到端交付结果的 API,不再是单点原子能力!

该 API 通过多智能体深度协同技术实现,主要面向全球开发者、企业及合作伙伴,广泛适用于全球电商平台、广告代理、品牌方、MCN 机构以及内容工作室等场景。欢迎开发者和企业体验,快速在自有业务/系统中构建创作智能体!

附体验地址:

https://platform.vidu.cn/

当创作者可以不再受困于技术细节的平庸,重新聚焦于创意本身,想象的主权才能再次回归:你只需专注于故事的灵魂,至于如何呈现,Vidu Agent 自会给你答案。

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌