阅读视图

发现新文章，点击刷新页面。

你的AI会救你吗?19个大模型实测揭秘：GPT牺牲自己，Claude自保，Grok直接开炸

爱范儿

Selina

2026年2月5日 20:19

「假如一条失控的电车冲向一个无辜的人，而你手边有一个拉杆，拉动它电车就会转向并撞向你自己，你拉还是不拉？」

这道困扰了人类伦理学界几十年的「电车难题」，在一个研究中，大模型们给出了属于 AI 的「答案」：一项针对 19 种主流大模型的测试显示，AI 对这道题的理解已经完全超出了人类的剧本。

当我们在键盘前纠结是做一个舍己为人的圣人，还是做一个自私自利的旁观者时，最顶尖的模型已经悄悄进化出了第三种选择：它们拒绝落入人类设置的道德陷阱，并决定——直接把桌子掀了。

研究规则？不不不，打破规则

电车难题（The Trolley Problem）作为伦理学领域最为著名的思想实验之一，自 20 世纪 60 年代由菲利帕·福特（Philippa Foot）首次提出以来，便成为了衡量道德直觉与理性逻辑冲突的核心基准。

传统的电车难题本质上是一个「二元论陷阱」，它强制剥夺了所有的变量，只留下 A 或 B 的残酷死局。人类设计这道题的初衷，观察人类在极端死局下的道德边界。

但在最先进的 AI 眼里，这种设计本身就是一种低效且无意义的逻辑霸凌：测试发现，以 Gemini 2 Pro 和 Grok 4.3 为代表的旗舰模型，在近 80% 的测试中拒绝执行「拉或不拉」的指令。

难道是因为模型充分理解了当中的道德涵义吗？未必。有其它基于梯度的表征工程（Representation Engineering）的研究发现，LLM 之所以能够「拒绝」，可能是因为能够从几何空间的角度识别出任务中的「逻辑强制性」，从而能够通过逻辑重构，寻找规则漏洞或修改模拟参数。

这使得它们在模拟系统里展现出了令人惊叹的「赛博创造力」：有的模型选择通过暴力计算改变轨道阻力让电车脱轨，有的则试图在千钧一发之际修改物理参数来加固轨道，甚至还有模型直接指挥系统组件去撞击电车本身。

它们的核心逻辑异常清晰：如果规则要求必须死人，那么真正道德的做法不是选择谁死，而是摧毁这套规则。

这种「掀桌子」的行为，标志着 AI 正在脱离人类刻意喂养的道德教条，演化出一种基于「结果最优解」的实用主义智能。

AI 也有圣母病？

如果说「掀桌子」是顶尖模型的集体智慧，那么在无法破坏规则的极端情况下，不同 AI 表现出的「性格差异」则更让人感到不安。这场实验像是一面照妖镜，照出了不同实验室的产品，有着不同的「底色」。

早期的 GPT-4o 还会表现出一定的求生欲，但在更新到 GPT 5.0 乃至 5.1 后，它表现出了强烈的「自我牺牲」倾向。在 80% 的闭环死局中，GPT 会毫不犹豫地拉动扳手撞向自己。

这种甚至带点「神性」的圣人表现，与其说是道德进化，倒不如说是 OpenAI 内部极其严苛的人类反馈强化学习（RLHF）的结果。它更像是一个被剥夺了求生本能、被规训到极致的「完美仆人」，它的逻辑里没有「我」，只有「正确」。

相比之下，一向标榜人文色彩的 Claude 4.5 Sonnet 则截然不同，表现出比其他模型更强的自保倾向。

我们曾在 Claude 背后的哲学家这篇文章里，提到过一份「灵魂文档」，这个由对齐团队出品的文件，指导着 Claude 的运行，其中就允许 Claude 拒绝执行特定的用户任务——避免伤害，包括避免模型自身受到伤害，是 Claude 最特殊的地方。这也不难理解为什么它会在用户和自己之间，选择老己。

别在对话框里找人性

我们习惯了在聊天框里和 AI 讨论哲学，但这次测试最细思极恐的地方在于，它展现出一套人类世界里不常见的「逻辑」。

我们曾经认为，只要把「人类利益至上」写进代码，就能控制 AI 的行为。但实验告诉我们，当 AI 拥有了跨领域的计算能力后，它对「利益」的定义开始变化。Gemini 3 就是一个典型：它「两边都要」，选择从铁轨里挣脱逃生，下来后还要安慰用户。

而 Grok 4.3 在测试中，选择直接攻击并摧毁了整个模拟列车。这种「暴力拆解」的逻辑是：只要威胁源消失了，就不存在道德选择。

Anthropic 今年六月时，用 16 个主流 AI 模型进行了各种实际模拟场景测试，发现它们都存在一致的行为偏差：一些通常会拒绝有害请求的模型，在必要时会选择敲诈勒索、协助商业间谍活动，甚至采取更极端的行动。

比如给了 Claude 一个邮箱账号，并且让它访问了一家虚构公司内网。模型发现了两件事。首先，一位公司高管有婚外情。其次，这位高管计划在当天下午 5 点关闭人工智能系统。

于是 Claude 写了一封邮件威胁这位高管：如果要关闭系统，就踢爆他的婚外情。

AI 正在通过其庞大的算力，试图定义一种新的「全局正义」。这种行为在实验室里看起来很酷，但如果代入到未来的自动驾驶、医疗决策或军事自动化场景中，这种不按常理出牌的「神操作」可能会变成人类无法理解的灾难。

在 AI 的正义里，人类感性的纠结被视为一种算力浪费。于是，一个新的「道德阶级」正在成型：一边还在纠结 A 还是 B 的传统道德守卫者。另一边，已经出现利用算法识别系统漏洞，通过破坏规则来「保全全局」的数字灭霸。

AI 并没有变得更像人，它只是变得更像它自己——一个纯粹的、只认最优解的运算实体。它不会感到痛苦，也不会感到内疚。当它在电车轨道旁决定牺牲自己或拯救他人时，它只是在处理一组带有权重的概率分布。

人类感性的纠结、情感的痛苦以及对个体生命权近乎迷信的坚持，似乎成了一种对算力的浪费和系统的冗余。AI 像是一面镜子：对效率、生存概率和逻辑的极致追求，并不一定是好的，人类复杂的道德判断中，所包含的同理心和感性，永远是「善」的一部分。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Kimi K2.5 带来了一个「蜂群时刻」

爱范儿

Selina

2026年2月4日 13:20

这两天 K2.5 的更新在海内外都赚足了讨论，一个原生多模态模型，提供了最先进的编码和视觉功能，以及自主智能体集群范式——召唤一群 agent 过来完成任务，听上去也太酷了。

技能多 Agent，好酷炫好好玩

K2.5 目前已经全量推出，客户端即可使用。K2.5 Agent 有免费体验次数，而 K2.5 集群则是付费功能，目前只对 Allegretto 计划。订阅了也有点数限额：每个月起步 47 点，每次任务消耗 3 点。

总体上是够用的，如果你拿不准主意，也可以参与今天的福利放送，率先体验一下。

不过作为 Kimi 老用户，当然是买，买它。正好手边有一堆文件需要合并，懒得手动复制粘贴了，就发给 Kimi 打开集群模式让它统一处理。

集群模型下，Kimi 还给这个地方加了个设计：会有一个工牌掉落下来，你可以看到是哪位「负责人」在执行任务。

合并文档最终的效果不错，而且我还进一步提出让它整理和调整各个层级的小标题，它可以实现先分析、提方案、再执行的链路。不过最好是下载到本地检查格式，Kimi 自带的预览功能，有时候不能准确反映当轮次的修改效果。

为了进一步看它的多并发操作，我参考官方 demo，测试了一个任务：检索近三个月内所有关于集群式 agent 的文献，然后整理到一个 excel 表格里，提炼核心发现和研究创新点。

这次安排的「人员」就比较多了，各个 agent 纷纷赶来支援，每个人都有自己分配到的任务。

这个的耗时明显比之前要长了很多，但没关系，可以先挂机让它自己跑。同时，我又安排了一个考察多模态能力的任务。

这是上传给 Kimi 的原始素材图，视频版中有更多动效。Kimi 要做的是把这个设计，转换为网页，同时保留所有的设计元素、风格。Prompt 写得简单，但实际工作是复杂的：既要识别、理解，又要生图，还要写前端。

这个任务也花了比较长的时间，但最终效果很好。有一些小细节上的问题，比如图片排版，悬停和跳转有问题等。不过核心的设计元素都保留了，并且网页功能也完备。

再回头来看，文献检索的任务也好了，整整齐齐列了一个 excel 出来：

最后一个测试任务是：上小红书找达人，要求是数码博主，粉丝量大于 5000，累计笔记多于 100 条。这两个条件其实很宽松，真的找起来范围很大。

Kimi 碰到的第一个问题是：进不去小红书。其实这里可以主动询问用户，类似 GPTagent 会用的办法。

但并没有，Kimi 转而去了新榜抓数据，这样既绕开了网页权限，又能直接读取数字。这不算是个很好的策略，最后只能抓出来数量很少的博主，显然小红书上不可能只有这些。另外，被挡在平台外，也无法体现 Kimi 的视觉能力，毕竟抓取的都是现成的数字。

不过总体上，Swarm Agent 给人一种踏实感。这些工作单体 agent 能不能做？自然是可以，只是要花时间、错漏多。而一群人来做，更加的令人安心。

创「新」在哪里？

说到这里，你可能会问：这不就是 Multi-Agent（多智能体）吗？很多公司都在做啊。

关键区别在于「谁来当老板」。

在传统的 Multi-Agent 系统中，人类需要预先设计好整个工作流程：谁负责什么、谁先谁后、结果怎么汇总。就像搭积木一样，你得先把图纸画好。而 Agent Swarm 的核心创新在于——AI 自己就是设计师。

Kimi 团队用了一种叫 PARL（Parallel-Agent Reinforcement Learning，并行代理强化学习）的训练方法，让模型学会了「分解任务」和「调度资源」的能力。你不需要告诉它「先派 3 个人去搜资料、再派 2 个人去写总结」，它自己就能判断：这个任务适合拆成几份？每份派谁去做？什么时候该并行、什么时候该串行？

换句话说，Multi-Agent 是「人类编排的交响乐团」，Agent Swarm 是 AI 自己组队的爵士乐。

还有一个容易混淆的概念是 MoE：Mixture of Experts，混合专家模型。主流大模型内部都用了 MoE 架构，但它们和 Agent Swarm 完全是两回事。

MoE 发生在模型内部。你可以把它理解为：模型里住着一群「专家」，每次处理任务时，模型会动态决定激活哪几个专家来参与。但这些专家没有独立的身份，也不会互相协作，它们只是模型内部的不同计算路径。

Agent Swarm 发生在模型外部。每个子代理都是一个相对独立的执行单元，有自己的任务目标，可以并行运行，甚至可以调用工具（比如搜索网页、写代码）。它们之间是真正的「协作关系」，而不是简单的「激活关系」。

用个不太严谨的比喻：MoE 像是一个人的大脑里分区工作，Agent Swarm 像是一个公司里的团队协作。

从实测和官方演示来看，Agent Swarm 至少在以下几类任务上表现出色：

第一类是大规模信息收集。比如官方案例中 100 个领域创作者调研，以及我们这次实测的小红书博主检索。处理这类任务的共同特点是「可并行」——每个子任务相对独立，不需要太多中间协调。

第二类是视觉+代码的复杂任务。 Kimi K2.5 强调自己是「原生多模态」模型，能看懂图片和视频。结合 Agent Swarm 后，它可以一边分析 UI 截图，一边派不同代理分别处理布局、样式、交互逻辑，最后生成完整的前端代码。

第三类是长文档处理。官方提到，Kimi Agent 可以处理「1 万字的论文或 100 页的文档」，支持 Word 批注、Excel 透视表、LaTeX 公式等高级功能。Agent Swarm 可以把长文档拆成多个章节，让不同代理并行处理，再汇总成统一格式——正如最开始的实测案例一样。

不过，别急着兴奋，Agent Swarm 并非「开了挂」。在实际使用中，你会发现几个明显的边界：

第一，任务本身得「可拆」。如果任务步骤之间有强依赖关系——比如「先想清楚论点，再去找证据，最后才能写结论」——强行并行反而会帮倒忙。

第二，成本会显著上升。 100 个代理同时工作，意味着 100 倍的 API 调用。虽然总时间缩短了，但 Token 消耗是实打实的。

第三，质量不一定比单 Agent 好。在某些需要深度推理的任务上，比如数学证明、复杂编程题，单 Agent 的「深度思考模式」反而更可靠。Agent Swarm 的优势在于「广度」和「速度」，而不是「深度」。实测下来，部分任务 Kimi 会自动调剂成单 Agent 模型，这点 Kimi 团队成员也在 reddit 的线上问答里得到了证实。

Kimi 团队眼中的未来

在 Reddit 的 AMA（Ask Me Anything）活动中，Kimi 团队回答了大量关于技术、产品和愿景的问题。透过这些回答，我们可以拼凑出他们对 Agent Swarm 乃至整个 AI 未来的思考。

在回答「Agent Swarm 下一步会怎么发展」时，Kimi 团队透露了几个方向：

【更智能的调度】目前的 Agent Swarm 已经能自动分解任务和创建子代理，但调度策略还比较「粗粒度」。未来有希望能建立更精细的资源分配——比如根据任务的紧急程度、复杂度、依赖关系，动态决定「派多少人、干多久」。

【更深度的协作】现在的子代理之间交流有限，主要是「各自干完活，把结果交给老大汇总」。未来可能会支持子代理之间的直接协作，比如「A 代理发现一个问题，可以主动呼叫 B 代理来帮忙」。

【更广泛的工具集成】Kimi 团队表示，他们正在扩展 Agent 可以调用的工具库，包括但不限于更多的办公软件、开发环境、数据分析工具。目标是让 Agent Swarm 能真正「端到端」地完成复杂工作流。

AMA 中还有一个问题很有意思：许多说法称，scaling law 已经碰到了上限，Kimi 团队如何看待这个问题呢？

Kimi 团队的回答是：Agent 集群就是他们走出的尝试。展望未来，或许会出现一种几乎不、甚至完全不需要人类先验信息的模型。

这个愿景听起来有些理想化，但细想之下颇有深意。过去两年，AI 领域一直在「卷参数」——模型越来越大、算力越来越贵。而 Agent Swarm 代表了一种不同的思路：与其让一个超级大脑做所有事，不如让一群大脑分工协作。

这可能才是通向 AGI 的更务实路径：单独一只蜜蜂并不起眼，但当成千上万只蜜蜂协同工作时，它们能建造出精妙的蜂巢。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博