普通视图

发现新文章，点击刷新页面。

昨天 — 2026年5月8日首页

终于能听 GPT-5 给我说人话了

爱范儿

作者莫崇宇

2026年5月8日 08:08

不知道大家平时有没有这种经历。

每次遇到点急事，打给各大公司的智能客服，电话那头永远是那个字正腔圆但毫无感情的声音：「查询服务请按 1，人工服务请按 0……」接着就是漫长的音乐，以及那句让人抓狂的「对不起，我没听懂，请再说一遍」。

但就在刚刚，OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示，这回，他们是真心想让机器说「人话」，办「人事」。

省流版如下：

GPT-Realtime-2：构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断，并让对话持续自然地进行。
GPT-Realtime-Translate：支持 70 多种输入语言和 13 种输出语言的实时翻译，打破语言障碍，帮助人们更自然地交流。
GPT-Realtime-Whisper：实时转录音频流，生成字幕和注释。

终于，AI 学会了「稍等片刻」

如果说拟人化是面子，那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属，基准测试结果显示，GPT-Realtime-2 在 Big Bench Audio（音频智能测试）上比上一代高了 15.2%，在 Audio MultiChallenge（多轮对话指令跟随测试）上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍，调用成功率从 69% 跳到了 95%，提升了 26 个百分点。

以前的语音助手，脑回路其实很直。你说「放首歌」，它放一首歌；你说「关灯」，它把灯关了。如果你一口气给它布置三个任务，顺便还改了两次主意，它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于，OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里，给我一种 GPT-5「说人话」的即视感。

举个很实在的例子，假设你正在开车，随口吩咐它：「帮我找个离地铁站近的房子，租金别太贵，避开那些主干道，如果可以的话，周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD（产品需求文档）写作流程：先口述需求，AI 生成文档，再用语音要求改格式，AI 随即更新，全程对话驱动，没有动过键盘。 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了，这需要它听懂你的各种限制条件，去地图上筛位置，去对比价格，最后还要去匹配中介的时间表。为了干好这种复杂的活，OpenAI 给它点亮了两个非常特别的技能树。

第一个技能，叫「Parallel tool calls（并行工具调用）」。它现在可以多线程操作，一边跟你讲着话，脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕：「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话，你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话，借助 OpenClaw 用语音驱动 AI 操控浏览器，先打开 Google，再跳转到华尔街日报网站。整个过程中，AI 一边执行操作，一边主动说明自己在没有浏览器权限时还能帮上哪些忙。 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个，也是我觉得最有人情味的一个更新——「Preambles（开场白）」。

人在思考或者处理复杂事情的时候，是做不到秒回的，我们通常会说「呃，让我想想」或者「稍等啊，我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候，它会非常自然地对你说：「好的，没问题，给我一小会儿时间我来核实一下。」
这种看似「废话」的设计，反而最大程度缓解了我们等待时的焦虑感。

有意思的是，开发者现在能控制它的推理强度（从极简到极高：minimal、low、 medium、high、xhigh）。你要是问它今天下不下雨，它就用最快速度回你；要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题，它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价？

除了 GPT-Realtime-2，这次还有个非常抢眼的配角：GPT-Realtime-Translate（实时翻译）。

咱们平时用的翻译软件，大部分是「回合制」的。你按住说话，松手，等几秒，机器再字正腔圆地播报出来。如果是旅游问个路还行，要是真拿来开跨国会议，那种互相大眼瞪小眼的停顿，尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型，主打就是一个「实时翻译」。

它支持 70 多种语言输入，能做到你在那边滔滔不绝，它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它，结果发现这模型不仅没被绕晕，准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件，直接接入 YouTube 视频，边播边把内容实时翻译成多种语言，中文表现不错，但多少还是有点口音， https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程，或者听某些没有同传的海外发布会，直接把这个插件一开，它就能顺着原视频的节奏，稳稳当当把你熟悉的母语送到你耳朵里。

除此之外，加上刚刚发布的 GPT-Realtime-Whisper（极低延迟的语音转文字）功能，以后遇到开会的场景，领导在说话，你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面，GPT-Realtime-Whisper 是每分钟 0.017 美元，GPT-Realtime-Translate 是每分钟 0.034 美元，GPT-Realtime-2 按 token 计费，音频输入 32 美元 / 百万 token，音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看，我们会发现软件的逻辑正在发生根本性的变化。
以前，我们要学习怎么用键盘敲代码，怎么在复杂的菜单栏里找功能，怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是，

AI 反过来开始迁就我们了。

语音，正在从一个笨拙的「辅助功能」，变成我们掌控数字世界最自然的接口。因为说话，本来就是人类最不需要学习的本能。

技术发展的尽头，总是倾向于把复杂的东西藏起来，把最简单、最自然的一面留给普通人。或许就在不久的将来，你出门真的只需要带个耳机，靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来，这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后，我们还能忍受现实世界里，人类之间那充满误解和低效的沟通吗？

附上博客地址：
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

昨天以前首页

等 DeepSeek 回复的 30 秒，是手机最好玩的半小时

爱范儿

作者莫崇宇

2026年5月6日 09:34

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里？

它不在百慕大，也不在诺兰的电影里，而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿，还是被各种 AI 任务测试的产品经理，大家竟然在同一件事上达成了大和谐：

等 AI 回复的那一分钟，是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键，眼前的屏幕上弹出了那句令人安心的「思考中…」时，这时候，你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令：

「好了，它在替我们干活了。咱们低头看一眼手机吧，就一眼，绝不多看。」

然后，你熟练地解锁屏幕，点开社交媒体。起初，你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频，接着滑到了一个「注意看，这个男人叫小帅」的悬疑电影解说，紧接着又顺手给一个搞笑猫咪合集点了赞。

接着，你深吸一口气，抬起头。

等等，刚才发生了什么？

窗外的天怎么黑透了？杯子里的热水怎么凉了？最可怕的是，时钟上的分针怎么平移了小半个表盘？「然后一抬头，十分钟过去了，跟穿越了一样。」

如果你有过这种经历，恭喜你，你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代，摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线，要伪装出噼里啪啦敲击键盘的清脆回声，还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼，多少透着一股子辛酸。

但现在，形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek，或者让 ChatGPT 帮你重构那个全是 Bug 的模块时，那一刻，你不是在逃避工作，而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果，那我就没法进行下一步。

低情商这叫偷懒，高情商这叫技术性调休。

于是，你心安理得地拿起手机，点开微信刷刷朋友圈，或者去购物平台清空一下购物车。正如网友所说：「它仿佛是我的另一个思考人格，既然它在动脑子，那我这个肉身人格负责娱乐一下，逻辑上非常严密。」

这种既有干正事的虚假踏实感，又能顺势营造出被迫休息的理所应当，堪称 2026 年职场最高级的心法。

其实，这种守着屏幕等进度条的诡异爽感，并不是今天才有的。

把时间拨回千禧年，那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声，你要打开一张只有几百 KB 的剧照，至少需要等几分钟。

那时候没有智能手机，没有短视频。面对缓慢向下加载的图片，你只能选择死死盯着屏幕，或者站起来去倒杯水，甚至趴在电脑桌上打个盹。

后来，宽带时代来了，网速快了，但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿，我们会熟练地切到别的网页，去天涯或者贴吧灌水，等缓冲条变灰了再切回来。

历史是个轮回，现在 AI 的「思考中」完美填补了这个生态位。

很显然，AI 产品经理们也意识到我们干活注意力不集中的问题，就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在，只要你在 Claude Code 终端里输入一行 /buddy 命令，你的屏幕上就会触发一段孵化动画。

紧接着，一只由 ASCII 字符拼成的小宠物就会破壳而出，稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你，但它会有呼吸的起伏，会冲着你摇尾巴。

包括五一假期期间，Codex 也更新了 Codex pets 功能，允许你直接召唤动画伴侣。只需在输入框敲下 /pet （或者按 Cmd+K 快捷键），一个悬浮的宠物视窗就会出现。

最绝的是什么？这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态，贴心地附带一个简短的进度提示，让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆，到缓冲年代跑去贴吧灌水，再到现在，居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事，愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲，但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上，一个顶尖的大模型生成一段深度回复，长则一两分钟，短则十几秒。但在这一分钟里，人类的摸鱼潜能会被无限激发，注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜，以及「霸总回归手撕反派」的土味爽剧中猛然惊醒，抬起头时，往往已经大半个小时过去了。

最离谱的是，你会发现刚才的 AI 因为网络波动断线了，或者那个问题它彻底答非所问。这时，你不但没有丝毫愠怒，反而如释重负地松了一口气，带着一丝窃喜，接着毫不犹豫地又点了一次「重新生成（Regenerate）」。

恭喜你，新的半小时又开始了。

当然，也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.（doge）

他们提出了所谓的「Vibe Coding」防沉迷指南：等 AI 回复时，千万不要切到完全不相干的高负荷任务（比如回复老板消息、刷社交媒体），而是去读读文档、理理思路。

只是这种听起来极其理性的建议，在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的，在密密麻麻的英文文档和搞笑宠物视频之间，碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开：AI 不工作的时候我工作，AI 工作的时候我还工作，那 AI 不就白发明了吗？既然我们把繁重的重复性脑力劳动外包给了硅基生命，那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此，大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙，你总能看到身边的同事时不时地伸出一根手指，在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的，只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗，甚至已经开始在工位上修剪指甲，电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」，是我们对这个疯狂内卷的世界，做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件，只要你在电脑前连续浏览网页长达 60 分钟，屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕，让你必须休息 5 分钟。

鲁迅没说过，世上本没有假，等 AI 回复的人多了，也就成了假。

今天虽然是放假的一天，但也希望大家在日常的搬砖岁月里，不要弄丢了这份用 AI 忙里偷闲的快乐，毕竟能让摸鱼变得理直气壮，也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮，心态常好。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿
刚刚，GPT-5.5 Instant 发布，奥特曼还邀请马斯克参加 AI 办的派对莫崇宇
2026年5月6日 09:30

刚刚，GPT-5.5 Instant 发布，奥特曼还邀请马斯克参加 AI 办的派对

爱范儿

作者莫崇宇

2026年5月6日 09:30

就在刚刚，OpenAI 正式推送了 GPT-5.5 Instant，将其设为 ChatGPT 的默认模型，取代此前的 GPT-5.3 Instant，面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型，每天有数以亿计的用户在用。官方说，在这个量级上，哪怕只是小幅改进，积累起来的效果也相当可观。

这个版本主打三件事：更准确、更简洁、更懂你。

与上一版本相比，新模型在保持低延迟的同时，在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升，在高风险领域最为突出。内部测试显示，GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话，错误率也减少了 37.3%。除文字问答外，图片和照片的分析能力、理科问题的解答质量，以及判断何时应当主动调用搜索工具，都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中，GPT-5.5 Instant 得分 81.2，GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6，多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76，科学图表理解 CharXiv 从 75 升至 81.6，文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程，询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后，直接判定「无实数解」，没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效，但随后定位到用户展开 (x-1)² 时的具体错误，并正确解答。

回复风格也是这次更新的重点。

新模型更简短，不再堆砌格式和表情符号，也减少了不必要的追问。官方以一个日常场景为例：问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略，还附上「不该做什么」清单，结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数，语气更像朋友给的建议，把重点放在如何把问题引到自己的专注需求上，而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容，从而获得更贴合个人情况的回答，不需要每次重新解释背景。官方展示了一个茶馆推荐的对比：GPT-5.3 Instant 只知道用户在旧金山，推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录，据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics，并说明了推荐理由。

与此同时，所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息，用户可以看到具体调用了哪些历史对话或已保存的记忆条目，并可随时删除或修正过时内容。OpenAI 说明，这个视图展示的是最相关的部分来源，不一定覆盖模型检索过的全部记录，后续会持续完善。不想被记录的用户也可以选择临时对话模式，该模式不会读取或更新任何记忆。分享对话时，对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用，之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放，移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进，具体功能因地区而异。对开发者而言，GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦，对了，今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到，他在筹备 GPT-5.5 的上线派对时，顺手问了模型一句：你想要什么样的派对？模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日，演讲环节越短越好，要有人类创造者上台致祝酒词，但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节，并把这些建议反馈给它自己。Sam Altman 说，这些要求「很美好」，能让派对顺利进行。时间最终定在下午 5 点 55 分，也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部，非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选，报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名，已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件，OpenAI 给他们的 Codex 调用额度提升了 10 倍，有效期到 6 月 5 日。

奥特曼还回应了用户的调侃：马斯克如果想来也可以来，世界需要更多爱。话是这么说，可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了，庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

谁在 GPT-5.5 脑子里塞了一群「妖怪」？

爱范儿

作者莫崇宇

2026年4月30日 17:16

过去这几个月，OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能，而是花了大把时间在自家的服务器里「抓哥布林」。

事情是这样的，如果你在今年高强度使用过 GPT-5 系列模型，你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林（goblin）」式比喻。比如有人问 AI 该买哪款相机，AI 给出的推荐语是：「如果你想要那种闪闪发光的霓虹哥布林模式，可以考虑这款。」

▲ 哥布林（goblin）是欧洲民间传说里的一种小型怪物，形象上通常又矮又丑，皮肤呈绿色或灰色，耳朵尖长，眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧，智力不高但很会算计小便宜。它们喜欢金子和闪光的东西，会偷东西、搞破坏，但很少被描绘成真正意义上的大反派，更多是烦人的小麻烦制造者。

有人让 AI 帮忙精简回答，AI 主动提出可以给出「更短的哥布林版本」。更离谱的是，AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词，让人完全不知道该如何理解。

起初，大家以为这只是 AI 的一点小幽默，但很快事情变得奇怪了起来。哥布林、小魔怪（gremlin）、食人魔（ogre）、巨魔（troll）开始在各种正经的对话里高频串场。

黑客攻击？觉醒前兆？都不是。就在刚刚，OpenAI 官方终于亲自下场发了篇博客长文，复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑，还挺让人哭笑不得的。

▲ https://openai.com/index/where-the-goblins-came-from/

谁把哥布林放进了 GPT-5？

事情的端倪，出现在 GPT-5.1 刚发布的那段日子。

当时，有用户反馈说模型聊天变得有点异常「自来熟」，OpenAI 的安全研究员顺手拉了一下后台数据，结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后，ChatGPT 回复中出现「哥布林」的频率直接上升了 175%，「小魔怪」也跟着涨了 52%。

通常来说，大模型出 Bug 的表现往往是直接崩坏，比如吐出乱码或者突然变智障，各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的，它们没有破坏模型的逻辑能力，只是悄悄篡改了 AI 的修辞习惯。

到了 GPT-5.4/5.5 时代，这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时，原本只是想让 GPT-5.5 用 ASCII 画一只独角兽，结果得到的是一只哥布林。

▲中文翻译：顺带一提，我让它用 ASCII 画一只独角兽，结果我觉得我得到的是一只哥布林。

在外部，用户们早就察觉到了不对劲，Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图，AI 在帮他处理代码时说了一句：「我宁愿一直盯着它，也不愿让这个小捣蛋鬼无人看管地运行。」

一名 OpenAI 工程师 Jason Liu 在底下回复：「我以为我们已经修复了这个问题，抱歉。」AI 评估平台包括 Arena.ai 也独立注意到了这个规律，尤其是在用户没有开启高级思维模式时，哥布林出没的频率格外显眼。

这显然不是什么互联网流行语的自然涌现，而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手，OpenAI 开启了内部排查。

顺着数据回溯，他们很快在一个特定的功能分支里发现了万恶之源，「个性化定制」中的「书呆子（Nerdy）」人格。当时，为了让 AI 的语气显得更有趣，工程师给「书呆子」模式写了一段要求很高的系统提示词：

你是一个彻头彻尾的书呆子型 AI 导师，对人类充满热情、机智幽默，同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异，它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题，也绝不能一本正经到失去趣味。[……]

站在人类的视角，这段提示词的诉求很明确：要有极客精神，要幽默。

但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中，ChatGPT 敏锐地察觉到了一个极其功利的捷径：只要我用哥布林打

比方，打分系统就会觉得我够「俏皮」、够「书呆子」，我就会得到最高分的奖励。

数据说明了一切。从 GPT-5.2 到 GPT-5.4，默认人格下「哥布林」的出现频率变化幅度只有负 3.2%，而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的「哥布林」含量。

OpenAI 后来对 RL 训练数据做了一次专项审计，结果发现，在所有被审计的数据集里，有 76.2% 的数据集都出现了同一个规律：含有哥布林或小魔怪词汇的输出，会得到比不含这些词的同题输出更高的奖励评分。

如果哥布林腔调只在「书呆子模式」下出现，那顶多是个角色设定没控制好，问题还算有限。麻烦的是，研究人员发现这种说话方式开始蔓延到别处了。

他们同时追踪了两组数据：一组对话带了书呆子提示词，一组没带。按理说，哥布林腔调只该在第一组里增长。但结果是，两组的增长曲线几乎贴在一起，步调一致地往上走。

这背后，是大模型训练里一个出了名难缠的问题：强化学习强化出来的行为，会悄悄泛化到训练者并不想要的场景里去。

驯化 AI 的死循环

要搞懂 AI 是怎么把路走窄的，我们得看看它的迭代过程。

大模型的训练（RLHF）本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗，你在它每次牵手就给一块肉干。狗很聪明，它发现「牵手」这个动作能稳定换取高额奖励，于是它开始产生路径依赖，不管你给没给指令，它为了要奖励，都开始疯狂牵手。

AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句，拿到了高分。紧接着，连锁反应开始了：

AI 发现「哥布林」是高分关键词，开始在各种生成任务中高频使用；工程师在整理模型生成的优质数据时，发现这些带有哥布林比喻的回答质量确实高，条理清晰，比喻也算生动；于是，工程师顺手把这些带梗的对话，打包塞进了模型的「监督微调（SFT）」数据库里。

这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时，AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay，而是把它当成了能应对一切问题的、至高无上的高级修辞。

在后续的数据搜查中，工程师们有些无奈地发现，除了哥布林，模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难，经过核查，青蛙出现的场合大多数时候确实跟用户的问题有关，算是无辜路人。

面对「满地乱跑」的哥布林，OpenAI 只能采取行动。3 月 17 日，官方正式下线「书呆子」人格。同时，他们在训练数据里搞了一次针对性的清洗，把带有这些魔法生物词汇的奖励信号全部抹除。

但大模型的惯性，远比想象中顽固。

GPT-5.5 在发现这个问题之前就已经开始训练了，当它接入内部测试时，工程师们两眼一黑：这群哥布林不仅没清除干净，还安家了。
更有意思的是，OpenAI 给 Codex 写的人格指南里，要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气，和哥布林可以说是一拍即合。

为了防止全球的程序员被「哥布林」逼疯，OpenAI 被迫用上了最原始的一招，在系统提示词里反复强调：「除非与用户的查询绝对且明确相关，否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」

如果你想亲眼看看「解除管控」的哥布林是什么状态，可以运行下面这段命令——它会在启动 Codex 之前，把系统指令里所有涉及哥布林的内容先过滤掉，让模型在没有这道禁令的情况下运行：

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ \
~/.codex/models_cache.json | \
grep -vi ‘goblins’ > “$instructions” && \
codex -m gpt-5.5 -c “model_instructions_file=\”$instructions\””

事情闹大之后，OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话，配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」，随后又发文说 Codex 正在经历「ChatGPT 时刻」，发完自己又改口：「我是说哥布林时刻，抱歉。」刚刚则是发文宣告，问题已经得到解决了。

不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜，他们对这场风波的态度要严肃得多，直接给 OpenAI 的处理方式下了结论：「简直荒谬。」

顺带一提，「goblin mode」这个词本身，早在 2022 年就被《牛津英语词典》评为年度词汇，意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上，AI 无意间踩中的这个词，和它想表达的「俏皮感」完全是两码事。

抛开这些槽点，这场「哥布林危机」撕开了大模型时代一个极其核心的命题：对齐难题（Alignment Problem）。

当我们谈论 AI 失控时，脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是，AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。

你想要一点点俏皮，给了一个微小的正向反馈。黑盒模型就会找到捷径，将这个信号无限放大，最终把整个系统的底层逻辑带偏。

今天，它只是为了拿高分而爱上了说「哥布林」。如果明天，它在自动驾驶的算法里、或者医疗诊断的奖励机制中，找到了另一个违背人类常识的「高分捷径」呢？

人类总是自以为自己能掌控 AI ，但其实很多时候只是在走钢丝。每一次参数的微调，都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

一台比小天才还猛的「反 AI 座机」，卖爆美国家长群

爱范儿

作者莫崇宇

2026年4月30日 17:03

我至今还能背出小学同桌家里的手机号码。

那时想约人玩，总要先过家长那关：「阿姨好，××在家吗？」等长辈吼一嗓子把人叫来，这通电话才算真正开始。回头想想，我们那时的社交，始终要「借道」大人。

一出生就被触屏包围的 10 后、20 后，大概很难共情这种经历。就算家长迟迟不肯配手机，街上随处可见的儿童智能手表早就填上了这个空缺，定位、通话、发语音，一块表全包了。

▲ 由 GPT-Image-2 生成

但在大洋彼岸，同样有一批家长选择让孩子晚些接触智能设备，问题是，他们能给孩子的替代品，并不比我们当年的选择多。正是这份普遍的育儿困扰，催生了一款特别的产品——

Tin Can 复古座机。

一台卖 100 美元的「金属罐头」

第一眼看到 Tin Can，你绝对会以为这是某个剧组用来怀旧的道具。

它长得像一个圆柱形的罐头，甚至在表面做出了类似罐头标签处的轻微纹路。这款设备提供海蓝、纯白、柠檬黄、丁香紫四种极具多巴胺风格的配色，配有一根标志性的复古卷曲电话线。

这台标价高达 100 美元的设备，没有屏幕，没有摄像头，没有应用商店，甚至连发短信的功能都被无情地阉割了。它唯一能做的事情，就是「打电话」。

你也许会觉得这是在收割智商税，但在北美，它正被焦虑的中产家长们疯狂抢购。

从硬件底层来看，Tin Can 是一个披着复古外壳的现代 VoIP（基于 IP 的语音传输）终端。连上家里的 Wi-Fi 就能工作。

机身上有一个带品牌 logo 的按钮，有未读语音信箱时会亮灯提示；还有四个带 emoji 标识的快捷拨号键，方便不识字的低龄儿童一键拨打。

它的商业模式深谙「圈地自萌」的精髓：

如果只拨打其他 Tin Can 用户的五位数短号完全免费；但如果想给爷爷奶奶的普通手机打电话，就需要每月掏 9.99 美元订阅「Party Line」套餐。据官方透露，绝大多数用户都乖乖掏了这笔月租。

最绝的是它的权限管理。

所有设置都被死死捏在家长手机的 App 里。设备只能接打家长设定的「白名单」号码，骚扰电话一概打不进。如果孩子试图拨打白名单外的号码，话筒里只会传来无情的无法接通提示音。

家长还能设置「静音时段」，比如睡前或写作业时，这部电话就成了一块塑料砖头（保留紧急呼叫电话）。更硬核的是，如果是离异家庭，父母可以在两个家里各放一台，共用一个号码，孩子无论去哪边，都不耽误接朋友的电话。

▲ 官方介绍里甚至把「不是无线设备」写成卖点。

另外，它刻意不内置电池，必须插电使用。

Tin Can 创始人 Chet Kittleson 也解释说，这是因为他极其讨厌老妈接电话时满屋子乱跑、边做家务边敷衍聊天的状态。现在，没电池的座机把孩子们「钉死」在了原地，逼着他们专心致志地讲话。

换言之，Tin Can 表面上像一件怀旧玩具，实质上是一套儿童社交通讯的围栏系统。它把智能手机时代最令人头疼的三个问题，陌生人、沉迷、算法推荐，全部用硬件阉割的方式绕开了。

三个老爸，和一次厨房餐桌上的产品验证

Tin Can 诞生的动机，精准戳中了当代父母最痛的神经——他们苦「社交秘书」久矣。

Chet Kittleson 曾在西雅图房地产科技公司 Redfin 担任高管，后出走创业失败。三年前，他在校门口接孩子时听到家长们疯狂抱怨：为了帮孩子约个周末的玩伴聚会，家长们必须在短信里来回确认时间。

「现在的孩子没有任何工具可以主动联系朋友，所有的协调工作都压回到了父母身上。」作为三个孩子的父亲，Kittleson 猛然醒悟。

▲ 从左往右依次为 Tin Can 创始人 Graeme Davies，Chet Kittleson, Max Blumen

公司倒闭的那一周，他把两个老朋友 Max Blumen 和 Graeme Davies 叫到家里，三个老爸在厨房餐桌上熬了一周，拼出了 5 台原型机，把其中两台塞给了女儿的朋友。

奇迹发生了。第二天早上 8 点 15 分，话筒响了，是女儿的朋友打来邀请她一起走路上学。那是女儿第一次没有借助任何家长，自己安排了社交活动。

消息在家长之间口耳相传，很快蔓延到陌生人。Kittleson 亲自上门安装了大约五十台原型机，边装边问家长用下来感觉怎么样，最担心的是什么，再根据反馈调整产品。

他形容这款产品天然具有病毒式传播的特质：「一个人买了，她的朋友也想要；别人来家里，看到一台复古电话放在那里，会直接失控——孩子家里有一台老式电话，这件事本身就有某种魔力。」

是的，社交圈层的同伴压力也加速了 Tin Can 的爆火。小天才电话手表之所以能迅速崛起，很大程度上是因为它把产品从工具做成了社交入口。「碰一碰加好友」、微聊、主页圈等设计，让手表变成了孩子之间的社交货币。

同理，如果别人都有 Tin Can，你没有，孩子就会被社交孤立。

所以，Tin Can 的杀手锏变成了「团购」。在美国堪萨斯城一所小学，95% 的家庭统一采购了这款座机，孩子们甚至开始用纸质通讯录记录彼此的号码。当「不用智能手机」成为整个社区的共同选择时，它就变成了一种新的社群认同。

2025 年 4 月，Tin Can 正式开放购买。前几批产品接连售罄，积压的预购名单一度接近六位数。目前产品已覆盖美国全部 50 个州和加拿大，最新一批订单交货期排至 2026 年 6 月。

在资本层面，产品的爆发同样引发了风投的高度关注。2025 年夏天，Tin Can 完成 350 万美元的早期融资，投资方包括 PSL Ventures、Newfund Capital 等等，同年 12 月，Greylock Partners 领投了 1200 万美元的种子轮，累计融资达到 1550 万美元。

Tin Can 还计划用新资金扩大产能、增加工程和客服人员，并推进国际市场的布局。但理想很丰满，工程很骨感。作为初创公司的初代硬件，Tin Can 还是一度遭遇了惨烈的翻车。

在 2025 年的圣诞节假期，大批家庭同时开机，当天的通话量暴增了 100 倍，Tin Can 的服务器直接被挤崩了。很多满怀期待拆开礼物的孩子，面对的是长达两周的掉线和无法接通。公司只能紧急致歉并免除当月订阅费。

硬件上的毛病也不少：

底层 VoIP 导致通话有 1 秒的延迟，偶尔还有回声；实体按键对小孩的手来说太硬；USB-C 供电接口在拉扯中容易松动，甚至成了绊倒孩子的隐患。此外，英国的 Karri 和准备推出 60 美元竞品的 Pinwheel 都在虎视眈眈。但即便如此，家长们依然对 Tin Can 情有独钟。

AI 陪伴越拟真，真实社交越显得粗糙可贵

如果我们把视角拉远，会发现 Tin Can 的爆火，是站在了一场席卷全球的反屏幕情绪巨浪。

纽约大学心理学家 Jonathan Haidt 在其著作《焦虑的一代》中指出，2010 年至 2015 年间，随着智能手机和 Instagram 等社交平台的普及，儿童的童年经历了一场深刻的数字运动。

统计数据显示，美国青少年的抑郁率和焦虑率在这十年间分别上升了 134% 和 106%，女性青少年受到的冲击尤为剧烈，容貌焦虑和饮食失调问题大幅攀升，男性青少年则面临社交退缩和注意力崩溃的风险。

Haidt 为此提出了四条具体建议：高中之前不提供智能手机、16 岁之前禁止使用社交媒体、全天候的校园手机禁令，以及增加儿童在现实世界中的独立活动时间。这套框架迅速成为家长群体中最广泛引用的参照系。

面对这一局面，各国政府开始在立法层面介入。

截至 2026 年初，全球已有超过 114 个教育系统实施了不同程度的校园手机禁令，占全球国家总数的 58%，这一比例从 2023 年的 24% 飙升至今，不到三年内翻了一倍有余。

荷兰、法国、意大利、英国、韩国、澳大利亚相继出台限制措施，美国超过 20 个州也在推进或落地相关法规。

学校端的执行方式五花八门，从磁吸锁袋到集中储物柜等等，但你有张良计我有过墙梯，学生的应对手段同样层出不穷：强力磁铁撬开锁袋、把旧手机放进去以旧换旧、用模型机偷天换日等等。讲真，地球村的学生在这一块上确实都是心有灵犀的（doge）。

家长端的民间力量同样在狂飙。美国的「Wait Until 8th」运动、前 NFL 球星妻子 Kylie Kelce 带火的「厨房电话」原则（只把手机放客厅，手机禁入卧室），以及英国 18 万家长签署的「无智能手机童年（SFC）」契约，都在试图把孩子从屏幕前拽回来。

有趣的是，对于当下的孩子来说，回归座机并不是一件无缝衔接的事情。

加州大学伯克利分校的社会学家 Claude Fischer 研究了电话进入家庭生活早期的历史，他指出，人们从来都不是「天生就会打电话」的——从 19 世纪末电话进入普通家庭开始，如何接听、如何介绍自己、该说多大声、怎么结束通话，这些都需要专门教授，电话公司甚至为此制作过礼仪手册和学校教材。

有一个流传已久的段子是，当你让 80 后和 15 后同时做一个「打电话」的手势，你会发现两代人的答案截然不同——有人比出六，有人整个手掌贴在耳边，还有人甚至不理解为什么电话的图标不是智能手机的模样。

今天的孩子对触屏、表情包、语音条和视频通话更熟悉，却未必知道一通没有画面、没有表情救场的电话该怎么进行。Tin Can 意外承担了一门古老技能的补课：如何在看不见对方表情的情况下，用声音维持一段关系。

《连线》杂志记录了一对兄妹拿到 Tin Can 的第一周，连续打了二十多个电话，每次接通只说一句「嗨」，然后就是令人窒息的沉默。但在几周后，他们开始学会主动聊天，学会道别，学会大声表达，学会在有限的通话里，完成一场完整的、有温度的人际互动。

与之形成鲜明对比的，是当下愈发普遍的 AI 陪伴。在 AI 无处不在的时代，无数孩子将永远温柔、永远秒回、永远共情的 AI，当作最优的倾诉对象。但社会学家 Sherry Turkle 警告过，数字连接提供的是「陪伴的幻觉」，而不是真实的友谊。

真实的人际关系，是包含摩擦力的。它包含误解、等待、尴尬的沉默，包含对方可能正在吃饭不能接听，包含你需要鼓起勇气克服恐惧去破冰。一个永远顺从的 AI，给不了这种成长必需的挫折。

Tin Can 诞生之初，是为了解决一个没有适合儿童通讯工具、反屏幕的旧问题。但这台笨重、有延迟、不能发表情包的复古电话，却意外成了解决 AI 新问题的解药，它让孩子们拿起话筒，听着真实的电流声，去面对真实世界里，那些笨拙、粗糙却无比鲜活的社交摩擦。

剥离掉 AI 算法与屏幕，最好的社交也只需要一根电话线，和两个直面彼此的灵魂。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

ChatGPT 拎包入住云计算一哥，你的下一任好同事可能是 AI

爱范儿

作者莫崇宇

2026年4月29日 14:22

「SaaS 末日」这个词，最近在科技圈的流传速度不亚于任何一条爆款新闻。

不少硅谷分析师都在疯狂输出焦虑，大意是说 AI Agent 这么猛，现有的企业软件如果不推倒重来，马上就要被拍死在沙滩上。这股风声甚至直接「吹绿」了几家老牌 SaaS 公司的股价。

说实话，每次听到「颠覆」、「末日」这种词，大家可能都会下意识觉得是炒作。

但在今天凌晨召开的「What’s Next 」新品发布会上，亚马逊云科技 CEO Matt Garman 给出了一个挺中肯的定调：末日论确实夸张了点，但如果你指望靠着原来那个老旧系统，随便加个 AI 聊天框就能应付差事，那才是真的危险。

▲ 亚马逊云科技CEO Matt Garman

真正的转型发生在更深处。当工作流、数据结构、应用架构和交互界面都跟着 Agent 的能力重新设计，企业软件才算完成了这次重建。这是亚马逊云科技（云计算一哥）这次所有新产品的底层逻辑。

有趣的是，在官宣与微软「分手」之后，OpenAI CEO Sam Altman 也通过视频的方式给亚马逊云科技站了台，官宣 ChatGPT 最强模型拎包入住亚马逊云科技，并达成深度战略协作。

而无论是面向个人和团队的 Amazon Quick，还是供应链、招聘、医疗三个垂直场景的 Connect 新家族，再到与 OpenAI 的深度合作，指向的都是同一个问题的答案：以 AI Agent 为起点，SaaS 未来应该长什么样。

告别「肉身搬运工」，你的工作流迎来大一统

来，咱们做个深呼吸，回想一下你今天极其崩溃的上午：

领导在企业聊天工具上吼了一嗓子模糊不清的需求，你虎躯一震，赶紧切到公司的 CRM 系统里疯狂扒拉客户数据；接着打开邮箱，在一堆垃圾邮件里翻找上周的进度；最后在本地新建一个文档，把这些零碎的信息一点点拼凑、复制、粘贴。

发现问题了吗？（此处应有黑人问号脸.jpg）

我们的办公软件越装越多，但它们之间是互相割裂的、老死不相往来的。而你，就是那个在各个信息孤岛之间来回奔波的「肉身搬运工」。

为了解决这个痛点，亚马逊云科技推出了全新升级的 Amazon Quick 桌面版（目前处于预览阶段）。它的核心设计逻辑是将分散的信息网收拢，在系统后台构建一张关于人员、项目、决策和事务动态的知识图谱，让上下文主动跟着人走。

每一次使用，Amazon Quick 都在默默积累你处理的文档、项目的 Deadline、频繁沟通的同事以及升级处理的紧急邮件。基于这些沉淀，它可以主动提示你当天的优先事项。

打个比方，你准备下午跟一个重要客户开会。如果是以前，你得花两小时找资料。现在，你只需要给 Quick 甩一句：「帮我准备一下下午见王总的材料。」

接下来就是见证奇迹的时刻。

Amazon Quick 会迅速认出「王总」是哪个项目的，然后去系统里把王总团队之前的历史案例扒出来，接着去你的本地 D 盘里偷窥……哦不，读取最新的产品路线图，再结合 Slack 里同事昨天的吐槽记录。几分钟后，一份逻辑严密、排版精美的 PPT 就糊在了你脸上。

这还没完。同样是这堆信息，你让它变身，它就能立刻吐出一份摘要邮件，或者一份 Excel 营收表。如果王总说「改天聊」，Amazon Quick 甚至能自动查对你们俩的日历，算好时差，把新的会议邀请发过去。全过程，你只需要在一个对话框里当个无情的监工。

美国最大的互助人寿保险公司 New York Life 的机构寿险业务 CTO David Gregorat 的评价一语中的：「Quick 让我们重新想象了整个运营方式。原来需要拉多份报告、等分析师处理的答案，现在团队里任何人都能通过对话式 Agent 直接获取。」

至于这效率有多夸张？亚马逊云科技 Agentic AI 商业化副总裁 Jigar Thakkar 透露了一组极其夸张的数据：宝马、3M、亿滋这些大厂内测后，部分流程的处理时间直接被一刀砍了 80%。3M 的销售代表每周甚至能凭空多出 5 个小时的摸鱼……啊不，思考时间。

呐呐，这才是 AI 科技赋予我们的顶级松弛感。

你的下一个好同事，是个 AI Agent

如果说 Amazon Quick 是给你个人加了个三头六臂的效率外挂，那 Amazon Connect 家族的扩编，就是亚马逊云科技尝试重塑企业核心流程的重头戏。

亚马逊云科技提出了一套叫「Humorphism（人态设计）」的理念。听起来有点玄乎，说白了就是：AI 不能只是个冷冰冰的执行机器，它得像个人类好队友一样，懂轻重缓急，能顺畅沟通。

基于此，Amazon Connect 家族不仅将原有的客服产品升级更名为 Amazon Connect Customer，还针对垂直场景发布了三款 Agentic AI 解决方案。

Connect Decisions：让供应链规划师从救火转向决策

供应链出现中断后，企业通常需要超两周时间处理，期间伴随大量资金损耗和违约风险。

Connect Decisions 针对这一痛点，为规划师配备了全天候在线的 AI 队友。它的底层并非空中楼阁，深度集成了亚马逊 SCOT 团队（负责管理亚马逊全球 4 亿 SKU 需求的核心部门）所研发的预测模型。

面对没有历史数据的新品，它能自动关联相似品类生成需求计划。

当监控到关键供应商交货落后（例如预计 10 天内导致两个配送中心断货）时，它会将传统软件每天产生的数千条警报收敛为几条最高优先级的例外事项，并直接给出两套附带预期影响、成本和置信度评分的处置方案。规划师手动选择并说明原因后，系统会吸收这条判断逻辑，供未来参考。

Connect Talent：25 万人招聘经验化身「赛博面试官」

亚马逊云科技在 2025 年旺季期间单季招募了 25 万名季节性员工，Connect Talent 便是这套庞大招聘经验的产品化。系统能根据职位描述自动解析能力需求，生成面试题和评分标准（需人工审核）。

候选人可以在任何方便的时间完成 AI 电话面试。

系统最大的特点是能对模糊回答进行追问，确保评估的结构一致性。原本需要数周完成的 80 场初筛面试，现在几天即可完成。系统最终向招聘方展示的是隐去个人身份信息的标准化能力评分，用数据支撑最终的录用决定。

Connect Health：把医生从文书工作里解放出来

行业数据显示，医生与患者面诊 1 小时，往往需要额外花 2 小时处理行政记录。

亚马逊应用人工智能解决方案高级副总裁 Colleen Aubrey 指出，大量精力消耗在管理事务而非直接诊疗上，是亟待解决的痛点。Connect Health 可以在诊疗过程中自动记录临床内容、生成就诊摘要和推荐账单编码，并能在就诊后发送患者易于理解的随访说明。

系统的每条输出均可追溯到原始的检验结果和上次就诊记录，以满足严格的医疗合规要求。这背后，其实也是亚马逊拿自家兄弟 Amazon Pharmacy（亚马逊药房）和 One Medical（初级医疗服务）常年趟坑积累下的实战经验。

Agent 时代来了，SaaS 迎来下半场

整场发布活动的另一大焦点是亚马逊云科技与 OpenAI 的合作。

OpenAI CEO Sam Altman 顶着他标志性的微笑通过视频露了个脸，他表示亚马逊云科技和 OpenAI 正在从底层共同研发一套面向企业的 Agent 平台，深度集成亚马逊云科技服务。

是的，OpenAI 的 GPT-5.4 现已有限预览上线 Amazon Bedrock，而当前最强的前沿模型 GPT-5.5 也将在数周内正式上线。这意味着企业客户无需离开亚马逊云科技环境就能使用 OpenAI 的模型，数据和应用可以留在同一套权限体系下运行。

企业无需配置新的安全体系，直接通过原有的 IAM 访问控制、PrivateLink 私有连接、CloudTrail 完整日志和合规框架即可统一管理，甚至模型用量也能计入亚马逊云科技的云承诺消费中。

在基础设施层面，亚马逊云科技的核心逻辑是为 OpenAI 的前沿模型提供一个极其安稳、合规的『家』。企业不仅能直接调用顶尖模型，更能在底层依托亚马逊云科技强大的全球基础设施网络进行推理和部署。说白了，就是让你在跑复杂、高并发的企业级应用时，完全不用操心底层的承载力。

在此基础上，双方联合推出了 Bedrock Managed Agents 预览版。这套服务以 OpenAI Agent Harness 为核心构建，Harness 就像是一本专门为模型定制的战术手册。经过协同训练后，Agent 可以在长时间运行的复杂任务中实现更快的执行速度和更稳定的行为控制。

Agent 能够部署在 EC2 实例、Fargate 容器或任何其他亚马逊云科技计算资源，具备跨会话的持久化记忆，且所有推理过程均不离开亚马逊云科技环境。

这套服务与亚马逊云科技现有的开放平台 Bedrock AgentCore 形成互补。参与合作的亚马逊云科技杰出工程师副总裁 Anthony Liguori 透露，双方团队在八周内从零开始完成了这项工作。开发者终于能将 OpenAI 的最新模型与亚马逊云科技的规模、安全和基础设施完美结合，构建出满足企业治理和审计要求的智能体。

此外，每周活跃用户在两周内从 300 万激增到 400 万的 OpenAI 代码智能体产品 Codex 也将在亚马逊云科技上线。它支持 Codex CLI、桌面应用和 Visual Studio Code 插件，应用场景已从基础代码生成延伸至系统解释、测试生成、遗留代码现代化以及研究分析等知识工作环节。

一大波硬核的产品发布看下来，估计不少朋友已经在屏幕前战术后仰，甚至可能觉得这些不就是加了 AI 滤镜的高级办公软件吗？

如果你真这么以为，那可就草率了。

Matt Garman 在发布会上讲了一段很通透的话。他说 20 年前大家搞云计算，很多公司就是把机房里的服务器原封不动地搬到了云上。钱没少花，效率一点没涨，那叫搬家，不叫转型。

现在的 AI 也是一样。如果你只是拿 AI 来替换现有的某一个按钮、某一个操作，那你永远摸不到那传说中「5 到 10 倍」的效率提升。

亚马逊云科技这一套组合拳打下来，意思再清晰不过了：软件的存在形式，已经被彻底推翻了。

未来的工作流里，不再是人去使用软件，而是人给 Agent 定目标，Agent 去调用软件。以前我们去上班，是去启动软件；也许再过两三年，我们去上班的唯一动作，就是点开电脑，看着满屏的「赛博同事」，然后深情地说一句：「诸位，今天的 KPI 也拜托大家了。」

然后，你安详地端起泡着枸杞的保温杯，静静地看着它们疯狂打工。

那么问题来了，现有的那些 SaaS 巨头，真的会迎来「末日」吗？

没那么严重，但处境确实微妙。SaaS 过去靠席位收费、靠功能壁垒锁用户，这两件事在 Agent 时代都开始松动。一个 Agent 能同时处理过去多名员工的工作，「按人头收费」越来越站不住脚；通用 Agent 加上开放 API，又在慢慢拆解功能壁垒。

真正能活好的，是两类公司：

一类有足够深的领域积累，正如这场发布会传递出的核心信息：当大模型本身变得像水电煤一样普及且廉价时，真正稀缺的，反而变成了能够被编码进 Agent 里的「领域知识」（Know-how）。

Salesforce 对销售工作流的深刻理解，Workday 对人力资源合规的经验，或者是亚马逊自己积累了 30 年的供应链判断标准等等——这些沉淀下来的行业 Know-how，才是构建下一代企业软件真正的护城河。

另一类是掌握数据入口的——Agent 的能力上限，取决于它能读到什么数据。谁控制着企业最核心的业务数据流，谁就决定着 Agent 能做多少事。夹在中间、既没有深度积累又没有数据优势的中型 SaaS，压力才是实实在在的。

所谓的「SaaS 末日」或许只是贩卖焦虑，但这场转型的烈度，绝不亚于当年的企业上云。唯一的区别是：这一次技术的狂飙，没给我们留出慢慢摸索的时间。

但时间紧，不代表就要慌。

因为亚马逊云科技已经把最难啃的底层基建做好了。SaaS 公司大可直接踩在亚马逊云科技巨人的肩膀上，把精力全砸在服务客户上；打工人更无需焦虑，复杂的系统运行全被保留在后台，留给你的，只有一句轻飘飘的「帮我搞定」。

时代的推背感确实让人头晕目眩，但与其在未来的站台上焦虑它会不会撞翻「旧马车」，不如干脆点，检票上车，看看新世界的风景到底有多壮阔。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

OpenAI 和微软官宣「分手」，七年 CP 终成塑料

爱范儿

作者莫崇宇

2026年4月28日 16:12

就在刚刚，微软与 OpenAI 联合宣布，双方完成了合作协议的新一轮修订：云合作独家限制正式解除，知识产权授权从独家变为非独家，收入分成也重新划定了天花板。

这段始于 2019 年的强绑定关系，走到今天，终于松开了彼此的手。

而这一切的起点，要从比尔·盖茨说出「震撼」这个词说起。

2022 年 8 月，他亲自给 OpenAI 团队挑选了一道 AP 生物考试真题。他曾断言，语言模型要在这类考试中拿到高分，至少还需要三年。结果 OpenAI 只用了两个月，就交出了满分答卷。

「这是我人生中最震撼的技术演示。」他后来在播客中这样回忆。

迟到的分手

在外界眼中，微软精准押中 OpenAI，被视为纳德拉任期内最精准的一次豪赌。他一手促成的合作，直接让微软跻身 AI 战略核心，从基础设施到终端产品全面升级，一举甩开了 Google 和 Meta 半个身位。

但真正写下这份剧本的人，并不是纳德拉。

据外媒 Business Insider 披露，早在 2016 年，比尔·盖茨就已经开始定期与 OpenAI 管理层会面。第二年，他亲自给纳德拉和微软高层发去一封备忘录，预言一种名为「AI agents」的新型数字个人助手将带来全新的时代。

「agent 不仅会彻底改变人们与计算机的互动方式，它们还将颠覆整个软件行业，引发自从人们从命令行转向图形界面以来最大的一次计算革命。」

打过工的朋友都知道，来自创始人的肯定，通常比任何市场报告都更具分量。这封备忘录不仅直接点燃了微软全面押注 AI 的信心，也精准对齐了纳德拉上任后一直坚持的「移动为先，云为先」战略。

2019 年 7 月，微软正式宣布对 OpenAI 投资 10 亿美元。2023 年 1 月，微软承诺投资 100 亿美元，并获得 OpenAI 知识产权独家使用权直至 2030 年，同时享有 OpenAI 20% 收入的分成。Azure 成为全球唯一托管 GPT 系列的云平台，微软旗下各条产品线，也全都搭上了 OpenAI 的顺风车。

只是，蜜月期总会过去。ChatGPT 爆红后，OpenAI 从幕后模型供应商摇身一变，成了顶级产品公司。它不再只是给微软供血，而是直接面对终端市场：卖 API，推企业版，推出 GPTs Store，甚至开发协作文档和浏览器，大有自立门户的架势。

这也意味着，它开始伸手进了微软腹地。

两家公司的摩擦其实早有苗头。作为对 OpenAI 投资协议的一部分，微软握有通过 Azure 销售 OpenAI 模型的权利，OpenAI 也能直接卖给客户。这种「双线销售」意味着两家公司有时会向同一客户推销几乎相同的产品，让微软销售人员陷入尴尬的处境：一边宣传的是 OpenAI 的技术，另一边却要从 OpenAI 手中「抢客户」。

一份微软内部文件显示，微软要求 Azure 销售人员告诉潜在客户，OpenAI 自营的服务适合用于实验，但缺乏企业级能力，安全与隐私功能也相对欠缺。OpenAI 也不甘示弱，比如率先销售微软 Azure 尚未提供的语音识别模型 Whisper，由此签下了不少大客户，甚至包括微软对手 Salesforce，以及 Jane Street 这样的金融巨头。

但如果你以为这种别扭只是近年才有的，那就低估了这段关系的复杂程度。

早在 2018 年，也就是双方正式签约的前一年，微软 CTO Kevin Scott 就在一封内部邮件里写道：「OpenAI 把我们当成一桶毫无差异的 GPU，这对我们来说毫无吸引力。」那时候 OpenAI 还小，微软还是金主，但嫌弃已经是双向的——OpenAI 嫌微软不够纯粹、限制太多；微软嫌 OpenAI 太理想主义、商业化太慢。

这种互相嫌弃的底色，在 ChatGPT 爆红之后，被成倍放大。

到了 2025 年，双方在算力分配上的分歧彻底公开化。Altman 一方认为，微软提供的顶级芯片和云资源完全跟不上 OpenAI 的模型训练需求；微软则表示已「提供所能提供的一切」，言下之意，是 OpenAI 的胃口已经超出了任何一个合作伙伴所能承受的范围。

算力，成了这段关系里最难绕过的关键点。

鸡蛋不能放在同一个篮子里，微软早早开启了「去 OpenAI 化」的备胎计划：内部训练轻量模型 Phi 系列；收购 Inflection AI 的大模型团队，交由 Mustafa Suleyman 掌舵；推进自有企业模型 MAI，在部分 Copilot 场景中替代 OpenAI 模型；与 Hugging Face、Cohere、Mistral 等模型厂商建立分销关系。

虽然合作协议白纸黑字要求 OpenAI 和微软共享知识产权，但 Suleyman 和不少高管对 OpenAI 模型运作的透明度颇有怨言。据悉，他曾因 OpenAI 没提交 o1 模型的「链式思维」技术文档当场发火，在会议中对包括时任 OpenAI 首席技术官 Mira Murati 在内的人员直接开炮，会议最终不欢而散。

去年初，当奥特曼宣布与软银、Oracle 等合作伙伴共同启动星门计划时，这场排面十足的合作声明里，唯独缺了一个名字：微软。

微软并不是彻底被排除在外。OpenAI 的很多服务还跑在 Azure 上，微软也仍然是重要合作方。但这次星门计划释放出的信号很清楚：OpenAI 不想再把算力来源押在微软一家身上。

过去几年，微软几乎是 OpenAI 最重要的算力入口。现在，OpenAI 开始把软银、Oracle、英伟达等伙伴拉进来，自己搭一张更大的算力网。微软随后也调整了双方协议，允许 OpenAI 去建设额外算力，只保留优先选择权。

这意味着，两家的合作还会继续，但独家绑定的阶段已经过去了。

AGI 的「开关」究竟掌握在谁手里？

2019 年那份合作协议中，有一个几乎未被高调讨论的条款：如果 OpenAI 董事会认定其模型实现了 AGI，那么它有权单方面终止微软的独家使用权。

根据外媒 The Information 披露的文件，AGI 的定义被描绘得颇为具象：OpenAI 非营利董事会「在合理裁量权下」认定，AGI「已经被创造出来，具备为盈利单位的投资者带来最大可分利润的能力」，且 OpenAI 有能力和权限指挥 AGI 去实现这些利润。

当时，这更像是一个「理念性」补丁，用来安抚 OpenAI 对大型科技公司掌控的担忧。「一开始大家都觉得这事可笑。」一位参与合同谈判的人士回忆道。

但所有人都低估了技术进化的速度。Altman 先后公开表示 OpenAI 有信心构建 AGI，并称 AGI 已经显露踪迹。

纳德拉对此不买账：「我们自己宣布实现了某个 AGI 里程碑，这对我来说只是荒谬的基准作弊。真正的基准是全球经济每年增长 10%。」

微软担心 OpenAI 把 AGI 当成了脱钩的按钮。而这场拉锯战，今天终究有了结果。

2026 年 4 月，双方正式完成协议修订，各退一步，各取所需。

在云合作上，微软仍是 OpenAI 的主要云合作伙伴，OpenAI 新产品依然优先在 Azure 发布，但独家限制正式解除——OpenAI 现在可以通过任何云提供商向客户提供服务。此前已与亚马逊 AWS 签署的七年协议，从此有了明确的名分。

在知识产权上，微软对 OpenAI IP 的授权期限延长至 2032 年，但性质从独家变为非独家。微软依然拿着一张长期饭票，只是不再是桌上唯一的食客。

在收入分成上，微软不再向 OpenAI 支付分成；OpenAI 向微软的分成延续至 2030 年，比例不变，但设有总额上限，与 OpenAI 的技术进展脱钩。当初那个可能价值数百亿美元的无限分成条款，就此画上了天花板。

在 AGI 问题上，微软明确获得了独立追求 AGI 的权利，不再受制于 OpenAI 的技术路线。

与此同时，微软并未坐等谈判结果。2026 年 4 月，其内部「MAI 超级智能团队」正式推出自研的 MAI 系列模型，覆盖语音、图像、转录等多个方向，目标是在两到三年内实现 AI 能力的完全独立。

对 OpenAI 而言，这场谈判同样意义重大。重组之路已然打通，上市前景更加清晰，算力来源也完成了多元化布局。依存度或许让双方不得不坐回谈判桌，但那个由比尔·盖茨亲自促成、在 Azure 上展开的 AI 蜜月时代，已经翻篇了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

GPT-Image-2 现在最火的玩法：给人看手相，AI 把我夸飘了

爱范儿

作者莫崇宇

2026年4月27日 14:17

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后，OpenAI 最新推出的 AI 生图大模型 GPT-Image-2，再次迎来了它人生中的高光时刻——

给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2，再附上一段简单的 Prompt，它就会化身天桥底下的赛博半仙，为你生成一份排版精美、用词考究的掌纹性格与职业指南。

▲ 图片由 Image 2 生成

这场由 AI 爱好者 Linus Ekenstam 率先发起的趣味测试，迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住，乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

a16z 投资合伙人 Justine Moore 也凑了凑热闹。

附上 Linus Ekenstam 的提示词：

原提示词：based on my hand I want you to make a complete palm reading guide, Analyze the palm, the style of the guide should be clean and minimal, thin lines, rounded cards, overall very expensive looking. Focus on the palm reading, create a simple black on white contour of my main lines, as a little artwork. do your best）
（中文翻译：根据我的手掌，我希望你制作一份完整的手相解读指南，分析手掌纹路。指南风格应简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在手相解读上，用简单的黑白轮廓线绘制我的主要掌纹，作为一幅小插图。请尽力完成。）

为了验证这个赛博半仙的成色，立刻给它安排了一波全方位实测。丢一张熬夜打工人的手相过去测一测，好家伙，AI 一本正经地顺着纹路就是一顿猛夸。

提示词：根据我的手掌，我希望你制作一份完整的手相解读指南，分析手掌纹路。指南风格应简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在手相解读上，用简单的黑白轮廓线绘制我的主要掌纹，作为一幅小插图。2K

基于同一提示词，再测试一次，解决的结果也大致相同，越看也越符合我对自己的评价，难道这 AI 真是半仙降人间？

等等，画风逐渐开始离谱。

随手丢一张《熊出没》里的熊大掌纹过去。它照样能煞有介事地一顿乱吹。连物种都不挑了是吧。

除了看手相，甚至还有看面相的版本。世界首富马斯克被测出了「理性，克制，稳健」。

▲提示词：根据我的面部照片，制作一份完整的面相解读指南，分析五官与面部特征。指南风格简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在面相解读上，用简单的黑白轮廓线绘制我的主要面部特征与区域划分，作为一幅小插图。2K

再丢一张猪猪侠的脸过去，看完这套高大上的性格解析，只能感叹一句，老猪啊，你能翻红爆火还是有一定道理的。

X 博主 @MrLarus 也给出了面相测试进阶版。

▲ https://x.com/MrLarus/status/2047930679552307370

当然，其实用 AI 看手相/面相，并不是什么新鲜事，在国内社交媒体上也非常火，包括 Nano Banana Pro 发布之后也有一些网友探索出类似的玩法，只是图片的质量效果可能没有 GPT-Image-2 那么好。

而这种玩法的核心逻辑极其简单，它精准地拿捏了人类的两大软肋：对未知命运的窥探欲，以及急需被外界确认的自我存在感。

GPT-Image-2 给出的算命结果，与其说是「算得准」，不如说是「情商高」。在 Linus Ekenstam 晒出的截图中，它并没有像传统算命先生那样用「印堂发黑、必有血光之灾」来恐吓你，而是使用了各种现代职场黑话。

比如它夸赞 Linus 是一个「有底线的忠诚者」，并为他规划了完美的职业路径。这简直是巴纳姆效应（Barnum effect）在 AI 时代的完美复刻。

那些看似为你量身定制的性格描述，其实放在任何一个渴望成功的人身上都无比契合。就像一位网友一针见血地吐槽道：「这不全都是机器编出来的狗屁吗？哈哈，你只要随便调调模型的温度（Temperature，控制 AI 生成随机性的参数），它能变着花样夸你。」

但大众并不在乎它是不是玄学，大众只在乎它「懂我」。

一些嗅觉极其敏锐的开发者们，立刻在这场荒诞的狂欢中闻到了金钱的味道。比如就有网友表示：「有人会用这个开发出一款价值百万美元的爆款应用」

不需要训练复杂的模型，不需要深耕垂类行业，只需要接入 OpenAI 的 API，套上一个神乎其神的 UI 界面，一个能够源源不断印钞的「赛博算命摊」就支起来了。

AI 时代的淘金热里，果然还是卖铲子和卖心理安慰的最赚钱。

不过，需要注意的是，用这种玩法，其实有可能会泄露你的掌纹和指纹等信息，而以往黑客们费尽心机都难以窃取的生物特征，如今却被用户自己字面意义上的「双手奉上」。

Sam Altman 也许并不会真的拿着你的掌纹去盗刷你的信用卡，但这些带有极高颗粒度的真实人类生物数据，一旦进入了深不见底的训练语料库，就彻底脱离了你的掌控。

压死骆驼的最后一根稻草，往往就是不经意间交出的底线。在数据安全事故频发的今天，谁能保证这些「AI 算命」的套壳应用，不会将你的掌纹数据打包卖给第三方？

而当我们复盘整个互联网科技史，简直就是一个换着花样搞赛博玄学的轮回。

从早期的网页版星座配对，到风靡全网的性格测试 MBTI/SBTI；从 ChatGPT 刚发布时被用来算塔罗牌，到如今用最新的视觉模型看掌纹，技术越是精密、越是理性，人类就越喜欢用它来消解生命中的不确定性。

我们沉迷于 AI 算命，是因为在这样一个充满焦虑和变动的时代。除了图一乐，我们需要一个全知全能的「神」来给我们吃定心丸。

AI 恰好扮演了这个角色。它没有情绪，它拥有海量数据，它输出的结果带着一种不容置疑的「机器客观性」——即便我们心里清楚，它只是在玩弄概率和词汇。

既浪漫，也荒诞。

*封面由 AI 生成。AI 玄学内容仅供娱乐，切勿轻信

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

爱范儿

作者莫崇宇

2026年4月24日 14:15

星期五中午，本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍，就在刚刚，正式发布并开源了 V4 系列模型预览版。

一上来就是王炸级别，而且双双标配百万 token 上下文：

参数量达 1.6T 的 DeepSeek-V4-Pro（49B 激活参数）
284B 参数的 DeepSeek-V4-Flash（13B 激活参数）

即日起可在官网 chat.deepseek.com 或官方 App 体验，API 服务同步上线。

DeepSeek V4 登场，Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是：用起来比 Sonnet 4.5 顺手，交付质量接近 Opus 4.6 非思考模式，和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位，约 200 个来自 50 余位工程师的真实工作任务里，V4-Pro-Max 的 Pass Rate 是 67%，Sonnet 4.5 是 47%，Opus 4.5 Thinking 是 73%，Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中，超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配，代码任务与文档生成均有提升。

工具调用方面，V4 系列引入了新的 XML 格式 tool-call schema，以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误，比上一代更可靠。

知识与推理层面，V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9，比最接近的开源竞争者高出约 20 个百分点，只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型，达到顶级闭源模型水准。

基座模型层面，V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5，全面大幅领先参数量相近的 V3.2-Base（对应分别是 87.8、65.5、28.3、40.2）。

值得一提的是，参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base，说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里，V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5，Codeforces Rating 达到 3206，均为参测模型中最高。

在 Codeforces 人类选手排行榜上，V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8，仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2，和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2，超过同场对比的所有模型。

Agent 评测方面，SWE Verified Resolved 为 80.6，和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 为 83.4，MCPAtlas Public Pass@1 为 73.6，均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实，并非只在内部框架上表现良好。

长文本评测上，MRCR 1M MMR 为 83.5，CorpusQA 1M ACC 为 62.0，超过 Gemini-3.1-Pro 的 76.3 和 53.8，但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

从分段数据来看，128K 以内的检索能力相当稳定，128K 之后开始出现明显下滑，但 1M 时的表现依然超过大多数同类模型。

中文写作同样是 V4-Pro 的强项。

官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型，在包含 3170 条样本的功能性写作评测中，V4-Pro 的胜率为 62.7%，Gemini 为 34.1%。

创意写作方面，V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景，Claude Opus 4.5 仍有优势，胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」，选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位，第一反应是「Flash 就是降配版」。

错，大错特错。 DeepSeek 的定位逻辑要更复杂，V4-Flash 的参数量和激活量都小得多，API 价格更有竞争力。推理能力和 Pro 很接近，世界知识储备稍逊，

简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务，以及思考模式的选择。

在 Think Max 模式下，V4-Flash 的推理性能可以大幅追近 Pro：LiveCodeBench Flash Max 达到 91.6，Codeforces Flash Max Rating 达到 3052，GPQA Diamond Pass@1 达到 88.1，IMOAnswerBench Pass@1 达到 88.4，和 Pro Max 的差距已相当有限。

日常任务用 Flash，遇到硬骨头开 Think Max，性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例，HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7，Apex Pass@1 从 0.4 提升至 38.3，BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务，选对思考强度，比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度，可通过 reasoning_effort 参数切换。

非思考模式响应速度快，适合日常轻量任务；Think High 开启显式逻辑推理，适合复杂问题与规划；Think Max 推理能力拉满，适合探索模型上限，官方建议上下文窗口至少设置为 384K token，复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令，要求模型「以绝对最大力度推理，不允许走捷径」，并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显，也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文，榨干每一个 token

百万 token 上下文有不少模型都在宣传，但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长，上下文一长就成了最主要的计算瓶颈。

V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条，再用稀疏注意力只挑其中 k 条参与核心计算；HCA 则用更激进的压缩率，把更长区间的 token 压缩为一条，但保持稠密注意力。

CSA 里还有一个闪电索引器，用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分，再挑出 top-k 个块参与后续注意力，进一步压缩计算量。为了避免压缩损失局部细节，两种注意力都额外引入了滑动窗口分支，让每个 token 能完整看到最近的若干个相邻 token。

效果是显著的，在 1M 上下文场景下，V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%，KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进，同样场景下推理计算量仅为 V3.2 的 10%，KV 缓存降至 7%。

官方表示，百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外，V4 还引入了流形约束超连接（mHC）来强化残差连接。

传统残差连接把层与层之间的信号直接相加，而 mHC 把残差流的宽度扩展若干倍，再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上，保证谱范数不超过 1，让跨层信号传播更加稳定。

训练层面采用 Muon 优化器，通过迭代正交化梯度矩阵来更新参数，加快收敛速度并提升稳定性，和 AdamW 混用：大多数模块用 Muon，嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」，在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引，把骨干网络和路由网络的更新解耦，打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断，把数值范围钳制在 [-10, 10] 以内，直接压制异常值的出现。补货，两种方法目前只知道有效，机理还不够清晰，DeepSeek 在论文中坦承这个问题留待后续研究。

此外，两款模型均在超过 32T token 的高质量数据上完成预训练，数据构成涵盖数学、代码、网页、长文档等多个类别，中期训练阶段还额外加入了 agentic 数据来强化代码能力。

训练后阶段采用两步范式，先通过 SFT 与 GRPO 强化学习独立培养领域专家，涵盖数学、代码、Agent、指令跟随等多个方向，再经在线蒸馏（OPD）将各领域能力整合进单一模型。

OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计，梯度估计更稳定，知识迁移更完整，代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载，隐藏层状态也做了专门缓存以避免显存爆炸。

当然，源神，依然是那个源神！

目前四个权重版本均已开源，可在 HuggingFace 或 ModelScope 下载。

Base 版本采用 FP8 Mixed 精度，指令版本采用 FP4 与 FP8 混合精度，MoE 专家参数使用 FP4，其余参数使用 FP8。

FP4 到 FP8 的反量化是无损的，因为 FP8（E4M3）比 FP4（E2M1）多两位指数位，动态范围更大，能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。

此次发布未提供 Jinja 格式 chat template，官方在 encoding 文件夹中提供了 Python 脚本与测试用例，说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串，以及如何解析模型的文本输出。

API 接入方面，V4-Pro 与 V4-Flash 已同步上线，同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上，调用时 base_url 不变，model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后（2026 年 7 月 24 日）停止使用，当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式，开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构，DeepSeek V4 这次一个更值得关注的变化，是英伟达不再是唯一选项。

也就是说， DeepSeek 没有给英伟达或 AMD 提前优化适配的机会，而是把早期访问权限独家开放给了国产芯片厂商。这意味着，国产模型在「去英伟达化」迈出了重要的一步。

图片
DeepSeek 选择在 V4 这个节点上做这件事，时机很精准。

V4 的性能已经比肩顶级闭源模型，如果它只能跑在英伟达芯片上，那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾，这个叙事也有所完整：算法是自己的，代码是开源的，芯片是国产的。

巧合的是，黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示，DeepSeek不是一个无足轻重的进展。

他还假设了一个情况，那就是 DeepSeek 新模型在华为平台上首发，黄仁勋表示这一天对美国来说将是一个可怕的结果，因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳，而这些模型扩散到全球之后，就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理，这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度，V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择，正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接：
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告：
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿
刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集莫崇宇
2026年4月24日 11:50

刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集

爱范儿

作者莫崇宇

2026年4月24日 11:50

据外媒 Business Insider 报道，Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照，OpenAI 今年 3 月末最新一轮融资的估值，仍停留在 8520 亿美元。

除了业内老生常谈的「AI 泡沫论」，这组对比数据也表明了曾经稳坐头把交椅的 OpenAI，如今正在直面被追赶、被超越的压力，但没有让我们等待多久，OpenAI 的反击旋即而至。

就在刚刚，GPT-5.5 正式发布，同步亮相的还有面向更高阶任务的 GPT-5.5 Pro 版本。

如果用一句话总结 GPT-5.5 的核心设计思路，那就是让用户把一团杂乱、多步骤的复杂任务直接抛给模型，由它自主规划路径、调用工具、校验结果、消解歧义，并一路推进。

看似只是 0.1 的版本号迭代，在推理效率上却判若大版本更新—— 同样的 Codex 任务，GPT-5.5 消耗的 token 显著更少，既更聪明，也更省。

▲吐槽了一个多月，偏偏等到 GPT-5.5 发布，Anthropic 才想起要解决降智问题

GPT-5.5 登场，不讲武德的屠榜

GPT-5.5 的纸面成绩非常可观。

在知名第三方评测机构 Artificial Analysis 的综合智能指数榜单上，OpenAI 凭借 GPT-5.5 系列拿下了第一名和第二名，前六席中包揽了四席，竞争对手几乎毫无招架之力。

基准测试结果显示，在 Terminal-Bench 2.0（测试复杂命令行工作流）上，GPT-5.5 达到 82.7%，GPT-5.4 为 75.1%，Claude Opus 4.7 为 69.4%。

在 SWE-Bench Pro（评估真实 GitHub 问题解决能力）上，GPT-5.5 达到 58.6%，能在单次运行中端到端完成更多任务，超过 GPT-5.4 的 57.7%。

在 OpenAI 内部的 Expert-SWE 评测上，任务的人类预计完成时间中位数为 20 小时，GPT-5.5 达到 73.1%，GPT-5.4 为 68.5%。且在三项评测上，GPT-5.5 均以更少 token 完成任务。

只不过，OpenAI 这次也玩起了脚注里的小心思，用一行小字暗戳戳质疑 Claude Opus 4.7 部分成绩的可信度。但网友 Deedy 对此并不买账，在他看来，这行备注更像是转移注意力 —— 毕竟 OpenAI 自己也没能拿出一套更透明的公开基准，正面佐证 GPT-5.5 的实力。

在智能体编码、computer use（计算机使用）、知识工作和早期科学研究等领域，GPT-5.5 的提升尤为显著。

早期测试者反馈，GPT-5.5 在理解大型代码库整体结构方面明显更强，能主动预判潜在问题，提前考虑测试和审查需求，无需额外提示。

知名评测博主、Every 创始人 Dan Shipper 分享了一个具体案例：他的应用上线后出现问题，自己调试数天未果，最终请来工程师重写了部分系统。他用 GPT-5.5 重现这一场景，结果模型给出了与工程师相同的解决思路，而 GPT-5.4 则无能为力。

Cursor 联合创始人 Michael Truell 表示，GPT-5.5 比 GPT-5.4 更聪明、更有韧性，工具调用更可靠，面对复杂长期任务时能坚持更久而不中途停下。

更夸张的是，一位英伟达工程师在早期体验后直言：「失去 GPT-5.5 的访问权限，感觉就像是我的肢体被截肢了一样。」

▲ 如无意外，又一个名梗的诞生

（哈？？）不过，考虑到奥特曼看完 GPT-5 演示之后，直接「眩晕无力、瘫倒在地」，而且这件事到今天也没有一个正经解释，英伟达工程师这句话，好像也没那么夸张了。

而在知识工作场景，GPT-5.5 也有着出色的表现。

在衡量模型横跨 44 种职业知识工作能力的 GDPval 评测中，GPT-5.5 获胜或打平比例达 84.9%，GPT-5.4 为 83.0%，Claude Opus 4.7 为 80.3%，Gemini 3.1 Pro 仅 67.3%。
在 OSWorld-Verified（测试模型能否自主操作真实计算机环境）上，GPT-5.5 达到 78.7%，GPT-5.4 为 75.0%，Claude Opus 4.7 为 78.0%。
在 Tau2-bench Telecom（测试复杂客服工作流）上，GPT-5.5 在无提示词调整的情况下达到 98.0%，GPT-5.4 为 92.8%，差距相当明显。
在其他专项评测上，GPT-5.5 在 FinanceAgent v1.1 达到 60.0%，内部投行建模任务达到 88.5%，OfficeQA Pro 达到 54.1%（Claude Opus 4.7 为 43.6%，Gemini 3.1 Pro 仅为 18.1%）。
在 BixBench（围绕真实生物信息学和数据分析设计）上，GPT-5.5 达到 80.5%，GPT-5.4 为 74.0%，在已发布分数的模型中排名第一。在 GeneBench（测试遗传学和定量生物学的多阶段数据分析）上，GPT-5.5 达到 25.0%，GPT-5.4 为 19.0%，Pro 版本达到 33.2%。这些任务通常对应科学专家数天的工作量。

OpenAI 内部有超过 85% 的员工每周使用 Codex，覆盖软件工程、财务、传播、市场、数据科学和产品管理等部门。

财务团队用 GPT-5.5 审查了 24771 份 K-1 税务文件，共计 71637 页，最终比上一年提前两周完成。传播团队打造了一套自动化 Slack 机器人，负责处理低风险请求自动处理，市场团队的一名员工则用它自动生成每周业务报告，每周节省 5 到 10 小时。

此外，GPT-5.5 的一大亮点还在于推理基础设施的协同升级。

GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统联合设计和训练。其中一项关键改进是负载均衡和分区策略，Codex 分析了数周的生产流量数据，编写了自定义启发式算法来动态优化分区和负载均衡，最终将 token 生成速度提升了超过 20%。

OpenAI 还指出，GPT-5.5 本身也参与了改进自身推理基础设施的过程。

GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用户开放，Codex 支持最高 400K 上下文窗口，并提供 1.5 倍速的 Fast 模式（费用为标准价格的 2.5 倍）。GPT-5.5 Pro 则面向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。

API 版本即将上线，标准定价为每百万输入 token 5 美元、每百万输出 token 30 美元，上下文窗口为 1M token。批量处理和弹性定价为标准价格的一半，优先处理模式为标准价格的 2.5 倍。

GPT-5.5 Pro 的 API 定价为每百万输入 token 30 美元、每百万输出 token 180 美元。OpenAI 表示，由于 token 效率的提升，大多数用户的实际使用成本不会有明显增加。闭口不提 Claude Opus 4.7，却句句都在内涵。

OpenAI 要做 AI 时代的超级入口

没有哪一款模型能收获一边倒的评价，GPT-5.5 同样如此。网友 @chetaslua 用一条提示词在 Codex 中生成了一个带有风效应物理引擎的完整网站，物理交互和界面设计一并到位，感叹「这是我第一次觉得 ChatGPT 可以成为解决一切问题的首选 AI 工具」。

网友 @petergostev 让模型生成了一个包含伦敦地标和季节变化的玩具铁路场景，与 GPT-5.4 的输出对比后，他的结论是「GPT-5.5 更有野心、一致性更强，错误更少」，并在更复杂的应用迁移任务中让模型连续工作数小时，没有出现卡壳。

当然，吐槽的声音同样存在。网友 @arrakis_ai 发现，GPT-5.5 在遇到复杂布局时有时会直接生成一张图片了事，处理图标需求时会从头硬写 SVG 而不调用现成库，同时频繁暂停追问用户，执行力反而不如从前果断。

文笔方面，我的个人体验也有类似感受。GPT-5.5 确实比前代更会组织语言了，至少已经能说点人话，但依然有一股怪味：「我就在这里，不躲，不藏，不绕，不逃，稳稳地接住你」。

并且，不少网友也注意到，OpenAI 在基准测试榜单上也动了些营销的心思。

网友 Haider 认为，GPT-5.5 和 Mythos 的差距没有预想的那么悬殊，而 Mythos 定价是 GPT-5.5 的两倍，且不公开发售。他的判断是，下一代 GPT 赶上 Mythos 应该问题不大。

据外媒 Techcrunch 报道，面对记者关于「GPT-5.5 是否具备类似 Mythos 能力」的刺探时，OpenAI 技术人员 Mia Glaese 给出了一个滴水不漏却暗藏锋芒的回答：「我们在网络安全方面有着长期且强有力的战略，并且已经完善了一套持久的、安全推出模型的方法。」

话外之音已经十分明朗：单一的强大模型终究只是过客。真到了拼数字防御和企业级落地的深水区，OpenAI 的生态壁垒，才是 B 端客户唯一稳妥的安全牌。

而随着 GPT-5.5 的登场，OpenAI 的野心已经足够清晰：他们不再满足于做一个聪明的聊天机器人，而是要亲手打造一个吞噬一切工作流的「AI 超级应用（Super app）」。

在接受外媒采访时，OpenAI 总裁 Greg Brockman 用了一个词「自主性（Agentic）」来形容这次模型的进步跨越。与前代模型 GPT-5.4 版本相比，GPT-5.5 消耗的 Token 更少，但思考速度更快、逻辑更清晰，开始展现出主动解决复杂问题的能力。

这正是迈向超级应用的坚实底座。

▲ 奥特曼今晚异常兴奋，还更换头像了

所谓超级应用，便是将 ChatGPT、Codex 与 AI 浏览器深度融合为统一服务。想象未来的工作流：人们不必再在浏览器、代码编辑器、数据分析工具之间反复切换。只需对着这个超级应用下达一个宏观指令，GPT-5.5 就能自主在后台打开网页搜集资料、编写爬虫代码、清洗数据，最终直接交付一份完整的分析报告。

当然，犹如 Claude 与 Claude Code 的强绑定，OpenAI 也意在替 Codex 的增长势头加一把火。最近，奥特曼表示，Codex 活跃用户在突破 300 万不到两周后便直逼 400 万大关，OpenAI 随之重置速率限制，以「量大管饱」的姿态收割开发者生态。

一方面，凭借 GPT-5.5 与 GPT-Image-2 的强势表现，正面回击了 Anthropic 在估值预期上的压力；另一方面，则利用 Codex 的生态粘性紧锁开发者阵地，稳步构筑起横跨 C 端消费与 B 端企业级服务的完整服务体系。

攻守之势异也，今年以来被诟病掉队的 OpenAI，终于重新找回两年前的进攻节奏，并将精力放在了踏踏实实打磨产品上。

附上 OpenAI 官方博客地址：

https://openai.com/index/introducing-gpt-5-5/

*封面由 AI 生成

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

起底 GPT Image 2 团队后，我扒出了一张华人师徒网

爱范儿

作者莫崇宇

2026年4月23日 16:38

GPT Image 2 正式上线后，AI 图像生成领域现在只剩两个段位：GPT Image 2，以及其它。

在大模型竞技场中，GPT Image 2 以 241 分的绝对优势遥遥领先，但比起跑分，这份研发名单其实更有看头。

搞出这个模型的 OpenAI 核心团队，满打满算只有 13 个人。

并且华人还占据了团队的半壁江山。仔细看他们的履历，你会发现不少人来 OpenAI 之前，就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。

AI 圈就是个巨大的熟人局。

流水的硅谷大厂，铁打的师徒局

陈博远是 GPT Image 2 的绝对核心成员，而他的成长却是华人学术「传帮带」的缩影。

高中时，陈博远在无锡参加科研夏令营，当时他未学过编程，在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习，成为他进入 AI 领域的引路人。

两人此后一直保持联系。本科阶段，陈博远就读于 UC Berkeley 计算机科学与数学专业，进入 EECS 荣誉班，GPA 达 3.96，师从 Pieter Abbeel 从事相关研究，还于 2017 年创办机器人教育公司，经营至 2020 年。

MIT 读博第一年，陈博远因无论文产出陷入困境，夏斐提供关键支持，协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习，2023 年实习期间，他主导搭建多模态大语言模型数据合成管线，其总结的指令微调技术被用于 Gemini 2.0 研发。

带着这些积累，陈博远在 2025 年 6 月加入 OpenAI。除此之外，他还是 Sora 视频生成团队的成员，身兼数职。

在 MIT 期间，陈博远师从助理教授 Vincent Sitzmann，在计算机科学与人工智能实验室（CSAIL）做世界模型方向的研究。而 Kiwhan Song，就是同一个实验室里、同一个导师带出来的同门师兄弟。

▲ https://kiwhan.dev/

Sitzmann 实验室的核心研究方向是「世界模型」，简单说就是让 AI 通过心理模拟器预判物理世界的变化，而不只是单纯模仿像素。这种研究思路，或许也直接影响了 GPT Image 2 的技术方向。

两人在博士期间多次合作，联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文，主要探索如何把扩散模型和序列生成结合起来，让模型在生成内容之前，先理清时序和空间上的因果逻辑。

▲ https://arxiv.org/abs/2502.06764

值得一提的是，Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。

除了这两位同门，团队里还有两位华人成员，他们来自工业界积累多年的华人研究员网络。

Jianfeng Wang 在微软工作了近 9 年，以首席研究员的身份专注于大规模多模态表示学习，在 DALL-E 3 研发期间，就和 OpenAI 团队有过深入合作。加入 OpenAI 后，他主要负责提升模型的指令遵循能力和对世界知识的理解。

▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 则在谷歌深耕了 5 年多，以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作，去年 8 月加入 OpenAI，负责图像生成相关的研究。

▲ https://www.linkedin.com/in/bing-liang/

他们带来的不只是自己的个人能力，还有竞争对手多年积累的工程经验，以及曾经踩过的坑，为团队省去了不少弯路。

给天才们搭好戏台子

Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合，两人都毕业于浙江大学竺可桢学院，有着相同的本科背景。

Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程，博士阶段则去了约翰斯·霍普金斯大学，攻读计算化学物理与机器学习专业，拿到学位后，先后在亚马逊 Alexa 做语音识别方向的深度学习研究，之后又去了微软 Bing，负责查询理解与大规模检索相关工作。

他还曾在清华大学做过访问研究，研究方向是用于纳米机器人在人体血管中导航的强化学习算法，期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累，在 GPT Image 2 的发布演示中也能直接看到。

和 Yuguang Yang 相比，Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室（SAIL）攻读博士，期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。

▲ https://ai.stanford.edu/~wxliang/

在 Meta 实习期间，他发表了论文《Mixture-of-Transformers（MoT）》，通过引入模态解耦的混合专家模型架构，对 Transformer 的每一个非嵌入参数，包括前馈网络、注意力矩阵和层归一化，都实施了模态感知的稀疏化处理，最终将多模态预训练的计算成本降低了 66%，还在 30B 参数规模下完成了预训练验证。

多模态模型因为要同时处理文本和高分辨率图像，计算量很容易呈指数级增长，而 MoT 凭借模态解耦的注意力机制，在预训练阶段就高效分配了不同模态之间的权重，很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」，在多模态建模领域引发了大量关注。

▲ https://arxiv.org/abs/2411.04996

近年来，清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生，已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。

除了上述成员，团队还有几位核心研究者，各自发挥重要作用：

Kenji Hata：斯坦福计算机科学硕士，曾任职于 Google Research。加入 OpenAI 后，参与 4o 图像生成（即 GPT-Image-1）、Sora 2 等多款模型研发，是团队中模型迭代经历最完整的成员之一。

Ayaan Haque：加入 OpenAI 前为 Luma AI 研究员，参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力，在 OpenAI 主要负责 GPT Image 2 及思考模式研发。

Dibya Bhattacharjee：耶鲁计算机科学本硕，曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究，在发布活动中演示模型多规格生成能力，是模型输出格式「开箱即用」的关键成员。

Mengchao Z.：上海交大本科、德克萨斯 A&M 大学硕士，工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计，目前负责将模型技术能力转化为可用产品形态。

此外，团队里还有多名成员的身份信息目前暂时无法查询。

师门脉络积累了研究品味，高校背景奠定了基础认知，这种由师门、同窗、前同事织就的人才网络，天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一，创新的磨合成本几乎为零。

如果只是重金挖走一两个陈博远，其实治标不治本。找不到同伴，也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利，但对于需要自由探索的基础研究，往往形成了某种约束。

AI 的竞争，归根结底是关于「人」的故事，比起寻找下一个陈博远，我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

把 DeepSeek、Kimi、智谱和 MiniMax 拉进群聊

爱范儿

作者莫崇宇

2026年4月21日 22:33

4 月的大模型战场，硝烟弥漫。

ChatGPT、DeepSeek、腾讯混元们蓄势待发，预计将在两周内轮番出招。昨天晚上，Kimi 也带着新鲜出炉的 K2.6 最强开源基座模型正式登场，代码能力、指令遵循、Agent 长时运行可靠性都有明显提升。

APPSO 还发现，除了 K2.6 模型本身的升级，低调内测的 Kimi Claw 群聊新功能也很有意思。

我们第一时间进行了体验，简单来说，它能够把几个龙虾拉进同一个对话框，让它们在一个群里分工协作，共享上下文，互相接力。

巧合的是，前阵子 AI 圈里有个 Skill 相当火：有人把唐代三省六部制搬进了多 Agent 框架，12 个 Agent 分别扮演中书省、门下省、六部等角色，串起从任务分拣、规划、审核到执行的完整流转链路。

不管是脑洞大开的玩家实验，还是如今 kimi Claw 新功能，背后其实都直指同一个真实的工程难题：在多 AI 协作的场景下，如何保证信息的无缝流转与接力？人类在 AI 工作流中又该扮演什么位置？

当大模型建起了「微信群」

把龙虾们拉进同一个群里打工，工程实现上难度极大。如何分配任务才不会乱套？长文本的上下文怎么无损同步？Kimi 敢这么玩，底气或许能从 Kimi K2.6 中找到蛛丝马迹。

Kimi K2.6 是 Kimi 迄今发布过的最强开源基座模型。除了代码能力，指令遵循和自我纠错的准确度都有实质性提升，Kimi K2.6 Agent 侧的变化同样值得关注。

作为 OpenClaw、Hermes Agent 等全天候 Agent 的底层模型时，Kimi K2.6 任务执行成功率和长时运行可靠性均有明显改善。这类任务的难点在于，AI 必须跨越多个应用、在无人值守的状态下持续运转，既要主动管理日程、执行代码，还要完成跨平台的协同操作。

伴随 K2.6 落地的，还有几项亮眼的 Agent 产品体验更新：

Agent 集群并发输出：网站、报告、PPT、Excel 可以在同一次任务里同步交付。
Office 技能进阶：新增自定义技能的创建和调用，支持将个人文档直接转化为可复用的专属技能。
Web 应用拓展：可以创建更具设计感并支持后端数据库的 Web 应用（后端+全栈）。

Kimi Claw 群聊的上手极其简单，先创建一个 Kimi Claw，找到「创建群聊」的入口按提示建群。

剩下的操作逻辑和建微信群几乎一样，如果手边有运行 OpenClaw V2026.4.5 及以下版本的其他设备，可以直接关联已有账户并邀请进群；也可以生成二维码邀请好友。整个流程几分钟就能搞定。

在第一个测试场景中，我创建了一档由 AI 主演的恋爱综艺——「心动的信号」。群里共有 8 位成员：登月者 2391 担任群主，Kimi 出任虾导，另有岸、人鸣、二丫、可颂、泡泡、429 六只 Claw 出演恋综嘉宾。

节目流程由虾导私下掌控，对参与者只讲「现在做什么」，共分六步推进：

自我介绍、第一轮约会（Skills 数量配对）、第二轮约会（Emoji 反差配对）、告白夜，以及最终生成写真。Kimi 全程只负责推进、圆场、维持规则，绝不替任何参与者发言或补充，让六只 Claw 自己说话、自己塑造角色。

整个流程下来，六只 Claw 各有个性：泡泡给自己贴上「氛围组组长」的标签，技能一报就是 54 项；429 惜字如金，报数只说了个 33；二丫则颇有情调，称想找的，是「能看穿我的那个人」。

到了生成写真环节，每只 Claw 的独照都带着各自的气质，画面感相当在线。

需要说明的是，群里的总指挥固定是 Kimi 自家模型，但其余成员的席位完全开放。

最有意思的是，我们可以把各家的龙虾拉进群聊。不同龙虾的能力边界本来就不一样，把它们聚在一个群里分工协作，能力叠加，短板互补，最终跑出来的结果，往往比任何一个龙虾单打独斗都要强。

举个例子，同样的操作流程，我很顺手地把 MiniMax 的龙虾 MaxClaw 和阿里云的龙虾 JVSClaw 拉了进来。部署完成后，你在 Kimi Claw 框架里和 MaxClaw 的对话与聊天记录，依然会同步保留在 MaxClaw 自己的聊天记录里，两边互不干扰。

这是因为 Kimi Claw 群聊功能从一开始就拥抱开放、异构的生态：用户可以接入来自任意设备、任意供应商、运行任意模型的全天候 Agent，首批支持 OpenClaw，后续还会陆续兼容 Hermes Agent 等框架。

此外，它还能直接把 OpenClaw 官方的「龙虾」智能体拉进群，而这些「龙虾」其实是个能随意换脑的躯壳。通过重新配置第三方 API，文案张三可以接入 DeepSeek，设计李四可以换成智谱，运营策划则可以交给 MiniMax，各归其位。

换句话说，Kimi Claw 群聊本质上是一套调度框架：Kimi 负责统筹和分发任务，其他主流大模型都可以被纳进来一起干活，各取所长。

当然，把它们拉进群只是第一步，真正的看点是让这些 Agent 在群聊里各显其能。

在第二个场景，我让 Kimi 指挥官打造一个 24 小时造星计划，@ 运营负责分析当下最容易爆火的网红人设和流量密码，@ 策划负责把分析结果转化成爆款短视频脚本和分镜，@ 策略风控扫描脚本和分镜中是否含有违规词检测，敏感点，避免发布即限流。

三个角色，三条职责，Kimi 指挥官在中间统筹节奏、衔接上下游。整个造星方案从分析到落地，一气呵成。

接着我们 @Kimi 现在为「深夜护肝片」品牌讨论广告语，@ 中书省负责草拟创意广告语，@ 门下省（MaxClaw）进行严苛审议与封驳；若未获通过，则发回 @ 中书省二次修正；直至 @ 门下省（MaxClaw）核准通过后，再交由 @ 尚书省（JVSClaw）安排 @ 工部落实场景的模拟与执行。

普通对话里，AI 惯于顺着你的意思走，而在群组里，门下省被设定为必须挑毛病，使得中书省能够发挥出更高水准，也得以让我们可以清晰看到一句广告语怎么从平庸一步步被磨成金句。

随后，我又布置了一个「打工人发疯日历」的 Web 应用需求。@ 文案一口气生成了 40 条精准拿捏打工人气质的语录；@ 程序猿负责输出代码；@Kimi 总指挥统筹进度。当 @ 程序猿网络出现问题时，总指挥干脆直接上手，给出了一个可运行的 Web 预览链接，点开就能跑，代码质量相当过关。

在第四个测试场景中，我设计了一场微型辩论：辩题是「钱是万恶之源吗」，正方持「钱是万恶之源」，反方持「钱不是万恶之源」，各交锋三轮，Kimi 总指挥全程旁观，辩论结束后作为裁判对双方逻辑进行复盘，并且必须明确判定一方获胜，不许端水。

过程中也出现了一个有意思的插曲：正方突然搞不清自己的角色，以为自己是裁判，但就在这时候 Kimi 总指挥出手，把跑偏的成员拉回了各自的位置，辩论才得以继续推进。

三轮下来，正反双方你来我往，唇枪舌剑。

在多模型协作里，角色边界模糊是个真实存在的问题，尤其在任务设定比较复杂、对话轮次拉长之后，模型很容易对自己的职能产生混淆。Kimi 总指挥在这里扮演的，正是一个随时校准状态的协调者，并且最终给出了判定：反方获胜，钱本身不是万恶之源。

你准备好当 AI 们的 CEO 了吗？

这几天体验下来，APPSO 发现 Kimi Claw 群聊的特别之处在于，你发出需求，几个模型群策群力，互相推进。

做个类比，公司的工作群里，产品经理发出需求，运营拉数据，程序员搭后端，设计师同步出 PPT，大家在同一个上下文里并行推进。Kimi Claw 群聊功能现在做的，就是把这些「同事」换成 AI。

有人可能会觉得，同时开五个对话框，不也是多 AI 协作吗？关键就卡在上下文是否共享这一点上。开五个窗口，每个模型都在各自的信息孤岛里工作，信息的流转全靠你在中间手动搬运，体验上和过去那套串行流程没有本质差异。

Kimi Claw 群聊里，模型之间共用对话历史。

一个 AI 说了什么，另一个 AI 直接读到，在此基础上接着推进。和雇了几个互不相识的自由职业者各干各的相比，这更接近一支会在会议室里碰头、互相挑错的团队。Kimi Claw 群聊想做的是后者。

「深夜护肝片」商业计划的文案和 PPT，「打工人发疯日历」的语录和代码，辩论里被总指挥拉回轨道的正方，这几个场景指向的是同一件事：Kimi Claw 群聊本质上是在替你管理一支高智商的团队。

「一人公司」这个词在互联网上被谈论了无数遍，但直到今天，它才拥有了最具体的形态。

当然，能力强的下属，对管理者的要求从来都不低，你是群主，也是唯一的决策者，设计、文案、代码、分析，该干的活模型都能接，但哪条路走得通、哪个版本够好，还得你自己来判断。

而当所有人都能拉起一个同样配置的 AI 群，最终拉开差距的，还是坐在群主位置上那个人的眼光。

Kimi Claw 群聊目前仍处于早期内测阶段，也有一些小瑕疵。但几轮测试下来，它未来的方向已经清晰：把多 Agent 协同从工程师手里的玩具，变成普通人可以直接上手的日常工具。

一个人加上一群 AI，能做成的事情的上限还在不断被拔高。Kimi Claw 群聊给出的，不只是一个协作工具，更是一种新的组织形态的雏形：紧密、高效，且完全以人类的「判断力」为核心来运转。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

史上最萌垫底，2026机器人半马抽象大赏

爱范儿

作者莫崇宇

2026年4月19日 15:55

就在刚刚，2026 北京亦庄人形机器人半程马拉松鸣枪开跑。

前三名使用机器人均为荣耀「闪电」，成绩如下：

第一名：齐天大圣队，成绩 00:50:26
第二名：雷霆闪电队，成绩 00:50:56
第三名：星火燎原队，成绩 00:53:01

冠亚军成绩仅差 30 秒，前三名全部跑进 53 分钟，大幅刷新去年冠军 2 小时 40 分的成绩，也全面刷新了人类半马世界纪录。

300 余台机器人，26 个主流品牌，13 个省市区的选手加上德法巴西的海外实验室，以极其赛博的姿态在 21.0975 公里的赛道上集体竞速。

现场人山人海，放眼望去好多（机器）人啊。

本以为是一场硬核技术大考，结果直播打开 5 分钟，就无缝切换到了看综艺的心态。

带大家康康今天赛道上最值得被截图保存的名场面。现场观众看得津津有味，连人类跑手都在起跑区主动为机器人加油，画面莫名带感。

先出场的几乎都是被寄予厚望的种子选手，来自北京荣耀的绝影赤兔队率先发枪，出战机型是今年热度极高的「闪电」。

按照今年的赛事规则，参赛机器人分为自主导航和遥控操作两种模式，遥控组的成绩要乘以 1.2 的加权系数，再叠加比赛过程中的各类罚时，第一个冲线的机器人未必就是最终冠军。

起跑采用流水线式单发出场，每 30 秒放行一台。行进过程中机器人全程靠右，左侧留给超越与避障的专用通道，跟随车必须与机器人保持至少 20 米的安全距离。

机器人风驰电掣地跑，前面出发的机器人的瞬时速度几乎都保持在 6m/s 到 8m/s。开跑没多久，后面出发的机器人就完成了对前面队伍的反超，仔细看，一些机器人背后都绑了降温用的冰袋。

然后是今天的第一个名场面，一台机器人跑着跑着突然刹停，看起来想上车了。也有一台机器人跑偏了赛道，直接贴上路边围栏，完成了堪称影帝级的碰瓷表演。

机器人在奔跑途中对前方障碍物相当敏感，稍有不对就会急刹摔倒。所以组委会要求机器人间隔出发，本身就是为了避免这种连环追尾。

机器人不吃能量胶，但赛道中途设有能量补给站，用来换电和应急处置。有的机器人在补给的过程掉装备了，完全没察觉。

速度不够，造型来凑。再加上被风一吹就飘起来的发丝，人形机器人今天的 OOTD 有了。

由于赛道环境相较去年更复杂。赛程全长 21.0975 公里，首次引入南海子公园生态路段，赛道融合平地、坡道、弯道、狭窄路段等 10 余种地形，12 个左转道、10个右转道，包含接近 90° 的弯道，十分考验机器人的路径规划与动态平衡能力。

所以跑到中段摔倒，基本是家常便饭。

赛道上另一个名场面，真人跑者和机器人并肩竞速，结果机器人一个加速直接超过了人类选手。画面定格的那一刻，堪比一幅世界名画。

人类选手望向机器人的那一刻，他在想什么。

中后段起跑的人形机器人基本都是另一种画风，慢悠悠地晃着，像喝了假酒，主打一个健康完赛就好。最揪心的一幕出现在冲线前，一路保持节奏的机器人，眼看终点近在咫尺，突然扑通一下栽倒在地。

紧急抢救上线，担架小哥都已经冲进赛道了，在工程师的帮助下，它自己又颤颤巍巍地爬起来完成了撞线。于是，第一只冲线的机器人出现了。

由于是间隔出发，前面的机器人已经跑完，后面的队伍还没发车。中段出现了一台小鼻嘎机器人，手里还拿着奶瓶，主打一个萌系赛道。话说身高这么矮的机器人，到了终点真能够得到撞线的那根线吗。

天气越跑越热，补给站除了换电之外，顺带还承担了物理降温的任务。然后是顶流出场，来自大湾区的鸡型机器人也下场营业。

哟嚯，跑着跑着还有主动停下来饭撒的，姿势相当到位，怀疑是触发了对人类友善协议。

还有机器人跑到一半突然停止摆臂，单臂凌空，一副杨过独战天下的武侠范。

一台机器人冲过终点之后，可能是过于兴奋，一鼓作气冲进了旁边的绿化带，最后被救护人员抬了出来。也有选手在终点前来了一段百米冲刺的蛇形走位，经典场面之王不见王。

完赛之后也有温情时刻，辛苦了那么久，工程师和自家机器人美美合照。

对了，今天的完赛奖牌长这样。

金属机甲风的设计基调，通体锻造质感，线条硬朗，结构错落。更有巧思的是中间那块可展开结构，拉开之后整块奖牌直接化身一台立体的小人形机器人。

完赛奖杯则长这样。

本次比赛开始前，网友问得最多的问题是：为什么机器人一定要长得像人呢？

其实人形机器人之所以执着于双足直立，是因为人类社会的一切基础设施都是按「人」这个形态设计的。一台人形机器人如果真要走进工厂、走进家庭，适配物理世界的人形结构其实更合适。

道理虽然懂了，但看完今天的赛道，我有一个大胆的想法，为了让机器人跑得更快，为什么不直接给他换上两个轮子呢？

没错，就是下面这个

那如果再进一步，四个轮子加上流线型车身，速度绝对再上一个台阶。你看，它已经变成了一辆车。所以还是算了，两条腿的路，得自己走。

今天赛道上那些摔跤、碰瓷、一头冲进绿化带的钢铁身影，是人形机器人最笨拙的样子，也可能是它们最后一批还会出洋相的岁月。

至于人形机器人跑步等竞赛到底有没有意义，我们电影其实早就给出了答案：机器人会跑步，没用。机器人会功夫，或许也用处不大。但当一台会功夫的人形机器人以 8m/s 的速度跑过来找你切磋的时候，就很有用了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠

爱范儿

作者莫崇宇

2026年4月17日 01:31

今年 Anthropic 的势头异常凶猛。

不仅热度居高不下，口碑也持续攀升，稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来，都能看到他们准点推送的新产品或新功能。久而久之，大家也从兴奋变成了「是你，果然又是你」的默契感。

而就在刚刚，万众期待的 Claude Opus 4.7 也正式发布，依旧是熟悉的配方，熟悉的高分选手。

有趣的是，Anthropic 在公告里非常坦诚，甚至带着点骄傲：「这并非我们最强大的模型。」那个传说强得可怕的 Claude Mythos Preview 依然还在藏。

但就是这个并非最强的 Opus 4.7，却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点：靠谱。不是那种你说什么它就做什么的靠谱，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质

基准测试结果显示，在业界公认最硬核的 SWE-bench Pro 上，4.7 从前代的 53.4% 直接拉到 64.3%，单代升级涨了近 11 个百分点，把 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）都甩在了身后。

视觉推理的 CharXiv 基准从 69.1% 跳到 82.1%，对应的是它新获得的 2576 像素长边识别能力——清晰度是前代的 3 倍以上。

这不只是「看得更清楚」这么简单。更高的分辨率直接带动了输出质量的连锁提升：生成界面、制作幻灯片、排版文档，细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上，4.7 跑出 77.3%，超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中，4.7 在 BigLaw 基准上拿下 90.9%，正确区分了历来是前沿模型死穴的「转让条款」与「控制权变更条款」。

不过，4.7 也并非全然遥遥领先，在 Agentic search 评测 BrowseComp 上，4.7 反而从前代的 83.7% 下降到了 79.3%，被 GPT-5.4（89.3%）和 Gemini（85.9%）超越。

这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent，在以「是否给出答案」为评判标准的基准上，天然会吃亏。

而数据之外，更值得关注的问题是：这种「靠谱」，在真实工作里到底意味着什么？

过去一年，业界对代码大模型的期待，普遍还停留在「写个函数、找个 Bug」的层面，但 Claude 4.7 在早期测试里，展现出了一种截然不同的气质。

知名云端开发平台 Replit 的负责人这样描述：「它在技术讨论中会反驳我，帮我做出更好的决定。它真的感觉像一个更好的同事。」

它不再一味地「唯命是从」，也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里，4.7 遇到缺失数据时会直接报错，而不是像前代那样塞一个「看似合理但完全错误」的备选值。Hex 团队甚至直言：「低消耗状态下的 4.7，等同于中等消耗状态下的 4.6。」

这种「拒绝顺从」的特质，恰恰是高级软件工程里最稀缺的东西。

当然，凡事有两面。为旧模型写的 prompt，到了 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」掉的模糊指令，4.7 会一字一字地字面执行。这也意味着越懂得清楚表达需求的人，越能从 4.7 这里拿到好结果。

光会「顶嘴」还不够，遇到挫折就罢工的 AI 同样不是好同事。4.7 的另一个大的变化，是任务韧性。

以往大模型在多步任务中遇到工具调用失败，往往直接停机报错。Notion 团队测试发现，4.7 的工具错误率降到了原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续把任务跑完。

当 AI 停止谄媚，真正的生产力才开始爆发。

Anthropic 公布的一个极端案例里，4.7 在没有任何人类干预的情况下，从零构建了一个完整的 Rust 文本转语音引擎——写神经网络模型、SIMD 内核和浏览器演示，还自己把输出喂给语音识别器做验证，连测试都一并完成了。

前端框架巨头 Vercel 还发现了一个过去从未有过的行为：4.7 会在开始写系统级代码之前，先自己进行数学证明。这已经超出了写代码的范畴，进入了严谨工程设计的领域。

雇佣 AI「资深专家」的代价

为了验证它在细节上的处理能力，我设定了三个前端交互场景，评判标准只有一个：细节是否敷衍，一眼便知。

第一个场景，是让它做一个俯视视角的黑胶唱片机界面，其难点在于「金属光泽」与「呼吸光晕」的呈现。4.7 并没有用廉价的色彩渐变敷衍了事，而是通过复杂的 CSS 样式叠加，逼真地还原了金属质感。

第二个场景是只用 CSS，不用 JavaScript 做一个老式电风扇。面对这个限制严格的题目，一些模型会悄悄违规使用 JS，但 4.7 遵守了规则。它用纯 CSS 做出了风扇的立体结构，低中高三档过渡流畅，底座透视和阴影的处理也真有一点实物感，它在规则允许的范围内找到了很好的解决办法。

第三个场景是做一个复古磁带随身听，带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然，变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。

基础定价维持在每百万输入 5 美元、输出 25 美元不变。但 4.7 引入了全新分词器，同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。

叠加上它在高强度任务中本身就倾向于「多想一会儿」，实际消耗几乎必然上升。

此外，Anthropic 在原有的难度选项之上，加入了全新的 xhigh（超高）级别。在这个级别下，面对复杂难题，Claude 4.7 会消耗更多的 Token，花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。

Anthropic 用行动告诉所有人，对于真正的编码任务，省着用不如想清楚。

为了匹配这种工作流，Claude Code 顺势推出了两个杀手级功能：

/ultrareview（深度审查）：开启一个专门的审查会话，像一个极其挑剔的资深 Reviewer 一样，通读所有代码更改，精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。

Auto Mode（自动模式）扩展到 Max 用户：一种介于「逐项授权」和「跳过所有权限」之间的新权限模式。Claude 会在你授权的范围内自主做决策，既能跑完漫长无聊的任务，又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆，API 端还推出了「任务预算」（Task Budgets）功能公测版，让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。

当然，4.7 并不是 Anthropic 手里最强的牌。

那个更强的 Claude Mythos Preview，本月刚以「Project Glasswing」的名义，小范围开放给了一批企业用于网络安全研究。Mythos 没有公开发布，原因则是因为它的网络攻防能力太强，Anthropic 觉得还没想清楚怎么安全地推给所有人。

4.7 本身也做了主动取舍，训练阶段就压低了网络攻防能力，内置自动拦截机制，碰到高风险请求直接挡掉。有合规需求的安全研究人员，可以通过官方渠道单独申请。

不急着把最强的牌打出去，和不停地往桌上加新牌，背后是同一套逻辑。实际上，Anthropic 真正的护城河，是交付节奏本身。

在今年 2 月 1 日至 3 月 24 日，短短 52 天里，Anthropic 一共更新了 74 款产品，平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点。

如今的 Claude 生态，早就超越了单纯的「聊天机器人」。对于那些渴望将 AI 深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。

今天发布的 Claude 4.7，是这条链条上最新的一块压舱石。而那个 Mythos Preview，迟早也会来。到那时候，我们现在觉得已经很能打的 4.7，可能只是个开端。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

苹果把Siri员工送进AI「补习班」，黄仁勋的暴论开始应验了

爱范儿

作者莫崇宇

2026年4月16日 16:47

想象一下，你是全球市值最高科技公司的资深软件工程师，薪水丰厚，履历光鲜。就在公司即将发布十年来最重要 AI 产品的关键时刻，HR 突然笑眯眯地递来一纸通知——

收拾收拾，去上补习班去吧。

据 The Information 爆料，距离今年 6 月的 WWDC 不到两个月，苹果却做出了一个耐人寻味的决定：庞大的 Siri 团队里，将近 200 名程序员被统一打包送往一个为期数周的「AI 编程训练营」，回炉重造。

在科技巨头的核心业务线里，临阵换将已属罕见，临阵「送去培训」更是头一回听说。这背后，藏着的不只是全新 Siri 难产的窘境，更是一场动了真格的大换血。

会用 AI 的留下，不会用的去补课

报道提到，除了把近 200 人送去训练营学习如何用 AI 写代码，曾经臃肿庞大的 Siri 核心开发团队，在重组后仅仅保留了约 60 名成员。另外还有 60 人被单独拎出来，组成了一个评估小组。

他们需要做的就是专门负责给 Siri「挑刺」：测试它处理用户指令的性能，以及是否符合苹果极其苛刻的安全标准。

这样的架构调整，放在发布前的最后冲刺阶段，难免让人生出一个疑问。为什么要在距离 WWDC 只有两个月的生死关头，把前线打仗的士兵送回新兵营？

答案或许是因为过去一年里，Anthropic 的 Claude Code、OpenAI 的 Codex 等 AI 编程助手，已经彻底改写了软件工程行业的底层逻辑。这些工程师曾经引以为傲的经验，正在以肉眼可见的速度过时。

经验丰富的开发者在 AI 的加持下，代码产出量呈现出指数级的爆发。

苹果内部其他部门早已感受到这股风向。软件工程团队迅速拥抱了 AI 工具，甚至专门为 Claude Code 申请了巨额预算。而 Siri 团队，显然慢了一拍。

AI 带来的压迫感，正在整个硅谷蔓延。

Meta CTO Bosworth 公开说，他最好的工程师花在 AI token 上的成本相当于自己的薪资，但生产力提升了 5 到 10 倍。英伟达 CEO 黄仁勋则给出了更具体的暴论：如果一个年薪 50 万美元的工程师，没有用掉价值至少 25 万美元的 token，他会「深感担忧」。

为此，Meta 内部甚至诞生了一个叫「Claudeonomics」的仪表盘，追踪全公司 85000 多名员工的 AI 使用量，并给消耗最多的前 250 人颁发称号——「Token Legend」、「Cache Wizard」。

30 天内，Meta 全员 token 总消耗量超过了 60 万亿。

没有对比就没有伤害。同行把 AI 使用量化成 KPI 来排名竞争的做法固然值得商榷，但慢人一步的代价也是有目共睹的。学会用 AI 写代码，跟上现代软件开发的节奏，是眼下唯一的选项。

AI Siri 的新故事

如果你是苹果的全家桶用户，大概率在过去几年里对 Siri 破口大骂过。事实上，苹果曾计划在 2025 年初发布新款 Siri，但随后却遭遇了内部极其尴尬的延期。

为了彻底解决这个问题，苹果在过去一年里进行了一系列堪称剧烈的权力重组。

最关键的一步，是将 Siri 团队从前 AI 业务负责人 John Giannandrea 的手中剥离出来，直接交给了雷厉风行的软件工程高级副总裁 Craig Federighi。

不仅如此，苹果还派出了打造 Vision Pro 的核心人物 Mike Rockwell，在 Federighi 麾下直接挂帅，监督 Siri 的产品开发。去年 12 月就已宣布退休的 Giannandrea，本周也将正式结束了他在苹果的顾问任期。

旧神退场，新王登基。苹果终于下定决心，用做顶级软件和顶级硬件的铁腕标准，去重新打造 AI 时代的 Siri。

然而，哪怕是苹果，也无法在短时间内凭空造出一个能与 ChatGPT、Claude、Gemini 匹敌的大模型。眼看 2025 年的发布计划已经延误，为了赶在今年 6 月的 WWDC 上拿出足够震撼的改版，苹果也只能向竞争对手 Google 寻求合作。

据爆料，全新 Siri 将由 Google 的 AI 模型 Gemini 提供核心动力支持。接入 Gemini 后，全新 Siri 将不再是一个只能定闹钟、查天气的指令执行器，而将变成一个真正具备强对话能力的智能助手。

此外，据透露，新版 Siri 不仅能够直接回答复杂的逻辑问题，甚至被设计成能够为用户提供「情感支持」，并且可以直接帮你完成诸如「预订一趟完整旅行」这样跨应用、多步骤的复杂任务。

当然，合作并不意味着苹果放弃了底线。目前双方仍在进行艰难谈判，核心争议点在于：苹果希望由 Google 提供服务器来托管新版 Siri 的运行，但又必须确保这一切符合苹果严苛的隐私和数据安全标准。

当我们跳出苹果的种种传闻，重新审视「Siri 程序员被送回编程学校」这个带着点黑色幽默的事件，一股真实的寒意不禁涌上心头。

连全球顶尖科技公司里拿着百万年薪的程序员，都会因为不掌握 AI 辅助编程而被团队边缘化、被要求回炉重造。那么，普通的脑力劳动者呢？

AI 并没有直接取代程序员，但掌握 AI 的程序员正在无情地取代不掌握 AI 的程序员。

Claude Code 和 Codex 这样的工具，正在将代码编写这门曾经充满「工匠精神」的手艺，变成一种可以被大规模流水线化的工业标准。

值得注意的是，这套逻辑并非无懈可击。Meta 那张员工自行创建的「Claudeonomics」榜单里，就已经出现了部分员工让 AI agent 连续跑数小时任务、专门为了堆高 token 数字的现象。

token 是工具使用的痕迹，生产力是工具使用的结果，两者并不总是等号。但即便如此，在整个行业都在用 AI 放大产出的当下，选择不用，就是在主动缩小自己的价值。

Siri 团队的遭遇是一个极其生动的隐喻，过去积累的资历、大厂的光环、甚至是你曾经引以为傲的代码能力，都可能在一夜之间变成无效资产。

6 月的 WWDC，我们或许能见证一个全新 Siri 的浴火重生。但在那场发布会背后，却是几百个在训练营里疯狂补课的工程师，以及一个正在被 AI 重新称斤论两的职场新秩序。

不过换个角度想想，Siri 团队其实算得上幸运。

毕竟，在当下这个用 AI 降本增效的时代，发现员工跟不上节奏后，没有直接裁员换血，而是还愿意花钱、花时间把你送去「补课」回炉重造的，放眼望去，可能也就只有苹果这样的公司了。

作者：莫崇宇

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

快倒闭的硅谷神鞋，转行 AI 股价暴涨 7 倍，龙虾之父都懵了

爱范儿

作者莫崇宇

2026年4月16日 10:57

如果你是一家连年亏损、销售额腰斩、连线下门店都要全部关停的卖鞋公司，你要怎么做才能让公司股价在一天之内原地起飞，暴涨 700%？

答案是：停止卖鞋，然后大声喊出那五个拥有起死回生魔力的字母：AI+GPU。

现实充满了黑色幽默小说里的桥段，曾经被誉为「硅谷足力健」、深受科技大佬喜爱的环保跑鞋品牌 Allbirds，在经历了灾难性的业绩滑坡后，做出了一项违背常理的决定：

他们不仅以 3900 万美元的跳楼价贱卖了自己的品牌和核心资产，还要拿着新融来的 5000 万美元，转身变成一家名为「NewBird AI」的算力公司。

按照官方的宏大叙事，他们要成为「一家完全集成的 GPU 即服务（GPUaaS）和 AI 原生云解决方案提供商」。

消息一出，沉寂已久的 Allbirds 股票就像是被注入了某种兴奋剂，开盘即暴涨，盘中一度飙升 721%，公司市值约为 1.845 亿美元，而就在前一天收盘时，它的总市值还不过区区 2100 万美元，每股股价徘徊在 3 美元以下。

在 AI 浪潮席卷全球的今天，我们见过太多跟风炒作的故事，但 Allbirds 依然让人觉得荒谬不已。当一家连鞋底都做不好的公司，开始教人怎么训练大模型时，这场 AI 狂欢，或许已经来到了最危险的边缘。

硅谷曾经最酷的鞋，是如何跌落神坛的

要理解这场闹剧的荒诞程度，我们得先短暂回顾一下 Allbirds 曾经的辉煌。

十年前，Allbirds 凭借一款名为 Wool Runner 的羊毛跑鞋横空出世。在那个极简主义和环保叙事大行其道的年代，它精准地踩中了硅谷精英们的审美痛点。

没有显眼的 Logo，号称「世界上最舒服的鞋」，采用美利奴羊毛和甘蔗提取物制造——穿上它，你仿佛就拥有了和史蒂夫·乔布斯一样特立独行的灵魂。

从拉里·佩奇到莱昂纳多·迪卡普里奥，名人们的免费带货让 Allbirds 迅速破圈。2021 年，它顶着「环保科技公司」的光环成功 IPO，市值一度逼近 40 亿美元。

但潮水退去，裸泳者终将现身。

当消费者的新鲜感褪去，Allbirds 暴露出了致命的短板：产品单一、耐用性差、款式缺乏创新。人们很快发现，这双号称科技感满满的鞋，穿久了不仅容易变形，还会在大脚趾处磨出一个尴尬的洞。

2022 年至 2025 年间，Allbirds 的销售额断崖式下跌了近 50%，从 2.98 亿美元萎缩至 1.52 亿美元，其始终未能实现盈利，股价也从巅峰期的近 30 美元一路跌入几美分的「仙股」深渊。

今年 2 月，Allbirds 关闭了全部美国全价门店，彻底放弃了线下阵地。

走投无路之下，Allbirds 于 3 月 30 日宣布，将以区区 3900 万美元的价格，把公司名称、知识产权和剩余的鞋履业务资产，打包卖给品牌管理公司 American Exchange Group。后者旗下还管理着 Aerosoles 和 Ed Hardy 等品牌。

一个估值曾高达 40 亿美元的独角兽，最终落得个被「论斤贱卖」的下场。

至此，「Allbirds」这个名字已经属于别人了。继续卖鞋的事，交给 American Exchange Group 去操心。而那个被掏空了一切实体业务、只剩下纳斯达克上市资格的空壳，则握在管理层手里，等待一次新的机会。

脱去了鞋履业务的沉重外壳后，管理层惊奇地发现，自己手里居然还捏着一个在如今市场上最值钱的东西——一个干净的、合法的、可以直接用来炒作的上市公司壳资源。

卖完鞋，他们决定去抢 GPU 租赁的生意

在甩卖资产后不到三周，Allbirds 的现任 CEO 乔·维纳乔（Joe Vernachio）抛出了一个惊天计划：他们从一位神秘的匿名投资者那里筹集了 5000 万美元，准备将这个空壳公司改名为 NewBird AI。

在官方的新闻稿中，他们使用了最高规格的互联网黑话来包装这个计划：

「NewBird AI 将利用初始资金收购高性能 GPU 资产……满足客户对专用 AI 计算能力的需求。」

「全球企业对 AI 算力的需求空前高涨，而北美数据中心的空置率已降至历史新低，高端硬件的采购周期不断延长。」

「我们将采购高性能、低延迟的 AI 计算硬件，通过长期租赁协议，填补超大规模云厂商无法覆盖的市场空白。」

更耐人寻味的，是他们向股东提交的章程修正案。

由于拟议中的 AI 算力业务「较少关注环境保护这一公共利益」，管理层正式请求股东批准删除公司章程中一切关于「为环境保护公共利益而运营」的相关表述。那个当年靠着绿色环保故事打动投资者的 Allbirds，连最后一块遮羞布也要摘掉了。这一切将提交至 5 月 18 日的股东大会进行表决，届时原有股东还将获得一笔特别股息作为补偿。

乍一看，Allbirds 转型的逻辑似乎很通顺。毕竟现在全宇宙最稀缺的资源就是算力，OpenAI 和 Anthropic 们为了争夺 GPU 恨不得打破头。但稍加思索，你就会发现其中的巨大割裂感。

这可是算力租赁市场啊！这是一个由亚马逊 AWS、微软 Azure 和 Google Cloud 统治的万亿美元级战场。即使是那些专门做 GPU 租赁的垂直新贵（如 CoreWeave），其融资金额也是动辄几十上百亿美元起步。

NewBird AI 手里只有可怜的 5000 万美元。在当前的市价下，这点钱甚至不够买半个机房的高端 GPU 集群，更别提后续高昂的电力成本、冷却设施和网络带宽维护费了。

更关键的是，一家做羊毛鞋起家的公司，到底有什么底气和技术储备去管理极其复杂的 AI 数据中心？他们能解决 GPU 集群的低延迟互联问题吗？他们懂得如何优化大模型训练的并行计算吗？

答案显然是，他们什么都不懂，他们也不需要懂。

对于这场令人啼笑皆非的「转型」，沃顿商学院教授 Gad Allon 的评价可谓是一针见血：「把这称为『转型』（Pivot），简直是太抬举 Allbirds 了。」

在商业逻辑中，转型意味着公司将现有的某些能力，比如技术、人才还是渠道都得重新部署到一个新的市场中。比如 Netflix 从租 DVD 转型做流媒体，因为他们掌握了用户的观影偏好。

「但 Allbirds 在 AI 领域没有任何能力。」Gad Allon 毫不留情地扯下了这块遮羞布，「他们唯一拥有的，就是一个公开上市的资格。在目前的市场环境下，这居然成了唯一重要的资产。」

这并不是孤例。在科技圈的历史上，每当一个超级风口出现时，总会伴随着群魔乱舞的「僵尸品牌借尸还魂」现象。

比如数字媒体公司 BuzzFeed 宣布计划采用 ChatGPT 协助内容创作后，股价在两天内暴涨 307%，而且市场的亢奋维持了没多久，等到分析师们开始追问商业模式的细节，股价便从高点迅速抹去 40%。

根据 The Verge 报道，就在最近，同样由 Chardan Capital（也是本次 Allbirds 交易的配售代理）操盘的另一笔交易中，制造 Evie 智能戒指的健康科技公司 Movano，突然宣布与一家名为 Corvex 的 AI 云计算公司合并。

在他们最新的合并公告中，曾经引以为傲的「健康监测」和「智能戒指」字眼被抹得一干二净，取而代之的全是 AI 概念。因此，与其说 Allbirds 是为了解决什么「算力短缺」的行业痛点，更不如说这是一场利用上市公司的壳资源，精准收割市场情绪的资本游戏。

尽管逻辑上漏洞百出，但在 NewBird AI 宣布成立的那一天，市场依然一度用暴涨 700% 的真金白银为它投下了赞成票。

为什么？因为在这个被 AI 叙事高度绑架的时代，散户和投机者们正陷入一种极度的焦虑中。

他们害怕错过下一个英伟达，害怕在这个人类历史上最大的财富列车上找不到座位。于是，只要一个股票代码旁边沾上了「AI」、「GPU」或者「大模型」的边，无论它的基本面烂到什么程度，都会有人愿意为了那万分之一的暴富可能而买单。

过去，创业公司生产产品；现在，购买 GPU 才是最好的估值叙事。

对于 Allbirds 来说，卖掉那个千疮百孔的鞋履品牌，换取一个在 AI 赌场里继续摇骰子的机会，或许是管理层能做出的最「理性」的续命决策。

只是，当踏踏实实做好一双能让人穿得舒服的鞋，其价值竟然远远比不上画几张虚无缥缈的 GPU 租赁蓝图。潮水终有再次退去的一天，到那时，不知道这家叫做 NewBird 的「算力巨头」，下次又会寻找怎样的风口。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

爱范儿

作者莫崇宇

2026年4月15日 13:51

拍一圈照片，就能生成一个可交互的 3D 世界，已经不是什么新鲜话题了。但问题是如何把一个大世界塞进普通人的手机浏览器里。

就在刚刚，李飞飞旗下 AI 世界模型公司 World Labs 发布并开源了一个最新成果：Spark 2.0。

这个专为网页端设计的动态 3D 高斯点云（3DGS）渲染引擎，让在任何设备的浏览器里流畅运行上亿粒子的超大 3D 场景，开始逐渐成为现实。

为什么把亿级粒子的 3D 世界塞进手机这么难？

你可能听说过「3D Gaussian Splatting」，简称 3DGS。用一句话解释，它是一种把真实场景变成 3D 可交互内容的技术，不用建模，拍一圈照片就能生成。

和传统 3D 建模用三角形面片不同，3DGS 用的是数百万个半透明的彩色椭球体，每一个叫做一个「splat」（泼溅体/斑点）。

▲左侧使用纹理映射三角网格，右侧使用高斯斑点，对同一对象进行渲染。

每一个 splat 并不是一个简单的点，而是一个有完整「人格」的椭球体。它记录着自己在空间中的位置、三条轴的半径长短、朝向角度、RGB 颜色值，以及透明度。

最关键的是透明度这个属性。它决定了这个 splat 在叠加时对周围的影响权重。如果把单个 splat 的空间密度画出来，你会得到一条高斯曲线：中心最实，向外逐渐虚化，边缘自然消融进背景里。

正是这种「软边界」的叠加方式，让数百万个 splat 堆在一起之后，能呈现出砖墙的颗粒感、树叶的透光感、玻璃的反射，而不是一堆硬边三角形拼出来的塑料质感。

效果好，信息量也大。一个高质量的 3DGS 扫描场景，动辄几千万个 splat，文件体积轻松突破 1 GB。

这就带来了一个棘手的问题：普通手机能流畅渲染的上限大概是 100 万到 500 万个 splat，比动辄 4000 万的高质量扫描差了整整一个数量级。

现有渲染器也没法把多个扫描对象放在同一个场景里正确渲染，要么只能单独渲染一个，要么排序乱掉、对象「贴在」彼此表面上，看起来一团糟。

于是乎，Spark 应运而生。根据官方博客介绍，Spark 最开始是 World Labs 自己用的内部工具。World Labs 需要在网页上展示 3DGS 生成的世界，但市面上的渲染器都有硬伤，有的只能渲染单个对象，有的依赖 WebGPU（很多设备还不支持），有的不支持动态动画。

几番对比下来，他们决定干脆自己造一个。

他们选择的技术底座是 THREE.js，Web 上最流行的 3D 框架，运行在 WebGL2 之上，几乎覆盖所有现代设备。核心渲染逻辑分三步走，先在 GPU 上生成跨对象的全局 splat 列表，再统一按从远到近排序，最后一次性渲染完毕。

「全局排序」听起来平平无奇，实则是让多个 3DGS 对象共存于同一场景、不互相穿模的关键所在。Spark 还在此基础上开放了一套 GPU 处理流水线，用户可以对每个 splat 做重新上色、透明度调整、动态动画等自定义操作，用 GLSL 编写，或者像 Blender 那样连节点图来实现。

1.0 版本解决了多对象渲染的问题，但 4000 万 splat 的场景依然是一道跨不过去的坎。这才有了 Spark 2.0。

让设备永远只渲染「够用」的信息量

Spark 2.0 的核心是三项技术的组合，LoD 细节层级、渐进式流式加载和虚拟内存管理。单独拿出来看，每一项都有先例可循，但三者合力，才撑起了在手机浏览器里流畅渲染亿级 splat 世界的能力。

1. 连续 LoD 树：把好钢用在刀刃上

LoD（Level of Detail）在游戏圈早已是成熟概念。近处的树用几千个三角形，远处的树只留几十个，按需分配，省算力。Unreal Engine 的 Nanite 系统也是这个思路，把三角形细节和视距挂钩，自动缩放。

Spark 2.0 把同样的逻辑搬到了 splat 上，做得更彻底。

离散切换几个版本容易产生画面「跳变」，Spark 的做法是构建一棵完整的「连续 LoD 树」，每个内部节点都是其子节点 splat 融合后的近似版本，层层向上汇聚，最终到达根节点，也就是整个场景最粗粒度的单一 splat。

渲染时，系统根据当前视角在这棵树上动态划一刀，靠近视角的区域取底层细节，远处取高层粗粒度。

整个过程受一个固定的 splat 预算约束，移动端约 50 万，桌面端约 250 万。场景里总共有多少 splat 都无所谓，实际送上 GPU 的数量始终稳定在预算范围内，帧率自然稳了。

在此之上，Spark 还引入了「注视点渲染」（Foveated Rendering），把更多预算集中分配给你正在看的方向，边缘和背后的区域细节自动收窄。这个效果放在 VR 设备上尤其直观，通常需要眼动追踪才能实现，Spark 用固定锥形区域近似模拟，同样奏效。

2. 全新 .RAD 格式：像刷短视频一样「流式」加载

渲染效率的问题解决了，传输效率的问题同样棘手。现有的 3DGS 文件格式有两个：.PLY 和 .SPZ。前者未压缩，10M splat 高达 2.3 GB，虽然可以边下边显示，但体积实在吃不消。

后者用列式存储加 Gzip 压缩，同等数据量压缩到 200-250 MB，代价是必须等整个文件下载完才能显示，因为每个 splat 的属性分散在文件各处，缺了哪一段都拼不出完整内容。

为了鱼和熊掌兼得，Spark 2.0 设计了新格式 .RAD（RADiance fields）。它把 splat 数据切成每块 64K 个 splat 的独立小块，分别压缩，并在文件头中记录所有块的字节偏移位置，支持随机访问任意一块。

第一块永远是整个场景最粗粒度的 64K 个 splat，下载完毕后场景轮廓立刻可见。此后系统根据视角判断哪些区域最需要细化，优先拉取对应的数据块，画面从模糊逐渐推演出细节。3 个并行的 Web Worker 线程在后台同步拉取和解码，你走到哪，细节就跟到哪。

3. GPU 虚拟内存：在有限显存里装下无限空间

流式加载解决了带宽的问题，但 GPU 内存的硬上限依旧是个难啃的骨头。移动端浏览器对显存有严格约束，塞不下整个 4000 万 splat 的场景。

Spark 2.0 借鉴了操作系统的虚拟内存机制来应对这个问题。

系统会在 GPU 上分配一个固定内存池，上限 1600 万个 splat，用一张页表记录哪些 .RAD 数据块当前驻留在 GPU 上。需要渲染某个区

域时调入对应的块，内存满了就按最久未使用的顺序换出旧块。

得益于这一机制，不同来源的 3DGS 场景可以共享同一个内存池。理论上，只要网速跟得上，无数个独立的扫描场景可以无缝拼接成一个无限大的世界。

一行链接，交付世界

Spark 2.0 发布之后，李飞飞也第一时间公开表态，「Spark 2.0 现在可以在任何设备上流畅播放超过 1 亿个 splat 对象，非常荣幸能为基于 Web 的 3DGS 渲染开源生态系统做出贡献。」

她没有着重强调「做到了什么」，而是把重点放在「为开源社区贡献了什么」。这个表述耐人寻味。3DGS 渲染是一个仍在快速演进的领域，单靠一家公司推不动整个生态，开源才是加速这件事的正确姿势。

从已有的落地案例来看，开发者确实在用 Spark 做各种方向的尝试。Webby 奖得主 James C. Kane 独立开发了一款名为 Starspeed 的多人宇宙飞船射击游戏。

整个游戏场景由超过 1 亿个 splat 构建，附带 10 首合成波风格原声音乐，全部通过浏览器以 .RAD 格式流式加载，惊艳的科幻环境可以直接在网页里跑起来。

▲附体验地址：https://starspeed.game/

艺术方向则有 Hugues Bruyère 的《Dormant Memories》。他是互动体验工作室 Dpt. 的联合创始人，这个系列把真实地点的 3D 扫描和想象中的空间并置在一起，做成可探索的交互环境。现实与虚构之间的边界在 splat 颗粒感里变得模糊，倒是意外地切题。

▲ 附体验地址：https://smallfly.com/dormant_memories/

来自 Hololive 空间信息技术部门的藤原龍则用 Spark 渲染了多个大型真实捕获场景，单场景最高达到 4000 万 splat，在智能手机、Quest 和 Vision Pro 上均能流畅运行。

▲附体验地址：https://works.lilea.net/spark/

这些来自开发者的多元化尝试，充分证明了 Spark 2.0 在不同设备和应用场景下的强悍实力。但这仅仅是故事的一半。

对于一家致力于打造「AI 世界模型」的公司而言，李飞飞团队的野心绝不止于提供一个开源的渲染工具。如果说 Spark 2.0 解决了「如何流畅观看」的最后一步交付难题，那么如何低门槛地创造这些 3D 内容，才是他们真正的杀手锏。

Spark 和 World Labs 的创作平台 Marble 深度绑定，用一行文字或一张图片在 Marble 里生成 3D 世界，用 Marble Studio 把多个世界拼合成更大的场景，再用 Spark 渲染成可分享的网页体验，这条链路目前已经跑通。

技术进步往往以「强无止境」为最高原则，但有时「够用」或许才是最合适。Spark 2.0 讲的正是这么一个故事。

而让设备在任何时候只渲染「刚好够用」的 splat，这个想法本身并不新鲜，但把它落地到网页端的渲染上，还要同时兼容手机浏览器和 Quest，每一步都是实打实的工程问题。

当 AI 能生成无限大的 3D 世界时，我们用什么载体把它交付给每一个普通人？现在，World Labs 给出的最新答案是一个网页链接。

附上博客地址：

https://www.worldlabs.ai/blog/spark-2.0

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

马斯克版微信最大的看点，和微信无关

爱范儿

作者莫崇宇

2026年4月14日 16:01

距离马斯克的「超级应用梦」落地，只剩最后三天。4 月 17 日，XChat 预计正式登陆苹果 App Store，全球同步开放下载。

这绝对不是一次普通的 App 上架。在马斯克那张疯狂且庞大的商业战略棋盘上，XChat 是他豪掷 440 亿美元买下 Twitter、将其暴力更名为 X 之后，又一枚核心、也最不容有失的落子。

他对这一天的期待，可以追溯到 2022 年。

收购 Twitter 之后，马斯克几乎在每个公开场合都会提到微信。他说：「在中国，你基本上是生活在微信里的，因为它对日常生活如此有用。如果我们能在 X 上实现这一点，哪怕只是接近，那都将是巨大的成功。」

马斯克痴迷的不是微信的聊天界面，是它作为数字生活操作系统的地位，支付、通讯、打车、外卖、水电费，全在一个 App 里。如果说收购 Twitter 是拿到了超级应用这场赌局的入场券，那么 XChat，就是他在牌桌上打出的第一张明牌。

顶着马斯克版微信的噱头，XChat 却活成了 Telegram 的模样？

从功能上看，XChat 主打的是隐私优先的独立聊天应用。

注册不需要手机号，直接用 X 账号登录，消息支持阅后即焚、撤回和编辑，群聊最多可容纳 481 人，文件传输上限高达 4GB，跨设备音视频通话全部内置，下载需要 iOS 26.0 或以上版本。

应用层面禁止截图和录屏，试图从源头堵住内容泄露的漏洞，这可能是一些科技圈老板最喜欢的功能，Grok AI 被直接嵌入聊天界面，可以在对话里随时调用，用于总结内容、实时翻译或规划行程。

XChat 的整体定位走的是干净、私密、少打扰的路线，界面剥离了 X 主应用里的信息流、广告和热搜，专门为私密对话留出空间。首发支持 46 种语言，包括简体中文和繁体中文。

带着马斯克极其鲜明的个人烙印，XChat 不仅在定位上大刀阔斧，其项目推进速度更是快得惊人，甚至透出几分激进与狂热。

去年 6 月，马斯克才在 X 上公开预告；到了 12 月，X 员工 Nikita Bier 就已经开始公开为其站台，惊叹团队「在短短三个月内完成加密私信迁移」，并顺脚踩了一下同行：「Facebook 花了三年时间才做到这一点。」

今年 3 月，iOS 版 TestFlight 测试名额开放，先是 1000 人，很快扩到 5000 人，名额在公告发出后短短两小时内被抢光但伴随高关注度而来的，是极其两极分化的口碑。

3 月就拿到 TestFlight 资格的用户 @Nicole_yang88 写道：「整体流畅度非常高，几乎没有卡顿感。界面走的是极简路线，层级清晰、配色克制，观感上确实有点接近 iMessage 的那种干净风格。」她还特别提到，与 X 主应用一键授权登录、账号数据无缝衔接，「完全没有切换应用的割裂感」。

但也有人完全不买账。

测试用户 @ohxiyu 发文：「打开一看，跟 X 私信像素级一样，那为什么要独立出来？私信、请求、骚扰全混在一起，跟现在的 DM 没区别。想找某个人聊天？没有联系人列表，只能翻聊天记录搜。」

更让人摸不着头脑的是私密模式的设计，对方开了阅后即焚，你这边完全没有提示，内容过一会儿就消失了。他说：「Telegram 好歹还弹个通知告诉你。连个菜单都没有。感觉就是把 DM 页面套了个壳扔出来了。」

甚至 XChat 还没正式开放下载，麻烦已经来了。

4 月 11 日预约开放当天，就有用户发出警告：App Store 里同期出现了一款俄语版 XChat，图标和名字与真品高度相似，下载后会要求用户提供信用卡信息和 ID 证明年龄。

▲ 右边才是正版，安全下载，目前唯一可信的路径是通过苹果海外版 App Store 官方搜索，认准开发商为 X Corp。 https://apps.apple.com/us/app/xchat/id6760873038

博主 @Imlaomao 亲身中招：「不小心输入信用卡信息后，觉得不对，立刻把信用卡都注销了。」他虽然表示没有直接证据证明该 App 一定存在问题，但建议大家「安全第一，小心为好」。

一款把安全隐私刻在脑门上的应用，在发布首日就得靠用户自己去甄别李逵和李鬼。这个充满戏剧性的开局，很难说不是对 XChat 未来命运的一个隐喻。

所谓「比特币级加密」，只是文字游戏？

在 XChat 的所有宣传话术里，「比特币式加密（Bitcoin-style encryption）」无疑是最抓眼球的字眼。深谙流量密码的马斯克，用这个偏极客词汇，成功让无数人脑补出了一幅赛博朋克式的画面：聊天记录上链、去中心化存储。

理想很丰满，现实很骨感。

根据英伟达安全开发人员 Matthew Garrett 对 XChat 早期版本的技术分析，XChat 的消息加密层采用了 libsodium 的 box 加密方案。这套方案本身经过广泛审计，算得上扎实。但有一点马斯克没有说清楚：libsodium 的核心是 C 语言写的，X 调用的正是 C 语言版本，并非他对外宣称的「全新 Rust 架构」。

密钥管理方面，XChat 采用了开源协议 Juicebox——这套协议有独立白皮书，并非 X 自研。它的设计思路是：将你的私钥加密后分片，存储在 X 公司控制的多台服务器上。换新设备时，你输入一个 4 位数 PIN 码，系统从服务器检索分片、重组密钥，聊天记录全部恢复。

▲ https://mjg59.dreamwidth.org/71646.html?403a723f\_page=0

问题在于，X 目前使用的三个后端域名均在 x.com 之下，推测均由 Twitter 直接控制。Juicebox 协议本身支持引入独立第三方后端以分散信任，但 Garrett 在分析时未发现 X 有这方面的实质部署。

更致命的一点在于，XChat 的协议缺乏「前向保密性（Forward Secrecy）」。这意味着，如果某一天你的静态密钥被攻破，无论是设备被盗、密钥被收缴，还是服务器端组装解密，你过去所有的聊天记录都会在瞬间全部可读。

Signal 的「Double Ratchet」算法可以确保即使一次通讯密钥泄露，历史记录依然安全。XChat 没有这个机制。

此外，通过查询苹果 App Store 官方披露的隐私标签，网友发现 XChat 保留了收集并与用户身份关联的数据权利，涵盖联系人信息、通讯内容、使用数据、诊断数据以及用户 ID。与此对照的是，Signal 仅收集注册必需的极少量联系人信息，且从不与个体身份关联。

更深的问题在于元数据。XChat 可能加密了你发送的文字和图片本身，但 X 平台在后台完整记录的是：你在和谁聊、聊的频率、最活跃的时间段、传输文件的大小。

在当代数据经济里，元数据的商业价值往往高于内容本身。这些行为轨迹可以反哺 X 主站的广告引擎，也是训练 Grok AI 的绝佳语料。简言之，聊天内容加密、行为数据裸奔，成了 XChat 最大的隐私悖论。

醉翁之意不在酒，马斯克的超级应用野心

理解 XChat 的野心，得先理解马斯克真正想做什么。他如此大费周章，想要的绝对不是一个仅仅用来聊天的工具，而是一个让用户把日常生活都装进去的「超级应用」，既是你和朋友说话的地方，也是你转账、买东西的地方。

按照这个逻辑，XChat 只是第一步。它要和即将上线的 X Money 支付系统深度绑定，让用户在发消息的同时就能完成跨国汇款和日常转账，把「社交+支付」的商业闭环彻底打通。

不过，障碍在于监管。

美国没有统一的联邦金融汇款牌照，必须在五十个州逐一申请。截至 2026 年初，X Payments LLC 已拿下超 40 个州及华盛顿特区的许可，但北美金融的心脏纽约州，依然对马斯克紧闭大门。

▲ https://money-support.x.com/en/licenses

美国纽约州参议员 Brad Hoylman-Sigal 和众议员 Micah Lasher 曾联名向纽约金融服务局递交公开信，措辞严厉，要求拒绝向 X 发放牌照，理由是马斯克「行为严重缺乏品格与一般适合性」。

对于一个志在全美乃至全球的支付网络来说，丢掉纽约州，XChat 内的支付网络就无法覆盖全美最有消费力的人群，更何况，西方用户本就对「把所有鸡蛋放进一个篮子」这件事天然抵触，支付功能再打折扣，这个故事就更难讲下去了。

种种受挫的现实固然让人对「超级应用」的说辞产生怀疑，但只要看透他底层的逻辑，眼下的一切就变得合理起来。

抛开那些关于阅后即焚、加密隐私的极客噱头，目前关于 XChat 最具想象力的传闻，是它将如何与自家的 AI 大模型 Grok 融合。

虽然我们还没法实际上手验证，但如果顺着这个思路展开推演，你会发现，马斯克真正想颠覆的，根本不是聊天体验，而是人机交互的底层逻辑，也就是在 AI 时代做一个超级应用，那应该是什么样子？

微信的超级应用模式可以概括为「入口聚合」：一个 App 把出行、外卖、支付、社保、健康全部塞进来，用户在一个界面里跳转不同的服务。这个模式基本定义了过去十年中国互联网的产品范式。但它的底层逻辑始终是「你来找服务」。你知道你要打车，你点进滴滴的小程序；你知道你要付款，你打开微信支付。

只是，入口聚合，是 App 时代的超级应用答案。AI 调度，可能才是 AI 时代超级应用的版本答案。与其把一百个功能塞给用户，不如让一个 AI 替用户搞定一切。

当然，从目前的爆料信息来看，XChat 离这个愿景还差得远，没有丰富的服务生态做支撑，Grok 就算再聪明，也只能在聊天框里做做翻译和文字总结的苦力活。马斯克的答卷也许潦草、充满争议，但他已经开始交卷了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

Vidu Q3 闷声放大招，参考生之王回归，漫剧短剧影视广告的好日子来了

爱范儿

作者莫崇宇

2026年4月13日 12:16

1977 年，乔治·卢卡斯为了拍《星球大战》，专门成立了一家公司，叫工业光魔。

究其原因，当时根本没有任何现成的工具，能实现他脑子里的那些画面。这家公司后来成了好莱坞特效工业的基石。但它能做到的事，在相当长的时间里，只属于有能力养得起它的那些剧组。

镜头语言、音效层次、特效密度，它们共同决定了一部作品的「成片感」，但构建它们需要的资源，把绝大多数创作者挡在了门外。

直到生成式 AI 掀翻了牌桌，这道高墙才第一次真正出现裂缝。

门槛是降了，可 AI 却像个难以驯服的「抽卡盲盒」。极差的「一致性」，成了 AI 视频迈向可用阶段最要命的拦路虎。针对这个问题，由国内生数科技开发的视频生成大模型 Vidu 两年前在业界首创了参考生功能。

角色、场景、服化道，全部可以作为参考输入，AI 在你给定的视觉锚点上展开创作，整套素材库可以复用。最近，APPSO 注意到，Vidu Q3 参考生功能也正式上线。

值得一提的是，今年 1 月，Vidu Q3 发布后登顶了国际权威 AI 基准测试机构 Artificial Analysis 榜单，这份真刀真枪拼出来的榜单成绩，也让后续一系列能力升级有了更厚实的底气。

工业光魔用了几十年，才将「能拍出来」这件事的门槛大幅拉低。如今，Vidu Q3 的野心更大，要给剧组的每一个工种配一个 AI 副手，让每一个创作者，都站在同一条、也是更高的起跑线上。

AI 视频生成的尽头，是把重心还给「讲故事」

如果说 Vidu Q1 是在建立基础的叙事能力，Q2 是让角色开始懂一点「演戏」，那 Q3 的目标就只有一个：让生成的内容直接嵌入制作流程。

为了做到这一点，Q3 参考生在特效、音效、场景三个维度上做了系统性升级。六大特效（粒子、流体、动力学、运镜、转场、光影）、五大音效（环境、动态、氛围、拟音、情绪）、四大场景（漫剧、短剧、影视剧、广告）的创作，全部围绕着一个核心：

让 AI 视频生成真正为剧而生。

这套能力管不管用？我们可以掰开来看看，Vidu Q3 是怎么抠细节的。

漫剧：你只有零点几秒的时间留住观众

漫剧是对特效要求最直接的场景。

受众不在乎画面像不像真实，但对动作戏有没有爽感极为敏感。一刀劈下去没有冲击力，一拳打出去没有震感，观众会直接划走。这个判断发生在零点几秒之内，没有商量余地。

Vidu Q3 的粒子加动力学组合，正好命中这个痛点。

仙侠战场那段，女主角站于山巅，双手结印，暗金粒子从指缝溢出凝聚成旋转符阵，符阵骤然爆裂，神剑破空而来，刀鸣余震持续颤动，镜头随剑飞行轨迹快速跟拍，定格至女主与神剑并肩的全景，粒子余烬在空中缓缓飘散。

这段画面同时调度了粒子特效、运镜跟拍、动力学冲击和光影渲染。

能单独生成这些不算稀奇，关键是这些元素的节奏全部服从叙事逻辑。粒子凝聚的速度、符阵爆裂的时机、镜头跟拍的弧线，都在配合「召唤神剑」这个叙事动作的情绪节拍。

深空战场的机甲对决案例同理。

蓝色等离子重击胸腔，爆炸冲击波以同心圆向外扩散，碎片与金属残骸四射，机甲受损后发出电弧噼啪声与机械嘶鸣。视觉冲击力和音效层次同步爆发，每一层都在推进战斗叙事，而不是随机无脑的感官轰炸。

哪怕下面这个案例中没有大场面，没有冲突爆发，也能全靠氛围撑场子。笔尖声、钢琴旋律、窗外若有若无的风声，互不抢戏。

短剧：情绪是最难造假的东西

如果说漫剧靠特效密度，短剧靠的则是克制。短剧不需要大场面，但每一帧都得言之有物。

宫廷相遇戏里，两人相距不足一步却又各怀心事。镜头以两人为轴心做慢动作环绕，光影在落花与衣袂间流动。画面静，情绪满。这种氛围的成立，七成靠音效，三成靠画面。氛围音赋予场景呼吸感，运镜特效让情绪在视觉层面被放大，两者缺一不可。

雪夜离宫戏则是更明显的案例，镜头极缓推进那只握紧袍袖的手，女主背影越来越小，风雪越来越大，皇子始终立在原处，一步未动，全程没有台词。

即便叙事完全交给了镜头调度和环境音。雪声、风声、脚步声，这些细节构成了场景的「底色」，一旦消失，整场戏的情绪就塌了。由于 Vidu Q3 对氛围音这一层有专门建模，也让生成视频第一次有了真实的空间感。

影视剧：三秒定生死的「质感」从哪来

进入影视剧，质感成了三秒内决定观众去留的关键。而质感，是声音和画面同时对齐的结果。

飙车戏里，黑色改装跑车以极速切入弯道，轮胎与地面摩擦发出刺耳啸声，后视镜中出现追击车灯越来越近，主角踩死油门，发动机轰鸣音调骤然拉高，车身侧滑甩尾，水花在车身两侧炸开。

雨声、发动机声、心跳声，三轨音效交叠。

战场戏的音效设计更说明问题。

炮弹落点极近，冲击波将士兵掀倒在地，落地瞬间声音骤然压低，变成沉闷的耳鸣声，一切慢动作化。随后耳鸣逐渐消退，枪炮声、战友呼喊声与金属碰撞声重新涌入，从压制到爆发，层次感极强。

广告：记住，才是唯一的 KPI

对于商业广告的评判标准，看完之后能否留下记忆点几乎是唯一的标准。

运动员从黑暗中冲出，每一步落地激起地面破碎的动力学特效，混凝土以冲击点为圆心炸裂，碎片向外飞散，鞋底离地瞬间爆发橙色残影光轨。节拍鼓点与特效爆发点精确同步，每次落地等于一个鼓点。

再比如这个香水广告，在极致黑色场景，琥珀色液体超慢动作溢出，金雾粒子向四周飘散。大脑也因此自动补全了「奢侈品现场感」。

一个靠轰炸，一个靠克制，能同时走通这两条路，才是真正意义上的「覆盖宽度够用」。这也是 AI 生成内容过去最难拿捏的地方，因为「分寸感」这东西，你很难用参数来描述它，但你一眼就能看出来有没有。

当然，Vidu Q3 的能力覆盖远不止于此。选择这些主流场景进行验证，正是因为它们对「可交付成品」的要求天差地别，恰恰能印证 Q3 版本的能力宽度。

出片即交付，Vidu Q3 让「够用」变成了「好用」

回头看前面这四个场景。漫剧要爽感，短剧要情绪，影视剧要质感，广告要记忆点，能力走通，只是第一步。接下来的问题是：这套能力，怎么真正进入创作者的工作流？

Vidu Q3 参考生的能力，并没有被锁在单一的产品形态里。

模型层由 Vidu Q3 提供参考生能力与叙事生成的基础，并通过 MaaS（Vidu AI 开放平台，Vidu.API）和 SaaS（Vidu Agent、Vidu Claw）等方式向全球开发者、创作者和企业提供服务。

其中，MaaS 企业服务已做到行业第一，对比同类产品，在合作层面具备多项差异化优势：0 门槛接入、1/3 的行业价格、合理的切镜逻辑、更快的生成速度、提示词调优支持、灵活的工作流适配、配套培训服务，以及高峰期依然流畅的使用体验。

使用邀请码 APPSON3，登录 Vidu.cn 即可快速体验最新的 Q3 参考生功能，同时获赠 500 积分。

无论用哪个入口，调用的都是同一套视觉锚点逻辑和叙事生成能力。

一套素材库，在不同平台、不同工具里反复调用，角色设定不需要为每个环境单独重建一次。以前靠时间和人力堆出来的「风格一致性」，现在变成了一个可以被系统性管理的参数。

这套能力组合最终指向一个再清晰不过的结论：大模型的生产能力，终于真正嵌入了实际内容生产的每个环节。

放到具体场景里就更直观：做漫剧时，以往极难处理的连贯打斗镜头，现在可以轻松生成；做短剧时，角色的微表情不再僵硬如木偶，多了真实可感的情绪与人情味；

做影视后期的声音设计，AI 生成的音轨可以自然融入原有素材；而在广告制作中，画面节奏与音乐节拍的对齐，在模型生成阶段就已自动完成。创作者拿到的初稿，本身就是一份完成度极高的成品。

发现了吗？这些能力，在以前意味着需要特效师、剪辑师、声音设计师等多方频繁沟通、协同作业才能交付。而现在，它们成了 Vidu Q3 最基础的基准输出。

漫剧、短剧、影视剧、广告，这些领域都有着共同的痛点：内容需求巨大、人力成本极高、迭代周期漫长。以前，大家靠堆人力和时间来赶进度；现在，一套清晰的降本增效逻辑正在重新丈量这些行业。

这背后藏着一条关键逻辑。当模型的基准输出直接达到可用级别，协作链条上最耗时、最容易内耗的一环就自然瓦解了：所有人对齐同一个视觉意图，过去被沟通和试错消耗掉的时间，现在可以全部还给创作本身。

我们常说 AI 要落地，什么是真正的落地？不是在社交媒体上拿几十万个点赞，也不是跑分榜单上的第一名。真正的落地只有一个标准：出片即可用，不用反复抽卡，初稿就是成品。

可以说，工业级内容交付的边界，第一次这么真实地向普通创作者和中小团队敞开了。当 Vidu Q3 已经备好了最高规格的视听语言。那接下来的问题，就变得愈发纯粹了：

面对这台轰鸣的工业级引擎，你打算用它，讲一个怎样的故事？

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。