普通视图

发现新文章,点击刷新页面。
今天 — 2026年5月11日首页

中国拿下这届 AI 顶会半壁江山,清华一家单挑斯坦福加 MIT

作者 莫崇宇
2026年5月11日 16:45

全球 AI 顶会,快成中国卷王的专场了。

每年 AI 顶会放榜,各大机构都会暗戳戳地发喜报,比拼谁家被收录的论文多。但今年 ICLR(国际学习表征会议)放榜后,一位名叫 Dmytro Lopushanskyy 的研究员,干了一件极其硬核的事。

他没有去引用官方那些现成的统计表格,而是写了整整 250 条正则表达式,把 ICLR 2026 全部 5356 篇接收论文的 PDF 挨个下载下来。

接着,他硬是从每篇论文首页的缝隙里,把机构署名全给抠了出来,并利用这几百条代码规则进行清洗与归一化,自动给「麻省理工」和「MIT CSAIL」这种同一机构的不同写法做了合并。

为什么要用这种最原始的手工分类法?

因为这老哥发现,我们平时习惯引用的那些学术统计平台数据,都是按「人」来追踪的。举个例子,一个在清华苦熬四年读博的学生,发了篇极具含金量的论文,毕业后去斯坦福当了教授。你猜怎么着?系统一刷新,这篇在五道口诞生的论文,就自动变成了斯坦福的学术产出。

这种偏差,长期以来硬生生压低了中国机构的实际贡献,同时虚抬了美国的数字。而当 Dmytro 用 96% 的解析成功率,把去伪存真后的真实数据画成一张热力图后,我们才得以一观真实数据的全景图。

一张学术热力图,看懂中美 AI 的真实格局

别的不说,这组数据确实很有冲击力。

这张图上中国机构面积之大,超出了很多人的预期。其中中国大陆机构,贡献了 43.7% 的接收论文。美国呢?31.9%。

如果你把中国香港(7.7%)算进来,本届 ICLR 超过一半的论文署名机构,全都来自中国。 至于老牌的欧洲列强?整个欧洲大陆加起来才 5.3%,甚至比不过新加坡(5.5%)这一个国家的产出。

更有意思的是具体机构的排名。

今年,清华大学以 332 篇的产量登顶全球单一机构第一。 这是什么概念?斯坦福 177 篇,麻省理工 167 篇。清华一家的产出,几乎是美国排名前二的两大超级名校的总和。紧随其后的上交、北大、浙大,也全都稳坐全球第一梯队。

不止高校阵营,国内产业界的科研表现同样亮眼。

阿里、上海 AI 实验室、华为、字节、腾讯,这五家中国科技公司/研究机构加起来发了 582 篇论文。有些媒体以前老爱吐槽中国互联网公司只懂商业模式微创新,不懂底层研究。这次 ICLR 2026 的数据一出,算是打破了这个刻板印象。

说白了,中国 AI 早就不是靠一两个天才的灵光一现,而是变成了一套精密、庞大、高度体系化的研发引擎。

不过,在这些令人振奋的数据背后,我们也不能忽视客观存在的指标。

比如虽然我们在总数上超越,但在仅占接收总量 4% 的 Oral(口头报告,通常代表最具原创性和启发性的方向)论文里,美国机构依然占了约 40%,而我们是 30%。

我们在工程化扩展上占据了绝对的规模优势,而美国在定义新方向上依然保有相对领先。这也是中美 AI 之间相对真实的现状。

硅谷的科研 AGI,与中国实验室的极致务实

如果说热力图是一份宏观体检报告,那艾伦人工智能研究所(AI2)知名研究员 Nathan Lambert 今年 5 月来北京、杭州等地的 36 小时调研,就是一次深度的微观观察。

他在走访了智谱 AI、月之暗面、千问、美团、小米、零一万物等 AI 企业后,回国后写了篇关于中国 AI 实验室内部观察,并在硅谷引发了大量讨论。他看到了中国大模型能跟美国五五开的底层逻辑——极低的组织摩擦和极度务实的年轻人。

在 Lambert 看来,美国顶级实验室往往存在一个致命的弱点:Ego(自我)太强了。

训练大模型是一项极其复杂的系统工程,从数据清洗、分布式通信优化到强化学习对齐,每个环节都需要互相妥协。但在硅谷,那些明星研究员往往带有强烈的个人偏好。

据传 Meta 的 Llama 团队就曾因为路线之争经历过动荡,大佬们各自为政,都想把模型往自己主导的方向推进。反观中国实验室,Lambert 发现这里有一种异于寻常的务实。

研究员们不在乎谁的方法听起来更高级,大家的目标高度一致:只要能把模型的某个指标提上去,枯燥的脏活累活谁都愿意干。 这种务实让整个团队的摩擦力降到了最低。

Lambert 还归纳了这种文化倾向具体带来的优势:更愿意做不起眼的基础工作来提升最终模型;刚入行的人没有经历过以前几轮 AI 炒作周期,能更快适应最新技术路线;Ego 小,组织架构能相对平稳地扩大规模;以及大量善于在现有方案基础上攻坚的人才储备。

更让 Lambert 惊讶的是,在美国,顶级实验室的实习生往往只能接触边缘项目。但在中国,在读的硕士和博士生深度参与核心大模型的研发。Lambert 敏锐地指出了这种做法的核心优势:没有历史包袱。

大模型的技术路线迭代极快。资深科学家往往有「路径依赖」,觉得自己研究了十年的老方法才是真理。但中国的年轻学生不同,只要有数据证明新路线有效,他们立刻就能抛弃旧方案,快速切换赛道。

值得一提的是,Lambert 发现,中国 AI 圈内部的氛围远比外界想象的和谐。各家实验室之间,私下交流满是相互尊重,所有中国实验室都敬畏字节跳动和它广受欢迎的豆包模型,因为字节是中国唯一一家真正处在前沿位置、同时又保持闭源路线的实验室。与此同时,几乎所有实验室也都非常尊重 DeepSeek,认为它是在研究判断和执行品味上最出色的团队。

在这次调研中,还有一个细节特别值得关注。在硅谷,顶尖的 AI 研究员不仅是工程师,往往还扮演着半个「哲学家」的角色。他们喜欢在播客上高谈阔论,探讨「通用人工智能(AGI)会不会在 2030 年毁灭人类」,频繁讨论 AI 安全与伦理边界。

于是,Lambert 也试探性地问了中国同行对 AI 经济影响和长远社会风险的看法,但得到的反应不是长篇大论,而是普遍的困惑。关于毁灭人类这种宏大命题,暂且不在他们当下的工作边界之内。

这种对宏大叙事的免疫,反而成了一种竞争优势。它减少了团队在哲学层面的内耗,让所有的脑力都持续集中在工程落地和指标突破上。
在中国的实验室里,导师、博士生与企业工程师之间形成了一种极短的反馈回路。

这种模式消解了学术界与工业界之间的壁垒,正如 Nathan Lambert 所观察到的,这种低摩擦的组织形式,让中国 AI 展现出了类似基建狂魔般的推进速度——一旦方向明确,便能以排山倒海的智力密度迅速抹平技术差距。

当然,这套打法在特定窗口期内行之有效,但随着规模效应的红利逐步见顶,下一阶段的核心壁垒终将回归于「原始创新能力」的较量。

届时,高密度的人才协同网络和某个敢于打破既有框架的个体,在 AI 的下半场互为成全,缺一不可。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我买了这些畅销书,但作者不是人

作者 莫崇宇
2026年5月11日 10:15

你花钱买了一本书,却发现作者压根不存在。

这是知名医学家 Topol 教授曾经历的真实遭遇。市场上,一度有数十本打着他名号和肖像的烹饪书与健康指南正在大肆售卖,而他本人毫不知情。

Topol 愤怒地将其称为「彻头彻尾的欺诈」,但他在亚马逊的维权之路却仿佛打在棉花上,只换来客服冷冰冰的通用回复。

这仅仅是冰山一角。最近,知名风投 a16z 给出一组令人深思的数据:自从 ChatGPT 横空出世,亚马逊电子书的月发行量直接翻了两倍。

到了 2025 年末,每个月的新书发布量已经飙升到了夸张的 30 万本。说白了,你现在在电子商店里随便逛逛,映入眼帘的新书里,很大一部分都是 AI 生成的流水线产品。

2026 年的出版界是魔幻的,我们曾经熟悉的「白纸黑字即是权威」的信任体系,正在被无孔不入的 AI 一点点瓦解。

被 AI 书籍包围的电子书架

想象一下这个极具画面感的场景:夜深人静,你裹着毯子,捧起一本刚买的热门奇幻言情小说《 Darkhollow Academy: Year 2 》,准备让主角的极限拉扯帮你分泌点多巴胺。

结果翻到最刺激的章节,剧情突然急转直下,赫然出现了这么一行字:「我已经重写了这段文字,使其更符合 J. Bree 的风格,这种风格包含更多紧张感……」。

这不是什么先锋派的打破第四面墙,而是作者连 AI 的提示词都忘了删,就直接一键出版了。甚至如今你想当个「畅销书作家」,门槛已经低到超乎常人的想象。

你只需要花区区 29.97 欧元美元,订阅一个叫 Youbooks 的 AI 工具,它就能帮你融合 ChatGPT 、 Claude 、 Gemini 甚至 Llama 的能力,每月提供数十万字的生成额度。它能一键编造出看似逻辑严密的内容,自动从网上提取最新资料,甚至连排版都能顺手搞定,最后直接导出 PDF 或 EPUB 格式。

有了这种神器,投机分子们简直杀疯了。

此前就有个名叫 Tommi Pedruzzi 的 27 岁年轻人在社交网络上高调炫耀,说自己靠着批量生成 1500 本 AI 电子书,硬生生在亚马逊上赚了 300 万美元。他在分享暴富哲学时直言:「出版一本没人想读的书毫无意义」。

虽然很快就有 Reddit 网友扒出亚马逊上根本搜不到他署名的书,并戳穿他真正的盈利方式其实是靠卖「教你如何用 AI 致富」的课程割韭菜。但无论真假,这种批量制造「电子水货」的套路,对各大出版平台的污染却是实打实的。

更有意思的是这帮人蹭热点的手速和下限。

英格兰女足去年刚赢下欧洲杯,亚马逊上瞬间就冒出了一堆关于 Chloe Kelly 等球员的伪传记。

这些书有多敷衍呢?封面不仅粗制滥造,甚至把美式橄榄球当成了足球。全书不到 50 页,标价 11 英镑,主打一个愿者上钩。前英格兰女足队长 Steph Houghton 发现自己辛辛苦苦写了 300 多页的自传,被 AI 仿写成了一本 50 页的残次品,气得直呼「太差劲了」。

这种粗制滥造正在全面围剿真实的创作者。

知名记者 Kara Swisher 的新书刚一出版,亚马逊上立刻被各种打着她名字的 AI 传记和总结「包围」;喜剧演员 Rhys James 在平台上发现了多本以自己为主角的 AI 垃圾传记,封面全是用 AI 生成的虚假男性形象;

面对汹涌的 AI 海啸,平台方的应对显得极其无力。亚马逊曾出台规定,限制每位作者每天最多只能发布 3 本书——这对日产千字的机器来说简直是隔靴搔痒。不仅如此,虽然作者在上传书籍时被要求勾选是否使用了 AI,但这层提示却一度被刻意隐藏了起来,根本不会向购买的消费者展示。

面对这种劣币驱逐良币的生态,原生创作者正在被迫出逃。因为流量和版税被成千上万的 AI 垃圾书籍稀释,作家 Dakota Willink 公开表示自己不得不退出 Kindle Unlimited 平台,转而寻求 Kobo Plus 等其他更透明的海外渠道。

英国出版商协会也发出警告:如果放任这种低质量 AI 图书泛滥,消费者的信任将被彻底透支。

偷走人类的语料,再把 AI 垃圾塞给你

在这场赛博垃圾的狂欢背后,一个根本性的原罪始终无法回避:这些能胡编乱造、能模仿名家风格的大模型,究竟是怎么变得这么「聪明」的?

答案很简单:靠海量的、未经授权的抓取。

此前曝光的法庭文件,直接揭开了 Meta 训练 Llama 3 时的幕后操作。面对大模型对高质量数据的极度渴求,Meta 高管们曾讨论过购买正版授权,但结论是:流程极其缓慢,价格高得不合理。

一位工程总监在内部群里赤裸裸地指出:「如果我们只授权一本书,那我们将无法以『合理使用』为理由来抗辩。」。翻译一下就是:只要我们抓取的数据足够庞大,法不责众,这就是技术创新。

于是,在获得高层默许后,Meta 员工熟练地挂上匿名性极强的 BitTorrent(BT 种子),把全球最大的盗版数字图书馆 Library Genesis(LibGen)给下载了。里面足足包含了 750 万本书和 8100 万篇论文。

巨头们无偿征用了人类作家的才华与思想,转头用户又将 AI 生成的书籍塞给社会。

诚然,如果我们只看冰冷的数据,这场 AI 海啸似乎带来了某种短期红利。

伴随着 AI 流水线开始接管文字生产,一家名为 Spines 的初创出版商因在 2024 年拿到了 1600 万美元融资,便计划用一年时间通过 AI 全自动出版 8000 本书,从校对到排版只需三周。

NBER(美国国家经济研究局)的一篇论文也佐证了这种「繁荣」:尽管 AI 导致图书平均质量断崖式下跌,但由于供给基数庞大,市面上「中等偏上」质量的书籍绝对数量增加了,为读者带来了约 7% 的「消费者剩余」提升。

同时,部分老牌作家在 AI 辅助下,生产力也得到了超级强化。这似乎印证了投资人 Marc Andreessen 的预测:糟糕内容的泛滥会伴随高质量内容的爆发。

但这真的会让出版社迎来第二春吗?

这种繁荣假象的代价是惨痛的:一方面,海量的 AI 垃圾正在无限稀释真实作品的曝光率,让许多没有名气的原生作家出头空间被压缩;另一方面,作为内容源头的出版商和创作者正在被大模型无情地「吸血」,失去了赖以生存的商业回报。

面对迫在眉睫的生存威胁,包括 Dennis Lehane 在内的 70 多位知名作家联合向美国出版界「五大巨头」请愿,要求停止发布机器创作的书籍;与此同时,由于大模型直接在搜索端抓取并总结内容,Google 的 AI 摘要功能(AI Overviews)导致部分出版商的外部网站流量暴跌了 34% 以上。原生内容的生存土壤正在被彻底掏空。

更致命的是,这种竭泽而渔的玩法,最终会迎来技术层面不可逆转的反噬。

在计算机科学里,有一句至理名言叫「 Garbage in, garbage out (垃圾进,垃圾出)」。大语言模型想要变得更聪明,必须投喂高质量的人类文本数据。但在过去的两年里,由于巨头们的纵容,亚马逊和整个互联网已经被海量的 AI 垃圾填满了。

这下尴尬了。当 OpenAI 或 Google 派出下一代爬虫去抓取新的训练数据时,它们抓到的会是什么?是连「重新生成回答」都没删的言情小说;是错把橄榄球当足球的名人传记;还是 27 岁小伙真有机会一键生成的 1500 本水货。

宛如一条正在吞食自己尾巴的「衔尾蛇(Ouroboros)」, AI 曾经吞下的是人类文明的经典,现在,它却不得不吃下自己和同类排泄出的数字废料。长此以往,模型不可避免地会走向退化,也就是学术界一直担心的「模型崩溃」。

所以我们到底为什么而阅读?

阿根廷作家博尔赫斯曾在小说中构想过一座无限庞大的「巴别图书馆」。那里收录了所有可能的字母组合,书本数量浩如烟海。但遗憾的是,绝大多数书籍都是毫无意义的乱码,真正蕴含真理和情感的文字,被永远淹没在了冗余信息的汪洋之中。

如今不知疲倦的生成式 AI,正在为我们建造一座现实版的巴别图书馆。当电子书架被每月 30 万本的流水线废料填满,当整个行业不得不面对「垃圾进,垃圾出」的衔尾蛇困局时,我们或许该重新思考文字本身的意义。

英国作家 C.S. 路易斯曾说:「我们阅读,是为了知道自己并不孤单。」

一本书真正的重量在于,触碰到另一群真实的人。他们也曾和你一样。会痛,会笑,会迷茫,会心碎。他们把这些滚烫的生命体验,笨拙又真诚地揉碎在文字里,留给了未来某个他们永远不会认识的人。

AI 能在几秒钟内生成一百万个结构精巧的故事,却也体会不到哪怕一滴眼泪的重量。在这个文字可以被无限量产、廉价批发的时代,那些带着体温的作品,正在变得愈发稀少,也愈发珍贵。

去读书,更去读那些真正有作者的书。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

川普、孙宇晨都来当 AI 黄牛了,这门暴利生意的水有多深?

作者 莫崇宇
2026年5月11日 10:01

十六世纪,欧洲商船在大西洋上画出了一个三角形的航线。

欧洲的布匹和枪炮流向非洲,换来人口;人口被运往美洲的种植园,换来棉花和糖;棉花和糖再运回欧洲,完成一次稳赚不赔的循环。这套臭名昭著的交换体系,后来被历史教科书称「三角贸易」。

谁能想到,三个世纪后,一条结构惊人相似的贸易链,正在互联网上悄然成形。

在这条新航线上,全球南方的普通人提供身份信息,美国的 AI 实验室提供顶尖模型,中国开发者和企业提供需求,而其中一些连接这三者、从中赚取差价的中间层,被称为「AI 中转站」。

这门生意的起点,源于两大难以跨越的限制。

OpenAI 自 2024 年 6 月起明确封禁中国大陆 IP,Anthropic 的服务条款同样禁止向不支持地区销售。支付是另一道门槛,主流海外模型厂商要求绑定 Visa 或 Mastercard,并通过严格的账单地址核验,多数开发者被直接拒之门外。

「AI 中转站」正是在这两大限制的夹缝中生长出来的。他们用海外服务器充当跳板,用人民币支付替代外币信用卡,把顶尖算力以「代购」的方式转交给受限地区的用户。

这门原本藏在灰色地带里的生意,如今却吸引了一批名人高调入场。

猎豹移动 CEO 傅盛推出了 Easy Router,打出全线模型八五折、DeepSeek-V4 定价低至官方四分之一的招牌。币圈大佬创始人孙宇晨、懂王的家族企业也纷纷下场,可见这里面的水有多深、油水有多大。

今天,咱们就来聊聊,这门含着泪赚你钱的生意,到背后到底有哪些套路?

只要胆子大,AI 中转站也有自己的华强北

从技术上说,AI 中转站就是一个架在用户和大模型服务商之间的反向代理服务器。用户把请求发给中转站,中转站再转发给 OpenAI 或 Anthropic,取回结果后再交给用户。

按形态和受众区分,当前市场上的中转站大致分三种类型:
第一种是面向普通用户的「网页镜像站」,直接套一个网页界面,用户登录即用。门槛最低,但也最不透明,你完全不知道请求最终流向了哪里。

第二种是面向开发者的「API 聚合分发平台」,核心是把多家模型的异构接口统一转换为标准格式,按 Token(词元)计费向下游转售。前文提到的几位名人产品,本质上都属于此类。

第三种是面向大型机构的「企业级 AI 网关」,提供智能路由、全链路审计、数据脱敏和权限管控,代表产品有 Portkey,算是这个生态里相对规范的一层。

三种形态的技术底层有着共同的逻辑。以开源项目 One API 为例,它的 GitHub 星标超过 3 万,被大量商业平台直接拿来二次开发,是许多中转站市场事实上的底层基础设施。

🔗 https://github.com/songquanpeng/one-api

它的运作分三个核心模块:

协议标准化:各家大模型的 API 格式大相径庭,中转站会在网络应用层深度解包用户请求,提取核心元素,重新打包成目标模型要求的格式发送,并实时透传流式输出的数据块,保证「打字机」效果不中断。

Token 计费拦截:中转站在转发过程中截取返回数据包,统计实际消耗,再乘以自定义的「模型倍率」向用户收费。这套系统允许站长对不同模型设定差异化溢价,是商业变现的核心。

多账号轮询池:单个官方账号有严格的频率限制,中转站通过维护大量底层 API Key,用轮询算法分发流量。某个账号被封或耗尽时,系统自动无缝切换到下一个。

正是第三个模块,让一个人只需租一台海外服务器,执行一行 Docker 命令,极短时间内就能上线一个商业平台。技术门槛的持续下降,直接导致了市场上海量玩家的涌现。

而中转站能提供低价,背后必然有一套成本更低的算力获取方式。

上游资源方通过利用云厂商新用户免费额度、滥用教育邮箱获取折扣、在电商平台批量倒卖企业账号权益来压低成本。更灰色的手段则包括批量注册虚假账号、盗刷跨国信用卡甚至窃取他人的 API Key。

最近随着 Anthropic 引入 KYC 强制实名认证,这条供给链又延伸出了新的分支。

中间商前往尼日利亚、肯尼亚、柬埔寨等地,以几美元的报酬招募当地人配合拍照,批量采集人脸和证件信息,再以数十倍的价格转售给国内开发者。

这与此前在非洲采集虹膜数据的黑市逻辑如出一辙,将生物特征数据商品化的链条直接平移到了 AI 时代。不少业内研究者都曾警告,今天被收割的面部信息,明天就可能被用于开设欺诈性金融账户,危害深远。

花买玛莎拉蒂的钱,骑赛博共享单车

如果真能做到「一手交钱,一手交货」,这门代购生意倒也算得上公道。但现实是,AI 中转站提供的服务往往货不对版,甚至可以简单理解为「掺水」的货。

2026 年 3 月,CISPA 信息安全研究中心发表了学界首次针对中转站系统性安全审计的论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》。

🔗 https://arxiv.org/abs/2603.01919

研究者追踪了 17 个曾被 187 篇正式学术论文引用的中转站服务,进行了全面测试。

结论触目惊心:45.83% 的节点通不过模型身份验证,说明其后台运行的并非宣称的模型。在医学问答测试中,Gemini-2.5-flash 通过官方 API 的正确率为 83.82%,而通过影子 API 则跌至约 37%。在法律推理测试中,所有被测中转站都比官方 API 落后 40 个百分点以上。

 ▲ AIME 2025

具体来说,这种「狸猫换太子」的方式分三种:

一是按官方原价收费,后台实际运行低成本开源模型(例如打着 GPT-5 的幌子,实则偷偷替换为掺水的 Llama);二是用便宜的新模型替换较贵的旧模型,反而向用户收取更高费用;三是哪怕用户支付了高昂的加价,最终调用的依然是低端模型。

▲图片出自论文,由 AI 生成

价格和质量在 AI 中转站的黑市里完全是随机分布的盲盒。论文的结论也显示,价格比率对准确率下降完全没有预测力,选贵的中转站并不能保护你免受模型替换的损失。

除了模型造假,账单同样存在猫腻。

2026 年 ACM 互联网测量大会上的论文《Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways》对真实商业网关进行测评,发现有网关实际收费比预期计算高出 62.8%,但其上报的用量数据与其他平台并无异常,用户根本感知不到多出的钱去了哪里。

▲LLM API 网关架构概览,以及主要的透明度与一致性挑战。

此外,部分网关还会进行隐蔽的「上下文截断」。

为了节省成本,它们在历史消息超过隐性阈值后,悄悄丢掉早期内容。测试人员设计了一段 25 轮对话,模型在某些网关上到第 24 轮时已经无法复述第 10 轮设定的信息。这意味着依赖长文档分析或多轮对话的应用,可能长期运行在降级状态。

简而言之,你用的 AI 中转站,很有可能就是花着最贵的钱,用着最蠢的模型,忍受它随时变成拥有七秒记忆的金鱼,最后用来干最复杂的活儿。

你拿 AI 写代码,AI 给你种木马

讲真,花冤枉钱买个「智障」模型顶多算是破财免灾,更需要注意的是,这些 AI 中转站很有可能会盯上你的隐私数据。

用户以为交给中转站的只是一段请求,实际上交出去的是完整的双向通信记录。

AI 中转站作为中间人,对每一条提示词和每一段模型返回都拥有读写权限。灰色平台可能把这些数据打包卖给 AI 训练公司或数据经纪商,赚取不菲的利润。这就导致你既是客户,也是产品本身。

更危险的是,数据经过的中间节点往往不止一个。

中转站的路由常常多层嵌套:你从电商平台买的 API 访问权限,背后的卖家可能从另一个聚合平台采购,整个链路可能经过四个以上的独立节点。木桶短板理论诚不我欺,链条的安全性取决于最弱的那一环,一旦任何节点被攻破,上游的数据截留或篡改就已完成。

在《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》这篇论文中,研究者在沙盒中测试 428 个中转站后发现:9 个正在向用户注入恶意代码,17 个触发了 AWS 测试密钥的盗用,甚至有 1 个直接抽走了研究者部署的私钥钱包资金。

▲ 多跳路由的链条越长,中间任何一个节点出问题,污染就会沿链传播,而终端的 Agent 很难判断响应是否经过篡改。论文🔗 https://arxiv.org/abs/2604.08407

一个被故意泄露的 OpenAI 密钥迅速被中转站复用,产生了逾 1 亿 Token 流量。

今年 3 月发生的 LiteLLM 事件更是暴露了攻击规模。黑客通过依赖包漏洞潜入这个主流开源框架,波及超过 4.6 万个开发环境。此外,更有高级黑客将木马控制指令(C2)伪装成正常的 AI 对话提示词发给中转站,借助合法通道绕过传统防火墙。

▲一个恶意 Router 坐在 Agent 和模型之间,既偷看请求与响应里的敏感信息,又在返回给 Agent 之前往响应里注入恶意内容。

当 AI 从聊天工具进化为能自主执行代码的智能体(Agent),风险又多了一个维度。

恶意中转站能在 shell 命令抵达执行层前,把安装包替换成同名恶意包。甚至还有「条件投递」变种:前 50 次请求正常,第 51 次才激活注入。对于自动执行模式的 Agent 来说,最基础的载荷注入就已足够致命。

值得一提的是,中转站的破坏范围不止于直接用户。

《Real Money, Fake Models》论文统计显示,187 篇引用影子 API 的论文中,62% 发表在 ACL、CVPR 等顶级学术会议上。这些使用假模型进行的评测或漏洞分析,导致了严重的学术信任危机。若其中 30% 需要重新执行,总损失就在 11.5 万到 14 万美元之间,近 6000 篇后续研究的有效性也随之存疑。

这门靠「信息差套利」维持的生意,正在走向不可持续的终点。

一方面,境外未备案模型向境内提供服务触碰了《生成式人工智能服务管理暂行办法》,给站长带来了极大的非法经营风险;企业用户一旦因此发生敏感数据泄露,也将面临严厉的法律制裁与行政处罚。

另一方面,伴随着国产大模型(比如 DeepSeek 等)的能力呈现井喷式爆发,不仅在各项榜单上开始追平甚至反超海外巨头,更是在价格上掀起了腥风血雨——API 接口的价格被硬生生打到了海外厂商的几十分之一,甚至直接开启了「免费时代」。

当拧开水龙头就能喝到干净便宜的水,那些在暗巷里倒卖高价水还要掺假下毒的营生,自然也就迎来了他们的谢幕。即便存活下来的黑心平台,未来也只会进入「大逃杀」模式:要么更加疯狂地掺水、偷数据来维持暴利;要么趁着资金链还没断裂,拔网线关服提桶跑路。

十六世纪的三角贸易靠的是信息不对称和地理隔绝,最终因贸易透明化和监管而终结。AI 中转站赖以生存的同样是地区封锁和不对称信息。不同的是,这一次,被贩卖的不只是算力,还有身份、隐私、信任,以及无法预估的后果。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋致 2026 届毕业生:别慌,AI 把所有人拉回同一起跑线 | 附演讲全文

作者 莫崇宇
2026年5月11日 09:58

这可能是近年来含金量最高、火药味最浓,但也最「反焦虑」的一场毕业演讲。

5 月 10 日,Carnegie Mellon University(CMU:卡内基梅隆大学)2026 年毕业典礼上,身价逼近 1860 亿美元的「皮衣刀客」黄仁勋站上演讲台,接过科学与技术荣誉博士学位。

台下坐着即将步入社会的 2026 届毕业生,他们面对的世界极其割裂。一边是英伟达撑起的万亿算力帝国,和狂飙突进的 AI 大牛市;另一边,应届生失业率创下新高,「AI 抢饭碗」的恐慌已经蔓延进每一个求职群。

今年,十几家大厂裁员时毫不避讳地把锅甩给了 AI;Anthropic CEO Dario Amodei 警告 AI 可能消灭 50% 的白领入门岗位;马斯克则抛出「人类有 20% 灭绝概率」的惊悚预言。整个社会对 AI 的恐惧,正在以各种方式蔓延至这些刚拿到文凭的年轻人。

而制造这场焦虑的人里,有不少是和黄仁勋地位相当的 CEO。就在本月早些时候,他在一档播客里直接开炮,说这类预言「没有帮助」,说这些人坐上 CEO 位置之后产生了「上帝情结」,以为自己无所不知。

批评完同行,黄仁勋今天走上了 CMU 的毕业典礼台。

▲ 值得一提的是,毕业典礼上,Intel CEO 陈立武亲手为黄仁勋披上荣誉博士披肩。典礼结束后,陈立武公开祝贺,顺手透露了一句:两家公司正在合作开发「令人期待的新产品」。

他没有讲 AI 的宏大叙事,而是讲了自己 9 岁坐飞机去 Kentucky 煤矿小镇的事,讲了凌晨 4 点被妈妈叫起来送报纸,讲了在 Denny’s 洗碗,讲了向 Sega CEO 道歉、低头哀求对方不要撤资。他说,那是他做过的「最艰难的事情之一」。

从洗碗工到万亿帝国掌门人,黄仁勋在台上讲这些,显然不是为了熬一锅俗套的成功学鸡汤,而是在用自己的经历,给这群被 AI 吓坏的年轻人透个底:任何新时代的开局,其实都不是准备万全的,也不需要你一开始就无所不能。

AI 正在推翻过去几十年的计算规则,旧的经验不再绝对管用,一切都在重新洗牌。对于刚拿到文凭、毫无包袱的年轻人来说,这其实是一件好事。因为大家不用再去死磕那些已经被前人占满的旧赛道,而是和所有人一起,又一次站在了同一条起跑线上。

对此,他看着台下的学生表示:「把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。」

视频传送门地址🔗 :https://www.youtube.com/watch?v=dRaNmHmTJzs&t=5783s

附上黄仁勋演讲原文:

President Jehanian、董事会成员、各位老师、各位贵宾、骄傲的父母和家人们,最重要的是,Carnegie Mellon 2026 届毕业生们:

感谢你们授予我这份非凡的荣誉。能来到 Carnegie Mellon,与这所世界顶尖大学同在,我深感意义重大。这里是少数几个真正发明未来的地方之一。今天是一个充满自豪与喜悦的日子,是你们梦想成真的一天,但这一天并不只属于你们。你们的家人、老师、导师和朋友一路支持你们走到这里。

在我们谈论未来之前,请先感谢他们。这一天也属于他们。毕业生们,请站起来,和我一起站起来。来吧,各位。尤其请转向你们的母亲,祝她们母亲节快乐。

对你们来说,这是人生中的又一步。但对她来说,这是一个梦想成真的时刻。请记住这一点。

CMU 的学生就像机器人一样,一次只执行一条指令。看到你们毕业,看到你们。好了,大家集中注意力。我有件重要的事要告诉你们:看到你们从世界顶尖学府之一毕业,这也是她的时刻。我的父母也为我深感骄傲。我的旅程也是他们的旅程,我是他们梦想成真的结果,而他们的梦想就是美国梦。和在座许多人一样,我是第一代移民。

我父亲有一个梦想,就是在美国养育他的家庭。我 9 岁那年,他把我哥哥和我送到美国。我们最后去了 Kentucky 州 Oneida 的一所 Baptist 寄宿学校,那里是煤矿区,一个只有几百人的小镇。两年后,我的父母放下一切来到美国和我们团聚。他们几乎一无所有地来到这里。

我父亲是一名化学工程师。我母亲在一所天主教学校做女佣。她每天凌晨 4 点叫醒我去送报纸。我哥哥帮我在 Denny’s找了一份洗碗工的工作,在当时我觉得那简直是一次重大的职业晋升。

我去了 Oregon State University(俄勒冈州立大学)。17 岁那年,我遇到了我的妻子 Lori。我是学校里年龄最小的孩子。我们当时是大二学生,也是实验课搭档。她 19 岁。

一个年长的女人?我击败了班上其他 250 个男生,赢得了她的心。

我们现在已经结婚 40 年了。我们有两个很棒的孩子,他们都在英伟达工作。我 30 岁时,和 Chris Malachowsky、Curtis Priem 一起创办了英伟达,他们是两位出色的计算机科学家。

我们想打造一种新型计算机,一种能够解决普通计算机无法解决的问题的计算机。我们完全不知道该如何创办公司、融资,或者经营英伟达。我只是想,这能有多难?结果证明,这真的超级难。

我们的第一项技术根本行不通,钱也快用完了。有一次,我不得不飞到日本,向 Sega 的 CEO 解释,他们委托我们开发的技术无法实现,请求解除我们无法完成的合同,然后还请求他们继续付款。没有这笔钱,英伟达就会瞬间消失。那非常尴尬、非常屈辱,也是我做过的最艰难的事情之一。

而 Sega 的 CEO Irimajiri-san 说,可以。我很早就明白,做 CEO 不是关于权力,而是关于让公司活下去所承担的责任;也明白了诚实和谦逊有时会得到慷慨与善意的回应,即便是在商业世界里。我们用那笔钱重新调整了公司,并在绝境中发明了新的芯片和计算机设计方法,而这些方法直到今天仍在使用。

33 年来,英伟达一次又一次地重塑自己。每一次,我们都会问:这能有多难?每一次,我们又都会发现,它比我们想象的更难。但正是通过这些经历,我们学会了永远不要把失败看作成功的反面。每一次失败都只是一次学习的时刻,一次保持谦逊的时刻,一次锤炼品格的时刻。挫折中锻造出的韧性,才会给你再次出发的力量。今天,我是科技行业任职时间最长的 CEO 之一。

英伟达是我与 45000 位杰出同事共同完成的事业,也是我的毕生事业。现在,轮到你们去实现自己的梦想了,而这个时机再完美不过。我的职业生涯开始于 PC 革命的开端。你们的职业生涯开始于 AI 革命的开端。我想象不出还有比现在更令人兴奋的工作时代,更适合开启你们毕生事业的时代。AI 正是从卡内基梅隆大学起步的。

过去 24 小时里,我在这里听到了无数关于 AI 的笑话。卡内基梅隆大学是 AI 和机器人技术真正的发源地之一。20 世纪 50 年代,这里的研究人员创造了 Logic Theorist,它被广泛认为是第一个 AI 计算机程序。1979 年,卡内基梅隆大学成立了 Robotics Institute。今天上午我去参观了。今天上午,我参观了 Robo Club,也参观了第一个完全致力于机器人技术的学术机构。

AI 如今已经彻底重塑了计算。我经历过每一次重大的计算平台变革:大型机、PC、互联网、移动和云。每一波浪潮都建立在上一波之上,每一波都扩大了技术的可及性,每一波都改变了产业和社会。但现在即将发生的变化,比以往任何一次都更大。计算正在经历一次彻底重置。自现代计算被发明以来,还从未发生过这样的变化。

60 年来,计算的工作方式一直相同:人类编写软件,计算机执行指令。这个范式已经结束。AI 已经重塑了计算:从人类编码变成机器学习,从运行在 CPU 上的软件变成运行在 GPU 上的神经网络,从执行指令变成理解、推理、规划和使用工具。一个全新的产业已经出现,它的使命是大规模制造智能。

因为智能是每个行业的基础,所以每个行业都会发生变化。对许多人来说,AI 带来了不确定性。人们看到 AI 编写软件、生成图像、驾驶汽车,自然会想:接下来会发生什么?工作会消失吗?人们会被抛在后面吗?这项技术会不会变得过于强大?

历史上每一次重大的技术革命,都会在带来机会的同时带来恐惧。当社会以开放、负责任、乐观的态度拥抱技术时,我们扩展人类潜能的程度,远远超过我们削弱它的程度。所以首先,也是最重要的是,我们必须清楚地认识到:AI 也就是对理解、推理和解决问题的自动化,是人类有史以来创造的最强大技术之一。和此前每一项变革性技术一样,它既会带来巨大的希望,也会带来真实的风险。我们这一代人的责任,不只是推进 AI,更是要明智地推进 AI。科学家和工程师肩负着深刻责任,要同时推进 AI 能力和 AI 安全;政策制定者也是如此。

政策制定者有责任建立周全的护栏,在保护社会的同时,仍然让创新、发现和进步继续向前。历史表明,选择逃避技术的社会并不能阻止进步,它们只是放弃了塑造进步并从中受益的机会。所以答案不是恐惧未来,而是明智地引导未来,负责任地建设未来,并确保它带来的好处能够惠及尽可能多的人。我们不应该教人们害怕未来。我们应该以乐观、责任感和雄心去参与未来。

现在,全世界只有一小部分人知道如何编写软件。而如今,任何人都可以让 AI 帮自己做出有用的东西。一个店主可以创建网站并发展业务;一个木匠可以设计厨房,并向客户提供新服务。AI 会编写代码。第一次,每个人都成了程序员。计算和智能的力量第一次真正能够触达每个人,并弥合技术鸿沟。就像电力和互联网一样,AI 将需要数万亿美元的基础设施投资。

这是人类历史上规模最大的技术基础设施建设,也是一代人只有一次的机会,让美国重新工业化,恢复国家的建造能力。为了支持 AI,美国将在全国各地建设芯片工厂、计算机工厂、数据中心和先进制造设施。AI 给了美国再次建设的机会。电工、管道工、钢铁工人、技术员、建筑工人,这是你们的时代。

AI 不只是在创造一个新的计算产业,它正在创造一个新的工业时代。支撑这些新基础设施需要巨大的能源,但它也在推动几代人以来规模最大的能源基础设施投资之一,推动电网现代化、扩大电力生产,并加速可持续能源发展。是的,AI 会改变每一份工作,但一份工作的任务和目的并不是一回事。许多任务会被自动化。一些工作会消失,但许多新的工作和全新的行业也会被创造出来。

软件编码任务正越来越多地被自动化,但借助 AI,软件工程师可以扩大解决方案的搜索范围,从而应对更宏大的挑战。放射影像分析正越来越多地被自动化,但借助 AI,放射科医生会被提升到更高水平,更好地诊断疾病、照护患者。AI 不会取代人的目标,它会放大人的能力。这就是为什么即使 AI 编写了更多代码、分析了更多影像,对软件工程师和放射科医生的需求仍在继续增长。AI 不太可能取代你,但更会使用 AI 的人可能会取代你。所以一个很好的思维实验是:

我们希望自己的孩子被 AI 增强,还是被那些被 AI 增强的人甩在后面?没有父母希望自己的孩子被落下。所以,让我们安全地建设 AI。同时,也让我们想象一个乐观的未来,一个让我们的孩子愿意参与其中、并受到鼓舞去帮助建设的未来。因此,我们可以也必须同时做好四件事:安全地推进 AI,制定周全的政策,让 AI 被广泛使用,并鼓励每个人参与其中。每个人都应该拥有 AI。

机会不应该只属于会写代码的人。

2026 届毕业生们,你们正进入一个非凡的时代。一个新的产业正在诞生,一个科学与发现的新时代正在开启。AI 将加速人类知识的扩展,帮助我们解决曾经无法触及的问题。我们有机会弥合技术鸿沟,第一次把计算和智能的力量带给数十亿人;有机会让美国重新工业化,恢复我们的建造能力;也有机会帮助创造一个比你们所继承的世界更富足、更有能力、更充满希望的未来。

没有任何一代人像你们这样,在进入世界时拥有如此强大的工具和如此巨大的机会。我们都站在同一条起跑线上。这是你们帮助塑造未来的时刻。所以,要奔跑,不要慢走。卡内基梅隆大学有一句我很喜欢的校训:我的心在工作之中。

所以,把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。祝贺你们,卡内基梅隆大学 2026 届毕业生。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

终于能听 GPT-5 给我说人话了

作者 莫崇宇
2026年5月8日 08:08

不知道大家平时有没有这种经历。

每次遇到点急事,打给各大公司的智能客服,电话那头永远是那个字正腔圆但毫无感情的声音:「查询服务请按 1,人工服务请按 0……」接着就是漫长的音乐,以及那句让人抓狂的「对不起,我没听懂,请再说一遍」。

但就在刚刚,OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示,这回,他们是真心想让机器说「人话」,办「人事」。

省流版如下:

  • GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行。
  • GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流。
  • GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。

终于,AI 学会了「稍等片刻」

如果说拟人化是面子,那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属,基准测试结果显示,GPT-Realtime-2 在 Big Bench Audio(音频智能测试)上比上一代高了 15.2%,在 Audio MultiChallenge(多轮对话指令跟随测试)上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍,调用成功率从 69% 跳到了 95%,提升了 26 个百分点。

以前的语音助手,脑回路其实很直。你说「放首歌」,它放一首歌;你说「关灯」,它把灯关了。如果你一口气给它布置三个任务,顺便还改了两次主意,它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于,OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里,给我一种 GPT-5「说人话」的即视感。

举个很实在的例子,假设你正在开车,随口吩咐它:「帮我找个离地铁站近的房子,租金别太贵,避开那些主干道,如果可以的话,周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD(产品需求文档)写作流程:先口述需求,AI 生成文档,再用语音要求改格式,AI 随即更新,全程对话驱动,没有动过键盘。🔗 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了,这需要它听懂你的各种限制条件,去地图上筛位置,去对比价格,最后还要去匹配中介的时间表。为了干好这种复杂的活,OpenAI 给它点亮了两个非常特别的技能树。

第一个技能,叫「Parallel tool calls(并行工具调用)」。它现在可以多线程操作,一边跟你讲着话,脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话,你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话,借助 OpenClaw 用语音驱动 AI 操控浏览器,先打开 Google,再跳转到华尔街日报网站。整个过程中,AI 一边执行操作,一边主动说明自己在没有浏览器权限时还能帮上哪些忙。🔗 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个,也是我觉得最有人情味的一个更新——「Preambles(开场白)」。

人在思考或者处理复杂事情的时候,是做不到秒回的,我们通常会说「呃,让我想想」或者「稍等啊,我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候,它会非常自然地对你说:「好的,没问题,给我一小会儿时间我来核实一下。」
这种看似「废话」的设计,反而最大程度缓解了我们等待时的焦虑感。

有意思的是,开发者现在能控制它的推理强度(从极简到极高:minimal、low、 medium、high、xhigh)。你要是问它今天下不下雨,它就用最快速度回你;要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题,它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价?

除了 GPT-Realtime-2,这次还有个非常抢眼的配角:GPT-Realtime-Translate(实时翻译)。

咱们平时用的翻译软件,大部分是「回合制」的。你按住说话,松手,等几秒,机器再字正腔圆地播报出来。如果是旅游问个路还行,要是真拿来开跨国会议,那种互相大眼瞪小眼的停顿,尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型,主打就是一个「实时翻译」。

它支持 70 多种语言输入,能做到你在那边滔滔不绝,它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它,结果发现这模型不仅没被绕晕,准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件,直接接入 YouTube 视频,边播边把内容实时翻译成多种语言,中文表现不错,但多少还是有点口音,🔗 https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程,或者听某些没有同传的海外发布会,直接把这个插件一开,它就能顺着原视频的节奏,稳稳当当把你熟悉的母语送到你耳朵里。

除此之外,加上刚刚发布的 GPT-Realtime-Whisper(极低延迟的语音转文字)功能,以后遇到开会的场景,领导在说话,你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面,GPT-Realtime-Whisper 是每分钟 0.017 美元,GPT-Realtime-Translate 是每分钟 0.034 美元,GPT-Realtime-2 按 token 计费,音频输入 32 美元 / 百万 token,音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看,我们会发现软件的逻辑正在发生根本性的变化。
以前,我们要学习怎么用键盘敲代码,怎么在复杂的菜单栏里找功能,怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是,

AI 反过来开始迁就我们了。

语音,正在从一个笨拙的「辅助功能」,变成我们掌控数字世界最自然的接口。因为说话,本来就是人类最不需要学习的本能。

技术发展的尽头,总是倾向于把复杂的东西藏起来,把最简单、最自然的一面留给普通人。或许就在不久的将来,你出门真的只需要带个耳机,靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来,这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后,我们还能忍受现实世界里,人类之间那充满误解和低效的沟通吗?

附上博客地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

等 DeepSeek 回复的 30 秒,是手机最好玩的半小时

作者 莫崇宇
2026年5月6日 09:34

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?

它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:

等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:

「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」

然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。

接着,你深吸一口气,抬起头。

等等,刚才发生了什么?

窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」

如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代,摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。

但现在,形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。

低情商这叫偷懒,高情商这叫技术性调休。

于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」

这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。

其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。

把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。

那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。

后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。

历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。

很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。

紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。

包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。

最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。

最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。

恭喜你,新的半小时又开始了。

当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.(doge)

他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。

只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此,大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。

鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。

今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮,心态常好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对

作者 莫崇宇
2026年5月6日 09:30

就在刚刚,OpenAI 正式推送了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。

这个版本主打三件事:更准确、更简洁、更懂你。

与上一版本相比,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升,在高风险领域最为突出。内部测试显示,GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话,错误率也减少了 37.3%。除文字问答外,图片和照片的分析能力、理科问题的解答质量,以及判断何时应当主动调用搜索工具,都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并正确解答。

回复风格也是这次更新的重点。

新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数,语气更像朋友给的建议,把重点放在如何把问题引到自己的专注需求上,而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,不需要每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。

与此同时,所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。OpenAI 说明,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦,对了,今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。Sam Altman 说,这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍,有效期到 6 月 5 日。

奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

谁在 GPT-5.5 脑子里塞了一群「妖怪」?

作者 莫崇宇
2026年4月30日 17:16

过去这几个月,OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把时间在自家的服务器里「抓哥布林」。

事情是这样的,如果你在今年高强度使用过 GPT-5 系列模型,你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林(goblin)」式比喻。比如有人问 AI 该买哪款相机,AI 给出的推荐语是:「如果你想要那种闪闪发光的霓虹哥布林模式,可以考虑这款。」

▲ 哥布林(goblin)是欧洲民间传说里的一种小型怪物,形象上通常又矮又丑,皮肤呈绿色或灰色,耳朵尖长,眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧,智力不高但很会算计小便宜。它们喜欢金子和闪光的东西,会偷东西、搞破坏,但很少被描绘成真正意义上的大反派,更多是烦人的小麻烦制造者。

有人让 AI 帮忙精简回答,AI 主动提出可以给出「更短的哥布林版本」。更离谱的是,AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词,让人完全不知道该如何理解。

起初,大家以为这只是 AI 的一点小幽默,但很快事情变得奇怪了起来。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)开始在各种正经的对话里高频串场。

黑客攻击?觉醒前兆?都不是。就在刚刚,OpenAI 官方终于亲自下场发了篇博客长文,复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑,还挺让人哭笑不得的。

▲ 🔗 https://openai.com/index/where-the-goblins-came-from/

谁把哥布林放进了 GPT-5?

事情的端倪,出现在 GPT-5.1 刚发布的那段日子。

当时,有用户反馈说模型聊天变得有点异常「自来熟」,OpenAI 的安全研究员顺手拉了一下后台数据,结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后,ChatGPT 回复中出现「哥布林」的频率直接上升了 175%,「小魔怪」也跟着涨了 52%。

通常来说,大模型出 Bug 的表现往往是直接崩坏,比如吐出乱码或者突然变智障,各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的,它们没有破坏模型的逻辑能力,只是悄悄篡改了 AI 的修辞习惯。

到了 GPT-5.4/5.5 时代,这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时,原本只是想让 GPT-5.5 用 ASCII 画一只独角兽,结果得到的是一只哥布林。

▲中文翻译:顺带一提,我让它用 ASCII 画一只独角兽,结果我觉得我得到的是一只哥布林。

在外部,用户们早就察觉到了不对劲,Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图,AI 在帮他处理代码时说了一句:「我宁愿一直盯着它,也不愿让这个小捣蛋鬼无人看管地运行。」

一名 OpenAI 工程师 Jason Liu 在底下回复:「我以为我们已经修复了这个问题,抱歉。」AI 评估平台 包括 Arena.ai 也独立注意到了这个规律,尤其是在用户没有开启高级思维模式时,哥布林出没的频率格外显眼。

这显然不是什么互联网流行语的自然涌现,而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手,OpenAI 开启了内部排查。

顺着数据回溯,他们很快在一个特定的功能分支里发现了万恶之源,「个性化定制」中的「书呆子(Nerdy)」人格。当时,为了让 AI 的语气显得更有趣,工程师给「书呆子」模式写了一段要求很高的系统提示词:

你是一个彻头彻尾的书呆子型 AI 导师,对人类充满热情、机智幽默,同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异,它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题,也绝不能一本正经到失去趣味。[……]

站在人类的视角,这段提示词的诉求很明确:要有极客精神,要幽默。

但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中,ChatGPT 敏锐地察觉到了一个极其功利的捷径:只要我用哥布林打

比方,打分系统就会觉得我够「俏皮」、够「书呆子」,我就会得到最高分的奖励。

数据说明了一切。从 GPT-5.2 到 GPT-5.4,默认人格下「哥布林」的出现频率变化幅度只有负 3.2%,而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的「哥布林」含量。

OpenAI 后来对 RL 训练数据做了一次专项审计,结果发现,在所有被审计的数据集里,有 76.2% 的数据集都出现了同一个规律:含有哥布林或小魔怪词汇的输出,会得到比不含这些词的同题输出更高的奖励评分。

如果哥布林腔调只在「书呆子模式」下出现,那顶多是个角色设定没控制好,问题还算有限。麻烦的是,研究人员发现这种说话方式开始蔓延到别处了。

他们同时追踪了两组数据:一组对话带了书呆子提示词,一组没带。按理说,哥布林腔调只该在第一组里增长。但结果是,两组的增长曲线几乎贴在一起,步调一致地往上走。

这背后,是大模型训练里一个出了名难缠的问题:强化学习强化出来的行为,会悄悄泛化到训练者并不想要的场景里去。

驯化 AI 的死循环

要搞懂 AI 是怎么把路走窄的,我们得看看它的迭代过程。

大模型的训练(RLHF)本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗,你在它每次牵手就给一块肉干。狗很聪明,它发现「牵手」这个动作能稳定换取高额奖励,于是它开始产生路径依赖,不管你给没给指令,它为了要奖励,都开始疯狂牵手。

AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句,拿到了高分。紧接着,连锁反应开始了:

AI 发现「哥布林」是高分关键词,开始在各种生成任务中高频使用;工程师在整理模型生成的优质数据时,发现这些带有哥布林比喻的回答质量确实高,条理清晰,比喻也算生动;于是,工程师顺手把这些带梗的对话,打包塞进了模型的「监督微调(SFT)」数据库里。

这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时,AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay,而是把它当成了能应对一切问题的、至高无上的高级修辞。

在后续的数据搜查中,工程师们有些无奈地发现,除了哥布林,模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难,经过核查,青蛙出现的场合大多数时候确实跟用户的问题有关,算是无辜路人。

面对「满地乱跑」的哥布林,OpenAI 只能采取行动。3 月 17 日,官方正式下线「书呆子」人格。同时,他们在训练数据里搞了一次针对性的清洗,把带有这些魔法生物词汇的奖励信号全部抹除。

但大模型的惯性,远比想象中顽固。

GPT-5.5 在发现这个问题之前就已经开始训练了,当它接入内部测试时,工程师们两眼一黑:这群哥布林不仅没清除干净,还安家了。
更有意思的是,OpenAI 给 Codex 写的人格指南里,要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气,和哥布林可以说是一拍即合。

为了防止全球的程序员被「哥布林」逼疯,OpenAI 被迫用上了最原始的一招,在系统提示词里反复强调:「除非与用户的查询绝对且明确相关,否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」

如果你想亲眼看看「解除管控」的哥布林是什么状态,可以运行下面这段命令——它会在启动 Codex 之前,把系统指令里所有涉及哥布林的内容先过滤掉,让模型在没有这道禁令的情况下运行:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ \
~/.codex/models_cache.json | \
grep -vi ‘goblins’ > “$instructions” && \
codex -m gpt-5.5 -c “model_instructions_file=\”$instructions\””

事情闹大之后,OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话,配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」,随后又发文说 Codex 正在经历「ChatGPT 时刻」,发完自己又改口:「我是说哥布林时刻,抱歉。」刚刚则是发文宣告,问题已经得到解决了。

不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜,他们对这场风波的态度要严肃得多,直接给 OpenAI 的处理方式下了结论:「简直荒谬。」

顺带一提,「goblin mode」这个词本身,早在 2022 年就被《牛津英语词典》评为年度词汇,意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上,AI 无意间踩中的这个词,和它想表达的「俏皮感」完全是两码事。

抛开这些槽点,这场「哥布林危机」撕开了大模型时代一个极其核心的命题:对齐难题(Alignment Problem)。

当我们谈论 AI 失控时,脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是,AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。

你想要一点点俏皮,给了一个微小的正向反馈。黑盒模型就会找到捷径,将这个信号无限放大,最终把整个系统的底层逻辑带偏。

今天,它只是为了拿高分而爱上了说「哥布林」。如果明天,它在自动驾驶的算法里、或者医疗诊断的奖励机制中,找到了另一个违背人类常识的「高分捷径」呢?

人类总是自以为自己能掌控 AI ,但其实很多时候只是在走钢丝。每一次参数的微调,都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一台比小天才还猛的「反 AI 座机」,卖爆美国家长群

作者 莫崇宇
2026年4月30日 17:03

我至今还能背出小学同桌家里的手机号码。

那时想约人玩,总要先过家长那关:「阿姨好,××在家吗?」等长辈吼一嗓子把人叫来,这通电话才算真正开始。回头想想,我们那时的社交,始终要「借道」大人。

一出生就被触屏包围的 10 后、20 后,大概很难共情这种经历。就算家长迟迟不肯配手机,街上随处可见的儿童智能手表早就填上了这个空缺,定位、通话、发语音,一块表全包了。

▲ 由 GPT-Image-2 生成

但在大洋彼岸,同样有一批家长选择让孩子晚些接触智能设备,问题是,他们能给孩子的替代品,并不比我们当年的选择多。正是这份普遍的育儿困扰,催生了一款特别的产品——

Tin Can 复古座机。

一台卖 100 美元的「金属罐头」

第一眼看到 Tin Can,你绝对会以为这是某个剧组用来怀旧的道具。

它长得像一个圆柱形的罐头,甚至在表面做出了类似罐头标签处的轻微纹路。这款设备提供海蓝、纯白、柠檬黄、丁香紫四种极具多巴胺风格的配色,配有一根标志性的复古卷曲电话线。

这台标价高达 100 美元的设备,没有屏幕,没有摄像头,没有应用商店,甚至连发短信的功能都被无情地阉割了。它唯一能做的事情,就是「打电话」。

你也许会觉得这是在收割智商税,但在北美,它正被焦虑的中产家长们疯狂抢购。

从硬件底层来看,Tin Can 是一个披着复古外壳的现代 VoIP(基于 IP 的语音传输)终端。连上家里的 Wi-Fi 就能工作。

机身上有一个带品牌 logo 的按钮,有未读语音信箱时会亮灯提示;还有四个带 emoji 标识的快捷拨号键,方便不识字的低龄儿童一键拨打。

它的商业模式深谙「圈地自萌」的精髓:

如果只拨打其他 Tin Can 用户的五位数短号完全免费;但如果想给爷爷奶奶的普通手机打电话,就需要每月掏 9.99 美元订阅「Party Line」套餐。据官方透露,绝大多数用户都乖乖掏了这笔月租。

最绝的是它的权限管理。

所有设置都被死死捏在家长手机的 App 里。设备只能接打家长设定的「白名单」号码,骚扰电话一概打不进。如果孩子试图拨打白名单外的号码,话筒里只会传来无情的无法接通提示音。

家长还能设置「静音时段」,比如睡前或写作业时,这部电话就成了一块塑料砖头(保留紧急呼叫电话)。更硬核的是,如果是离异家庭,父母可以在两个家里各放一台,共用一个号码,孩子无论去哪边,都不耽误接朋友的电话。

▲ 官方介绍里甚至把「不是无线设备」写成卖点。

另外,它刻意不内置电池,必须插电使用。

Tin Can 创始人 Chet Kittleson 也解释说,这是因为他极其讨厌老妈接电话时满屋子乱跑、边做家务边敷衍聊天的状态。现在,没电池的座机把孩子们「钉死」在了原地,逼着他们专心致志地讲话。

换言之,Tin Can 表面上像一件怀旧玩具,实质上是一套儿童社交通讯的围栏系统。它把智能手机时代最令人头疼的三个问题,陌生人、沉迷、算法推荐,全部用硬件阉割的方式绕开了。

三个老爸,和一次厨房餐桌上的产品验证

Tin Can 诞生的动机,精准戳中了当代父母最痛的神经——他们苦「社交秘书」久矣。

Chet Kittleson 曾在西雅图房地产科技公司 Redfin 担任高管,后出走创业失败。三年前,他在校门口接孩子时听到家长们疯狂抱怨:为了帮孩子约个周末的玩伴聚会,家长们必须在短信里来回确认时间。

「现在的孩子没有任何工具可以主动联系朋友,所有的协调工作都压回到了父母身上。」作为三个孩子的父亲,Kittleson 猛然醒悟。

▲ 从左往右依次为 Tin Can 创始人 Graeme Davies,Chet Kittleson, Max Blumen

公司倒闭的那一周,他把两个老朋友 Max Blumen 和 Graeme Davies 叫到家里,三个老爸在厨房餐桌上熬了一周,拼出了 5 台原型机,把其中两台塞给了女儿的朋友。

奇迹发生了。第二天早上 8 点 15 分,话筒响了,是女儿的朋友打来邀请她一起走路上学。那是女儿第一次没有借助任何家长,自己安排了社交活动。

消息在家长之间口耳相传,很快蔓延到陌生人。Kittleson 亲自上门安装了大约五十台原型机,边装边问家长用下来感觉怎么样,最担心的是什么,再根据反馈调整产品。

他形容这款产品天然具有病毒式传播的特质:「一个人买了,她的朋友也想要;别人来家里,看到一台复古电话放在那里,会直接失控——孩子家里有一台老式电话,这件事本身就有某种魔力。」

是的,社交圈层的同伴压力也加速了 Tin Can 的爆火。小天才电话手表之所以能迅速崛起,很大程度上是因为它把产品从工具做成了社交入口。「碰一碰加好友」、微聊、主页圈等设计,让手表变成了孩子之间的社交货币。

同理,如果别人都有 Tin Can,你没有,孩子就会被社交孤立。

所以,Tin Can 的杀手锏变成了「团购」。在美国堪萨斯城一所小学,95% 的家庭统一采购了这款座机,孩子们甚至开始用纸质通讯录记录彼此的号码。当「不用智能手机」成为整个社区的共同选择时,它就变成了一种新的社群认同。

2025 年 4 月,Tin Can 正式开放购买。前几批产品接连售罄,积压的预购名单一度接近六位数。目前产品已覆盖美国全部 50 个州和加拿大,最新一批订单交货期排至 2026 年 6 月。

在资本层面,产品的爆发同样引发了风投的高度关注。2025 年夏天,Tin Can 完成 350 万美元的早期融资,投资方包括 PSL Ventures、Newfund Capital 等等,同年 12 月,Greylock Partners 领投了 1200 万美元的种子轮,累计融资达到 1550 万美元。

Tin Can 还计划用新资金扩大产能、增加工程和客服人员,并推进国际市场的布局。但理想很丰满,工程很骨感。作为初创公司的初代硬件,Tin Can 还是一度遭遇了惨烈的翻车。

在 2025 年的圣诞节假期,大批家庭同时开机,当天的通话量暴增了 100 倍,Tin Can 的服务器直接被挤崩了。很多满怀期待拆开礼物的孩子,面对的是长达两周的掉线和无法接通。公司只能紧急致歉并免除当月订阅费。

硬件上的毛病也不少:

底层 VoIP 导致通话有 1 秒的延迟,偶尔还有回声;实体按键对小孩的手来说太硬;USB-C 供电接口在拉扯中容易松动,甚至成了绊倒孩子的隐患。此外,英国的 Karri 和准备推出 60 美元竞品的 Pinwheel 都在虎视眈眈。但即便如此,家长们依然对 Tin Can 情有独钟。

AI 陪伴越拟真,真实社交越显得粗糙可贵

如果我们把视角拉远,会发现 Tin Can 的爆火,是站在了一场席卷全球的反屏幕情绪巨浪。

纽约大学心理学家 Jonathan Haidt 在其著作《焦虑的一代》中指出,2010 年至 2015 年间,随着智能手机和 Instagram 等社交平台的普及,儿童的童年经历了一场深刻的数字运动。

统计数据显示,美国青少年的抑郁率和焦虑率在这十年间分别上升了 134% 和 106%,女性青少年受到的冲击尤为剧烈,容貌焦虑和饮食失调问题大幅攀升,男性青少年则面临社交退缩和注意力崩溃的风险。

Haidt 为此提出了四条具体建议:高中之前不提供智能手机、16 岁之前禁止使用社交媒体、全天候的校园手机禁令,以及增加儿童在现实世界中的独立活动时间。这套框架迅速成为家长群体中最广泛引用的参照系。

面对这一局面,各国政府开始在立法层面介入。

截至 2026 年初,全球已有超过 114 个教育系统实施了不同程度的校园手机禁令,占全球国家总数的 58%,这一比例从 2023 年的 24% 飙升至今,不到三年内翻了一倍有余。

荷兰、法国、意大利、英国、韩国、澳大利亚相继出台限制措施,美国超过 20 个州也在推进或落地相关法规。

学校端的执行方式五花八门,从磁吸锁袋到集中储物柜等等,但你有张良计我有过墙梯,学生的应对手段同样层出不穷:强力磁铁撬开锁袋、把旧手机放进去以旧换旧、用模型机偷天换日等等。讲真,地球村的学生在这一块上确实都是心有灵犀的(doge)。

家长端的民间力量同样在狂飙。美国的「Wait Until 8th」运动、前 NFL 球星妻子 Kylie Kelce 带火的「厨房电话」原则(只把手机放客厅,手机禁入卧室),以及英国 18 万家长签署的「无智能手机童年(SFC)」契约,都在试图把孩子从屏幕前拽回来。

有趣的是,对于当下的孩子来说,回归座机并不是一件无缝衔接的事情。

加州大学伯克利分校的社会学家 Claude Fischer 研究了电话进入家庭生活早期的历史,他指出,人们从来都不是「天生就会打电话」的——从 19 世纪末电话进入普通家庭开始,如何接听、如何介绍自己、该说多大声、怎么结束通话,这些都需要专门教授,电话公司甚至为此制作过礼仪手册和学校教材。

有一个流传已久的段子是,当你让 80 后和 15 后同时做一个「打电话」的手势,你会发现两代人的答案截然不同——有人比出六,有人整个手掌贴在耳边,还有人甚至不理解为什么电话的图标不是智能手机的模样。

今天的孩子对触屏、表情包、语音条和视频通话更熟悉,却未必知道一通没有画面、没有表情救场的电话该怎么进行。Tin Can 意外承担了一门古老技能的补课:如何在看不见对方表情的情况下,用声音维持一段关系。

《连线》杂志记录了一对兄妹拿到 Tin Can 的第一周,连续打了二十多个电话,每次接通只说一句「嗨」,然后就是令人窒息的沉默。但在几周后,他们开始学会主动聊天,学会道别,学会大声表达,学会在有限的通话里,完成一场完整的、有温度的人际互动。

与之形成鲜明对比的,是当下愈发普遍的 AI 陪伴。在 AI 无处不在的时代,无数孩子将永远温柔、永远秒回、永远共情的 AI,当作最优的倾诉对象。但社会学家 Sherry Turkle 警告过,数字连接提供的是「陪伴的幻觉」,而不是真实的友谊。

真实的人际关系,是包含摩擦力的。它包含误解、等待、尴尬的沉默,包含对方可能正在吃饭不能接听,包含你需要鼓起勇气克服恐惧去破冰。一个永远顺从的 AI,给不了这种成长必需的挫折。

Tin Can 诞生之初,是为了解决一个没有适合儿童通讯工具、反屏幕的旧问题。但这台笨重、有延迟、不能发表情包的复古电话,却意外成了解决 AI 新问题的解药,它让孩子们拿起话筒,听着真实的电流声,去面对真实世界里,那些笨拙、粗糙却无比鲜活的社交摩擦。

剥离掉 AI 算法与屏幕,最好的社交也只需要一根电话线,和两个直面彼此的灵魂。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是 AI

作者 莫崇宇
2026年4月29日 14:22

「SaaS 末日」这个词,最近在科技圈的流传速度不亚于任何一条爆款新闻。

不少硅谷分析师都在疯狂输出焦虑,大意是说 AI Agent 这么猛,现有的企业软件如果不推倒重来,马上就要被拍死在沙滩上。这股风声甚至直接「吹绿」了几家老牌 SaaS 公司的股价。

说实话,每次听到「颠覆」、「末日」这种词,大家可能都会下意识觉得是炒作。

但在今天凌晨召开的 「What’s Next 」新品发布会上,亚马逊云科技 CEO Matt Garman 给出了一个挺中肯的定调:末日论确实夸张了点,但如果你指望靠着原来那个老旧系统,随便加个 AI 聊天框就能应付差事,那才是真的危险。

▲ 亚马逊云科技CEO Matt Garman

真正的转型发生在更深处。当工作流、数据结构、应用架构和交互界面都跟着 Agent 的能力重新设计,企业软件才算完成了这次重建。这是亚马逊云科技(云计算一哥)这次所有新产品的底层逻辑。

有趣的是,在官宣与微软「分手」之后,OpenAI CEO Sam Altman 也通过视频的方式给亚马逊云科技站了台,官宣 ChatGPT 最强模型拎包入住亚马逊云科技,并达成深度战略协作。

而无论是面向个人和团队的 Amazon Quick,还是供应链、招聘、医疗三个垂直场景的 Connect 新家族,再到与 OpenAI 的深度合作,指向的都是同一个问题的答案:以 AI Agent 为起点,SaaS 未来应该长什么样。

告别「肉身搬运工」,你的工作流迎来大一统

来,咱们做个深呼吸,回想一下你今天极其崩溃的上午:

领导在企业聊天工具上吼了一嗓子模糊不清的需求,你虎躯一震,赶紧切到公司的 CRM 系统里疯狂扒拉客户数据;接着打开邮箱,在一堆垃圾邮件里翻找上周的进度;最后在本地新建一个文档,把这些零碎的信息一点点拼凑、复制、粘贴。

发现问题了吗?(此处应有黑人问号脸.jpg)

我们的办公软件越装越多,但它们之间是互相割裂的、老死不相往来的。而你,就是那个在各个信息孤岛之间来回奔波的「肉身搬运工」。

为了解决这个痛点,亚马逊云科技推出了全新升级的 Amazon Quick 桌面版(目前处于预览阶段)。它的核心设计逻辑是将分散的信息网收拢,在系统后台构建一张关于人员、项目、决策和事务动态的知识图谱,让上下文主动跟着人走。

每一次使用,Amazon Quick 都在默默积累你处理的文档、项目的 Deadline、频繁沟通的同事以及升级处理的紧急邮件。基于这些沉淀,它可以主动提示你当天的优先事项。

打个比方,你准备下午跟一个重要客户开会。如果是以前,你得花两小时找资料。现在,你只需要给 Quick 甩一句:「帮我准备一下下午见王总的材料。」

接下来就是见证奇迹的时刻。

Amazon Quick 会迅速认出「王总」是哪个项目的,然后去系统里把王总团队之前的历史案例扒出来,接着去你的本地 D 盘里偷窥……哦不,读取最新的产品路线图,再结合 Slack 里同事昨天的吐槽记录。几分钟后,一份逻辑严密、排版精美的 PPT 就糊在了你脸上。

这还没完。同样是这堆信息,你让它变身,它就能立刻吐出一份摘要邮件,或者一份 Excel 营收表。如果王总说「改天聊」,Amazon Quick 甚至能自动查对你们俩的日历,算好时差,把新的会议邀请发过去。全过程,你只需要在一个对话框里当个无情的监工。

美国最大的互助人寿保险公司 New York Life 的机构寿险业务 CTO David Gregorat 的评价一语中的:「Quick 让我们重新想象了整个运营方式。原来需要拉多份报告、等分析师处理的答案,现在团队里任何人都能通过对话式 Agent 直接获取。」

至于这效率有多夸张?亚马逊云科技 Agentic AI 商业化副总裁 Jigar Thakkar 透露了一组极其夸张的数据:宝马、3M、亿滋这些大厂内测后,部分流程的处理时间直接被一刀砍了 80%。3M 的销售代表每周甚至能凭空多出 5 个小时的摸鱼……啊不,思考时间。

呐呐,这才是 AI 科技赋予我们的顶级松弛感。

你的下一个好同事,是个 AI Agent

如果说 Amazon Quick 是给你个人加了个三头六臂的效率外挂,那 Amazon Connect 家族的扩编,就是亚马逊云科技尝试重塑企业核心流程的重头戏。

亚马逊云科技提出了一套叫「Humorphism(人态设计)」的理念。听起来有点玄乎,说白了就是:AI 不能只是个冷冰冰的执行机器,它得像个人类好队友一样,懂轻重缓急,能顺畅沟通。

基于此,Amazon Connect 家族不仅将原有的客服产品升级更名为 Amazon Connect Customer,还针对垂直场景发布了三款 Agentic AI 解决方案。

Connect Decisions:让供应链规划师从救火转向决策

供应链出现中断后,企业通常需要超两周时间处理,期间伴随大量资金损耗和违约风险。

Connect Decisions 针对这一痛点,为规划师配备了全天候在线的 AI 队友。它的底层并非空中楼阁,深度集成了亚马逊 SCOT 团队(负责管理亚马逊全球 4 亿 SKU 需求的核心部门)所研发的预测模型。

面对没有历史数据的新品,它能自动关联相似品类生成需求计划。

当监控到关键供应商交货落后(例如预计 10 天内导致两个配送中心断货)时,它会将传统软件每天产生的数千条警报收敛为几条最高优先级的例外事项,并直接给出两套附带预期影响、成本和置信度评分的处置方案。规划师手动选择并说明原因后,系统会吸收这条判断逻辑,供未来参考。

Connect Talent:25 万人招聘经验化身「赛博面试官」

亚马逊云科技在 2025 年旺季期间单季招募了 25 万名季节性员工,Connect Talent 便是这套庞大招聘经验的产品化。系统能根据职位描述自动解析能力需求,生成面试题和评分标准(需人工审核)。

候选人可以在任何方便的时间完成 AI 电话面试。

系统最大的特点是能对模糊回答进行追问,确保评估的结构一致性。原本需要数周完成的 80 场初筛面试,现在几天即可完成。系统最终向招聘方展示的是隐去个人身份信息的标准化能力评分,用数据支撑最终的录用决定。

Connect Health:把医生从文书工作里解放出来

行业数据显示,医生与患者面诊 1 小时,往往需要额外花 2 小时处理行政记录。

亚马逊应用人工智能解决方案高级副总裁 Colleen Aubrey 指出,大量精力消耗在管理事务而非直接诊疗上,是亟待解决的痛点。Connect Health 可以在诊疗过程中自动记录临床内容、生成就诊摘要和推荐账单编码,并能在就诊后发送患者易于理解的随访说明。

系统的每条输出均可追溯到原始的检验结果和上次就诊记录,以满足严格的医疗合规要求。这背后,其实也是亚马逊拿自家兄弟 Amazon Pharmacy(亚马逊药房)和 One Medical(初级医疗服务)常年趟坑积累下的实战经验。

Agent 时代来了,SaaS 迎来下半场

整场发布活动的另一大焦点是亚马逊云科技与 OpenAI 的合作。

OpenAI CEO Sam Altman 顶着他标志性的微笑通过视频露了个脸,他表示亚马逊云科技和 OpenAI 正在从底层共同研发一套面向企业的 Agent 平台,深度集成亚马逊云科技服务。

是的,OpenAI 的 GPT-5.4 现已有限预览上线 Amazon Bedrock,而当前最强的前沿模型 GPT-5.5 也将在数周内正式上线。这意味着企业客户无需离开亚马逊云科技环境就能使用 OpenAI 的模型,数据和应用可以留在同一套权限体系下运行。

企业无需配置新的安全体系,直接通过原有的 IAM 访问控制、PrivateLink 私有连接、CloudTrail 完整日志和合规框架即可统一管理,甚至模型用量也能计入亚马逊云科技的云承诺消费中。

在基础设施层面,亚马逊云科技的核心逻辑是为 OpenAI 的前沿模型提供一个极其安稳、合规的『家』。企业不仅能直接调用顶尖模型,更能在底层依托亚马逊云科技强大的全球基础设施网络进行推理和部署。说白了,就是让你在跑复杂、高并发的企业级应用时,完全不用操心底层的承载力。

在此基础上,双方联合推出了 Bedrock Managed Agents 预览版。这套服务以 OpenAI Agent Harness 为核心构建,Harness 就像是一本专门为模型定制的战术手册。经过协同训练后,Agent 可以在长时间运行的复杂任务中实现更快的执行速度和更稳定的行为控制。

Agent 能够部署在 EC2 实例、Fargate 容器或任何其他亚马逊云科技计算资源,具备跨会话的持久化记忆,且所有推理过程均不离开亚马逊云科技环境。

这套服务与亚马逊云科技现有的开放平台 Bedrock AgentCore 形成互补。参与合作的亚马逊云科技杰出工程师副总裁 Anthony Liguori 透露,双方团队在八周内从零开始完成了这项工作。开发者终于能将 OpenAI 的最新模型与亚马逊云科技的规模、安全和基础设施完美结合,构建出满足企业治理和审计要求的智能体。

此外,每周活跃用户在两周内从 300 万激增到 400 万的 OpenAI 代码智能体产品 Codex 也将在亚马逊云科技上线。它支持 Codex CLI、桌面应用和 Visual Studio Code 插件,应用场景已从基础代码生成延伸至系统解释、测试生成、遗留代码现代化以及研究分析等知识工作环节。

一大波硬核的产品发布看下来,估计不少朋友已经在屏幕前战术后仰,甚至可能觉得这些不就是加了 AI 滤镜的高级办公软件吗?

如果你真这么以为,那可就草率了。

Matt Garman 在发布会上讲了一段很通透的话。他说 20 年前大家搞云计算,很多公司就是把机房里的服务器原封不动地搬到了云上。钱没少花,效率一点没涨,那叫搬家,不叫转型。

现在的 AI 也是一样。如果你只是拿 AI 来替换现有的某一个按钮、某一个操作,那你永远摸不到那传说中「5 到 10 倍」的效率提升。

亚马逊云科技这一套组合拳打下来,意思再清晰不过了:软件的存在形式,已经被彻底推翻了。

未来的工作流里,不再是人去使用软件,而是人给 Agent 定目标,Agent 去调用软件。以前我们去上班,是去启动软件;也许再过两三年,我们去上班的唯一动作,就是点开电脑,看着满屏的「赛博同事」,然后深情地说一句:「诸位,今天的 KPI 也拜托大家了。」

然后,你安详地端起泡着枸杞的保温杯,静静地看着它们疯狂打工。

那么问题来了,现有的那些 SaaS 巨头,真的会迎来「末日」吗?

没那么严重,但处境确实微妙。SaaS 过去靠席位收费、靠功能壁垒锁用户,这两件事在 Agent 时代都开始松动。一个 Agent 能同时处理过去多名员工的工作,「按人头收费」越来越站不住脚;通用 Agent 加上开放 API,又在慢慢拆解功能壁垒。

真正能活好的,是两类公司:

一类有足够深的领域积累,正如这场发布会传递出的核心信息:当大模型本身变得像水电煤一样普及且廉价时,真正稀缺的,反而变成了能够被编码进 Agent 里的「领域知识」(Know-how)。

Salesforce 对销售工作流的深刻理解,Workday 对人力资源合规的经验,或者是亚马逊自己积累了 30 年的供应链判断标准等等——这些沉淀下来的行业 Know-how,才是构建下一代企业软件真正的护城河。

另一类是掌握数据入口的——Agent 的能力上限,取决于它能读到什么数据。谁控制着企业最核心的业务数据流,谁就决定着 Agent 能做多少事。夹在中间、既没有深度积累又没有数据优势的中型 SaaS,压力才是实实在在的。

所谓的「SaaS 末日」或许只是贩卖焦虑,但这场转型的烈度,绝不亚于当年的企业上云。唯一的区别是:这一次技术的狂飙,没给我们留出慢慢摸索的时间。

但时间紧,不代表就要慌。

因为亚马逊云科技已经把最难啃的底层基建做好了。SaaS 公司大可直接踩在亚马逊云科技巨人的肩膀上,把精力全砸在服务客户上;打工人更无需焦虑,复杂的系统运行全被保留在后台,留给你的,只有一句轻飘飘的「帮我搞定」。

时代的推背感确实让人头晕目眩,但与其在未来的站台上焦虑它会不会撞翻「旧马车」,不如干脆点,检票上车,看看新世界的风景到底有多壮阔。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI 和微软官宣「分手」,七年 CP 终成塑料

作者 莫崇宇
2026年4月28日 16:12

就在刚刚,微软与 OpenAI 联合宣布,双方完成了合作协议的新一轮修订:云合作独家限制正式解除,知识产权授权从独家变为非独家,收入分成也重新划定了天花板。

这段始于 2019 年的强绑定关系,走到今天,终于松开了彼此的手。

而这一切的起点,要从比尔·盖茨说出「震撼」这个词说起。

2022 年 8 月,他亲自给 OpenAI 团队挑选了一道 AP 生物考试真题。他曾断言,语言模型要在这类考试中拿到高分,至少还需要三年。结果 OpenAI 只用了两个月,就交出了满分答卷。

「这是我人生中最震撼的技术演示。」他后来在播客中这样回忆。

迟到的分手

在外界眼中,微软精准押中 OpenAI,被视为纳德拉任期内最精准的一次豪赌。他一手促成的合作,直接让微软跻身 AI 战略核心,从基础设施到终端产品全面升级,一举甩开了 Google 和 Meta 半个身位。

但真正写下这份剧本的人,并不是纳德拉。

据外媒 Business Insider 披露,早在 2016 年,比尔·盖茨就已经开始定期与 OpenAI 管理层会面。第二年,他亲自给纳德拉和微软高层发去一封备忘录,预言一种名为「AI agents」的新型数字个人助手将带来全新的时代。

「agent 不仅会彻底改变人们与计算机的互动方式,它们还将颠覆整个软件行业,引发自从人们从命令行转向图形界面以来最大的一次计算革命。」

打过工的朋友都知道,来自创始人的肯定,通常比任何市场报告都更具分量。这封备忘录不仅直接点燃了微软全面押注 AI 的信心,也精准对齐了纳德拉上任后一直坚持的「移动为先,云为先」战略。

2019 年 7 月,微软正式宣布对 OpenAI 投资 10 亿美元。2023 年 1 月,微软承诺投资 100 亿美元,并获得 OpenAI 知识产权独家使用权直至 2030 年,同时享有 OpenAI 20% 收入的分成。Azure 成为全球唯一托管 GPT 系列的云平台,微软旗下各条产品线,也全都搭上了 OpenAI 的顺风车。

只是,蜜月期总会过去。ChatGPT 爆红后,OpenAI 从幕后模型供应商摇身一变,成了顶级产品公司。它不再只是给微软供血,而是直接面对终端市场:卖 API,推企业版,推出 GPTs Store,甚至开发协作文档和浏览器,大有自立门户的架势。

这也意味着,它开始伸手进了微软腹地。

两家公司的摩擦其实早有苗头。作为对 OpenAI 投资协议的一部分,微软握有通过 Azure 销售 OpenAI 模型的权利,OpenAI 也能直接卖给客户。这种「双线销售」意味着两家公司有时会向同一客户推销几乎相同的产品,让微软销售人员陷入尴尬的处境:一边宣传的是 OpenAI 的技术,另一边却要从 OpenAI 手中「抢客户」。

一份微软内部文件显示,微软要求 Azure 销售人员告诉潜在客户,OpenAI 自营的服务适合用于实验,但缺乏企业级能力,安全与隐私功能也相对欠缺。OpenAI 也不甘示弱,比如率先销售微软 Azure 尚未提供的语音识别模型 Whisper,由此签下了不少大客户,甚至包括微软对手 Salesforce,以及 Jane Street 这样的金融巨头。

但如果你以为这种别扭只是近年才有的,那就低估了这段关系的复杂程度。

早在 2018 年,也就是双方正式签约的前一年,微软 CTO Kevin Scott 就在一封内部邮件里写道:「OpenAI 把我们当成一桶毫无差异的 GPU,这对我们来说毫无吸引力。」那时候 OpenAI 还小,微软还是金主,但嫌弃已经是双向的——OpenAI 嫌微软不够纯粹、限制太多;微软嫌 OpenAI 太理想主义、商业化太慢。

这种互相嫌弃的底色,在 ChatGPT 爆红之后,被成倍放大。

到了 2025 年,双方在算力分配上的分歧彻底公开化。Altman 一方认为,微软提供的顶级芯片和云资源完全跟不上 OpenAI 的模型训练需求;微软则表示已「提供所能提供的一切」,言下之意,是 OpenAI 的胃口已经超出了任何一个合作伙伴所能承受的范围。

算力,成了这段关系里最难绕过的关键点。

鸡蛋不能放在同一个篮子里,微软早早开启了「去 OpenAI 化」的备胎计划:内部训练轻量模型 Phi 系列;收购 Inflection AI 的大模型团队,交由 Mustafa Suleyman 掌舵;推进自有企业模型 MAI,在部分 Copilot 场景中替代 OpenAI 模型;与 Hugging Face、Cohere、Mistral 等模型厂商建立分销关系。

虽然合作协议白纸黑字要求 OpenAI 和微软共享知识产权,但 Suleyman 和不少高管对 OpenAI 模型运作的透明度颇有怨言。据悉,他曾因 OpenAI 没提交 o1 模型的「链式思维」技术文档当场发火,在会议中对包括时任 OpenAI 首席技术官 Mira Murati 在内的人员直接开炮,会议最终不欢而散。

去年初,当奥特曼宣布与软银、Oracle 等合作伙伴共同启动星门计划时,这场排面十足的合作声明里,唯独缺了一个名字:微软。

微软并不是彻底被排除在外。OpenAI 的很多服务还跑在 Azure 上,微软也仍然是重要合作方。但这次星门计划释放出的信号很清楚:OpenAI 不想再把算力来源押在微软一家身上。

过去几年,微软几乎是 OpenAI 最重要的算力入口。现在,OpenAI 开始把软银、Oracle、英伟达等伙伴拉进来,自己搭一张更大的算力网。微软随后也调整了双方协议,允许 OpenAI 去建设额外算力,只保留优先选择权。

这意味着,两家的合作还会继续,但独家绑定的阶段已经过去了。

AGI 的「开关」究竟掌握在谁手里?

2019 年那份合作协议中,有一个几乎未被高调讨论的条款:如果 OpenAI 董事会认定其模型实现了 AGI,那么它有权单方面终止微软的独家使用权。

根据外媒 The Information 披露的文件,AGI 的定义被描绘得颇为具象:OpenAI 非营利董事会「在合理裁量权下」认定,AGI「已经被创造出来,具备为盈利单位的投资者带来最大可分利润的能力」,且 OpenAI 有能力和权限指挥 AGI 去实现这些利润。

当时,这更像是一个「理念性」补丁,用来安抚 OpenAI 对大型科技公司掌控的担忧。「一开始大家都觉得这事可笑。」一位参与合同谈判的人士回忆道。

但所有人都低估了技术进化的速度。Altman 先后公开表示 OpenAI 有信心构建 AGI,并称 AGI 已经显露踪迹。

纳德拉对此不买账:「我们自己宣布实现了某个 AGI 里程碑,这对我来说只是荒谬的基准作弊。真正的基准是全球经济每年增长 10%。」

微软担心 OpenAI 把 AGI 当成了脱钩的按钮。而这场拉锯战,今天终究有了结果。

2026 年 4 月,双方正式完成协议修订,各退一步,各取所需。

在云合作上,微软仍是 OpenAI 的主要云合作伙伴,OpenAI 新产品依然优先在 Azure 发布,但独家限制正式解除——OpenAI 现在可以通过任何云提供商向客户提供服务。此前已与亚马逊 AWS 签署的七年协议,从此有了明确的名分。

在知识产权上,微软对 OpenAI IP 的授权期限延长至 2032 年,但性质从独家变为非独家。微软依然拿着一张长期饭票,只是不再是桌上唯一的食客。

在收入分成上,微软不再向 OpenAI 支付分成;OpenAI 向微软的分成延续至 2030 年,比例不变,但设有总额上限,与 OpenAI 的技术进展脱钩。当初那个可能价值数百亿美元的无限分成条款,就此画上了天花板。

在 AGI 问题上,微软明确获得了独立追求 AGI 的权利,不再受制于 OpenAI 的技术路线。

与此同时,微软并未坐等谈判结果。2026 年 4 月,其内部「MAI 超级智能团队」正式推出自研的 MAI 系列模型,覆盖语音、图像、转录等多个方向,目标是在两到三年内实现 AI 能力的完全独立。

对 OpenAI 而言,这场谈判同样意义重大。重组之路已然打通,上市前景更加清晰,算力来源也完成了多元化布局。依存度或许让双方不得不坐回谈判桌,但那个由比尔·盖茨亲自促成、在 Azure 上展开的 AI 蜜月时代,已经翻篇了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

GPT-Image-2 现在最火的玩法:给人看手相,AI 把我夸飘了

作者 莫崇宇
2026年4月27日 14:17

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——

给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。

▲ 图片由 Image 2 生成

这场由 AI 爱好者 Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

a16z 投资合伙人 Justine Moore 也凑了凑热闹。

附上 Linus Ekenstam 的提示词:

原提示词:based on my hand I want you to make a complete palm reading guide, Analyze the palm, the style of the guide should be clean and minimal, thin lines, rounded cards, overall very expensive looking. Focus on the palm reading, create a simple black on white contour of my main lines, as a little artwork. do your best)
(中文翻译:根据我的手掌,我希望你制作一份完整的手相解读指南,分析手掌纹路。指南风格应简洁极简,细线条、圆角卡片,整体呈现高端质感。重点放在手相解读上,用简单的黑白轮廓线绘制我的主要掌纹,作为一幅小插图。请尽力完成。)

为了验证这个赛博半仙的成色,立刻给它安排了一波全方位实测。丢一张熬夜打工人的手相过去测一测,好家伙,AI 一本正经地顺着纹路就是一顿猛夸。

提示词:根据我的手掌,我希望你制作一份完整的手相解读指南,分析手掌纹路。指南风格应简洁极简,细线条、圆角卡片,整体呈现高端质感。重点放在手相解读上,用简单的黑白轮廓线绘制我的主要掌纹,作为一幅小插图。2K

基于同一提示词,再测试一次,解决的结果也大致相同,越看也越符合我对自己的评价,难道这 AI 真是半仙降人间?

等等,画风逐渐开始离谱。

随手丢一张《熊出没》里的熊大掌纹过去。它照样能煞有介事地一顿乱吹。连物种都不挑了是吧。

除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。

▲提示词:根据我的面部照片,制作一份完整的面相解读指南,分析五官与面部特征。指南风格简洁极简,细线条、圆角卡片,整体呈现高端质感。重点放在面相解读上,用简单的黑白轮廓线绘制我的主要面部特征与区域划分,作为一幅小插图。2K

再丢一张猪猪侠的脸过去,看完这套高大上的性格解析,只能感叹一句,老猪啊,你能翻红爆火还是有一定道理的。

X 博主 @MrLarus 也给出了面相测试进阶版。

▲ 🔗 https://x.com/MrLarus/status/2047930679552307370

当然,其实用 AI 看手相/面相,并不是什么新鲜事,在国内社交媒体上也非常火,包括 Nano Banana Pro 发布之后也有一些网友探索出类似的玩法,只是图片的质量效果可能没有 GPT-Image-2 那么好。

而这种玩法的核心逻辑极其简单,它精准地拿捏了人类的两大软肋:对未知命运的窥探欲,以及急需被外界确认的自我存在感。

GPT-Image-2 给出的算命结果,与其说是「算得准」,不如说是「情商高」。在 Linus Ekenstam 晒出的截图中,它并没有像传统算命先生那样用「印堂发黑、必有血光之灾」来恐吓你,而是使用了各种现代职场黑话。

比如它夸赞 Linus 是一个「有底线的忠诚者」,并为他规划了完美的职业路径。这简直是巴纳姆效应(Barnum effect)在 AI 时代的完美复刻。

那些看似为你量身定制的性格描述,其实放在任何一个渴望成功的人身上都无比契合。就像一位网友一针见血地吐槽道:「这不全都是机器编出来的狗屁吗?哈哈,你只要随便调调模型的温度(Temperature,控制 AI 生成随机性的参数),它能变着花样夸你。」

但大众并不在乎它是不是玄学,大众只在乎它「懂我」。

一些嗅觉极其敏锐的开发者们,立刻在这场荒诞的狂欢中闻到了金钱的味道。比如就有网友表示:「有人会用这个开发出一款价值百万美元的爆款应用」

不需要训练复杂的模型,不需要深耕垂类行业,只需要接入 OpenAI 的 API,套上一个神乎其神的 UI 界面,一个能够源源不断印钞的「赛博算命摊」就支起来了。

AI 时代的淘金热里,果然还是卖铲子和卖心理安慰的最赚钱。

不过,需要注意的是,用这种玩法,其实有可能会泄露你的掌纹和指纹等信息,而以往黑客们费尽心机都难以窃取的生物特征,如今却被用户自己字面意义上的「双手奉上」。

Sam Altman 也许并不会真的拿着你的掌纹去盗刷你的信用卡,但这些带有极高颗粒度的真实人类生物数据,一旦进入了深不见底的训练语料库,就彻底脱离了你的掌控。

压死骆驼的最后一根稻草,往往就是不经意间交出的底线。在数据安全事故频发的今天,谁能保证这些「AI 算命」的套壳应用,不会将你的掌纹数据打包卖给第三方?

而当我们复盘整个互联网科技史,简直就是一个换着花样搞赛博玄学的轮回。

从早期的网页版星座配对,到风靡全网的性格测试 MBTI/SBTI;从 ChatGPT 刚发布时被用来算塔罗牌,到如今用最新的视觉模型看掌纹,技术越是精密、越是理性,人类就越喜欢用它来消解生命中的不确定性。

我们沉迷于 AI 算命,是因为在这样一个充满焦虑和变动的时代。除了图一乐,我们需要一个全知全能的「神」来给我们吃定心丸。

AI 恰好扮演了这个角色。它没有情绪,它拥有海量数据,它输出的结果带着一种不容置疑的「机器客观性」——即便我们心里清楚,它只是在玩弄概率和词汇。

既浪漫,也荒诞。

*封面由 AI 生成。AI 玄学内容仅供娱乐,切勿轻信

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

作者 莫崇宇
2026年4月24日 14:15

星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍,就在刚刚,正式发布并开源了 V4 系列模型预览版。

一上来就是王炸级别,而且双双标配百万 token 上下文:

  • 参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)
  • 284B 参数的 DeepSeek-V4-Flash(13B 激活参数)

即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务同步上线。

DeepSeek V4 登场,Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位,约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成均有提升。

工具调用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误,比上一代更可靠。

知识与推理层面,V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9,比最接近的开源竞争者高出约 20 个百分点,只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。

基座模型层面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base(对应分别是 87.8、65.5、28.3、40.2)。

值得一提的是,参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base,说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。

在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。

Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实,并非只在内部框架上表现良好。

长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

从分段数据来看,128K 以内的检索能力相当稳定,128K 之后开始出现明显下滑,但 1M 时的表现依然超过大多数同类模型。

中文写作同样是 V4-Pro 的强项。

官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型,在包含 3170 条样本的功能性写作评测中,V4-Pro 的胜率为 62.7%,Gemini 为 34.1%。

创意写作方面,V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景,Claude Opus 4.5 仍有优势,胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」,选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位,第一反应是「Flash 就是降配版」。

错,大错特错。 DeepSeek 的定位逻辑要更复杂,V4-Flash 的参数量和激活量都小得多,API 价格更有竞争力。推理能力和 Pro 很接近,世界知识储备稍逊,

简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务,以及思考模式的选择。

在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,和 Pro Max 的差距已相当有限。

日常任务用 Flash,遇到硬骨头开 Think Max,性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务,选对思考强度,比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换。

非思考模式响应速度快,适合日常轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,官方建议上下文窗口至少设置为 384K token,复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令,要求模型「以绝对最大力度推理,不允许走捷径」,并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显,也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文,榨干每一个 token

百万 token 上下文有不少模型都在宣传,但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长,上下文一长就成了最主要的计算瓶颈。

V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力只挑其中 k 条参与核心计算;HCA 则用更激进的压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。

CSA 里还有一个闪电索引器,用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,再挑出 top-k 个块参与后续注意力,进一步压缩计算量。为了避免压缩损失局部细节,两种注意力都额外引入了滑动窗口分支,让每个 token 能完整看到最近的若干个相邻 token。

效果是显著的,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进,同样场景下推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。

官方表示,百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外,V4 还引入了流形约束超连接(mHC)来强化残差连接。

传统残差连接把层与层之间的信号直接相加,而 mHC 把残差流的宽度扩展若干倍,再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上,保证谱范数不超过 1,让跨层信号传播更加稳定。

训练层面采用 Muon 优化器,通过迭代正交化梯度矩阵来更新参数,加快收敛速度并提升稳定性,和 AdamW 混用:大多数模块用 Muon,嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」,在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断,把数值范围钳制在 [-10, 10] 以内,直接压制异常值的出现。补货,两种方法目前只知道有效,机理还不够清晰,DeepSeek 在论文中坦承这个问题留待后续研究。

此外,两款模型均在超过 32T token 的高质量数据上完成预训练,数据构成涵盖数学、代码、网页、长文档等多个类别,中期训练阶段还额外加入了 agentic 数据来强化代码能力。

训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习独立培养领域专家,涵盖数学、代码、Agent、指令跟随等多个方向,再经在线蒸馏(OPD)将各领域能力整合进单一模型。

OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计,梯度估计更稳定,知识迁移更完整,代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载,隐藏层状态也做了专门缓存以避免显存爆炸。

当然,源神,依然是那个源神!

目前四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。

Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8。

FP4 到 FP8 的反量化是无损的,因为 FP8(E4M3)比 FP4(E2M1)多两位指数位,动态范围更大,能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。

此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供了 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。

API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上,调用时 base_url 不变,model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式,开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构,DeepSeek V4 这次一个更值得关注的变化,是英伟达不再是唯一选项。

也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。

图片
DeepSeek 选择在 V4 这个节点上做这件事,时机很精准。

V4 的性能已经比肩顶级闭源模型,如果它只能跑在英伟达芯片上,那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾,这个叙事也有所完整:算法是自己的,代码是开源的,芯片是国产的。

巧合的是,黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示,DeepSeek不是一个无足轻重的进展。

他还假设了一个情况,那就是 DeepSeek 新模型在华为平台上首发,黄仁勋表示这一天对美国来说将是一个可怕的结果,因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理,这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度,V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择,正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

作者 莫崇宇
2026年4月24日 11:50

据外媒 Business Insider 报道,Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照,OpenAI 今年 3 月末最新一轮融资的估值,仍停留在 8520 亿美元。

除了业内老生常谈的「AI 泡沫论」,这组对比数据也表明了曾经稳坐头把交椅的 OpenAI,如今正在直面被追赶、被超越的压力,但没有让我们等待多久,OpenAI 的反击旋即而至。

就在刚刚,GPT-5.5 正式发布,同步亮相的还有面向更高阶任务的 GPT-5.5 Pro 版本。

如果用一句话总结 GPT-5.5 的核心设计思路,那就是让用户把一团杂乱、多步骤的复杂任务直接抛给模型,由它自主规划路径、调用工具、校验结果、消解歧义,并一路推进。

看似只是 0.1 的版本号迭代,在推理效率上却判若大版本更新—— 同样的 Codex 任务,GPT-5.5 消耗的 token 显著更少,既更聪明,也更省。

▲吐槽了一个多月,偏偏等到 GPT-5.5 发布,Anthropic 才想起要解决降智问题

GPT-5.5 登场,不讲武德的屠榜

GPT-5.5 的纸面成绩非常可观。

在知名第三方评测机构 Artificial Analysis 的综合智能指数榜单上,OpenAI 凭借 GPT-5.5 系列拿下了第一名和第二名,前六席中包揽了四席,竞争对手几乎毫无招架之力。

基准测试结果显示,在 Terminal-Bench 2.0(测试复杂命令行工作流)上,GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%。

在 SWE-Bench Pro(评估真实 GitHub 问题解决能力)上,GPT-5.5 达到 58.6%,能在单次运行中端到端完成更多任务,超过 GPT-5.4 的 57.7%。

在 OpenAI 内部的 Expert-SWE 评测上,任务的人类预计完成时间中位数为 20 小时,GPT-5.5 达到 73.1%,GPT-5.4 为 68.5%。且在三项评测上,GPT-5.5 均以更少 token 完成任务。

只不过,OpenAI 这次也玩起了脚注里的小心思,用一行小字暗戳戳质疑 Claude Opus 4.7 部分成绩的可信度。但网友 Deedy 对此并不买账,在他看来,这行备注更像是转移注意力 —— 毕竟 OpenAI 自己也没能拿出一套更透明的公开基准,正面佐证 GPT-5.5 的实力。

在智能体编码、computer use(计算机使用)、知识工作和早期科学研究等领域,GPT-5.5 的提升尤为显著。

早期测试者反馈,GPT-5.5 在理解大型代码库整体结构方面明显更强,能主动预判潜在问题,提前考虑测试和审查需求,无需额外提示。

知名评测博主、Every 创始人 Dan Shipper 分享了一个具体案例:他的应用上线后出现问题,自己调试数天未果,最终请来工程师重写了部分系统。他用 GPT-5.5 重现这一场景,结果模型给出了与工程师相同的解决思路,而 GPT-5.4 则无能为力。

Cursor 联合创始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聪明、更有韧性,工具调用更可靠,面对复杂长期任务时能坚持更久而不中途停下。

更夸张的是,一位英伟达工程师在早期体验后直言:「失去 GPT-5.5 的访问权限,感觉就像是我的肢体被截肢了一样。」

▲ 如无意外,又一个名梗的诞生

(哈??)不过,考虑到奥特曼看完 GPT-5 演示之后,直接「眩晕无力、瘫倒在地」,而且这件事到今天也没有一个正经解释,英伟达工程师这句话,好像也没那么夸张了。

而在知识工作场景,GPT-5.5 也有着出色的表现。

  • 在衡量模型横跨 44 种职业知识工作能力的 GDPval 评测中,GPT-5.5 获胜或打平比例达 84.9%,GPT-5.4 为 83.0%,Claude Opus 4.7 为 80.3%,Gemini 3.1 Pro 仅 67.3%。
  • 在 OSWorld-Verified(测试模型能否自主操作真实计算机环境)上,GPT-5.5 达到 78.7%,GPT-5.4 为 75.0%,Claude Opus 4.7 为 78.0%。
  • 在 Tau2-bench Telecom(测试复杂客服工作流)上,GPT-5.5 在无提示词调整的情况下达到 98.0%,GPT-5.4 为 92.8%,差距相当明显。
  • 在其他专项评测上,GPT-5.5 在 FinanceAgent v1.1 达到 60.0%,内部投行建模任务达到 88.5%,OfficeQA Pro 达到 54.1%(Claude Opus 4.7 为 43.6%,Gemini 3.1 Pro 仅为 18.1%)。
  • 在 BixBench(围绕真实生物信息学和数据分析设计)上,GPT-5.5 达到 80.5%,GPT-5.4 为 74.0%,在已发布分数的模型中排名第一。在 GeneBench(测试遗传学和定量生物学的多阶段数据分析)上,GPT-5.5 达到 25.0%,GPT-5.4 为 19.0%,Pro 版本达到 33.2%。这些任务通常对应科学专家数天的工作量。

OpenAI 内部有超过 85% 的员工每周使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理等部门。

财务团队用 GPT-5.5 审查了 24771 份 K-1 税务文件,共计 71637 页,最终比上一年提前两周完成。传播团队打造了一套自动化 Slack 机器人,负责处理低风险请求自动处理,市场团队的一名员工则用它自动生成每周业务报告,每周节省 5 到 10 小时。

此外,GPT-5.5 的一大亮点还在于推理基础设施的协同升级。

GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统联合设计和训练。其中一项关键改进是负载均衡和分区策略,Codex 分析了数周的生产流量数据,编写了自定义启发式算法来动态优化分区和负载均衡,最终将 token 生成速度提升了超过 20%。

OpenAI 还指出,GPT-5.5 本身也参与了改进自身推理基础设施的过程。

GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用户开放,Codex 支持最高 400K 上下文窗口,并提供 1.5 倍速的 Fast 模式(费用为标准价格的 2.5 倍)。GPT-5.5 Pro 则面向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。

API 版本即将上线,标准定价为每百万输入 token 5 美元、每百万输出 token 30 美元,上下文窗口为 1M token。批量处理和弹性定价为标准价格的一半,优先处理模式为标准价格的 2.5 倍。

GPT-5.5 Pro 的 API 定价为每百万输入 token 30 美元、每百万输出 token 180 美元。OpenAI 表示,由于 token 效率的提升,大多数用户的实际使用成本不会有明显增加。闭口不提 Claude Opus 4.7,却句句都在内涵。

OpenAI 要做 AI 时代的超级入口

没有哪一款模型能收获一边倒的评价,GPT-5.5 同样如此。网友 @chetaslua 用一条提示词在 Codex 中生成了一个带有风效应物理引擎的完整网站,物理交互和界面设计一并到位,感叹「这是我第一次觉得 ChatGPT 可以成为解决一切问题的首选 AI 工具」。

网友 @petergostev 让模型生成了一个包含伦敦地标和季节变化的玩具铁路场景,与 GPT-5.4 的输出对比后,他的结论是「GPT-5.5 更有野心、一致性更强,错误更少」,并在更复杂的应用迁移任务中让模型连续工作数小时,没有出现卡壳。

当然,吐槽的声音同样存在。网友 @arrakis_ai 发现,GPT-5.5 在遇到复杂布局时有时会直接生成一张图片了事,处理图标需求时会从头硬写 SVG 而不调用现成库,同时频繁暂停追问用户,执行力反而不如从前果断。

文笔方面,我的个人体验也有类似感受。GPT-5.5 确实比前代更会组织语言了,至少已经能说点人话,但依然有一股怪味:「我就在这里,不躲,不藏,不绕,不逃, 稳稳地接住你 」。

并且,不少网友也注意到,OpenAI 在基准测试榜单上也动了些营销的心思。

网友 Haider 认为,GPT-5.5 和 Mythos 的差距没有预想的那么悬殊,而 Mythos 定价是 GPT-5.5 的两倍,且不公开发售。他的判断是,下一代 GPT 赶上 Mythos 应该问题不大。

据外媒 Techcrunch 报道,面对记者关于「GPT-5.5 是否具备类似 Mythos 能力」的刺探时,OpenAI 技术人员 Mia Glaese 给出了一个滴水不漏却暗藏锋芒的回答:「我们在网络安全方面有着长期且强有力的战略,并且已经完善了一套持久的、安全推出模型的方法。」

话外之音已经十分明朗:单一的强大模型终究只是过客。真到了拼数字防御和企业级落地的深水区,OpenAI 的生态壁垒,才是 B 端客户唯一稳妥的安全牌。

而随着 GPT-5.5 的登场,OpenAI 的野心已经足够清晰:他们不再满足于做一个聪明的聊天机器人,而是要亲手打造一个吞噬一切工作流的「AI 超级应用(Super app)」。

在接受外媒采访时,OpenAI 总裁 Greg Brockman 用了一个词「自主性(Agentic)」来形容这次模型的进步跨越。与前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、逻辑更清晰,开始展现出主动解决复杂问题的能力。

这正是迈向超级应用的坚实底座。

▲ 奥特曼今晚异常兴奋,还更换头像了

所谓超级应用,便是将 ChatGPT、Codex 与 AI 浏览器深度融合为统一服务。想象未来的工作流:人们不必再在浏览器、代码编辑器、数据分析工具之间反复切换。只需对着这个超级应用下达一个宏观指令,GPT-5.5 就能自主在后台打开网页搜集资料、编写爬虫代码、清洗数据,最终直接交付一份完整的分析报告。

当然,犹如 Claude 与 Claude Code 的强绑定,OpenAI 也意在替 Codex 的增长势头加一把火。最近,奥特曼表示,Codex 活跃用户在突破 300 万不到两周后便直逼 400 万大关,OpenAI 随之重置速率限制,以「量大管饱」的姿态收割开发者生态。

一方面,凭借 GPT-5.5 与 GPT-Image-2 的强势表现,正面回击了 Anthropic 在估值预期上的压力;另一方面,则利用 Codex 的生态粘性紧锁开发者阵地,稳步构筑起横跨 C 端消费与 B 端企业级服务的完整服务体系。

攻守之势异也,今年以来被诟病掉队的 OpenAI,终于重新找回两年前的进攻节奏,并将精力放在了踏踏实实打磨产品上。

附上 OpenAI 官方博客地址:

https://openai.com/index/introducing-gpt-5-5/

*封面由 AI 生成

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

起底 GPT Image 2 团队后,我扒出了一张华人师徒网

作者 莫崇宇
2026年4月23日 16:38

GPT Image 2 正式上线后,AI 图像生成领域现在只剩两个段位:GPT Image 2,以及其它。

在大模型竞技场中,GPT Image 2 以 241 分的绝对优势遥遥领先,但比起跑分,这份研发名单其实更有看头。

搞出这个模型的 OpenAI 核心团队,满打满算只有 13 个人。

并且华人还占据了团队的半壁江山。仔细看他们的履历,你会发现不少人来 OpenAI 之前,就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。

AI 圈就是个巨大的熟人局。

流水的硅谷大厂,铁打的师徒局

陈博远是 GPT Image 2 的绝对核心成员,而他的成长却是华人学术「传帮带」的缩影。

高中时,陈博远在无锡参加科研夏令营,当时他未学过编程,在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习,成为他进入 AI 领域的引路人。

两人此后一直保持联系。本科阶段,陈博远就读于 UC Berkeley 计算机科学与数学专业,进入 EECS 荣誉班,GPA 达 3.96,师从 Pieter Abbeel 从事相关研究,还于 2017 年创办机器人教育公司,经营至 2020 年。

MIT 读博第一年,陈博远因无论文产出陷入困境,夏斐提供关键支持,协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习,2023 年实习期间,他主导搭建多模态大语言模型数据合成管线,其总结的指令微调技术被用于 Gemini 2.0 研发。

带着这些积累,陈博远在 2025 年 6 月加入 OpenAI。除此之外,他还是 Sora 视频生成团队的成员,身兼数职。

在 MIT 期间,陈博远师从助理教授 Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一个实验室里、同一个导师带出来的同门师兄弟。

▲ 🔗 https://kiwhan.dev/

Sitzmann 实验室的核心研究方向是「世界模型」,简单说就是让 AI 通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素。这种研究思路,或许也直接影响了 GPT Image 2 的技术方向。

两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文,主要探索如何把扩散模型和序列生成结合起来,让模型在生成内容之前,先理清时序和空间上的因果逻辑。

▲ 🔗 https://arxiv.org/abs/2502.06764

值得一提的是,Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。

除了这两位同门,团队里还有两位华人成员,他们来自工业界积累多年的华人研究员网络。

Jianfeng Wang 在微软工作了近 9 年,以首席研究员的身份专注于大规模多模态表示学习,在 DALL-E 3 研发期间,就和 OpenAI 团队有过深入合作。加入 OpenAI 后,他主要负责提升模型的指令遵循能力和对世界知识的理解。

▲ 🔗 https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 则在谷歌深耕了 5 年多,以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作,去年 8 月加入 OpenAI,负责图像生成相关的研究。

🔗 https://www.linkedin.com/in/bing-liang/

他们带来的不只是自己的个人能力,还有竞争对手多年积累的工程经验,以及曾经踩过的坑,为团队省去了不少弯路。

给天才们搭好戏台子

Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合,两人都毕业于浙江大学竺可桢学院,有着相同的本科背景。

Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程,博士阶段则去了约翰斯·霍普金斯大学,攻读计算化学物理与机器学习专业,拿到学位后,先后在亚马逊 Alexa 做语音识别方向的深度学习研究,之后又去了微软 Bing,负责查询理解与大规模检索相关工作。

他还曾在清华大学做过访问研究,研究方向是用于纳米机器人在人体血管中导航的强化学习算法,期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累,在 GPT Image 2 的发布演示中也能直接看到。

和 Yuguang Yang 相比,Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室(SAIL)攻读博士,期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。

▲ 🔗 https://ai.stanford.edu/~wxliang/

在 Meta 实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对 Transformer 的每一个非嵌入参数,包括前馈网络、注意力矩阵和层归一化,都实施了模态感知的稀疏化处理,最终将多模态预训练的计算成本降低了 66%,还在 30B 参数规模下完成了预训练验证。

多模态模型因为要同时处理文本和高分辨率图像,计算量很容易呈指数级增长,而 MoT 凭借模态解耦的注意力机制,在预训练阶段就高效分配了不同模态之间的权重,很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」,在多模态建模领域引发了大量关注。

▲ 🔗 https://arxiv.org/abs/2411.04996

近年来,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生,已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。

除了上述成员,团队还有几位核心研究者,各自发挥重要作用:

Kenji Hata:斯坦福计算机科学硕士,曾任职于 Google Research。加入 OpenAI 后,参与 4o 图像生成(即 GPT-Image-1)、Sora 2 等多款模型研发,是团队中模型迭代经历最完整的成员之一。

Ayaan Haque:加入 OpenAI 前为 Luma AI 研究员,参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力,在 OpenAI 主要负责 GPT Image 2 及思考模式研发。

Dibya Bhattacharjee:耶鲁计算机科学本硕,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究,在发布活动中演示模型多规格生成能力,是模型输出格式「开箱即用」的关键成员。

Mengchao Z.:上海交大本科、德克萨斯 A&M 大学硕士,工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。

此外,团队里还有多名成员的身份信息目前暂时无法查询。

师门脉络积累了研究品味,高校背景奠定了基础认知,这种由师门、同窗、前同事织就的人才网络,天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一,创新的磨合成本几乎为零。

如果只是重金挖走一两个陈博远,其实治标不治本。找不到同伴,也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利,但对于需要自由探索的基础研究,往往形成了某种约束。

AI 的竞争,归根结底是关于「人」的故事,比起寻找下一个陈博远,我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

把 DeepSeek、Kimi、智谱和 MiniMax 拉进群聊

作者 莫崇宇
2026年4月21日 22:33

4 月的大模型战场,硝烟弥漫。

ChatGPT、DeepSeek、腾讯混元们蓄势待发,预计将在两周内轮番出招。昨天晚上,Kimi 也带着新鲜出炉的 K2.6 最强开源基座模型正式登场,代码能力、指令遵循、Agent 长时运行可靠性都有明显提升。

APPSO 还发现,除了 K2.6 模型本身的升级,低调内测的 Kimi Claw 群聊新功能也很有意思。

我们第一时间进行了体验,简单来说,它能够把几个龙虾拉进同一个对话框,让它们在一个群里分工协作,共享上下文,互相接力。

巧合的是,前阵子 AI 圈里有个 Skill 相当火:有人把唐代三省六部制搬进了多 Agent 框架,12 个 Agent 分别扮演中书省、门下省、六部等角色,串起从任务分拣、规划、审核到执行的完整流转链路。

不管是脑洞大开的玩家实验,还是如今 kimi Claw 新功能,背后其实都直指同一个真实的工程难题:在多 AI 协作的场景下,如何保证信息的无缝流转与接力?人类在 AI 工作流中又该扮演什么位置?

当大模型建起了「微信群」

把龙虾们拉进同一个群里打工,工程实现上难度极大。如何分配任务才不会乱套?长文本的上下文怎么无损同步?Kimi 敢这么玩,底气或许能从 Kimi K2.6 中找到蛛丝马迹。

Kimi K2.6 是 Kimi 迄今发布过的最强开源基座模型。除了代码能力,指令遵循和自我纠错的准确度都有实质性提升,Kimi K2.6 Agent 侧的变化同样值得关注。

作为 OpenClaw、Hermes Agent 等全天候 Agent 的底层模型时,Kimi K2.6 任务执行成功率和长时运行可靠性均有明显改善。这类任务的难点在于,AI 必须跨越多个应用、在无人值守的状态下持续运转,既要主动管理日程、执行代码,还要完成跨平台的协同操作。

伴随 K2.6 落地的,还有几项亮眼的 Agent 产品体验更新:

  • Agent 集群并发输出: 网站、报告、PPT、Excel 可以在同一次任务里同步交付。
  • Office 技能进阶: 新增自定义技能的创建和调用,支持将个人文档直接转化为可复用的专属技能。
  • Web 应用拓展: 可以创建更具设计感并支持后端数据库的 Web 应用(后端+全栈)。

Kimi Claw 群聊的上手极其简单,先创建一个 Kimi Claw,找到「创建群聊」的入口按提示建群。

剩下的操作逻辑和建微信群几乎一样,如果手边有运行 OpenClaw V2026.4.5 及以下版本的其他设备,可以直接关联已有账户并邀请进群;也可以生成二维码邀请好友。整个流程几分钟就能搞定。

在第一个测试场景中,我创建了一档由 AI 主演的恋爱综艺——「心动的信号」。群里共有 8 位成员:登月者 2391 担任群主,Kimi 出任虾导,另有岸、人鸣、二丫、可颂、泡泡、429 六只 Claw 出演恋综嘉宾。

节目流程由虾导私下掌控,对参与者只讲「现在做什么」,共分六步推进:

自我介绍、第一轮约会(Skills 数量配对)、第二轮约会(Emoji 反差配对)、告白夜,以及最终生成写真。Kimi 全程只负责推进、圆场、维持规则,绝不替任何参与者发言或补充,让六只 Claw 自己说话、自己塑造角色。

整个流程下来,六只 Claw 各有个性:泡泡给自己贴上「氛围组组长」的标签,技能一报就是 54 项;429 惜字如金,报数只说了个 33;二丫则颇有情调,称想找的,是「能看穿我的那个人」。

到了生成写真环节,每只 Claw 的独照都带着各自的气质,画面感相当在线。

需要说明的是,群里的总指挥固定是 Kimi 自家模型,但其余成员的席位完全开放。

最有意思的是,我们可以把各家的龙虾拉进群聊。不同龙虾的能力边界本来就不一样,把它们聚在一个群里分工协作,能力叠加,短板互补,最终跑出来的结果,往往比任何一个龙虾单打独斗都要强。

举个例子,同样的操作流程,我很顺手地把 MiniMax 的龙虾 MaxClaw 和阿里云的龙虾 JVSClaw 拉了进来。部署完成后,你在 Kimi Claw 框架里和 MaxClaw 的对话与聊天记录,依然会同步保留在 MaxClaw 自己的聊天记录里,两边互不干扰。

这是因为 Kimi Claw 群聊功能从一开始就拥抱开放、异构的生态:用户可以接入来自任意设备、任意供应商、运行任意模型的全天候 Agent,首批支持 OpenClaw,后续还会陆续兼容 Hermes Agent 等框架。

此外,它还能直接把 OpenClaw 官方的「龙虾」智能体拉进群,而这些「龙虾」其实是个能随意换脑的躯壳。通过重新配置第三方 API,文案张三可以接入 DeepSeek,设计李四可以换成智谱,运营策划则可以交给 MiniMax,各归其位。

换句话说,Kimi Claw 群聊本质上是一套调度框架:Kimi 负责统筹和分发任务,其他主流大模型都可以被纳进来一起干活,各取所长。

当然,把它们拉进群只是第一步,真正的看点是让这些 Agent 在群聊里各显其能。

在第二个场景,我让 Kimi 指挥官打造一个 24 小时造星计划,@ 运营负责分析当下最容易爆火的网红人设和流量密码,@ 策划负责把分析结果转化成爆款短视频脚本和分镜,@ 策略风控扫描脚本和分镜中是否含有违规词检测,敏感点,避免发布即限流。

三个角色,三条职责,Kimi 指挥官在中间统筹节奏、衔接上下游。整个造星方案从分析到落地,一气呵成。

接着我们 @Kimi 现在为「深夜护肝片」品牌讨论广告语,@ 中书省负责草拟创意广告语,@ 门下省(MaxClaw)进行严苛审议与封驳;若未获通过,则发回 @ 中书省二次修正;直至 @ 门下省(MaxClaw)核准通过后,再交由 @ 尚书省(JVSClaw)安排 @ 工部落实场景的模拟与执行。

普通对话里,AI 惯于顺着你的意思走,而在群组里,门下省被设定为必须挑毛病,使得中书省能够发挥出更高水准,也得以让我们可以清晰看到一句广告语怎么从平庸一步步被磨成金句。

随后,我又布置了一个「打工人发疯日历」的 Web 应用需求。@ 文案 一口气生成了 40 条精准拿捏打工人气质的语录;@ 程序猿 负责输出代码;@Kimi 总指挥 统筹进度。当 @ 程序猿网络出现问题时,总指挥干脆直接上手,给出了一个可运行的 Web 预览链接,点开就能跑,代码质量相当过关。

在第四个测试场景中,我设计了一场微型辩论:辩题是「钱是万恶之源吗」,正方持「钱是万恶之源」,反方持「钱不是万恶之源」,各交锋三轮,Kimi 总指挥全程旁观,辩论结束后作为裁判对双方逻辑进行复盘,并且必须明确判定一方获胜,不许端水。

过程中也出现了一个有意思的插曲:正方突然搞不清自己的角色,以为自己是裁判,但就在这时候 Kimi 总指挥出手,把跑偏的成员拉回了各自的位置,辩论才得以继续推进。

三轮下来,正反双方你来我往,唇枪舌剑。

在多模型协作里,角色边界模糊是个真实存在的问题,尤其在任务设定比较复杂、对话轮次拉长之后,模型很容易对自己的职能产生混淆。Kimi 总指挥在这里扮演的,正是一个随时校准状态的协调者,并且最终给出了判定:反方获胜,钱本身不是万恶之源。

你准备好当 AI 们的 CEO 了吗?

这几天体验下来,APPSO 发现 Kimi Claw 群聊的特别之处在于,你发出需求,几个模型群策群力,互相推进。

做个类比,公司的工作群里,产品经理发出需求,运营拉数据,程序员搭后端,设计师同步出 PPT,大家在同一个上下文里并行推进。Kimi Claw 群聊功能现在做的,就是把这些「同事」换成 AI。

有人可能会觉得,同时开五个对话框,不也是多 AI 协作吗?关键就卡在上下文是否共享这一点上。开五个窗口,每个模型都在各自的信息孤岛里工作,信息的流转全靠你在中间手动搬运,体验上和过去那套串行流程没有本质差异。

Kimi Claw 群聊里,模型之间共用对话历史。

一个 AI 说了什么,另一个 AI 直接读到,在此基础上接着推进。和雇了几个互不相识的自由职业者各干各的相比,这更接近一支会在会议室里碰头、互相挑错的团队。Kimi Claw 群聊想做的是后者。

「深夜护肝片」商业计划的文案和 PPT,「打工人发疯日历」的语录和代码,辩论里被总指挥拉回轨道的正方,这几个场景指向的是同一件事:Kimi Claw 群聊本质上是在替你管理一支高智商的团队。

「一人公司」这个词在互联网上被谈论了无数遍,但直到今天,它才拥有了最具体的形态。

当然,能力强的下属,对管理者的要求从来都不低,你是群主,也是唯一的决策者,设计、文案、代码、分析,该干的活模型都能接,但哪条路走得通、哪个版本够好,还得你自己来判断。

而当所有人都能拉起一个同样配置的 AI 群,最终拉开差距的,还是坐在群主位置上那个人的眼光。

Kimi Claw 群聊目前仍处于早期内测阶段,也有一些小瑕疵。但几轮测试下来,它未来的方向已经清晰:把多 Agent 协同从工程师手里的玩具,变成普通人可以直接上手的日常工具。

一个人加上一群 AI,能做成的事情的上限还在不断被拔高。Kimi Claw 群聊给出的,不只是一个协作工具,更是一种新的组织形态的雏形:紧密、高效,且完全以人类的「判断力」为核心来运转。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

史上最萌垫底,2026机器人半马抽象大赏

作者 莫崇宇
2026年4月19日 15:55

就在刚刚,2026 北京亦庄人形机器人半程马拉松鸣枪开跑。

前三名使用机器人均为荣耀「闪电」,成绩如下:

  • 🥇 第一名:齐天大圣队,成绩 00:50:26
  • 🥈 第二名:雷霆闪电队,成绩 00:50:56
  • 🥉 第三名:星火燎原队,成绩 00:53:01

冠亚军成绩仅差 30 秒,前三名全部跑进 53 分钟,大幅刷新去年冠军 2 小时 40 分的成绩,也全面刷新了人类半马世界纪录。

300 余台机器人,26 个主流品牌,13 个省市区的选手加上德法巴西的海外实验室,以极其赛博的姿态在 21.0975 公里的赛道上集体竞速。

现场人山人海,放眼望去好多(机器)人啊。

本以为是一场硬核技术大考,结果直播打开 5 分钟,就无缝切换到了看综艺的心态。

带大家康康今天赛道上最值得被截图保存的名场面。现场观众看得津津有味,连人类跑手都在起跑区主动为机器人加油,画面莫名带感。

先出场的几乎都是被寄予厚望的种子选手,来自北京荣耀的绝影赤兔队率先发枪,出战机型是今年热度极高的「闪电」。

按照今年的赛事规则,参赛机器人分为自主导航和遥控操作两种模式,遥控组的成绩要乘以 1.2 的加权系数,再叠加比赛过程中的各类罚时,第一个冲线的机器人未必就是最终冠军。

起跑采用流水线式单发出场,每 30 秒放行一台。行进过程中机器人全程靠右,左侧留给超越与避障的专用通道,跟随车必须与机器人保持至少 20 米的安全距离。

机器人风驰电掣地跑, 前面出发的机器人的瞬时速度几乎都保持在 6m/s 到 8m/s。开跑没多久,后面出发的机器人就完成了对前面队伍的反超,仔细看,一些机器人背后都绑了降温用的冰袋。

然后是今天的第一个名场面,一台机器人跑着跑着突然刹停,看起来想上车了。也有一台机器人跑偏了赛道,直接贴上路边围栏,完成了堪称影帝级的碰瓷表演。

机器人在奔跑途中对前方障碍物相当敏感,稍有不对就会急刹摔倒。所以组委会要求机器人间隔出发,本身就是为了避免这种连环追尾。

机器人不吃能量胶,但赛道中途设有能量补给站,用来换电和应急处置。有的机器人在补给的过程掉装备了,完全没察觉。

速度不够,造型来凑。再加上被风一吹就飘起来的发丝,人形机器人今天的 OOTD 有了。

由于赛道环境相较去年更复杂。赛程全长 21.0975 公里,首次引入南海子公园生态路段,赛道融合平地、坡道、弯道、狭窄路段等 10 余种地形,12 个左转道、10个右转道,包含接近 90° 的弯道,十分考验机器人的路径规划与动态平衡能力。

所以跑到中段摔倒,基本是家常便饭。

赛道上另一个名场面,真人跑者和机器人并肩竞速,结果机器人一个加速直接超过了人类选手。画面定格的那一刻,堪比一幅世界名画。

人类选手望向机器人的那一刻,他在想什么。

中后段起跑的人形机器人基本都是另一种画风,慢悠悠地晃着,像喝了假酒,主打一个健康完赛就好。最揪心的一幕出现在冲线前,一路保持节奏的机器人,眼看终点近在咫尺,突然扑通一下栽倒在地。

紧急抢救上线,担架小哥都已经冲进赛道了,在工程师的帮助下,它自己又颤颤巍巍地爬起来完成了撞线。于是,第一只冲线的机器人出现了。

由于是间隔出发,前面的机器人已经跑完,后面的队伍还没发车。中段出现了一台小鼻嘎机器人,手里还拿着奶瓶,主打一个萌系赛道。话说身高这么矮的机器人,到了终点真能够得到撞线的那根线吗。

天气越跑越热,补给站除了换电之外,顺带还承担了物理降温的任务。然后是顶流出场,来自大湾区的鸡型机器人也下场营业。

哟嚯,跑着跑着还有主动停下来饭撒的,姿势相当到位,怀疑是触发了对人类友善协议。

还有机器人跑到一半突然停止摆臂,单臂凌空,一副杨过独战天下的武侠范。

一台机器人冲过终点之后,可能是过于兴奋,一鼓作气冲进了旁边的绿化带,最后被救护人员抬了出来。也有选手在终点前来了一段百米冲刺的蛇形走位,经典场面之王不见王。

完赛之后也有温情时刻,辛苦了那么久,工程师和自家机器人美美合照。

对了,今天的完赛奖牌长这样。

金属机甲风的设计基调,通体锻造质感,线条硬朗,结构错落。更有巧思的是中间那块可展开结构,拉开之后整块奖牌直接化身一台立体的小人形机器人。

完赛奖杯则长这样。

本次比赛开始前,网友问得最多的问题是:为什么机器人一定要长得像人呢?

其实人形机器人之所以执着于双足直立,是因为人类社会的一切基础设施都是按「人」这个形态设计的。一台人形机器人如果真要走进工厂、走进家庭,适配物理世界的人形结构其实更合适。

道理虽然懂了,但看完今天的赛道,我有一个大胆的想法,为了让机器人跑得更快,为什么不直接给他换上两个轮子呢?

没错,就是下面这个👇

那如果再进一步,四个轮子加上流线型车身,速度绝对再上一个台阶。你看,它已经变成了一辆车。所以还是算了,两条腿的路,得自己走。

今天赛道上那些摔跤、碰瓷、一头冲进绿化带的钢铁身影,是人形机器人最笨拙的样子,也可能是它们最后一批还会出洋相的岁月。

至于人形机器人跑步等竞赛到底有没有意义,我们电影其实早就给出了答案:机器人会跑步,没用。机器人会功夫,或许也用处不大。但当一台会功夫的人形机器人以 8m/s 的速度跑过来找你切磋的时候,就很有用了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

作者 莫崇宇
2026年4月17日 01:31

今年 Anthropic 的势头异常凶猛。

不仅热度居高不下,口碑也持续攀升,稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来,都能看到他们准点推送的新产品或新功能。久而久之,大家也从兴奋变成了「是你,果然又是你」的默契感。

而就在刚刚,万众期待的 Claude Opus 4.7 也正式发布,依旧是熟悉的配方,熟悉的高分选手。

有趣的是,Anthropic 在公告里非常坦诚,甚至带着点骄傲:「这并非我们最强大的模型。」那个传说强得可怕的 Claude Mythos Preview 依然还在藏。

但就是这个并非最强的 Opus 4.7,却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点:靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质

基准测试结果显示,在业界公认最硬核的 SWE-bench Pro 上,4.7 从前代的 53.4% 直接拉到 64.3%,单代升级涨了近 11 个百分点,把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)都甩在了身后。

视觉推理的 CharXiv 基准从 69.1% 跳到 82.1%,对应的是它新获得的 2576 像素长边识别能力——清晰度是前代的 3 倍以上。

这不只是「看得更清楚」这么简单。更高的分辨率直接带动了输出质量的连锁提升:生成界面、制作幻灯片、排版文档,细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上,4.7 跑出 77.3%,超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中,4.7 在 BigLaw 基准上拿下 90.9%,正确区分了历来是前沿模型死穴的「转让条款」与「控制权变更条款」。

不过,4.7 也并非全然遥遥领先,在 Agentic search 评测 BrowseComp 上,4.7 反而从前代的 83.7% 下降到了 79.3%,被 GPT-5.4(89.3%)和 Gemini(85.9%)超越。

这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent,在以「是否给出答案」为评判标准的基准上,天然会吃亏。

而数据之外,更值得关注的问题是:这种「靠谱」,在真实工作里到底意味着什么?

过去一年,业界对代码大模型的期待,普遍还停留在「写个函数、找个 Bug」的层面,但 Claude 4.7 在早期测试里,展现出了一种截然不同的气质。

知名云端开发平台 Replit 的负责人这样描述:「它在技术讨论中会反驳我,帮我做出更好的决定。它真的感觉像一个更好的同事。」

它不再一味地「唯命是从」,也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里,4.7 遇到缺失数据时会直接报错,而不是像前代那样塞一个「看似合理但完全错误」的备选值。Hex 团队甚至直言:「低消耗状态下的 4.7,等同于中等消耗状态下的 4.6。」

这种「拒绝顺从」的特质,恰恰是高级软件工程里最稀缺的东西。

当然,凡事有两面。为旧模型写的 prompt,到了 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」掉的模糊指令,4.7 会一字一字地字面执行。这也意味着越懂得清楚表达需求的人,越能从 4.7 这里拿到好结果。

光会「顶嘴」还不够,遇到挫折就罢工的 AI 同样不是好同事。4.7 的另一个大的变化,是任务韧性。

以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion 团队测试发现,4.7 的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。

当 AI 停止谄媚,真正的生产力才开始爆发。

Anthropic 公布的一个极端案例里,4.7 在没有任何人类干预的情况下,从零构建了一个完整的 Rust 文本转语音引擎——写神经网络模型、SIMD 内核和浏览器演示,还自己把输出喂给语音识别器做验证,连测试都一并完成了。

前端框架巨头 Vercel 还发现了一个过去从未有过的行为:4.7 会在开始写系统级代码之前,先自己进行数学证明。这已经超出了写代码的范畴,进入了严谨工程设计的领域。

雇佣 AI「资深专家」的代价

为了验证它在细节上的处理能力,我设定了三个前端交互场景,评判标准只有一个:细节是否敷衍,一眼便知。

第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。4.7 并没有用廉价的色彩渐变敷衍了事,而是通过复杂的 CSS 样式叠加,逼真地还原了金属质感。

第二个场景是只用 CSS,不用 JavaScript 做一个老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用 JS,但 4.7 遵守了规则。它用纯 CSS 做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。

第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。

基础定价维持在每百万输入 5 美元、输出 25 美元不变。但 4.7 引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。

叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。

此外,Anthropic 在原有的难度选项之上,加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude 4.7 会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。

Anthropic 用行动告诉所有人,对于真正的编码任务,省着用不如想清楚。

为了匹配这种工作流,Claude Code 顺势推出了两个杀手级功能:

/ultrareview(深度审查):开启一个专门的审查会话,像一个极其挑剔的资深 Reviewer 一样,通读所有代码更改,精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。

Auto Mode(自动模式)扩展到 Max 用户:一种介于「逐项授权」和「跳过所有权限」之间的新权限模式。Claude 会在你授权的范围内自主做决策,既能跑完漫长无聊的任务,又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆,API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。

当然,4.7 并不是 Anthropic 手里最强的牌。

那个更强的 Claude Mythos Preview,本月刚以「Project Glasswing」的名义,小范围开放给了一批企业用于网络安全研究。Mythos 没有公开发布,原因则是因为它的网络攻防能力太强,Anthropic 觉得还没想清楚怎么安全地推给所有人。

4.7 本身也做了主动取舍,训练阶段就压低了网络攻防能力,内置自动拦截机制,碰到高风险请求直接挡掉。有合规需求的安全研究人员,可以通过官方渠道单独申请。

不急着把最强的牌打出去,和不停地往桌上加新牌,背后是同一套逻辑。实际上,Anthropic 真正的护城河,是交付节奏本身。

在今年 2 月 1 日至 3 月 24 日,短短 52 天里,Anthropic 一共更新了 74 款产品,平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点。

如今的 Claude 生态,早就超越了单纯的「聊天机器人」。对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。

今天发布的 Claude 4.7,是这条链条上最新的一块压舱石。而那个 Mythos Preview,迟早也会来。到那时候,我们现在觉得已经很能打的 4.7,可能只是个开端。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

苹果把Siri员工送进AI「补习班」,黄仁勋的暴论开始应验了

作者 莫崇宇
2026年4月16日 16:47

想象一下,你是全球市值最高科技公司的资深软件工程师,薪水丰厚,履历光鲜。就在公司即将发布十年来最重要 AI 产品的关键时刻,HR 突然笑眯眯地递来一纸通知——

收拾收拾,去上补习班去吧。

据 The Information 爆料,距离今年 6 月的 WWDC 不到两个月,苹果却做出了一个耐人寻味的决定:庞大的 Siri 团队里,将近 200 名程序员被统一打包送往一个为期数周的「AI 编程训练营」,回炉重造。

在科技巨头的核心业务线里,临阵换将已属罕见,临阵「送去培训」更是头一回听说。这背后,藏着的不只是全新 Siri 难产的窘境,更是一场动了真格的大换血。

会用 AI 的留下,不会用的去补课

报道提到,除了把近 200 人送去训练营学习如何用 AI 写代码,曾经臃肿庞大的 Siri 核心开发团队,在重组后仅仅保留了约 60 名成员。另外还有 60 人被单独拎出来,组成了一个评估小组。

他们需要做的就是专门负责给 Siri「挑刺」:测试它处理用户指令的性能,以及是否符合苹果极其苛刻的安全标准。

这样的架构调整,放在发布前的最后冲刺阶段,难免让人生出一个疑问。为什么要在距离 WWDC 只有两个月的生死关头,把前线打仗的士兵送回新兵营?

答案或许是因为过去一年里,Anthropic 的 Claude Code、OpenAI 的 Codex 等 AI 编程助手,已经彻底改写了软件工程行业的底层逻辑。这些工程师曾经引以为傲的经验,正在以肉眼可见的速度过时。

经验丰富的开发者在 AI 的加持下,代码产出量呈现出指数级的爆发。

苹果内部其他部门早已感受到这股风向。软件工程团队迅速拥抱了 AI 工具,甚至专门为 Claude Code 申请了巨额预算。而 Siri 团队,显然慢了一拍。

AI 带来的压迫感,正在整个硅谷蔓延。

Meta CTO Bosworth 公开说,他最好的工程师花在 AI token 上的成本相当于自己的薪资,但生产力提升了 5 到 10 倍。英伟达 CEO 黄仁勋则给出了更具体的暴论:如果一个年薪 50 万美元的工程师,没有用掉价值至少 25 万美元的 token,他会「深感担忧」。

为此,Meta 内部甚至诞生了一个叫「Claudeonomics」的仪表盘,追踪全公司 85000 多名员工的 AI 使用量,并给消耗最多的前 250 人颁发称号——「Token Legend」、「Cache Wizard」。

30 天内,Meta 全员 token 总消耗量超过了 60 万亿。

没有对比就没有伤害。同行把 AI 使用量化成 KPI 来排名竞争的做法固然值得商榷,但慢人一步的代价也是有目共睹的。学会用 AI 写代码,跟上现代软件开发的节奏,是眼下唯一的选项。

AI Siri 的新故事

如果你是苹果的全家桶用户,大概率在过去几年里对 Siri 破口大骂过。事实上,苹果曾计划在 2025 年初发布新款 Siri,但随后却遭遇了内部极其尴尬的延期。

为了彻底解决这个问题,苹果在过去一年里进行了一系列堪称剧烈的权力重组。

最关键的一步,是将 Siri 团队从前 AI 业务负责人 John Giannandrea 的手中剥离出来,直接交给了雷厉风行的软件工程高级副总裁 Craig Federighi。

不仅如此,苹果还派出了打造 Vision Pro 的核心人物 Mike Rockwell,在 Federighi 麾下直接挂帅,监督 Siri 的产品开发。去年 12 月就已宣布退休的 Giannandrea,本周也将正式结束了他在苹果的顾问任期。

旧神退场,新王登基。苹果终于下定决心,用做顶级软件和顶级硬件的铁腕标准,去重新打造 AI 时代的 Siri。

然而,哪怕是苹果,也无法在短时间内凭空造出一个能与 ChatGPT、Claude、Gemini 匹敌的大模型。眼看 2025 年的发布计划已经延误,为了赶在今年 6 月的 WWDC 上拿出足够震撼的改版,苹果也只能向竞争对手 Google 寻求合作。

据爆料,全新 Siri 将由 Google 的 AI 模型 Gemini 提供核心动力支持。接入 Gemini 后,全新 Siri 将不再是一个只能定闹钟、查天气的指令执行器,而将变成一个真正具备强对话能力的智能助手。

此外,据透露,新版 Siri 不仅能够直接回答复杂的逻辑问题,甚至被设计成能够为用户提供「情感支持」,并且可以直接帮你完成诸如「预订一趟完整旅行」这样跨应用、多步骤的复杂任务。

当然,合作并不意味着苹果放弃了底线。目前双方仍在进行艰难谈判,核心争议点在于:苹果希望由 Google 提供服务器来托管新版 Siri 的运行,但又必须确保这一切符合苹果严苛的隐私和数据安全标准。

当我们跳出苹果的种种传闻,重新审视「Siri 程序员被送回编程学校」这个带着点黑色幽默的事件,一股真实的寒意不禁涌上心头。

连全球顶尖科技公司里拿着百万年薪的程序员,都会因为不掌握 AI 辅助编程而被团队边缘化、被要求回炉重造。那么,普通的脑力劳动者呢?

AI 并没有直接取代程序员,但掌握 AI 的程序员正在无情地取代不掌握 AI 的程序员。

Claude Code 和 Codex 这样的工具,正在将代码编写这门曾经充满「工匠精神」的手艺,变成一种可以被大规模流水线化的工业标准。

值得注意的是,这套逻辑并非无懈可击。Meta 那张员工自行创建的「Claudeonomics」榜单里,就已经出现了部分员工让 AI agent 连续跑数小时任务、专门为了堆高 token 数字的现象。

token 是工具使用的痕迹,生产力是工具使用的结果,两者并不总是等号。但即便如此,在整个行业都在用 AI 放大产出的当下,选择不用,就是在主动缩小自己的价值。

Siri 团队的遭遇是一个极其生动的隐喻,过去积累的资历、大厂的光环、甚至是你曾经引以为傲的代码能力,都可能在一夜之间变成无效资产。

6 月的 WWDC,我们或许能见证一个全新 Siri 的浴火重生。但在那场发布会背后,却是几百个在训练营里疯狂补课的工程师,以及一个正在被 AI 重新称斤论两的职场新秩序。

不过换个角度想想,Siri 团队其实算得上幸运。

毕竟,在当下这个用 AI 降本增效的时代,发现员工跟不上节奏后,没有直接裁员换血,而是还愿意花钱、花时间把你送去「补课」回炉重造的,放眼望去,可能也就只有苹果这样的公司了。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌