普通视图

发现新文章,点击刷新页面。
昨天 — 2025年7月23日首页

苹果 AI 雪崩内幕:核心大将 14 亿被挖走,团队边缘化,骨干接连「叛逃」

作者 莫崇宇
2025年7月23日 16:57

苹果本不该在 AI 赛道上掉队。

它拥有着 OpenAI 梦寐以求的充沛现金流,掌握着全球数十亿设备构成的封闭硬件生态,甚至它的 Siri 都要比 ChatGPT 早出生十多年,更早地将聊天机器人带入大众视野。

因此,当 ChatGPT 惊艳全球的时候,苹果用户就像看自己家的学霸孩子突然考了倒数第一,主打一个恨铁不成钢。

哪怕现在奋起直追,苹果依然谈不上太晚,但面对 Meta 频频抛出的高薪橄榄枝,苹果却再次慢了半拍——核心工程师接连出走,技术团队频频动荡。今天外媒 The Information 的最新报道也揭开了苹果 AI 人才流失与组织裂痕的幕后全貌。

从 Siri 到 ChatGPT,苹果错失的 AI 春天

今年早些时候,苹果内部负责开发 AI 基础模型的团队提出,希望对外开源部分模型。

这项提议背后的出发点其实很直接,一方面开元可以展示苹果在 AI 技术上的阶段性成果,另一方面也能借助开源社区的方案,加速模型的优化与演进。但这个想法很快被苹果软件负责人 Craig Federighi 否决了。

他在发给苹果基础模型团队负责人 Ruoming Pang 的邮件中表示,市场上已经有足够多的开源模型可以供研究使用,苹果不需要再去添一份热闹。听上去合情合理,但这只是一个相对体面的说法,真正让 Federighi 担心的,是一旦这些模型被公开,外界会认为苹果为了在 iPhone 上运行 AI,不得不牺牲性能、做出妥协。

而且,这些模型在性能上也落后于阿里和 Google 的同类产品。

在苹果最近发布的 2025 年基础模型报告中,苹果也试图给出自己的回答。这份报告系统梳理了其端云一体化的大模型体系,不仅强调端侧部署的轻量高效,也推出云端架构的新思路,同时通过 Swift 原生框架向开发者开放核心能力。

开不开源,或许只是表象,背后真正暴露出来的,是苹果内部在 AI 战略上的分歧越来越明显,尤其是在以科研导向为主的基础模型团队和以产品落地为目标的软件团队团队之间。更明确地说,是苹果 AI 高层 John Giannandrea 与 Federighi 在技术想法路线上的错位。

在那个苹果还避谈 AI、只强调机器学习的阶段,Siri 无疑是最具代表性的产物。

在乔布斯于 2011 年去世前,苹果发布了语音助手 Siri,惊艳四座。但几年后,Alexa、Google Assistant 快速崛起,Siri 却连基本理解和指令执行都频频出错,应变能力差,难以胜任复杂语义任务。2018 年,苹果终于承认了这个问题,但不是在公开场合,而是在招聘上。

他们高调挖来前 Google AI 负责人 John Giannandrea,并寄予了厚望。John Giannandrea 曾是 Google 搜索与 AI 的灵魂人物,是让 Gmail、Photos、Translate 变得「聪明」的人,也是在 DeepMind 崛起时参与布局的老兵。而他本人也对 Siri 特别感兴趣。

Craig Federighi 亲自拍板,把 Siri 和苹果的机器学习部门交给他,打算一鼓作气补上苹果在 AI 的短板。在他加入后,苹果开始鼓励旗下研究人员更多地发表 AI 研究成果,这标志着苹果长期以来「保密至上」的文化出现了变化。

但七年过去了,这笔投资交出的答卷,并不好看。

2022 年 ChatGPT 横空出世,逼得每一家科技公司不得不重新排兵布阵,几乎所有人都在重做语音助手,接入 LLM。然而,苹果不仅没追上 OpenAI,还被越甩越远。

AI 发展的三大要素:数据、算法和算力。但堪比 NBA 顶级球星的价格让我们看到了如今 AI 人才的稀缺性,过往苹果用使命感绑定一批 AI 人才,但无奈扎克伯格给的还是太多了。

最近,庞若鸣在 LinkedIn上宣布他已经离开苹果,加入 Meta,结束了他在苹果担任基础模型团队负责人的工作。据彭博社报道,庞若鸣在 Meta 未来四年的总收入可能高达 2 亿美元(折合人民币 14 亿元)。

Meta 已向顶级 AI 工程师抛出年薪 1000 万美元起的橄榄枝。而苹果给出的薪资,往往连市场价的一半都不到。过去几个月,已有不少顶尖员工离职,甚至传出整个 MLX 团队一度萌生集体出走的念头。

庞若鸣的一些原团队成员也在陆续跟随他前往 Meta。其中包括 Tom Gunter。据两位知情人士透露,Gunter 原本已经从苹果跳槽至 OpenAI,但在庞若鸣被 Meta 挖走后,他果断转而加入Meta。

其他知情人士透露,苹果基础模型团队的其他成员(该团队大约有几十人)也正在寻找新机会,目标包括 OpenAI、Anthropic等公司。

即便在庞若鸣宣布离职后,据两位知情人士称,苹果高层告知剩余的基础模型团队,他们正在重新评估薪酬方案,有可能提供更多报酬来挽留人才。面对 Meta 顶级薪酬,苹果的吸引力可以说是远远不够。

一个 AI 理想主义者的朝圣与幻灭

苹果 AI 人才的流失,当然不只是钱的问题。

报道中提到,苹果基础模型团队的许多成员更多是出于一种使命感,他们渴望站在 AI 前沿,尤其是追求所谓的「超级智能」——即具备与人类相当甚至超越人类能力的人工智能。

这种理想主义,在技术圈其实并不少见。但路线分歧所埋下的伏笔,逐渐显现出来,相比于隶属于 Giannandrea、庞若鸣所率领的基础模型团队,软件负责人 Federighi 所领导的团队则更关注实用型 AI 模型的改进,比如文本撰写、摘要生成等日常应用。

在 ChatGPT 一炮而红的前一年,庞若鸣就因为在开发和训练大规模 AI 系统方面经验丰富,精通从模型本身到背后支撑的软件等各个环节,而被 Giannandrea 从 Google DeepMind 招募到苹果。

为了这位顶尖 AI 大牛,苹果也是大开绿灯。

庞若鸣被允许常驻纽约办公,而不是要求他搬到公司总部加州库比蒂诺,这在苹果对高管岗位的一贯安排中非常罕见。庞若鸣组建的自研模型团队尽管一开始规模非常小,仅有少数研究人员参与。但随着 AI 重要性的水涨船高,基础模型团队成员也一路飙涨到 100 人左右,且成员分别来自 DeepMind、Meta、微软和亚马逊等。

到了 2022 年末,庞若鸣已经在苹果内部构建出了一些大语言模型(LLM)。不过,Giannandrea当时并不看好这项技术的实用性,因此迟迟没有推动其发布。一年后,苹果正式成立了基础模型团队,由庞若鸣出任负责人。

庞若鸣向新成员承诺,他们将优先使用苹果的计算基础设施来训练模型。据一位知情人士透露,苹果的管理层还讨论过如何进一步扩大团队规模,例如直接整组招募高校或企业的 AI 实验室。

2024 年 6 月,苹果在 WWDC 上高调发布了 Apple Intelligence,其中绝大多数的技术成功都来自庞若鸣团队的研发成果,比如本写作和图像生成工具、与 ChatGPT 的整合(用于回答问题)。

最重要的是,在这次发布会上,苹果向全世界宣布一款更强大的 Siri 将有望来到我们的面前。

过往所积累的信誉很难让人相信苹果是在画饼,但后面的故事我们都知道了,今年 3 月,新版 Siri 推迟发布。苹果公司也从 YouTube 和主要电视网络撤下相应的广告。

苹果的营销部门、技术部门和产品部门也如同踢皮球一样相互扯皮、推诿。

身处其中的基础模型团队也明显感觉到苹果高层缺乏清晰的战略方向,比方说,虽然苹果的总体目标是打造最强的 AI 模型,但团队成员却不清楚具体应该聚焦在哪一类模型——是处理文本?语音?还是图像?

据知情人士透露,这种模糊的定位让团队士气受挫。甚至倒反天罡的是,一些高管还会向基础模型团队成员征求产品创意,进一步加剧了成员们对苹果缺乏统一 AI 产品战略的担忧。

上个月的彭博社报道就有提到,了解苹果 AI 团队运作情况的人士表示,虽然苹果已批准一笔用于 2026 年运行自研云端模型的数十亿美元预算,但再往后的安排,目前仍是一片空白。

AI 时代的苹果,还会是那个改变世界的苹果吗?

如果故事止步于此,苹果仍旧可能像马斯克的 Grok 一样拥有在 AI 赛道逆风翻盘的机会,尽管外界炮火连天,质疑声四起,但年初庞若鸣团队的一些成员对基础模型的技术进展感到相当乐观。

结果比过程更重要,只要团队在 4 月份按计划交付 AI Siri,一切质疑声就不再是问题,为此,他们已经构建出一个功能完备的AI系统,能够进行自然的对话、回答问题、并通过 Siri 完成各种任务。

今年年初,团队向 Giannandrea 和 Siri 团队展示了这套系统的演示功能。据一位知情人士透露,整场会议中,Giannandrea 几乎一直保持沉默,但在会议最后,他表现得异常兴奋。「这就是苹果的未来,」他说,「这很重要。你们做得很好,继续干下去。」

然而,这种热情并没有持续多久。

到了今年 3 月,苹果突然宣布,新版 Siri 将推迟到 2026 年某个时间发布。

消息震惊了整个基础模型团队。在过去,他们的团队基本上是独立运作,几乎不受苹果其他部门的干涉,但这种自由也意味着他们脱离了公司决策流程。如今苹果发布延期决策过程中,却并未征他们意见,也没人告诉他们模型到底出了什么问题。

与此同时,苹果 AI 高层也开启了新一轮的洗牌。

CEO 库克宣布 Vision Pro 头显的操盘手 Mike Rockwell 不再负责 Vision Pro 相关工作,转而去负责 Siri 虚拟助手开发,向软件主管 Craig Federighi 汇报工作。Siri 负责人 John Giannandrea 也开始逐渐淡出权力中心。

如果苹果最终牵手第三方模型,Giannandrea 不只会失去 Siri 的控制权,连原本还在负责的机器人项目也将被一并收回。值得注意的是,庞若鸣的基础模型团队则仍然隶属于 Giannandrea。

在动荡之中,庞若鸣试图安抚团队士气,鼓励大家继续专注于他们的使命:为整个苹果打造最优秀的 AI 模型。据知情人士透露,直接向 Giannandrea 汇报、并协助管理基础模型团队的 Daphne Luong 也出面进行「灭火」。

她向团队表示,这次组织重组的问题出在 Siri 本身,而不是苹果的 AI 模型。

然而真正让团队士气大幅下滑的,是Rockwell上任后的一项新动作——他在 3 月接手 Siri 项目后,立即组织团队评估多个技术路线,涵盖苹果自研模型,以及 Claude、ChatGPT、Google Gemini 等第三方模型方案。换句话说,苹果基础模型团队过去的努力,变成了一个可有可无的替代品。

在这样的氛围里,人心开始松动。

而在 Meta 天价薪酬面前,庞若鸣的离职也就顺其自然。但他的离开也成为苹果 AI 团队离职潮的引爆点,报道中提到,他不仅技术过硬、工作勤奋,还乐于提携后辈,指导他人,被认为是苹果 AI 团队的主心骨,更是愿意为他人「遮风挡雨」的好领导。

比如在一次冬季假期,他就亲自上手写出了 AXLearn 的原型代码,用来验证这套训练大型模型的开源工具是否适配苹果内部需求。这种级别的「卷」,在苹果这样的大公司并不多见。所以当这样一个技术型领军人物选择离开,团队的情绪不可避免地滑落至低谷。

苹果在 AI 上的缓慢进展,不仅拖慢了产品节奏,也难免牵动了外界对其整体品牌形象的认知。

苹果服务主管、库克最信任的顾问之一 Eddy Cue 多次发出警告,如果苹果不能迅速适应 AI 时代,将极有可能成为下一个黑莓或诺基亚。

这样的暴论在媒体层面很容易搏得流量,但放在现实语境中看,哪怕在 AI 上慢一步,苹果依旧掌握全球最完整、最高粘性的软硬件生态系统;依旧坐拥千亿美元的现金储备,芯片、系统优化、端侧体验、工业设计,依旧保持着全球顶级水平。

只是,苹果不会轻易成为下一个诺基亚,但在 AI 赛道上也很可能不再是那个代表「Think Different」、颠覆世界的苹果。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

支付宝这个登顶 App Store 的 AI 应用,给我的苹果手表配了个「贾维斯」

作者 莫崇宇
2025年7月22日 12:00

健身不戴表,等于没健身。

经常用 Apple Watch 的人都知道这里面的门道有多深,作为一个对打卡有执念的 Apple Watch 用户,我每天的头等大事,就是把三个圆环「活动、锻炼、站立」尽可能闭合。

看似强迫,实则是激励。因为在运动这件事上,人类从来不擅长和自己讲道理,而是需要一个看得见的反馈系统,而 Apple Watch 的闭环机制,恰好补上了人性的短板。

但有时我会怀疑,这些看似精准的数据,是不是只是在制造新的焦虑?我需要的不是更多的数字,而是有人能把这些数字翻译成我听得懂的话,让我更健康地生活。

最近我发现了一个新的 AI 应用,似乎能更聪明地把这些数字变成真正有用的建议。

这是支付宝推出的健康应用 AQ ,APPSO 上个月也体验过 Android 版, iOS 版本上线不到 24 小时便登顶了苹果应用商店医疗榜。

iOS 版 AQ 最让我感兴趣的,正是与 Apple Watch 的打通——可以读取步数、睡眠、锻炼时长等数据,进而生成个性化的健康评估和建议。

在同事的一通安利下,APPSO 提前拿到了内测码,想看看 AQ 所展现出「Apple Watch+AI」体验到底怎么样,能否成为我真正的健康「搭子」。

AQ 接入 Apple Watch 后,我开始认真看待手腕上的数字

苹果向来对用户数据安全与生态健康有着近乎偏执的重视,尤其在涉及医疗与隐私的应用审核上一贯谨慎。也正因此,至少说明了 AQ在数据处理、功能边界和合规审查上经受住了考验。

按照指引接入 Apple Watch 的健康数据后,我的近 7 天步数情况便以折线图的形式清晰呈现,并配有「查看 AI 分析」的入口。我们可以根据睡眠、锻炼或步数等维度点击查看,页面会跳转至运动健康小助手,由 AI 基于健康档案中的相关数据进行分析,并生成对应的评估与建议。

或许是因为苹果方面的限制,目前 AQ 尚无法同步 Apple Watch 的历史健康数据,只能从授权后的时间点起记录新的信息,对于我这种习惯长期追踪数据的用户来说,体验上稍显割裂,后续是否能支持旧数据补录,值得关注。

在授权完成后,我提出了一个常见问题:「请你分析我最近七天的睡眠质量,但我感觉睡眠质量不好,怎么办?」

可以看到,AQ 给出的回应结构清晰、层次分明。

每个部分都围绕问题展开解释与回应,内容条理清楚,逻辑自洽,体现出较强的健康知识结构化能力。诸如 WHO 建议,以及从基础习惯到饮食调整等维度展开深入,避免泛泛而谈。

「帮我分析过去 7 天的锻炼时长」

这类请求对 AQ 来说,其实不算难。它的回答同样不浮于表面,而是尝试从多个维度建立对用户健康状态的理解,包括健康档案分析、慢病风险、运动建议等,展现出较强的知识广度。

此外,它还能引用相关的指标做出对照,比如建议的步数区间、心率变化趋势,以及可能存在的锻炼风险,并辅以权威参考值作为对照。

而当我继续问它:「一个月的运动强度是否达标?」它思考良久后陷入沉默,没有报错提示,却也没有回应。这类「卡死」虽然不常见,却足以提醒 AI 产品的稳定性仍是绕不过的门槛。

继续上强度,「根据我的健康数据,我是久坐人群,适合从什么运动开始入手?」

AQ 给出的建议主打一个扎实。它会先进行简要的健康评估,然后再推荐适合的运动类型与频率。回答没有太多噱头,也不空洞。较为自然的鼓励,也不至于让我感觉是在跟一台无情的机器交谈。

除了和 Apple Watch 的联动,作为一款 AI 健康产品,我反而更常用它来查找各种健康知识和生活建议。比起刷步数、看心率,这种随问随答的体验更贴近日常,也更像是一个随身携带的健康顾问。

「浙江杭州余杭区初步查明导致自来水异味为特定自然气候条件下藻类厌氧降解产生的硫醚类物质,对此,我可以有什么更好的应对措施?」

相对于普通的「头痛医头」,AQ 不仅给出短期「自保」建议,还考虑中长期改善方案(如储备瓶装水、建议物业升级水系统),体现一定的系统性思维。

虽然缺乏对老年人或婴幼儿的特殊说明,但整体上,作为通用健康助手,它提供的是一种普适安全的建议,而有了追问机制,也可以让用户通过多轮对话,挖掘出更贴近个体处境的应对方案。

我今天一大早睡醒起来,发现头晕了 40 多秒,甚至还伴有轻微的恶心感。

我试着将症状描述给 AQ,看看它能否识别出问题。它很快抓取了关键信息:「早上起床后头晕 40 秒」和「想吐」,并将之关联到临床上较为常见的「良性阵发性位置性眩晕」(BPPV)。

这是一个发病率不低、但容易被忽视的眩晕类型。除了将 BPPV 作为首选判断,它还列举了其他可能的原因,如前庭神经炎、颈椎病、低血糖等,涵盖了多个可能的发病机制。回答末尾也补充提醒——「如症状持续不缓解或频繁复发,请及时就医」,明确划清了它作为健康助手与专业医生之间的边界。

在此基础上,AQ 还会主动引导我提供更多细节,比如进入「AI 诊室」后,它会细细询问我症状出现的频率等细节,通过多轮问诊进一步缩小判断范围。这种流程几乎已经模拟了一般医生的面诊节奏。

有时我也会拿它当「药品百科」用。

比如最近被牙痛困扰,医生给我开了「丁细牙痛胶囊」,我顺手拍照上传,想看看这款药到底有何不同。AQ 识别出成分中的「丁香叶」和「细辛」,说明成分作用,还提供了一些注意事项与药效解释,信息密度已属够用。

得益于蚂蚁医疗大模型的多模态能力,它还能精确读取 99% 医学常见体检报告、分析检查结果,甚至支持上传皮肤照片识别银屑病、白癜风等 50 多种常见皮肤病。

这类视觉类多模态场景,也是大模型近年来的重要落地方向。

很多时候,健康管理离不开饮食的介入与调节。在 AQ 中,只需拍下日常的饮食照片,「饮食健康小助手」智能体便能识别菜品、估算热量并自动记录。更进一步,系统还能结合个人体质与健康数据,为我量身定制科学的饮食建议。

举个例子,吃饭前随手拍一张照片,AI 就能识别出这是一份天妇罗盖饭,自动估算总热量。如果我需要,它甚至能给出按克计量的个性化饮食方案,像一个专业营养师随身指导。

专业度毋庸置疑,但讲真,有时它给出的食谱也让我觉得过于专业,上一次这么关心这种量化的数据还是在课本上,真要按照规划实际执行时,我脑子里冒出的全是问号, 究竟早餐吃几个鸡蛋这种说法,对我来说更实用。

另外,据媒体报道,苹果或在健康领域与蚂蚁展开深入合作,除了同步健康数据,还将基于 Apple Watch 的跌倒检测等功能,推出更多面向特定人群的场景化服务,以及更多的 AI 健康应用。

当然,AQ 的生态布局并不局限于苹果。目前已支持与鱼跃、三诺、硅基动感等慢病管理设备,以及华为、Vivo、荣耀等可穿戴设备的连接,能够基于血糖、睡眠、运动等多维度信息提供综合健康建议。

每个人的生物钟都像指纹一样独特,但普通的健康建议往往是一刀切的标准答案, 有了 AI 就可以通过长期观察你的褪黑素分泌模式、体温变化曲线、不同时段的运动表现来绘制出你独有的生理地图。

要知道,许多疾病的发展并非一夜之间,而是一个渐进的过程。

当身体发出信号,AI 也能够通过持续监测这些间接指标,在传统检测手段发现问题之前数月甚至数年就识别出风险,AQ 这种可以基于硬件的个体行为识别与软件建议协同的产品,其实有望成为一个人人可用的「望闻问切」工具。

AI 健康的未来,是给你的身体配个「贾维斯」

从 AQ 上线到现在,我已经使用了近一个月,开始我只觉得它是个「聪明」的 AI 健康助手,能帮我把体检报告里的「天书」翻译成人话。

但在这两天我配合 Apple Watch 一起使用后,现在我越来越觉得,这事儿可能没那么简单。

我想起了苹果前段时间发布的一篇可穿戴设备和健康的论文。他们让 AI 去学习海量 Apple Watch 用户的心电图数据,结果发现,AI 比传统方法能更早地嗅出心脏问题的苗头。这背后透露出一个关键信息:当足够多的、连续的个人健康数据被 AI 整合分析时,它就不再是「看图说话」,而是真正有可能成为你身体的「贾维斯」。

我们身边的 Apple Watch、体脂秤、睡眠手环、血糖仪,以前它们就是一群「社恐」,各玩各的,互不搭理。它们会告诉你「你昨晚睡得不好」「你又重了两斤」,但从不解释为什么。

但当 AQ 这样的「大脑」介入,将这些数据点串联起来,一个关于你身体的「生命叙事」就开始了。它不再是机械地告诉你:「你昨晚睡了 6 小时。」

而是会给你复盘:「因为你昨天下午喝了咖啡,晚上又没怎么活动,导致你的入睡时间推迟了40分钟,深度睡眠也因此减少了 15%。」你看,为什么最近 AI 行业都在说上下文(Context)才是王道,它让冰冷的数据有了温度和意义。

这种从「被动监测」到「主动预测」的转变,才是真正改变游戏规则的地方。未来的 AI 健康管家,可能不再是等你发烧了才提醒你「该吃药了」,而是通过分析你连续几周身体的微弱变化,提前发出预警:「你的身体炎症水平有持续上升的迹象,建议近期关注一下。」

这并非天方夜谭。最近微软的 AI 医生项目已经证明,AI 可以高效地从海量数据中洞察到关键问题,诊断准确率达到 85.5%,而由 21 位美英执业医生给出的平均准确率仅为 20%。

而 AQ 也是首个通过中国信通院医疗健康行业大模型可信选型评估的 AI 产品。专家评审结果显示,它在场景适应性、模型性能、安全合规、服务能力等五个维度均达到了可信水平。

个人健康管理可能是未来 AI 硬件对用户最有价值的应用场景之一,有望 24 小时不间断地为你的身体「站岗」。而且它应该是「无感的」,让你感觉不到它的存在。你只需要像往常一样生活,手腕上的手表、床垫里的传感器,都在默默关心你的健康。

你想想,一个最了解你身体的 AI 专家,会为你提供极致个性化建议。它推荐的运动强度会根据你昨天的睡眠质量动态调整;它设计的食谱,会考虑到你今天的身体状态。

更重要的是,它可以完成「洞察-建议-行动-反馈」这个循环。它不仅告诉你该做什么,还会在你行动后,用实时数据告诉你「这么做很有用」,从而用正反馈强化你的积极行为。

说到底,这个 AI 健康服务,最终要给我们的不是一堆数据带来的焦虑,而是一种对生活的「掌控感」。它就像给我们身体装了个可视化的「仪表盘」,让我们终于能看懂自己,知道怎么对自己好。

而 AQ 与 Apple Watch 的合作,恰恰就是在朝这个方向进行的一次有意思的探索。它目前的产品形态也许还不算完美,但它试图将苹果手表强大的硬件监测能力,与AI 的分析、解读能力结合起来,让健康这件事,没那么高冷,也没那么遥远,而是回到了每个人的手腕上、生活里。

这么做最大的意义,就是让我们和自己的身体,终于能「好好聊天」了,也能把我们从健康焦虑的泥潭里拽了出来

以前,我们面对身体发出的信号,要么是「看不懂」——体检报告上一堆箭头,要么是「搞不懂」——最近老是累,却不知道为啥。

现在,AQ 就像一个能随时读懂你身体说明书的翻译官,它把那些模糊的、令人不安的感觉,翻译成了你能听得懂、并且可以去改善的具体建议。

这种「心里有底」的感觉,才是 AI 带给普通人最珍贵的东西。

作者:莫崇宇、李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻

作者 莫崇宇
2025年7月18日 05:27

过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。

几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。

就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。

通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。

发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道::

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

亮点如下:

  • ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。
  • 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;
  • 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;
  • 在多项基准测试中表现领先,综合性能位居行业前列;
  • Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。

ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了

今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。

只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。

整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。

在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。

比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。

更重要的是,用户可以随时中断任务。

比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。

同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。

「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。

这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。

ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。

用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。

当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。

通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。

这类自动化能力,都是 Agent 深度嵌入工作流的体现。

不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。

需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。

The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。

对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线

Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。

全线刷新「跑分」记录,Agent 战场迎来最强对手

ChatGPT Agent 能力的提升,也体现在「跑分」环节。

在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。

在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。

在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

从平台视角看,Agent 能力的底层接口,正是浏览器。

在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。

不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。

在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。

如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。

当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌