普通视图

发现新文章,点击刷新页面。
昨天 — 2025年7月2日首页

美国现在最贵的,是中国 AI 人才:清北中科大学霸正在「统治」硅谷 AI 圈

作者 莫崇宇
2025年7月2日 19:18

过去两周,AI 行业最出圈的不是哪个产品,而是人。经常一觉醒来,社交媒体的时间线都在刷新换汤不换药的新闻:又双叒叕有哪位 AI 大牛被挖走了。

顶级 AI 人才,正成为 AI 赛道上最稀缺、也最具品牌效应的资产。

在这轮人才流动的风暴中心中,我们发现一个格外显眼的细节:这群主导过 ChatGPT、Gemini、Claude 等大模型研发的核心成员中,华人科学家的比例出奇地高。

这个这个变化并不是突然出现的,这几年兴起的 AI 浪潮中,美国的顶级 AI 人才中华人占比不断升高。 根据 MacroPolo 发布的《全球人工智能人才追踪调查报告 2.0》,来自中国的顶尖 AI 研究人员占比在 2019 年到 2022 年间,从 29% 提升到了 47%。

而在智谱研究发布的《ChatGPT 团队背景研究报告》,更是发现在 ChatGPT 核心的 87人团队中,有 9 人都是华人,占比超过 10%。因此,我们也重新梳理了近期在硅谷头部公司中广受关注的华人 AI 研究员画像,并试图从中总结出一些特征:

1️⃣ 顶尖名校出身,学术能力极强
他们大多本科就读于清华、北大、中科大、浙大等顶尖高校,计算机或数学背景居多;研究生阶段普遍进入 MIT、斯坦福、伯克利、普林斯顿、UIUC 等名校深造,几乎每人都有顶会高引论文傍身(NeurIPS、ICLR、SIGGRAPH 等),

2️⃣ 年轻高产,爆发周期集中于 2020 年之后
年龄多在 30~35 岁;硕博阶段恰逢深度学习的全球爆发期,学术基础扎实,熟悉工程体系和团队协作。不少人职业的第一站就是接触大厂或服务大规模人群的 AI 产品或平台,起点更高、节奏更快。

3️⃣ 强多模态背景,攻坚模型后训练
他们的研究方向普遍着重于跨模态(文本、语音、图像、视频、动作)的统一推理系统,包括 RLHF、蒸馏、对齐、人类偏好建模、语音语调评估等具体细节。

4️⃣ 即便频繁流动,但基本不会脱离生态
Google、Meta、微软、英伟达,Anthropic、OpenAI……他们的流动范围横跨 AI 初创与巨头,但研究主题、技术积累往往保持连贯性,基本不换赛道。

OpenAI→Meta

Shuchao Bi

Shuchao Bi 本科毕业于浙江大学数学系,后赴加州大学伯克利分校深造,先后获得统计学硕士学位,并攻读数学博士。

2013 – 2019 年,他在 Google 担任技术负责人,主要贡献包括构建多阶段深度学习推荐系统,显著提升 Google 广告收益(数十亿美元级别)。

2019 – 2024 年,他担任 Shorts 探索负责人,期间,联合创建并主导 Shorts 视频推荐与发现系统,并 组建并扩展大规模机器学习团队,覆盖推荐系统、评分模型、互动发现、信任与安全等方向。

2024 年加入 OpenAI 后,他主要领导多模态后训练组织,是 GPT-4o 语音模式与o4-mini的联合创造者

期间,他主要推进 RLHF、图像/语音/视频/文本推理、多模态智能体、多模态语音到语音(VS2S)、视觉-语言-行动基础模型(VLA)、跨模态评估系统等,也涉及多模态链式推理、语音语调/自然度评分、多模态蒸馏与自监督优化,其核心目标是通过后训练构建更通用的多模态 AI Agent。

Huiwen Chang

2013 年,Huiwen Chang 本科毕业于清华大学计算机系(姚班),后赴美国普林斯顿大学攻读计算机科学博士,研究方向聚焦于图像风格迁移、生成模型和图像处理,曾获微软研究院奖学金。

在加入 OpenAI 之前,她在 Google 担任高级研究科学家,累计工作超过六年,长期从事生成模型与计算机视觉研究,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。

早期的文本生成图像主要依赖扩散模型(如 DALL·E 2、Imagen),这些模型虽然生成质量高,但推理速度慢、训练开销大。而 MaskGIT 和 Muse 则采用了「离散化 + 并行生成」 的方式,大幅提升了效率。

MaskGIT 是非自回归图像生成的新起点,Muse 则是将这一方法推向文本图像生成的代表作。它们不像 Stable Diffusion 那样广为人知,但在学术与工程体系中,是非常重要的技术基石。

此外,她也是扩散模型顶级论文《Palette: Image-to-image diffusion models》的联合作者之一。

这篇论文发表于 SIGGRAPH 2022,提出了一种统一的图像到图像翻译框架,并在图像修复、着色、补全等多个任务上超过 GAN 和回归基线,至今已被引用超过 1700 次,成为该领域的代表性成果之一。

2023 年 6 月起,她加入 OpenAI 多模态团队,联合开发了 GPT-4o 图像生成功能,继续推动图像生成、多模态建模等前沿方向的研究与落地。

Ji Lin

Ji Lin 主要从事多模态学习、推理系统与合成数据方向的研究。他是多个核心模型的贡献者,包括 GPT-4o、GPT-4.1、GPT-4.5、o3/o4-mini、Operator、以及 4o 图像生成模型等。

他本科毕业于清华大学电子工程专业(2014–2018),从麻省理工学院获得电子工程与计算机科学博士学位,导师为知名学者 Prof. Song Han。

博士阶段,他的研究方向聚焦于模型压缩、量化、视觉语言模型、稀疏推理等关键方向。

在 2023 年加入 OpenAI 之前,他曾在英伟达、Adobe 和 Google 担任实习研究员,并在 MIT 长期从事神经网络压缩与推理加速相关研究,积累了深厚的理论基础与工程实践经验。

学术方面,他在模型压缩、量化和多模态预训练等方向有多篇高影响力论文,Google 学术总引用数超过 17800,代表成果包括视频理解模型 TSM、硬件感知量化方法 AWQ、SmoothQuant 以及视觉语言模型 VILA。

他也是 GPT-4o 系统技术文档的核心作者之一(比如 GPT-4o 系统卡),并凭借 AWQ 论文获得 MLSys 2024 最佳论文奖。

Hongyu Ren

Hongyu Ren 本科在北京大学获得计算机科学与技术学士(2014–2018)学位,随后在斯坦福大学获得计算机科学博士(2018–2023)学位。

他曾获得苹果、百度以及软银 Masason 基金会 PhD Fellowship 等多项奖学金,研究方向聚焦于大语言模型、知识图谱推理、多模态智能与基础模型评估。

在加入 OpenAI 之前,他曾在 Google、微软以及英伟达有过多段实习经历,比如 2021 年在苹果担任实习研究员期间,参与 Siri 问答系统的搭建。

2023 年 7 月加入 OpenAI 后,Hongyu Ren 参与构建了 GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 等多个核心模型,并领导后训练团队。

用他的话来说:「I teach models to think faster, harder and sharper.(我教模型更快、更努力、更敏锐地思考。)」

学术领域,他的 Google 学术总引用数超过 17742 次,高被引论文包括:《On the Opportunities and Risks of Foundation Models》(引用 6127 次);《Open Graph Benchmark》(OGB)数据集(引用 3524 次)等。

Jiahui Yu

Jiahui Yu 本科毕业于中国科学技术大学少年班,获得计算机科学学士学位,随后在伊利诺伊大学香槟分校(UIUC)获得计算机科学博士学位。

他的研究重点包括深度学习、图像生成、大模型架构、多模态推理和高性能计算。

在 OpenAI 任职期间,Jiahui Yu 担任感知团队负责人,主导开发 GPT-4o 图像生成模块、GPT-4.1、o3/o4-mini 等重要项目,提出并落地了「Thinking with Images」感知体系。

在此之前,他曾在 Google DeepMind 工作近四年,期间是 PaLM-2 架构与建模的核心贡献者之一,并共同领导了 Gemini 多模态模型的开发,是 Google 多模态战略中最重要的技术骨干之一。

他还拥有在英伟达、Adobe、百度、Snap、旷视和微软亚洲研究院等多家机构的实习经历,研究内容涵盖 GAN、目标检测、自动驾驶、模型压缩、图像修复与大规模深度学习训练系统等多个方向。

Jiahui 在 Google 学术上总引用次数超过 34500 次,h 指数达 49,代表性研究成果包括图文对齐基础模型 CoCa、文本生成图像模型 Parti、神经网络可伸缩设计 BigNAS,以及广泛应用于 Adobe Photoshop 的图像修复技术 DeepFill v1 和 v2 等。

Shengjia Zhao

Shengjia Zhao 本科毕业于清华大学计算机系,曾在美国莱斯大学交换,后于斯坦福大学获得计算机科学博士学位,专注于大模型架构、多模态推理和对齐方向的研究。

2022 年,他加入 OpenAI,担任核心研发成员,深度参与 GPT-4 和 GPT-4o 的系统设计工作。曾主导 ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的研发工作,还曾领导 OpenAI 合成数据团队。

他是《GPT-4 Technical Report》(被引超过 1.5 万次)和《GPT-4o System Card》(被引超过 1300 次)的联合作者,并参与了多个系统卡(如 OpenAI o1)的撰写,是推动 OpenAI 基础模型标准化与公开化的重要贡献者之一。

在学术表现上,他 Google 学术总引用数超过 21,000 次,h 指数为 25,曾获得过 ICLR 2022 Outstanding Paper Award、JP Morgan PhD Fellow、Qualcomm 创新奖学金(QinF)与 Google Excellence Scholarship 等多项奖项。

Google→Meta

Pei Sun

2009 年,Pei Sun在清华大学获得了学士学位,随后前往卡内基梅隆大学攻读硕士和博士学位,顺利完成硕士阶段学习,并在博士阶段选择退学。

他曾在 Google DeepMind 担任首席研究员,期间主攻 Gemini 模型的后训练、编程和推理工作,是 Gemini 系列模型(包括 Gemini 1、1.5、2 和 2.5)后训练、思维机制构建与代码实现的核心贡献者之一。

在加入 DeepMind 之前,Pei 曾在 Waymo 任职近七年,担任高级研究科学家,主导了 Waymo 两代核心感知模型的研发,是自动驾驶感知系统演进的中坚力量。

更早些时候,他曾在 Google 担任软件工程师五年多,后又加入分布式存储公司 Alluxio 任职工程师超过一年,参与系统架构研发。

Nexusflow→英伟达

Banghua Zhu

Banghua Zhu 本科毕业于清华大学电子工程系,后赴美国加州大学伯克利分校攻读电气工程与计算机科学博士,师从著名学者 Michael I. Jordan 和 Jiantao Jiao。

他的研究聚焦于提高基础模型的效率与安全性,融合统计方法与机器学习理论,致力于构建开源数据集和可公开访问的工具。他的兴趣方向还包括博弈论、强化学习、人机交互以及机器学习系统设计。

他代表性论文《Chatbot Arena》提出了人类偏好驱动的大模型评测平台,成为 LLM 领域的重要基准之一。

此外,他还在 RLHF、人类反馈对齐、开源对齐模型等方向有所贡献。其 Google 学术显示引用总数超过 3100,h 指数为 23,也是大模型竞技场「Chatbot Arena」、「Benchbuilder」、「Starling」等多个热门开源项目的核心作者之一。

他曾在 Microsoft 担任研究实习生,在 Google 担任学生研究员,曾联合创立 AI 初创公司 Nexusflow,今年 6 月,他宣布加入英伟达 Star Nemotron 团队担任首席研究科学家,此外将于今年秋季入职华盛顿大学的助理教授。

根据其发布内容,他将在英伟达参与模型后训练、评估、AI 基础设施和智能代理构建等项目,强调与开发者及学术界的深度协作,并计划将相关成果开源。

Jiantao Jiao

Jiantao Jiao 是加州大学伯克利分校电气工程与计算机科学系以及统计系的助理教授。

他于 2018 年获得斯坦福大学电气工程博士学位,目前是多个研究中心的联合负责人或成员,包括伯克利理论学习中心(CLIMB)、人工智能研究中心(BAIR Lab)、信息与系统科学实验室(BLISS)以及去中心化智能研究中心(RDI)。

他的研究集中于生成式 AI 与基础模型,对统计机器学习、优化理论、强化学习系统的隐私与安全、经济机制设计以及自然语言处理、代码生成、计算机视觉、自动驾驶与机器人等方向也颇有兴趣。

和 Banghua Zhu 一样,他也是 Nexusflow 联合创始人之一,目前已经正式加入英伟达,担任研究总监兼杰出科学家。

Jiao 的总引用次数达 7259,h 指数为 34,代表性论文包括《Theoretically principled trade-off between robustness and accuracy》,以及与 Banghua Zhu 等人合作的《Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism》,均发表在 NeurIPS 等顶会。

Claude→Cursor

Catherine Wu

Catherine Wu 曾在 Anthropic 担任 Claude Code 的产品经理,专注于构建可靠、可解释、可操控的 AI 系统。据 The Information 报道,Catherine Wu 已被 AI 编程初创公司 Cursor 挖角,出任产品负责人一职。

在加入 Anthropic 之前,她曾是知名风投公司 Index Ventures 的合伙人,任职近三年,期间深度参与多家顶尖创业公司的早期投资与战略支持。

她的职业起点并不在投资圈,而是扎根于一线技术岗位。

她曾在 Dagster Labs 担任工程经理,主导公司首个商业化产品的研发,也曾在 Scale AI 担任早期产品工程师,参与多个关键产品的构建与运营扩张。

更早之前,她在摩根大通实习,并于普林斯顿大学获得计算机科学学士学位,在校期间还曾赴苏黎世联邦理工学院进行交换学习。

特斯拉 | Phil Duan

段鹏飞(Phil Duan)是特斯拉 AI 的首席软件工程师,现负责 Autopilot 下的 Fleet Learning 团队,致力于推动特斯拉自动驾驶系统(FSD)中「数据 + 感知」核心模块的建设。

他带领特斯拉团队开发高吞吐、快迭代的数据引擎,从数百万辆汽车中采集、处理并自动标注驾驶数据,强调数据质量、数量与多样性的协同优化。在感知方向,他主导构建多项关键神经网络,包括视觉基础模型、目标检测、行为预测、占据网络、交通控制和高精度泊车辅助系统等,是 Autopilot 感知系统的核心构建者之一。

他本科毕业于武汉理工大学,主修光信息科学与技术,随后攻读俄亥俄大学电气工程博士与硕士学位,研究方向为航空电子,并以博士论文荣获 2019 年 RTCA William E. Jackson Award,该奖项是美国航空电子与电信领域授予研究生的最高荣誉之一。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 内部信曝光!奥特曼怒斥小扎 7 亿挖人:唯利是图的雇佣兵,将被使命打败

作者 莫崇宇
2025年7月2日 11:13

还有人没看过关于 Meta 挖人的段子吗?

▲ 建议以后顶级 AI 人才的流动,参考俱乐部的转会制度。

在昨日 Meta 高调官宣超级智能团队实验室之后,大批挖走OpenAI核心研究员之后,一向沉得住气的 Sam Altman 现在也坐不住了,向全体员工发出内部信:

有使命感的人将胜过唯利是图的雇佣兵。

据连线杂志报道,Altman 还在信中强调,留在 OpenAI 才是那些希望构建通用人工智能(AGI)研究者的正确选择,并暗示公司正在重新评估整个研究团队的薪酬结构。

对 Meta 的挖人行为,Altman 显得相当不屑,认为这种「开价挖人」的模式未来将带来严重的文化副作用。

我们已经从角落里的极客,成长为科技行业里最受关注的人(至少是这样)……AI 圈现在乌烟瘴气;Meta 的做法让人感觉不太体面;我觉得事情将来只会更加疯狂。我被解雇又回归时曾说,那不会是 OpenAI 历史上最疯狂的事;显然现在这事也还不是

在评价那些被 Meta 挖走的前同事时,Altman 的态度也没太客气:

「Meta 确实招到了一些优秀的人,但整体来看,他们并没有挖到那些顶尖人才,还得一路向下寻找;他们已经尝试招募很久了,我都记不清他们试图从我们这里挖走多少人去当他们的首席科学家。」Altman 写道,「我为整个行业的使命感感到骄傲,当然总会有一些唯利是图的人。」

他还放话称,OpenAI 股票的潜力远远超过 Meta。但巨大的回报应该建立在巨大成功之后,OpenAI将很快公布更多薪酬方面的举措,但会「确保公平性」,而不是只针对那些「被 Meta 盯上」的个别员工。

Altman还呼吁大家继续留在 OpenAI:

我对我们的研究路线从未如此有信心,我们在计算资源上做了前所未有的投入,我喜欢我们敢于下注,并相信我们会好好利用它。最重要的是,我认为我们拥有全世界最特别的团队和文化。我们确实还需要努力改进我们的文化;过去经历了疯狂的爆炸式增长。但我们的核心是正确的,我认为没有任何其他组织能做到这一点,我有信心我们能解决现有问题。

更重要的是,我们真的在乎如何以正确的方式构建AGI,其他公司更把它当作实现其他目标的手段。而这对我们来说始终是最重要的事,也将永远如此。等到 Meta 转向下一个流行项目,或忙于守护他们的社交护城河时,我们仍会在这里,一天又一天、一年又一年,努力比任何人都更好地完成我们的使命。其他许多项目将起起落落。

话虽如此,其实也真不怪研究人员转投 Meta。

无他,实在是扎克伯格给的太多的了。小扎不语,只是一味群发高薪合同。顶级 AI 研究员横在中间,像极了拿 offer 的你我他,嘴上说着不在乎钱,但手已经开始敲键盘回复小扎发来的邮件。

根据连线杂志获取的信息,扎克伯格为顶尖研究人员开出的薪酬高达 4 年 3 亿美元,首年总薪酬超过 1 亿美元,而目前,财大气粗的 Meta 已向 OpenAI 的员工至少发出了 10 份如此高额的报价,并承诺最先进的 GPU 资源「随便用」。

并且报道还提到,Meta 曾试图招募一位 OpenAI 的高级研究员担任首席科学家一职,但对方最终拒绝了邀请。据称,这些薪资方案虽然以股票为主,但第一年股票直接兑现,诱惑力拉满。

做个横向对比,微软 CEO Satya Nadella 在 2024 年获得的总薪酬为 7910 万美元,主要是股票形式;Uber CEO Dara Khosrowshahi 同期则大约为 3940 万美元,同样以股票为主。一个顶级 AI 研究员的年薪,现在轻松干掉硅谷大厂 CEO。

当然,在上周 Meta 全员大会上,CTO Andrew Bosworth 也回应了 OpenAI CEO Sam Altman 所称的「Meta 用 1 亿美元签约金挖角」一事,直指其夸大其词。

所谓高额待遇仅适用于极少数高级岗位。「我非常清楚他为什么这么说:因为我们确实成功吸引了一些 OpenAI 的人才,而他对此显然并不高兴。」他强调,所谓的「1 亿美元报价」不是一次性奖金,而是包含股票激励、签约奖励等多个组成部分。

这也应了那句话,算力可以堆,数据可以靠爬虫,但对想赢下 AGI 终局的公司来说,人才始终是最贵的资源。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

疯狂挖人之后,小扎刚刚官宣超级智能 AI 梦之队,华人占大半 | 附 11 人核心名单

作者 莫崇宇
2025年7月1日 08:50

在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。

Meta CEO 马克·扎克伯格在周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。

根据彭博社等多家外媒报道,该实验室未来将成为 Meta 人工智能战略的核心。

此次组织架构调整的最大看点,是引入多位行业重量级人物共同执掌新部门。被扎克伯格砸下 143 亿美元投资的 Scale AI 的前 CEO Alexandr Wang 将出任 Meta 首席 AI 官(Chief AI Officer),全面领导 MSL。

与此同时,前 GitHub CEO Nat Friedman 也确认加入,将负责 Meta 在AI产品和应用研究领域的推进。

据扎克伯格介绍,Wang 是这一代最令人印象深刻的创业者,在 Scale AI 期间参与了多款头部 AI 模型的数据体系搭建;Friedman 则被称为连接投资界与 AI 前沿技术的中流砥柱,曾参与创办多个 AI 风险投资基金,并担任 Meta 顾问。

随着 MSL 的正式亮相,Meta 也首次公布其最近一轮密集「挖人』的完整名单。

在过去几周里,Meta 从 OpenAI、Anthropic 和 Google 等竞争对手手中共招募了 11 位 AI 顶尖人才,几乎覆盖了当前主流大模型的全部研发脉络:

  • 多位 GPT-4o 和 GPT-4.1 的核心成员:如Shengjia Zhao、Jiahui Yu、Shuchao Bi、Hongyu Ren;
  • 来自 Anthropic 的高级工程师 Joel Pobar,此前曾在 Meta 任职11年;
  • DeepMind 的 Jack Rae 和 Pei Sun,曾负责 Gemini 模型和多模态推理系统;
  • OpenAI 语音与图像模型的重要推动者 Huiwen Chang、Ji Lin 等。

这些人才曾是 OpenAI 和 Anthropic 等机构的核心技术骨干,主导过 GPT 系列、Gemini 系列等主流模型的关键技术领域。

Meta 方面未透露具体签约金额,但传闻部分顶尖研究人员获得了价值数千万美元的股票激励。

此前,OpenAI CEO Sam Altman 也在公开播客中透露,Meta正以高达 1 亿美元的签约奖金挖人。Meta CTO Andrew Bosworth 上个月接受外媒采访时指出:「现在 AI 人才的市场价格已经达到了一个非常惊人的水平,这是我 20 年科技职业生涯中前所未见的。」

面对 Llama 4 系列模型的受挫,小扎高度重视 AI 人才,也不断通过查询论文排兵布阵,甚至亲自出马,把候选人请到太浩湖和帕洛阿尔托的家中,亲自面试、亲自拉人,拼的就是反应速度和出手诚意。

据悉,Meta 计划在未来几年投入数千亿美元于 AI 基础设施、模型训练、可穿戴终端与人才储备上。新团队未来还将启动 Llama 系列之后的下一代模型研发,目标是在一年内实现行业领先。

Meta 发言人对此次重组未作官方评论,但未来几周仍将有更多顶尖人才加入 MSL 团队。

附上扎克伯格内部信原文:

随着人工智能发展速度的加快,超级智能的实现正逐渐变得触手可及。我相信,这将开启人类的一个全新时代,我也会全力以赴,确保 Meta 在这一进程中走在最前沿。今天,我想分享我们是如何组织AI工作的,目标是实现我们的愿景:为每个人打造「个人超级智能」。

我们将这个整体 AI 组织命名为 Meta 超级智能实验室(Meta Superintelligence Labs,简称 MSL)。它将涵盖我们所有基础模型、产品和 FAIR 团队(Fundamental AI Research),并新增一个专门负责开发下一代模型的实验室。

Alexandr Wang 已正式加入 Meta,担任首席 AI 官(Chief AI Officer),并领导 MSL的整体工作。我与 Alex 合作已有数年时间,我认为他是他这一代中最令人印象深刻的创业者。他对超级智能的历史意义有着清晰的理解,作为 Scale AI 的联合创始人兼 CEO,他将公司打造成了一个高速成长的企业,几乎参与了业内所有领先模型的开发工作。

Nat Friedman 也加入了 Meta,将与 Alex 共同领导 MSL,负责我们的 AI 产品与应用研究工作。他将与 Connor 一起明确他未来在团队中的职责分工。Nat 曾在微软领导 GitHub,最近则负责一家领先的 AI 投资公司。过去一年里,他一直担任 Meta 顾问委员会成员,对我们的发展路线图和所需工作已有深刻了解。

今天以及过去几周,还有多位非常优秀的新成员加入 MSL,我也非常高兴能正式介绍他们:

  • Trapit Bansal —— 在「思维链」上的强化学习领域具有开创性成果,OpenAI 的 O 系列模型联合创造者。
  • Shuchao Bi —— GPT-4o 语音模式与o4-mini的联合创造者,曾在 OpenAI 负责多模态模型的后训练工作。
  • Huiwen Chang —— GPT-4o 图像生成功能联合创造者,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。
  • Ji Lin —— 参与开发 o3/o4-mini、GPT-4o、GPT-4.1、GPT-4.5、4o 图像生成和Operator推理系统。
  • Joel Pobar —— 曾在Anthropic从事模型推理工作,此前在 Meta 工作 11 年,参与 HHVM、Hack、Flow、Redex、性能工具和机器学习等项目。
  • Jack Rae —— 负责 Gemini 预训练技术以及 Gemini 2.5 的推理部分,曾主导DeepMind 早期的 Gopher 和 Chinchilla 大语言模型。
  • Hongyu Ren —— GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 的联合创造者,曾在 OpenAI 领导后训练团队。
  • Johan Schalkwyk —— 前 Google Fellow,Sesame 早期贡献者,Maya 项目技术负责人。
  • Pei Sun —— 曾在 Google DeepMind 从事 Gemini 模型的后训练、编程和推理工作,还打造了 Waymo 过去两代感知模型。
  • Jiahui Yu —— o3、o4-mini、GPT-4.1 和 GPT-4o 的联合创造者,曾领导 OpenAI 感知团队,并共同领导 Gemini 的多模态开发。
  • Shengjia Zhao —— ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的联合创造者,曾领导 OpenAI 合成数据团队。

我对我们在 Llama 4.1 和 4.2 模型上的规划进展感到非常兴奋。这些模型支持 Meta AI 的核心功能,目前已在我们多个应用中拥有超过 10 亿月活用户,并被越来越多 Meta 内部的 AI 助手所采用,用于提升我们的产品与技术。我们将继续深入开发这些模型。

与此同时,我们也将着手启动下一代模型的研究,希望在未来一年左右走到行业最前沿。过去几个月,我会见了 Meta 内部顶尖人才、其他 AI 实验室以及一些有前景的初创公司,以组建这个小而精的核心团队。我们仍在完善这个团队,并会邀请AI部门的更多成员加入这个实验室。

Meta 在将超级智能推向世界方面具备独特优势。我们有强大的业务基础,能够建设远超小型实验室的计算能力;我们在打造覆盖数十亿用户的产品方面经验丰富;我们也正引领并开拓增长迅速的 AI 眼镜与可穿戴设备市场。

此外,我们的公司结构也赋予了我们更大的决心和行动力。我相信,这波人才引入和模型并行研发的方式,将使我们有望真正实现「人人拥有个人超级智能」的承诺。

接下来几周,还会有更多出色的人才加入这个团队,敬请期待。我迫不及待地想全身心投入这项工作了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


断网都没用,机器人终于「摆脱」人类控制!Google 首发离线 AI 大脑,一句话让它干活

作者 莫崇宇
2025年6月25日 11:57

在影视作品里,我们看过太多机器人失控的场面。一些应对方案的段子也早已烂熟于心:断网、拔电、重启三连,一键送它回炉重造。

但现在,这一套流程可能不太管用了。

今天,Google DeepMind 推出了一款全新机器人控制模型——Gemini Robotics On-Device。这款大模型能在机器人本地运行,集视觉识别、语言理解和动作执行于一体。

而它最大亮点在于,即使完全离线,它也能理解人类指令,流畅完成任务。

比起诸如 ChatGPT、Gemini 等擅长聊天、写作、答题的大模型,Gemini Robotics On-Device 则给机器人装上了一个真正的「大脑」,让其也能具备类似的理解力和执行力。

它本质上是一个专为双臂机器人打造的 VLA 基础模型,顾名思义,Vision(视觉)+Language(语言)+Action(动作),三者结合,看得见、听得懂、动得了,是它的基本素养。

举例而言,你可以对机器人发出请求:「请把这件衣服叠好,再放进背包里,拉上拉链。」过去这需要提前编写程序、分解动作,现在 Gemini On-Device 可以直接理解这句话的意思,然后一步一步执行下来。

那既然联网也能跑,为什么还要费劲折腾本地运行?答案不外乎速度和稳定性。

机器人若需将数据传至云端、等待服务器分析再返回结果,必然产生延迟。在医疗操作、灾难救援、工厂自动化等任务中,延迟容错空间几乎为零。何况,现实中许多地方网络条件差,甚至完全无网。

实际上,让机器人顺利应对复杂、动态的现实任务,一直是 AI 领域最难啃的骨头之一。

从公开视频看,Gemini On-Device 已能胜任多种常见场景,如叠衣、拉链、抓取陌生物体并放置到指定位置。而这一切得益于它的学习机制。

▲强大的泛化能力

它不需要从零开始进行长时间训练,开发者仅需提供 50 至 100 次人工演示,如亲自操控机器人叠衣,模型便能迅速学会并独立操作。

在更具挑战性的分布式任务或复杂的多步骤指令执行中,Gemini Robotics On-Device 的表现依然优于目前其他本地运行的替代方案。

而且,它的适配性也很强。

虽然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 双臂机器人平台上进行训练的 ,但稍加适配,它也能稳定运行于 Franka FR3 工业机械臂。

甚至结构迥异的人形机器人 Apollo 也能丝滑运行,同一个通用模型通过少量学习,就习惯了完全不同的身体形态。

理想情况下,开发者无需为每种新机器人重新训练一个 AI,只需训练一次通用模型,之后通过轻量级的迁移学习即可部署到各式各样的机器人平台上。这种「一模多用」的能力将有望加速机器人技术的普及和应用。

当然,理想归理想,它也还有短板。

随着机器人智能与自主性提升,安全要求也随之提高。Gemini On-Device 虽然能执行动作,但它并不能合理判断你给的任务是否安全,因此,必须为模型加装「安全栓」。

DeepMind 给出的建议是,开发者可以给模型接入 Google Gemini Live API 接口,让系统先判断这个指令合不合理,再决定是否执行;同时在动作层面设置物理限制,如力度、角度、速度,以防意外。

此外,模型多步骤逻辑规划能力仍有提升空间。

像做三明治、整理桌面这这类需要先后逻辑、顺序安排的操作,目前还不在它的舒适区。这和它所基于的 Gemini 2.0 架构有关,未来随着升级到 2.5,这部分能力可能也会补齐。

另一个现实挑战,是数据。

虽然它只需几十次演示就能上手,但最理想的示范,是由真人实际操控机器人时采集的真实数据,而不是虚拟模拟。这类数据训练出来的效果,更快、更准,也更稳定。

▲技术报告地址:https://arxiv.org/pdf/2503.20020

据项目负责人 Carolina Parada 介绍,这是 Google 首次发布完全脱离云端运行的机器人 AI 模型,也是首个供开发者根据自身需求进行微调的版本。

目前,DeepMind 向「可信测试者」开放了 Gemini Robotics On-Device 的 SDK 和模型访问权限。如果你是做机器人开发、工业自动化,或智能系统研究的开发者,现在就可以申请试用。

附上申请链接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌