普通视图
好未来:2026财年净收入30.09亿美元
晶合集成:拟使用不超过80亿元闲置自有资金进行现金管理
冠豪高新:第一季度净利润1.8亿元,同比增长27725.76%
多氟多:第一季度净利润3.76亿元,同比增长480.14%
刚刚,姚顺雨腾讯首秀来了!三个月重建混元新模型,实测到底什么水平
![]()
这周,中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布,月之暗面的 Kimi 2.6 就马上登场,DeepSeek V4 也箭在弦上。
刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。
姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。![]()
从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。
这个大版本升级的混元模型,在短时间内,不仅对底层基础设施进行了系统性重建,还包括预训练和强化学习在内的底层框架,全部推倒重来。
最后的答卷是一个快慢思考融合的 MoE(混合专家)语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
在这个行业动辄吹嘘万亿(1T+)参数的时代,Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡,让模型能更好落地在不同场景。
而 300B 这个量级,复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活;如果继续强行扩大规模到万亿参数,一边是训练时间加倍,在实际的表现上,也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。
不过,姚顺雨也提到,他们在继续扩大预训练和强化学习的规模,提升模型的智能上限。
在多个真实生产和生活场景 benchmark,以及腾讯混元的 CL-bench 上表现对比前代,提升幅度明显。
因此,Hy3 preview 这次的定位非常明确,要到真实世界去解决复杂工程问题。
为了验证 Hy3 preview 是否能在真实世界去解决各种问题,具体的模型表现如何,APPSO 也提前拿到了内测资格,在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。
编程和 Agent,混元开始接住真实的工程需要
编程能力目前还是各家大模型发力的重点,前几天还有外媒报道,谷歌正在成立一个新的团队,专攻 AI Coding。
这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上,能够适用于编程和现在热门的智能体场景。
例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例,来看看 Hy3 preview 的具体表现。
![]()
▲提示词:创建一个超写实的旧金山金门大桥交互式 3D 体验,允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景,并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角(包括近距离结构穿梭和大场景俯瞰)平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时,务必从多个距离和角度环绕大桥飞行,验证导航的平稳性与稳定性,并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”,必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成,如果需要,即使耗时一小时也可以。请不断迭代,直至完美。
虽然最后的结果并不是非常写实,主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑,我们能使用 WASD 键来控制自己第一人称视角的飞行,同时 Hy3 preview 也自动写了一些默认视角。
而在让它写一些简单的小游戏时,像是同样来自 GPT-5.4 的提示词,做一个游乐场的经营类小游戏。
![]()
▲提示词:创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格,并生成全套游戏资产,包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现,艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动,同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法,以及简单的公园管理系统(如资金、清洁度、排队和满意度)。确保整体体验充满趣味、逻辑清晰且完整,而非粗糙的原型。在优先级上,趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时,务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅,确认游客对公园布局及景点的反应,并确保视觉效果、UI 以及交互体验稳定且统一。
还是不可免俗的使用了「渐变紫」的套装,只能说界面审美这一块,除了编程能力的提升,还是需要额外的一些微调。
好在整个游戏是能玩的,我们可以真实的经营这个游乐场,通过铺路、放置新的游乐设施以及服务设施等场地,来赚取收入,控制人流。
而经典的「骑自行车的鹈鹕」测试,我们把它换成了更难一点的,开着汽车的长颈鹿。生成的 SVG 画面是动态的,太阳、云朵和车子都在移动,基础的 SVG 元素都能做到。
![]()
这些关于编程能力的测试,我们都是在腾讯前段时间推出的智能体应用 WorkBuddy 内完成。
![]()
而除了代码开发的任务,我们还可以使用 WorkBuddy 进行文档处理、数据分析可视化、深度研究等方面的日常办公。
由于 WorkBuddy 也是一个本地 Agent 产品,和 Claude Code、Codex 之类的应用一样,我们可以让它直接访问本地文件夹的文件。
要求它访问电脑上 Hy3 文件夹里面的全部文件,并根据文件的内容,创建一个类似于 Wiki 的网页,能够直接索引到不同的文件。
![]()
WorkBuddy 读到了我们创建的不同项目,例如要求它完成的落地页、3D 金门大桥、个人博客、运营游戏等项目,并分类总结好。
再要求它把其中一个香港国际电影节的 PDF 文件转成 HTML,要求它 1:1 复刻精美的杂志效果,显然太为难它,但是 Hy3 preview还是能在非常规排版的 PDF 文件里,准确定位到信息,并整理成网页。
![]()
而在深度研究的调研任务上,我们要求他写一份关于内存市场洞察报告,给出的文档内容详细,使用的数据来源也全是权威机构。
![]()
继续用 WorkBuddy 内的数据分析及可视化任务来测试时,要求 Hy3 preview 基于联合国人口司的数据,做一次全球人口结构变迁的可视化分析,Hy3 preview 花了非常长的时间进行调研,最后给出的研究报告,可以说能直接拿过来用。
![]()
▲部分可视化图表截图
这些编程和智能体的能力,配合 WorkBuddy 能发挥到最大。在元宝 App 内,现在我们也可以让它生成一些小型的网页游戏,在对话框里就能预览打开。
闲聊,要做到「活人感」不容易
前段时间,一个短视频在网上传播,视频内容是一位乘客看到前排的司机,在手机上和 AI 助手聊天,他告诉 AI 自己一天收入,AI 会给他一些反馈。
有网友在下面留言,说以前这些聊天都是 200 块一小时的心理咨询,现在手机发条消息就能做到。
![]()
无论模型在代码开发、解数学题、科学研究上取得了多少成功,大多数人用 AI 的场景,占比较多的还是各种类型的角色扮演。
我们也测试了腾讯混元新一代大模型 Hy3 preview 在日常聊天以及创意写作上的表现。
没有「不躲不逃不藏的只用最直接」的方式跟我说,有的是真实地能解决问题的文字。打开元宝 App,点击深度/快速思考,选择模型 Hy3 Preview,问它「为什么我在广州找不到爱情」。
它的回复是客观和主观两方面并行的,会分析除我之外的原因,也会告诉我应该要怎么做。
在聊到一些可能找到明显原因的困惑时,Hy3 preview 还会自动生成对应的表格,来解释 AI 并不是只会顺从。
创意写作的任务上,Hy3 preview 模型的表现,也要比前代更有文采和个性化风格,即便是简单的生活文案,人情味也更明显了。
我们找了一些基础的风格模仿任务、叙事节奏的续写、语言的创作力和情绪张力等题目,来测试它。
生成的写作结果,在独特性、执行精确度,以及风格稳定性上的表现,确实要更符合我们人类写作的特点,没有 AI 那种明显的套话。
那道经典的走路去还是开车去洗车问题,Hy3 preview 也答上来了。
![]()
当所有人在做一套卷子,混元开始出卷
过去两年多,中国 AI 行业有一种集体焦虑:所有人都在做同一件事。同样的架构,同样的训练范式,同样的榜单,同样的新闻稿模板。模型发布会的 PPT 换个 logo 就能通用,「全球领先」「性能登顶」这些词被用到通货膨胀。
腾讯曾经也在这个队列里。别人打榜它也打榜,别人堆参数它也堆参数,别人做什么功能它追什么功能。结果是混元的技术投入不少,但市场感知始终模糊。你问用户「混元跟别家有什么区别」,大概率答不上来。
Hy3 preview 的意义,可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。
![]()
此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断:模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。
榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。
所以在 Hy3 preview 上, 就能看到混元开始把这个逻辑翻了过来:不追榜单,追场景。
![]()
▲去年一份报告就曾指出, AI 在各类基准测试上的分数一路飙升,benchmark 过于饱和,这些成绩往往并不能真实反映它对现实世界的实际影响。
295B 的参数量说明它不打算在模型尺寸上硬碰硬。不上公开榜单说明它不打算在刷分上继续内卷。Co-design 的研发模式说明它开始把注意力从「别人做了什么」转向「我的用户需要什么」。
这里就不得不来看看腾讯这家公司的核心业务场景,社交、游戏、广告、企业服务,每一个都有极强的领域特殊性。微信的对话流是碎片化的、高密度的;游戏需要模型根据实时局势做即时反应;企业微信和腾讯会议需要基于私有文档的精准分析。
▲ Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。
这些场景对模型的要求,跟通用智能榜单上考核的那些指标并不完全匹配。一个在 MMLU 上排名前三但在微信群聊里读不懂语境的模型,对腾讯来说毫无意义。
换句话说,腾讯可能是中国大厂里最不应该去追通用榜单的那一个。它手里攥着的场景足够独特、足够复杂、足够有商业价值,完全可以走出一条自己的路。
Co-design 就是这条路的起点。模型在真实业务里跑,业务用真实数据反哺模型,腾讯对 AI 的巨额投入能得到场景的快速验证,同时获得商业上的闭环。这个飞轮一旦转起来,产生的壁垒比榜单上的排名坚固得多。
当所有人都在比谁的模型更「全能」的时候,谁的模型在自己的场景里最「好用」,可能才是真正的胜负手。
![]()
当然,「找到节奏」和「赢下比赛」之间还隔着相当的距离。
Hy3 preview 是混元重整后的第一个模型,三个月的研发周期说明执行力在线,但也意味着大量的优化空间。55% 到 56% 的盲评胜率说明它够用,距离拉开差距还早。更大尺寸的模型在路上,正式版还在根据 Preview 阶段的用户反馈持续打磨。
但至少有一件事变了:混元不再追着别人的地图跑了。它开始画自己的地图,标自己的路。
大模型竞争走到今天,同质化才是最大的风险。当所有人都在用同一把尺子量身高的时候,有人开始造自己的尺子,量自己真正需要的维度。
这件事本身,比任何一榜单参数都值得关注。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
香港会财局就恒大审计对普华永道处以三亿港元罚款及六个月执业限制
三安光电:控股股东所持股份被轮候冻结
诺基亚CEO称:欧洲在人工智能数据中心建设方面恐落后于中美
看齐特斯拉!地平线也有了属于它的「FSD+Grok」
![]()
2026 年春,特斯拉正式向车主推送了免唤醒的「Hey Grok」,给冰冷的机器注入一个有趣的灵魂。
只要每月支付 9.99 美元的订阅费,车主就能得到一个随车助理,它能够顺畅处理多轮对话,帮你设置导航目的地。就像马斯克说的那样,它很聪明,也很幽默。
Grok 的设计初衷是带有一点幽默感地回答问题,并且带有一点叛逆色彩,如果你讨厌幽默,请不要使用它。
![]()
但当你遭遇前方慢车,试图用语音让它变道超车,或者是要求调节空调温度时,这个被锁在中控屏里的大语言模型完全帮不上忙。
原因在于,特斯拉的辅助驾驶依赖 AI4 芯片,座舱系统则运行在 AMD 芯片之上,硬件底层的物理隔离让 Grok 与 FSD 变成了互不相通的独立系统,两者仅靠 API 接口进行着浅层的联动。
这个聪明的大脑,指挥不了车轮。
在今天下午的地平线发布会上,这家科技公司拿出了截然不同的解法,他们选择给大模型装上真正的「四肢」。
![]()
地平线创始人兼 CEO 余凯在台上非常坚定地表明了他们的破局决心。
未来是以 AI 为基础,以 Agent 作为框架,它在上面会生长出无限的可能性。这种分布式的计算是无法拥有这种拓展性的。只有走向中央计算,才是我们要去推动的智能汽车。我们等不及了,我们要把未来拖到现在,现在就干。
智能汽车 3.0 时代的竞争大幕已经拉开,拿到第一张下半场入场券的玩家,恰恰是敢于彻底打通底层物理基座的人。
舱驾一体,讲了十年都不止了
和特斯拉一样,目前很多智能汽车的电子电气架构都存在一个明确的分界线。
地平线则选择从硬件底层做减法。余凯在发布会上举起了一个新产品,说:
国内讲舱驾一体讲了十年都不止了,(现在)我们把它干出来了。单颗芯片,5nm 车规工艺。
余凯手上的是国内目前唯一一个实现量产的 5nm 车规级融合芯片。根据不同的算力需求,地平线同步推出了星空 Starry 6P 与星空 Starry 6H 两个型号,星空 6P 的 AI 算力达到 650 TOPS,星空 6H 版本则提供 500 TOPS 的算力选项。
![]()
这款芯片将仪表控制、座舱娱乐、车身控制和辅助驾驶四个传统的分离计算域整合到了一起。面对端侧大模型和高阶智驾的海量数据吞吐,星空芯片的内存带宽做到了 273 GB/s,目前居于量产车规芯片之首。
![]()
硬件高度集成后,行业普遍关注的首要问题是系统隔离与安全防护。如果用户在使用高频的座舱应用时导致车机卡顿,辅助驾驶系统是否会受到牵连是一个很大的考验。
星空芯片在架构设计上引入了自研的硬件动态隔离机制,四个计算域在底层物理层面上保持独立。座舱系统即便崩溃重启,辅助驾驶系统也能照常运转,系统中的关键驾驶任务链获得了 ASIL-D 级别的功能安全认证。
![]()
计算资源的利用效率也有了显著提升。以运行 3D SR 渲染功能为例,业内友商的芯片大约需要占用 1000 GFLOPS 的算力,而星空芯片仅需约 600 GFLOPS 就能流畅运行。
算力的调配也变得非常灵活。
常规驾驶过程中,BPU 算力(Brain Processing Unit,地平线自研的专用于智能计算与自动驾驶的处理器架构)主要用于处理复杂的道路感知;当车辆停放时,这部分算力通常处于闲置状态,星空芯片能够在不重启系统的情况下,将空闲的 BPU 算力全部分配给座舱域使用。
![]()
这种动态分配机制,支持参数规模最高达到 27B 的端侧大模型在车端本地运行。
在统一的底层硬件之上,高阶辅助驾驶系统的表现获得了更实在的提升空间。
目前市场上部分辅助系统的宣传偏向应对极端的边缘场景。但在真实的日常通勤中,平稳和安心是用户更高频的需求。
HSD 就是一套基于这种真实需求打造的一段式端到端高阶辅助驾驶系统。
![]()
它跳出了工程师提前编写的固定规则代码,通过海量数据训练,建立起从环境感知直接到车辆控制的映射。从摄像头等传感器的输入到车轮的轨迹输出,系统省去了繁杂的后处理环节。
响应速度是最直观的指标。第三方专业评测数据显示,HSD 从感知环境变化到最终做出控制动作的时延只有 600 毫秒。
![]()
董车会之前在广州城中村体验过地平线这套 HSD,面对无序穿行的电动车和突发状况,HSD 表现出了一种像人一样的驾驶直觉。它能一边细腻地控制车速,一边精准地抹方向盘,在处理加塞时的防守姿态像极了经验丰富的老司机。
即将分批推送的 V1.6 版本还进一步强化了行车与泊车场景的主动安全机制,能力更加全面。
![]()
除了常规的 AEB 制动,新版本增加了 AES 主动避险以及连续避让功能,遇到前车急刹或者后方追尾风险时,系统可以迅速执行规避动作。
在日常高频的泊车场景中,V1.6 版本新增了遥控泊车与离车泊入功能;针对复杂地库环境,系统加入了悬空障碍物识别,并具备防开门杀紧急规避能力。
![]()
客观的数据印证了用户对这套系统的认可度。在目前提供 HSD 版本的量产车型中,有 94% 的用户主动选择了搭载该系统的配置,用户的日常使用率也已经逼近 50% 这个关键分水岭。
![]()
硬件架构的改变最终会实打实地反映在车企的制造成本与量产效率上。
用单颗 SoC 取代以前的两套独立芯片,整体的芯片占用面积减少了一半。车辆内部不再需要为两套系统单独配备多余的线束和散热模块。由于采用了统一的内存架构,以往两套系统加起来需要 64GB 的内存,现在只需 24GB 就能维持运转。
余凯在发布会上发问,2026 年什么最贵?答案是内存,内存就是目前的硬通货。
![]()
内存容量需求的降低直接缓解了供应链的压力。同等的内存库存,现在能够支撑一倍以上新车的生产交付。根据官方给出的数据,这套舱驾融合方案能让单车制造成本下降 1500 到 4000 元。
![]()
制造成本的大幅下降拓宽了高阶智能技术的市场受众面。
多款定点合作车型展示了这套方案的量产规模。全球首发量产搭载的 iCar V27 定位于 10 到 20 万级别的主流乘用车市场。星途 ET5、深蓝 L06 以及风云 T9L 等多款车型也已确定搭载整车智能体方案。
![]()
兼具性能和成本优势的方案一旦规模化落地,市场上仍在使用分离式架构的车型会面临巨大的竞争压力。智能汽车行业的下一阶段发展,正在向底层核心技术以及极高的量产效率快速倾斜。
聪明的机器,开始适应人的表达习惯
硬件算力和架构搭建好物理地基后,普通用户日常接触最多的依然是座舱里的软件交互界面。
现阶段主流车型的语音助手功能大同小异。车主可以通过语音指令定外卖查天气或者播放特定歌手的专辑。当需求涉及到驾驶的操作时,绝大多数语音系统都会提示无法执行。
显然,语音助手和车辆真正的控制中枢之间依然存在隔阂。
地平线配套发布的 KaKaClaw(咖咖虾)整车智能体操作系统改变了这种交互方式。依托星空芯片的底层打通能力,座舱域和智驾域的控制权限被汇聚到了一个统一的入口。用户不再需要去适应死板的机器指令格式。
![]()
系统支持多模态的自然语言控车。驾驶员用平时的说话习惯下达一段模糊指令,系统就能自动拆解任务。
一个长句子里可以同时包含调整车内空调温度、开启座椅按摩、修改导航目的地以及要求辅助驾驶系统放慢车速等多个跨域操作。系统在理解意图后,会同步调度相应的硬件去执行。
换句话说,机器开始适应人的表达习惯。
![]()
KaKaClaw 构建了三项能够被用户明确感知的核心能力。
首先是「Skill」,这套系统具备了强大的理解与执行技能。它告别了固定触发词响应机制,能够实时分析模糊且连续的口语指令。驾驶员随口交代一段包含吃饭、拍照和看电影的复杂行程,系统就能自动拆解任务并逐一落实。
当行驶路线发生改变时,它也能根据当前交通状况重算导航,并同步调整辅助驾驶的应对策略。
![]()
其次是「Memory」,记忆是建立默契的基础。传统的汽车硬件随着使用年限增加会逐渐老化,而 KaKaClaw 引入的长时序记忆功能让软件体验有了增值空间。系统会记录车主的日常驾驶习惯、常走路线以及车内温度偏好,车辆的表现会越来越贴合特定用户的个人习惯。
最后是「Soul」。KaKaClaw 的情感引擎加入了情绪识别机制,系统可以通过车内传感器察觉驾驶员的疲惫状态或者不耐烦的叹气声,并切换不同的人设,它可以是一个严谨务实的助手,也可以是一个带点幽默感甚至有些毒舌的同行伙伴。
结合顺畅的多方言识别能力,无论是四川话、粤语还是东北话,用户都能用最放松的方式与车辆沟通。
![]()
这种与用户的贴合感进一步延伸到了车辆功能的定义权限上。
以往车企会在出厂前预设好各种场景模式,用户只能在固定的选项里做单选题,KaKaClaw 放开了这种限制,把创建场景的权利交给了车主。
借助自然语言零代码生成的 Skill 技能库,普通人也能给汽车编写专属的运行逻辑。
![]()
设想一个有孩家庭的用车场景,车主可以用一句话创建一个接娃模式。系统接收到指令后会自动播放儿童专属歌单并把后排空调设定在最舒适的 26 度,车门的儿童安全锁会同步开启,系统还会主动语音提醒后排乘客系好安全带,并在屏幕上规划好前往幼儿园的拥堵避让路线。
KaKaClaw 目前已经联合了 120 多家生态伙伴,并规划了百万级的出货量。它支持自由接入豆包、千问等主流大模型,车主开箱即用。
![]()
2026 年是智能汽车发展的一个关键分水岭。
行业内的竞争焦点已经从单纯的硬件堆砌转移到了底层架构的合理性上,用两套互相独立的系统去拼凑高阶体验的做法,在成本控制和安全冗余上都显得捉襟见肘。
真正的整车智能体需要数字大脑和物理基座的无缝衔接,KaKaClaw 负责理解用户意图并调度全车资源,HSD 负责处理复杂的道路感知和驾驶决策,两者结合形成了一整套会理解、能干活、持续进化的整车能力。
![]()
当特斯拉的 FSD 和 Grok 依然维持着松散的协同关系时,一套能够直接用自然语言控制全车硬件,并且具备持续成长能力的系统已经步入量产阶段。
掌握着从芯片到操作系统,再到辅助驾驶驾驶算法全栈技术储备的地平线,正在按照自己的节奏推进新一代智能汽车的普及。
在发布会临近尾声时,余凯分享了一个感性的幕后故事。
几年前地平线成立七周年,他在准备全员演讲稿时,一位朋友突然提醒他,地平线产品的名字其实早就写在了电影《指环王》的插曲《May It Be》里。
那句经典的歌词翻译成中文,刚好对应着地平线的产品命名——
愿你那漫漫长路之征程,点燃星空,当黑夜被你征服,你将崛起于旭日之下。
余凯在台上回忆,那个时候地平线已经拥有了主打辅助驾驶的征程系列芯片,以及面向泛机器人领域的旭日系列芯片。而他当时正为构思中的舱驾一体芯片寻找一个合适的名字。
听到朋友念出这句歌词的瞬间,他心里就已经有了答案。
从征程到旭日再到星空,这不仅仅是一场充满宿命感的浪漫巧合,更是这家科技公司在智能出行时代留下的最清晰的坐标。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
中国电信:第一季度净利润73.5亿元,同比下降17.08%
市场监管总局:督促电商平台切实履行责任,堵住“幽灵网店”监管漏洞
腾讯混元Hy3 preview发布并开源
金山办公发布全新WPS多维表格
起底 GPT Image 2 团队后,我扒出了一张华人师徒网
![]()
GPT Image 2 正式上线后,AI 图像生成领域现在只剩两个段位:GPT Image 2,以及其它。
在大模型竞技场中,GPT Image 2 以 241 分的绝对优势遥遥领先,但比起跑分,这份研发名单其实更有看头。
![]()
搞出这个模型的 OpenAI 核心团队,满打满算只有 13 个人。
![]()
并且华人还占据了团队的半壁江山。仔细看他们的履历,你会发现不少人来 OpenAI 之前,就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。
AI 圈就是个巨大的熟人局。
流水的硅谷大厂,铁打的师徒局
陈博远是 GPT Image 2 的绝对核心成员,而他的成长却是华人学术「传帮带」的缩影。
高中时,陈博远在无锡参加科研夏令营,当时他未学过编程,在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习,成为他进入 AI 领域的引路人。
![]()
两人此后一直保持联系。本科阶段,陈博远就读于 UC Berkeley 计算机科学与数学专业,进入 EECS 荣誉班,GPA 达 3.96,师从 Pieter Abbeel 从事相关研究,还于 2017 年创办机器人教育公司,经营至 2020 年。
MIT 读博第一年,陈博远因无论文产出陷入困境,夏斐提供关键支持,协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习,2023 年实习期间,他主导搭建多模态大语言模型数据合成管线,其总结的指令微调技术被用于 Gemini 2.0 研发。
![]()
带着这些积累,陈博远在 2025 年 6 月加入 OpenAI。除此之外,他还是 Sora 视频生成团队的成员,身兼数职。
![]()
在 MIT 期间,陈博远师从助理教授 Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一个实验室里、同一个导师带出来的同门师兄弟。
![]()
▲
https://kiwhan.dev/
Sitzmann 实验室的核心研究方向是「世界模型」,简单说就是让 AI 通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素。这种研究思路,或许也直接影响了 GPT Image 2 的技术方向。
两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文,主要探索如何把扩散模型和序列生成结合起来,让模型在生成内容之前,先理清时序和空间上的因果逻辑。
![]()
▲
https://arxiv.org/abs/2502.06764
值得一提的是,Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。
![]()
除了这两位同门,团队里还有两位华人成员,他们来自工业界积累多年的华人研究员网络。
Jianfeng Wang 在微软工作了近 9 年,以首席研究员的身份专注于大规模多模态表示学习,在 DALL-E 3 研发期间,就和 OpenAI 团队有过深入合作。加入 OpenAI 后,他主要负责提升模型的指令遵循能力和对世界知识的理解。
![]()
▲
https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en
Bing Liang 则在谷歌深耕了 5 年多,以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作,去年 8 月加入 OpenAI,负责图像生成相关的研究。
![]()
▲
https://www.linkedin.com/in/bing-liang/
他们带来的不只是自己的个人能力,还有竞争对手多年积累的工程经验,以及曾经踩过的坑,为团队省去了不少弯路。
给天才们搭好戏台子
Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合,两人都毕业于浙江大学竺可桢学院,有着相同的本科背景。
Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程,博士阶段则去了约翰斯·霍普金斯大学,攻读计算化学物理与机器学习专业,拿到学位后,先后在亚马逊 Alexa 做语音识别方向的深度学习研究,之后又去了微软 Bing,负责查询理解与大规模检索相关工作。
![]()
他还曾在清华大学做过访问研究,研究方向是用于纳米机器人在人体血管中导航的强化学习算法,期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累,在 GPT Image 2 的发布演示中也能直接看到。
![]()
和 Yuguang Yang 相比,Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室(SAIL)攻读博士,期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。
![]()
▲
https://ai.stanford.edu/~wxliang/
在 Meta 实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对 Transformer 的每一个非嵌入参数,包括前馈网络、注意力矩阵和层归一化,都实施了模态感知的稀疏化处理,最终将多模态预训练的计算成本降低了 66%,还在 30B 参数规模下完成了预训练验证。
多模态模型因为要同时处理文本和高分辨率图像,计算量很容易呈指数级增长,而 MoT 凭借模态解耦的注意力机制,在预训练阶段就高效分配了不同模态之间的权重,很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」,在多模态建模领域引发了大量关注。
![]()
▲
https://arxiv.org/abs/2411.04996
近年来,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生,已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。
除了上述成员,团队还有几位核心研究者,各自发挥重要作用:
Kenji Hata:斯坦福计算机科学硕士,曾任职于 Google Research。加入 OpenAI 后,参与 4o 图像生成(即 GPT-Image-1)、Sora 2 等多款模型研发,是团队中模型迭代经历最完整的成员之一。
Ayaan Haque:加入 OpenAI 前为 Luma AI 研究员,参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力,在 OpenAI 主要负责 GPT Image 2 及思考模式研发。
Dibya Bhattacharjee:耶鲁计算机科学本硕,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究,在发布活动中演示模型多规格生成能力,是模型输出格式「开箱即用」的关键成员。
Mengchao Z.:上海交大本科、德克萨斯 A&M 大学硕士,工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。
此外,团队里还有多名成员的身份信息目前暂时无法查询。
![]()
师门脉络积累了研究品味,高校背景奠定了基础认知,这种由师门、同窗、前同事织就的人才网络,天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一,创新的磨合成本几乎为零。
如果只是重金挖走一两个陈博远,其实治标不治本。找不到同伴,也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利,但对于需要自由探索的基础研究,往往形成了某种约束。
AI 的竞争,归根结底是关于「人」的故事,比起寻找下一个陈博远,我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。