阅读视图

发现新文章,点击刷新页面。

Google 又一次发布了 Google Glass ,这次想帮你把 Gemini 与 Nano Banana 戴在头上

如果你今年一直在密切关注 AI 眼镜/AI 硬件领域的大厂动态,那你肯定对 Google I/O 期间 DeepMind 发布的 Project Astra AI 项目演示印象深刻。

在这个惊艳的 Demo 中,Google 展示了一个极其超前的原型概念:戴上一款 AR 眼镜,借助其中的 AI 能力,它不仅能帮助你理解现实世界中的各种元素,还能帮你记下现实中的各种信息,甚至提醒你某一样具体的物件放在了哪个位置。这一技术在发布后立即惊艳全场,被认为是 AR 眼镜在技术上的一次新突破,但其实同样可以被看作是 Google 过去近十年在增强现实技术领域投入的缩影。

而在今天刚刚举行的 Google The Android Show 特别节目中,这一愿景终于迎来了真正的落地时刻。

 

和去年一样,今年 Google 仍然对 Android XR 寄予厚望,强调这不仅仅是一个操作系统,它是一个跨越设备形态的统一平台。

据 Google AR/XR 副总裁 Shahram Izadi 在发布会中强调,Google 将 XR 设备定义为一个广阔的「光谱」:从轻若无物、主打全天候佩戴辅助的 AI 眼镜,到融合了两者的有线 XR 眼镜,最后才是算力强大、沉浸感极致的 VR 头显。

在这个光谱中,Gemini 不再仅仅是一个聊天机器人,它是整个生态系统的「粘合剂」和核心交互界面。它让 XR 设备真正有能力,从「个人设备」转变为赋予用户「超能力」的延伸感官。

显然,在这个战略之下,最让人感到兴奋,也是最能体现 Google 差异化策略的,并非传统类似 Apple Vision Pro 那样的重型头显,而是那些试图让技术彻底「隐形」的轻量化设备。

 

01

AI 眼镜:时尚优先,让技术「隐形」

在整个目前的 XR 设备生态中,Google 对 AI 眼镜的策略也称得上相当激进;因为不同于以往科技巨头对硬件堆料的执着,Google 这次避开了笨重的「赛博朋克」式科技感,选择了完全拥抱时尚。正如 Shahram 在视频中掷地有声的宣言:「我们的 AI 眼镜首先必须是眼镜。这意味着它们必须轻便、时尚,适合全天佩戴。」
这倒是与今年国内 AI 眼镜行业里出现最多的那句话「AI 眼镜首先得是一只好看的眼镜」不谋而合。
为了实现这一目标,Google 也并没有选择闭门造车,而是宣布与全球顶尖的眼镜品牌 Warby Parker 和 Gentle Monster 达成深度合作。同时公布了 Google AI 眼镜的原型机。

 

Gentle Monster 在发布会中表示,他们希望挑战传统的认知,创造出不仅提供连接,更能激发惊奇感的时尚单品。Google 的技术专长在于让复杂的科技「消失」在精美的镜框之中。
按照规划, Google 未来将推出两种形态的 AI 眼镜:一种是类似 Ray-Ban Meta 的纯音频/摄像头版,专注于语音交互和捕捉生活;另一种则是集成了 Micro-LED 或 Micro-OLED 投影的显示版 AI 眼镜(Display Smart Glasses),能够在不阻挡视线的前提下私密地显示信息。

 

在 The Android Show 的实机演示环节,Google 也展示了这种轻量化设备的潜力,尤其是 Gemini 多模态能力的实际应用。演示者戴着原型机走进休息区,目光落在桌上一包陌生的零食上,随口问道:「这是什么?」Gemini 几乎在瞬间识别出这是韩国流行的食物,同时还详细解释了它独特的吃法——捏碎面饼并撒上调料粉。这不仅仅是视觉搜索,更是一种对现实世界的深度理解。
更有趣的是 Nano Banana 的端侧图像编辑模型演示:当你对着面前的朋友拍了一张照片,然后通过语音指令:「给每个人加上全套身体的 Android 机器人特效,还要戴墨镜。」在毫秒之间,AI 就在眼镜的视野中生成了有趣的增强现实图像。
为了证明这不仅仅是极客的玩具,Google 还展示了与旅游平台 Get Your Guide 的合作案例。在一个名为「寻找纽约最好吃的热狗」的旅程中,AI 眼镜成为了比智能手机更沉浸体验的向导。
当游客在复杂的街道上寻找集合点时,眼镜直接在视野中标记出路径;当面对究竟「热狗算不算三明治」这种存在主义哲学问题时,Gemini 也能即时加入讨论。甚至在 Uber 的演示中,当用户抵达繁忙的机场路边,眼镜能直接显示车辆的实时位置、车牌号,并引导用户精准找到司机。

 

这种仅仅通过「抬头」这一动作就能完成的交互,让用户既能获取数字信息,又能保持与现实世界的连接,真正做到了让计算如影随形。
当然,为了支撑这些体验,开发者生态至关重要。Google 今天也发布了全新的 Glimmer UI 工具包,这是 Jetpack Compose 的一部分,专门针对眼镜进行了优化。它引导开发者避免使用在透明屏幕上会「消失」的黑色背景,转而使用高对比度的卡片式 UI。
此外,新的 Projected Library 允许开发者将现有的手机 App 画面直接「流式传输」到眼镜上,无需重写代码即可实现跨端体验,这无疑将大大加速 AI 眼镜应用生态的成熟。

02

Project Aura:把「大脑」挂在腰间的 4K 巨屏

 

介于轻便的 AI 眼镜与重型的全沉浸头显之间,Google 也并没有留下真空地带。由 XREAL 承载的 Project Aura 代表了 Android XR 生态中一条极为务实的路线。此前外界对它的认知仅停留在「有线眼镜」的概念上,但在这次展示中,它被重新定义为一种平衡了移动性与生产力的全新计算形态。

 

与 XREAL 其他产品相同,Project Aura 采用的也是光学透视(Optical See-Through)方案,这也意味着用户是透过透明镜片直接看到真实世界,而不是通过摄像头拍摄再显示的视频透视。

但 Project Aura 的野心远不止于此,它并非简单的投屏眼镜,而是一套完整的计算系统。

其核心创新在于那个通过 USB-C 连接的计算模块。这个像冰球一样大小的模块内置了强大的 Snapdragon XR2+ Gen 2 芯片和高容量电池,运行着完整的 Android XR 系统。

 

这种分离式设计它极大地减轻了眼镜本体的重量,解决了长时间佩戴鼻梁压迫的问题,同时将发热源从头部移开,避免了「暖宝宝贴脑门」的尴尬体验。

同时,这个模块本身也是一个控制器,表面配备了触控板和方向键,方便用户在无法语音或手势的场景下进行盲操作交互。

在视觉体验上,尽管眼镜本体轻便,但堆料却毫不含糊。根据 UploadVR 的上手报告,Project Aura 提供了单眼 4K 的超高分辨率和 70 度的视场角。虽然这一视场角不及 VR 头显,但在 AR 眼镜领域已属顶尖,足以填补全沉浸头显与普通眼镜之间的空白。

 

在 Google 演示的「咖啡馆场景」中,用户可以通过 Project Aura 扩展出了多个巨大的虚拟屏幕:左边播放着流媒体视频,右边是聊天窗口,中间则是巨大的工作界面。

 

更令人印象深刻的是它的混合办公能力。当你需要处理复杂的照片编辑任务(如 Lightroom)时,Project Aura 可以通过线缆连接到笔记本电脑,瞬间变身为电脑的超大虚拟显示器。

此时,Gemini 依然在线——当你看着 Lightroom 的界面不知道如何操作时,可以直接询问 Gemini:「如何给这张照片添加背景虚化?」Gemini 能够识别电脑屏幕上的内容,并一步步指导你操作滑块。这种跨设备的智能协同,彻底摆脱了 AR 眼镜作为「手机附属品」的固有标签,使其成为了真正的生产力工具。

03

Galaxy XR:硬刚 Vision Pro 的参数怪兽

作为 Android XR 平台的旗舰级「重武器」,今年稍早时候正式发布的三星 Galaxy XR 头显虽然在形态上不如眼镜轻盈,但在硬件参数和沉浸式体验上展示了安卓阵营的绝对肌肉。这款设备被 Google 称为拥有「无限屏」,旨在为用户提供最极致的视觉效果和计算能力。

 

本次发布会上虽然没有头显产品线的硬件更新,但 Google 和三星深知软件体验才是留住用户的关键,因此通过最新的功能更新解锁了几个直击痛点的关键体验。
首先是解决了「不想以卡通形象开会」为痛点的 Likeness(拟真形象)Beta 版。在视频演示中,用户奥斯汀展示了这一功能:只需将头显取下,反转面向自己进行约 30 到 90 秒的扫描,结合设备内部的眼动追踪和面部传感器,即可生成一个逼真的 3D 数字化身。在 Google Meet 通话中,这个化身能精准捕捉用户的每一个微笑、皱眉和眼神变化,让远程协作不再像是在玩电子游戏,而是真正的人与人之间的交流。

 

对于经常出差的商务人士,新增的旅行模式则是一个刚需功能。如果你在飞机上使用过 VR 设备,就会知道机身的颠簸和转向往往会导致虚拟窗口漂移甚至让人眩晕。Travel Mode 通过算法优化,暂时禁用了依赖视觉特征点的追踪技术,转而依靠 IMU(惯性测量单元)来实现稳定的 3DoF 追踪,从而确保面前的虚拟屏幕像钉子一样钉在空中,无论机舱如何颠簸都稳如泰山。

 

而在娱乐和内容消费方面,Google 还画了一个巨大的饼—— 自动将所有 2D 内容转制成 3D 版本。
Google 产品经理 Austin 表示:「想象一下,如果每一个游戏都是沉浸式的,每一部 YouTube 视频都是 3D 的,整个互联网都变得立体起来。」
这一功能计划于明年系统级推送,它将利用设备的端侧算力,能将普通的 2D 内容实时转换为 3D 体验,彻底解决了 XR 平台初期内容匮乏的难题。
值得一提的是,三星在交互硬件上也做出了改变,Galaxy XR 配备了一对类似「星战光剑柄」的流线型手柄,彻底移除了硕大的红外追踪环,转而完全依靠 LED 和计算机视觉算法进行追踪。这不仅让手柄看起来更具未来感,也大大减少了在使用过程中双手碰撞的几率。
从最前端、最贴近生活的 AI 眼镜,到兼顾便携与性能的 Project Aura,再到代表着算力巅峰的 Galaxy XR,Google 今年正试图通过 Android XR 证明一个道理:未来的计算不应该把你关在封闭的房间里,也不应该强迫用户去适应单一的硬件形态。

 

相反,计算应该像空气一样,通过不同形态的设备,渗透进生活的每一个缝隙——无论是你在咖啡厅办公,在异国他乡旅游,还是在客厅里享受电影。
随着开发者工具的全面开放,以及 Gemini 智能核心的不断进化,2026 年,或许我们真的可以把熟悉的 Android 应用不仅「装」在口袋里,更是「戴」在头上,看着它们在现实世界中活灵活现。

 

猿辅导一个月连发两张 AI 牌:这次把 Agent 交给老师

猿辅导的 AI 节奏明显提速。

继刚刚发布纯 AI 外教产品「斑马口语」后,12 月 1 日,猿辅导再推面向教师的 Agent 工具「飞象老师」,这是一个原生 AI 生成式产品: 教师只需要描述教学创意和想法,就能直接生成可交互的教学动画与游戏化课件。

一个月内连发两款 AI 产品,这种「高频出牌」的信号很直接:

这家以在线课程和题库见长的教育科技集团,正把 AI 的押注从「零散功能」推向「垂直场景的系统化重做」。

「斑马口语」把外教课堂交给 AI,让每一位孩子都有一位专属的 AI 外教。「飞象老师」更激进——chat to APP(对话即应用):让老师用自然语言「做」出课堂级教学产品。

密集的产品节奏背后,猿辅导似乎正在向外界强调新身份:

不只是一家在线教育巨头,而是一家扎根教育场景的 AI 公司。

 

01

「飞象老师」到底是什么?

 

一句话总结: 老师输入一句需求,AI 生成一堂能直接用的互动课。 老师在课堂上打开 就能 用,所以它是个网站, 目前没有 APP

比如输入:

「帮我设计一个球体体积推导的互动演示。」

系统会通过多轮对话,实时生成包含互动 H5 动画、结构化板书设计、随堂习题的全套课件。

这跟上一代教育 AI 很不同,过去更多是「生成教案、出题、润色」。而「飞象老师」的核心能力在于多模态的即时生成——「即时构建课堂应用」。

你以为是在聊天,它其实在搭课程、搭互动、搭节奏。

结果很直接:老师不必学 Flash、GeoGebra。你懂教学、会表达,就能做教学软件。

 

02

体验层冲击:为什么它不像「花活」?

 

从交付看,「飞象老师」不是一个通用模板「套」所有学科。它做的是更难、也更有价值的事: 按学科痛点做深度垂直优化。

比如,数学学科最怕「会背不会懂」。在「飞象老师」里输入「平方差公式几何证明」,系统直接生成可视化推导动画:大正方形拆解、小正方形切除、剩余图形平移拼接,代数公式被还原成清晰且生动的几何过程。

学生看见了「为什么」,而不只是「答案是什么」。

又比如,语文的难点不是「读」,是「进不去」。

输入「生成黛玉进贾府-沉浸式体验」,它会生成交互式剧情:学生以第一视角进入贾府路线,看布局、走情境、触发人物互动,名著从「讲解范本」变成了「体验现场」。

还有,英语的痛点是「脱离真实场景的重复性枯燥」。在「飞象老师」里上传课本截图,场景就能动起来;上传单词表或输入 Unit 名称,就能即时生成超市购物、环游世界等情景小游戏。

这三个例子的共同点很清楚:

它不是「让课件更炫」,而是让教学可交互、可理解、可被学生主动参与 ,这也是它最像「应用级教师 Agent」的地方。

 

03

当教育垂直 Agent「撞车」Gemini 3.0

 

非常有意思的是,就在「飞象老师」发布前后脚,Google 发布的 Gemini 3.0 也展示了类似能力。社交网络上,大量硬核玩家用 Gemini 3.0「手搓」应用。

这反而从侧面说明一件事: 猿辅导在技术路径的选择上是非常超前的。他们不仅押中了「多模态+互动生成」这个大方向,在产品落地上,甚至比 Google 的通用模型应用得更早、更深。

「既然 Gemini 3.0 也能做,为什么我们需要一个专门的「飞象老师」?」

这话听着耳熟——「通用大模型都这么强了,为什么还需要专业级 Agent?」从 Cursor 、Harvey 开始,每当一个垂直领域的 AI 新工具出现,这个问题就得来一遍。

答案是「可规模化」:通用模型能做 demo,垂直 Agent 要解决日常使用。全民手搓应用可以嗨一嗨,但「看起来好玩」和「上课能用」是两码事。

实际体验后我们发现,「飞象老师」把三个关键点做到产品化:

第一,0 门槛。

通用模型能做,但门槛高很难「长期手搓」。 教师的真实时间和技能结构,更不允许他们每天当「半个产品经理+半个提示词工程师」。

「飞象老师」把这些复杂度压在后台,老师看到的只有「我说需求,你给结果」的对话界面。

第二,输出「教法」,不只素材。

它内置教师 workflow:从情境引入、概念讲解、提问脚手架、随堂检测,AI 输出的是一套成体系的教学组织方式,而不仅仅是「太炸裂了」。

第三,知识库护栏。

教育不允许「差不多」。

「飞象老师」调用猿辅导的「超级知识库」,十几年积累的题库、知识图谱、教法体系,把学段匹配、考点引用、难度边界拉回可控范围, 这是垂直 Agent 的关键护城河。

 

04

一个「更大的问题」冒出来

 

过去两年,所有垂直行业都在等一个答案:

「大模型的能力进化,最终会把行业重做成什么样?」

创业团队冲得快,但容易昙花一现;通用模型公司技术强,但容易「拿着锤子找钉子」;行业巨头懂场景、能规模化,但必须证明: 能把 AI 做成大规模、日常、高频的应用级产品

教育作为「超级场景」,是包括 OpenAI 在内的所有大模型公司,都视为 AI 应用排名前三的领域;教育学习,也是 AI 时代创业者必看的机会。

所以,大模型的能力进化,最终会把教育重做成什么样?

「飞象老师」更像是猿辅导给出的一种明确态度:

在教育这个强专业、强准确性、强场景约束的行业里,AI 的下一步绝不只是简单 的 效率工具, 而 是彻底升级课堂形态,革新学习范式。

 

05

结语

 

从「斑马口语」到「飞象老师」,猿辅导的 AI 版图不会止步。初创在冲刺,通用大模型在下探,追击只会更快、更凶。

从历史周期看, 最容易跑出「大规模、日常、高频应用级产品」的,往往就是教育。

场景重、需求真、决策链清晰,足以把「概念」逼成「日常」。

当 AI 进入新的技术纪元,答案正在逼近:

教育行业,会成为最先跑出「应用级 Agent」的第一批样板吗?

跨越比特与原子,小鹏汽车下一个十年的「物理 AI」路线图

整理|汤一涛

编辑| 靖宇

 

在极客公园创新大会 2026 的舞台中央,小鹏汽车董事长兼 CEO 何小鹏发表了一场极具行业洞察的年度演讲。

何小鹏在极客公园创新大会 2026 上发表演讲|图片来源:极客公园

 

作为穿越了互联网、移动互联网到人工智能周期的连续创业者,何小鹏此次的目光不再局限于单一的交通工具。他敏锐地指出, 科技界正在经历从「数字能源」向「物理 AI」的范式转移 。从自动驾驶的端到端大模型,到人形机器人 IRON,再到打破维度的陆地航母,小鹏汽车正在构建一个打通比特世界与原子世界的全新生态。

何小鹏认为,未来十年, 我们将不再仅仅讨论规模效应或网络效应,而是迎来一个属于「智能体效应」的全新时代

以下是何小鹏在极客公园创新大会 2026 上关于物理 AI、具身智能以及未来出行图景的演讲实录,由极客公园整理:

回顾过去二十多年的创业历程,我们见证了数字世界的爆发——从计算机软件、互联网、移动互联网到如今的 AI 浪潮。这背后有一个非常重要的底层逻辑: 能源与引擎的组合形式决定了科技浪潮的方向。

数字世界和物理世界的融合,将催生物理 AI|图片来源:小鹏汽车

在物理世界,19 世纪的蒸汽机、20 世纪的石油与内燃机,分别催生了火车、汽车和飞机的诞生,深刻改变了人类的生活。而在数字世界,同样存在「能源」与「引擎」。今天,数据与算力的结合构成了新型能源,而芯片与交互界面(GUI)则是利用这种能源的新型引擎。

能源的转变推动了动力形式的转变,而能源加动力形式的转变,又改变了所有人的生活。在下一个数十年里边,如果我们有一天把核聚变做的非常小型,放到心脏里面,也许新一代的超人就会出现。

所以能源+动力形式的改变推动了这个世界上科技的浪潮。换个角度,我们相信下一个十年到三十年里,很有可能出现一种全新的创业方式: 物理如何跟 AI 耦合

 

01

从网络效应到「智能体效应」

 

那么在物理世界跟数字世界,我们如何去把自己的壁垒提高,如何构建自己的最强大的能力?在这里面做一个分析。

在商业与技术的演进中,不同的时代遵循不同的效应:

  • 物理世界 遵循「规模效应」:规模越大,成本越低,竞争力越强。
  • 互联网世界 遵循「网络效应」(Network Effect):产品对用户的价值取决于使用该产品的其他用户的数量,连接的节点越多,价值呈指数级增长。

我们相信,随着物理 AI 出现之后,下一个世界物理和数字这两个世界开始融合,我们会出现一个全新的效应—— 智能体效应 。在这个效应里面所有的东西都会不一样。

比如说我们以前会讨论,汽车领域将来会不会出现赢者通吃的结构?所有做汽车的人都不认同,因为汽车是个规模效应,一定是多定位、多区域的多头并存。换到互联网世界,就出现了赢者通吃的情况。

智能体效应会不会出现新的效应,比如说寡头垄断,不知道,但是一定会出现全新的思考逻辑。这跟大家分享两个有趣的观点。

第一个智能体里面的一个表现形式叫 黑洞效应 。AI 会不断吞噬知识、压缩知识,涌现出全新的能力。

在自动驾驶领域,我们已经观察到这种现象:模型开始展现出人类未曾预设的逻辑。例如,车辆在红灯即将变绿时产生的预判性「蠕行」,这并非代码规则所写,而是模型从海量数据中涌现出的智慧。这也是为什么在未来,代码的重要性将让位于数据;也是许多公司开源模型,却绝不开源核心数据的底层逻辑。

黑洞效应:AI 将化为不断吞噬知识的黑洞,不断涌现出全新的知识和能力|图片来源:小鹏汽车

第二我们看到智能体效应里面叫 蚁群效应, 这是一种去中心化的高适应性智慧。蚂蚁搬运食物,个体在路上看到一只虫子,它不会回到蚁巢向蚁后汇报,让蚁后派蚂蚁小队把虫子搬走;而是会跟附近的蚂蚁形成近场的网络效应,附近的蚂蚁越多,它的 power 越强。

个体之间可以通过近场网络通讯,通过局部互动涌现出群体智慧。附近的「蚂蚁」(智能体)越多,系统的鲁棒性和适应性越强。未来的物理智能体将具备独立的感知、思考、推理、控制和决策能力,大家也会看到一个全新的效应会出现。

蚁群效应:非中心化调度的近场网络效应,实现统一、高效、自适应的集体行动|图片来源:小鹏汽车

新的效应一定有巨大新的机会,这里举两个小鹏汽车在做的例子。

为什么在过去的几十年里,无论是家电、手机还是传统汽车,都难以形成真正的「网络效应」?

原因有二:一是缺乏足够的规模;二是缺乏自主规划的能力,只是工具,产生不了自身的内容。但在新的 AI 时代,情况发生了改变。在这个过程中,人类的角色将从劳动的「生产者」转变为智能的「监管者」。这种变化也将在小鹏的 Robotaxi 、Robo 车型以及未来的人形机器人上得到体现。

所以下一个十年,我们极有可能见证一种全新形态的巨型企业诞生。回顾商业历史,过去数十年甚至上百年的大型公司,其架构往往是线性的——「十万名员工、十万个工具」的物理堆叠。而在最近二十年的互联网时代,服务器成为了新的杠杆,企业通过「人+服务器」的模式实现了规模复利的效率提升。

所有企业在物理 AI 的新十年,都将经历颠覆性的生产力变革

在下一代,这个变化可能会更剧烈。我们将看到「十万名员工」叠加「百倍数量的智能体(Agent)」,以及充足的算力资源。这意味着企业将进入一个全新的生产力维度,生产关系也将发生本质的跃迁: 生产协作不再局限于「人与人」之间,而是演进为「人与智能体」、「智能体与智能体」以及「人与人」并存的复合协作网络。

要怎么去迎接这种变化,小鹏汽车的思考逻辑是,通过自研算力的芯片、自研操作系统以及物理世界运动的模型,构建基于物理 AI 的全栈自研能力。在这个基础上,我们又孵化出了 Robotaxi、飞行汽车等新形态。AI 大模型为物理 AI 提供认知与理解能力,具身载体提供与真实世界交互执行的能力。

 

02

重构自动驾驶——超越语言(Language),

走向行动(Action)

 

大家知道,小鹏是非常早就在做自动驾驶的一家整车厂。过去时间里,我们一直看到一个问题:为什么无论用规则算法还是小模型,都难以突破 L2 级辅助驾驶的瓶颈?

路德维希・维特根斯坦有一句名言(Ludwig Wittgenstein):「语言即世界。」我们尝试用人类的语言去归纳这个世界,写出很多的规则。但是为什么语言就是我们的世界?为什么仅仅用语言来束缚跟框架?

举个例子,小朋友们想学游泳,他可以看书学习理论,也可以去水里亲自学一下,哪一个有效?很多时候,人类习得知识和技能并非是通过语言,而是感知。

人类用语言归纳世界,但一个人在自我学习的领域里面,有很多时候是不能通过语言去学习的。举个例子,小朋友们想学游泳,他可以看书学习理论,也可以去水里亲自学一下,哪一个有效?很多时候,人类习得知识和技能并非是通过语言,而是感知。

所以语言只是人类归纳世界的一种方式。今天我们大部分的大模型都叫大语言模型。这意味着它们可能并不是这个世界上最有效率、最综合、最全面的模型,因为它是人类把这个世界高度抽象和归纳之后形成的模型。

为了实现真正的 L4 甚至 L5 级自动驾驶,我们必须跳出「语言」的框架。小鹏的 第二代 VLA 选择跳过了语言框架,直接通过视频(Video)结合语言(Language),最终输出为行动(Action)。这种直接从物理世界进行感知、规划、推理并执行的模型,效率和能力将大幅提升。

我们相信,在未来,一个直接从物理世界进行感知和规划、推理、执行的模型,一定会在物理 AI 领域和大语言模型结合。

这也是为什么,我们认为,下一个五年里,大家会看到无人驾驶时代。

我相信在无人驾驶时代,有两种无人驾驶的汽车。一种是没有人开的无人驾驶汽车,也就是 Robotaxi。我相信这种汽车会在下一个五年里会出现,但数量不会非常大。

更多的是有人开的 L4 体验的汽车,小鹏明年会推出三款这样的汽车。虽然仍需驾驶员坐在位子上,但车辆具备全冗余硬件和无接管能力。

今天所有的 L2 都只能在城区开,不能在小区、小路开。2026 年,小鹏会在我们的 Robotaxi 上试运营我们相关的能力,还会推出一个全新的 Robo 汽车,能够规模交付所有用户,可以不限区域,特别是小区内、地下车库内,园区内都能非常好的行驶。

小鹏将在未来推出的产品 Robo|图片来源:小鹏汽车

 

03

具身智能的终极形态——

为何是人形机器人?

 

小鹏在物理 AI 领域的另一大探索是名为「IRON」的全新一代人形机器人。很多人问,为什么是人形?

首先,环境适配性。下一个二十年、三十年全球有很多种机器人,一定有非常多的专有机器人。但我们相信人形机器人是最普遍的,因为这个世界是按照人去设计的。

我们在过去做了七代机器人,有四代是四足机器人。我们做第三代的时候,把四足机器人放在一个开发者的家里去用,提前感知一下四足机器人在家庭场景里有没有用。我们发现了无数问题。如果一个人走到床头柜旁,可以轻松原地转身;但对于四足机器人而言,在狭窄空间内原地掉头的难度非常高。

我想用这个小案例说明,如果你想让一个机器人更容易适应于这个社会,人形是非常重要的,因为这个社会都是为了我们人去思考、设计、使用的。

第二点是数据获取。只有把机器人做成人形,才能直接利用海量的人类行为数据,来对机器人进行训练。如果做一个专有机器人,要获得海量数据是非常困难的。

第三点是工具使用。很多人说可以把机器人做成跟一个工具的嵌入合体,它当然更好,我同意。但是这个世界上有 100 万种工具为人而设计去使用的,人形机器人可以最大程度适应这些工具。这跟机器人只有一个工具或者少数几种工具的使用权利相比,有非常大的不同。

我今天还想跟大家分享一下小鹏机器人走猫步这件事。

小鹏 IRON 为什么能走猫步?核心是硬件的设计。我们深入研究人体解剖学,增加了颈部和肩部关节,特别是在腰部设计了五个关节。只有拥有像人一样的肌体,才可能从物理层面还原人的体态。

小鹏 IRON 机器人在之前的发布会上引起了轰动|图片来源:小鹏汽车

 

如何从过去的模仿和简单的记录,变成真正的泛化、有重映射的逻辑,机器人才能进入到人类真实的步态。

目前的机器人行业大多处于第一代的阶段,表现力很强,但是需要提前录制。

从第一代进化到第二代,能够在不同的状态下比较快速和自然地切换不同的动作。

今天做的比较好的大多处于「1.5 代」阶段:能走和跑,但是很难干其他事情。换个角度说,绝大部分是半身运动,不是全身运动。

但是真正要做得好的是全新的泛化性最重要一代,我们自己内部叫零重力的控制体态:让机器人全身 70-80 个关节,在模拟无重力的状态下实现真实的协同运动。再在上面加上运控的生成式运动规划,才有可能在将来量产的机器人里面达到人的所有姿态和形式。只有攻克了这一难关,量产机型才能真正具备人类的姿态灵活性。

第三代人形机器人的特点是泛化性强,具备对全新的动作零样本迁移的能力|图片来源:小鹏汽车

小鹏汽车正在努力,希望在明年量产下一代的运动控制。

一个机器人体系里,需要有所有软件控制硬件的能力,而硬件设计需要足够的生产制造能力,这是最重要的。

小鹏 2025 年的研发投入预计接近 110 亿元人民币。我们会把汽车与 AI 领域的研发能力,迁移应用到机器人研发中;未来我们在机器人研发上的团队规模,也可能从千人级别逐步扩充到万人级别,覆盖软件、硬件、算力、嵌入式电子电器、线束等全链条技术领域。

我们认为,未来的汽车公司,本质上也会是机器人公司,这正是我们对行业发展的期待。

小鹏人形机器人 IRON,与 AI 汽车技术、制造和商业同源

与依赖 WiFi 连接云端的机器人不同,小鹏坚持端侧算力。IRON 机器人搭载 3 颗自研图灵芯片,拥有 2250 TOPS 的有效算力,并运行多个操作系统,包括 VLT、VLA、VLM 实现一个机器人进入高阶的能力。

关于落地场景,在中国和在欧美不一样,在欧美我会选择工业,在中国我会选择商业。至于进入家庭,还需要等待几年。

除了陆地,我们也在探索天空。小鹏汽车做了 12 年的低空飞行,现在向大家介绍一下我们的两大飞行体系。

明年,小鹏会推出第一个分体式飞行汽车——「陆地航母」。它创新性地解决了飞行器的存储、运输和补能问题:将飞机折叠收纳于汽车尾箱,随走随停。但带来的问题是只能飞 20 分钟以内,所以换个角度,它主要为了旅游观光。但是我们相信,将来我们会做出长续航版本。

另一个是垂直起降电动飞机 A868,它是纯飞机的形式,能够满足多人长航程高效出行。

小鹏汇天两大飞行体系:「陆地航母」满足个人低空飞行体验;「A868」实现多人长航程高效出行|图片来源:小鹏汽车

很多人都开过车,但极少人开过飞机。我相信下一个十年会有越来越多人开过真正的飞机。

这就是小鹏在新的十年里面我们正在探索的事情:如何在物理 AI 世界探索未来的出行;如何在全球化里做一个科技平权的具身智能公司。

相信下一个十年里,我们会和大家一起看到在 AI 的驱动下涌现出更多科技变革,让我们每个人的生活都会更加美好。

谢谢大家。

1.5万亿美元,SpaceX或成最强IPO;暴涨700%,人形机器人迎拐点;智谱开源AutoGLM,「豆包手机」人人可造

消息称 SpaceX 推进史上最大 IPO:拟募资超 300 亿美元,目标估值 1.5 万亿美元

12 月 10 日消息,据彭博社报道,知情人士透露,SpaceX 正积极推进首次公开募股(IPO)计划,拟募资规模将远超 300 亿美元(现汇率约合 2123.38 亿元人民币),若成功实施,这将成为有史以来规模最大的上市交易。

该公司正将估值目标定为约 1.5 万亿美元(现汇率约合 10.62 万亿元人民币),这一估值将使 SpaceX 接近沙特阿美(Saudi Aramco)在 2019 年创纪录上市时所达到的市值水平。当时,这家石油巨头通过 IPO 募集了 290 亿美元资金。

部分知情人士表示,SpaceX 管理层及其顾问正力争在 2026 年中至下半年完成上市。由于此事属保密信息,这些人士要求匿名。他们同时指出,IPO 的具体时间可能因市场环境及其他因素而调整,其中一位人士甚至表示上市可能推迟至 2027 年。

彭博社及其他媒体上周五曾报道,SpaceX 正在探索最早于明年年底进行 IPO 的可能性。SpaceX 加速迈向公开市场的步伐,部分得益于其快速增长的「星链」(Starlink)卫星互联网服务,尤其是其面向移动设备的直连业务前景,以及「星舰」(Starship)登月与火星火箭项目的持续推进。

一位知情人士透露,SpaceX 预计 2025 年营收约为 150 亿美元,2026 年将进一步增至 220 亿至 240 亿美元之间,其中大部分收入将来自 Starlink 业务。(来源:IT 之家 )

美称将允许英伟达向中国出售 H200 人工智能芯片,外交部回应

12 月 9 日消息,据央视新闻报道,12 月 9 日,外交部发言人郭嘉昆主持例行记者会。据报道,美国总统特朗普 8 日表示,美国将允许英伟达向中国「经批准的客户」出售 H200 人工智能芯片。

对此,郭嘉昆表示,我们注意到有关报道,中方一贯主张中美通过合作实现互利共赢。

英伟达发言人对外媒 TechCrunch 表示:「我们赞赏特朗普总统的决定,该决定允许美国芯片行业参与竞争,从而支持美国的高薪工作岗位和制造业。政府允许英伟达向经过商务部审查的商业客户提供 H200 芯片,是一个兼顾了各方利益的周全平衡,这对美国非常有利。」

据此前报道,H200 作为 H100 的迭代升级产品,基于 Hopper 架构,首次采用了 HBM3e 高带宽内存技术,实现了更快的数据传输速度和更大的内存容量,于 2023 年 11 月发布。(来源:IT 之家)

 

阿里巴巴成立千问 C 端事业群

12 月 9 日下午消息,阿里已成立千问 C 端事业群,由阿里巴巴集团副总裁吴嘉负责。据悉,该事业群由原智能信息与智能互联两个事业群合并重组而来,包含千问 APP、夸克、AI 硬件、UC、书旗等业务。

阿里巴巴在内部沟通中提及,千问 C 端事业群的首要目标是将千问打造成为一款超级 APP,成为 AI 时代用户的第一入口。未来,还将进一步把千问打造成无处不在的 AI 助手,覆盖眼镜、PC、汽车等场景,让每一个普通人都能随时随地使用 AI,并持续从中受益。

据报道,阿里核心管理层将「千问」项目视为「AI 时代的未来之战」。阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问,赋予其强大的「办事」能力。(来源: 新浪科技)

暴涨 700%!TrendForce 预测 2026 年人形机器人迎产业拐点,年出货破 5 万台

12 月 10 日消息,集邦咨询(TrendForce)昨日发布最新研究报告,指出 2026 年将成全球人形机器人商用化的关键元年,预计全年出货量将突破 5 万台,同比增幅将超 700%。

该机构指出这一数据的激增,标志着行业正从实验室研发阶段加速向市场化落地转型,全球竞争格局也随之进入白热化阶段。

博文介绍,美、中、日三国产业路径差异显著:日本厂商深耕精密零组件技术,主攻养老与灾害场景;美国特斯拉等巨头聚焦系统稳定性与实务验证;中国则凭借「低价量产」与「多元场景」加速渗透。(来源:IT 之家)

 

智谱开源「会操作手机的 AI」AutoGLM,人人可打造豆包手机

12 月 10 日消息,智谱开源其核心 AI Agent 模型 AutoGLM。该模型被业界视为全球首个具备「Phone Use」(手机操作)能力的 AI Agent,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。

此次开源意味着硬件厂商、手机厂商和开发者均可基于 AutoGLM,在自己的设备或系统中复现一个能「看懂」屏幕、并模拟真人进行点击、输入、滑动的 AI 助手。目前,AutoGLM 已支持微信、淘宝、抖音、美团等超过 50 个高频中文应用的核心场景,其自动化操作能力与此前引发热议的「豆包手机」演示相似。

AutoGLM 的开源将大幅降低 AI 手机的技术门槛,推动 AI 手机生态从封闭走向开放共创。同时,项目支持本地与云端部署,确保数据与隐私控制权始终掌握在使用者手中。(来源:智谱)

Pebble 戒指登场:定位「第二大脑」,不做健康监测、要靠语音记事杀出重围

12 月 10 日消息,科技媒体 Appleinsider 昨日发布博文,报道称继智能手表回归后,Pebble 品牌发布全新智能戒指 Pebble Index 01。该设备定位为「用户的外部记忆」,主打语音笔记功能,通过内置麦克风与按钮,将录音传输至手机并利用 AI 转换为文本。

Index 01 的使用逻辑非常直观:用户按下戒指顶部的宝石状按钮,即可通过内置麦克风记录语音。录音文件会即时传输至配对的智能手机(如 iPhone),并利用手机端的开源语音转文字模型及 AI 技术进行处理和转录。

Pebble 声称该系统支持超过 99 种语言。若手机不在身边,戒指本身可存储长达 5 分钟的音频,待连接后自动同步。此外,该按钮还支持自定义功能。

在硬件配置上,Index 01 采用了极端的「减法」策略。戒指主体由不锈钢制成,去除了屏幕、扬声器及触觉反馈马达,仅保留一个极少亮起的 RGB LED 指示灯。

这种设计将所有的 AI 运算与数据处理压力转移至手机端,从而大幅降低了戒指的功耗。最引人注目的争议点在于其电源管理方案:Pebble 宣称该戒指拥有「数年」的平均使用续航,但不支持充电。一旦电量耗尽,用户无法自行补能,必须将设备寄回 Pebble 进行回收处理。

价格方面,Pebble 制定了极具竞争力的策略:预售价格为 75 美元(现汇率约合 530.8 元人民币),正式上市后售价为 99 美元,产品预计于 2026 年 3 月开始发货。(来源:IT 之家 )

 

四摄设计?三星 Galaxy Z TriFold 三折叠手机原型机现身

12 月 9 日消息,三星电子中东北非地区市场与电商副总裁 Omar Saheb 前一天在领英平台发文,庆祝品牌首款三折叠手机 Galaxy Z TriFold 上市。

这名总裁在帖文下方晒出了自己上手 Galaxy Z TriFold 的照片,不过眼尖的网友们很快发现了他手里的手机与零售版机型的三摄设计不同,其机身背面拥有四个摄像头。

由于现在距离第二代 Galaxy Z TriFold 发布还为时过早,因此这名副总裁手里拿着的很可能是三星最终量产前,在内部制作、研讨的众多原型机之一,而且从实拍图可以看到,机身最底部的第四颗摄像头明显比前三颗要薄。

结合此前报道,三星 Galaxy Z TriFold 采用了内折设计,可有效保护主屏幕,配备高通骁龙 8 Elite for Galaxy 处理器,展开后机身最薄处仅 3.9mm,配备 5600mAh 三电芯电池,支持 45W 超级加速充电。(来源:IT 之家)

《阿凡达 3》导演卡梅隆现身海南,称 AI 永远替代不了人类创作

12 月 9 日消息,科幻大片《阿凡达 3》中国首映礼于 12 月 8 日在第七届海南岛国际电影节举行,导演詹姆斯・卡梅隆首次来到海南。

据新浪电影报道,詹姆斯・卡梅隆在海南岛国际电影节大师班上谈到了对 AI 的看法,卡梅隆赞同技术的革新,也认为 AI 可以用来做一些事,但永远替代不了人类的创作,「AI 能做出一个跟《阿凡达》差不多的电影,但在《阿凡达》上映前,它是做不出来的」。

卡梅隆说,「有人说是不是用 AI 替代人就好了?我个人是完全不感兴趣的,我不赞成用它取代人的创意。可以用 AI 提升工作流程,让我们更有创意,这个是可以的,只是要有高标准,不管是道德、法律方面等等。

我自己是永远不会用技术替代真人的,首先编剧要有真实的生活,他们要有独特的视角,然后演员再基于自己的人生体验诠释角色。每年评论家选出的电影都是很独特的体验,都是独特的艺术作品,AI 创作不出没人创作过的作品。AI 可以做出一个跟《阿凡达》差不多的作品,但是在这部电影上映前,它是做不出来的。」(来源:IT 之家 )

 

极客公园创新大会 2026 在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

12 月 6 日-7 日,由极客公园主办、798 文化科技联合主办的「极客公园创新大会 2026」(GeekPark Innovation Festival,以下简称「IF」),在北京 798 艺术区成功举办。

在 AI 的洪流中,真正的稀缺是人、判断和行动。因此,本届大会的主题是「进程由我 On The Loop!」。IF 2026 不仅关注「AI 会带来什么」,更着眼于如何做出重要选择,主动选择未来。

IF 已经连续举办 16 年,这个舞台不仅见证了特斯拉创始人马斯克、谷歌董事长施密特、苹果联合创始人沃兹尼亚克、Uber 创始人卡拉尼克等全球传奇极客的亮相,还记录了雷军、张一鸣、王兴、黄峥、宇树王兴兴等中国杰出创新者的最初起点和高光时刻。

如今,极客公园已经成为由内容社区与早期投资共同构成的创业者生态平台。极客公园的「目标函数」十分明确:激发创新中的「变量」,推动「非共识」成为新的「共识」。正如极客公园创始人 & 总裁张鹏所说,任何成功的创新都是一个持续的「见识-认知-行动」的闭环。它本质上就是一场持续的「强化学习」,关键就是设定你那个与众不同的目标函数。

大会汇聚四十余位全球创新者,通过主舞台演讲、4 场「小场深谈」及「AI 产品快闪」等多元形式,探讨技术趋势、产品创新与人类未来的关系,现场同步发布「2025 年度极客最爱好物」、「InnoForce 50」年度榜单。

非共识追问 × 未来 1500 天,定义 AI 时代的「我们」

IF 2026 主舞台围绕「非共识」追问、「未来 1500 天」等核心板块,展开技术趋势与人文价值的碰撞。

字节即梦负责人张楠与极客公园创始人&总裁张鹏探讨了在 AI 时代,如何探索人的想象力。在成熟团队以「二次创业」姿态投身 AI 浪潮的过程中,她表示,AI 不应单纯是一个工具,它更应当是人类能力的放大器,能够带领创作者抵达他们之前从未去过的地方,帮他们创作自己都未曾想象过的东西。

小鹏汽车董事长何小鹏以「物理 AI:改变正在改变人类生活的未来」为题,揭示了 AI 从数字空间向物理世界延伸的破局路径。他认为,未来,除了语言模型,一个直接从物理世界进行感知、规划、推理的模型,和执行运动跟控制的模型,一定会在物理 AI 领域进行结合。

影石 Insta360 创始人刘靖康在现场谈及了 AI 时代影像创作的「光学」与「计算」之争,以及对于新产品和新竞争的思考。他强调,影石 70% 以上的营收,都来自我们自主开创的细分品类。开辟新市场、解决未被攻克的难题,创造出独有的新价值,而非以击败竞争对手为目标,这是影石的核心价值观,也是我们在历史中的存在意义。

「测测」App 创始人任永亮分享了对人机关系演进的实践。他认为,爱是无条件的积极关注,更是我们构建内心秩序的终极力量。未来,他们希望打造一款具备情感能力的机器人,让机器人成为传递温暖的「爱的使者」,实现从智能工具到情感共生的跨越。

在 IF 2026 的第二日,罗永浩在极客公园的舞台分享了他做播客背后的故事和愿景,他说,「我在播客里对采访嘉宾始终秉持着善意与中性的态度,绝无任何恶意。我们坚守这一原则,我坚信,只需半年到一年的时间,当中国任何行业的精英人士或其所属机构有面向公众的表达需求时,我们都会成为首选。」

百川智能创始人、CEO 王小川为我们勾勒了一幅「AI 医生」的蓝图:AI 医生将实现对用户的全程健康陪伴,实时监测身体状况与各项健康数据,包括吸烟、饮酒习惯、用药不良反应、疾病进展及治疗效果等。这些海量健康数据,最终将推动临床医学形成全新的发展范式。

源码资本投资合伙人张宏江表示,目前机器人系统未达「GPT 时刻」,机器人领域仍处于「技术路径选择阶段」,还没有达到大模型 1.0 阶段「加算力、加数据就能走通」的明确路径,未来还有很长的发展周期。

另外,马萨诸塞大学阿默斯特分校教授淦创更是勇敢分享了他的一个大胆判断:VLA 要解决的是跨模态问题,即如何将 vision-language 领域的智能迁移到物理世界。而以视频模型为骨干的 world model 路线,解决的是跨实体问题——即如何将人类的行为模式迁移到机器人上,难度或许更低一些。

OPPO ColorOS 智慧产品研发总监姜昱辰则分别从 AI 手机的「破局点」、「AI OS 的核心驱动能力」等维度,拆解了手机行业的下一个十年。她透露,GUI Agent 是长尾场景的兜底技术手段,OPPO 更倾向于通过 Agent to Agent 实现生态互联。

除了上述几位 AI 领域的科技领袖,田渊栋 Meta  前 AI 研究总监、VAST 创始人兼 CEO 宋亚宸、Sandwich Lab  创始人兼 CEO 郭振宇、DeepWisdom 创始人兼 CEO 吴承霖 、Creaibo 创始人/百大 UP 主图灵的猫、Meta  前 AI 研究总监田渊栋、格式塔 Gestala 创始人兼 CEO 彭雷、印象笔记 COO 陆昀、能量奇点联合创始人、首席运营官叶雨明、XREAL 创始人兼 CEO 徐驰、Teeni.AI 听力熊 创始人 & CEO 袁琳、无界方舟 联合创始人小乔、硬件产品专家李创奇、Kickstarter 中国首席战略代表 Henri、Hypershell Founder & CEO 孙宽等国内最优秀的创业者,就 AI 时代新应用的探索等问题,分享了他们的观点和实践。

深剖 AI 时代的「进化论」,进程由我

为满足深度交流需求,IF 2026 特别设置 4 场「小场深谈」,聚焦个体、关系、硬件与空间四大维度:

在超级个体专场,10 位「一人公司」创业者分享「用 AI 重构个人价值」的实战经验,聚焦 AI 对个人能力的赋能与挑战,深度探讨了 AI 时代的个体进化论;

在重塑关系专场,人与 AI 的新关系,心言集团创始人任永亮、百川智能 CEO 王小川、语核科技创始人翟星吉等创业者就「AI 陪伴的边界和本质」「AI 医生的信任构建」「AI to B」等话题展开深度对话;

在硬控 AI 专场,AI 硬件的机会和「大坑」,前小米智能眼镜负责人李创奇、凯叔讲故事创始人凯叔、灵宇宙创始人顾嘉唯等创业者探讨了 AI 硬件如何融合理想与现实;

在空间智能专场,自变量机器人创始人王潜、Vbot 维他动力联合创始人赵哲伦、灵心巧手联合创始人苏洋围绕 AI 与物理空间的融合,探讨具身智能的落地场景与行业挑战。

同时,「乱翻书」主理人潘乱、《详谈》丛书作者与播客「高能量」主理人李翔、有知有行内容主编雨白、《晚点聊》主播程曼祺、十字路口创始人 koji、《AI 炼金术》主播任鑫、脑放电波主播托马斯白和 Nixon、《风口来了》主播石亚琼、Robo Pulse 主播笔盒等知名播客品牌作为「小场深谈」共创伙伴,与创业者们一起呈现了 AI 与现实碰撞的「第一现场」。

值得一提的是,今年主舞台增设的「AI 产品快闪」环节,邀请了多位「拓荒者、先行者」带着最近一个月刚刚发布或重大更新的创新产品首次亮相,分别是:知名笔记工具 flomo;基于 GEO 的 AI Agent 应用,致力于帮企业解决面向 AI 营销的 Agentic 产品 PallasAI;登顶了台湾地区摄影分类榜第一的 Doka 相机;用 AI 模型取代模特拍摄,更快、更省钱低拿到好看成片的 LavieAI;首个专注于健康生活方式的智能项链 OdyssLife;超级个体的 AI 专家团队 MuleRun,以及前网易副总裁开发的 remio 个人办公助手。

极客公园创新大会自 2010 年创办起,已成为中国科技与创新领域标志性年度峰会之一,见证并记录了中国移动互联网、智能硬件、AI 等多个时代的关键节点。

作为中国创新者的大本营,极客公园通过 IF 2026 大会再次证明其「发现创新者、连接创新者、成就创新者」的核心能力。

从技术前沿到人文思考,从产品落地到生态共建,大会不仅是观点的碰撞场,更成为「进程由我」的实践场。

正如今年主题「进程由我 On The Loop!」所传递的——未来并非被技术定义,而是由每一个主动选择的创新者共同书写。极客公园将继续「激发变量」,推动更多「非共识」成为改变世界的新力量。

OPPO 姜昱辰:从 GUI 到 Agent,AI 手机交互革命的「终局」思考

整理|汤一涛

编辑| 靖宇

 

在智能手机行业,未来的 1500 天被视为一场即将发生的「聚变」。

随着大模型技术的爆发,以豆包 AI 手机为首的 GUI Agent 手机硬件应用落地,手机不再仅仅是通讯与娱乐的载体,正加速向「AI 个人计算设备」演进。

面对这一从功能机向智能机跨越以来最大的变局,手机厂商们正处于「八仙过海」的探索期:硬件形态如何收敛?交互界面如何革新?以及最重要的问题—— 如何避免成为 AI 时代的「诺基亚」

在极客公园创新大会 2026 的活动现场,极客公园投资合伙人 Ashley 邀请到了 OPPO ColorOS 智慧产品研发总监姜昱辰。双方进行了一场深度对谈,从研发视角的转变、技术路线的抉择(GUI Agent vs 生态合作),到以「记忆」为切口的破局之道,全面剖析了 OPPO 对于 AI 手机终局的思考与实践。

关联阅读《 对话 OPPO AI 姜昱辰:手机才是 Memory 最好的土壤,AI 一定会彻底改变智能手机

嘉宾精彩 观点

  • GUI Agent 是长尾场景的兜底技术手段,OPPO 更倾向通过 Agent to Agent 实现生态互联。
  • 「记忆」是 AI 手机演进的第一刀,因为只有「记得」才能「懂你」,进而提供主动式服务
  • 构建记忆系统的核心挑战是隐私,唯一的解法是端侧计算,把数据留在手机里
  • AI OS 的本质是「主动式」与「个人化」的交互革命,未来 AI 助手将与操作系统彻底融合为一体

 

以下为姜昱辰和 Ashley 在极客公园创新大会 2026 上的对话实录,由极客公园整理:

 

01

行业格局:手机厂商的 AI 探索

 

Ashley: 你曾经是一个创业者,现在在 OPPO 负责上亿用户量级的系统级产品,这两种研发体验有何不同?

姜昱辰: 还挺不一样的。

创业公司往往处于寻找 PMF 的阶段,做的是极度创新的事,不确定用户到底有没有这个需求。通常上线的是不完善的版本,到达一定用户量之后才会做 Scaling。

成熟厂商面对的用户,对你是系统级产品的期待,没有办法接受一个半成品。这导致我们在研发过程中必须极其谨慎。我们会在上线前进行深度的用户洞察、多轮用户共创及概念验证,确保产品在面世时已具备较高的完成度。

也有一些东西是不变的,比如怎么找 PMF。不管做什么产品、面对什么样的用户、有什么样的痛点,多多少少在回答同一个问题。

Ashley :可以用一个词概括一下 2025 年手机行业在 AI 领域的尝试吗?

姜昱辰 :用一个词的话就是「八仙过海」,不知道大家最近有没有关注自己手机上的变化,不管是 OPPO 还是友商们,大家做得挺激进的。比如 YOYO 做了很多智能体执行的工作,包括点咖啡;我们在记忆这条赛道上做了很多工作。

整个手机行业现在对于终局比较明确,形成了一些共识,比如要做无处不在、非常贴心的个人超级助理。但现在行业还是非常早期的阶段,所以怎么起步,从哪切入,各家有自己的回答。

姜昱辰和 Ashely 对谈手机 AI|图片来源:极客公园

 

Ashley :有点像智能手机特别早期的阶段。手机硬件形态没有收敛,系统的解法也没有收敛,甚至很多交互的解法也留有非常多的空白和想象空间。

提到 AI 手机,不得不提到豆包和努比亚合作的手机。这个手机搭载豆包手机助手,有非常高的系统权限的 GUI Agent。

作为手机厂商的视角是怎么来看这个事情(豆包手机)的?会不会给手机行业的方向和格局带来一些变化?

姜昱辰 :首先第一个怎么看的问题。我觉得「执行」还是一个非常确定性的方向,我们也在做非常多这方面的工作。

但是归根结底,GUI Agent 只是一个技术方案,最终要回到 为解决用户什么样的需求 。比如用户希望用 OPPO 手机点外卖、点咖啡,我们能不能帮用户做到,这个就是执行。是用 GUI Agent 的方式,还是 API 的方式,用户也没有那么关心。

我们作为手机厂商在这方面也没有倾向,更多还是看到在怎样的场景当中、什么样的技术方案最合适为用户解决问题。

第二是对方向和格局有没有影响,大概是没有。这个方向大家都在探索,(豆包手机)更多是把在小范围内探索的事情,更激进地推向公众舞台,让大家看到这个东西。这个是带来比较大的影响。

Ashley:当时你们内部有考虑过这条路线(GUI Agent)吗?

姜昱辰 :当然,我们一直在做相关的探索,但 我们内部更多认为 GUI Agent 是覆盖长尾场景的兜底方案。 因为我们的诉求非常多,非常不鲁棒(robust),需要这个东西去兜底。

但更大的服务用户的方式还是 Agent to Agent。我们不是一个公司、一个产品,服务用户;我们背后是美团、高德等一系列为用户提供服务的伙伴们。我们的态度是希望通过 Agent to Agent 的方式,通过生态的方式为用户提供最高质量的服务。

手机在这方面的尝试其实牵一发而动全身,因为它本身的生态位很特殊。应用的生态、OS 的生态,包括围绕着手机近距离场景的硬件设备生态,都会发生一些变化。

 

02

AI 手机的切入点:交互革命与「记忆」

 

Ashley :刚才您也提到大家对于下一代的随身计算设备的设想,可能是手机,也可能不是手机。它能够提供的理想体验,我相信大家有一些共同的想象,在科幻小说、科幻电影当中都有很多很向未来憧憬的画面。

从你一线的实践和观察的角度来看,这件事情(下一代随身计算设备)往前演进切入的第一刀是什么?

对比在智能手机时代,那个第一刀是 iPhone 出现的时候,把电容屏和屏幕交互的方案做到可以突破临界点的交互体验交付给大家,随即而来掀起整个智能手机时代。

姜昱辰 :这是很好的问题。在消费电子行业,每一次巨大的变革都是 交互的革命 ,人们获取资讯和服务的方式发生了改变。比如从功能机到智能机,原来通过打电话定外卖,现在 APP 点外卖;原来看报纸获取新闻,现在在今日头条里刷新闻。

从智能机到所谓的 AI 机,同样还是这个逻辑。问我最重要的是什么?还是交互革命。

我们未来早上起来,手机给我个人化的简报,告诉我人工智能昨天的重要大事是什么;出门的时候弹一个高德打车,问你是否要打;中午吃饭的时候告诉你,感觉你昨天很想吃大闸蟹,刚好旁边在打折,你要不要吃大闸蟹;到月末的时候,它弹出来告诉你,我知道你很想吃大闸蟹,但是我们没钱了,你要不考虑考虑楼下那个沙县小吃。你说 OK,就把外卖点上了。

未来可能是这样的资讯和服务的获取方式。

你问我第一步是,这有点像前面的问题,各个厂商的回答不一样,都在八仙过海。

OPPO 的话,我们认为是 记忆, 记得你才能更懂你。我前面描绘的场景都需要极度了解用户。不管做执行,还是给你资讯,都要足够了解你才能真的为你提供贴心服务。这个都是建立在理解你的数据、理解你的行为、理解你这个人的基础上。所以我们 OPPO 选择先做好记忆。

Ashley :记忆这件事,大家都在做,包括模型厂商和应用层,甚至中间出现很多创业公司就专攻记忆层,可见大家多多少少也有一些共识。但同样具体的落地和解题方法还是不一样,能感觉这个事情似乎挺难的。

这件事的痛点是什么?

姜昱辰 :我们的 slogan 是记得你才更懂你。对我们来说,做记忆这件事情首先是为了懂用户,大方向上是希望做到非常懂你的个人助理。这个事情需要我们对用户的数据有理解,对你的记忆有理解。

回到做产品本身,最终要为用户解决痛点。理解你的个人当中就有很多痛点可以帮你解决。

比如用户生活当中有非常多琐碎的信息记不住,我理解你的日程就可以回答你,明天在极客公园的活动是几点。

比如你今天看到了一篇公众号的文章很感兴趣,可以一键闪记。后面就可以问我上次看的那篇文章当中的某句话怎么讲来着?它就可以告诉你。

在琐碎信息的理解和提醒这件事情上,我们已经可以为用户提供很多服务,解决用户很多痛点了。

Ashley :我感觉小布记忆是把各种应用和 APP 收藏的动作整合起来了,这是用户的主动行为。

姜昱辰 :我们在 OPPO Find X8s 上线时的第一心智定位就是「跨 APP 收藏夹」。先做好这个第一心智的价值,后续才能帮你连点成线、整理回忆、做更多洞察。

Ashley :为什么当时从这个点切入?像相册里也有很多沉淀的数据,这些数据天然是用户生活流的记录,在这里也能挖掘出用户价值。

姜昱辰 :我们从用户痛点角度思考问题。

现在我们每天通过手机接收到的信息是爆炸式的,各种各样的信息混杂在工作软件、微信等各种不一样的地方。这个问题是相册本身解决不了的。

数据不等于记忆,我们的工作是把数据处理成记忆,让你不再为琐碎、爆炸且无头绪的生活感到困扰。只需要轻轻一问就能获取到想要的所有资讯,这是我们做的第一心智。把所有的东西通过一键闪记归集到小布记忆以后,它给用户提供的第一个价值就是让你的生活更井井有条,像你的第二大脑,帮你记住和管理你各种琐碎的事项,让你有时间处理更重要的事。

 

03

记忆的深度构建与隐私挑战

 

Ashley :小布记忆目前的交互方式是用户主动发起,我告诉我的手机,它才记录。它形成的记忆关于我的画像,似乎只是断点的画像。

这个距离我们理想当中的交互方式,似乎有很长距离,这个距离怎么跨越?

姜昱辰 :我们在 OPPO Find X9 这一代也做了自动收藏、自动记账功能,但我们在这上面相对比较谨慎。我们充分告知用户,并且对于收集的每一个来源都有开关——可以选择开还是关。 做记忆这件事情最重要还是保障用户隐私,要给用户充分的知情权 ,不然这个事情是很恐怖的。

而且我们是一家手机厂商,相对在做这件事情上会更加克制。这个是我们短期的回答。

长期来说,希望构建对用户 24 小时全方位的了解,当然是在用户充分授权的基础上。

Ashley: 小布记忆最理想的状态下,它能够形成的记忆框架,可能会是什么样的状态?

姜昱辰 :用更 toC 的用语来说就是第二大脑。

拆解下来:

第一层是 数据理解, 就是对不一样的数据源有充分的理解,理解能力,理解你的照片,理解你的视频,理解闪记的文章,理解你的行为轨迹……

第二层是 连点成线, 比如今天我的手机知道我在极客公园,也看到我昨天一键闪记今天的日程,也知道我跟 AI 聊过相关的话题,它能连接起来变成一个事件。

第三层是 连线成图。 比如我认识 Ashley 也挺久的,关于你的一切东西都可以被 link 到 Ashley 这个人节点上,就变成了一张图。我和 Ashley、极客公园等等一些事情之间的关联度,在线的基础上变成图。

总体来说,就是把数据变成记忆,把记忆连成线,把线连成图。

Ashley :你估计这个时间轴大概是多长时间?

姜昱辰 :其实也挺快,1-2 年内就会有非常不一样的体验。

姜昱辰和 Ashely 对谈手机 AI|图片来源:极客公园

 

Ashley :你是技术出身, 你觉得整个把记忆这件事情做好,是纯工程层面的问题,例如我堆人堆时间、找到足够的资源就能实现;还是里面存在技术上的断点和难点需要克服?

姜昱辰 :技术上来说有蛮多挑战,最现实的是隐私问题。不管豆包手机还是很多 AI 功能、AI 厂商,大部分数据都在云侧进出,你要构建用户的 3D 画像放在云侧,隐私问题是很多用户担心的。

这个解法非常单一,只能通过端侧化解决,把你的数据和计算留在端侧。

但这样又会引发功耗的问题。比如 32B 模型现在在屏幕理解方面可以做得比较好,但 32B 模型压缩到手机上要占 16GB 的内存,这个问题怎么解决?

但我是乐观派,我觉得 2-3 年会得到非常好的解决。

还有一个是记忆系统,如何做到自动更新,甚至是遗忘。

遗忘这个事情现在大家讨论比较少。可能以前你喜欢吃辣,现在不喜欢吃辣,这都是需要更新的信息。

记忆系统如何更新、如何遗忘,这也是非常大的挑战。我们有五个词形容这个事——安全隐私、即插即拔、 主动推理、自动更新 、端云结合。这是我们认为至少手机的记忆系统应该有的 5 个特性。

 

04

未来 AI OS 的定义与架构

 

Ashley :手机毕竟还是运行在 OS 上的,包括所有为用户交付的服务也是依托于服务商的应用来存在的。 AI 手机时代的 OS 应该是什么样的?里面到底是哪些重要的素质?

姜昱辰 :这是一个很大的问题。

OS 的存在完全是基于硬件形态,在 PC 时代有 PC OS,在智能手机触屏机的时代有安卓,都是基于硬件的交互形式存在的。

如果问我 OS 的本质是什么,我觉得是交互。主动式和个人化,这是 AI OS 应该有的两个非常大的属性,

再多加一条就是高效。我今天跟它说一句话就能做到,我原来要打字打很久,点好久,现在我随便讲一句话就知道,这就是我心中 OS 的想法、形态。

其中什么是最重要的,如果让我一定选,当然是懂你,只有懂你的 AI OS 才能真正为你提供这些服务。

Ashley 你们怎么样构建整个 AI OS 的,有哪些核心的层级?

姜昱辰 :我觉得首先是硬件层。它是物理相关的,在我们手机的形态还没有改变的时候,它底层终归是芯片调度,怎么做流畅,这些调度的事应该是最底层的。

在上面可能构建的是一些系统级的能力,我们称之为端侧计算。

还有记忆引擎,就是理解你手机上你的数据,构建关于你的记忆系统这一层。

第三个是智能体框架。前面也说我们挺重视执行这个事,我们更多更倾向是通过 A2A 的方式去做,就是在手机上怎么去与其他服务商的 Agent 进行交互。

在它之上有一个懂你的超级助理的应用层的服务,我们是这样的架构。

Ashley 有没有可能在安卓之外长出一个新的开源 OS?

姜昱辰 :有可能,当年安卓长出来也是因为智能手机的普及,硬件形态导致了 OS 的出现。所以现在是一样的。

但也有不确定的地方,在于硬件形态大家都还没有完全的共识。OpenAI 更激进,它在考虑没有屏幕的硬件,那你说它是手机吗?

我们可能不那么激进,我们还是在原来的平台上去为用户服务。到最后硬件形态会收敛,有可能会有 iPhone 时刻,造成整个行业有一个共识的收敛。这个收敛以后,就会出现一个针对这个硬件形态的 OS,我相信这一定是会发生的。

Ashley 觉得未来助手和 OS 会是什么样的关系?

姜昱辰 : 1、ColorOS(OPPO 的系统)注定会变成一个真正的 AIOS;

2、小布(OPPO 的 AI 助手)是 ColorOS 的拟人化表达。

 

05

如何避免成为「诺基亚」

 

Ashley :最后一个问题稍微有点挑战,从功能机到智能机迁移的过程中,诺基亚从之前的霸主地位一落千丈。 在 AI 时代如何避免成为智能手机时代的诺基亚? 你们内部对这个问题有过深入的探讨吗?

姜昱辰 :当然,我们内部的探讨非常多次。

我相信从智能机到 AI 机是一场大变革,这是大家共识的。但这个变革会发生什么,会怎么发生?事实上大家是没谱的,现在还是行业非常早期。

你回头看上一次变革,从功能机到智能机的时候,我们也挺晚的入场。我记得当年 OPPO 功能机还备货很多,那一年瞬间智能机开始主导市场,我们的功能机滞销了,这是比较大的挑战。

那次潮流当中,大家认为诺基亚掉队了,其实诺基亚做触屏机非常早,早于我们,甚至早于苹果。他不是没有做触屏机的尝试,也不是没有在做触屏技术新的 OS、新的形态推出。

那么问题出在哪儿?

我们内部也做过深入的探讨,我们有感觉,当时诺基亚整个团队更多在关心市场份额。他已经是行业老大了,多多少少就没有用户导向了,这个可能是他们所面临的一个真正的问题。

我们看到了用户的需求,这个导向下我们也会做出快速反应,这是最核心的。用户导向,倾听用户的声音,实际解决用户的问题,响应用户和市场的诉求,这个我们相对来说还是比较有信心的。

王小川的医疗 AI 新答案:用 PAPA 打通医疗的「最后一公里」

整理|Moonshot

编辑| 靖宇

 

在开源模型全面崛起的这一年,医疗已经成为大模型比拼的主战场之一。OpenAI 抛出 HealthBench,试图建立统一评价体系,OpenEvidence 等 AI 医疗公司愈发受到资本青睐,大众对 AI 医疗的接受程度也在不断提升。

因为 医疗牵动的是人类最本质的课题:生命科学。

在现实层面,日益增长的慢病管理需求、快速老龄化带来的系统压力、平均 73 天翻倍的医学知识量、都让传统医疗模式愈发吃紧。伴随式护理、个体化治疗、实时决策支持……这是每一位患者的需求,亦是每一位医生的压力。

在 IF 2026 的舞台上,王小川不仅展示了百川智能在医疗大模型领域的底层积累,更 首次公开了其打通医疗全流程的最新解法——一套由「MAM 决策 AI」与「PAPA 陪伴 AI」构成的双轮驱动架构

如果说「MAM」(Medical Augmented Model)是坐镇院内的「外挂大脑」,依靠高可靠性的决策能力辅助医生「把病看准」;那么此次 重磅首发的产品 AI PAPA(PlayBook Animated Proactive Agent) ,则致力于在院外接手,解决「把人管好」的难题。

相比于传统 AI 被动问答的模式,PAPA 带来了一次交互范式的革新。它基于独创的 PlayBook(行业 SOP)技术 ,将晦涩的临床指南转化为可执行的动态方案。它更像一位拥有长期记忆与多模态感知能力的家庭医生,能够以月甚至年为单位,从提醒用药到动态调整健康计划,主动追踪并管理患者的康复进程。这种「MAM 主内、PAPA 主外」的协同模式,标志着百川智能真正构建起了从严肃医疗诊疗到主动健康管理的完整闭环。

王小川在 IF 2026 舞台上|图源:极客公园

 

过去一年,百川智能在医疗领域的实践,也确实走出了行业少见的「从模型到 Aengt 系统、从技术到场景」的落地路径。

从与多家三甲医院联合验证临床可靠性,到让模型真正在专家会诊中心「上岗」;从辅助医生提升诊疗能力,到帮助一个个具体的病人,补齐医生都未掌握到的信息差……百川正在做的,是把大模型变成医院能用、医生敢用、患者愿意用的工具。

因此,这篇演讲更像是关于未来医疗形态的一次深度预演:当医学知识、临床路径、真实世界的健康数据在一个平台里被激活,它就不再只是 AI,而是一个新的医疗基础设施。

以下是百川智能创始人、CEO 王小川在极客公园创新大会 2026 上,关于医疗 AI 如何从理念走向落地,在真实世界中改变每一个人的健康决策的演讲实录,由极客公园整理:

嘉宾观点:

· 如果说财务自由意味着「不缺钱」,那么生命模型的终局则意味着「生物自由」,也就是不缺健康。

· 做医疗不仅是把模型应用到垂直场景,而是在回答:AGI 是否成立、如何成立,以及如何向前推进?

· 智力模型用来「造医生」,而当数据充足、范式改变后,我们有机会真正走向生命的数学模型。

· 我们认为做 AI 医生比做无人驾驶更靠谱,更刚需。

· 医疗中「人机协同」的速度,可能会超过无人驾驶的发展。

· 医学增强大模型既要有一线的通用能力,又要在医疗领域表现更佳。

· 我们的目标是让所有人都能即时获取可靠医学知识。

· 全球平均每 73 天医学知识就翻一倍,临床与前沿之间天然存在时间差。

· 过去我们做的是「医学增强大模型」,主要聚焦于决策 AI;而今天进入「陪伴」时代,我们构建的是完整的医疗 AI 平台。

· 大多数模型做的是单次任务,而我们做的是主动性的、长期的陪伴与管理。

 

极客公园创新大会的各位朋友,大家好。

今天我想和大家分享百川智能在医疗领域的一些思考与实践。从 GPT 诞生至今已经三年,我们正处在互联网的深度变革期,也亲眼见证人工智能在生活中的全面渗透。

百川是在 2023 年 4 月成立的,那时我写了一封公开信,分为两个部分。

第一部分讲的是我的技术认知:当语言被抽象为数学后,我们的思考、学习、沟通,乃至文化,都将成为数学问题。

第二部分谈的是使命与愿景,我提到在未来 20 年,希望能在生命科学与医学的发展中,以及公众健康领域,贡献自己的力量。

因此,百川一方面拥抱 AI 技术的演进,另一方面坚定地投入医疗与医学的未来。

图源:极客公园

 

01

生命模型带来的「生物自由」

 

在我的世界观里,如今的模型体系可以分为三类:

第一类是发展最快的「智力模型」,以语言为入口,对人类智力进行数学化;

第二类是「物理模型」,从牛顿以来用公式建构物理世界的方式延续至今,逐渐进入带有量子、核聚变等复杂因素的时代;它帮助我们造工具,而不是造智力;

第三类则是「生命模型」,以 Alpha 系列为代表,用数学方式理解基因、蛋白质及生命过程的预测机制。

基于此,我们今年提出了更明确的使命:为人类造医生,为生命建模型。这两件事一横一纵: 智力模型用来「造医生」,而当数据充足、范式改变后,我们有机会真正走向生命的数学模型。

如果说财务自由意味着「不缺钱」,那么生命模型的终局则意味着「生物自由」,也就是不缺健康。

医疗是高度垂直的领域,我认为想把「医生」这件事做到极致,必须发展通用模型。

图灵曾提出:能与人类自然对话的机器就算智能。而在我看来,如果我们能造出一个像医生一样思考、判断、决策的 AI,那它在智力层面就已经达到 AGI;如果它能进一步完成手术和实际操作,则在具身层面也达到了 AGI;如果它能持续自主做科研,那它还具备了自我进化能力。

因此, 做医疗不仅是把模型应用到垂直场景,而是在回答:AGI 是否成立、如何成立,以及如何向前推进?

回到现实,行业里仍有许多质疑,例如:AI 如何学习医学认知?是否具备同理心?伦理上能否上岗?我们早期的训练范式基于医院中的高质量病例,但医学更多依赖「生理信号」,比如 CT 片和 X 光。

但医生不只是读片子,更多是用强化学习去模拟出一个病人,所以如果 AI 想像医生一样成长,就需要一个「患者模拟器」,能够在强化学习中反复对照与校验。这是整个范式的基础。

至于同理心,行业里有统计:在某些测试中,GPT 的「同理心得分」大约是 45%,并且在以后会变得更有同理心,更懂情绪。而真人医生只有 4.6%。虽然这个数字仍有争议,但至少说明:机器不是不能具备「人味」。

如今大家都在做无人驾驶,无人驾驶也跟生命高度相关,我们认为做 AI 医生比做无人驾驶更靠谱,更刚需。因为没有无人驾驶,大家依然能开车;但没有医生为你看病,你自己没有诊断能力。

无人驾驶最大的挑战叫「接管」,即机器搞不定时必须由人类接手。而医疗恰恰相反,AI 与医生可以形成天然分工,AI 做大量辅助判断,医生做最后把关。 因此医疗中「人机协同」的速度,可能会超过无人驾驶的发展。

今年以来医疗 AI 也出现了重要进展。

第一个典型案例是在今年初,患者开始带着 DeepSeek 去看病了。与过去医生不信 AI 的态度不同,现在,医生认可了 AI 在推理上的价值,甚至私下开始用 DeepSeek 和豆包查询。

第二个案例是,OpenAI 也在今年 5 月发布了 HealthBench,这是由全球 60 国、262 位医生构建的首个「临床问题」级别的评测集,为行业定下标准,也意味着 OpenAI 开始认为医疗是 AI 发展的一个重大方向。

同期,有一家诞生于 2023 年,异军突起的公司 OpenEvidence,在八月以 60 亿美金开始新一轮融资,它已经不只是帮医生做语音转写病例,而是做「辅助决策」,目前美国已有 40% 的医生注册使用。这说明全球医生正在拥抱 AI,顶级公司也把医疗视为战略方向。

医疗相关话题的人工智能搜索量,也在今年爆发性增长。在 DeepSeek 和豆包上,约 20% 的检索已经和健康相关,百度此前这一比例是 10%。

 

02

医疗增强大模型该怎么做

 

在我们的路线图里,AI 首先要帮助我们「造出一个医生」:它能替代或承担那些医生做不到、或者不愿去做的工作。

更重要的还有两个愿景:其一是「改路径」,这在明年就有可能开始显现,即让医疗行为不再仅仅限定在医院内部。很多人觉得医院体系难以改造,我也认同这点,所以我们的设想是,AI 的应用场景除了在医院做辅助判断之外,还能够大量下沉到居家和院外场景。

其二是一旦 AI 医生能够上岗,它就能长期陪伴个体,持续监测你的健康数据。从抽烟、喝酒到药物反应、疾病进展,在关键数据出现时,推动临床实践产生新的范式,不再把医学仅视为离散的点状决策,而是形成连续的、可学习的临床循环。

实现这一目标的第一步,是让 AI 在决策上做到优于甚至超越人类医生,成为医生的「外挂大脑」。

医学增强大模型既要有一线的通用能力,又要在医疗领域表现更佳。

我们常把知识分为文、理、医、工、艺五大类:文科以语言为主、理科以数学为主、工科以代码为主、艺科以图像与视频为主,那么医学的训练范式到底应该是什么?

目前的核心任务可以归为三件事:第一,如何做出更精准、更接近临床思维的医学推理——这是诊断与决策的核心,我们已经引入临床医生参与验证与闭环;

第二,如何确保安全可信。模型会出现「幻觉」,我们要大幅降低幻觉率,并让模型具备「知其所不知」的能力;

第三,如何实现循证决策。医生不能单凭经验行医,必须依托循证医学,把零散的论文、指南、荟萃分析等证据进行规范化、统计化和等级化处理。

为此,我们一方面用大量高质量医学文献训练模型,另一方面构建「患者模拟器」用于强化学习的闭环验证,文献与模拟患者两者并重,构成训练体系的基础。

参考培养人类医生的路径去训练大模型|图源:极客公园

 

在这一系列范式下,我们从去年 8 月与儿童医院合作开始,到今年 1 月发布 M1 模型,AI 医生已经在北京儿童医院专家会诊中心「上岗」,成为国内甚至全球第一个真正「上岗」的 AI 医生。

随着团队专注度的提升,今年 8 月,我们正式推出了 M2 模型。彼时正值 OpenAI 宣布其开源模型在医疗领域「全球第一」。一周后,M2 在 OpenAI 自己提出的 HealthBench 测试中,开源模型里排名第一,闭源模型里只落在 GPT-5 之后。

OpenAI 曾强调全球只有它的模型在 HealthBench-Hard 模式下超过 32 分,而我们成为唯一同样跨过 32 分线的第二家引擎。

10 月,我们进一步发布 M2 Plus,让模型在六源循证的数据总结和论文学习方面有更强表现。整体幻觉率只有 DeepSeek 的三分之一,在医学知识运用上也全面追平甚至超越了 DeepSeek、GPT,以及美国的 OpenEvidence 引擎。

基于这套底层引擎,我们在 10 月同步推出了新版「百小应」, 目标是让所有人都能即时获取可靠 的 医学知识。 现阶段我们优先开放给医生,希望医生成为第一批深度使用者,因为他们更有能力判断信息、反哺模型。

举个简单例子:今天在小红书搜索「维生素 D 是否能治疗癌症」,各种模糊、夸大的结论铺天盖地。但与百小应对话,它能在数秒内基于可靠证据链给出结论:补充维生素 D 能降低癌症风险尚无明确临床共识,现有证据显示其效果有限且存在争议,并能进一步附上对应的顶尖论文。其他模型常常给不出明确答案,给出的只是一些「似是而非」的模糊判断。

如今从「百度看病」流行到「小红书看病」|图源:极客公园

 

模型上线以来,不仅有医生在用,甚至有高认知的患者也在用。我们注意到一位用户单轮对话超过 300 次,主动联系后得知他是北京的朱先生,58 岁,之前做过医疗创业,有很强的医学背景,5 年前因甲状腺癌做过手术。

他向我们展示的第一句话很震撼:他感谢百小应告诉他「优甲乐需要减量」,这是指南里写得很清楚、但某三甲医院的医生却没有提醒的关键信息。因为没有按指南减量,他多年深受甲减亚健康困扰,在体重、睡眠各方面都出现了问题。随后他带着模型生成的资料回到三甲医院与医生沟通,对方才意识到 2022 年指南已更新。

这是一个非常典型的「医学知识更新速度远超临床实践」的现实案例。 全球平均每 73 天医学知识就翻一倍,临床与前沿之间天然存在时间差。

在这些实践的推动下,我们开始构建「陪伴 AI」。

 

03

PAPA: 主动陪伴患者的医疗 Agent 平台

 

创业之初我们想做院外医疗,如今我们把它定义为 决策 AI + 陪伴 AI 的双系统结构。其中陪伴 AI 的核心能力是主动:它不再只是「有问才有答」,而是能提问、分解问题、规划健康路径,从被动回答进化为长期健康管理代理(Proactive Agent)。

我们现在能做到让模型主动规划和关心你的健康,包括医嘱服从,提醒你什么时候该吃药、就诊。当你说身体不适,它会建议你去体检,并在下周主动追问你是否完成;当你吃了布洛芬,它会在两小时后询问退烧情况并追踪病程;甚至接入可穿戴设备后,它能根据生理指标异常主动介入做干预。

百川智能想做更主动的 AI 医生|图源:极客公园

 

这件事情说起来简单,做起来很复杂。

以孕产期糖尿病为例,我们已经让 AI 系统根据指南完成全程健康规划:胰岛素调节、饮食管理、产检计划等均可自动执行,实现真正意义上的「主动健康」。

我们现在的底层架构,是一个多任务调度系统。此前我们构建了一套 PlayBook 专家范式,实现了医学知识生产的「产业分离」。

产品经理和医学专家可以共同撰写管理规范,包括临床路径、决策方式、沟通方式,以及中间记忆的设计。针对不同疾病与专科,例如孕产、肿瘤、全科、儿科等,各类指南都可以写入 PlayBook。

系统会根据这些内容自动外显成一名「专科医生」。我们把这种具象化能力称为 PlayBook Animated: 当你给它一本操作手册或战术手册,它就会「活过来」,变成一个会思考、会对话、能记忆的医生。 同时,它还能接入个人的长期健康数据,包括内置的个人档案以及来自可穿戴设备的生理信息。

这也标志着我们范式的重大变化:过去我们做的是「医学增强大模型」,主要聚焦于决策的 AI;而今天进入「陪伴」时代,我们构建的是完整的医疗 AI 平台。 PlayBook Animated Proactive Agent(PAPA)就是基于这个理念打造的。

当增强模型与 PAPA 平台结合,我们认为是一种「双剑合体」:一个负责「训模练内力」,一个负责「招式与实战」。两者结合,我们在医学领域才能真正向前推进一大步。

与当前市场上的模型相比,PAPA 最大的不同是: 大多数模型做的是单次任务,而我们做的是主动性的、长期的陪伴与管理。 它不是靠一套 prompt 运行,而是根据多个专业 PlayBook 生成多种范式,支持以「月」为单位、甚至以「年」为单位地持续工作,主动进行干预,同时在背后保留完整的个人健康档案与长期多模态数据。

PAPA 更像一个医疗操作系统:在应用层把 PlayBook 转码成长期规划与解释执行能力;在能力层运行疾病预测模型、工具调用系统;在数据层存储聊天记录、时间序列数据库,并连接外部环境。同时它还具备自我调试与开发环境:当出现 bug 时,系统能够自动分析并迭代自己的执行方式。

当你提出一个问题时,系统会自动根据 PlayBook 触发整套流程:判断、搜索、聚合、输出;你继续追问,它会继续调用 PlayBook、选择技能、给出解释。无论是流行病相关药品查询,还是证据链核验,它都会生成结果并进行安全校验,校验不通过会自动回滚,确保输出是可信的。

扫码体验 PAPA Playground|图源:极客公园

 

系统不仅支持文字,也支持语音、图像、地理位置等多模态交互。比如我们演示的试剂盒检测,PAPA 会自动要求你做两次测试;背后我们有独立的多模态模型识别红线,并达到极高精度。这是现有专业模型和通用模型普遍难以做到的深度多模态处理能力。

服药之后,系统会生成后续规划、任务提醒,更新健康档案,再过一段时间提醒你复测,并解释数值变化。包括像「中午记得吃药」这样的提醒,它都会自动触发并执行。

如果有医学行业的朋友希望开发自己的 PlayBook,系统内也提供了合作方式,可以一起把这套体系打磨得更专业。除了 PAPA 平台,我们也开放底层引擎 API,欢迎大家使用我们的「百小应」。

今天就介绍到这里,谢谢大家。

❌