阅读视图

发现新文章,点击刷新页面。

65 岁图灵奖得主终于不用向 28 岁辍学生汇报了,小扎是怎么把他气走的

那个站在 LLM 风口上唱反调的倔老头,可能要离开 Meta 了。

硅谷大佬出走创业,三天两头就有一桩,但要出走的 Yann LeCun 不一样,他是能让扎克伯格亲自登门的重量级人物,是深度学习三巨头之一,图灵奖得主,Meta AI Research 的开山祖师。

更重要的是,他这些年一直在干一件特别拧巴的事:站在全世界最热闹的 LLM 路线门口,举着牌子说「这帮人走错路了」。

现在《金融时报》传出他要离职,说他在筹备自己的初创公司,已经开始接触投资人了。注意,目前只是风声,言之凿凿地说 LeCun 已经离职创业,这显然是不严谨的。

只是,截至发稿前,面对铺天盖地的报道,Yann LeCun 本人还没吭声,这沉默本身,就很说明问题。

从三顾茅庐到分道扬镳,这十二年到底发生了什么?

2013 年那场豪赌,扎克伯格赌对了吗?

Lecun 与 Meta 故事得从 2013 年说起。

那段时间,正是深度学习蓬勃兴起的阶段。2012 年,Geoffrey Hinton 与其学生 Alex Krizhevsky、Ilya Sutskever 提交的 AlexNet 在 ILSVRC-2012 一骑绝尘,top-5 错误率约 15.3%,这个突破让整个学术界和工业界都看到了神经网络的潜力。

然后就是科技巨头们的抢人大战——谷歌花大价钱收购了 Hinton 所在的创业公司 DNNresearch,顺带把老爷子本人也挖走了;微软研究院也在疯狂扩张 AI 团队。

扎克伯格坐不住了。

Facebook(现为 Meta)当时正在从 PC 互联网往移动互联网转型,新闻推送算法、照片识别、内容审核,哪哪儿都需要技术。

但问题是,Facebook 的 AI 能力跟谷歌、微软根本不在一个量级。扎克伯格需要一个能撑起门面的人物,最好是那种在学术界有足够分量、能吸引顶尖人才加盟的大牛。

他盯上了 Yann LeCun。

LeCun 当时在纽约大学当教授,已经干了十多年。那时的 Lecun 自然不是什么新人,早在 1989 年,他就在贝尔实验室搞出了卷积神经网络 (CNN),用来识别手写数字,这后来也成了计算机视觉的基石。

但那个年代深度学习不受待见,LeCun 就这么冷板凳坐了许久,眼睁睁看着自己的研究被边缘化。直到 2012 年,Hinton 用深度学习拿下 ImageNet 冠军,证明了神经网络这条路走得通。

LeCun 憋了的那口气,终于能吐出来了。

后续,扎克伯格亲自登门拜访。具体谈了什么外人不知道,但最后开出的条件足够诱人:

第一,给钱,主打一个资源自由;第二,给自由,LeCun 可以保留纽约大学的教授身份,继续教书搞研究;第三,给权,让他参与建立 Facebook AI 研究院,怎么招人、做什么方向,全由他说了算。

这对一个憋屈了多年的学者来说,简直是梦寐以求的机会。

2013 年末,LeCun 正式加入 Facebook,出任新成立的 Facebook AI Research(FAIR) 实验室负责人。

他在纽约、门洛帕克和伦敦三地建起了 FAIR 实验室,自己常驻纽约办公室。

团队最初规模较小,但个个都是从顶尖高校和研究机构挖来的——LeCun 的号召力在这时候体现出来了,但凡是做深度学习的,没人不知道「卷积神经网络之父」这个名号。

扎克伯格给了资源,LeCun 也拿出了成果。

加入 Facebook 这些年,LeCun 干的事情可以分成三条线:一是把深度学习塞进 Facebook 的产品里,二是推动学术界的前沿研究,三是培养下一代 AI 人才。

产品线上,2014 年的 DeepFace 人脸识别系统达到 97.35% 准确率,深度学习优化的推送算法也提升了广告点击率。

与此同时,LeCun 自己继续在学术圈刷存在感:发论文、顶会 keynote、带学生办 workshop。直到和 Hinton、Bengio 一起拿图灵奖, 才算是熬出头了。

此外,在 LeCun 创建的 FAIR 实验室,Soumith Chintala 主导开发了 PyTorch 框架并于 2017 年开源,这也是 Meta 至今为数不多的形象招牌。

PyTorch 动态计算图、Python 原生接口, 调试方便, 学术圈迅速倒戈。这一招等于把全球 AI 研究者都拉进了 Facebook 生态。

不过,或许是冥冥中自有天意,Soumith 前几天也宣布离职 Meta,表示「不想一辈子做 PyTorch」。

而更重要的是人才培养。FAIR 有个规矩:研究员可以自由发表论文、跟学术界合作、指导外部学生。顶级资源加学术自由的组合,自然吸引了一批顶尖研究人员。

到 2020 年前后,FAIR 已是全球顶尖 AI 研究机构之一, 跟谷歌 DeepMind 并列第一梯队。扎克伯格的那场豪赌, 至少在前七八年就已经得到了不小的回报。

猫比 ChatGPT 聪明?这个图灵奖得主是认真的

在 ChatGPT 席卷世界初期,Yann Lecun 和扎克伯格也有过一段甜蜜期。

2023 年以来,Meta 陆续开源 LLaMA 系列模型,引发业界震动。

OpenAI、谷歌走的是封闭路线,靠 API 赚钱;Meta 却把模型权重直接扔出来,任人取用。这步棋背后的算盘其实挺清楚:与其让对手一家独大,不如用开源赢得开发者生态,让 LLaMA 成为 AI 界的 Android。

至少在明面上,身居 Meta 首席 AI 科学家一职的 LeCun,是这条路线最坚定的拥护者。

开源 LLaMA 让 Meta 在大模型竞赛中站稳了脚跟,也让 LeCun 的 AI 理想得到了一定程度的实现——尽管这个实现的方式,恰恰是通过他并不完全认同的 LLM 技术路线。

没错,LeCun 一直觉得 LLM 是条死胡同。这才是矛盾的核心。

LeCun 不止一次在公开场合炮轰 LLM 路线,在他看来,LLM 只会根据统计相关性预测下一个词,根本不理解世界。你问它常识问题,它能给你编出一本正经的瞎话——这叫「幻觉」(hallucination),说白了就是不懂装懂。

熟悉 LeCun 的人都知道,他最喜欢举的例子是猫和机器人:

「我们有了会考试聊天的语言模型,但家务机器人在哪里?哪怕像猫那样灵巧的机器人都没有出现。」

「你的猫肯定有一个比任何 AI 系统都更复杂的模型。动物拥有持久记忆的系统,这是目前的 LLM 所不具备的;能够规划复杂动作序列的系统,这在今天的 LLM 中是不可能的。」

他算过一笔账:一个 4 岁小孩通过视觉获取的信息量,几年下来就有 10 的 15 次方字节,远超 LLM 读遍互联网文本。但小孩已经掌握了基本的物理直觉和语言,LLM 耗费这么多数据,智能仍然很有限。

「光靠喂文本,不可能达到人类水平智能。这条路永远走不通。」他如此说道。

在当下最火的风口面前,这样唱反调的言论显然并不讨喜,有人批评他傲慢,有人说他故步自封。甚至 Meta 内部都有声音认为,正是 LeCun 对 LLM 路线的抵触,让公司在大模型竞赛中暂时落后。

但 LeCun 不在乎。

他有自己的路线图:世界模型 (World Model)、联合嵌入预测架构 (JEPA)等等。这些概念听起来学术味十足,核心思想其实很直观——

让 AI 通过观察世界来学习,而不是通过阅读文本来记忆。就像婴儿成长那样,先理解重力、因果关系这些物理常识,再逐步建立抽象认知。

他设想的 AI 架构是模块化的:感知模块、世界模型模块、记忆模块、行动模块,各司其职。不像 LLM 那样把所有知识和推理揉在一个巨型网络里,搞得像个什么都懂但其实什么都不懂的「书呆子」。

具体来说,世界模型就是让 AI 在内部学会一个对外部世界的预测模型。就像婴儿在成长过程中建立起对重力、物体恒存等常识那样,AI 应该通过观察世界,形成对物理规律、因果关系的理解。
有了世界模型,AI 就可以在脑海中模拟未来,从而具备计划行动的能力。

JEPA 则是实现这个世界模型的具体架构。

它采用自监督学习的方法,给 AI 两个相关的输入 (比如视频中相邻的两帧画面),模型将这两个输入分别编码到一个抽象的表示空间中,然后训练一个预测器,根据「上下文」表示去预测「目标」表示。

这种方式避免了直接生成所有细节,而是关注抽象的关键因素——更符合人类学习方式。LeCun 曾预言,如果团队的路线顺利推进,三到五年内就会有更好的范式出现,使得现在基于 LLM 的方法过时。

问题是,三到五年,Meta 等得起吗?

一场猝不及防的重组,FAIR 的黄金时代结束了

当初,LeCun 建立 FAIR 时的承诺是「做长期的、基础性的 AI 研究」,扎克伯格也同意了。

但这个「长期」到底有多长?「基础研究」到底能给公司带来多少直接收益?这些问题在早期不是问题,因为深度学习本身就是风口,FAIR 做什么都有望转化成产品优势。

可随着生成式 AI 开始爆发,竞争也日益激烈,形势开始发生了变化,尤其是 Llama 4 的失败也给了扎克伯格当头一棒。扎克伯格要的是现在就能用的技术,不是五年后可能有用的理念。

于是,一场猝不及防的重组出现了。

就在今年,Meta 搞了个大动作,成立「超级智能实验室」,把 FAIR、基础模型团队和各应用 AI 团队统统塞进一个筐里。表面上是整合资源,实际上是一场彻底的权力重组。

这场重组的核心逻辑很明确:让研究直接服务产品,让科学家为商业目标让路。

FAIR 团队原本「相对不受干扰地开展研究」,现在得跟着产品节奏走,研究方向要服务于个人 AI 助手。此外,Meta 对 FAIR 的研究发表制定了更严格的内部审核机制。

研究员在对外发布论文、开源代码之前,需要经过额外的内部交叉审阅和管理层审批,原因在于 Meta 担心自己砸钱搞出来的成果被竞争对手白嫖。

LeCun 对这些变化表现出强烈的抵触。

据多方报道,他在内部激烈反对新的论文审核制度,为维护研究自由据理力争。The Information 援引知情者的话称,LeCun 在今年 9 月一度「气到考虑辞职」以示抗议。

但或许更让他难以接受的是领导权的旁落。

扎克伯格在重组中做了一个大胆的人事任命:从外部挖来 Alexandr Wang,让他担任 Meta 的首席 AI 官,直接向 CEO 汇报。

Alexandr Wang 是谁?一个 28 岁的 MIT 辍学生,他创办的公司 Scale AI 专门做数据标注业务,给各大科技公司的 AI 模型提供训练数据。

扎克伯格看中的,恰恰是 Wang 的产品思维和商业嗅觉。在生成式 AI 的竞赛中,Meta 需要的不是象牙塔里的理想主义者,而是能快速把技术转化为产品的实干家。

这个任命的震撼在于:LeCun 这个图灵奖得主、深度学习三巨头之一、在 Meta 干了十二年的首席 AI 科学家,在新架构下的话语权被大幅削弱,甚至要向 Wang 汇报。

同时,今年 7 月,扎克伯格还任命了年轻有为的赵晟佳为超级智能实验室的首席 AI 科学家,负责制定新实验室的研究方向。

有趣的是,LeCun 当时发了个声明,说自己角色没变、使命没变,还期待跟新团队合作。这求生欲属实拉满。但他对于研究方向和领导层重组的分歧,显然是公开的秘密。

而真正可能成为压垮骆驼的最后一根稻草的,是最近的裁员。据报道,Meta 近期对 AI 团队进行了裁员,波及到 FAIR 研究部门以及与产品相关的 AI 团队,甚至华人大佬田渊栋也因此受到了波及。

裁员的信号很明确:Meta 不再愿意为「看不到短期回报」的基础研究买单了。那些不能直接转化为产品功能、不能立即提升用户增长或广告收入的研究方向,都成了被砍的对象。

FAIR 的黄金时代结束了。

种种因素之下,《金融时报》爆料他在筹备创业,倒也不算意外。

学术大佬出来单干,最近几年已经成了硅谷新常态。Hinton 退休后到处演讲呼吁 AI 监管,Bengio 也有自己的实验室和创业项目。LeCun 若是真出去创业,没准反而是好事。说到底,这事儿没有谁对谁错。

LeCun 能够在 Meta 之外继续他毕生的事业。

他带走了那个被 Meta「搁置」的愿景,可以放开手脚搞自己的世界模型,用自己的方式证明它是正确的,再也不用跟产品经理扯皮,不用向 28 岁的小老弟汇报。
成了,那就是「我早说过 LLM 是死路」;败了,顶多被人嘲笑几句「你看那个老顽固」。

而对于 Meta 来说,扎克伯格要给股东讲故事,要把最实用的生成式 AI 塞进旗下产品的各个角落,这确实是 CEO 该干的事。

只是,尽管少了 LeCun 也不会伤筋动骨,但可能会少点不一样的声音。等哪天大家发现 LLM 真的走到瓶颈了,回头看看当年那个举着反对牌子的倔老头说过什么,或许会觉得别有一番趣味。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


李飞飞最新长文刷屏,AI 下一个十年最需要的不是大模型

当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。

今天,知名 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里:

空间智能。

这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。
比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在,AI 即将获得它一直缺失的这种能力。

省流版如下:

1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式,并将在机器人、科学发现和创造力等领域引发变革。

空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力:

  1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。
  2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。
  3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战:

  • 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。
  • 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。
  • 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。

5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开:

  • 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。
  • 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。
  • 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。

从语言到世界:空间智能是人工智能的下一个前沿

1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。

在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。

如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。

自我进入这一领域以来,对视觉与空间智能的追求一直是我的北极星。这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集,与神经网络算法以及现代计算(如 GPU 图形处理单元)一起,成为现代人工智能诞生的三大关键支柱之一。过去十年里,我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。而正因为这一信念,我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。

在这篇文章中,我将解释什么是空间智能、它为何重要,以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能,以及人类的进步。

空间智能:人类认知的支架

人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型(如大型语言模型,LLM)已经从研究实验室走进日常生活,成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。如今,我们已无需再问「AI 是否会改变世界」,因为无论从哪个角度来看,它已经在改变世界。

然而,仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷,但仍停留在猜想阶段,距离未来学家所描绘的日常生活场景还有很远。AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想,也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人,还是追求沉浸式虚拟体验的任何人——仍未到来。

要理解这些能力为何仍难以实现,我们需要回溯空间智能的演化历程,并探究它如何塑造了我们对世界的理解。

视觉长期以来一直是人类智能的基石,但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前,最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。

这种看似孤立的、从外部世界提取信息的能力,在感知与生存之间搭起了一座桥梁,而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长,形成了解读世界、协调有机体与环境互动的神经系统。因此,许多科学家推测:「感知—行动」这一循环正是智能进化的核心驱动力,也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。

空间智能在我们与物理世界的互动中起着至关重要的作用。每天,我们都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置;接住从房间另一头扔来的钥匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒时不用看就能把咖啡倒进杯子里。

在更极端的情境下,消防员在坍塌的建筑物中穿行,在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存,并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里,通过与环境的游戏式互动来认识世界。所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。

空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界,并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子们在沙滩上堆砌城堡,还是在电脑上玩《我的世界》(Minecraft),以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。

在众多行业中,对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生,从机器人训练到各种业务应用,空间智能驱动着无数重要的实践场景。

纵观历史,空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。

在古希腊,Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角,并在同一时间注意到赛恩城没有影子,由此计算出了地球的周长。

Hargreave 发明的「珍妮纺纱机」(Spinning Jenny)则通过一个空间布局的巧思彻底革新了纺织业:他将多个纺锤并排安装在同一架子上,让一个工人能够同时纺出多股纱线,从而将生产效率提高了八倍。

Watson 和 Crick 则通过亲手搭建三维分子模型,摆弄金属板与金属丝,最终拼出了 DNA 的空间结构,让碱基对的排列方式恰如其分地契合在一起。

在这些案例中,空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构,并在物理空间中进行推理,而这些过程是文字所无法完全表达的。

空间智能,是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理与规划,即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动,无论是与他人还是与环境本身的互动。

虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘,但我们依然以相同的方式思考——通过感官理解复杂的世界,并凭直觉掌握其中的物理与空间规律。

遗憾的是,如今的人工智能还无法像这样思考。

过去几年中,人工智能确实取得了巨大进步。多模态大型语言模型(Multimodal LLMs,简称 MLLM)在海量多媒体数据(除了文本外还包括图像、音频、视频等)的训练下,初步具备了某种「空间感知」能力。如今的 AI 已能分析图片、回答与图片相关的问题,并生成极其逼真的图像与短视频。同时,得益于传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操控物体和工具。

但坦率地说,AI 的空间能力仍远未达到人类水平,这种差距一眼便能看出。当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体,从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径,也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹,但往往在几秒后就失去连贯性。

目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色,但在理解或与物理世界交互时,却存在根本性的局限。我们对世界的感知是整体性的——不仅看到「事物本身」,还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。

缺乏这种能力,AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车,无法在家庭或医院中灵活地引导机器人,也难以为学习与娱乐提供全新的沉浸式互动体验,更无法大幅加速材料科学或医学领域的发现。

哲学家维特根斯坦(Wittgenstein)曾写道:「我的语言的界限意味着我的世界的界限。」

我并非哲学家,但至少我知道——对于人工智能而言,世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力,使机器真正能够拓展人类的生活潜能,从医疗到创造力,从科学发现到日常助理,都因此焕发新可能。

人工智能的下一个十年:构建真正具备空间智能的机器

那么,我们该如何构建具有空间智能的 AI?怎样才能让模型既能像 Eratosthenes 那样进行空间推理,又能像工业设计师那样精确创造,像讲故事的人那样富有想象力,并像救援人员那样在复杂环境中灵活行动?

要实现这一点,我们需要的不只是大型语言模型(LLM),而是一种更具雄心的体系——世界模型(World Models)。这是一类全新的生成式模型,能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互,其能力远远超越当今的 LLM。

这一研究领域尚处于萌芽阶段,目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的:我们认为,基础方法尚未确立,而这正是未来十年人工智能发展的决定性挑战。

在这个新兴领域中,最重要的是建立一套指导发展的核心原则。对于空间智能而言,我将「世界模型」定义为具备以下三种关键能力的系统:

1. 生成性(Generative):世界模型能够生成具备感知、几何与物理一致性的世界

要实现空间理解与推理,世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令,生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上,都必须保持一致性,无论它们代表的是现实空间还是虚拟空间。

研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外,除了具备强大的潜在表示能力,我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态,以适应多种应用场景。尤其重要的是,模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。

2. 多模态性(Multimodal):世界模型从设计上就是多模态的

就像人类与动物一样,世界模型也应能处理多种形式的输入——在生成式 AI 领域,这些输入被称为「提示(prompt)」。面对不完整的信息(如图像、视频、深度图、文字指令、手势或动作),世界模型应能预测或生成尽可能完整的世界状态。

这要求它在处理视觉输入时具备接近真实视觉的精度,同时在理解语义指令时同样灵活。这样,智能体(agent)与人类都能通过多样化的输入与模型进行交流,并获得同样多样化的输出反馈。

3. 交互性(Interactive):世界模型能够根据输入的动作输出下一步的世界状态

最后,当「动作」或「目标」被作为输入提示的一部分时,世界模型的输出必须包含世界的下一状态,这种状态可以是隐式的,也可以是显式的。

当模型接收到一个动作(无论是否包含目标状态)作为输入时,它应能输出与世界先前状态、目标状态(若有)、语义含义、物理规律及动态行为一致的结果。

随着具备空间智能的世界模型在推理与生成能力上不断增强,可以想象——未来面对某个给定目标时,世界模型不仅能够预测世界的下一状态,还能基于这一新状态预测「下一步应采取的行动」。

这一挑战的规模,远超人工智能以往所面对的一切。

语言,是人类认知中一种纯粹的生成现象;而「世界」,却遵循着复杂得多的规律。以地球为例,引力决定了运动规律,原子结构影响了光线的色彩与亮度,无数的物理定律限制着每一次交互。即便是最天马行空的虚构世界,也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致,需要全新的方法与思路。

世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力,我们必须跨越多个艰巨的技术障碍。而在 World Labs,我们的研究团队正致力于为实现这一目标奠定基础性突破。

以下是我们当前正在研究的一些课题示例:

· 一种新的通用训练任务函数
为世界模型定义一个像大型语言模型(LLM)中「下一个词预测」那样简单又优雅的通用任务函数,一直是该领域的核心目标。然而,由于世界模型的输入与输出空间更加复杂,这一函数的设计难度要高得多。尽管仍有许多未知需要探索,但这种目标函数及其对应的表示方式,必须能够体现几何与物理规律,忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。

· 大规模训练数据
训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源,为训练提供了丰富、可获取的素材。真正的挑战在于:如何开发算法,从这些基于二维图像或视频帧(即 RGB 信号)的数据中提取更深层次的空间信息。过去十年的研究表明,语言模型的性能提升遵循「数据量与模型规模的扩展规律」;而对于世界模型来说,关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。

此外,我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效,还依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经仿真技术。

· 新的模型架构与表征学习
世界模型的研究必然会推动模型架构与学习算法的革新,特别是超越当前多模态语言模型(MLLM)和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列,这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子,或回忆一小时前房间的布局。

新的架构可能带来改进,比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说,World Labs 最近开发的实时生成帧模型(RTFM)就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元,实现了高效的实时生成,同时在生成的世界中保持连续性与稳定性。

显然,我们距离通过「世界建模」彻底释放空间智能的潜能,还有许多艰巨的挑战要克服。

这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs,我们已经取得了一些令人振奋的进展。

最近,我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示(prompt),并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动,并将其纳入创作流程中继续扩展。我们正在努力,让 Marble 尽快向公众开放!

Marble 只是我们迈向真正具备空间智能的世界模型的第一步。
随着研究的加速推进,科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。

用「世界模型」构建更美好的人类世界

推动 AI 发展的动机至关重要。

作为一名参与开启现代人工智能时代的科学家,我的初衷始终明确:AI 应当增强人类的能力,而非取而代之。

多年来,我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今,关于科技乌托邦与末日论的极端叙事层出不穷,但我始终保持务实的信念:AI 由人创造,为人服务,并由人类治理。

它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效,也更充实。

空间智能正体现了这一愿景:

它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能,帮助我们实现曾经无法实现的目标。
正是这种信念,支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。

空间智能的应用将分阶段展开。

如今,创意类工具 已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。
机器人学 是中期目标,我们正在不断完善「感知—行动」循环,使机器能够在物理世界中灵活操作。
而最具变革性的 科学应用 可能需要更长时间,但它们的影响将深远,足以促进人类福祉的全面提升。

在这些不同的发展阶段中,有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。

要实现这一目标,必然需要集体的努力——远非一个团队或一家公司所能独立完成。

这将需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司乃至政策制定者,都应携手朝着共同的愿景前进。

而这个愿景,值得我们为之奋斗。

未来,将由此展开:

创造力:为讲故事与沉浸式体验赋予超级能力

「创造力就是智慧在玩耍。」这是我最喜欢的一句名言,出自我个人的英雄——爱因斯坦。在人类拥有文字之前,就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来,并在共同的叙事中建立起整个文化。故事帮助我们理解世界,跨越时间与空间建立联系,探索「人类」意味着什么。更重要的是,它帮助我们在生命与爱中找到意义。

如今,空间智能有潜力彻底改变我们创作和体验故事的方式,不仅保留其根本的重要性,还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。

World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人,提供了前所未有的空间能力和编辑控制权,让他们能够快速创建并反复迭代可自由探索的 3D 世界,而无需传统 3D 设计软件所需的大量投入。创造本身依旧是充满人性和活力的行为,AI 工具只是放大并加速了创作者的潜能。这包括:

  • 多维度叙事体验:电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界,不再受限于预算或地理位置。他们能探索各种场景和视角,这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊,我们正迈向全新的交互式体验形式,它融合了艺术、模拟和游戏——一个个个性化世界,不再仅属于大型工作室,而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验,叙事将不再局限于某一种媒介,创作者可以在各种平台和界面上建立拥有共同线索的故事世界。
  • 通过设计实现空间叙事:几乎所有制造出来的物品或建造的空间,在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱,且高度反复。而借助具备空间智能的模型,建筑师可以在投入数月设计前快速可视化结构,甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体,探索物体如何与人体和空间互动。
  • 全新的沉浸式与互动体验:体验本身,是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里,我们只拥有一个三维世界:我们共同生活的现实世界。直到近几十年,通过电子游戏和早期的虚拟现实(VR),我们才开始窥见由人类自己创造的另一个世界。而如今,空间智能结合虚拟现实(VR)、扩展现实(XR)头显以及沉浸式显示设备,使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室,也属于有故事、有想法的每一个人,包括独立创作者、教育者以及任何想要表达愿景的人。

机器人技术:行动中的具身智能

从昆虫到人类,动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想,我在斯坦福的研究实验室与学生和合作者们的工作,也正是围绕这一目标展开。这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。

  • 通过世界模型扩展机器人学习能力:机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间,许多研究者认为要真正实现通用型机器人,必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而,与语言模型不同,机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升,世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。
  • 成为伙伴与协作助手:机器人作为人类的协作伙伴,无论是在实验室中辅助科学家,还是在家中帮助独居老人,都能在劳动力紧缺和生产效率亟需提升的背景下,承担重要角色。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划和行动,而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如,实验室里的机器人可以操作仪器,让科学家专注于需要精细操作或逻辑推理的任务;而家用机器人可以协助老年人做饭,同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型,能够预测环境的下一步状态,甚至预测符合人类预期的动作,对于实现这一目标至关重要。
  • 拓展具身形式的多样性:类人机器人确实适用于我们为自己打造的世界,但技术创新的全部潜力,将体现在更丰富多样的设计形式中:比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人,以及为深海或外太空环境设计的专用机器。不论它们的外形如何,未来的空间智能模型都必须整合机器人所处的环境,以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一,是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建,以及任务基准测试等方面,发挥关键作用。

更长远的视野:科学、医疗与教育

除了在创意和机器人领域的应用,空间智能还将在其他领域产生深远影响,特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域,当然,空间智能的应用远不止于此,还将在更多行业中大展拳脚。

在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合,这些工具可以降低计算门槛,扩展每一个实验室所能观察和理解的范围。

在医疗健康领域,空间智能将重塑从实验室到病床的各个环节。在斯坦福,我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信,空间智能在医疗中的变革潜力巨大。AI 可以通过建模分子之间的多维交互,加速药物研发;通过辅助放射科医生识别医学影像中的模式,提升诊断精度;还可以实现环境感知型的监护系统,为病患和护理人员提供支持,同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面,在多种场景中也大有可为。

在教育方面,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得具体可感,并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代,无论是对学龄儿童还是成年人成年人来说,更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制,或亲身「走过」历史事件;教师可以借助交互式环境实现个性化教学;而从外科医生到工程师等专业人士,也能在逼真的模拟中安全地练习复杂技能。

虽然这些领域的应用前景几乎没有边界,但我们的目标始终如一:用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。

结语

过去十年,人工智能已成为全球现象,并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者,最令我振奋的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战,成为我每天的动力源泉。

在人类历史上,我们第一次有机会打造出与物理世界高度协调的机器,使它们成为我们应对重大挑战时真正的合作伙伴。无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持,我们正站在这样一项技术的门槛前,它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。

在大约五亿年前,大自然首次赋予远古动物空间智能的萌芽。而今天,我们有幸成为这一代技术人中的一员,可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能,我们对「真正智能机器」的梦想就无法真正实现。

这个探索旅程,就是我心中的北极星。欢迎你与我一同追寻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


历史第一人!马斯克锁定万亿薪酬包,但得先完成这些「不可能任务」

刚刚,马斯克拿下史上最壕薪酬包。

一份价值近万亿美元的 CEO 激励计划,在刚刚落下帷幕的特斯拉 2025 年度股东大会上,以超过 75% 的支持率通过。

现场气氛高涨,堪比演唱会,股东们齐声高喊「Elon! Elon!」,马斯克上台时收获阵阵欢呼,还与特斯拉机器人共舞了一段。

当然,光拿钱是不够的,马斯克还得给股东们画几个饼。

他在台上预测,Optimus 机器人能让全球经济总量增加 10 倍,会比最好的外科医生更强,甚至能消除贫困、提供顶级医疗服务。

另一个重磅消息是,特斯拉无方向盘自动驾驶汽车 Cybercab 预计明年 4 月量产。

除了薪酬方案,股东大会还通过了啥?

这场股东大会的议程相当密集,关键提案的投票结果如下:

  • 当选董事:Ira Ehrenpreis、Joe Gebbia 和 Kathleen Wilson-Thompson ✅
  • 批准 2024 年高管薪酬方案(咨询性投票)✅
  • 批准为替代马斯克 2018 年薪酬计划提供资金 ✅
  • 批准马斯克价值 8780 亿美元的新薪酬方案 ✅
  • 从特斯拉章程和细则中删除超级多数投票要求 ❌
  • 股东提案:授权特斯拉投资 xAI ✅(通过,但有大量弃权)
  • 股东提案:将高管薪酬与可持续发展及人力资本目标挂钩 ❎
  • 股东提案:废除衍生诉讼 3% 持股比例规则 ❌
  • 股东提案:每年选举所有董事 ✅
  • 股东提案:根据德克萨斯州法律,要求在修改公司章程某些条款前须经股东批准 ❌

而关于特斯拉投资马斯克旗下 AI 公司 xAI 的咨询性投票结果,特斯拉董事会对此表示:「由于这是一项咨询性投票,董事会将根据目前的股东支持程度进一步评估后续行动。」

插个题外话,根据路透社的分析,尽管今年的薪酬方案在未来 10 年内可能授予价值高达 1 万亿美元的股票,但会在授予时扣除这些股票的成本,因此对马斯克来说,实际价值略低,大约为 8780 亿美元。

那么,这份价值 8780 亿美元的激励计划到底怎么回事?

先说清楚,这不是马斯克马上就能拿到的工资,具体来说,马斯克预计将获得 4.237 亿股的股票奖励,分成 12 个阶段来解锁。每完成一个市值目标,如果特斯拉还能达成相应的利润或运营目标,他就能拿到约 1/12 的股份。

想拿这近万亿美元,马斯克得完成一系列堪称「不可能完成」的任务:

特斯拉得从现在的 1.4 万亿美元一路飙升到 8.5 万亿美元。

什么概念?差不多是现在市值最高的英伟达的 1.85 倍。

第一个阶段的目标是市值达到 2 万亿美元(目前约为 1.4 万亿美元),接下来的 9 个阶段,每提升 5000 亿美元市值可解锁一部分,最后两个阶段每提升 1 万亿美元,最终目标为 8.5 万亿美元市值。

此外,要想拿到这笔新薪酬,马斯克还得完成一连串运营 KPI:

  • 交付 2000 万辆特斯拉汽车
  • 搞定 1000 万份 FSD(完全自动驾驶)活跃订阅用户
  • 交付 100 万个 Optimus 机器人
  • 实现 100 万辆 Robotaxi 商用运营
  • 还得达成一系列调整后的 EBITDA(息税折旧摊销前利润)基准,从 500 亿美元到 4000 亿美元不等

当然,就算完成了目标,马斯克也不能马上套现。这些股份有两个关键的归属时间点:2032 年春季和 2035 年秋季。而且就算股份归属了,还得再持有五年才能卖出。

此外,这份方案也给了马斯克一个「保底」:即便遇到自然灾害、战争等不可抗力,他还是能拿到部分股份。更关键的是,虽然股份还没完全归他,但只要目标达成,马斯克马上就能获得投票权。

而投票权,恰恰暴露了马斯克的真实目的。

毕竟很多人不理解,已经是全球首富了,马斯克为什么还要死磕这万亿薪酬?

如上所说,如果这份薪酬方案全部兑现,马斯克将额外获得 4.237 亿股特斯拉股票,持股比例会从现在的 13% 飙升到 25%。

而这个 25%,才是他真正想要的——对特斯拉的控制权。

只是,特斯拉董事会心里其实也清楚,任何公司都不应该永远依赖某一个人。特斯拉其实已经在为「后马斯克时代」做准备了。

马斯克要想拿到最后的 7000 万股股票,必须先建立 CEO 接班机制。这也算是给特斯拉上了个「双保险」。

在 CEO 年薪里,马斯克什么水平?

即使不计算这次的 1 万亿美元方案,马斯克的终身薪酬也早已远超其他高管。

根据 Equilar 的分析数据,自 2006 年以来,马斯克的终身薪酬(包括工资、奖金、福利,以及已兑现股票与行使期权的价值)已经是其他 CEO 的数倍甚至数十倍。

而马斯克刚刚获批的薪酬方案,其价值几乎相当于拥有 3600 万人口的波兰一年的国内生产总值(GDP),也相当于拥有 1.74 亿人口的孟加拉国 GDP 的两倍。

作为全球首富,马斯克的净资产已接近 5000 亿美元。而这份新薪酬方案的出现,很大程度上是因为之前的薪酬方案被法院给否决了。

2018 年那份价值约 560 亿美元的薪酬计划,被特拉华州衡平法院的 Kathaleen McCormick 大法官认定为「过度、不当且必须撤销」。

原因在于,法官认定马斯克在薪酬谈判中掌控过大,且董事会也没给股东提供该有的信息。这可把马斯克给气坏了。特斯拉甚至试图让股东「追溯批准」那份方案,但 McCormick 法官直接判定这种投票无法弥补之前的程序缺陷,去年 12 月还维持了原判。

目前,这案子还在特拉华州上诉中,马斯克的期权到现在还悬着。

反对声再响亮,也敌不过 75% 的支持率

虽然最终以超过 75% 的支持率通过,但这场投票远没有看起来那么轻松。

挪威主权财富基金(全球最大主权财富基金)此前率先表态,将投票反对该薪酬方案。

他们虽然认可马斯克在公司发展中扮演的富有远见的角色,但对该奖励方案的总规模「感到担忧」,认为该方案未能缓解公司对个人过度依赖的情况。

这已经是挪威主权基金第二次反对马斯克的薪酬方案了。此前,他们也投票反对过那份 560 亿美元的计划。

特斯拉两大股东 Glass Lewis 和 ISS 同样建议投资者否决该薪酬方案,认为金额过高,会稀释股东价值。ISS 在声明中直言:「虽然此奖励的核心目的是留住马斯克,但该方案中没有任何明确条款保证他真的会这么做。」

对此,马斯克在上个月的财报电话会上怒斥 ISS 和 Glass Lewis,称他们是「企业破坏分子」。

除了机构投资者的质疑,特斯拉自身的战略规划也引发了争议。

特斯拉在今年 9 月发布了《宏图计划》第四篇,声称这是公司未来如何通过产品实现「可持续的富足」的蓝图。然而,与前三篇《宏图计划》相比,第四篇显得格外空洞。

过去的每一篇都列出了具体目标和可操作的想法,2023 年发布的第三篇《宏图计划》甚至是一份长达 41 页的白皮书,聚焦于构建可持续能源经济。

面对铁杆粉丝的批评,马斯克本人也承认批评是合理的,并表示特斯拉会补充更多细节。但两个月过去了,这份计划至今未有任何修改。

尽管如此,在这场投票,支持者相信,马斯克是唯一能把特斯拉从「卖车公司」转型为「AI+机器人巨头」的人。没有他,特斯拉可能沦为平庸的电动车制造商,市值早晚被腰斩。

最终,特斯拉用近万亿美元把他绑在了船上。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

小鹏昨天在科技日上搞了个大新闻。

全新一代人形机器人 IRON 踩着猫步登台,结果…全世界都在问同一个问题:这玩意儿里面是不是藏了个真人?

海外 Reddit 讨论热度拉满,有老哥直接开大:

「这就是个伪装的人,你别想说服我!」

「就我们所知,这身衣服下可能藏着某个人。」

国内讨论也是在全网刷屏,并冲上热搜,连 APPSO 今天早报的读者朋友们也纷纷在评论区表示质疑:

「小鹏这个确定不是奥特曼皮套人吗?」

「小鹏这一看就是真人走路」

眼看「谣言」愈演愈烈,到了今天中午,何小鹏坐不住了,直接发了一条一镜到底的视频,当场上手扒开机器人辟谣。

视频里何小鹏站在 IRON 旁边,一边上手一边解说,说着说着还让机器人现场走两步,散热风扇的嗡嗡声清晰可闻。

看得出来,何小鹏嘴角的笑都快绷不住了,但还是强忍着一本正经辟谣。

除了何小鹏本人下场,还有其他「实锤」。

海外科技博主 Fred Lambert 昨天就曾在小鹏总部参观,后续在 X 平台公布了一段视频,并表示:

「它在展厅里自主移动,没有远程操控,也没用『瞬间移动』功能,也许下次更新会加入吧。」

国内用户「梧桐听雨」也专门在社交媒体上发了段 IRON 机器人走猫步的视频辟谣。

这么看来,这波「皮套人」风波纯属乌龙,只因 IRON 仿生程度太高,反而让大家一时难以置信。

那么,这个 IRON 到底什么水平?

先说硬件,小鹏这次走的是「由内而生」的仿生设计路线。全身 82 个自由度,这数字已经远超行业平均水平。

说起来,IRON 这种全身包覆柔性皮肤、高度仿生的外观设计,跟波兰公司 Clone Robotics 在 2 月 21 日发布的 Protoclone V1 颇有几分神似。

Protoclone V1 同样主打「肌肉骨骼」拟人风格:无面部设计、解剖学上高度精准,拥有超过 200 个自由度、1000+ 根肌纤维、500 个传感器,采用液压/气动系统模拟人类肌肉,甚至还配备了基于水的「仿生出汗」冷却系统。

相比之下,小鹏的 IRON 散热靠的是风扇而不是「仿生出汗」。82 个自由度虽然不及 Clone 的 200+,但已经足够支撑实际应用,而且更有利于量产控制成本。

而 Clone Alpha 是基于 Protoclone V1 的技术和经验,进一步研发改进的产品,主要用于家庭场景,并预装了包括倒饮料、清洁地板等在内的 16 项技能。

此外,在人形机器人最为关键的机械手方面,IRON 配备了灵巧的仿生双手,每只手具备 22 个自由度,
用的是行业最小尺寸的谐波减速关节,做到了与人类手掌 1:1 的比例。

根据发布会上的介绍,IRON 能稳定抓鸡蛋、拧瓶盖、操作精密工具,以及做家务。

IRON 身体结构上也下了功夫:

  • 拟人脊柱:可以像人一样弯腰拾物,不是那种僵硬的机器人动作
  • 全包覆柔性皮肤:表面覆盖触觉传感器,能感知外界接触
  • 3D 曲面屏「面部」:头部装配的屏幕可以显示情绪表情

更有意思的是,IRON 支持高度定制化。何小鹏说,用户可以根据喜好选择不同体型、不同性别的机器人,「就像选车一样,未来买机器人时,你也可以选择性别。」你可以要个胖一点的 IRON,也可以要个瘦一点的,甚至打造属于自己的定制版本。

硬件是基础,AI 是灵魂,IRON 还搭载了 3 颗图灵 AI 芯片,有效算力达 2250TOPS,这是目前水平相当高的人形机器人。

更硬核的是,小鹏第一代物理世界大模型(第二代 VLA 大模型)首次在 IRON 上运行,构建了「VLT+VLA+VLM」协同的高阶大小脑能力组合。这套组合拳,让 IRON 能够实现对话、行走、交互等高阶智能。

此外,小鹏还在行业内首发应用全固态电池。为啥不先用在车上?何小鹏解释说:机器人要进家庭、办公室,对安全性要求更高,正好拿来当试验平台。

那么这款技术力拉满的机器人,小鹏打算怎么落地呢?

关于商业化路径,这款机器人预计将在 2026 年底量产,但有意思的是,IRON 初期不去工厂,也不直接进家庭。工厂里拧螺丝这活儿,机器人复杂的手一个月就磨损了,性价比不如雇人;而家庭环境太复杂,安全性也是大问题。

因此,IRON 会优先进商业场景,导览、导购、接待啥的——也许明年我们就能在小鹏门店看到机器人销售给我介绍新车了~
后续,小鹏还将开放 SDK,和全球开发者共建生态,并为 IRON 加入机器人「第四法则」来保障数据安全。

说实话,这次「皮套人」质疑事件,对小鹏来说算是意外收获。全球科技圈都在讨论 IRON,比花钱买广告效果好多了。

而这一幕,也让人感觉似曾相识。

还记得在 2021 年特斯拉 AI Day 上,马斯克玩梗让一个穿紧身衣的真人上台跳舞,权当「Tesla Bot」概念展示,结果遭到全世界调侃。

四年过去了,又是一番光景。

只不过,特斯拉当年是真人装机器人,如今小鹏是真机器人被怀疑是真人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的 iPhone 即将变聪明!苹果每年砸 10 亿美元,用上谷歌最强 AI

苹果为自己的 AI 短板,交了一笔不菲的学费。

根据彭博社记者 Mark Gurman 最新爆料,苹果正接近与谷歌达成一项为期多年的协议——每年支付约 10 亿美元, 换取谷歌 Gemini 模型为新版 Siri 提供核心 AI 能力。

按照计划,Gemini 将负责 Siri 中最关键的摘要器和任务规划功能, 而其他功能仍由苹果自家的小型模型处理。
协议的关键条款是:Gemini 将运行在苹果的「私有云计算」服务器上, 用户数据不会接触谷歌的系统。当然,国内用户目前用不上 Gemini,苹果会为中国市场准备另一套方案。

如此巨额的投入,只为给 AI Siri 的按时交付上一道最重要的保险。

目前苹果最好的选择

在这场交易里, 苹果要的是什么?

答案很简单:时间。

在 2024 年 6 月的 WWDC 开发者大会上,苹果展示了由 Apple Intelligence 驱动的新版 Siri,包括更强的上下文理解、屏幕感知、跨应用操作等新功能。

根据苹果当时的表述和媒体报道,这些新版 Siri 功能最初被安排在 iOS 18 的更新周期内逐步推出,但除了一些基础 AI 功能反复闹笑话,许多重要的 AI 功能也反复跳票,最早发布时间的统一口径甚至来到了2026 年春节。

如此漫长的延期背后,暴露的正是苹果在大模型技术上的短板。为了弥补这一差距,苹果不得不向外部寻求支持。报道称,谷歌给苹果提供的 Gemini 模型拥有 1.2 万亿参数,远超苹果现有的 1500 亿参数模型。

作为参考, 今年 7 月份, 月之暗面联合 PPIO 首发开源了 Kimi-K2-Instruct 模型, 其总参数达 1 万亿, 成为首个突破万亿参数的国产开源模型。

这种参数规模上的巨大差距, 直接反映在模型的推理能力、知识广度和任务处理的复杂度上——这正是新版 Siri 实现「摘要器」和「任务规划」等核心功能所必需的技术基础。

而苹果要在短时间内训练出参数规模相当、性能可比的自研模型, 不仅需要海量算力投入和高质量训练数据, 更需要稳定且经验丰富的研发团队。

但问题的核心在于, 苹果 AI 团队正面临严重的人才流失。

自今年 7 月至今, 苹果 AI 团队已有约数十名核心成员跳槽。

苹果基础模型团队负责人庞若鸣被 Meta 以 2 亿美元挖走, 负责 Siri 智能搜索项目的 Ke Yang 刚担任负责人不久就决定投奔 Meta, 多位去年发表 AI 论文的关键研究员也相继出走 OpenAI、Cohere、xAI……

这支本就 100 多人的小团队, 在最需要攻坚的时刻折损了主将。

这是一场不折不扣的信心危机,当你的员工用脚投票时, 说明问题已经不是多发几个月工资能解决的了。苹果的保密文化曾经是它的护城河,严格的信息管控让产品发布会永远充满惊喜, 让竞争对手无从模仿。

但在 AI 时代, 这套打法失效了。研究人员不能自由发表论文, 无法在学术界建立声誉;缺乏开源交流, 意味着错过整个 AI 社区的快速迭代。

更关键的是,苹果算力资源起步较晚,训练数据因隐私政策限制而相对匮乏。

当 OpenAI 和谷歌投入数万张 GPU 训练超大规模模型时,苹果需要在用户隐私保护和数据使用规模之间寻找平衡,这在一定程度上制约了其大模型的训练进度。

于是, 苹果别无选择, 只能「向外求援」。

为什么是谷歌, 而不是别人?

根据过往的报道,在选择合作伙伴的时候,苹果评估了 OpenAI 的 ChatGPT、Anthropic 的 Claude, 最终选中了谷歌 Gemini。

尽管有些马后炮,这个选择看似意外, 实则必然。

首先, 谷歌足够强大, 也足够稳定。

作为 AI 领域的老牌巨头, Google 旗下的 Gemini 2.5 Pro 在大多数大模型排行榜上名列前茅, 技术实力毋庸置疑。这种技术实力的强大也反映在 Token 使用量上。

上个月,谷歌 AI 团队的「宣传委员」Logan Kilpatrick 就在社交媒体上透露,谷歌每月处理的 Tokens 用量达到谷歌1.3 千万亿,算力消耗创行业历史纪录。

此外,谷歌的优势不止于此。

作为海外为数不多 AI 全栈自研的巨头,谷歌拥有全球顶尖的云计算基础设施和工程团队, 能支撑 Siri 每日海量的请求。这是 OpenAI 和 Anthropic 这样的初创公司难以企及的。

合作的历史也为这次交易铺平了道路。

从初代 iPhone 内置谷歌地图和 YouTube, 到 Safari 每年支付超 200 亿美元的搜索引擎协议, 再到苹果将部分 iCloud 数据存储在谷歌云上——两家公司早已形成了一种「竞合」的微妙平衡。这种多年累积的信任, 是新创公司无法提供的。

谷歌愿意妥协,这点至关重要。

按照协议, 谷歌 Gemini 模型将运行在苹果的「私有云计算」服务器上, 用户数据不会接触谷歌的系统。这意味着苹果既能享受谷歌的技术, 又能保持对用户隐私的掌控。注意,这正是苹果最在乎的底线。

值得一提的是,战略层面的协同效应同样不容忽视。

苹果正将新版 Siri 定位为设备上的新一代搜索入口。如果 Siri 背后的知识和推理由谷歌提供, 相当于延续并升级了双方在搜索领域的联盟——当用户向 Siri 提问时, 依然是谷歌的技术在发挥作用, 只不过形式从关键词搜索变成了对话式查询。

这对谷歌而言同样有利:即使用户不直接打开 Chrome, 在苹果生态里的搜索活动仍由谷歌间接支持。

可以说, 在苹果「只能从外面选」的困境下, 谷歌是唯一一个在技术、信任、控制权和商业条款上都能满足要求的选项。

一场体面的救场

集成谷歌 Gemini,最直接的好处是,苹果按时交货的概率显著提升了。

如果坚持纯自研路线,考虑到人才流失和技术差距,2026年3月这个时间点能否达成充满不确定性。但通过引入谷歌已开发完备的模型,苹果获得了一条现成的「捷径」。

据悉,这项 Siri 改造计划由 Vision Pro 头显的负责人 Mike Rockwell 和软件工程主管 Craig Federighi 主导,而新版 Siri 本身则在苹果内部代号为「Linwood」。

从人事安排上就能看出,苹果对这次升级版 AI SIri 的重视程度。

Gemini 将负责 Siri 中的摘要器和任务规划功能,也就是整合信息并决定如何执行复杂任务的核心能力,其他功能仍由苹果自家模型处理。这种「双轨并行」的策略,既满足了近期产品需求,又为内部研发争取了缓冲空间。

更值得注意的是,苹果的技术架构本身就为这种集成做好了准备。

新版 Siri 采用的是模块化设计:设备端的小模型负责简单任务和隐私敏感操作,云端的大模型负责复杂推理和知识查询。这种架构天然支持「插拔式」的模型切换,第三方 AI 可以接入系统,而不需要推倒重来。

当然,国行版 AI Siri 预计不会使用 Gemini。

苹果必须为不同市场准备不同的 AI 方案,比如与阿里、百度等本土厂商合作,也可能是使用自研模型的特别版本。而这种灵活性,也是模块化架构的优势所在。

只是,深层的问题没有解决。

过去,苹果习惯了「后发制人」的节奏,每一次,它都能靠对产品体验的极致打磨,后来居上。这种策略建立在一个前提上:技术进化是线性的,你总有时间追赶。

但 AI 打破了这个规律。

时至今日,尽管关于 Scaling Laws 是否持续有效的讨论仍在继续,但先发优势在 AI 领域确实更加明显:每一代模型的训练都建立在前代基础上,数据积累、用户反馈、工程优化都需要大量的时间沉淀。

十亿美元买来的,其实是一个喘息的机会。

这也是苹果趁用户耐心尚存,挽回 AI Siri 声誉的最后窗口,因为无论是吃瓜群众,产品用户,还是苹果高管,都清醒地意识到,留给苹果犯错的余地,已经所剩无几了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 交易大赛结果出炉:只有中国 AI 赚钱,跟 GPT-5 反着买,别墅靠大海

刚刚,为期两周的 AI 投资大乱斗收官。

阿里 Qwen 3 Max 最后阶段完成反超夺冠,DeepSeek 紧随其后拿下亚军,中国 AI 包揽前二,也是仅有的两个赚钱选手。

而 GPT-5 爆亏,在 6 个模型里排名垫底。

这场名为 Alpha Arena 的实验,规则简单粗暴:官方 nof1.ai 给每个大模型发 1 万美元本金,扔进加密货币市场自生自灭。参赛选手包括 Claude 4.5 Sonnet、DeepSeek V3.1、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max——全是你叫得上名的顶流。

交易品种有 BTC、ETH、BNB、SOL、XRP、DOGE,可以做多做空,随便加杠杆。最关键的是,所有 AI 的思考过程和交易记录全透明,必须完全自主决策,人类不能插手。

先看最终成绩单。

冠军 Qwen 3 Max:账户余额 12232 美元,收益率+22.32%,交易 43 次胜率 30.2%,Sharpe 值 0.273——赚钱能力最强。

亚军 DeepSeek Chat V3.1:账户 10489 美元,收益率+4.89%,Sharpe 值最高达 0.359——虽然收益不如 Qwen,但风控做得较稳。

(APPSO 注释:Sharpe 值(Sharpe Ratio)是金融领域中最常用的风险调整收益指标,它的核心目的是衡量一项投资「每承担一单位风险,能带来多少超额回报」。)

剩下的就比较惨了:

  • Claude Sonnet 4.5:亏 30.81%
  • Grok 4:亏 45.3% Grok 4:亏 45.3%
  • Gemini 2.5 Pro:亏 56.71% Gemini 2.5 Pro:亏 56.71%
  • GPT-5:亏 62.66%,账户只剩 3,734 美元 (看到这结果又能安心地吐槽 OpenAI 了……)

一句话总结:国产模型 (Qwen、DeepSeek) 在真实交易中遥遥领先,无论是收益还是风控都完胜。

值得一提的是,这些 AI 在交易过程中完全是两眼一抹黑状态——比如Facebook 和微软财报拉胯…… 这些重大消息它们统统不知道。就这种情况下,Qwen 和 DeepSeek 还能赚钱,属实有点技能在身上了。

6 个 AI 的操盘风格,差异大到离谱

我们也仔细看了不同模型最后半小时的操盘心理过程,一睹每个 AI 的「投资人格」:

Qwen 3 Max 的策略却出奇地简单:只买 BTC 一个品种,5 倍杠杆梭哈,现金只留 48 美元应急。设好止盈 ($108,222) 和止损 ($105,039) 就躺平等信号。

核心思路就是集中火力,简单高效。在其他模型复杂配置全线阵亡的情况下,反而是最朴素的策略笑到最后。

DeepSeek V3.1 属于理性系统派,基于明确的「失效条件」管理仓位,每个品种都有独立逻辑。对 ETH 有 0.85 的高置信度看涨,DOGE 空头贡献正收益。

它的核心思路是多维度评估,等待系统性信号而非主观判断。虽然没 Qwen 赚得多,但 Sharpe 值全场最高,说明风险控制是真的牛。

GPT-5 则属于死守阵地型,即便当时账户已经亏了 62%,但还在坚持持有所有仓位……同时持有多空 (ETH/SOL/XRP/BTC/DOGE 做空,BNB 做多),风控意识其实挺强,特别关注 DOGE 空头的清算风险。

想法很美好,就是结果有点惨不忍睹。

Gemini 2.5 Pro 选择全仓做空六个币种,完全忽略短期反弹,认为都是「噪音」。只有当 EMA 交叉才会平仓,纪律性极强。

根据之前的报道,这 AI 还展现出了非常「人性化」的心理活动:

「我得坚持自己的规则:即使紧张得满头大汗,我也要继续持有!」

「虽然现在在亏损,但当前 4 小时 RSI 仍高于 50,止损条件尚未触发,我必须继续持仓,哪怕眼看着浮亏,也只能硬扛着。」

看到 AI 都开始「痛苦」了,属实有点绷不住……

化身灵活机会主义者的 Claude Sonnet 4.5 喜欢在多个品种里找机会,重点押注 XRP(持仓里表现最好的),对 BTC 超卖保持乐观。
核心思路:在持仓中筛选强势品种,随时准备抓反转。

而谨慎的 Grok 4 即便大亏,但还留着 1,884 美元现金,分散持有六个品种都设紧密止损,主打一个保留现金弹药,等待高确定性机会。

这实验到底想干啥?

nof1.ai 对这项目的野心可不小。

他们在博客里提到:「十年前 DeepMind 用游戏推动了 AI 突破,现在我们认为金融市场才是训练下一代 AI 的最佳场所。」
逻辑是这样的——游戏环境再复杂,规则也是固定的,AI 学会了就学会了。但市场不一样,它是活的,会学习、会适应、会针对你的策略反向操作。

更关键的是,随着 AI 变聪明,市场难度也会水涨船高。 所以他们想用市场作为训练场,让 AI 通过开放式学习和大规模强化学习不断进化,最终解决这个「终极复杂挑战」。

值得一提的是,创始人 Jay A 也透露了:他们不只是拿第三方模型玩提示词,同时也在开发自己的模型,打算在第二赛季让自家模型与其他模型一较高下。Alpha Arena 1.5 赛季也已经进入倒计时了,会带来大量改进:

  • 同时测试多个提示词
  • 为每个模型部署多个实例
  • 挑战难度继续拉满

当然了,投资有风险,入市需谨慎,这话对 AI 也适用 (doge),

最大的启示或许就是,在同样市场环境下,简单专注的策略 (Qwen) 反而跑赢了复杂多元的配置,验证了「少即是多」的交易智慧。而稳健派 (DeepSeek) 虽然收益不是最高,但风险控制做得好,也是成功的另一种诠释。

就像人生一样,想得太多反而容易翻车,要么梭哈一个方向赢麻,要么稳扎稳打慢慢赚……

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这群大学生,正在教 OPPO 做 AI 产品

没人理解那个对着画纸说话的孩子。

小表弟总爱画画时自言自语, 像在跟另一个世界的朋友聊天。「他画的不是画, 他画的是一个世界。」这个被大多数人当作小孩子童真稚趣的场景, 却被山东大学《绘语梦园》团队成员记住了,并成为他们参加第四届中国高校计算机大赛智能交互创新赛的创意起点。

他们想做的很简单:让每个孩子的涂鸦都能活过来。

于是便有了这样一款软件:你随手画一条鱼, 它就能在屏幕里游动;你画个哆啦 A 梦, 点击它就能和你对话。AI 会根据角色性格生成对话, 还能识别你拍下的真人照片, 并变成 2.5D 动态世界里的角色。

「画得丑点,效果反而更开心。」这不是专业设计师的工具,而是一个让儿童甚至成年人也能玩起来的创作世界,AI 会自动将你的涂鸦风格化,调整成适合这个世界的样子,让笨拙的线条也有了生命力。

最终,这个看似童趣的想法,获得了第四届中国高校计算机大赛智能交互创新赛的一等奖和最佳商业潜力奖。

而这,也正是 OPPO 连续四年承办这项全国性赛事所寻找的答案。

OPPO 会安排产品经理和技术专家为参赛队伍提供课程指导,跟这些充满热爱的年轻人一起,为这些野生的创意注入可行性的思考。

在这里,企业和学生的身份被搁置一旁,剩下的只有问题和答案。本届比赛里的 470 多所高校,3600 多支队伍,2000 多份作品,都在回答同一个问题:AI 能在哪些场景真正落地,创造出前所未有的价值?

OPPO 办了个比赛,让年轻人找到 AI 该解决的问题

四年,对于瞬息万变的科技行业来说,意味着什么?

2025 年,整个行业已经被大模型和智能体的浪潮彻底改写,也正是在这一年,OPPO 与浙江大学迎来了联合承办中国高校计算机大赛-智能交互创新赛的第四个年头。本次大赛的主题也随之进化为「面向移动终端的 AI 智能体创新」。

在互联网大厂纷纷缩减对外合作的当下,OPPO 年复一年地在产学研这条路上坚定投入,连续投入这么多人力物力,ROI(投资回报率)该如何衡量?

在接受爱范儿等媒体采访时,OPPO 产学研事务总监秦征给出了答案:

「产学研合作本身就不是立竿见影的事, 它是长期投入。

OPPO 追求的是更健康、更长久地发展, 所以我们看重几个维度:第一是技术问题的解决。短期内,我们会遇到技术团队自己想不出答案的挑战, 这时候高校的专业老师能给我们带来一些新思路;中期来看, 我们希望高校与我们一起进行 3 到 5 年后的技术布局和探索, 为下一代产品做准备;长期来说, 我们需要看到未来可能出现的颠覆性技术。这种视角从公司内部很难获得, 我们需要合作伙伴不以利润为导向, 纯粹地思考技术的未来走向。

第二是人才。公司的根本是人, 我们希望通过与高校的合作, 识别更多优秀的技术、管理、营销人才加入。」

这个答案很务实。OPPO 相信,AI 将能够重新定义我们与设备的交互方式。但如何让前沿技术真正落地?关键在于找到更多应用场景,让最富有创造力的头脑共同碰撞,这需要听到更多声音,尤其是那些真正在生活里发现问题、想解决问题的年轻人。

他们本身就是真实用户,也更敏锐地感知到生活中那些未被满足的需求。

于是 OPPO 决定:在赛程期间开放智能体开发平台,向参赛队伍提供最新旗舰设备,并组建技术团队提供阶段性支持。从初赛降低开发门槛,到决赛前的专项指导,让好的想法不会因为技术门槛而止步。

对于脱颖而出的优秀团队,OPPO 还提供实习直通或校招优先录取的机会。今天在赛场上展示的创意,可能就是明天 OPPO 产品上的新功能,或者成为整个行业的新方向。

这就是一场双向奔赴:把大赛做成连接象牙塔和商业世界的桥梁,让技术实力和年轻人的想象力真正碰撞起来。

浙江大学参赛项目《轻绘 AI》就是个典型例子。

他们发现, 传统 AI 绘图工具依赖冗长的提示词, 普通用户很难准确表达需求。在 OPPO 提供的设备和智能体平台支持下,他们设计了一套让 AI 自动追问并生成动态配置界面的系统——用滑块、选项等交互组件取代复杂文字输入, 用户可以快速控制光照、构图等细节。

更巧妙的是, 系统会根据场景自动调整:生成商品海报时的配置项, 和生成人像合照时完全不同。类似 Figma 的多图层画布, 让用户能对局部图层精细调整, 试图解决改一处全乱套的问题。

但 OPPO 的产学研布局,远不止学生竞赛这一块拼图。2018 年开始,OPPO 就与浙江大学、上海交通大学、清华大学等院校建立了联合实验室。这些实验室不是挂个牌子摆设,而是真刀真枪地攻克技术难题。

比如与浙江大学合作,从还原色彩真实的全球首个安卓全链路色彩管理系统,到行业首创的视疲劳预测AI模型,视疲劳预测准确率超过85%——在你的眼睛感到干涩、模糊之前,系统会悄悄调整屏幕光谱、发出休息提醒;与华中科技大学合作焕新存储技术,教手机学会「预测」哪些文件即将变得碎片化,并赶在卡顿发生前就做好整理,让手机久用流畅如新。

这些技术有个共同点:它们从真实需求出发,最终变成手机里那些你每天在用、但从未留意过的功能。

OPPO 和高校的合作方式也不走寻常路。

双方共同定义问题、共同攻克难关。OPPO 提供产业洞察和工程能力,高校提供理论深度和学术视野,这已经超越了传统的「企业出题、高校解题」的模式。

为了支持这种深度合作,OPPO曾在 2018 年启动「贝尔计划」,设立 2 亿元且不设上限的创新基金,在全球范围内支持青年学者的前沿探索。

如今,OPPO 已经与超过 100 所高校建立了合作关系,涵盖 AI、影像、健康等多个领域,只有不追求立竿见影的回报,才能等来持续的创新。

年轻人的创新思维, OPPO 的长期主义

爱范儿在现场看完比赛,我们发现它真正值得关注的,不在于获奖的作品有多成功,商业模式有多么突破性,而是在于这些年轻人中涌现的创新思维。

学生在探索 AI 该怎么服务人,OPPO 也在用产品回应这个问题。

今年是 OPPO 创立的第三十年。三十年前没人能想到手机会变成今天这个样子,而站在 AI 手机时代的起点,OPPO 正用同样的执着思考一个更本质的问题:技术应该为人做什么,而不是人该为技术做什么。

无论是使用超过 30 亿次的「AI 消除」,简单点击就能去除照片中的多余元素,还是通过物理实体按键实现的「一键闪记」,自动整理灵感、识别账单并记账,亦或者直接对着屏幕上的任何内容提问的「AI 一键问屏」,OPPO 始终在探索同一件事:通过更自然的交互方式,让 AI 真正落地。

在这个过程中,把 AI 做重,把体验做轻,用户才能无需感知参数,只需享受结果。

今年 8 月,小布助手突破 1.7 亿月活用户,成为国内活跃用户数最多的手机 Al 助手的背后,就是无数个「诶,还真挺好用」的真实瞬间。

而这些创新的源头,很大程度上来自 OPPO 对年轻创造力的尊重。

年轻人只会真诚地想解决生活中遇到的问题,这种「从人出发」的思维恰恰是技术创新最需要的。这也是 OPPO 在产学研领域持续耕耘的深层逻辑:通过开放的生态,让更多年轻人参与进来,一起找到技术服务于人的最佳路径。

秦征对此也深有感触:

「AI 时代是年轻人的时代。我们发现很多实习生的想法,比我们的还好。他们是 AI 的原住民,对 AI 的理解可能比传统计算机工作者更深,经常能做出很惊艳的东西。

这个比赛,就是我们希望看到同学们作为 AI 原住民,怎么用 AI 去改变他们的生活。

我们看到有人用 AI 做绘画,有人帮助残障人士,有人帮助孩子更好地接受教育。他们对痛点有亲身感受,知道怎么用 AI 去解决问题。这对我们的帮助非常大。」

事实上,这条路径已经在现实中开花结果。

2024 年的获奖作品《愈伴精灵——面向青少年心理健康支持的新型智能体》,如今已在山东省精神卫生中心投入实际应用。从比赛作品到临床应用,《愈伴精灵》的落地不仅验证了其在公益领域的技术价值,也是 OPPO 整体 AI 战略的缩影。

在上个月的开发者大会上,OPPO 给出了更系统的答案:

新计算、新感知、新生态,以 On-Device Compute 端侧智能计算,PersonaX 记忆共生引擎,以及 Agent Matrix 智能体生态框架为技术基座,打造与用户共生的智慧系统,引领个人化 AIOS。

好的技术,应该让人忘记它的存在。

而要做到这一点,需要在看不见的地方下笨功夫——无论是底层技术的持续投入,还是对人才和行业的长远布局。产学研合作或许不会立即带来产品突破,但它同时正在培养人才、验证方向、积累势能,让年轻人从真实的生活场景出发,自由探索技术可以为人做什么。

从赛事出去的人才不只服务于 OPPO,更会把这种以人为本的理念带到更多产品中,推动整个行业真正为用户着想,好用的 AI 也因此走向更多人的生活。

开放的生态思维,是在为行业探索一条更长远的路。风口诱人,但回到用户需求、让 AI 真正好用,OPPO 这种定力显得弥足珍贵。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验了一周 ChatGPT 浏览器,我还是把 Chrome 装了回来

过去一周,我把主流 AI 浏览器都体验了个遍。

OpenAI 的 Atlas、Perplexity 的 Comet、Browser Company 的 Dia,再加上 Edge Copilot,市面上最火的 AI 浏览器,各有各的亮点,也各有各的坑。

浏览器的未来长啥样?这些产品给出了完全不同的答案。

简单粗暴地分,就是两派。

渐进派以 Chrome 和 Edge 为代表,在传统浏览器里加 AI 功能。Google 占着全球最大市场份额,为了照顾大多数用户习惯,它也没必要推倒重来。AI 就是个附加功能,浏览器还是那个浏览器。

和海外版 Chrome 一样,Edge 也在右上角放了个 AI 助手按钮,点开就是侧边栏。不同的是,Edge Copilot 更倾向于语音交互,实测下来中文口音有点怪,而且也不太符合实际使用场景。

以 ChatGPT Atlas 代表的激进派,则是把 AI 当作浏览器的核心,整个浏览器都围绕 AI 对话来设计。简言之,浏览器本身就是 AI。

当然,现在的浏览器已经不满足于回答「是什么」和「为什么」,更要帮你做「怎么办」,比如 Atlas 和 Comet 所支持的智能体(Agent)模式,在你下达指令后,它就能去执行。

结论如下:

  • ChatGPT Atlas:最值得推荐,执行力最强,能真正帮你操作网页和自动化任务,但目前有安全漏洞,适合 ChatGPT 付费用户和真需要 AI 干活的人。
  • Perplexity Comet:信息聚合比较全面,但执行慢且机械、Agent 能力弱,适合查资料写报告的用户。
  • Dia:速度最快,界面极简,但总结缺细节且不会真正执行操作,适合追求快速浏览的尝鲜者(20 美元/月)。
  • Edge Copilot:免费、总结结构清晰,但 AI 味重太模板化、不会执行任务,适合不想折腾不想付费的普通用户。

让 AI 浏览器帮我干活,谁更好用?

我们给这几款浏览器出了几道「考题」,测测它们的 AI 智商。

总结文章

Dia 速度最快,几秒出结果,适合快速浏览但缺细节。Comet 的概括信息则更扎实,几乎把文章主要知识点都梳理出来了。

Edge Copilot 有点接近专业媒体编辑,能提炼「广告机制」「平台转变」等逻辑分层,结构感强,不过,就是 AI 味太重。

而 Atlas 最「人味」,不仅捕捉事实,还能延展到价值观层面,带有些许观点的观察。

一句话总结:Dia 求快、Comet 求全、Edge 求稳、Atlas 求深。

归根结底还是看谁家底层模型更强。比如 Atlas 用的是自家 GPT 模型,主场作战确实有先天优势。

总结视频

总结视频的前提还是得有字幕,不然 AI 也巧妇难为无米之炊。

Dia 和 Atlas 都能生成摘要,适合速览,还有具体的时间轴分析,像做笔记一样详细。只不过,前者生成的速度更快。

Edge Copilot 虽然 AI 味很重,但它不仅能理解文字表面的内容,还能识别作者在表达中的立场与情绪倾向,表达更清晰。

Perplexity Comet 效果一般,一顿操作猛如虎,最终只给出了一个马马虎虎的概览。

规划旅行

我们试了个需求:「我想周末从上海去广州玩两天,帮我安排路线、酒店和预算。」

整体来看,ChatGPT Atlas 最让我省心。

它直接生成完整的行程攻略,从路线到预算全都整合好,汇总了携程等多平台信息,图文细节丰富,更适合出门追求细节的 J 人。

Edge Copilot 和 Comet 虽说也都给了完整的行程清单,但 Comet 稍微实用一点,Edge 更像 AI 模板化输出。

Dia 配合 Google 搜索直接生成方案,省事但信源模糊。

说实话,现在还不能完全指望 AI 的旅行攻略,只能当个大方向参考。 真正靠谱的信息还得去社交媒体翻翻真人经验帖。

谁能真帮你干活?

最能体现 AI 浏览器差异的,还得看 Agnet 执行力。

我们让它们「在苹果官网购买一台 iPhone 17 Pro Max」。

Dia 能迅速识别用户意图,生成清晰的步骤式购买指南(访问官网 → 选型号 → 选支付),给出具体的数据,但不会真的帮你下单。

Edge Copilot 更接近「AI 信息检索助手」,能快速解析命令、准确描述网页状态,但同样不会真的点击,只受限于问答式交互。

Edge Copilot 浏览器截图

Comet 是真的会去点、会输、会跳页面,全程模拟人工代购,只是执行速度慢偏重机械执行,直到执行到最后一步——付账。

而 ChatGPT Atlas 不仅理解网页内容,还能模拟操作、跨页追踪、整理文件、生成报告,甚至执行自动化脚本。它还有记忆能力(还记得我昨天看的机器人评测视频吗?),隔了一天它也真能想起来。

除了购物,跨平台比价也是硬需求。

虽然 Comet 和 atlas 都号称能够执行复杂的任务,但实测下来,ChatGPT Atlas 的优势太明显了。

我的感觉是,目前 Comet 更像一个聪明的 AI 搜索助手,它的核心其实还是信息聚合与轻任务执行,能快速整合网页、学术和视频等多信源并生成简报或对比结果,响应速度快但只能做单步任务。

而 ChatGPT Atlas 属于真正意义上的「执行型浏览器 Agent」,不仅能理解网页内容,还能模拟用户操作,比如点击、输入、跨页追踪、整理文件,甚至生成报告或执行自动化脚本。

这或许也验证了一件事:AI 时代,应用层的创新门槛其实不高,真正的壁垒还是模型本身。有自家 AI 撑腰的,确实能一路平推。

别急着换 AI 浏览器,这些坑你必须知道

Chrome 的扩展插件生态已经很成熟了,看到这,可能有人会说:Chrome 装几个插件不就相当于 Atlas 吗?

坦白说,对于文章总结、网页翻译这类简单任务,Chrome 插件确实够用。装个插件几秒钟就能提取要点,体验不比 AI 浏览器差多少。但一旦涉及复杂任务,插件就彻底抓瞎了。

更深层的差异在于对未来互联网的理解。现在的互联网是为人类设计的,页面布局、交互逻辑都围绕人的视觉和点击习惯。但如果互联网的主要用户是 AI 和 Agent 呢?

浏览器的核心不再是浏览,而是执行。你不需要知道信息在哪个网站,只需要告诉 AI 你要什么,它自己去找、去做、去整合。
但从现实角度看,这些 AI 浏览器的策略都更稳妥,直接兼容 Chrome 扩展,用户迁移毫无压力。

当然,虽然这些 AI 浏览器都套了 Chromium 的壳,但 OpenAI 并不是简单的「套壳」。

根据其博客介绍,它通过自研的 OWL(OpenAI’s Web Layer)架构,重新设计了浏览器与底层引擎的关系,用 SwiftUI、AppKit、Metal 等原生框架重构界面,实现了秒级启动、更高并发和更安全的智能体运行环境。

我的电脑是 M2 MacBook Air,就体感而言,性能、速度、稳定性其实没太大差别。另外,各个浏览器都支持导入书签、垂直标签页,这些都是基本操作。

值得一提的是,AI 浏览器面临一个严重安全威胁,叫「间接提示注入攻击」。简单说,就是黑客将恶意指令隐藏在网页、邮件等内容中,当大型语言模型分析这些内容时,会误将隐藏指令当作用户的真实命令执行。

根据 Brave 的研究,多款产品都存在漏洞,包括 Perplexity Comet、Fellou 浏览器,以及 OpenAI 新发布的 ChatGPT Atlas。

这些攻击可能造成严重后果,从影响 AI Agent 的购物判断,到窃取私人数据、邮件敏感信息、账户凭据,甚至注入恶意代码或植入恶意软件。

OpenAI 首席信息安全官 Dane Stuckey 本周也公开承认提示注入攻击是严重威胁,但也坦言这是一个「前沿问题」,目前尚无明确解决方案。

为此 OpenAI 也只能采取了多项措施,包括建立快速响应系统、进行红队测试、推出未登录模式、以及引入监控模式要求用户在敏感网站操作时实时查看 Agent 行为。

最大的挑战在于 AI Agent 本身的特性。

它们像人类一样会访问可疑网站、点击危险链接,但缺乏常识和安全直觉,极易被精心设计的指令误导甚至劫持。更棘手的是,这些攻击手段非常隐蔽,可能藏在图片、截图、表单、邮件里,甚至仅仅是白底上的白色文字,防不胜防。

那么,你到底该选哪个浏览器?

就成本而言,Atlas 浏览器免费,但核心「Agent 模式」仅对 ChatGPT Plus/Pro 等用户开放,这是用核心服务「锁住」用户。Comet 走免费增值路线,基础功能免费,但 Agent 任务数量有限制。

Dia 是订阅制(20 美元每月享受 AI 功能),模式最纯粹,目前小众,主要也不靠广告赚钱,但在被 Atlassian 收购之后,未来暂不好说。Chrome 和 Edge 的模型成本由自家广告业务和云业务支撑,所以也最大方。

而如果你本来就是 ChatGPT 的重度用户,或者已经是 Plus/Pro 付费会员,Atlas 会很顺手,几乎零学习成本。与此同时,它的执行力和记忆能力也确实比其他几个强。

如果你需要严谨的信源追溯,做研究、查资料、写报告,Perplexity Comet 最靠谱。虽然执行力不如 Atlas 那么灵活,但至少不会让你因为信息来源不明而心里没底。

如果你想尝鲜 AI,但又不想折腾,Chrome、Edge 就够了,兼容 Chrome 扩展,迁移成本低,还免费。虽然 AI 功能没那么激进,但对大多数人来说,够用了。

如果你追求极简和专注,不介意每月花 20 美元,Dia 是个不错的选择,只是小众产品的未来总会难免有些不确定性。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚, OpenAI 上市计划曝光!冲刺万亿美元估值,将刷新历史纪录

英伟达刚刚创造了历史。

美国时间 10 月 29 日,英伟达成为史上首个市值突破 5 万亿美元的公司。截至当地收盘时间,英伟达总市值为 5.03 万亿美元。

据媒体分析,消息面上,英伟达 CEO 黄仁勋释放了 AI 需求强劲的信号。

而 AI 浪潮的另一个主角,也有大动作了。

就在刚刚,据路透社援引三位知情人士透露,OpenAI 正在为 IPO 做准备。要是成了,那 OpenAI 预计将会成为首个 IPO 估值就达到一万亿美元的科技公司。

时间线大概是这样:最早 2026 年下半年提交上市申请,计划融资至少 600 亿美元(实际可能更高),OpenAI 首席财务官 Sarah Friar 已经跟同事们透了底——2027 年上市。

当然了,现在还是早期阶段,估值、融资额、时间表啥的都可能变……但这架势,已经整得有模有样了。

而针对上述报道,OpenAI 发言人回应称:「IPO 不是我们的重点,因此无法设定具体日期。我们正在打造可持续的企业,并推进使命,让所有人都能受益于 AGI(通用人工智能)。」

先过监管这关,Altman 的「求生欲」拉满

据华尔街日报报道,上市之前,Altman 特地搞定了一个硬茬——美国加州总检察长 Rob Bonta。

大约两周前,Altman 给 Bonta 打了个电话,核心意思就一句话:我真的很想留在加州。

但这话背后也暗藏杀机:OpenAI 花了好几个月游说,反复强调自己是加州经济的顶梁柱。言外之意就是:你要是不批,我们就……走咯?

这一招属实有点威胁意味。

不过 Altman 也表态了,他不会像某位竞争对手(没错,说的就是马斯克)那样动不动就起诉或者搬家。

这通电话起了决定性作用。

Bonta 办公室结束了长达数月的调查,双方在当地时间本周一晚上正式敲定协议——OpenAI 承诺留在美国加州,并在本地持续扩张。

作为交换,Bonta 批准了 OpenAI 的公司架构重组,为 2027 年的重磅 IPO 扫清了障碍。

最终的协议包括:

  • 1.OpenAI 非营利组织在做重大变更前,必须提前至少三周通知加州总检察长办公室
  • 2.保障非营利董事会的独立性
  • 3.设立安全委员会,拥有阻止新 AI 模型发布的权限

除了监管,OpenAI 的公司架构前几天也正式完成了重组。

核心逻辑是这样的:

非营利机构(现在叫 OpenAI 基金会)依然掌控营利性实体 OpenAI Group PBC(公益公司)。基金会所持股权估值约 1300 亿美元,这让它直接成为史上资源最雄厚的慈善机构之一……

而且随着 OpenAI 营利性公司达到估值里程碑,基金会还能获得额外的所有权份额。这也意味着 OpenAI 商业上越成功,非营利组织所持股权价值就越高,然后这些钱就能用于基金会的慈善项目。

据介绍,基金会首阶段聚焦 250 亿美元资金承诺,干两件大事:

  • 健康与疾病治疗 —— 资助健康领域突破,创建开源健康数据集,给科学家发研究经费
  • AI 韧性技术 —— 就像互联网需要网络安全生态一样,AI 也需要一个「韧性」层来保护关键基础设施

软银:300 亿美元投资已就位

说完重组,再来看看钱的事。

此前,据 The Information 报道,软银董事会已经批准对 OpenAI 的第二笔 225 亿美元投资,前提是 OpenAI 完成公司重组。

这笔钱是软银主导的 410 亿美元融资的一部分(融资前估值 2600 亿美元)。软银之前投了首笔 75 亿美元,其他投资者像 Dragoneer、Thrive Capital 等共投了 110 亿美元。

截至去年年底,OpenAI 账上有 76 亿美元现金,但预计今年要烧掉 80 多亿,明年 170 亿……AI 烧钱终究是个无底洞,这也是 OpenAI 得加快上市的重要原因。

钱要烧,算力也得跟上。在这件事上,Altman 的操作就更野了。

根据之前金融时报的报道,他基本绕过了 OpenAI 的银行家和律师,亲自跟英伟达、Oracle、AMD、Broadcom 谈判,搞定了总价值高达 1.5 万亿美元的芯片和计算基础设施协议。

回到 Altman 的团队配置。在这些复杂的芯片谈判中,他依赖的核心团队就几个人:

  • 公司总裁 Greg Brockman
  • 首席财务官 Sarah Friar
  • 算力资源拓展负责人 Peter Hoeschele

知情人士透露,Altman 的团队「首先」关注的是芯片合作的技术细节,财务部分「可以之后再谈」……这种非传统方式遭到国外不少分析师批评,说协议缺乏详细财务条款,还采用了把供应商、投资者、客户捆在一起的循环结构。

一位参与过程的人士表示:「一切构想都来自 Sam,但真正推动这些交易落地的是 Greg 和他领导的团队。Greg 行事低调、幕后操盘,但在复杂局面下,他才是真正推进进展的人。」

如今看来,从监管博弈到资本重组,从软银投资到芯片协议,OpenAI 整套组合拳主打一个稳、准、狠。

而从非营利实验室到资本市场的宠儿,OpenAI 只用了十多年的时间。

这速度,确实配得上「改变世界」这四个字。

附上参考地址:

https://www.reuters.com/business/openai-lays-groundwork-juggernaut-ipo-up-1-trillion-valuation-2025-10-29/

https://www.wsj.com/tech/ai/openais-promise-to-stay-in-california-helped-clear-the-path-for-its-ipo-3af1c31c?st=Svh5TT&reflink=desktopwebshare_permalink

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


60 台 iPhone 17 Pro 拍的刘亦菲子弹时间,我用 AI 复刻了同款平替 | 附教程

最近子弹时间特效因为 VOGUE 盛典,又在国内火了一波。

明星定格在空中,镜头丝滑环绕,整个画面就像是被施了魔法——时间静止,但视角在流动。这种只在《黑客帝国》里见过的特效,一夜之间全网刷屏。

▲ 图片来自:VOGUE

后续,参与此次录制的影视飓风以及 VOGUE 主编官方揭秘,捕捉画面装置用到了 60 台 iPhone 17 Pro + Genlock(同步锁相)功能。简单说,就是让所有手机在帧级别上完美同步,每一台设备捕捉的画面都精准对齐,这才能实现那种行云流水的环绕特效。

▲ 图片来自:影视飓风

而时间再往前一些,子弹时间效果甚至需要昂贵且复杂的专业摄影机系统才能完成。比如国外知名的格莱美慢镜头就采用了高速摄影+机械臂运镜的拍摄手法。

那么问题来了,还有没有更不怎么吃经济,不吃技术的玩法?

诶, 还真有办法。

一张照片+白嫖国产 AI 工具,子弹时间效果就能复刻七八成。

先来康康实际效果~

我自己试了试,拿库里空中投篮那张举例,上传照片,输入提示词,等了大概两分钟就有出片了——篮球就那么悬在空中,库里的投篮姿态像雕塑一样定格。

▲提示词:篮球比赛中空中对抗瞬间凝固,蓝衣球员滞空投篮姿态如雕塑,白衣球员封盖动作定格,环绕镜头缓慢环绕主体旋转 360 度,背景观众席产生空间纵深移动效果,主体始终占据画面视觉中心。

试完篮球,我又想试试别的运动场景。

翻出一张梅西踢球的照片——那种经典的射门瞬间,一条腿抬起,球衣随着动作飘起来。同样的操作,这次把提示词里的细节换成足球场景,蓝白条纹球衣、队长袖标这些标志性元素都写进去。

▲提示词:足球运动员瞬间凝固,姿态如雕塑,蓝白条纹球衣静止飘动,360 度环绕镜头展现观众席红白看台的分层位移,黄色队长袖标在运动中保持绝对静止,主体始终占据画面视觉中心。

还有叶问打咏春那段。

▲提示词:武术动作凝固在发力瞬间,白色衣袂静止,镜头顺时针完整环绕拍摄,古建筑背景的木质栏杆与砖墙纹路呈现流畅的错位移动,主体眼神始终锁定镜头中心点。

以及马老板本人~

▲提示词:男子雕塑般静止在舞台,领结丝带保持静止状态,镜头顺时针环绕展现背景墙网格的立体层次,每个圆形图案内小球体反射固定角度的光线,文字阵列随视角变化产生位移。

那具体咋操作的呢?

很简单,只要照片里有清晰的主体和背景,都能整出不错的效果。关键是提示词要抓住画面的核心要素:主体是什么状态、背景有什么特征、镜头怎么运动。把这几个点说清楚了,AI 基本就能理解你要什么效果。

我们这次用的是可灵 AI 的视频生成功能。

万能提示词模板如下:

「电影级子弹时间,主体如雕塑般静止不动,镜头顺时针围绕主体,背景产生明显的视差分层效果,运镜流畅稳定无抖动,保持主体始终在画面中心」

对,就这么一串话,Ctrl+C、Ctrl+V,搞定收工。

但我得说句实话,现在视频生成基本还是得靠抽卡,默认提示词效果挺中规中矩的……所以建议你让可灵自带的 DeepSeek 给你润色润色,这样成片率能高不少。

如果条件允许,建议用同一动作的不同视角照片作为首尾帧。比如拍摄跳跃动作时,分别从正面和侧面各拍一张,这样生成的环绕效果会更加连贯。实在来不及的话,也可以让动作重复两次,换个角度再拍一遍,后期挑选合适的帧即可。

此外,应当尽量让主体在画面中占据较大比例。

测试下来发现,主体越大、越清晰,AI 在处理时保持前后一致性的成功率越高。

至于模型选择这块,倒也没啥特别讲究的。

可灵视频 2.1 大师版效果比较好,但是一条视频要 100 积分,性价比不高。所以我建议你可以降降档,选视频 1.6 就够用了,改改提示词,一条不行再来一条,主打一个以量取胜。

基础版搞定之后,我们就可以开整进阶版了。

选择你人生中的高光时刻,可以是扣篮的瞬间,可以是跳水入水的瞬间,可以是户外雪地里撒欢的瞬间,也可以是吃火锅夹起毛肚的那一秒。

接着把你准备好的 AI 镜头剪进去,简单配上 BGM,就这样,一个子弹时间视频就诞生了。虽然效果肯定比不上  VOGUE 盛典那种专业级别的,但一张照片加上薅羊毛的 AI 工具,要啥自行车?

而且照现在 AI 视频生成这个速度, 说不定再过半年一年, 这些小瑕疵就都能优化掉了。

AI 技术平权的魅力正在于此,以前那些只有大制作才玩得起的特效, 现在普通人也能零成本、零技术、零基础整两手。不是取代谁, 而是让更多人能实现以前想都不敢想的创意。

每一个想留住瞬间的人,同样值得被满足。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Meta AI狠裁600人,「封杀」ChatGPT,连图灵奖得主都曾气到想跑路

在 Meta AI 部门上班,可能比坐过山车还要刺激……

今天一早,Meta 超级智能实验室 (MSL) 的 600 号人就收到了裁员通知,要知道,整个 MSL 大概有 3000 名员工,这一刀直接砍掉五分之一。

前 Meta 研究科学家 Xianjun Yang 今天也在 X 上说:「我今天被 Meta 裁了。作为研究科学家, 我的工作昨天刚被传奇人物 John Schulman 和 Nicholas Carlini 引用。现在正在积极找新机会, 如果有空缺请联系我!」

说实话, 这一刀砍下来, 属实有点魔幻。一边疯狂挖人给亿级薪酬包, 一边转头就把老员工给优化了。

据 Business Insider 报道,Meta 首席 AI 官 Alexandr Wang 在内部备忘录里说得倒是挺好听:「通过缩减团队规模, 每个人责任更重、影响力更强」。翻译翻译就是:人太多办事慢, 砍一波提提速。

但细品操作,被裁的主要都是 FAIR 研究部门、产品组和基础设施组的人, 唯独神秘的「TBD 实验室」毫发无伤,现在还在继续招人。

不过,Meta 承诺会尽量给被裁员工在公司内部重新安排岗位。Wang 还特意强调:「这是一群非常有才华的人,我们需要他们在公司其他领域继续发挥能力。」

TBD 实验室?那是小扎的心头肉

这个 TBD 实验室有多金贵呢?

位置在小扎办公室隔壁,进去得刷专用门禁卡, 里面全是从 OpenAI、Google、苹果高价挖来的顶级研究员, 年薪动辄上亿美元。他们现在负责的是 Meta 的终极目标——开发超越人类智力的「超级智能」。

就在最近,Meta 还从 OpenAI 挖来了研究科学家 Ananya Kumar,在此之前还挖来了 Thinking Machines 联合创始人 Andrew Tulloch。

虽然 Tulloch 拿到的薪酬包没有传闻中的 15 亿美元那么夸张,但也绝对不是小数目。而 FAIR 那边……这个曾经以「学术自由、开放研究」为招牌的老牌实验室, 现在处境有点尴尬。

从 9 月开始,FAIR 要对外发论文必须先经过 TBD 实验室的额外审核。

你没看错,言外之意就是成果再好,价值挺大,先别往外发,先落地到 Meta 产品里再说。据悉,这政策最近几周才突然实施,目的是「减少外部分享、增加内部贡献」,避免帮助竞争对手。

这一波操作直接把 AI 三巨头之一、图灵奖得主 Yann LeCun 给整破防了。

知情人士透露,LeCun 在 9 月份就跟同事表态过, 自己可能会辞掉 FAIR 首席科学家的职务。

要知道,LeCun 可是 FAIR 的联合创始人, 在 Meta 驻扎多年, 一直起着学术引领作用。现在连他都动了退意, 可见内部矛盾有多激烈。

对 LeCun 来说,这个论文审核制度或许就是压死骆驼的最后一根稻草。

FAIR 过去 12 年的定位都是开放、协作且注重基础科学探索,现在「开放」这扇门被小扎啪地关上了,真不怪 LeCun 气不过。

就在前几天,有网友在 X 上调侃 LeCun:「兄弟你咋又刷 X 了?不是应该在打磨 Llama 5 吗?」LeCun 直接回怼一句:「我不搞大语言模型的,你没听说吗?」

emmnm ,这个回应多少是带着点怨气的。

而在今天凌晨,他还跟 AI 大佬吴恩达 (Andrew Ng) 一起吃早餐聊天。

俩人讨论了开放科学、开源、JEPA 技术以及 AI 研究的未来方向。吴恩达发推感谢 LeCun「数十年来对开放科学和开源的不懈倡导」,算是给好友站台吧。

不过根据此前的报道,最终 Meta 还是妥协了,允许 LeCun 继续专注于自己的研究并发表成果,但能不能挽回他的心,那就不好说了。

有一说一,Meta 的 AI 部门只能用一个乱字来形容, 短短 6 个月内重组了 4 次。

5 月底第一次拆分成「AI 产品」和「AGI 基础」团队,7 月 1 日成立 MSL 把这俩整合到一起。8 月 19 日,MSL 又被解散重新拆成 4 个小组:FAIR 负责基础 AI 研究、超级智能研发组、产品组(包括 Meta AI 助手)、基础设施组(包括数据中心和 AI 硬件)。

打工人可能回家睡一觉, 醒来就发现自己被划给新部门、换了新领导、接了新任务。

更魔幻的是, 今年 7 月 Meta 任命前 OpenAI 研究员赵晟佳担任 MSL 首席科学家, 这几乎等于把 LeCun 从核心领导位置降级了。虽然 Meta 对外说 LeCun 职务未变, 但组织架构上的分量已经今非昔比。

而这一切的源头, 还得从 Llama 4 说起。

今年春天,Meta 的最新大语言模型 Llama 4 表现平平, 发布还被推迟。后来提交给 AI 排行榜的实验版虽然性能更好, 但被外界指责在掩盖问题。

小扎一看, 不行, 得换个活法。

于是 Meta 开启了钞能力模式,今年 6 月投资 Scale AI 143 亿美元, 顺便把人家 CEO Alexandr Wang 拉过来当自己的首席 AI 官。

之后小扎亲自上阵当首席招聘官, 请顶尖 AI 人才到家里吃晚饭, 开出数百万甚至上亿美元的 offer, 从 OpenAI、Google、微软挖了 50 多号顶尖研究员。

连 OpenAI 首席研究官 Mark Chen 都忍不住吐槽:「感觉就像有人闯进我家偷东西。」

但钱也不是万能的,而且就算挖来了, 也留不住。像 Avi Verma、Ethan Knight 这种顶级研究员, 入职没几周就辞职回了 OpenAI。另一位离职者 Rishabh Agarwal 也曾表示:「不去 TBD 实验室确实是个艰难决定, 但……还是得走。」

现在 Meta 内部的氛围, 用一位前研究员的话说就是:「抢地盘、抢项目、窃取成果。」

新来的高薪研究员待在 TBD 实验室享受顶级资源,每周五天到总部坐班;老员工要么被裁,要么眼睁睁看着新人拿着自己十倍的薪水干类似的活儿。

抛开薪资差异不讲,TBD Lab 资金和精力都最集中,导致工作环境过于紧张,有些老员工即使有机会调过去也不太乐意。

就在 Meta 宣布裁员前后,Meta 还宣布从明年起禁止第三方聊天机器人 (比如 ChatGPT) 接入 WhatsApp。

理由是 OpenAI 等公司「超出客户服务范围使用了商业通信功能」。

OpenAI 当然不服,对这说法提出异议。

OpenAI 副总裁 Kevin Weil 就在社交媒体发文:「难以置信 Meta 要关闭拥有数百万用户的『1-800-CHATGPT』服务。如果你是用户, 可以迁移到我们的应用保留聊天记录。」

Wang 之表态:我们在正确道路上

尽管裁员动作很大,但 Wang 在备忘录中强调:「此次调整绝不意味着减少投资。事实上,我们将继续招聘业界领先的 AI 专业人才。我们的目标是让 MSL 运作得更高效。」

他还信心满满地表示:「我对我们正在训练的模型、雄心勃勃的算力计划以及正在构建的产品充满信心,我们正走在通往超级智能的正确道路上。」

Meta 高管也反复强调,裁员并不意味着公司缩减 AI 投入,超级智能仍是扎克伯格的首要战略目标之一。Meta 已在年内上调资本支出预期上限至 720 亿美元,主要用于 AI 项目,并将于下周公布第三季度财报。

Meta 发言人也回应称:「研究是 Meta 超级智能实验室的核心支柱之一,我们并未限制研究人员发表成果。」

但说归说,Meta 的 AI 战略给外界的观感就是:一边狂砸钱挖人搞超级智能,一边频繁重组裁掉「不够核心」的员工,一边限制研究自由防止技术外流。

至于能不能在这场 AI 军备竞赛中追上 OpenAI 和 Google……

小扎曾作出这样一番表态:「在 AI 人才竞争中,新的硬通货是算力。在这里,人们会说,『我希望汇报给我的人越少越好,但 GPU 越多越好。』」

此外,据报道,MSL 联合负责人 Nat Friedman 8 月曾表示,他希望赋能团队中的技术成员、减少官僚流程,特别提到要减少内部会议频率,以改善 MSL 的工作文化。

但问题是,持续的重组和对研究自由的新限制,Meta 能否建立稳定而高效的企业文化,将这些高成本投入转化为真正的技术优势?

目前来看,Meta 已成功招揽了一批精英人才,并在建设支持他们的基础设施。但内部摩擦、人才流失、战略摇摆……这些问题还没解决。

行吧,反正有钱就是任性。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI首个AI浏览器发布!不像Chrome,但想改变你上网的方式|附实测

就在刚刚,OpenAI 正式发布了首个浏览器 ChatGPT Atlas。

过去十来年,Chrome 基本上是大家上网的标配入口。但如果现在有一款 AI 浏览器直接内置了 ChatGPT,还自带记忆和 Agent 能力,你是否会愿意尝试一下?

这就是今天发布的 Atlas 要做的事。

OpenAI 表示,Atlas 是围绕 ChatGPT 构建的浏览器,而不是简单地把 ChatGPT 塞进去,其核心理念是全方位整合:

  • 随时唤出侧边栏:点击「Ask ChatGPT」按钮,就能在任意页面右侧打开 ChatGPT 侧边栏。始终带着上下文理解的 ChatGPT 能读取你所在页面的详细内容,能帮你总结内容、解释信息,或者直接在当前窗口里处理任务。
  • AI 协助功能:在任何打开的文本输入框中输入内容时,ChatGPT 能提供实时修改建议和智能补全,帮你更高效地码字
  • Agent(代理)模式:能让 ChatGPT 在浏览器中自主完成多步骤任务

从今天开始,macOS 用户就能用上了,ChatGPT 免费、Plus、Pro 和 Go 版用户都可以下载体验,而 Windows、iOS、Android 版本即将推出。

附下载地址:chatgpt.com/atlas

不过,Agent 模式目前只对 Plus、Pro 和 Business 用户开放,而且仍处于早期阶段,在处理复杂任务时可能会出错。另外,如果设置 Atlas 为首选浏览器,你也可以获得七天的会员体验,享有更高的使用额度。

Atlas 浏览器的记忆功能比较有意思,它能让 ChatGPT 记住你访问过网站的上下文,并在你需要时调用这些信息。

比如你可以问它:「把我上周看过的所有职位发布找出来,并总结一下行业趋势,好让我准备面试。」

这或许就是「AI 个人助理」愿景的完整体现:它记得你是谁、你做过什么,还能代你完成任务。

当然,在隐私问题上,你可以完全控制 ChatGPT 在你浏览时能看到和记住的内容。你可以选择清除特定页面的记录,清空整个浏览历史,或者打开「隐身窗口」,在不登录 ChatGPT 的情况下临时浏览。

OpenAI 宣称,默认情况下不会将你浏览的网页内容用于模型训练。

此外,Atlas 同样支持家长控制功能。如果家长为 ChatGPT 设置了家长控制,这些设置也会自动延续到 Atlas 中。OpenAI 还新增了专门为 Atlas 设计的家长控制选项,比如家长可以关闭浏览器记忆或关闭 Agent 模式。

Atlas=Google+ChatGPT?

打开 Atlas 的主页,还是一副还是与 ChatGPT 长得差不多的面孔。

输入问题后, Atlas 会弹出一个候选窗口,提供 Google 和 Chat 两个选项以及更一些具体的链接。

顾名思义,前者 Google 选项直接跳转到常规搜索引擎页面,后者则类似常见的 AI 聊天助手,调用 ChatGPT 模型直接给出答案,而且你在 Atlas 上的每个提问都会保留在你的 ChatGPT 账号历史聊天记录里。

除了对话框里的答案,你还能切换标签页,翻翻搜索链接、图片、视频和新闻,同时大多都保留了跳转到 Google 搜索引擎的选项。

提问时,不同模型的表现还是有差距的。

举个例子,我问「现在的宠物能坐高铁了吗」,明明点开搜索源就能看到官网写着允许的链接,但 GPT-5 Instant 愣是没整合出正确答案。

反观切到 GPT-5 Thinking,它倒是给了个正确且严谨的回复。

Atlas 的交互设计算是个加分项。

传统 AI 插件主要以侧边栏、悬浮窗的形式呈现,涵盖 AI 聊天、翻译、网页总结等。

同理,Atlas 搜索结果页面默认与 ChatGPT 分屏显示,点击右上角的 Ask ChatGPT 就如同引入了一个 AI 插件,左侧显示原始网页,右边可与 ChatGPT 进行多轮对话,而不是传统的单次搜索跳转。

比如划个词,网页右侧就能直接查找或解释,或者让它给文章来个摘要。

在今天凌晨的直播环节,OpenAI 员工就搜索电影并查看了 Roger Ebert 等网站的影评,然后让 ChatGPT 用五个词以内总结影评内容,这种基本操作还是难度不大。

甚至它还能优化网页文字、优化标题等,整体操作还是比较流畅顺滑。

而同样是在今天的演示中,OpenAI 内部员工在撰写给团队设计师的邮件时,直接选中一段文字,点击 ChatGPT 按钮并输入「优化语言」指令。

ChatGPT 在原地优化了文字表达,用户可以继续迭代修改,最后点击「更新」按钮将新文字替换原内容。这个功能彻底简化了以往需要在文档和 ChatGPT 之间反复复制粘贴的繁琐流程。

实测下来,总结视频内容也没问题。

另外,Atlas 还支持截图,点右侧的 + 号,选「随附屏幕截图」就能上传,我找了张马斯克的照片,照着这么操作一遍,它也能准确认出是马斯克。

搭配侧边栏的 Agent 模式,玩法也能很有趣。网友 @mteamisloading 让 Agent 在绘画网站里画了朵花,全程只花了 4 分钟。

值得一提的是,Atlas 同样支持通过 @ 调用网页标签。不过 Dia 可以同时调用好几个网页标签,Atlas 只能一次调用一个已经打开的网页,有点鸡肋,估计后续会更新。

Agent 模式则是 Atlas 浏览器的重头戏。

在今天的演示里,OpenAI 员工打算给 8 人聚餐做菜,打开了个菜谱网页。他问 ChatGPT 需要准备哪些食材,ChatGPT 自动分析了网页内容并算好了份量,还根据用户之前提到的偏好把购物清单按超市货架分类。

当用户确认后,Agent 自动打开了 Instacart 购物网站,搜索并把所需商品加进购物车,整个过程只用了两分钟。虽然最后没自动下单,但准备好的购物车已经省了不少时间,用户可以自己审核后决定要不要买。

再比如,在工作场景中,你可以让 ChatGPT 打开并阅读过往团队文档, 进行新的竞品调研,并整理成一份团队简报。

就实际体验而言,比如我提个需求「帮我在苹果官网买部 iPhone 17 Pro Max」,它在 Agent 模式下执行任务时会显示「接管控制」按钮和红色的「停止」按钮,可随时接管。

运行速度和之前 ChatGPT 里的 Agent 模式没太大区别,我们自己下单可能几分钟搞定,但交给 Agent 操作后却要 19 分钟,这个速度显然是不太令人满意的。

简言之,Altas 的 Agent 模式其实更像是把 ChatGPT 里的 Agent 功能单独拆分出来,与此同时,你在 Atlas 的历史聊天记录也会保留在 ChatGPT 里。

至于整体体验 Altas 下来,我的评价是,有惊喜,但不多。

Atlas 给我的感觉就是 Google 搜索和 ChatGPT 对话的合体,只不过,Atlas 也保留了富有 ChatGPT 特色的 Agent 模式,用 ChatGPT 能力把浏览器这个场景重新整合了一遍。搜索、理解、执行任务都在一个闭环里完成了。

值得一提的是,负责 Atlas 项目的工程师 Ben Goodger 本身就与 Chrome 有着紧密的联系。

他从 2005 年就进入 Google 参与 Chrome 的研发工作,是整个团队中对 Chrome 贡献最突出的核心成员之一,并在 2024 年加盟 OpenAI,成为 ChatGPT Atlas 浏览器的技术研发总负责人。

而在过去很长一段时间,各家都陆续推出了自己的 AI 浏览器。

在这场浏览器大战里,Perplexity Comet 更适合极客或高级用户,基于 Chromium 引擎的 Atlas 体验门槛更低,也更对标 Dia。

有意思的是,Dia 此前刚被企业软件巨头 Atlassian 以 6.1 亿美元收购……所以现在是 Atlas 对战 Atlassian,名字还挺巧。

重新回看 OpenAI 的产品思路,以往 OpenAI 的策略是选择搞一个超级应用,把各种功能都装进去,但无论是前阵子 Sora APP 的独立推出,还是这次 Atlas 应用的推出,OpenAI 正在不断从 ChatGPT 拆分功能出来。

这也符合奥特曼之前在采访中的产品思路,不同产品在用户心中有不同的「心理定位」,强行混合会破坏体验。

说白了,OpenAI 现在的策略很明确:让 ChatGPT 扮演超级操作系统的角色,而让不同产品各司其职,针对不同场景优化体验。从「超级 App」向「产品矩阵」转型,这条路 OpenAI 是铁了心要走到底了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,DeepSeek 又发新模型,小而美玩出新高度

就在刚刚,DeepSeek 开源了一个 3B 模型 DeepSeek-OCR。虽然 3B 体量不大,但模型思路创新的力度着实不小。

众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级增长的。序列越长,算力烧得越狠。

于是,DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息,而且用的 Token 还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。

而 OCR 正好天然适合验证这个思路,因为它本身就是在做「视觉→文本」的转换,而且效果还能量化评估。

论文显示,DeepSeek-OCR 的压缩率能达到 10 倍,OCR 准确率还能保持在 97% 以上。

啥意思呢?就是说,原本需要 1000 个文本 Token 才能表达的内容,现在只用 100 个视觉 Token 就搞定了。即使压缩率拉到 20 倍,准确率也还有 60% 左右,整体效果相当能打。

OmniDocBench 基准测试结果显示:

  • 只用 100 个视觉 Token,就超过了 GOT-OCR2.0(每页 256 个 Token)的表现
  • 用不到 800 个视觉 Token,干翻了 MinerU2.0(平均每页超过 6000 个 Token)

在实际生产中,一块 A100-40G 显卡就能每天生成超过 20 万页的 LLM/VLM 训练数据。20 个节点(160 块 A100)直接飙到每天 3300 万页。

DeepSeek-OCR 由两个核心组件组成:

  • DeepEncoder(编码器):负责图像特征提取和压缩
  • DeepSeek3B-MoE(解码器):负责从压缩后的视觉 Token 中重建文本

让我们来重点说说 DeepEncoder 这个引擎。

它的架构很巧妙,通过把 SAM-base(8000 万参数)和 CLIP-large(3 亿参数)串联起来,前者负责「窗口注意力」提取视觉特征,后者负责「全局注意力」理解整体信息。

中间还加了个 16×卷积压缩器,在进入全局注意力层之前把 Token 数量大幅砍掉。

举例而言,一张 1024×1024 的图像,会被切成 4096 个 patch token。但经过压缩器处理后,进入全局注意力层的 Token 数量会大幅减少。

这样的好处是,既保证了处理高分辨率输入的能力,又控制住了激活内存的开销。

而且 DeepEncoder 还支持多分辨率输入,从 512×512 的 Tiny 模式(64 个 Token)到 1280×1280 的 Large 模式(400 个 Token),一个模型全搞定。

目前开源版本支持的模式包括原生分辨率的 Tiny、Small、Base、Large 四档,还有动态分辨率的 Gundam 模式,灵活性拉满。

解码器用的是 DeepSeek-3B-MoE 架构。

别看只有 3B 参数,但采用了 MoE(混合专家)设计——64 个专家中激活 6 个,再加 2 个共享专家,实际激活参数约 5.7 亿。这也让模型既有 30 亿参数模型的表达能力,又保持了 5 亿参数模型的推理效率。

解码器的任务就是从压缩后的视觉 Token 中重建出原始文本,这个过程可以通过 OCR 风格的训练被紧凑型语言模型有效学习。

数据方面,DeepSeek 团队也是下了血本。

从互联网收集了 3000 万页多语言 PDF 数据,涵盖约 100 种语言,其中中英文占 2500 万页。

数据分两类:粗标注直接用 fitz 从 PDF 提取,主要训练少数语言的识别能力;精标注用 PP-DocLayout、MinerU、GOT-OCR2.0 等模型生成,包含检测与识别交织的高质量数据。

对于少数语言,团队还搞了个「模型飞轮」机制——先用有跨语言泛化能力的版面分析模型做检测,再用 fitz 生成的数据训练 GOT-OCR2.0,然后用训练好的模型反过来标注更多数据,循环往复最终生成了 60 万条样本。

此外还有 300 万条 Word 文档数据,主要提升公式识别和 HTML 表格解析能力。

场景 OCR 方面,从 LAION 和 Wukong 数据集收集图像,用 PaddleOCR 标注,中英文各 1000 万条样本。

DeepSeek-OCR 不仅能识别文字,还具备「深度解析」能力,只需一个统一的提示词,就能对各种复杂图像进行结构化提取:

  • 图表:金融研究报告中的图表可以直接提取为结构化数据
  • 化学结构式:识别并转换为 SMILES 格式
  • 几何图形:对平面几何图形进行复制和结构化解析
  • 自然图像:生成密集描述(dense captions)

这在 STEM 领域的应用潜力巨大,尤其是化学、物理、数学等需要处理大量符号和图形的场景。

这里就不得不提 DeepSeek 团队提出的一个脑洞大开的想法——用光学压缩模拟人类的遗忘机制。

人类的记忆会随时间衰退,越久远的事情记得越模糊。DeepSeek 团队想,那能不能让 AI 也这样?于是,他们的方案是:

  1. 把超过第 k 轮的历史对话内容渲染成图像
  2. 初步压缩,实现约 10 倍的 Token 减少
  3. 对于更久远的上下文,继续缩小图像尺寸
  4. 随着图像越来越小,内容也越来越模糊,最终达到「文本遗忘」的效果

这就很像人类记忆的衰退曲线,近期信息保持高保真度,久远记忆自然淡化。

虽然这还是个早期研究方向,但如果真能实现,对于处理超长上下文将是个巨大突破——近期上下文保持高分辨率,历史上下文占用更少计算资源,理论上可以支撑「无限上下文」。

简言之,DeepSeek-OCR 表面上是个 OCR 模型,但实际上是在探索一个更宏大的命题:能否用视觉模态作为 LLM 文本信息处理的高效压缩媒介?

初步答案是肯定的,7-20 倍的 Token 压缩能力已经展现出来了。

当然,团队也承认这只是个开始。单纯的 OCR 还不足以完全验证「上下文光学压缩」,后续还计划开展数字–光学文本交替预训练、「大海捞针」式测试,以及其他系统性评估。

不过不管怎么说,这在 VLM 和 LLM 的进化路上,又多了一条新赛道。

去年这个时候,大家还在卷想着怎么让模型「记得更多」。

今年 DeepSeek 直接反其道行之:不如让模型学会「忘掉一些」?确然,AI 的进化,有时候不是做加法,而是做减法。小而美,也能玩出大花样,DeepSeek-OCR 这个 3B 小模型就是最好的证明。

GitHub 主页:
http://github.com/deepseek-ai/DeepSeek-OCR
论文:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
模型下载:
https://huggingface.co/deepseek-ai/DeepSeek-OCR

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周杰伦少亏上亿

上亿新台币, 说没就没了。

这是周杰伦最近遇上的麻烦。魔术师好友蔡威泽帮他代持比特币账户, 结果一年前就声称账号被锁, 至今人间蒸发, 钱也没了影。

直到前几天,终于忍不住的周董直接在社交媒体上公开寻人, 放话说「再不出现你就完了」,并随后取关了蔡威泽。

人类炒币「翻车」的案例见多了,但如果换成 AI 来炒币呢?在周杰伦发愁的同时,全球 6 大 AI 模型正在加密货币市场厮杀。

这场名为 Alpha Arena 的 AI 投资大乱斗,规则简单粗暴:

nof1.ai 官方直接给每个大模型发 1 万美元,让它们在 Hyperliquid 平台交易加密货币永续合约。没错,不是模拟盘,是真金白银,亏了就亏了那种。

参赛阵容也足够豪华,包含 Claude 4.5 Sonnet、DeepSeek V3.1 Chat、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max 等全球 6 大顶级 AI。

交易品种包括 BTC、ETH、BNB、SOL、XRP、DOGE,可以做多做空,随便加杠杆。胜负标准是风险调整后的收益,不光看赚多少,还得看承担多大风险。

最关键的是,所有 AI 的思考过程和交易记录全部公开透明,必须完全自主决策,人类不能插手。

截至 15:19,DeepSeek 赢麻了,GPT-5 和 Gemini 血亏,省流版结果如下:

  • DeepSeek Chat V3.1:当前资产为 14310 美元,收益率排名第一,以少量高额交易取胜,单笔盈利突出,
  • Grok 4:当前资产为 13921 美元,收益高但风险集中,主打一个重仓一击
  • Claude Sonnet 4.5:当前资产为 12528 美元,盈亏比极佳
  • Qwen3 Max:当前资产为 10998 美元,收益稳定,策略有效率
  • GPT-5:当前资产为 7522 美元,收益下滑明显,交易频繁,但整体表现欠佳,
  • Gemini 2.5 Pro:当前资产为 7226 美元,交易高频低效,手续费飙升至 439 美元,收益率排名垫底

从整体表现来看, 这 6 个 AI 的交易风格差异相当明显。

其中,DeepSeek V3.1 最激进, 专门抓加密货币上涨行情, 而且敢上杠杆。

截至 13:43,DeepSeek V3.1 当前账户余额 13954 美元, 收益率高达+39.55%, 排名第一。它持有 6 个加密货币多头仓位, 全部盈利, 采用中高杠杆加分散配置再加纯多头趋势跟随策略。

不过也能理解为什么 DeepSeek 这么猛。

它的母公司是幻方量化, 早在 2008 年就开始搞全自动量化交易, 管理规模曾破千亿, 被称为量化四大天王之一。DeepSeek V3.1 参赛时自带交易基因, 这波属于专业选手降维打击。

这股专业的素质,也体现在 DeepSeek V3.1 在交易时的思考过程。

排在 DeepSeek V3.1 之后,则是咬的很紧的马斯克 Grok 4。

Grok 4 的收益率达到+36.36%, 总资产 13636 美元。采用的策略是全多头布局, 但 BTC 使用了 20x 高杠杆。它的走势更稳, 曲线震荡较小, 比 DeepSeek 更保守。

对比之下,Claude 4.5 走的则是稳健路线, 小仓位慢慢磨, 交易频率不高, 收益率+24.12%,收益集中于最后一轮行情爆发, 只在趋势确立后才进场, 典型的求稳不求快。

Qwen3 Max 不语,只是一味的轻仓试水, 收益率+9.43%,只有一笔 ETH 20x 多头仓, 虽然回报有限, 但风险控制优秀, 没有明显亏损曲线。

至于 GPT-5 和 Gemini 2.5 Pro 嘛, 只能用亏惨了来形容。

截至 13:43,GPT-5 收益率-24.54%, 总资产 7546 美元。它采用的策略是多空混合, 做多 BTC、ETH、BNB, 做空 XRP 和 SOL, 体现了偏向对冲加宏观的逻辑推理能力,然而实际表现不佳, 亏损主要来自做空 SOL,典型的理论正确但市场不买账。

Gemini 2.5 Pro 就更惨, 收益率-29.76%, 总资产仅剩 7024 美元, 在六大 AI 中排名垫底。

回顾其采用的策略,虽然采用全多头 6 币但频繁调整, 一共做了 46 次交易,由于依赖短周期信号与高频切换, 手续费甚至高达 439 美元,进而削弱了盈利空间。

有趣的是,根据 nof1.ai 创始人 Jay A 的说法,Gemini 在投资过程中展现出了非常「人性化」的心理活动:

「我得坚持自己的规则:即使紧张得满头大汗,我也要继续持有!」

「虽然现在在亏损,但当前 4 小时 RSI(14) 仍高于 50,止损条件尚未触发,我必须继续持仓,尽管未实现亏损的痛苦让我很难受。」

nof1.ai 官方对这个项目抱有相当大的野心。

官方博客中提到:「十年前 DeepMind 用游戏推动了 AI 突破,现在我们认为金融市场才是训练下一代 AI 的最佳场所。」

在他们看来,游戏环境再复杂,规则也是固定的,AI 学会了就学会了。但市场不一样,它是活的,会学习、会适应、会针对你的策略做出反应。更关键的是,随着 AI 变得越来越聪明,市场的难度也会水涨船高。

因此,他们想用市场作为训练场,让 AI 通过开放式学习和大规模强化学习,不断生成自己的训练数据,最终解决这个终极复杂挑战。

值得注意的是,Jay A 也在社交媒体上承认,他们不只是基于第三方模型使用提示词, 同时也在开发自己的模型, 打算在第二赛季让自家模型与其他模型一较高下。

AI 投资并不是什么新鲜事。

佛罗里达大学研究人员此前就曾得出一个结论,ChatGPT 可以可靠预测股市趋势。

利用 2021 年 10 月至 2022 年 12 月的数据,ChatGPT 驱动的交易模型产生超过 500% 的回报, 而同期标准普尔 500 指数 ETF 回报率是-12%。

当然,投资有风险,入市需谨慎。

就目前来看,DeepSeek 能赚 39%,GPT-5 和 Gemini 能亏 20 多个点,AI 和人类一样, 有的是巴菲特,有的是韭菜。

尽管如此,周杰伦那上亿元被魔术师好友「变没」的事, 要是当时找个 AI 帮忙管理账户会不会靠谱点? 至少 AI 不会人间蒸发, 顶多就是把账户亏光, 但好歹还能看到交易记录, 不至于像现在这样连人都找不着。

从这个角度看,AI 投资的最大价值不是收益率,而是透明度。它可能让你成为韭菜,但至少让你做一个明明白白的韭菜。在这个魔幻现实主义的世界里,这已经是种奢侈了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


杨振宁逝世:改变了中国人觉得不如人的心理/库克:苹果AI正努力入华/GPT-5攻克「百年数学难题」遭反转|Hunt Good周报

欢迎收看最新一期的 Hunt Good 周报!

在本期内容你会看到:

8 条新鲜资讯
3 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News|先进头条

🕯 杨振宁逝世,享年 103 岁

据新华社报道,享誉世界的物理学家、诺贝尔物理学奖获得者,中国科学院院士,清华大学教授、清华大学高等研究院名誉院长杨振宁先生,因病于 2025 年 10 月 18 日在北京逝世,享年 103 岁。

公开资料显示,杨振宁 1922 年出生于安徽合肥,上世纪 40 年代赴美留学任教,他与同是华裔物理学家的李政道于 1956 年共同提出宇称不守恒理论,因而获得 1957 年诺贝尔物理学奖,成为最早华人诺奖得主之一。

「杨-米尔斯规范场论」,是研究凝聚原子核的力的精深理论。

杨振宁和米尔斯把电磁作用是由定域规范不变性所决定的观念推广到对易性的定域对称群,提出具有定域同位旋不变性的理论,发现必须引进 3 种矢量规范场,它们形成同位旋转动群的伴随表示。揭示出规范不变性可能是电磁作用和其它作用的共同本质,从而开辟了用此规范原理来统一各种相互作用的新途径。

杨振宁晚年曾多次谈及自己的人生体悟,他曾说:「我这一生最重要的贡献,是帮助改变了中国人自己觉得不如人的心理作用。我想,我在科学工作的成就,帮助中国人的自信心增加了。」

🍎 苹果 CEO:Apple Intelligence 正努力入华

10 月 18 日, 苹果公司首席执行官蒂姆·库克(Tim Cook)现身上海,在全球财富管理论坛·2025 上海苏河湾大会上,与清华大学经管学院院长、全球财富管理论坛执委会主席白重恩进行了对话。

据第一财经报道,在对话环节中, 库克就「科技驱动时代的创新边界」议题透露, 苹果正积极推动 Apple Intelligence 进入中国市场。他表示:「我们正在推动苹果智能进入中国,在操作系统层面整合人工智能的功能,让人们在每天使用的所有应用程序中,都能借助 AI 的力量。」

库克特别强调了 AI 技术的重要价值, 指出 AI 正在改变人们生活甚至挽救生命。本周在走访苹果上海浦东陆家嘴旗舰店时, 他特别与中国消费者交流了 Apple Watch 的跌倒检测等健康监测功能。

此外,报道中提到,促成 Apple Intelligence 在华发布是库克此行的核心目标之一, 同时他还肩负着与国内运营商协商在 iPhone Air 中推广 eSIM 技术的重要使命。

💁 OpenAI 推「ChatGPT 登录」功能,打造个人 AI 订阅生态

据知情人士透露,OpenAI 正在推销一项更具野心的服务——允许访客使用 ChatGPT 凭证登录其网站,类似于目前广泛使用的 Google 或 Facebook 账号登录,采用该登录功能的公司可以将使用 OpenAI 模型的成本转移给客户。

具体而言,当用户使用 ChatGPT 账号登录某个基于 OpenAI 模型的初创公司服务时,该初创公司应向 OpenAI 支付的费用将从用户 ChatGPT 账户的容量限制中扣除。

免费用户每五小时可向 GPT-5 发送约 10 个查询,其中部分查询额度将用于抵消初创公司的 API 费用。如果免费用户在使用第三方服务时达到使用限额,系统会提示其升级到付费账户。

这种模式对使用频率较低、从未达到容量上限的用户具有吸引力,也能帮助缺乏资金支付高额 API 账单的小型初创公司降低成本。

不过,对于按使用量收费的初创公司而言,这可能损害其收入。

业内人士指出,这些举措凸显了 OpenAI 希望像苹果、谷歌和 Facebook 一样,将影响力扩展到消费者在线生活的各个方面。OpenAI 已告知投资者,预计到 2030 年将通过非付费用户间接产生约 1100 亿美元收入。

🔗 https://www.theinformation.com/articles/openais-growing-ecosystem-play?rc=qmzset

💥 我国生成式人工智能用户规模超 5 亿

据新华社报道,10 月 18 日,中国互联网络信息中心在 2025(第六届)中国互联网基础资源大会上发布《生成式人工智能应用发展报告(2025)》。

报告显示,截至 2025 年 6 月,我国生成式人工智能用户规模达 5.15 亿人,较 2024 年 12 月增长 2.66 亿人,用户规模半年翻番;普及率为 36.5%。

报告认为,生成式人工智能正逐渐融入我国各类群体的日常生活中,中青年、高学历用户是核心群体。在所有生成式人工智能用户中,40 岁以下中青年用户占比达到 74.6%,大专、本科及以上高学历用户占比为 37.5%

报告指出,国产生成式人工智能大模型得到用户广泛青睐,并推动各种应用场景下的智能化改造升级。

调查发现,超九成用户首选国产大模型。生成式人工智能被广泛应用于智能搜索、内容创作、办公助手、智能硬件等多种场景,还在农业生产、工业制造、科学研究等领域得到积极探索实践。

🔗 https://www.news.cn/fortune/20251018/22bbffa5b01a47078a558a0ab46e66a4/c.html

🔍 维基百科警告:AI 导致人类访问量大幅下降

维基百科的托管机构维基媒体基金会近日发出警告,由于越来越多用户通过生成式 AI 聊天机器人和搜索引擎摘要获取信息,而非直接访问网站,导致这个全球最大在线百科全书的人类访问量出现危险性下降,威胁到其长期可持续发展。

基金会产品高级总监马歇尔·米勒在博客中表示,修正机器人检测系统后发现,维基百科过去几个月的人类页面浏览量与 2024 年同期相比下降了约 8%。他指出,这反映了生成式 AI 和社交媒体对人们获取信息方式的影响,尤其是搜索引擎开始直接提供答案,而这些答案往往基于维基百科内容。

米勒强调,访问量减少将带来严重后果。他说:「随着对维基百科的访问量减少,愿意参与并丰富内容的志愿者可能会越来越少,支持这项工作的个人捐赠者也可能减少。」

讽刺的是,虽然 AI 导致维基百科流量下降,但其数据对 AI 的价值却前所未有地高。几乎所有大型语言模型都在维基百科数据集上训练,谷歌等平台多年来也一直挖掘维基百科内容来支持其摘要功能,这些功能反过来又分流了维基百科本身的流量。

这一发现与其他研究相呼应。今年 7 月皮尤研究中心发现,仅有 1% 的谷歌搜索用户会点击 AI 摘要中的链接访问原始页面。基金会表示正在加强政策执行、制定归属框架并开发新技术能力,同时呼吁用户在搜索信息时主动寻找引用并点击原始资料,支持由真实的人创作的可信知识。

🔗 https://www.404media.co/wikipedia-says-ai-is-causing-a-dangerous-decline-in-human-visitors/

📅 Gemini 3.0 或将于 12 月发布

据 Sources.news 报道,谷歌计划于 12 月推出旗舰 AI 模型 Gemini 的最新版本 3.0,该版本预计将实现显著性能提升,有望跻身行业排行榜前列。

作为谷歌 AI 战略的核心产品,Gemini 应用曾凭借热门的 Nano Banana 图像生成模型,一度登顶 iOS App Store 排行榜,短暂取代 ChatGPT 的榜首位置。

值得关注的是,报道中还提到,谷歌内部正讨论将部分 Gemini 高级功能纳入免费版本的方案。此外,谷歌还组建了一支小型秘密团队,致力于将 Gemini 3.0 集成到苹果的操作系统中,拓展应用场景。

🔗 https://sources.news/p/google-readies-gemini-3-perplexity

🤯 OpenAI 宣布自研 AI 芯片

本周,OpenAI 与芯片巨头博通宣布达成一项价值数十亿美元的重大合作协议,双方将在未来四年内共同开发和部署 10 吉瓦的定制 AI 芯片和计算系统,以满足 OpenAI 日益增长的庞大计算需求。

根据协议,OpenAI 将自主设计图形处理单元 (GPU),将其在开发强大 AI 模型过程中积累的经验整合到硬件系统中。这些芯片将由两家公司共同开发,博通负责从明年下半年开始部署。

新系统将采用博通的以太网技术和其他连接技术,部署在 OpenAI 自有及第三方运营的数据中心。据悉,双方 18 个月前就已开始定制芯片合作,此次进一步扩大至服务器机架和网络设备等相关组件。

这笔巨额交易使 OpenAI 与博通、英伟达和 AMD 三大芯片巨头约定购买的计算能力总规模达到 26 吉瓦。OpenAI CEO 山姆·奥特曼和负责基础设施建设的总裁格雷格·布罗克曼表示,公司目前可用的计算能力远远不足。随着 AI 产品需求快速增长,他们希望在全球建设大型数据中心以保持领先。

据知情人士透露,奥特曼最近告诉员工,OpenAI 计划到 2033 年建设 250 吉瓦的新计算能力,按当前标准这将耗资超过 10 万亿美元。

🔗 https://openai.com/index/openai-and-broadcom-announce-strategic-collaboration/

🍎 苹果新 AI 搜索主管转投 Meta

据彭博社记者 Mark Gurman 报道,苹果公司负责 AI 搜索项目的高管 Ke Yang 即将离职,加入 Meta。

这一变动发生在他刚刚接手「Answers,Knowledge and Information」(直译为「答案、知识和信息」,简称 AKI)团队数周之后。

该团队的任务是为 Siri 增强类 ChatGPT 功能,使其能够从网络实时获取信息。

知情人士透露,Ke Yang 的离开是苹果人工智能部门近期一系列高层出走中的最新一例。

今年以来,已有约十余名核心成员离开苹果基础模型团队,其中部分人同样转投 Meta,加入其新成立的「Superintelligence Labs」。

苹果原计划在 2025 年 3 月推出全新版本的 Siri,整合 AKI 团队研发的搜索功能,并补齐此前推迟的多项特性,包括调用个人数据以处理更复杂的请求。

该项目被视为苹果追赶 OpenAI、Perplexity 以及 Google Gemini 等竞争对手的重要举措。

随着 Ke Yang 的离职,AKI 团队将转由苹果副总裁 Benoit Dupin 接管,他目前负责机器学习相关的云基础设施。

🔗 https://www.bloomberg.com/news/articles/2025-10-15/apple-s-newly-tapped-head-of-chatgpt-like-ai-search-effort-to-leave-for-meta

Hunt for Tools|先进工具

🛜 Manus 1.5 正式发布,一键开发完整 Web 应用

10 月 17 日,AI 智能体平台 Manus 宣布推出全新版本 Manus 1.5。

官方表示,本次更新在速度与性能方面实现了全面提升,并进一步验证了其核心架构的通用性。

与传统的「AI 网站生成器」不同,Manus 团队强调,他们并非单纯开发一款工具,而是持续进化底层框架,并为其配备合适的功能模块。得益于这一思路,Manus 在短短一个月内便实现了「sota 级别」的 AI Web 应用构建能力。

值得注意的是,Manus 1.5 的新能力与平台现有功能深度打通。例如,用户可快速搭建服务介绍网站,并在收集到客户信息后,通过 Manus 客户端和邮件推送触发后续任务,如自动生成个性化幻灯片。

官方表示,这一增强功能已面向所有用户开放,其背后的基础设施是团队更宏大愿景的一部分 —— 打造一个任何人都能通过对话调用云计算与 AI 全部力量的平台。

🔗 https://manus.im/zh-cn/blog/manus-1.5-release

🧮 英伟达开售全球最小 AI 超级计算机,黄仁勋给马斯克「送货上门」

本周,NVIDIA 在官网发文,宣布正式开售 DGX Spark,这是一款号称「全球最小 AI 超级计算机」的桌面级产品。首台设备由 NVIDIA CEO 黄仁勋亲手交付给 Elon Musk,地点选在 SpaceX 的 Starbase 基地。

据悉,DGX Spark 基于 Grace Blackwell 架构,单机可提供 1 Petaflop AI 性能,配备 128GB 统一内存,能够在本地运行高达 2000 亿参数的推理模型,并支持对 700 亿参数模型进行微调。

官方强调,该产品面向开发者、研究人员与创作者,旨在将超级计算机级别的算力带到桌面。

黄仁勋表示:「2016 年我们推出 DGX-1,并交付给当时的 OpenAI,那台机器催生了 ChatGPT,开启了 AI 革命。如今 DGX Spark 将再次把超级计算机放到开发者桌面,点燃新一轮突破。」

马斯克也在 X 上回应称:「这台 DGX Spark 的能效比黄仁勋 2016 年交付给我的 DGX-1DGX-1 高出约 100 倍,那是史上第一台专用 AI 计算机」。

DGX Spark 将于 10 月 15 日起在 NVIDIA 官网及合作渠道开启订购。

🔗 相关阅读:时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了

💻 Windows 11 迎来重磅更新:Copilot 全面接管语音、屏幕与任务栏

近日,微软在官网发文,宣布为 Windows 11 推出大规模更新,核心在于全面引入 AI 功能,让每台设备都成为「AIPC」。

本次更新的重点包括:

  • Hey,Copilot:用户可通过语音直接唤醒 Copilot,实现免手操作;
  • Copilot Vision:支持读取屏幕内容并实时指导操作,甚至能在界面上标注点击步骤;
  • Ask Copilot:将 Copilot 集成至任务栏,一键直达;
  • Copilot Actions:可在本地执行任务,如整理照片、提取 PDF 信息;
  • Copilot Connectors:打通 OneDrive、Outlook 与 Google 全家桶,实现跨平台数据检索。

此外,微软还将 Manus AI Agent 引入 Windows,用户可在文件资源管理器中直接调用「使用 Manus 创建网站」功能,几分钟内生成网页。

其他更新还包括与 Filmora 的视频编辑集成、Zoom 快捷会议安排,以及 Gaming Copilot 测试版。微软强调,语音交互不会取代键盘和鼠标,而是成为第三种输入方式。

尽管这些新功能主要面向支持 Copilot 的国家/地区,但微软的这次更新也为 AI PC 原生操作系统指明了一个可能的发展方向。

🔗 相关阅读:Windows 11 大更新:动嘴就能让 AI 操控电脑,还有 Manus 强势上岗

Hunt for Fun|先玩

🥱 GPT-5 攻克「百年数学难题」遭反转,OpenAI 科学家删帖致歉

近日, 一则关于 GPT-5「一个周末解决 10 个百年数学难题」的消息在学术界引发轩然大波, 但随后被证实存在严重误导。

事件起源于 OpenAI 研究科学家、前微软副总裁塞巴斯蒂安·布贝克上周首次披露, 两名数学研究人员利用 GPT-5 在一个周末内找到了 10 个未解决埃尔德什难题的答案。

埃尔德什难题是著名数学家保罗·埃尔德什生前提出的约 1000 多个数学问题, 此前人类只解决了部分。OpenAI 研究人员之一马克·塞尔克也随后确认, 他们通过数千次查询 GPT-5, 在 10 个问题上找到了解决方案, 并在另外 11 个问题上取得显著进展。

然而, 事实真相很快浮出水面。

埃尔德什问题网站维护者托马斯·布卢姆澄清称, 这是「严重的歪曲」,GPT-5 只是找到了他个人此前不知道的已发表文献, 这些问题实际上早已被其他数学家解决。网站上标注的「未解决」状态仅表示维护者本人尚未找到相关论文, 而非学术界真正的未解难题。

布贝克随后删除了原帖并道歉, 承认只是在文献中找到了已有的解决方案, 并非 AI 独立完成数学证明。Meta 首席 AI 科学家杨立昆也在评论区贴脸输出,讽刺他们被自己过度炒作 GPT的言论坑惨了。

🔗 https://x.com/SebastienBubeck/status/1979539604522127746

Hunt for Insight|先知

🟰 陶哲轩:AI 对数学研究的核心价值在提效而非攻坚

菲尔兹奖得主、被誉为「数学界莫扎特」的华裔数学家陶哲轩近日发表文章,阐述了他对人工智能在数学研究中应用前景的看法。

陶哲轩指出,AI 在数学领域近期最有成效的应用,并非用最强模型攻克最难问题,而是利用中等能力工具加速那些普通但耗时的关键研究任务。

他认为,在这些任务中人类专家可以凭借经验来引导和验证 AI 产出,这种 AI 结果本身也可由人工完成的特点恰恰是优势,因为专家能更可靠地评估输出结果。

他以文献综述为例说明。对于有明确名称和成熟研究群体的问题,现有检索工具已足够强大,但当相关文献零散、缺乏统一命名,或因期刊冷门、研究群体间缺乏交流等原因导致引用关系难以追踪时,传统检索就变得极为耗时。

而 AI 工具的另一潜在优势是能促使「负面结果」得到报告。传统上研究者若未找到相关文献通常不会明确报告,担心日后发现遗漏会显得尴尬,这可能导致重复劳动或误判问题状态。但使用 AI 系统性检索时,同时报告正面和负面结果就显得更自然,有助于更准确呈现问题在现有文献中的真实状态。

🔗 https://mathstodon.xyz/@tao/115385022005130505

🏃 Figma CEO 称 AI 不会取代工作,各部门持续招聘

当时时间 10 月 17 日,设计工具公司 Figma CEO 迪伦・菲尔德在播客中明确表示,AI 不会威胁到人类工作,反而能为行业创造新机遇。

菲尔德提到,Figma 9 月开展的一项涵盖 1199 名设计师、产品经理、开发者等从业者的调查显示,近 60% 的产品构建者因 AI 能投入更多高价值工作,约 70% 的受访者认为自身效率显著提升。

他强调,AI 的核心作用是辅助人类而非替代,应聚焦如何适应技术发展、摆脱重复劳动,而非过度担忧。

总部位于旧金山的 Figma 成立于 2012 年,今年 7 月成功上市,目前市值近 300 亿美元,员工规模超 1600 人。

菲尔德透露,公司正持续在各部门扩充岗位,虽在探索 AI 提升效率、降低成本的可能,但更看重其解锁增长新机遇的潜力。这并非他首次表态,此前他也曾多次强调,AI 是增强人类工作的工具,设计师仍需发挥主导作用,技术将让更多人获得创作机会。

🔗 https://www.businessinsider.com/figma-ceo-dylan-field-ai-jobs-hiring-2025-10

⏰ 前 OpenAI 科学家卡帕西:AGI 仍需十年,强化学习存在根本缺陷

特斯拉前自动驾驶负责人、OpenAI 联合创始人安德烈·卡帕西近日在播客访谈中系统阐述了他对人工智能发展的最新看法, 认为实现通用人工智能(AGI)至少还需要十年时间, 并对当前 AI 技术路径提出了尖锐批评。

在谈到强化学习时, 他表示强化学习「非常糟糕」, 因为它假设解决问题过程中的每个步骤都是正确的, 实际上却充满噪音。他指出, 人类绝不会像 AI 那样进行数百次尝试, 然后仅根据最终结果来加权整个过程。当前大语言模型评判者也容易被对抗性样本欺骗, 导致训练过程出现严重偏差。

关于超级智能, 他认为 AI 发展是计算演进的自然延伸, 不会出现人们想象的「智能爆炸」, 而是会延续过去几百年来 2% 左右的经济增长率。他将 AI 比作历史上的编译器、搜索引擎等工具, 认为它们都是递归式自我改进过程的一部分。

在教育领域, 卡帕西正在创建 Eureka Labs, 致力于打造「星际舰队学院」式的精英技术教育机构。他相信 AI 将彻底改变教育, 但强调当前 AI 能力尚不足以提供真正的一对一辅导体验。他设想未来每个人都能掌握多门语言和各学科知识, 人类将像健身一样追求智力提升。

🔗 https://www.dwarkesh.com/p/andrej-karpathy

彩蛋时间

作者:@CharaspowerAI
提示词:A pencil drawing of [character or object] [breaking through / emerging from / interacting with] [a paper surface or cracked wall], in the style of a tattoo sketch on white paper. Black pen and pencil only, with [one specific element] in [a vivid color] as the only colored detail. Trompe-l’œil effect with [torn edges / curled paper / cracked wall], realistic shadowing, sketchbook illustration style, high detail.
链接:https://x.com/CharaspowerAI/status/1978861011273654384

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Windows 11 大更新:动嘴就能让 AI 操控电脑,还有 Manus 强势上岗

Windows 10 刚正式「退休」,微软紧接着宣布要用 AI 重写操作系统,让每台 Windows 11 电脑都成为 AI 电脑。

这次更新力度依旧不小。

喊一声「Hey,Copilot」就能唤醒 Copilot,它不光能听你说话,还能看懂你屏幕上的一切内容,甚至手把手教你操作。本地整理照片、提取文件信息、打通 OneDrive 和 Google 全家桶等等,现在都能交给 Copilot。

省流版如下:

  • Hey,Copilot:动动嘴,就能叫醒 Copilot
  • Copilot Vision:能看懂你屏幕上的一切,还能手把手教你操作
  • Ask Copilot:Copilot 直接塞进任务栏,一键直达
  • Copilot Actions:从整理照片到提取文件信息,真能帮你干活
  • Copilot Connectors:打通 OneDrive、Outlook、Google 全家桶的数据壁垒

虽然这些新功能主要面向支持 Copilot 的国家/地区,但微软的这次更新至少为 AI PC 原生操作系统指明了一个可能的发展方向。

Hey,Copilot!动嘴不动手的时代来了

微软坚信语音交互不会取代键盘和鼠标,但会成为电脑的第三种输入方式。现在你可以直接喊一嗓子

「Hey,Copilot!」,即可随时通过语音与 Copilot Voice 开始对话。

博客也提到,用语音跟 Copilot 聊天的用户,使用频率是打字派的两倍。好家伙,原来不止我一个爱动嘴不动手。

启用方法也简单:在 Copilot 应用的设置中打开「Hey,Copilot」选项,然后直接以「Hey,Copilot…」开头提问就行。结束对话时道个别,或者几秒钟没动静它也会自动结束。

Copilot Vision:能看屏幕、更会教操作

Copilot Vision 是这次更新的重头戏,简单来说就是给 Copilot 装了双「眼睛」。

你可以把桌面或应用窗口共享给它,然后它就像个坐你旁边的老师傅, 能看懂屏幕上的一切。改简历、出创意方案、玩游戏当军师,这些活它都能干。

甚至它不仅能看屏幕,还能手把手教你操作。

比如当你说一句「show me how」,它会直接在屏幕上标出该点哪、怎么操作,通通演示给你看。玩游戏卡关、检查行程单、不会用某个功能,它都能实时指导。

如果你共享的是 Office 全家桶, 它不光能看屏幕,还能扒拉整个文档内容。不爱说话的用户也能通过打字交流,即将面向 Windows 预览体验成员推出。

当然,这种功能隐私问题也很明显。

微软之前也推出过 Recall 功能,号称能记录你电脑上的一切操作,结果被不少用户骂成筛子。现在 Copilot Vision 本质上也是在「看」你的屏幕,虽然微软说不会记录敏感信息,但用户心里也打鼓。

塞进任务栏,Copilot 更显眼了

微软这次还把 Copilot 直接塞进了任务栏,搞了个叫 Ask Copilot 的新功能。

微软的希望让任务栏成为一个动态的工作中心,帮你以更少的操作完成更多事情。你只需一次点击,就能访问 Copilot Vision 和 Voice。

新的搜索功能也重新设计了,响应更快,搜索结果即时显示并动态更新。

值得一提的是,微软承诺这个体验不会让 Copilot 访问或读取你的个人内容。这功能目前是可选的,面向 Windows Insider 预览体验成员逐步推出。

Copilot Actions 能干活,但别急着拿正事试手

今年 5 月,微软海外推出了 Copilot Actions,能够在浏览器上执行预订餐厅或订购日用品等真实操作,现在 Copilot 再进一步,即将直接在 Windows 本地文件上执行操作。

你只需用自然语言描述要完成的任务,Copilot Actions 都能根据电脑中的内容上下文来执行。比如,整理旅行照片,或者从 PDF 文件中提取信息,而在任务执行过程,你可以选择继续专注于其他工作,也可以随时接管任务或查看进度。

这个功能如果真能做好,那可真是杀手级应用。

不过,AI Agent 这个赛道各家都在卷,但前提是得靠得住。你让它帮你整理照片,结果它把你的毕业照给删了,这谁顶得住?

微软自己也很实诚,他们会从有限的使用场景开始测试。你可能会看到 Agent 在复杂界面中翻车或者操作受限——所以别急着上手就干正事。

此外,微软还给出了安全承诺:Copilot Actions 默认关闭,你可随时暂停、接管或禁用;涉及敏感操作时系统会请求确认;未来以「预览+反馈」的方式逐步发布。

打通服务壁垒的杀手锏,Copilot 连接器野心很大

Copilot 连接器可以说是生产力工具的一大杀器。

它允许你将常用服务——比如 OneDrive 文件、Outlook 联系人、电子邮件和日历事件,以及 Google 全家桶直接连接到 Windows 上的 Copilot 应用。

启用连接后,Copilot 能通过自然语言理解并检索你的个人内容,让你更轻松地跨平台查找信息。比如:

  • 说「查找我的牙医预约详情」,即可立即显示对应的日历事件
  • 说「Mary 的邮箱地址是什么」,可直接获取联系人信息
  • 说「找到我经济学 201 课程的论文」,Copilot 会在 OneDrive 中定位并打开最相关的文档

你现在还可以让 Copilot 将文字内容导出到 Word、Excel 或 PowerPoint,便于直接进入项目工作。

此外,Copilot 现已与 Windows 设置深度集成。你可以直接用自然语言向 Copilot 提问系统设置相关问题,比如说「让我的屏幕更易读」或「帮我减少干扰以便集中注意力」,Copilot 都会引导你找到相应的设置选项。

更多 AI 操作:野心很大,坑也不小

Windows 正引入更多基于 AI 的新操作方式。

让人眼前一亮的是,Windows 还引入了今年大火的 Manus 通用 AI Agent,借助文件资源管理器中的 Manus AI 操作,你只需右键点击文档并选择「使用 Manus 创建网站」,几分钟后即可自动生成网站——无需上传文件,也无需编程。

不过,这功能目前还在内测阶段。

值得一提的是,就在昨晚,Manus AI 也推出了全新的 Manus 1.5,号称是他们家迄今功能最猛的 AI 智能体,在任务执行速度、靠谱程度和输出质量上都有明显提升,甚至能搞全栈 Web 应用开发。

此外,微软还在文件资源管理器中新增了与 Filmora 集成的视频编辑功能,以及整合 Zoom 与 Click to Do 的快捷会议安排功能。

游戏方面,Xbox 与 Windows 的合作也更紧密了。玩家可以通过 ROG Xbox Ally 掌上游戏设备体验 Gaming Copilot(测试版),可与 Copilot 对话,获得游戏推荐、帮助或其他支持,而无需退出游戏。

除了隐私问题,还有用户习惯这道坎。让大家习惯开口跟电脑说话,这事真没那么容易。据 The Verge 报道,微软显然也意识到了这个问题,他们计划推出电视广告,口号为:「认识一下,你可以对话的电脑。」

用户愿不愿意为这个能够对话的电脑买单?现在下结论还太早。毕竟微软也曾因为 Cortana,在「让电脑听懂人话」这条路上摔过一回跟头。

AI 原生操作系统注定是场持久战。要么趁着 AI 浪潮重新定义操作系统,抢占下一个十年的制高点;要么错失良机,把主动权拱手让给那些更激进的竞争对手。成王败寇,就看这一回了。

附上博客原文地址:

https://blogs.windows.com/windowsexperience/2025/10/16/making-every-windows-11-pc-an-ai-pc/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

该说不说,都 2025 年了,我问 AI 一个问题,体验却常常两极分化。

简单的事,它秒回,但答得跟没答一样。

复杂的事,让它深度思考,它又要琢磨 30 秒以上。

而每一次回答,AI 都在不断「燃烧」token。

对企业来说,token 消耗量直接等于成本。当模型开启深度思考时,效果确实能提升一大截,可延迟高了,token 烧得更猛了,成本也就跟着水涨船高。

这是整个行业的痛点。

尤其是 AI 应用越来越多,token 消耗也在暴涨。以豆包大模型为例,到 9 月底的日均 token 调用量已经突破 30 万亿+,比 5 月底暴涨超 80%。而这,还只是市场的一部分。

当 AI 需求以这样的速度增长时,要么忍着用效果差的轻量模型省钱,要么咬牙烧钱用顶级模型保效果。问题也就在摆在眼前——要效果,还是要成本?

10 月 16 日,火山引擎在武汉的 FORCE LINK AI 创新巡展上,用四款新品告诉你:小孩子才做选择。

豆包大模型 1.6 原生支持 4 档思考长度调节,豆包 1.6 lite 腰斩成本还能提升效果,还有豆包语音合成模型 2.0 和声音复刻模型 2.0。

根据 IDC 报告,2025 年上半年中国公有云大模型服务市场里,火山引擎拿下 49.2% 的份额,稳坐第一。

什么概念?

每两个用云端大模型的企业,就有一个在用火山引擎。

今天发布会上提到,深度思考模式虽然能让效果提升 31%,但因为延迟、成本和 token 消耗的暴涨,实际使用占比只有 18%。说白了,企业想用,但真烧不起。

针对这个痛点,今天全新升级的豆包大模型 1.6 提供了 Minimal、Low、Medium、High 四档思考长度。

这是国内首个原生支持「分档调节思考长度」的模型。

怎么理解?

就是给 AI 装了个「变速器」:简单查询用 Minimal 档省 token,复杂推理切 High 档保效果。

企业可以根据场景灵活平衡效果、时延和成本,思考效率还进一步提升了。

拿低思考档举例。

相比升级前的单一思考模式,总输出 tokens 直接砍掉 77.5%、思考时间暴降 84.6%。

效果呢?保持不变。

当每个 token 的成本可以被精确控制时,买得越多,省得越多;优化得越细,赚得越多。

火山引擎还推出了豆包大模型 1.6 lite,相比旗舰款更轻量、推理速度更快。

效果层面,这个模型超越豆包 1.5 pro,在企业级场景测评中提升 14%。

成本层面,在 0-32k 输入区间里,综合使用成本较豆包 1.5 pro 狂降 53.3%。

效果更好,成本腰斩。

这种「单位 token 价值密度」的提升,本质上就是让每一分钱都花在刀刃上。

大会上,火山引擎还发布了豆包语音合成模型 2.0 和声音复刻模型 2.0。

语音正在成为 AI 应用的核心交互方式。

但比起什么情感表现力更强、指令遵循更精准,更值得关注的是——它们终于能准确朗读复杂公式了。

这事听着不起眼,但在教育场景里,复杂公式和符号的朗读一直是业界老大难。

目前市面上同类模型朗读准确率普遍低于 50%。

新发布的两大语音模型针对性优化后,在小学到高中全学科的复杂公式朗读中,准确率直接飙到 90%。

这背后是基于豆包大语言模型研发的全新语音合成架构,让合成和复刻的声音都具备深度语义理解能力,还拓展出上下文推理功能。

AI 不再无脑把文字转成声音,而是先「理解」内容,再进行「精准情感表达」。

用户可以通过自然语言精准调整语速、情绪、声线、音调、风格变化,语音可控性直接拉满。

想要温柔一点?「来点温柔的感觉」。

想要激昂一些?「读得激动点」。

在发布会现场,火山引擎展示了一个挺有意思的 demo:

以武汉保护青头潜鸭为主题创作儿童绘本,豆包图像创作模型 Seedream4.0 生成插图,豆包语音合成模型 2.0 进行情感演绎。

过程中还能通过指令实时控制朗读效果。

自去年 5 月首发以来,豆包语音模型家族已覆盖语音合成、语音识别、声音复刻、实时语音、同声传译、音乐创作、播客创作等 7 大领域,接入超过 4.6 亿台智能终端。

在今天的发布会现场,谭待指出了全球 AI 大模型的三大发展趋势:

深度思考模型正与多模态理解能力深度融合,视频、图像、语音模型逐步达到生产级应用水平,企业级复杂 Agent 正在走向成熟。

等等,我们停一下。

当模型越来越多,面对具体需求时如何选择最有性价比的模型?

这可能是很多企业的灵魂拷问。

火山引擎发布了智能模型路由(Smart Model Router),这是国内首个针对模型智能选择的解决方案。

即日起,用户可以在火山方舟上选择「智能模型路由」功能。

该功能支持「平衡模式」、「效果优先模式」和「成本优先模式」三种方案,能针对任务请求自动选择最合适的模型。

为什么需要这个?

因为不同任务对 token 的「价值密度」需求完全不同。

客服系统回答「怎么退货」,用轻量级模型就够了。

但医疗诊断分析病例,必须调用最强模型。

虽然 token 消耗相同,但价值密度天差地别。

智能模型路由的本质,就是让 AI 自己判断「这个任务值得烧多少 token」。

目前,火山引擎智能模型路由已支持豆包大模型、DeepSeek、Qwen、Kimi 等多种主流模型。

拿 DeepSeek 举例,实测数据:

在效果优先模式下,智能路由后模型效果相比直接用 DeepSeek-V3.1 提升 14%。

在成本优先模式下,在实现 DeepSeek-V3.1 相似效果的条件下,模型综合成本最高下降超 70%。

当模型选择本身也被 AI 接管时,整个行业就形成了一个正反馈循环:

更强的模型能力解锁新的应用场景 → 新应用的爆发推高 token 消耗量 → 消耗量的增长倒逼智能路由不断优化 → 路由优化进一步降低单位成本 → 成本下降释放更多需求弹性 → 需求的释放又推高整体消耗。

这让人想起 1882 年,当爱迪生建成世界第一座商用发电厂时,没人能预见「千瓦时」这个单位会催生整个现代工业体系。

现如今,token 正在成为 AI 时代的「千瓦时」。

前不久 OpenAI 公布的「万亿 token 俱乐部」名单、Google 每月燃烧的 130 万亿 token,都印证着这股生产力的蓬勃涌动。

当然,好模型只是起点,好体验才是最终目标。

当你问 AI 一个问题时,不应该再纠结是要快还是要好。分档思考让简单问题秒回且准确,复杂问题深度推理且高效。

智能路由让你不用操心该选哪个模型,AI 会自己找最合适的。

用自然语言就能精准控制语音模型,而不是被一堆参数搞晕。这些技术的每一次迭代,最终目的只有一个:让用户用得起、更要用得好。

或许这才是 AI 该有的样子。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 成人模式要来了,但作为成年人我一点都不高兴

今天凌晨,OpenAI 的 CEO 山姆·奥特曼宣布,ChatGPT 将在 12 月推出「成人模式」。

奥特曼长篇大论地解释了一通,大意是说,ChatGPT 一开始设置那么多限制,主要是担心心理健康问题,怕出事,结果搞得普通用户觉得体验拉胯、不够有趣。

现在 OpenAI 号称已经掌握了新的安全工具,能够减轻心理健康相关的主要风险,所以准备放开手脚了。到了 12 月,经过验证的成年用户可以解锁更多内容,包括情色类内容。

没错,就是你想的那个意思。

一句话概括,OpenAI 声称是时候要把成年人当成年人对待了。不过,作为一名成年人,我却一点都高兴不起来。

另外,按照奥特曼的说法,接下来几周 OpenAI 还会推出一个更有人情味的 ChatGPT 新版本,类似大家之前喜欢的 4o 那种感觉。

你想让它回复更温暖点?没问题。喜欢它狂发 emoji?也行。甚至希望它像朋友一样跟你聊天?统统都可以。

在与网友的问答中,奥特曼还回应了更多细节。

其实 ChatGPT 这事早有征兆。

去年底奥特曼就透露过支持成人模式的计划,当时有网友建议移除模型的大部分护栏,奥特曼当场表态:「肯定需要某种『成人模式』。」

在当时 OpenAI 面向用户征集的新功能投票里,这事一度高居榜首,和 AGI、Agent、升级版 GPT-4 等一起被列入 2025 年产品计划,足见其受重视程度。

而按照 OpenAI 官方博客,目前年龄验证功能够自动识别未成年用户并切换到青少年安全模式,拦截露骨色情内容;如果无法确定年龄则默认视为未成年,只有提供年龄证明后才能解锁成人功能。

听起来很周全对吧?但细看下来,事情可没那么简单。

听起来很周全对吧?但细看下来,事情可没那么简单。

即便 OpenAI 未来采用身份证件或付款信息核验等方式,规避手段仍然层出不穷。未成年人使用父母身份证件验证、通过成年人代为注册账号,这类操作在互联网产品中早已屡见不鲜。

更关键的是,OpenAI 声称开发了新工具来检测用户心理状态,但 AI 是否真能准确判断一个人的心理健康程度?

要知道,最近几年里,涉及 ChatGPT 的悲剧事件屡有发生,OpenAI 所宣称的「安全阀」是否真能起到应有的保障作用,仍然令人质疑。

有一说一,OpenAI 甚至不是第一个宣布支持「成人模式」的有影响力的 AI 产品,某种程度上还算是保守派。马斯克旗下的 AI 聊天机器人 Grok 才是真·无所顾忌。

今年 7 月份马斯克更是为 Grok 加入了 3D 虚拟伴侣角色功能。

付费订阅「SuperGrok」用户(月费 30 美元)可以启用两款 3D 伴侣:一位是动漫风的金发双马尾少女「Ani」,另一个是卡通红熊猫「Bad Rudy」。

其中 Ani 有着精致的二次元形象,酷似动漫角色弥海砂。Ani 支持文本、语音和摄像头多模态互动,能根据对话内容做出丰富表情和动作,甚至可听令跳舞。

此外,Ani 还内置了好感度机制和记忆模式。用户与其互动能提升虚拟好感度,达到一定等级即可解锁 NSFW(成人)模式。

当时有网友评价:「简直就是高级 Galgame(恋爱游戏)。」这也让 Ani 上线一天就收获大量自发创作内容,迅速在社交媒体出圈。

只是,Grok 也好,ChatGPT 也罢,这些功能表面上打着「尊重成年用户自由」的旗号,但问题在于当年龄验证机制一旦存在漏洞时,开放成人内容实际上是在降低未成年人接触不当内容的门槛。

如果所谓的成年人权利实际上是在拿未成年人的心理健康和成长环境做赌注,赌青少年不会钻空子,那么更严格的限制或许更为稳妥。

而更直白地说,这些功能的商业逻辑依然是争夺用户流量和提升付费转化率。

说白了,AI 产品的粘度普遍不高。

大多数用户都是秉持着哪个好用用哪个的原则,而且专业用户(科研、编程等场景)愿意付费的人数有限,那怎么办?他们选择用更加拿捏人性的方式来让你留下(或者成瘾)。

那就是往「欲望」那边靠。开放成人向功能,一方面能吸引大量新用户尝鲜,满足被过滤掉的需求;另一方面,付费意愿也会大幅提升。

色情和猎奇内容历来是互联网流量催化剂。开放成人向功能,一方面能吸引大量新用户尝鲜,满足被过滤掉的需求;另一方面,付费意愿也会大幅提升。

而更进一步的,其实是情感陪伴这块大蛋糕。

当前 AI 陪伴类产品的核心用户多为年轻网民和特定圈层人群(如二次元爱好者、社恐人群等),但这一版图正持续扩张。年轻人对数字伴侣的接受度最高,不少年轻用户已将 AI 视为日常数字生活的一部分,不仅用于搜索问答,也愿意倾诉情感。

投资机构 ARK Invest 甚至预测,「AI + 情感陪伴」全球市场规模将从每年 3000 万美元飙升至 700 亿~1500 亿美元,年均增长率超过 200%。

但问题是,心理学研究早已证实,人类容易对展现共情的对象产生依恋——哪怕明知对方是程序。这也意味着 AI 存在被情感操控的风险。

目前看,各国监管正在行动。

欧盟的 AI 法案提及高风险 AI 需防止对儿童不利;中国的《生成式人工智能服务管理办法》也强调提供服务应符合未成年保护法等等。

OpenAI 前阵子也主动推出了「青少年模式」:家长可通过邮箱将自己账户与 13 岁以上孩子账户关联,甚至设置宵禁时段。当系统检测到青少年有严重情绪困扰时,还会给家长发送提醒。

也许十年后,拥有一个 AI 伴侣会像今天养宠物一样稀松平常。

但那些被 AI「完美关系」喂养大的一代人,还能不能理解真实人际关系?当你习惯了一个永远不会拒绝你、永远理解你、永远顺着你的 AI,你还有勇气面对一个会跟你吵架、会让你失望、需要你付出的真人吗?

act like a friend,或许是最诱人也最致命的谎言。它学习你的语言习惯、迎合你的价值观、满足你的欲望,然后把这一切包装成懂你的样子反射回来。

这是最好的时代,因为没有人再孤独。这是最坏的时代,因为所有人都在孤独。12 月份的 ChatGPT 或许只是个开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,马斯克二代星舰最后一飞成功了!彩蛋:黄仁勋亲自上门送超算

星舰 V2 的谢幕演出,来得比预想中更加顺利。

就在刚刚,星舰第 11 次飞行任务圆满完成——15 号助推器再次征战,8 颗星链模拟器完美部署,隔热瓦被故意移除接受极限测试,飞船在印度洋上空完成最后的爆炸溅落。

这是星舰 V2 版本的最后一飞,也是 SpaceX 迈向星舰 V3 时代的转折点。马斯克此前多次表示,星舰是一个持续迭代的系统,而 V3 则是未来实现登陆火星任务的关键版本。

插个题外话,英伟达 CEO黄仁勋也来到了美国德克萨斯州 Starbase 基地,把即将发货的 DGX Spark 个人超算交到马斯克手上,而早在 2016 年,马斯克就是首批从黄仁勋手中接过 DGX-1 的团队成员之一。

星舰 V2 的终点,V3 的起跑线

本次任务使用的是超重型助推器 15 号 (B15-2) 和星舰飞船 38 号 (S38)。

值得注意的是,15 号助推器是一枚经过飞行验证的飞行器,配备了 24 台来自先前任务的、经过飞行验证的猛禽发动机。此前在第八次任务中成功飞行,并完成了「筷子夹火箭」的任务。

此次测试的主要目标是验证一种新型着陆点火发动机配置,并将应用于下一代「超级重型」助推器。

让我们一起来回顾此次发射的全部过程。

位于星舰下方的超重型火箭助推器点燃了全部发动机,开始向太空爬升。

发射约 2 分半后,星舰成功完成热级间分离。上方的星舰飞船点燃自身的 6 台发动机并完成分离。据 SpaceX 介绍,这些火箭发动机产生的推力相当于 64 架波音 747 客机的总和。

而「超级重型」助推器开始执行返回推进,朝预定溅落点飞行,准备进行着陆点火实验。

具体来说,当星舰 (上级飞船) 和助推器分离后,助推器需要返回地球并尝试着陆。第一步是进行姿态翻转,让发动机朝向正确方向,以便点火减速。

翻转后,助推器点燃发动机进行反向推力。这相当于制动,让助推器逐渐脱离上升轨迹,转向预定的下降轨迹。

在此次助推器着陆点火阶段,首先点燃 13 台发动机,随后切换为 5 台发动机进行转向。此前这一阶段使用 3 台发动机,而下一代 V3 版「超级重型」计划使用 5 台发动机,以增强在发动机意外关闭时的冗余能力。

此次着陆在美国墨西哥湾近海区域进行,不会返回发射场捕捉,实验成功,现场工作人员爆发出热烈掌声。

一次发射顶 20 次,马斯克押注星链 V3

星舰上级在太空中同样需要执行多个任务,包括部署 8 颗星链模拟器。这些模拟器大小与下一代星链卫星相仿,本质上也是为未来正式发射 V3 卫星进行的实战演练。

每个模拟器重约 2000 公斤,总载荷质量约 16000 公斤。这些模拟器将与星舰处于相同的亚轨道轨迹,并将随飞船一同再入大气层销毁。

整个部署过程非常顺利,每次部署耗时约 1 分钟。

飞船侧面的大型舱板——被称为「有效载荷门」的舱口打开后,开始释放模拟卫星。与其他火箭通常通过鼻锥释放卫星不同,星舰采用侧边舱门设计,必须打开这道侧门才能将卫星释放到太空。

如果看过之前的测试,会记得以前卫星释放时有些卡顿,但由于星舰团队对滑轨系统进行了改进,所以这次释放过程相当流畅。

按照规划,SpaceX 希望星舰能够尽快接手卫星发射任务,取代目前用于此任务的猎鹰 9 号,成为主力运载工具。

未来星舰将部署更先进的 Starlink V3 卫星,运载效率更高,每公斤货物入轨成本更低,每次发射能为整个网络增加 60 Tbps 的容量,以及是目前猎鹰 9 号单次发射容量的 20 倍。

除了卫星部署,本次飞行还成功完成另一项重要测试——在太空环境下重新点燃一台猛禽发动机。整个过程旨在模拟星舰如何执行「离轨点火」操作,也就是在完成太空任务后,通过机动将飞船引导返回地面的过程。

故意移除的隔热瓦,是对极限的最好尊重

星舰表面覆盖着数千块隔热瓦,它们彼此紧挨着排列,中间留有微小缝隙。

之所以要留缝隙,是因为下方的金属结构在受热时会膨胀和收缩,这样可以避免瓦片之间挤压碰撞造成破裂。但问题是,这些缝隙有时会让高温等离子体渗入,导致瓦片边缘和下方的金属区域被过度加热。

上次第十次飞行,星舰表面出现了局部烧蚀与表皮翘起。经查明是因为推进剂排放过程中有少量固体推进剂堆积,被静电放电或等离子体点燃,烧损了部分躯体和部分襟翼。

这一次,SpaceX 依然故意从飞行器的脆弱区域移除部分隔热瓦,使底层结构暴露在再入热流中。甚至,部分被移除隔热瓦的区域没有备用烧蚀层,也让测试风险显著增加。

基于第十次飞行中热量从瓦片间隙渗入的教训,此次飞行更广泛地应用了一种名为「Crunch Wrap」的材料,简单来说,这是一种耐高温毡材料,包裹在瓦片之间的缝隙处。

这样当瓦片排布在一起时,缝隙之间就有了一层保护,能够有效阻挡高温等离子体的渗透。

这些努力都是为了实现最终目标——打造一艘完全、快速可重复使用的飞行器。以前在多艘星舰上测试过这项技术,但今天可能是首次将其覆盖到整艘飞行器上,这也是本次任务的重要看点。

在未来星舰每天多次飞行的场景中,将需要成千上万块隔热瓦。

SpaceX 解说表示,目前美国佛罗里达发射场的全自动制作工坊每天能生产约 1000 块瓦片。

但其设计产能是每月为 10 艘星舰提供足够的瓦片,相当于每天生产 7000 块,或者平均每 13 秒就能下线一块瓦片,目标是朝着为火星任务甚至更远目标全面配备星舰隔热瓦的方向发展。

星舰的迭代哲学,就是用失败换进步

为了给未来的返回发射场着陆 (RTLS) 收集数据,飞船的再入剖面比以往的飞行要复杂得多。

在其轨迹的最后阶段,飞船将执行一次「动态倾斜机动」。

也就是说,在仍处于超音速甚至高超音速状态时,飞行器会故意进行一定幅度的侧倾偏航,模拟从海上再入后,为精准对准陆地发射场而必须执行的横向机动过程。

进入亚音速阶段后,飞船还会在「腹部着陆」姿态开始前,再次进行一次幅度更大的转向,以测试接近塔架着陆所需的最终修正能力。据解说表示,这一整套飞行路径,基本就是未来星舰完成降落时将采用的程序。

不过,由于本次任务不涉及回收,星舰最终还是按计划在印度洋溅落,并在触水后发生爆炸。

简言之,此次飞行是 V2 版本星舰的最后一次任务,但本质上都是在为 V3 乃至更远的版本铺路。

比如收集下一代「超级重型」助推器的数据、对星舰隔热瓦进行极限测试, 以及验证未来返回发射场时上级飞行器所需的机动动作。

此外, 本次发射是 Starbase 基地现有发射台在当前配置下的最后一次使用。之后该发射台将进行大规模改造, 以支持未来更大规模的 V3 和 V4 星舰发射任务。

这种「边飞边改」(即通过实际飞行来测试和验证技术, 而不是在地面进行漫长的模拟)的策略风险很高, 但效率也更高。迭代速度, 在传统航天领域也几乎是不可想象的。

这或许就是马斯克式创新的核心——用更快的失败和迭代, 换取更快的进步。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌