阅读视图

发现新文章,点击刷新页面。

刚刚,OpenAI 硬件全家桶曝光!智能音箱内置摄像头+刷脸购物,ChatGPT 要住进你家了

据 The Information 爆料,OpenAI 正在开发一款智能音箱,它将配备摄像头,支持类似苹果 Face ID 的人脸识别。你未来可能「看一眼」就能完成购物支付,类似功能目前在小米 Rokid 等智能眼镜已经实现。

在苹果、Meta 都在把 AI 塞进眼镜、手表、吊坠等可穿戴设备时,OpenAI 尝试把摄像头塞进了音箱,能「看见」你和周遭的环境,AI 对你的理解也将从语言延伸到行为,你的作息、习惯、情绪状态,都将让 AI 读懂和拼凑出一个真实的你。

▲产品假想图,由 Nano Banana Pro 生成

APPSO 先给你快速梳理下 OpenAI 智能音箱的核心信息

  • 定价:200-300 美元(约 1450-2200 元人民币)
  • 发售时间:最早 2027 年 2 月
  • 核心功能:摄像头环境感知、Face ID 级人脸识别、语音购物
  • 设计团队:Jony Ive 的 LoveFrom + OpenAI 硬件团队
  • 产品矩阵:智能音箱首发,智能眼镜、智能灯后续跟进

「长眼」的智能音箱,你敢用吗

智能音箱这个品类,从 Amazon Echo 到 Apple HomePod,已经卷了快十年。但这些设备的「智能」,往往停留在「能听懂关键词」的层面,离真正的「理解」差着十万八千里。

OpenAI 的解法简单粗暴:给它装上眼睛。

智能音箱内置摄像头,能识别你周边环境,比如桌上摆了什么、旁边在聊什么。还支持类似 Face ID 的面部识别,可以直接刷脸完成购买。这种「所见即所得」的购物体验,目前市面上的智能音箱还做不到,

结合 ChatGPT 去年上线的购物功能——用户可以在对话框里完成从选品到跳转下单的完整流程,这个刷脸购买功能将有望直接服务于「AI 即购物入口」的闭环,成为消费决策链条上的第一道关口。

如无意外,这也将对现有流量分发逻辑造成重大的挑战:Google 靠搜索吃了二十年广告红利,电商平台靠货架逻辑构建起庞大生态,而 OpenAI 想在这两者之前再插入一个新的决策层级。

此外,这款智能音箱还能通过持续的视觉观察判断用户状态——比如发现你在重要会议前夜还在熬夜,会主动提醒你去早点睡。这样一来智能音箱的定位,就从一个智能家居产品,变成了一个 AI 管家中枢。

不过,这种全天候的数据采集,隐私边界在哪里,或许有待 OpenAI 正式发布时给出答案。

想要买到这款产品,还要等一段时间。首款设备最早也要到 2027 年 2 月才能发货。眼镜等其他产品更慢,预计 2028 年才能大规模量产,至于那个智能台灯,原型机有了,但到底会不会发布,还是个未知数。

「含果量」十足的 OpenAI 硬件团队

OpenAI 的硬件野心,从团队规模就能看出来,整整 200 人,而且还在疯狂扩张。其中更令人期待的是,前苹果首席设计官 Jony Ive ,亲自为 OpenAI 操刀产品设计。

这支团队的「含果量」极高,团队由副总裁 Peter Welinder 领导,他此前负责 OpenAI 的新产品探索团队。核心成员包括:

  •  Tang Tan:苹果 25 年老将,曾任 iPhone 和 Apple Watch 产品设计主管,直接向苹果硬件主管 John Ternus 汇报,被认为是把 Jony Ive 的设计理念转化为大规模可制造产品的关键人物
  • Evans Hankey:苹果前工业设计负责人,曾接替 Jony Ive 执掌苹果设计团队,现为 OpenAI 工业设计负责人
  • Scott Cannon:供应链负责人
  • Adam Cue:苹果服务主管 Eddy Cue 之子,负责开发驱动 OpenAI 未来设备的软件
  • Ben Newhouse:产品研究负责人,正致力于重写 OpenAI 的基础设施以适应音频 AI
  • Atty Eleti:负责设备隐私相关工程工作

虽然 Jony Ive 并未直接加入 OpenAI,但他对设计拥有最终决定权,据说每周都会出现在旧金山市中心的办公室。有员工透露,团队讨论时经常会说「Jony 会想要什么」。

然而 Jony Ive 和 OpenAI 的合作并非一帆风顺。据两位知情人士透露,一些 OpenAI 员工抱怨 LoveFrom 修改设计的速度缓慢,且很少分享其构思新设计的流程。这种保密作风和对设计的极致追求,是苹果公司的典型做法——而该团队的许多员工和领导层都来自那里。

为了保持这种运作方式,OpenAI 的设备团队与公司其他部门是分开的。虽然 OpenAI 总部位于米申湾,但设备团队在旧金山市中心杰克逊广场附近的一间办公室办公,离 LoveFrom 的办公室不远。

OpenAI 挖人的手段也很「简单粗暴」——直接用超过 100 万美元的股票期权砸人,薪酬远超苹果标准。据 The Information 报道,OpenAI 今年已经从苹果挖走了 20 多位硬件大牛,而 2023 年这个数字几乎为零。

苹果显然坐不住了。据知情人士透露,苹果去年曾突然取消了原定在中国举行的年度闭门会议——这个会议通常由高管向员工介绍未来产品计划。取消的原因竟然是:「防止更多高管跳槽到 OpenAI」。

内部怎么拧,是执行的事。但有一件事,从一开始就没有悬念——OpenAI 必须做硬件。

软件端 200 亿美元的年收入,已经证明了 AI 是一门好生意,但要让 AI 真正成为水电煤一样的基础设施,必须有一个物理入口。手机这条路走不通——苹果的生态护城河不是一款 AI 新品轻易能够撬动的,其它手机厂商自己也在全力 AI 化,不会将大好的硬件阵地拱手相让。

当然,更根本的问题是,手机的形态本身,可能就不适合做 AI 的宿主。

当 AI 足够聪明时,它不应该被禁锢在一块长方形的玻璃屏幕里,它应该是无处不在的。因此,从音箱、眼镜甚至台灯这些陪伴感更强的品类切入,是 OpenAI唯一,也是最合理的选择。而这一切,或许从 ChatGPT 的产品设计方向上就已经埋下了伏笔。

与 Anthropic 这类深耕企业服务的 AI 公司不同,OpenAI 从一开始就带着强烈的 ToC 基因——ChatGPT 不只是一个工具,它有情绪、有记忆、会共情,Sam Altman 一直在让它变得更像一个「人」。

这背后的逻辑,如今看来相当清晰:一个冷冰冰的 AI 助手,你不会想把它放在卧室里;但一个懂你、记得你习惯、会关心你睡没睡好的 AI,才有资格住进你的生活。

OpenAI 的硬件版图浮出水面

智能音箱只是 OpenAI 硬件全家桶的其中一个,此前 OpenAI 已经被曝出在开发智能眼镜、智能灯、甚至可穿戴别针等多种形态。其中智能眼镜可能要等到 2028 年才能量产——这个时间点,恰好和苹果传闻中的 AI 眼镜撞期。

OpenAI 硬件产品线(APPSO 据曝光信息整理)

  • 智能音箱(代号未知):首款产品,200-300 美元,2027 年 2 月出货
  • AI 耳机(代号 Dime/「甜豌豆」):金属鹅卵石造型,胶囊状耳机置于耳后,2nm 芯片
  • 智能眼镜:2028 年量产,与 Meta Ray-Ban、苹果 N50 正面竞争
  • 智能灯:原型已准备,是否发布待定
  • AI 笔:Sam Altman 多次暗示的「口袋设备」

值得注意的是,OpenAI 的硬件策略似乎经历了调整。此前传闻的 AI 耳机项目「Dime」(甜豌豆),原计划是一款「类手机」全能设备,搭载 2nm 智能手机级芯片。但由于 HBM 内存短缺导致成本过高,OpenAI 被迫调整策略——先推纯音频功能的「阉割版」,等成本下降后再发高配版。

这种「先占坑、后完善」的策略,在硬件圈并不罕见。对 OpenAI 来说,也没有苹果的包袱,不需要将产品打磨到完美才推出市场,即便首款产品不够惊艳,这也是 AI 行业发布产品的一贯风格。

此外 OpenAI 不止挖苹果的人,也盯上了苹果花了几十年打造的供应链。

据知情人士透露,中国主要的 iPhone 和 AirPods 代工厂立讯精密已经拿下了至少一款 OpenAI 设备的组装合同,而负责组装 AirPods、HomePod 以及 Apple Watch 的歌尔股份也在跟 OpenAI 接洽,为未来产品提供扬声器模组等零部件。

Sam Altman 曾在一次采访里提到 OpenAI 硬件的愿景:「智能手机是时代广场,信息轰炸、注意力粉碎。OpenAI 要做的,是一间『湖畔小屋』——让你在需要专注时,能关上门,屏蔽噪音。」

他的核心逻辑在于,AI 硬件不是要取代手机,而是要填补「不方便掏手机」或「需要深度专注」的场景。从这个角度看,智能音箱、AI 笔这类「放在桌上不突兀」的设备,确实比 24 小时佩戴的 AI 吊坠更友好。

但愿景归愿景,现实很骨感。OpenAI 不是第一家想用 AI 硬件重新定义人机交互的公司。Human Pin、Rabbit R1、Friend AI 吊坠……这些「网红 AI 硬件」的销量也都不尽如人意。

此前很多 AI 硬件往往解决的是「伪需求」——它们能做的,手机基本都能做,而且手机做得更好。要改变消费者习惯了近二十年的屏幕交互,接受一个「看不见摸不着」的 AI 助手,挑战不小。

OpenAI 要面对的,不只是市场教育难题,还有巨头的围剿。

据彭博社记者 Mark Gurman 爆料,苹果正在加速推进三款全新的 AI 可穿戴设备:智能眼镜 N50、可穿戴吊坠、摄像头 AirPods,都围绕 Siri 数字助手构建,通过摄像头获取视觉上下文来执行各种操作。

2026 对于 OpenAI 来说,无论是大模型 AI 产品,还是新兴的硬件产品,都会面临一个超级内卷的竞争环境。

即便如此 OpenAI 依然可能给 AI 硬件行业带来一些变化,甚至是分水岭。

它有最豪华的苹果班底、最激进的产品定义、以及 ChatGPT 这个全球份额第一的 AI 产品。但 OpenAI 也面临着所有 AI 硬件共同的困境:如何证明 AI +硬件给体验带来了质的变化,而非只是让产品卖得更贵的又一个理由。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测 GPT-5.3-Codex,OpenAI 史上第一个高危模型,连 API 都还不敢给我们

今天凌晨发布的 GPT-5.3-Codex 可以说是 OpenAI 对这段时间来,各种本地 Agent 爆火的一记重拳回击,当然主要是对 Anthropic 的反击。

配合 OpenAI 前几天的发布的 Codex 桌面版应用,Skill、Cowork、Claude Code,甚至是 Openclaw,这些热门工具能实现的功能,现在通过 Codex 的外壳 + GPT-5.3-Codex 模型能力,都能做到了。

▲ 在 Codex App 内可以直接选择 GPT-5.3-Codex 模型,也能选择深度思考的强度

和之前介绍 Cowork 的能力一样,我们也丢了一些类似的任务让 Codex 来完成,像是直接处理本地文件、各种格式转换、调用不同的 Skills 组合能力、做 Word/PPT/Excel、下载视频、开发 App……

GPT-5.3-Codex 的表现确实亮眼,相比较从头开始安装 Claude Code,对新人用户来说,现在直接下载 Codex 会是一个更好的选择。这也是未来模型厂商的一种趋势,一开始大家都是从黑乎乎的命令行终端开始做本地 Agent,接着都慢慢回归到可视化的友好界面。

网上对 Codex 的评价在这几天也有了不少逆转,许多开发者从 Claude Code 转向 Codex,一些在国内的独立开发者也表示 Codex Plus 会员就可以用,而且还不会像 Claude 那般总是无情封号。

奥特曼更是激动的宣布,Codex 的活跃用户已经超过 100 万。在模型更新博客,也是毫不掩饰和留有余地的夸赞,

GPT-5.3-Codex 是我们第一个能够自我构建的模型。通过使用 5.3-Codex,我们能够以如此快的速度发布 5.3-Codex。

跟 Claude 团队用两周的时间,使用 Claude Code,100% AI 代码,搓出一个 Cowork 一样;还有 OpenAI 去年年底发布的文章,「使用 Codex 在 28 天内构建 Android 版 Sora」,Agent 的时代真的来了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多数的本地 Agent 一样,无论是终端还是 Cowork,我们都是先选择一个工作文件夹。在 Codex 中,我们可以创建多个 Project,选择对应的文件夹,再进一步开始对话,Codex 把它们叫做 Threads 线程。

先用最普遍和简单的例子,我们添加了一个空的下载文件夹,然后点击开始一个线程,选择 GPT-5.3-Codex 模型;就像在 ChatGPT 里面对话一样,输入指令。

要求它帮我们下载一个 X 视频,Codex 会自动检查可用的 Skills 来处理,接着通过 yt-dlp 工具进行下载,这个视频有四个多小时长,Codex 会一直在对话框里自动更新下载进度。

▲GIF 图经过加速处理

视频下载后,我们还可以要求它提取视频的逐字稿,给我们一份双语版本的文档,最后让它把整个流程打包为一个 Skill,方便下次使用。

如果视频中有一些比较有意思的片段,想要裁剪视频,或者是把裁出来的视频转成 GIF 图,在 Codex 里都能做到。

例如,我们这里下载了一个视频,然后要求它把视频的 5s-25s 裁剪出来成为一个新的视频;得益于 GPT-5.3-Codex 的 Token 快速处理,整个过程不需要很长时间,反而更多是取决于本地电脑的硬件解码编码能力。

▲ GIF 图经过加速处理

或者我们也可以直接要求它把视频的前 5s 转成一个 GIF 文件,并且确保大小在 10MB 以内,帧数可以自行调整,清晰度上将宽度控制在 640px。

很快,我们就能得到对应的 GIF 文件。更极端一点,还能让它把整个视频转成图片,每秒 30 帧,每一帧就是一张图。

这些对本地文件的直接处理,和 GPT-5.3-Codex 在 Terminal-Bench-2 测试集上的优异表现,让 Codex 基本上能满足各种生产力工具、效率工具的功能实现。

作为对比,同样是刚刚发布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。

▲ 图片来源:https://x.com/neilsuperduper/status/2019486017703547309/

例如在这个文件夹中,有多张图片,我们首先是要求它根据图片内容,对这些图片文件进行重命名,并保持文件名不超过 20 个字母,不允许使用符号。

▲ GIF 图经过加速

自动修改完成后,我们还能要求他对这些图片进行拼接,无论是垂直拼接还是水平,调用对应的工具,Codex 都可以做到。

和 Claude Skills 一样,Codex 也能安装 Skills 市场上丰富的技能,并且在应用内,就已经提供了包括 pptx、xls、word、canvas、notion 在内的多款技能。

回到基础的编程能力,升级后的 GPT-5.3-Codex 表现也比 GPT-5.2 要好上不少。我们直接要求它写一个「每日一词」的 App。和在 ChatGPT 里面直接用 Canvas 给我们一个带不走的网页不同,Codex 能在本地从零开始,完成项目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到网页上。

这里我们选择的推理模式是 Extra High,超强推理模式,于是在每一步操作之前,GPT-5.3-Codex 都会询问我下一步的操作选择,这也和 Codex 内部能直接根据任务情况,调用不同 Skills 有关,其中的头脑风暴 Skill,会自动进行不断对话的模式。

最后,它基本上还是完成了我一开始要求它完成的全部功能,并且还能进一步开发 macOS、iOS,和安卓版本。

如果我们有现成的代码项目,也可以选择该项目文件夹,在 Codex 中打开,GPT-5.3-Codex 会分析项目存在的 Bug,并且修复它。

在过去很长一段时间里,无论是工具还是模型,开发者的首选其实都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在编程、尤其是长代码逻辑推理上的掉队,曾让不少开发者转投阵营。

GPT-5.3-Codex 的出现,就是为了终结这场争论。现在 GPT-5.3-Codex 在编程基准测试和实际表现上,不仅碾压了自家的前代模型,也确实有把友商模型按在地上摩擦的前兆。它真正具备了编写、测试和推理代码的能力。

做游戏项目,是这次模型介绍博客里,网站开发部分主要案例,我们也让 GPT-5.3-Codex 做了一个简单的物理弹球游戏,整体的效果虽然没有达到我的期待,因为我在提示词里面有说希望这是一个 RPG 的游戏,但 GPT-5.3-Codex 给我的界面还是过于简陋了。不过,好在还是能玩。

我们也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戏,像这个类似超级玛丽的收集金币。

▲来源:https://x.com/Angaisb_/status/2019548783869325331

强中更有强中手

对 Anthropic 来说,OpenAI 今天玩的这些,可能会说,这都是我们玩剩下的。无论是代码、或者 Agent 的能力,还是开始着手去做本地 Agent,从之前 Codex 的终端转成现在的 macOS App。

在技术的领域,OpenAI 仿佛都是跟着 Claude 的脚步在走,Claude 深耕代码能力,OpenAI 搞了 Sora、日报、浏览器、ChatGPT agent,都没什么水花,于是也在代码上发力;Claude 一月初推出 Cowork,OpenAI 也紧接着在二月初发布 Codex App。

就和今天的密集发布一样,凌晨 1:45,Claude 官方发 X 推出 Claude Opus 4.6,紧接着就是 OpenAI 端上 GPT-5.3-Codex。两款模型其实都是为了给 Agent 更强大的基座能力,以前是说代码/vibe coding,但现在 Agent 能做好,基本上都是「写代码写得好」。

Opus 4.6 虽然在 SWE-Bench 上的表现甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成绩也没有 GPT-5.3-Codex 强,但是 Opus 破天荒地把上下文长度拉到了一百万 token 的窗口。而且,这些 benchmark 的表现还没有相差很多。

Claude 说,我的 Sonnet 5 还没上来,那才是真功夫。

我们在网上也找了一些 Opus 4.6 最新的测试案例,有网友说 Claude 4.6 Opus 只是一次调用,就完全重构了他的整个代码库,将原来混乱的代码「屎山」全部模块化,并且没有模型能像 Opus 这样做到。

还有网友拿 Opus 4.6 和 4.5 进行对比,让两个模型玩同一款经营游戏,看谁的账户等级、财富和装备更高。测试博主提到,4.6 版本在初期制定战略的时间更长,但是做出了更好的战略决策,并且在最后确实做到了遥遥领先。

还有网友也做了一个游戏,不过是一个宝可梦的克隆版。博主提到这是他用 AI 做出来的最酷的东西。他提到,Claude Opus 4.6 思考了 1 小时 30 分钟,使用了 11 万个 Token,并且只迭代了三次。

▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用户的反馈中,也提到了一个 Opus 表现优秀的案例。Opus 4.6 在一天内自主关闭了 13 个 issue,issue 即项目存在的待解决问题,并将另外 12 个 issue 准确分派给了正确的人类团队成员。

和 Kimi K2.5 的智能体蜂群一样,Opus 4.6 也能管理一个 50 人规模组织的代码库。在 Claude Code 中,我们可以组建 Agent Teams,召唤出一整个队伍的 AI,不再是一个 AI 在战斗。这些AI 可以有的负责写代码,有的负责 Review,有的负责测试,它们之间自主协作。

也有网友测试了 Claude Code 里面的 Agent 蜂群,提到启用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。

我们现在的状态就跟这张图片一样,虽然一山比一山高,但都绕不出这个圈。前几个月可能是 Gemini 赚走了风头,一月份来,应该是 Claude,然后看样子又要轮到 OpenAI,或者马斯克的 Grok。

好在这个轮回的过程中,作为用户的我们,能明显感觉到 AI 的能力一直在变强。

GPT-5.3-Codex 的 API 还没有开放,原因是模型太强了,会存在很大的风险,所以 OpenAI 还在考虑怎么安全地启用 API。

Claude Opus 4.6 已经可以在 Claude 通用聊天应用、Claude Code、API 多种方式使用,这两个作为今年国外御三家首发的两款模型,非常值得一试。

未来,更好的服务 Agent,让 Agent 为我们做事,还会是大模型更新的重点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 和 Claude 同时大更新,不会给 AI 当老板的打工人要被淘汰

就在刚刚,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像约好了一样,同时甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前,我们还在讨论「怎么写好 Prompt 辅助工作」;那么今天凌晨,我们可能被迫要学会「如何作为老板去管理 AI 员工」。

AI 造 AI,顺便接管你的电脑

就在昨天,Sam Altman 刚在 X 平台上凡尔赛了一把 Codex 的「百万活跃用户」里程碑。短短一天后,OpenAI 再次乘胜追击,扔出王炸——GPT-5.3-Codex。

技术文档里藏着一句极具分量的话:「这是我们第一个在创造自己的过程中,发挥了关键作用的模型。」

说人话就是:AI 已经学会了自己写代码、自己找 Bug,甚至开始自己训练下一代的 AI 了。这种自我进化能力,也直接体现在了一连串跑分数据上。

还记得那个模拟人类操作电脑的 OSWorld-Verified 基准测试吗?前代模型只有 38.2% 的准确率,连及格线都够不上。

但这次,GPT-5.3-Codex 直接跳涨到了 64.7%!

要知道,人类的平均水平也就 72%。这意味着,AI 距离像你一样熟练地甩鼠标、切屏、操作软件,只剩下一层窗户纸的距离。

而在 Terminal-Bench 2.0(命令行操作)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)远远甩在身后。

知名 SWE-Bench Pro 基准测试覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题。

GPT-5.3-Codex 在这里不仅拿下了 SOTA(最高水平),而且用的 Token 比以往任何模型都少。这意味着什么?意味着它不仅干活猛,解决问题的路径还比人类更短、更省钱。

OpenAI 甚至展示了它独立构建的能力:

在几天内,它从零构建了一款包含多张地图的赛车游戏 v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。

最让我印象深刻的是 GPT-5.3-Codex 对模糊意图的理解。

在构建「Quiet KPI」落地页时,它自动把「年度计划」换算成了「打折后的月付价格」,甚至还贴心地自动补充了用户评价轮播——这一切,都不需要你下指令。

OpenAI 的野心已经写在脸上了:以前微软常说 AI 将会成为人类的副驾驶(Copilot),但现在 AI 更想做那个能掌控方向盘、甚至能自己修车的司机。

对了,还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商的「感谢英伟达」,属实是给足了黄仁勋面子。

告别「金鱼记忆」Claude 迎来绝地反击

在 GPT-5.3-Codex 发布的前后脚,Anthropic 也端出了自己的春节大礼包。

坏消息是,大家期待的 Claude「中杯」Sonnet 模型没有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在「行动力」上的激进,Anthropic 今天发布的 Claude Opus 4.6 则是在「思考力」和「可用性」上死磕。

很多企业用户都有一个名为 Context Rot(上下文腐蚀)的痛点:号称支持 200k 上下文,但塞进去的数据一多,AI 就开始顾头不顾尾。

这次,Claude Opus 4.6 拿出的数据简直是「降维打击」。

在 MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6 的召回率高达 76%。

作为对比,上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说,这是一个从基本不可用到「高可靠」的质变。

这是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

这意味着什么?意味着你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地告诉你第 342 页脚注里的那个数字有问题。

更让打工人眼前一亮的是它的生产力功能。

一方面,Anthropic 这回直接把 Claude 塞进了 Excel 和 PowerPoint。它能根据 Excel 数据直接生成 PPT,不仅保留排版风格,连字体和模板都能对齐。在 Claude Cowork 协作环境中,它甚至能进行自主多任务处理。

另一方面,Anthropic 顺势在 Claude Code 中推出了实验性的 Agent Teams 功能,让普通开发者也能体验这种「指挥千军万马」的感觉:

  • 角色分工:你可以指定一个 Claude Session 担任 Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的 Session 则是队友(Teammates),各自领任务去干。
  • 独立作战:每个队友都有独立的上下文窗口(不用担心 Token 爆炸),它们甚至能背着你互相发消息(Inter-agent messaging),讨论技术细节,最后只把结果汇报给组长。
  • 并行赛马:这东西有什么用?想象一下查一个顽固 Bug,你可以生成 5 个 Agent,分别验证 5 种不同的假设,像「赛马」一样并行排雷;或者在 Code Review 时,让一个队友扮「安全专家」查漏洞,一个扮「架构师」看性能,互不干扰。

为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:Agent Teams(智能体团队)。

他没有亲自写代码,而是扔了 2 万美元 的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

结果在短短两周内,这群 AI 自主进行了 2000 多个编程会话,从零手写了一个 10 万行代码的 C 语言编译器(基于 Rust)。

这个 AI 写的编译器,还成功编译了 Linux 6.9 内核(涵盖 x86、ARM 和 RISC-V 架构),甚至跑通了 Doom 游戏。

虽然它还不够完美(比如生成的代码效率不如 GCC),但这个案例也表明我们不再是和 AI 一起编程,而是看着一个 AI 团队自主协作、查错、推进项目。

此外,它还学会了 Adaptive Thinking(自适应推理),能根据难度自己决定「想多久」。加上新增的「智能强度」控制,你可以在 Low 到 Max 四档之间切换。

定价方面,Anthropic 这次很良心,维持在每百万 Token $5/$25 的基础定价。看来是为了抢占企业级市场,铁了心要和 OpenAI 卷到底。

一个是激进天才,一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个「盲测」(Vibe Check),他的评价非常精准:

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让 iOS 团队卡了两个月的功能难题;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会「过度自信」,一本正经地胡说八道。如果你需要突破性的灵感,选它。

GPT-5.3-Codex 是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%,几乎不犯低级错误,稳健得让人心安。

虽然在创造性任务上略逊一筹(LFG 得分 7.5/10),但在日常的 Coding 和运维任务中,它是最高效的老黄牛。如果你需要稳定交付,选它。

时间步入 2026 年,我们的角色开始发生变化。

在这个时间节点,对于普通用户而言,最大的变化莫过于此:Prompt Engineering(提示词工程)的重要性正在下降,而 Agent Management(智能体管理)的能力开始浮出水面。

当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐 100 万字并精准定位细节时,我们不再需要像教小学生一样,把指令拆解得碎碎念。

我们需要做的,是学会如何以「管理者」的身份,去定义目标、审核结果、以及——决定在什么时候,把什么任务交给哪位「员工」。

这就是 2026 年的新职场:你的团队里混入了一群硅基天才,而你是唯一的碳基老板。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌