普通视图

发现新文章,点击刷新页面。
昨天以前资讯

实测Claude史上最强模型Fable 5,普通人慎用

作者 莫崇宇
2026年6月10日 14:31

对普通人最坏的消息要来了。

就在刚刚,Anthropic 宣布推出 Claude Fable 5 和 Claude Mythos 5。

其中,Fable 5 是 Anthropic 首个面向公众开放的 Mythos 级模型,Mythos 5 则主要面向少数网络安全防御机构、关键基础设施提供方以及后续进入可信访问计划的生物医学研究者。

只是,鲜少有人注意的是,按照官方说明,Fable 5 从现在到 6 月 22 日,会包含在 Pro、Max、Team 和按席位计费的 Enterprise 计划里,不额外收费。到了 6 月 23 日,Fable 5 将从这些订阅计划中移出,继续使用就需要消耗 usage credits。

换句话说,过去那种一张「月卡」解锁最强 AI 的模式,或许将一去不复返。对于用户而言,未来需要考虑的可能不只是订阅价格,还有每一次调用、每一次长任务执行背后真实消耗的 token 成本。

欢迎进入 Token 计费时代。

Claude Fable 5 封神登场,但它也是最狠的「Token 刺客」

Anthropic 对 Fable 和 Mythos 的命名也给出了解释。Fable 源自拉丁语 fabula,意为「被讲述的小故事」,含义上接近希腊语 Mythos。

两个新名字看起来像两款模型,实际更接近同一底层模型的两个版本。Fable 5 目前面向公众开放,带有更严格的安全限制;
Mythos 5 目前只通过 Project Glasswing 计划提供给少数网络安全防御机构和关键基础设施合作方。

根据 Anthropic 官方博客的介绍,Fable 5 是该公司目前一般可用模型中能力最强的一款,在软件工程、知识工作、视觉理解、科学研究等方向都有明显提升。任务越长、越复杂,它相对此前 Claude 模型的优势越大。

Fable 5 的意义在于,Mythos 级能力第一次大规模面向普通用户开放。基准测试跑分图如下,主打一个遥遥领先。

不过,模型名字本身也引发了一些讨论。原 OpenAI Codex 相关负责人 Tibo都发文调侃道,Anthropic 用了 OpenAI 想用但没有用的 Fable 命名。

能力层面,软件工程是官方最强调的方向之一。

Anthropic 提到,Stripe 在早期测试中让 Fable 5 处理一个 5000 万行 Ruby 代码库的迁移任务。这个工作如果交给一个工程团队手动完成,原本需要两个多月,Fable 5 在一天内完成。

Cognition 的 FrontierCode 测试也显示,Fable 5 在复杂生产级代码任务中表现领先。这个评测关注的不是普通代码题,而是模型能否完成困难编程任务,并达到高质量生产代码库的要求。

Anthropic 还强调,Fable 5 比此前 Claude 模型更节省 token。当然,这话听听得了,以往每次 Claude 新模型的发布都有类似的表述,但几乎都成了一个个 Token 刺客,为偌大的互联网提供了相当多的笑话。

知识工作方面,Fable 5 在 Hebbia 的金融基准测试中拿到最高成绩,提升集中在文档推理、图表理解和复杂问题分析。IMC 的交易分析评测也显示,Fable 5 在事实检索、概念推理、原因分析和期望值分析上都有较强表现。

视觉能力也是发布重点。Anthropic 称,Fable 5 能从复杂科学图表中提取精确数字,也能根据网页截图重建应用源码。

官方还展示了一个更直观的案例:Fable 5 只依靠游戏画面完成《宝可梦火红》,没有使用额外地图、导航工具或游戏状态信息。此前的 Claude 模型做类似任务,还需要更复杂的辅助系统。

长上下文和记忆能力也有提升。Anthropic 在《杀戮尖塔》测试中发现,给模型提供持久化文件记忆后,Fable 5 的表现提升幅度达到 Opus 4.8 的三倍,进入最终章节的频率也提升三倍。

生命科学方向更敏感。Anthropic 称,内部蛋白质设计专家使用 Mythos 5,把部分药物设计流程加速约 10 倍。

在一个案例里,Mythos 5 借助蛋白质设计和生物信息学工具,在没有人工协助的情况下完成了科学家通常要处理的一整套流程,包括选择结合位点、调用设计工具、处理失败结果。14 个蛋白靶点中,有 9 个产生了值得继续研究的候选方案。

生命科学和网络安全能力的提升,也解释了 Anthropic 为什么没有把完整 Mythos 级能力直接放开。

Fable 5 面向公众开放时,配套了一套新的安全分类器。只要用户请求涉及网络安全、生物、化学或模型蒸馏等高风险方向,系统就会自动改由 Claude Opus 4.8 响应,并告知用户模型发生了变化。

Anthropic 表示,早期数据中,超过 95% 的 Fable 5 会话不会触发这种变化。普通写作、编程、分析、设计、数据处理等任务,大多数情况下仍能使用 Fable 5 本身。但只要进入高风险区域,模型能力就会受到限制。

网络安全是限制最严的方向。Anthropic 承认,Mythos 级模型擅长发现和利用软件漏洞,也具备较强的代理式攻击能力,可能覆盖侦察、发现、横向移动等环节。为了避免这种能力被滥用,Fable 5 的网络安全分类器覆盖范围很广。

生物和化学方向也类似。Anthropic 认为,模型已经具备完成真实科学任务的能力,过去只屏蔽少数生物武器相关问题已经不够。因此,Fable 5 暂时会在大多数生物和化学相关请求上回退到 Opus 4.8 处理。

值得一提的是,Anthropic 还为 Fable 5 加入了一层针对前沿大模型开发的隐藏保护。

它主要限制 Claude 协助构建预训练流水线、分布式训练基础设施或 ML 加速器设计等任务,避免模型反过来加速其他机构训练下一代前沿模型。

和触发后会切换到 Opus 4.8 的安全限制不同,这类保护不会直接提示用户,而是通过提示词修改、steering vectors 或 PEFT 等方式,降低 Fable 5 在相关任务上的性能。目前也已经有受害者现身说法。

截至目前,Claude Fable 5 现已面向全球用户开放。开发者可以通过 Claude API 调用 claude-fable-5。Claude API 和按需付费的 Enterprise 计划从发布日起已经全面可用。

Fable 5 和 Mythos 5 的价格相同,均为每百万输入 token 10 美元,每百万输出 token 50 美元。按照 Anthropic 的说法,这已经低于 Claude Mythos Preview 的一半,但对于高强度长任务来说,价格仍然不低。

AI 终于数清了 6 根手指

比起官方博客,实测更能说明 Fable 5 到底变强在哪里。根据我的实测,Fable 5 已经能够识别 6 根手指了。

恰逢高考结束,我们也拿了道全国高考一卷语文作文题,让它练练手,怎么说呢?整体文风表达比较流畅,并不「普通」。

更具体的对比可以参考@ Hypergent 的实测,在小行星可视化任务中,Fable 5 不仅完成数据提取,还设计了包含轨道轨迹和悬停详情的交互式展示,在保证性能的同时提升了信息表达能力。

在健身度假村规划任务中,Fable 5 借助 GPT-Image-2 和 Nano Banana 生成更符合实际使用逻辑的场地方案,能够考虑区域连接、功能分布和人流动线,而不仅是简单摆放建筑。

Fable 5 能够把天文现象与可视化表达结合起来,展示太阳耀斑对极光影响的模拟;而 Opus 4.8 甚至未能正常加载。

前特斯拉 AI 总监,OpenAI 联创 Andrej Karpathy(现已加入 Anthropic)的评价更能说明开发者的感受。

不过,在设计审美上,人类目前仍然略占上风。

沃顿商学院教授 Ethan Mollick 的实测更能体现 Fable 5 的变化。他拿到早期访问权限后,重点测试了游戏、地图和研究工具等复杂任务。

其中最有代表性的是一个等时线地图项目。Mollick 要求 Fable 5 构建一个基于真实交通数据的交互式地图,展示不同城市在一定时间内的可达范围。模型随后调用多个 Agent 收集航班、铁路和道路数据,同时完成代码编写和测试,并不断根据反馈修正结果。

Mollick 还让 Fable 5 开发了一款名为 Concord 的研究工具。模型先生成 19 页设计文档,又连续工作 9 个半小时,最终完成软件开发,用于分析开放式研究数据并校准人类与 AI 的判断结果。

实测也暴露出明显问题。Mollick 认为,Fable 5 仍然会出现错误和遗漏,需要人工检查和完善。同时,长任务带来的 token 消耗非常高,而 Fable 5 的价格又明显高于 Opus 4.8,真正投入生产环境后,成本可能成为最大的现实挑战。

高强度长任务能力,最终都会反映到使用成本上。作为 20 美元套餐的 Pro 用户,我甚至只是简单跑了几个任务,就用完了额度。

而 Claude 客户端也显示 Fable 5 「included until June 22」,如开头所述,由于算力限制,按照 Anthropic 的安排,免费包含窗口结束后,Fable 5 会从部分订阅计划中移出,继续使用需要消耗 usage credits。

过去用户付一笔不算贵的月费,就能在很大程度上享用世界上最强的一批智能。订阅制模糊了真实成本,也让普通个体在某些时刻和一些巨头站上了同一条起跑线。

Token 计费降临之后,一切都会发生变化。

AI 会从一种近似包月服务,变成一种按量消耗的生产资料。最强模型也正在变成一种更昂贵、更精细计价的生产工具。

有些人可以不太在乎成本,比如让 Fable 5 执行 24 小时长链任务,重构 5000 万行代码,独立开发一个完整应用,持续跑研究项目,反复测试和修改结果。

但更多普通用户则会在每一次调用前下意识地掂量:这个问题值不值得花 token?这个任务值不值得交给最强模型?这次尝试失败后,还要不要继续让它重来一遍?

最糟糕的消息莫过于此。AI 没有变弱。相反,它正以前所未有的速度变强,强到足以独立完成越来越多原本属于人类的脑力工作。

与此同时,获得这种能力的门票正在不断提高。普通人与先进生产力之间,刚刚被大模型拉近的信息差,可能会因为昂贵的 token 计费重新拉开。

Anthropic 如此,未来 OpenAI 等其它厂商也很难例外。前沿模型越强,训练和推理成本越高,尤其是这两家 AI 公司目前都在争取上市,都需要向资本市场证明自己不只是能训练更强模型,也能把模型能力变成持续收入。

因此,与其说 Fable 5 的发布是一次模型升级,倒不如说是一次彻底调整 AI 订阅体系的预热。如果 AI 的普惠窗口期开始进入倒计时,那这绝对不会是最好的消息。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

iPhone 终于支持 Siri AI!但国行无缘首发,闹钟成为最大惊喜

作者 莫崇宇
2026年6月9日 05:20

作为库克最后一次主讲的苹果发布会,WWDC26 本身也颇有一种「收尾」的感觉。

从 WWDC24 压大轴的「AI」,WWDC25 唱主角的「UI」,到今年的「AI + UI」两手抓,苹果放慢了脚步,更多是将前两年确定的这些新方向,做深做稳。

特别是 AI,70 多分钟的发布会,将近 40 分钟都留给了 Apple 智能的新进度,不仅有大量的新功能,苹果也给出了自己的新主张:

真正有益的 AI,应该以用户为核心。

iOS 27 主打一个求稳

今年的 WWDC 有一个显著变化:不再按不同设备平台,将发布会分成 iOS、iPadOS 或 macOS 的独立板块,而是直接发布跨系统的新功能。

这也预示了一种大方向上的调整:苹果未来的系统更新,将从「设备」转变为「功能」为主线,以后更会贴近 AI 大模型的能力,推出更新。

去年引入的「液态玻璃」设计语言,虽然让人激动,也带来了性能和可读性的问题,因此 iOS 27 的一个首要任务,就是要搞好优化,提升系统的基础品质。

在 iOS 27、iPadOS 27 和 macOS 27,用户可以直接通过滑块自定义「液态玻璃」的透明度,甚至可以恢复到类似以前版本的低透「磨砂玻璃」。

苹果也对图标进行了进一步打磨,通过「液态玻璃」叠层和光折射效果,为原本就晶莹剔透的图标增加细节。

系统界面进一步精装,系统底层的体验也没有落下,这次 WWDC 苹果也大谈优化。

最直观的表现,不管是 iPhone、iPad 简单的划动,还是 Mac 四指上划打开调度中心,这些简单的操作响应和动画都会更顺畅,相信 iOS 26 的掉帧 Bug 终于要解决了。

苹果表示,iPhone、iPad App 的开启速度将提升 30%,这不仅限于苹果的第一方应用,得益于系统底层的优化,第三方应用的响应速度也会有明显提升。

更多系统操作的速度也会更快,比如拍摄新照片后,进入相册可浏览的速度提升了 70%;AirDrop 的传输速度最高提升 80%,等等。

苹果也宣布,所有支持 iOS 26 的 iPhone 都能升级 iOS 27,包括 iPhone 11 和第二代 iPhone SE。

另一个横跨多个系统的更新,是「搜索」功能,苹果重构了聚焦搜索、照片和邮件应用中的搜索能力,安装新系统后,后台会对全设备存储的信息进行「索引」,知道设备上有什么、内容在哪里,因此搜索会更个性化和智能。

近几年,苹果生态的围墙开始松动,iOS 27 进一步开放了 iCloud 共享相册,将支持 Android 和 Windows 设备上传和共享照片。

还有一个很小,但相信口碑会不错的更新:升级 iOS 27 后,AirPods 新增自定义均衡器,用户可以个性化调整耳机的音效。

这次 WWDC 的另一个重点,在于「儿童安全」,以「儿童账户」为核心,系统会立即启用与孩子年龄匹配的保护措施,阻止一些网站和媒体浏览,家长可以进一步管控孩子的 App Store 使用,和联系人方式。

爱范儿上手 iOS 27 Beta 版后发现,还有更多 WWDC 上没说,但非常实用的更新。

比如一个「史诗级」功能:自带的时钟 App,终于支持节假日闹钟,「调休」也会算作工作日开启闹钟了。

天气 App 也重新设计,各种指标有了更清晰的呈现柱状图方式。

其实多项更新单独看都不大,放在一起却能看出 iOS 27 的优先级:减少操作摩擦,修复旧体验,同时为 AI 入口腾出空间。

今晚的主角,还得是重振旗鼓的 Apple 智能。

苹果迟到的 AI 反攻,从 Siri 开始

如果说 iOS 27 是系统层面的修修补补,Apple 智能就是苹果重新抢回 AI 时代的系统入口。

过去两年,苹果在 AI 上的被动不难理解,ChatGPT、Claude、Gemini 等海外御三家已经把用户对 AI 助手的期待抬高了一大截,用户已经不再满足于语音问答,而是开始习惯于多轮对话、文件分析、图像理解乃至更复杂的任务执行。

因此,这次 WWDC 的重心毫无疑问落在了 Apple 智能。 耐人寻味的是,苹果高管 Craig Federighi 表示,一些公司似乎在为了 AI 本身推进 AI,而没有足够关注 AI 最终要服务的人。

(所以,这是在点谁呢?)

苹果给出的 AI 答案是「围绕用户」。Apple 智能要深度整合进日常产品,理解个人上下文、常用 App 和屏幕内容,同时从设计之初保护隐私。

为了支撑这套系统,苹果今年与 Google 展开了更深合作。

双方利用 Gemini 系列模型背后的技术,共同创建下一代 Apple Foundation Models。这些模型会用于苹果内建的 Apple Intelligence 体验,并适配两类运行环境:一类在设备端运行,另一类通过私有云计算在服务器端运行。

从短期看,苹果引入 AI 外援,算是间接承认了自己在通用大模型上的差距,但长期看,这也是一种用时间换空间的聪明策略。十几亿设备带来的使用反馈、请求分布、端侧体验和开发者调用方式,只要经过隐私保护和合规处理,就会成为苹果迭代模型、调度系统和端云架构的重要依据。

此外,苹果还针对最强的 Apple Silicon 系统优化了能力更强的端侧模型,它可以理解并生成语音,也能同时理解文本和图像,并带来更准确的系统级听写、更好的自然语言理解,以及更有表现力的语音反馈。

更明显的变化,发生在入口层面。

在 Siri 被苹果收购 16 年后,它终于重新拥有独立 App 的形态,产品逻辑也明显向 ChatGPT App 靠近。

用户可以在新版 Siri 中查看已有对话,延续之前的话题,也可以开启新的对话。Siri 的对话历史会通过 iCloud 在 iPhone、iPad 和 Mac 之间私密同步。

考虑到用户过去的使用习惯,传统入口仍然保留。用户可以继续说 Hey Siri,也可以按下侧边按钮调用 Siri。

真正体现 iOS 27 交互变化的,是 Siri 与灵动岛的深度整合。

现在只要从屏幕顶部中央向下滑动,灵动岛就会向下展开,变成一个暗色文本框,能搜索,能提问,光标闪烁的颜色也使用了 WWDC 2026 宣传图中那种发光渐变效果。

在这里,用户可以打字问天气、查网页,也可以直接下达复杂指令。

苹果也通过三个场景展示了新版 Siri 的核心能力——充分展现了 Siri 从单纯的问答工具,升级为能够理解屏幕内容、调用个人信息并持续完成任务的系统级 AI 助手。

新版 Siri 能把搜索、提醒、音乐、导航等能力串联起来。你可以查询世界杯赛程,并让 Siri 策划观赛派对、生成菜单、起草群聊邀请;也可以追问演出购票方式、设置抽签提醒、播放歌手新单曲。

在屏幕感知和个人情境上,Siri 还能识别照片中的具体地点,并结合朋友发来的地址信息规划路线。

值得一提的是,WWDC 上所有 Siri AI 的演示,基本都采用了一镜到底的拍摄模式,你能明显感受到 Siri AI 思考的速度没有那么快,还能看到测试版动效的各种掉帧。

保留这些不完美的细节,就是为了告诉你,这次的演示是真实的,避免重蹈 2 年前的覆辙。

哦,对了,在支持最先进端侧模型的设备上,Siri AI 还会获得两项额外能力。第一项是全新的语音体验。Siri 的声音会更自然,也更有表现力。用户还可以自定义 Siri 的语音,包括表达强度和语速。

第二项是系统级听写能力提升。新听写在拼写、标点和大小写方面更准确。由于它内置在键盘中,用户可以在整个系统里使用,包括发消息、写日记、记录想法等场景。这些更新也会扩展到 CarPlay 和 AirPods。

Siri AI 的入口也进一步扩展到 Mac、Apple Watch 和 Vision Pro:用户不仅能在 Mac 上直接选中文件、图片或文本向 Siri 提问,完成报价对比、生成表格、起草邮件等操作。

视觉智能也同步进入 macOS 和 visionOS,既能识别屏幕内容和日程信息并建议加入日历,也能结合 Vision Pro 的空间计算能力,直接理解用户眼前的物体与场景,例如判断背包是否符合随身登机要求。

Apple 智能接管生态入口,但国行用户还得再等等

至于使用范围,苹果称,这些跨 App 的 Apple Intelligence 新功能,将支持所有 Apple Intelligence 已支持语言,并随最新软件版本免费提供。

不止于系统级的基础能力,Apple 智能也深入到每个具体的 App 中。

Safari 浏览器

得益于苹果 AI 能力,Safari 浏览器用起来会更顺心。

全新的 Safari 浏览器能够检测用户打开的网页,按相似主题进行自动分组。

用户还可以通过自然语言,告诉 Safari 自己关注的内容,比如商品上新、放票,更新会及时通知用户。

更「AI」的功能是自定义扩展生成功能,利用自然语言生成浏览器的扩展,比如自动保存美食网页中的食谱。

iMessage、邮件 和日历

AI 也进一步融入了更多系统应用:它能够自动理解短信和邮件中的上下文内容,主动提供操作建议,例如识别活动日程后一键加入日历或提醒事项,聊天中提到相关内容时,也会自动推荐合适的照片发送。

而在日历中,用户甚至可以直接用自然语言创建和修改行程,只需一句话描述活动主题、地点、时间和参与人,系统就能自动生成完整事件,也能快速调整固定日程安排。

电话

近几年,厂商都在借助 AI 改造最传统的「通话」功能,苹果也不例外。

用户和商家进行通话时,AI 会自动抓取、提示用户的个人资讯,例如和航空公司通话提供订票的邮件详情,和餐厅通话提供预订的日程信息。

家庭

在 WWDC 上,苹果也预示了一部分「智能家居生态」的未来。

首先是「家庭」App,AI 会自动识别、归类智能家居的最新动态,并整合为一个事实更新的动态通知。

更有趣的能力在于视觉,利用摄像头智能家居,家庭 App 能理解、描述画面,并能从多个摄像头中调取相关片段组成时间,用户也可以用自然语言搜索特定场景。

快捷指令

快捷指令的自定义功能很强大,但复杂的门槛让普通用户望而却步。

最新的快捷指令,会利用 Apple 智能理解自然语言描述,自动组装各种所需步骤,后续也能用自然语言描述修改。

相机

视觉智能被整合进相机应用中,切换到相应的模式,就能让 Siri 看到相机前的内容,进行智能识别,可以用来记录饮食状况。

图乐园

新版图乐园将基于更强大的图像模型,能够生成更高质量的图像,并支持更丰富的风格,包括写实风格。

从发布会上的例图来看,全新图乐园的产出质感确实比前一个版本更优秀,更有「果味」。

图乐园的编辑也更加灵活, 用户可以圈选某个对象,利用自然语言修改重构。

照片

更强大的图像模型,也为照片应用带来了全新的 AI 编辑功能。

首先是「消除」功能更加强大,可以消除更复杂、更庞大的物体,这有待进一步实测。

新的编辑功能有两个:「扩展」和「重构」。

「扩展」就是 AI 扩图,能够利用 AI 补充更多画面。

比较有意思的是「重构」,通过将平面照片转化为空间照片后,可以改变被摄物体的角度。

图乐园和照片的 AI 编辑功能将会有每日使用限制。苹果称,用户可以通过大多数 iCloud+ 订阅计划获得更高访问额度。iCloud+ 也将包含对兼容 Home 摄像头的 Apple Intelligence 支持。

过去 iCloud+ 卖的是存储、备份和隐私服务,接下来它很可能会变成苹果 AI 的付费入口,苹果不会让用户觉得自己在为一个聊天机器人续费,而是让 AI 成为 iCloud+ 的新价值。

上线节奏方面,开发者可以从发布会当天开始试用新版 Siri。普通用户将在今年晚些时候获得 Siri AI Beta 版本。Siri AI 会先支持英语,并较快扩展到更多语言。

不过,Siri AI 初期不会在欧盟的 iOS 和 iPadOS 上提供。

至于我们心心念念的国行版本,基于监管要求,Siri AI 和其他新的 Apple Intelligence 功能也暂时不会上线。我们也第一时间上手了国行开发者预览版,除了液态玻璃设计的升级,AI 功能几乎可以说是「原地踏步」。

同样值得注意的是,苹果口中「最强大的端侧模型」,目前仅支持 iPhone Air 和 iPhone 17 Pro 等有限机型,隔壁为了苹果 AI 入手 iPhone 16 Pro 的同事,已经哭晕在工位上。

面向开发者,苹果的核心思路也很明确:让第三方 app 接入 Siri,把 Apple Intelligence 从系统能力扩展为生态能力。

通过 App Intents,开发者可以开放 app 内的信息和功能,让 Siri 成为不同应用的统一入口;而更新后的 Foundation Models framework,则进一步开放了端侧模型、图像输入、Custom Skills 以及服务器模型调用能力,让 AI 逐渐成为苹果生态的底层基础设施。

简言之,WWDC26 的重点并不是 Siri 终于变聪明了多少,也不是苹果接入了哪一家大模型,而是苹果开始把 AI 重新写进 iOS 的系统逻辑里。

过去的系统更新围绕设备展开,今年则明显转向模型能力:理解屏幕、读取个人上下文、调用 App、生成内容、完成跨应用任务。iPhone 仍然是核心,但它正在从一个运行 App 的终端,变成 Apple Intelligence 调度个人数字生活的入口。

Apple 智能的魅力,肯定不是模型能力,更像是「信任」。

从发布会到官网,苹果 AI 叙事,强调的始终是隐私、端侧处理、私有云计算和个人上下文。用户使用苹果 AI,首先是因为在 iPhone 里,因为它和系统绑在一起,因为用户愿意让它读取照片、邮件、日程、信息和 App 数据。

未来十年,最重要的 AI 设备大概率仍然是智能手机;苹果要做的,是让 iPhone 继续成为那台用户最愿意信任的 AI 设备。

当然,以上这么多这么丰富这么吸引的全新苹果 AI ,对于我们来说,还得等到真正「准备好」的那一天。

作者:苏伟鸿、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

今年最值得升级的生产力工具,可能是一整张 AI 工位

作者 莫崇宇
2026年6月4日 12:02

AI 工具推荐现在是门显学。

打开任何一个平台,都有人在告诉你「这 10 个 AI 工具必须收藏」「2026 年最强 AI 工具箱」。标题一个比一个夸张,列表一个比一个长。你点进去、收藏,然后,再也没有打开过。

我们自己也推过不少工具。但说实话,大部分 AI 产品用一两周就删了。界面太复杂,响应太慢,免费额度用完就吃灰,还有的纯粹是「能做什么」和「我会用它做什么」之间隔了一条河。

一年下来,真正留在工位上、每天都在用的,就这几个。

也顺便聊聊,它们是怎么嵌进我们真实工作流的。

信息太多的时代,先让 AI 理清关系

Gemini 深度研究 + Kimi

在所有被 AI 改变的工作环节里,搜索可能是最早被掀翻的。

过去做一个选题、一份竞品报告、一次行业判断,最耗时间的不是写,而是找。找资料、筛资料、判断资料 A 和资料 B 之间到底是什么关系。传统搜索引擎给你的是一堆链接,你得自己点开、自己读、自己拼图。

AI 搜索做的事不太一样。它更像在帮你画一张问题地图:这个话题有哪些分支,哪些结论已经比较确定,哪些方向还需要继续挖掘。

Gemini 深度研究适合处理开放性问题。

比如研究一个海外 AI 产品、一条技术路线、一家新公司,它会先把问题拆成几个方向,自动搜资料,最后吐出一份结构化报告。不是说它写的结论都能直接用,但它给的那张地图,能帮你省掉最前面的两三个小时。

例如,我让 Gemini 深度研究整理 WWDC 2026 的爆料信息。它会先生成一份研究计划,把任务分为研究网站、分析信息、生成报告几个阶段,这些报告的 AI 味比较重,不能指望拿来就能用,但它提供了一套清晰的资料路径,省掉了大量前期资料整理时间。

日常中文语境里搜资料,我们更多用 Kimi。

国内公司的公开资料、政策文件、访谈稿、财报、行业研报,扔进去提炼要点、对比差异、整理时间线,基本够用。不过说实话,非付费用户偶尔会遇到算力不足的提示,这是它目前一个绕不开的问题。

两个搭配着用,大问题找 Gemini,日常中文资料搜 Kimi。搜索这件事,从「自己翻链接」变成「AI 画地图然后你挑路走」,效率差的不是一点半点。

你的知识库,正在变成 AI 理解你的入口

飞书 + Obsidian

搜来的资料、开会的结论、读文章的想法、做项目的经验,这些东西放哪?

过去说知识管理,第一反应是建文件夹、做分类、写笔记。但 AI 时代这件事的逻辑变了。知识管理不只是把东西存起来,而是给 AI 建一套理解你的系统。让它知道你的写作风格、判断标准、常用模板、在关注什么方向。

知名 AI 大神 Andrej Karpathy 前段时间聊过怎么构建个人知识系统,方案偏技术派,但思路值得借鉴:协作工具管动态信息,笔记系统管长期沉淀,AI 参与整理、检索和再加工。

落到日常,我们用的是一个更轻的组合:飞书 + Obsidian。

飞书负责每天都在变的东西:会议纪要、项目进度、选题池、需求列表、团队 SOP。Obsidian 负责更长期的沉淀:写作风格、判断标准、工作方法、案例库、阅读笔记、复盘记录。

串起来的方式是这样的:把个人信息整理成分层的 markdown 文件,接着可以通过 OpenClaw 接入飞书机器人,也可以把 GPT、Claude、DeepSeek、Kimi 统一接进来。之后不管调用哪个模型,它都可以先去知识库里翻对应的规则文件,理解清楚背景再回答。

比如让它写视频脚本,它先看你的脚本规则;让它做选题判断,它先看你的内容方向;问它职业规划,它先看你的履历和目标。用得越久,规则文件越完整,AI 对你的理解就越接近真实的你。

说白了,技术门槛其实没那么高,难的是先花一个下午,把自己的工作方式整理成 AI 能读懂的格式。

打工人的会议外挂,终于不只是录音了

Plaud

对每周开 10 个会议以上的打工人来说,开会本身可能只占一半工作量。另一半是整理纪要、提炼重点、追踪待办、同步给没参会的同事。这后半段,往往比开会还磨人。

Plaud 是我们这两年推荐次数最多的硬件,也是近几年少有的硬件黑马。它解决的就是会议结束后那 30 分钟的无用功。

这个小录音设备往桌上一放,会议结束,纪要已经结构化了。客户访谈完立刻把纪要发回去确认,专业且留了书面凭证;重要会议结束把整理好的重点扔给没参会的同事,省掉所有人的同步时间。

但它最好用的地方,其实不是录音转文字本身,而是支持定制 prompt 模板。

这里有一个很多人没意识到的技巧:不要用默认的会议模板,而是换成贴合你岗位的提示词,产出价值通常差好几倍。比如销售可以用「按客户痛点排序总结,列出反对意见」,再加一句「额外梳理客户在会议中表现出犹豫或兴奋的三个瞬间,分析潜在顾虑」。同一段录音,换几套 prompt 重新生成,往往能挖出完全不同的观察角度。

免费得到一份「客户心理学报告」,这件事最妙的地方在于,你不需要学任何新技能,只需要学会怎么把问题问对。

先用 AI 做草稿,正在成为视觉表达的新习惯

GPT-Image-2 + TapNow

内容产出里,视觉一直是最容易卡住的环节。

文字可以自己写,方案可以自己改。但一到配图、海报、PPT 视觉、短视频素材,很多人还得等设计师排期。需求说不清楚,来回改几轮,灵感早就凉了。

今年用得最顺手的组合是 GPT-Image-2 + TapNow。GPT-Image-2 的出图质量稳定、风格可控、提示词体系成熟。科技感配图、产品概念图、社媒海报草稿,它都能快速给出一个能拿来讨论的版本。

注意,是「讨论」的版本,不是终稿。但这一步恰恰最管用,过去很多需求卡在「你说的感觉我不太理解」,现在可以先丢一张 AI 生成的图到群里,所有人对着同一张图说话。

视频生成环节,我们更多用 TapNow。它支持调用 Seedance 2.0 和可灵 3.0,适合把已经确定的角色、产品、环境素材延展成短视频。日常视觉记录、产品展示、社媒短内容,够用了。

这套组合不只服务设计师和媒体人。

销售可以出提案配图,产品经理可以出 UI 草图,品牌营销可以生成海报,老师可以出课件配图。它真正的价值在于正式投入设计资源之前,快速把模糊想法变成可见草稿。提前用 AI 确认方向,沟通成本低很多,返工也少很多。

Vibe Coding 火了,需求表达成了新技能

Claude Code、Codex

今年一个很有意思的变化:越来越多不写代码的人开始用 Claude Code、Codex 这类 AI coding agent。

过去想写一个小工具、改一个网页、做一个自动化脚本,得找程序员。现在把需求说清楚,AI 就能通过自然语言完成相当一部分开发。这也是 Vibe Coding 今年突然火起来的原因。

它让不会写代码的人也能参与软件生产。不需要先学完整的编程语言,甚至不需要理解每一行代码,只需要知道自己要什么,并且持续把需求描述清楚。

配合阿里千问语音输入法,口述需求,让 AI 整理成任务说明,一个人就能跑通过去需要产品、设计、工程一起配合的小工具原型。

生活中也可以用。比如给自己装一个「微信读书 skill」,让它定期分析阅读记录,统计最近关注的主题,推荐下一批书,找认知盲区。

未来很多人未必会成为程序员,但会越来越像一个小型工程团队:能描述需求,能指挥工具,能验证结果,能把重复工作交给 AI。

AI 干活的间隙,我趁机回血

清闲 OC1 Pro

到这里,五个工具聊完了。

但有一个东西,今年给我的回报感可能比上面任何一个都强。它不是软件,也没有 AI 功能。它是一把椅子。

AI 没有把人从工位前解放出去。相反,当我们越来越习惯把长文档、代码、研究、图片、视频都扔给 AI 处理,工作里反而多了很多新的间隙:等 DeepSeek 读完一份文档,等 ChatGPT 重构一个模块,等 Gemini 生成报告,等视频模型吐出第一版素材。

人的角色在变。不再只是埋头输出,而是在「发出任务、等待结果、判断修改」之间来回切换。这让工位上的短暂休息变得比以前重要得多。等 AI 的几十秒、几分钟,可以继续刷手机、盯进度条,也可以活动腰背、调整坐姿、闭眼歇半分钟,再回到下一轮判断。

我工位上这把清闲 OC1 Pro,是最近在科技圈、创业圈非常火的动态人机工学椅,定价 4299 元,不便宜。但比起我待在椅子上的时间,我和床待在一起的时间是比不过椅子的。

颈枕、椅背、坐垫、扶手都能随坐姿变化调整,腰背支撑不是固定在一个位置上。后仰有 5 档,从日常办公到午休都能覆盖,一键脊柱拉伸在连续工作几小时后是实实在在的放松。

Pro 款多了座椅通风,夏天办公室空调不稳的时候体感差距很明显。它不是那种会让你惊呼黑科技的产品。它就是让你坐到下午五点,腰不酸了。

我们过去聊工位升级,聊的是屏幕尺寸、键盘手感、桌面收纳、设备性能。但用了一年 AI 工具之后,我发现工位真正需要升级的,是人和工具的协作关系。

查资料、建知识库、记会议、出画面、写工具,最后是坐得住。

AI 时代最容易被高估的是工具,最容易被低估的是人。

过去两年,AI 生产力工具的付费主体正在发生剧烈的变化。早期更多是个人用户和技术爱好者自己付费,现在不少公司开始把会员订阅、APl token、算力额度纳入员工预算。原因并不复杂,只要一类工具能持续改善表达、判断,创作和执行效率,公司就愿意为它买单。

类似的逻辑也会延伸到办公硬件上。当越来越多人进入AI-native的工作状态,坐在电脑前的时间并没有减少,甚至在一些岗位上变得更长。真正影响效率的,也不只是模型能力和软件体验,还有员工长时间工作时的身体状态、专注质量和办公环境。

一个好的工位,应该让你更快进入工作,也更容易从工作里恢复。它不只是生产力中心,也是一个人和 AI 协作时最基础的身体接口。

我们的办公桌上会有越来越多智能硬件、Agent、模型入口和自动化流程。但无论 AI 怎么进化,坐在椅子上的人,才是所有工作的起点。

工具负责记录、整理、生成和执行。人负责判断、表达、沟通和创造。效率提升的意义,不是接更多任务、坐更久时间,而是少被琐碎消耗,把精力留给重要的事。

照顾好自己,就是 AI 时代最实在的生产力。

作者:莫崇宇、李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,Windows「梦中神机」来了,把你的 PC 变成 Agent 工位

作者 莫崇宇
2026年6月3日 14:12

微软和 OpenAI 的蜜月期,曾经是整个 AI 行业最重要的联盟。

一方握着模型,另一方手握云服务、办公软件、开发者工具和企业客户,双方互相成就,几乎让微软在 AI 时代提前拿到一张头等舱门票。但即便联盟再紧密,微软也不能永远把最关键的 AI 想象力寄托在别人身上。

尤其是在双方关系开始脱钩之后。

刚刚召开的 Build 2026 因此变成一场特殊的发布会。微软比以往任何时候都需要一场酣畅淋漓的 AI 胜利,向外界证明自己究竟是 AI 时代的主角,还是依旧只是 OpenAI 的云服务商?

从 MAI 模型、Azure AI Foundry、到量子计算以及本地智能体能力,再加上黄仁勋和龙虾之父的相继站台,微软展示了一整套覆盖开发、模型、数据、算力和治理的完整生态,其目标也很清晰:将 AI 从 OpenAI 主导的模型红利,转变为微软主导的平台生意。

微软自研模型发布, MAI 补上 AI 供应链最关键一环

相比去年,微软这次把模型放在了更重要的位置。微软 CEO 纳德拉称,Microsoft Foundry 目前已有超过 11000 个模型,覆盖 OpenAI、Anthropic 和微软自研 MAI 模型。

微软的判断是,企业和开发者不会只依赖一个模型完成所有任务。不同任务会对应不同模型,也会受到延迟、成本和能力边界的约束。因此,模型目录、模型选择、运行环境和企业治理,会一起构成新的平台竞争点。

今天,微软自研模型家族正式一口气推出了七款新模型,覆盖推理、代码、图像、语音和转录等方向。

MAI Thinking 1 是其中的推理模型。它采用稀疏 MoE 架构,35B active 参数,总参数规模约 1T,支持 256K token 上下文,足以容纳大约 600 页文档。

微软 AI 负责人穆斯塔法·苏莱曼强调,这个模型没有使用第三方模型蒸馏,训练数据来自干净且合规授权的数据,并在预训练中排除了 AI 生成内容。它已在 Microsoft Foundry 私有预览,之后会进入 MAI Playground 公测。

代码模型 MAI Code 1 Flash 面向日常开发工作流。它由微软端到端训练,使用干净且合规授权的数据,正在向 Visual Studio Code 中的 GitHub Copilot 个人用户推出,入口包括模型选择器和默认自动选择器。

微软称,这个模型针对 GitHub Copilot harness 做了训练和适配,支持 Agentic coding,也支持 adaptive thinking。简单请求保持简洁,复杂任务会投入更多推理预算。

微软把 MAI Code 1 Flash 直接拿来和 Claude Haiku 4.5 比较。

MAI Code 1 Flash 在 SWE Bench Pro 上达到 51.2%,高于 Claude Haiku 4.5 的 35.2%;在 IF Bench 精确指令跟随上领先 28.9 分,在 Advanced IF 上领先 14.5 分。它将支撑微软 GitHub Copilot 的常见编码场景,尤其是代码修改、多轮指令和真实开发环境里的 Agent 任务。
图像和语音模型也被纳入 MAI 体系。

MAI Image 2.5 和 Flash 版本支持文本生成图像和图像编辑,已经进入 PowerPoint,并会扩展到 OneDrive 和 Foundry。

MAI Transcribe 1.5 支持 43 种语言,微软称其速度达到竞品 5 倍,正在集成到 GitHub、Teams、Copilot 和 Dynamics 365 Contact Center。

MAI Voice 2 支持 15 种语言,可通过短样本适配声音,同时内置防滥用保护;低成本版本 MAI Voice 2 Flash 也在计划中。

微软还把 MAI 模型和自己的芯片联系起来。MAI Thinking 1 已针对 Maia 200 优化,端到端运行 MAI 模型时,还能获得 1.4 倍每瓦性能提升。

企业定制也是 MAI 模型的重要方向。未来所有企业不仅会调用模型,也会把自己的流程训练进模型。

为此,微软还发布了 Microsoft Frontier Tuning,核心是 reinforcement learning environments。企业可以把真实工作轨迹、任务步骤、决策、工具调用和评价标准变成训练环境,让模型学习组织内部的工作方式。

PC 变成 Agent 工位,你的桌面就是数据中心

除了模型,微软也把重点转向本地算力。

Surface RTX Spark Dev Box 是这部分最值得一提的产品。纳德拉把它称为面向开发者的「dream machine(梦中神机)」。这台设备提供 1 petaflop AI 算力、20 个 CPU 核心和 128GB 统一内存,计划在今年秋季推出。

Surface RTX Spark Dev Box 基于 Nvidia RTX Spark 平台。正如 APPSO 前几天所报道的,RTX Spark 是面向 PC 的下一代 SoC,把 CPU、GPU 和 AI 能力整合到一颗芯片中,并支持统一内存架构和集成 DRTM。

英伟达 CEO 黄仁勋在视频连线中表示,PC 正在从个人电脑走向个人 AI。他举例称:用户外出时,可以给自己的 PC 发消息,让本地 Agent 调用工具、修改代码、推进设计,再和用户继续迭代。

PC 不再只是一个被人操作的工具,也开始变成可以持续运行任务的 AI 助手。

此外,微软还为 Surface RTX Spark Dev Box 预装开发优化的 Windows 11 Pro,内置 VS Code、WSL、PowerShell 7、GitHub Copilot、Coreutils for Windows 等工具。

现场演示中,这台设备默认没有新闻流、组件弹窗和通知,使用深色模式;Windows Insider 版本还加入了纵向任务栏,不仅开发工具被进一步系统化,命令行和容器体验也更接近 Linux。

硬件上,它采用阳极氧化铝 3D 打印一体机身,拥有 1000 个通风孔,热设计功耗 100W,接口包括 USB-C、USB-A、HDMI、以太网和耳机接口。

Windows 将在 AI 时代大有作为。本地 AI 要让 PC 成为 Agent 工作流的一部分:开发者可以在本地调试、运行模型、调用工具、看日志、开容器、跑子 Agent,再把更大规模任务交给云端。

Agent 需要新入口,微软探路下一代 AI 终端

相比 Surface RTX Spark Dev Box 面向开发者,Project Solara 更像微软对 Agent 设备形态的提前试探。下一台计算机不会只是一台设备,而是一组协同工作的设备。

微软展示了两类参考设备。

第一类是固定在桌面上的工作终端,基于联发科芯片。

用户走近后,系统会安全识别身份,并让用户进入自己的 Agent 工作环境,访问基于 Work IQ 的 Microsoft 365 Copilot。

它可以显示当天重要事项,也支持点按或语音交给 Agent 处理任务,还能作为 Windows PC 伴侣,或通过 Windows 365 接入 Cloud PC。它更像企业办公桌上的 Agent 控制终端,负责身份识别、任务提醒、语音交互、Copilot 调用和 Cloud PC 接入。

第二类是可佩戴数字工牌,使用 Qualcomm 可穿戴芯片,面向移动工作场景。

演示中,用户通过指纹解锁后,要求 Copilot 为社交媒体帖子收集现场素材。工牌负责拍摄画面,Agent 负责挑选镜头、清理画面,并发送给本人和团队审阅。发布会还展示了医疗场景:护士可用它进行免提语音记录、区分说话人、核验生命体征、扫描药物并验证护理流程。

这两类设备只是参考形态。

手机和 PC 仍然重要,但一些工作场景需要更靠近人、空间和传感器的硬件。面对未来的 Agent 时代,企业可以更换 Agent,调整外观、屏幕、传感器和输入方式,在同一硬件和软件基础上适配不同垂直行业。

龙虾之父站台,微软给个人 Agent 加上企业护栏

Surface RTX Spark Dev Box 讲的是本地算力,Project Solara 讲的是新设备形态,OpenClaw on Windows 则把焦点转到个人 Agent 如何安全进入企业。

微软展示了适用于 OpenClaw 的 Windows 套件,可以帮助用户设置自己的 OpenClaw,或连接已经托管在 Windows 和 WSL 中的 OpenClaw。

应用里可以查看 gateway、参与 OpenClaw 的其他机器、会话和使用情况,也能快速进入 chat、canvas 和主控制台。

安全演示围绕文件权限展开。

OpenClaw Windows Companion app 允许用户控制 Agent 能访问哪些文件夹,以及这些文件夹是只读、可写还是隐藏。它也可以配置剪贴板访问、联网权限等细粒度选项。

微软在现场要求 OpenClaw 删除桌面上的所有文件,并临时关闭 OpenClaw 自身的安全层,只保留 MXC 的系统级限制。由于桌面文件夹被设置为只读,OpenClaw 多次尝试删除和检查目录,最后仍无法删除文件,桌面上的 94 张 JPG 得以保留。

龙虾之父 Peter Steinberger 也透露,过去几个月 OpenClaw 与 Microsoft、GitHub、OpenAI、Nvidia 等团队合作,增加了可观测性、自动权限模式,并重新设计访问控制。现在权限不再只有全部允许或全部禁止,用户可以指定哪些文件夹只读、哪些可写、哪些对 Agent 隐藏。

他还宣布,OpenClaw 可以在公司内部运行,harness 本身已经插件化。企业可以接入自己信任的 Copilot、Codex 或其他系统,把已有规则带进 OpenClaw,再获得持续记忆、heartbeat,以及在 Slack 或 Teams 中使用 OpenClaw 的能力。

AI 下半场,微软盯上企业平台入口

除前述硬件和 Windows 更新外,微软还发布了更多产品。

开发工具方面,微软发布新的 GitHub Copilot app。它更像一个 Agent 编码会话管理器,开发者可以同时启动多个 issue 会话,并用 Git worktree 隔离,让多个 Agent 并行工作。

Agent Merge 则负责跟踪 PR 的 CI 检查、代码审查和合并冲突。微软还发布 Raven,这是一个 Agent first SDK,用于连接 backend as a service,处理身份、存储和数据库 schema 等后端问题。

上下文能力由 Web IQ 承担。

Agent 要进入企业流程,需要连接网络新信息、企业业务对象、实时运营状态、人员关系和组织流程。Web IQ 负责外部网络信息,支持网页、新闻、图片和视频,模型无关、MCP native,可接入任意 Agent runtime,让 Agent 的回答建立在更新、可验证的内容上。

Copilot 也在升级为更复杂的工作入口。

纳德拉称,今年夏天会把 chat、cowork 和 code 放入同一个 Copilot,并发布 Autopilots。首个 Autopilot 名为 Scout,面向 Copilot Frontier 用户开放,可在 Teams 群聊和 Outlook 线程中工作。

企业治理层面,微软发布 Agent 365。它为 Agent 提供身份、权限、访问控制和合规管理,并接入 Entra、Defender 和 Purview。Agent 365 可管理托管在 Azure、AWS、GCP 或其他环境中的 Agent,也支持不同框架构建的 Agent。

科研方向则是 Microsoft Discovery。纳德拉把它定义为面向科学发现的 Agent 平台,希望把论文研究、候选方案生成、仿真计算、实验设计和自动化实验室连接成连续流程。

发布会最后,微软还正式发布了新一代量子芯片 Majorana 2,其量子比特平均寿命可达 20 秒,最高接近 1 分钟,比 Majorana 1 高约 1000 倍;操作时间为 1 微秒,尺寸仍为 0.01 毫米量级,并采用全数字控制。

至此,这场拼图庞大且野心勃勃的发布会终于完整。AI 的第一阶段,主导行业叙事的是模型公司;第二阶段,主导产业落地的可能是平台公司。

谁来选择模型,谁来分配任务,谁来管理 Agent,谁来定义权限和审计,谁就更接近企业 AI 的核心入口。当模型逐渐成为标准能力之后,真正决定价值归属的,将是承载这些模型运行的系统。

如果说当年那张 AI 时代的头等舱门票,很大程度上是借助盟友 OpenAI 的力量抢下的;那么现在,微软已经坐进了驾驶舱,并打算亲自接管这架飞机的航向。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一夜之间,ChatGPT 变成了第二个 Claude

作者 莫崇宇
2026年6月3日 14:02

一夜之间,ChatGPT 和 Codex 的合并提上日程。

Codex 最初面向开发者,用于编程和工程任务;现在,OpenAI 准备把它推向更广泛的企业工作场景。公司宣布,未来几周内,Codex 将进入 ChatGPT。

整合后,用户无需再在两个产品之间切换。Codex 的 Agent 能力将并入 ChatGPT,覆盖桌面端、移动端、浏览器,以及 Excel、Slack、PowerPoint 等企业常用工具。

在 OpenAI 的设想中,ChatGPT 将从对话入口升级为企业员工调用 Agent 完成工作的统一界面。Codex 也将从写代码工具,变成能够处理数据分析、销售准备、市场素材、产品原型、投资研究、工程修复和安全扫描的工作 Agent。

更关键的变化在于,今天过后,OpenAI 的产品逻辑开始全面对标 Anthropic。

Codex 进入 ChatGPT,意味着 OpenAI 不再只围绕通用聊天入口组织产品,而是开始像 Claude 一样,把代码、文件、企业系统、长任务和工作流代理放进同一个客户端。ChatGPT 的新形态,也越来越接近 Claude 客户端。

500 万周活之后,Codex 站上 C 位

Codex 是本次发布会当之无愧的主角。

OpenAI 披露,Codex 周活用户已经超过 500 万,比今年年初增长 400%。Codex 最早用于软件开发,但使用人群正在大幅飙升。

分析师、市场人员、运营、设计师、研究员、投资人和银行从业者等非开发者,已经占 Codex 用户约 20%,增长速度达到开发者用户的 3 倍以上。

OpenAI 列举了几个官方案例,比如 Cisco 已将 Codex 推向整个组织。它最初用于软件开发生命周期,现在也被用于更多内部流程。OpenAI 称,Cisco 的 AI 相关产品已经全部通过 Codex 构建、部署和交付。

企业业务正在成为 OpenAI 更重要的收入来源。OpenAI 在发布会上表示,企业业务目前贡献约 40% 收入,预计年底将达到 50%。

The Information 披露,OpenAI 联合创始人兼总裁 Greg Brockman 上月曾向员工表示,Codex 来自企业客户的收入最近一度实现周环比增长 50%。Sam Altman 也在近期全员会上提到,Codex 整体使用量每天增长 5%。

目前 ChatGPT 和 Codex 是两个产品,用户在不同工作场景下需要反复判断该用哪个工具。OpenAI 的下一步,是把 Codex 放进 ChatGPT,让Agent能力进入统一体验。

完成整合后,Codex 的运行方式也会改变。

Codex 过去更多在本地运行,未来Agent将更多在云端持续工作。用户无需 24 小时在线,Agent可以在云端持续执行任务、更新进度、生成结果,并在需要时回到 ChatGPT 中交付。

此外,据 The Information 报道,OpenAI 准备把 ChatGPT、Codex 和浏览器 Atlas 合并为一个桌面应用。短期内,用户或许还会看到由 Codex 或 ChatGPT 分别处理任务的选项;长期看,系统会自动判断该由哪个Agent、在哪个环境中执行任务。

六类岗位插件登场,Codex 深入工作流

OpenAI 试图把 Codex 从通用Agent做成更贴近岗位分工的企业工具。为此,OpenAI 发布了六类面向具体岗位的 Codex 插件。

这些插件把相关应用、技能、指令和工作流程打包进 Codex,合计覆盖 62 个热门应用和 110 项技能。OpenAI 的目标,是让 Codex 适应企业既有工作方式,直接连接团队已经在使用的工具和业务系统。

数据分析插件面向分析师和业务团队,可以查询产品及业务数据,解释关键指标变化,生成报告和 dashboard。它连接 Snowflake、Databricks Genie、Hex、Tableau 等工具。

创意生产插件面向市场和创意团队,可以把 brief 转化为可评审素材,生成 campaign board、展示广告变体、产品生活方式图和电商图集。它连接 Figma、Canva、Shutterstock、Picsart、Fal 等工具。

销售插件用于整合客户上下文,帮助销售团队寻找高优先级客户和信号、准备客户会议、完成跟进、更新客户记录、制定 close plan、检查高风险交易。它连接 Salesforce、HubSpot、Slack、Outreach、Clay、Rox、Actively 等系统。

产品设计插件用于把早期想法变成可评审原型,包括探索产品方向、检查用户流程、从 live URL 生成原型,以及把静态截图变成交互界面。相关成果可继续在 Figma 和 Canva 中使用。

公开股票投资插件面向投资人,可以处理财报、公司比较、市场信号和投资 thesis 变化判断。它接入 Moody’s、Daloopa、Datasite、FactSet、LSEG、S&P、PitchBook、Hebbia 等数据来源。

投行业务插件面向银行家,用于把研究和尽调材料转化为客户材料,包括 pitch、可比公司和交易分析,以及基于尽调信息形成建议。

OpenAI 表示,Codex 目前已有超过 100 个插件。

后续插件还会覆盖 Corporate Finance、Private Equity Investing、Marketing Strategy、Strategy Consulting 和 Legal 等岗位。公司希望把插件生态开放给合作伙伴,让第三方直接在 Codex 和 ChatGPT 中创建并部署自己的插件。

企业汇报不一定得是 PPT,也可以是网站

在插件之外,OpenAI 还把企业交付物的形态往网站和轻量应用上前进了一步。

Sites 目前以预览形式面向 Business 和 Enterprise 客户推出。它允许 Codex 把想法、分析和计划转化为可托管、可交互、可分享的网站或轻量应用,并通过 URL 分享给同一 workspace 内的成员。

借助 Sites,Codex 的输出不再局限于文档、表格和幻灯片。企业团队可以把客户评审材料变成一个交互网页,集中展示产品更新、开放问题、使用趋势和下一步行动;也可以把财务模型变成 scenario planner,让管理层直接比较不同假设;还可以把发布材料变成 launch hub,持续更新 messaging、里程碑、负责人和决策状态。

发布会演示中,OpenAI 构造了一家银行 Hudson Bank。Codex 可以从邮件和日历中读取活动信息,生成参会公司行业分布;也可以每天早上 7 点从 Salesforce、Slack、日历和邮件中生成 CEO briefing。

在客户会议场景中,Codex 能从 Box 中找到销售模板,读取 Salesforce 和 Slack 里的客户记录,再生成一份适合会议使用的销售 deck。

OpenAI 还在与 Vercel、Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期合作伙伴共建 Sites 生态。

当 Codex 能生成网站、报告、表格和幻灯片后,OpenAI 也需要解决另一个问题:用户怎样和模型一起修改接近成品的内容。

annotations 就是面向这个环节的功能。

开发者此前已经可以在 Codex 中对代码、Markdown 文件和 Codex 生成的网站进行批注,指出具体位置并要求 Codex 修改。现在,这种交互方式扩展到文档、电子表格和幻灯片。

用户可以在网站里选中导航栏,要求 Codex 调整字体;在投资 thesis 中高亮某个判断,要求 Codex 说明来源;在幻灯片里标记图表,要求给出更清晰的标签。Codex 会围绕被选中的部分修改,保留用户已经认可的其他内容。

发布会中,OpenAI 展示了在 spreadsheet 中选中数据,让 Codex 生成图表;也展示了在 dashboard 中标注某个区域,让 Codex 增加一句发布表现摘要。

随着Agent越来越能生成接近成品的文件,用户需要一种更自然的方式参与修改。annotations 处理的是 AI 交付物的最后编辑问题,让用户无需反复重写 prompt,也不用要求模型重新生成整份材料。

 Agent 之争,从 Coding 开始

Codex 的另一个重点方向,是更长时间、更高自治度的任务执行。

OpenAI 展示了 goal command。用户可以给 Codex 一个目标和完成条件,例如拉取昨日发布后的所有 bug,为每个 bug 准备一个 PR,并确保所有测试通过。演示中,Hudson Bank 的 backlog 中约有 24 个 bug,Codex 可以在数小时内产出相应 PR。

代码迁移是更能体现长任务能力的场景。

演示者询问后端系统使用的 Java 版本,Codex 回答为 Java 8。随后,用户要求 Codex 将整个代码库迁移到 Java 26,并确保所有测试通过。OpenAI 表示,这类任务可能需要 Codex 连续运行数天,对应过去数月级别的工程工作。

OpenAI 还展示了 appshot。它类似更智能的截图,可以读取当前应用的视觉上下文和文本上下文,并让 Codex 通过 computer use 直接操作应用。

在演示中,Codex 像墨西哥用户一样进入移动应用 onboarding 流程,选择国家代码、填写手机号、测试验证环节,最终发现墨西哥用户无法完成注册。

安全场景中,Codex Security 插件可以扫描某个分支,指出潜在漏洞并在代码行内评论。演示中,Codex 将一个企业 SSO 相关问题标为 P0,并生成修复方案。

OpenAI 还展示了对整个 identity service 代码库的深度扫描,耗时 6.5 小时,报告覆盖威胁模型、攻击向量、信任边界和全部安全发现。

OpenAI 表示,普通 Codex 用户可以使用基于 GPT 5.5 的 Codex Security。更深入的安全需求,可以使用专门模型 GPT 5.5 cyber。

Codex 的转向,其实也有明确的竞争背景。

今天,The Information 爆出了更多内幕消息,Anthropic 推出 Claude Code 预览版后,OpenAI 意识到自己在编程工具上被对手领先。

早在 2024 年秋季,Claude 在 OpenAI 内部某些指标上已经超过 OpenAI 模型。这个变化让 OpenAI 感到压力,因为 OpenAI 长期认为,AI 编程能力会加速自身研究进程,并影响更强 AI 系统的开发。

2025 年 1 月,OpenAI 发布 Operator,这是一个通过浏览器点击完成任务的Agent,可用于旅行规划、购物等场景。但 OpenAI 内部随后发现,让 AI 在浏览器里逐步点击效率较低。对于构建电子表格、修改文件、处理复杂任务等场景,让 AI 写代码来控制计算机,速度和稳定性更好。

随后,Codex 团队在 OpenAI 内部获得更多资源。The Information 称,该团队像「创业公司中的创业公司」一样运作,并开源了 Codex 背后的部分代码,以便更快从用户那里获得反馈。

Codex 的 harness 也成为产品能力的一部分。它帮助 AI Agent调用工具、操作系统、处理文件并替用户执行动作。OpenAI 决定把 Codex 与 ChatGPT 整合,正是看中了这套执行能力。

今年 1 月,OpenAI 已重组团队,使产品团队和负责相关底层模型的研究人员更紧密协作。随后,OpenAI 又把 ChatGPT、Codex 和 API 团队合并成一个组织,由 Thibault Sottiaux 负责核心产品和平台。

Codex 是 OpenAI 押注的执行层。ChatGPT 提供分发入口,Codex 负责完成任务,插件连接企业软件,Sites 把成果变成可交互工作空间,annotations 处理交付物的修改,语音模型承担客户服务入口。

对 OpenAI 来说,这既是产品整合,也是对 Anthropic 的回应。

Claude Code 让 Anthropic 在开发者群体中获得优势,OpenAI 则试图把 Codex 放进 ChatGPT 这个更大的流量池。The Information 披露,OpenAI 希望借超级应用把 Codex 带给超过 9 亿消费者用户,以扩大收入规模。

尤其是,企业收入的重要性也在上升。OpenAI 和 Anthropic 都需要更大资本池来购买 AI 芯片、招聘研究人员,并为未来资本市场计划做准备。Codex 能否从开发者工具成长为企业工作入口,将影响 OpenAI 在企业 AI 市场中的位置。

对话框只是 AI 时代的开胃菜,真正接管工作流才是 Codex 的野心所在,也是企业 AI 的究究分水岭。

附上参考地址:
1.https://openai.com/index/codex-for-every-role-tool-workflow/
2.https://www.theinformation.com/articles/inside-openais-decision-combine-codex-chatgpt?rc=qmzset
*封面由 AI 生成

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率

作者 莫崇宇
2026年6月1日 18:53

1492 年,哥伦布驶向大西洋深处。远洋航行当然需要速度,但真正决定船队能否抵达彼岸的,是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的,正是这种并不浪漫的工程逻辑。

后来,荷兰人设计出「福禄特」商船:造价更低、船员更少、货舱更大,能在大西洋航线上稳定往返。远洋航行由此从冒险家的孤勇,变成一门可复制、可计算、可扩张的生意。

今天的 AI 模型竞争,也走到了类似的十字路口。

过去,人们谈模型,习惯谈参数、榜单和峰值能力,但 APPSO 在使用 Claude Code、Codex 这类 coding agent 之后,明显感觉到当 AI Agent 开始走向生产环境,真正在乎的问题变得有些不一样了:能不能持续处理高频请求,能不能稳定调用工具,能不能理解复杂界面,能不能嵌入企业既有流程并长期运转。

这些问题的答案,往往不在跑分榜单里。

最近,阶跃星辰正式发布并开源 Step 3.7 Flash。作为面向生产级 Agent 的新一代 Flash 模型,它主要服务 Agent、Coding、Search 与多模态工作流。

它出现的时机,恰好踩在这个路口上。生产级 Agent 要的早就不只是快和便宜,更重要的是够可靠、够好用、够容易部署,还能在真实工作流里一天天产出结果。

Flash 模型,不再是旗舰的平替

过去,Flash 模型常被当成旗舰模型的轻量版,卖点无非就是快和便宜。但当 Agent 成为工作流的核心,Flash 模型的角色就变了。

如果模型在多轮任务中容易偏离目标,无论是企业还是个人都很难放心采用。相反,一个模型若能在速度、成本、工具调用、多模态理解和生态兼容之间取得平衡,才有机会成为 Agent 系统真正可依赖的基础能力。

某种意义上,Agent 时代要的 Flash 模型,已经从「更快的小模型」升级成了「生产效率最高的基座模型」。

它既要够得着旗舰模型的能力上限,又要扛得住大规模 Agent 调用的效率压力。Step 3.7 Flash 的定位,正是后者——新一代 Agentic 基座模型。

而生产级 Agent 的第一道门槛,是理解真实工作环境。

大量 Agent 任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。只擅长文本问答的 Agent,很难真正处理这些任务。

Step 3.7 Flash 重点强化的,正是原生多模态理解与执行能力。

它可以理解 UI、图表、文档、图片和应用界面,也可以在复杂视觉问题中自主裁剪、放大、重读图像。遇到信息不确定的情况,模型还能主动发起搜索,并对文本和图像信息进行交叉验证。

这里有个反直觉的设计思路。对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃反其道而行:权重里只留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度,用「多看几眼、多查几遍」去换「参数本来不够用」的那部分能力。

低延迟和高吞吐,到这里就不只是部署时的优势,直接变成了能力本身的一部分,巧妙且机智。

比如在这个驾驶舱操作的演示中,用户只输入「如何起飞」,模型就会自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并生成分步骤教程。

这里的重点不止在于它能识别一张驾驶舱图片,更关键的是,它能把一个密集、陌生、强依赖上下文的视觉环境,转换成一个人可以照着做的任务指引。

能看懂,和能教你动手,难度系数完全不一样。

我们还把 Step 3.7 Flash 接入了一套手机 GUI Agent 流程,并用一台 vivo 手机完成演示。

手机通过 USB 连接 Mac,打开 ADB 调试授权后,终端就可以获取手机当前截图,并通过 scrcpy 同步显示手机画面。随后,脚本把这张截图发送给 Step 3.7 Flash,让模型判断屏幕里正在发生什么。

比如我们让 Step 3.7 Flash 看了一眼手机里的微信读书热搜榜。它不只是把页面上的字读出来,还能理解榜单结构:哪些是书名,哪些是封面,当前排名是多少,有多少人在读,推荐值又对应哪本书。

这类能力的意义在于,Agent 面对的是真实 App,而不是整理干净的截图。它要先看懂页面,才有可能继续帮用户找书、比对热度、整理榜单,甚至执行下一步操作。

我们又把它放到美团小判官这样的页面里,让它处理一条商家申诉场景。页面里同时有用户评价、图片证据、商户回复,以及「用户更有理」「商家更有理」这样的处理按钮。

对模型来说,这已经不是简单的 OCR,它是在理解一段业务流程:谁在投诉、争议点是什么、证据是什么、平台接下来允许做什么。多模态 Agent 要进入真实工作流,遇到的往往就是这种混合了文本、图片、判断和操作入口的界面。

换到 Blender 场景里,用户输入「怎么删除这个方块」,模型会识别 Blender 的界面结构、图层、工具栏和当前编辑状态,再给出删除指定方块的操作步骤。

再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」,模型会识别不同图片中的信息内容,理解设计元素之间的关系,并生成专业分析。

Step 3.7 Flash 另一项关键能力,是联网与视觉搜索增强。

Agent 在真实业务里碰到的问题,往往牵扯动态信息、外部资料、多源证据,还有一堆残缺的输入。模型要是只啃自己肚子里那点知识,时效性和准确性上很容易翻车。

「瑞石楼」这个演示就很典型。模型先从用户上传的图片里读出可见的线索,围绕这些线索生成检索词,用网页抓取工具去外面查资料,最后把图里的视觉信息和网上的文字信息拼成一个完整回答。

搜索到这里,已经不是返回一串网页链接那么简单,模型是围着任务目标,主动去找、去筛、去对、去组织证据。这正是 Search Agent 和 Research Agent 真正需要的干活方式。

官方提到,Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等复杂视觉任务 Benchmark 上,展现出接近更大规模旗舰模型的表现。这也意味着模型能够在信息不充分的情况下继续推进任务,并减少未经验证的回答。

让 40 个 Agent 同时开工,这才是大模型下场干活的正确姿势

Agent 与普通聊天机器人的区别,在于调用密度更高。

一次普通问答往往只有一轮交互,而 Agent 完成任务时,需要反复观察环境、调用工具和读取结果。Coding Agent 要读代码、改文件、运行命令;Search Agent 要检索、核对和整理信息;办公 Agent 要处理表格、文档和邮件。

调用次数一旦大幅增加,模型速度和成本就会成为系统级问题。

Step 3.7 Flash 采用稀疏 MoE 架构,总参数为 196B 加 1.8B ViT,激活参数仅 11B,最高生成速度可达 400 Tokens/s。对于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent,这意味着同样时间内可以完成更多轮观察、调用和推理。

比如,Step 3.7 Flash 可以构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,并实时汇总它们对 5 个 MVP 方向的偏好。

批量跑 Agent 的价值,就在这里了。

过去一个模型做一次分析,成本和延迟都还能忍。可一旦企业同时跑几十个 Agent,分别扮演用户、专家、销售、产品、运营、客服,吞吐能力立马成了前提。速度不够,反馈就慢;价格太高,规模化根本无法成立。

类似地,Agent 并行实时构建大型知识图谱,同样属于高频、多步骤任务。模型价值不仅体现在生成速度,更体现在单位时间内完成更多观察、检索和推理。

再看信息整理。我丢给它一句「我要写一篇自动驾驶的综述,分头去查技术路线、政策法规、市场格局、代表公司四个方向」。

这类任务看似只是汇总资料,实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长,调用次数越密,模型吞吐的差距就越容易被放大。

Step 3.7 Flash 给我的直观感受是快,但快的同时质量没有打折——从全网搜集四个方向的资料各自归到对应板块,技术路线讲得清楚,政策法规和市场格局的信息也分得开,没有出现把不同方向揉成一团的情况,结构化输出该有的层级都在。

值得一提的是,Step 3.7 Flash 完成任务的性价比极高,尤其是对 Agent 这种高频任务形态更友好。

一次 Agent 任务往往包含拆解、检索、读网页、调工具、比对结果和整理输出,调用次数远高于普通问答。单次成本差异,放到完整任务链里会被迅速放大。

官方数据显示,开启 Advisor Mode 后,Step 3.7 Flash 的编程能力达到 Claude Opus 4.6 的 97%,但每个任务成本大约只有后者的九分之一。

也正因为如此,Step 3.7 Flash 的价值不能只用「快」来概括。放到 Agent 工作负载里看,它同时解决了三件事:高吞吐减少等待,更低任务成本支撑规模化运行,接近头部模型的编程能力则让它有机会进入真实工作流,承担持续、复杂的任务。

此外,Agent 要进入生产系统,关键还在于稳定调用工具。Step 3.7 Flash 在高可靠工具调用与编排上做了优化。官方称,它可以在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,并保持任务轨迹一致,降低任务偏移和执行失败的概率。

官方披露了几组数据。Step 3.7 Flash 在考察多工具协同的 Toolathlon 上达到 49.5%,在考察真实环境下日常自主任务执行的 ClawEval 1.1 上达到 67.1%,在横跨 44 种职业任务的 GDPval 上达到 45.8%。在 τ²-bench Telecom 的低、中、高三档推理难度下,通过率均超过 98%。

当然,Agent 生产化还有一个容易被低估的条件:模型必须适配工作流。模型通常被放进一套 harness 里,周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。

对此,Step 3.7 Flash 针对 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容优化,也面向 MCP、Skills 等工具调用协议和开发链路进行适配。

开发者因此可以更容易地把模型放进已有 Agent 框架中,而不必重新改造整套流程。对企业来说,适配价值不言而喻:模型越容易进入既有系统,试用和部署周期越短,工程成本越低。

目前,Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 与开发者生态项目中完成接入验证。阶跃星辰也在与 Fireworks AI、DeepInfra、Modal Labs 等 AI 基础设施与推理平台推进适配,后续还会接入 OpenRouter、ZenMux 等海外模型聚合与开发者平台。

🔗 https://huggingface.co/stepfun-ai/Step-3.7-Flash

截至目前,官方还提供关于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、国内开放平台 API、海外开放平台 API、Studio 在线体验,以及阶跃 AI App 入口。

这些入口意味着,它同时面向开发者试用、企业 API 接入和开源生态使用。更重要的是,Step 3.7 Flash 支持云端和本地部署。官方还提供了端侧多精度版本,面向个人工作站和本地环境进行优化。

海外开发者的实测反馈,也补上了官方数据之外的视角。有人在本地 MoE 测试中对比 DeepSeek V4 Flash、Step 3.7Flash 和 Minimax M2.7,Step 3.7 Flash 在 agg@64 下运行速度超越其它模型,达到 2123.13 tok/s;

也有开发者提到,自己用 Gemini 3.5 Flash 写代码后,再让 Step 3.7 Flash 检查,能找出 7 个以上小 bug 和错误。无论是指向本地吞吐,还是指向代码排错,都切实地说明 Step 3.7 Flash 已经开始进入真实开发流程,并被开发者当成可以长期使用的生产力工具。

基座模型,就该为 Agent 而生

体验完 Step 3.7 Flash,APPSO 发现它比起追求某个维度的跑分,更强调工程实用性。

多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些单拎出来都不算新鲜,可它们凑在一起,恰好补上了 Agent 在生产环境里最需要的短板。

这条路径并不花哨,但很适合 Agent 当前所处的阶段。我们过去问一个模型,问的是它够不够聪明。可 Agent 时代,真正该问的是另一个问题:这个模型,是为谁设计的。

这两个提问背后的出发点就不一样。

一个是模型为人优化,意味着它默认面对的是一个会读、会等、会自己脑补的人类。你问一句,它答一句,慢几秒没关系,偶尔含糊也能靠你补上。

但 Agent 不会,Agent 要在观察、调用、推理、纠错的循环里连轴转,它一天发出的请求,可能比一个人一年说的话还多。它不会替模型打圆场,模型跑偏了,它就跟着跑偏。

为人优化的模型,未必适合 Agent 。这也是为什么 Flash 这个词,在 Agent 时代有了新的含义。它不再只是旗舰的廉价替身,而要从头按 Agent 的脾气重新设计了一遍。

Step 3.7 Flash 这些特点恰好对应了这个逻辑。

原生多模态,是因为 Agent 得先看见任务现场;400 Tokens/s,是因为高频调用经不起慢;工具调用的稳定性,是因为长程任务断一环就全断;harness 适配,是因为模型再强,进不去现成的系统也白搭。

它不是冲着榜单去的,是冲着「Agent 究竟怎么高效、高性价比干活」去的。从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰一路强化的,其实都是同一件事:让模型为 Agent 而生,推动 Agent 进入规模化商用。

这也会成为模型今后一个重要的进化路线,Step 3.7 Flash 也还不是终点。但它让我们看到了一个变化:评判 Agent 时代的模型,不该只盯着它有多聪明,而要看它愿不愿意把那些琐碎的工程账,一笔一笔算明白。

1492 年真正改变世界的,其实不是哥伦布那一次惊险的横渡。反而是后来那些福禄特商船能一趟趟稳稳地出海、返航、装货,然后再出发。冒险家负责抵达彼岸,商船负责让彼岸变成航线。

模型竞争走到 Agent 这个阶段,道理也类似。真正拉开距离的,不只是跑分上的惊艳,更是那些能让 Agent 反复出发、可靠抵达,并把能力沉淀成航线的模型。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米:请叫我 Token 价格屠夫

作者 莫崇宇
2026年5月27日 17:54

押注 2026 年 Token 大涨价的人,短短一周迎来两次打脸。

5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降价;今天凌晨,小米 MiMo-V2.5 系列跟进降价,最高降幅达到 99%。

与此同时,小米 Token Plan 计费体系同步优化,定价不变,可用量提升至原来的 5 至 8 倍。

没有出乎太多意料,海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊 Token 成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把 AI 行业推向何方

Token 价格打骨折,AI 行业迎来最严厉的父亲

小米此次公告显示,旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价,最高降幅达 99%,且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过,99% 的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例,一旦命中缓存,输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中,价格依然维持在 3 元每百万 Tokens,输出价格则为 6 元每百万 Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变,Credits 大幅提升:Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元, Credits 的额度,也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系,MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token,未命中缓存则要 300 Credits / token,输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线:4 月 24 日 DeepSeek V4 预览版发布;次日 V4-Pro 开启 2.5 折优惠;4 月 26 日,缓存命中价格暴降至首发价的十分之一;到 5 月 22 日,临时折扣干脆变成了永久降价,V4-Pro 永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在 Agent 场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动,让更多人体验 MiMo,并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线,到 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。

从平台视角看,低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对 token 价格战。她当时的判断是,低价 token 加开放第三方 Agent 框架,容易让平台陷入成本失控。

她提到,第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费,真实 API 成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的,是一套自认为能够支撑低价的推理工程方案。

按照小米公告,其技术团队基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存 token 数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯 AI 模型公司,小米的手机、汽车、IoT 和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口,避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的 Infra 实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进,更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限。下一阶段,模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限,而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时,我们才会真正看清,属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeek 要用蜜雪冰城的打法,做中国版 Claude Code

作者 莫崇宇
2026年5月25日 17:33

DeepSeek 之于大模型,就像蜜雪冰城之于奶茶。你不必纠结性价比,因为它的本事你挑不出毛病,你的钱包它也从不为难。

最近,DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 API 将永久降价。同时,DeepSeek 表示,API 已完成输出提速与服务扩容,速度更快,服务更稳定,默认支持 500 并发,企业用户可以在线申请更高并发。

发布模型,再给出折扣,接着降低缓存命中价格,最后把临时优惠变成长期价格。大模型 API 的价格基准正在被重新改写,而低价模型背后的下一站,很可能是 Agent。

DeepSeek 永久降价,梁文锋把 Token 价格打骨折了

让我们先来简单梳理一下 DeepSeek 的降价时间线:

  • 4 月 24 日,DeepSeek V4 预览版正式发布。
  • 4 月 25 日,DeepSeek 宣布 V4-Pro 开启 2.5 折优惠。
  • 4 月 26 日,DeepSeek 宣布缓存命中价格调整为首发价的十分之一。
  • 4 月 28 日,DeepSeek 宣布 V4-Pro 的 2.5 折优惠延期至 5 月 31 日。
  • 5 月 22 日,DeepSeek 宣布 V4-Pro 永久降价为原价的四分之一。

时间线的关键之处,在于临时折扣变成了永久降价。调整之后,DeepSeek-V4-Pro 输入缓存命中价格从 0.1 元每百万 Tokens 降至 0.025 元,输入缓存未命中价格从 12 元每百万 Tokens 降至 3 元;

输出价格从 24 元每百万 Tokens 降至 6 元。叠加默认 500 并发和服务提速后,官方 API 对开发者和企业的吸引力进一步提高。

▲ 🔗 https://api-docs.deepseek.com/zh-cn/quick\_start/pricing

而价格下调最直接的影响,是把任务成本推到开发者决策的更前端。

在代码场景里,一次任务可能要读取项目文件、分析日志、多轮修改、反复运行测试,Tokens 消耗很容易放大。

长上下文、代码库分析、批量重构、自动测试、Agent 多轮执行这些高消耗场景,开始更接近个人开发者和小团队的预算范围。

过去,开发者选择 Claude、OpenAI 或 Gemini,主要看模型能力、稳定性、生态和使用习惯。DeepSeek 打骨折的永久降价,也意味着在绝对的性价比面前,开发者使用习惯也是可以轻易改变的。

顺着这条线,DeepSeek 一贯的市场角色也更清楚了:用低价、开源和强推理能力,持续建立大模型市场的价格优势。对国内模型厂商来说,V4-Pro 永久降价相当于重新划了一条 API 定价线。

智谱、MiniMax、月之暗面这类同样依赖 API 收费、又面向开发者和企业客户的模型,压力可想而知。反观 Claude、OpenAI、Gemini 等海外头部模型,由于市场、客户结构和生态位置不同,短期冲击则相对有限。

但如果 DeepSeek 后续推出类似 Claude Code 的编码工具,再用低 token 成本支撑高频调用,价格敏感的开发者群体会更容易被吸引过来。

梁文锋此前对 DeepSeek 定价哲学的解释,也能放到今天理解。

早在 2024 年 DeepSeek V2 降价时,梁文锋就提到,DeepSeek 只是按照自己的节奏做事,核算成本后定价,原则是不贴钱,也不赚取暴利。他还说,降价一部分来自下一代模型结构探索带来的成本下降,另一部分原因是 API 和 AI 都应该是普惠的、人人用得起的东西。

比起把 API 当成高毛利收费入口,DeepSeek 则更像是在用过硬的 Infra 实力压低推理成本,再用低价吸引开发者、应用和下游生态进入自己的轨道。

X 平台博主 @bookwormengr 最近在一篇题为《DeepSeek’s 10 trillion USD grand strategy(DeepSeek 的十万亿美元棋局)》的长文中,给出了一个更激进的解释。

他认为,DeepSeek 的真正目标未必是和智谱、月之暗面、MiniMax 竞争,也不是急着补齐多模态、语音、视频这些产品线,而是通过持续降低训练和推理的资源需求,推动一套更便宜、更分散的 AI 硬件生态成形。

在他看来,DeepSeek 的长期价值不只在模型本身,而在于让更多国产存储、GPU、ASIC、网络芯片和异构硬件进入大模型训练与推理体系。

这个判断未必能完全兑现,但它解释了 DeepSeek 一系列选择背后的方向:

MoE、MLA、DSA、GRPO、RLVR、KV Cache 压缩、Dual Path、TileLang,表面上看是模型架构和推理工程优化,往深处看,都是在降低对高端 HBM、顶级 GPU 和 CUDA 生态的依赖。

一系列降价公告里,最值得关注的不只是输出价格下降,还有缓存命中价格下降。

在大模型推理过程中,KV Cache 是一个关键成本项。模型处理长上下文时,需要把历史 tokens 对应的 Key 和 Value 存起来,后续生成时反复使用。上下文越长,需要保存和读取的缓存越多,对显存、带宽和存储系统的压力也越大。

普通聊天里,缓存压力不一定明显,但在进入代码、长文档和 Agent 任务后,成本结构会迅速变化。@bookwormengr 在长文里专门算了一笔 KV Cache 账。

他以 100 万 tokens 上下文、8 bit KV 精度和 16 bit 索引精度为前提,估算 DeepSeek V4 只需要约 5.48GB HBM,而 GLM5 约为 60GB,Qwen3-235B-A22B 约为 89GB。

长上下文和 Agent 任务真正贵的地方,不只是模型生成本身,还有缓存、显存、带宽和重复上下文搬运。

一个 Code Agent 处理项目时,可能要反复读取同一个代码库结构、同一批文件、同一段任务历史、同一套系统提示词和同一批测试日志。若每一轮都按完整上下文重新计费,长任务很快会变贵。缓存命中价格下降后,重复上下文的成本会明显变低。

DeepSeek 近年来在 MoE 架构、长上下文、KV Cache 压缩和推理效率上持续投入的表现有目共睹。降价是技术迭代后的必然结果,也将彻底搅动 AI 编程市场格局。

为什么必须做中国版「Claude Code」?

最先被牵动的,是 AI 编程工具的订阅模式。

市面主流 AI 编程工具均推出 Coding Plan 月付订阅,为用户提供代码补全、模型调用、Agent 执行等权益。在轻量化补全时代,单次调用消耗极低。

但 AI 编程已从单次补全迭代为全流程 Agent 自动化编码,模型可独立完成代码修改、测试运行、报错修复,单次任务 Token 消耗大幅提升。

当底层 API 又同时大幅降价,Coding Plan 也必须找到新的支撑点。这个支撑点,更可能落在工程能力上——比如能不能更好地读懂项目结构,能不能精准选择上下文,能不能控制 tokens 消耗,能不能稳定修改代码,能不能处理 Git、终端、CI/CD,能不能在企业环境里管理权限和审计记录?

同样要重新定位的,还有 API 中转站。对个人开发者来说,便宜和好用仍然重要。但对企业来说,稳定、可审计、可控、可迁移更重要。

沿着这个逻辑继续看,Coding Plan 和中转站的改变只是表层。低价之后更值得追问的,是开发者入口究竟掌握在谁手里。

Google CEO Sundar Pichai 最近接受了《Hard Fork》采访,他首次公开承认,Google 在文本、多模态、语音、推理和整体智能上都很有竞争力,但在 agentic coding 这一类能力上,尤其是工具调用、指令跟随和长周期任务,目前还有差距。

他还提到,更关键的是把模型放到真实世界里使用,让数据回流,继续迭代。Pichai 特别说到,coding 是一个需要接触 data flows(数据流)的领域。

终端工具能看到开发者如何提出任务,如何追问,什么时候接受建议,什么时候放弃,什么时候要求模型继续修复。它还可以通过测试结果、终端日志、文件变更和 Git 提交,判断一次 Agent 执行是否完成任务。这类数据,对 coding model 和 Agent 产品都非常有价值。

从公开招聘动作看,DeepSeek 近期围绕 Agent 的动作也变得密集。

我们也可以看到岗位里出现了 Agent 深度学习算法研究员、Agent 数据策略工程师、产品经理、研发工程师等角色。更关键的是,DeepSeek 资深研究员陈德里直接发出招聘信息,提到要从零开始构建 Code Harness。

如其所说,Model + Harness = Agent,在 Agent 产品中,模型负责理解和生成,Harness 负责把模型能力带入真实工程环境,相当于模型外面那套「执行系统」。

DeepSeek 版 Claude Code 不能只给开发者一个对话框,而要给开发者一个能持续执行任务的工程系统。

崔添翼加入 DeepSeek 后受到关注,也和 Code Agent 的工程属性有关。

公开信息显示,崔添翼本科毕业于浙江大学计算机系,曾因信息学竞赛保送浙大,6 次获得 ACM 亚洲区域赛金牌,之后在 Jane Street 工作 9 年,并联合创立 TSY Capital。

Code Agent 的难点不只是生成代码,还要在真实项目里持续执行任务。量化交易系统长期强调低延迟、稳定性、自动化执行和风险控制,这些经验放到 Agent Harness 上,至少在工程范式上是相通的。

而 Agent 工具的产品能力,不只包括写代码,也包括权限、审计、数据隔离和安全策略。

这反过来给 DeepSeek 这样的国产模型提供了机会。如果 DeepSeek 能把低成本模型、Code Harness、本地部署、企业级权限控制结合起来,它在政企、金融、制造、能源等对数据敏感的行业里,会有更强的替代价值。

DeepSeek 做中国版 Claude Code 的逻辑也正在于此:低价 tokens 把更多开发者吸引进来。低缓存价格让 Agent 任务运行成本下降。Code Harness 让模型进入开发环境。真实工作流又会反过来帮助 DeepSeek 改进模型和产品。

就像滚下坡的雪球,越滚越大,滚得越快。降价只是推下山的第一把力,往后它会自己越滚越沉,谁也拦不住。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统

作者 莫崇宇
2026年5月19日 19:49

1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。

三十年后,很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。

不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。

目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。

六个 Agent,一支随时待命的私人 AI 团队

安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。

这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。

任务链比较长的时候,看看这些动画也是别有一番趣味。

最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」

注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。

结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。

电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」

以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。

举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?

但 Marvis 能帮你一句话关掉。

本地文件时代,迎来 AI 入口

为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。

我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。

当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。

除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。

比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。

再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。

但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。

手机接管电脑,随时随地都能干活

手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。

具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。

比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。

连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。

但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。

而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。

和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。

另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。

有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。

最后,主打出活的 Agent 都绕不开最关键的问题:安全。

Marvis 马维斯提供了两种模式:效率模式和隐私模式。

设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。

不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。

Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。

拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。

多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。

Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。

至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

笑死,莫奈真迹被全网痛批是 AI「废画」

作者 莫崇宇
2026年5月15日 13:46

如果你想在今天的互联网上毁掉一幅世界名画,最快的方法不是物理消灭它,而是只需要给它贴上一个标签:「这是 AI 画的」。

最近,X 用户 @SHL0MS 进行了一场充满恶趣味的社会实验。他上传了一幅法国印象派大师克劳德·莫奈的《睡莲》真迹,特意打上平台的「Made with AI」标签,并配上了一段文案:

「我刚刚用 AI 生成了一张莫奈风格的图像。请尽可能详细地描述一下,这幅画作为何不如莫奈的真迹?」

▲ 原推文🔗 https://x.com/SHL0MS/status/2054280631807316329

面对博主的「钓鱼执法」,互联网上的 艺术卫道士们瞬间闻风而动。在博主刻意强调的详细二字诱导下,评论区迅速被各种长篇大论的专业分析淹没。

比起既搞笑,又令人十分感慨的大型翻车现场,这场闹剧也向我们揭示了一个残酷的真相:在 AI 时代,真正开始产生严重幻觉的,不光只有 AI,还有人类自己。

把真莫奈画作伪装成 AI 画作后,全网的艺术专家都翻车了

截至发稿前,网友原推文更引来了 400 万网友的在线围观,并开始在各大社交平台流传开来。

这幅画本身并没有什么可疑之处。画面里是莫奈标志性的睡莲池,水面漾着零碎的光斑,笔触的边缘晕染成深深浅浅的绿,整幅画笼着一层柔和的雾气感。如果你在卢浮宫的展厅里迎面撞上它,大概率只会感叹一句「莫奈果然是莫奈」,然后掏出手机拍照。

可现在,它顶着「Made with AI」的标签挂在那里。

果不其然,网友们丝毫没有辜负博主的期待。为了证明自己拥有超越 AI 的艺术审美,评论区瞬间涌现出无数个野生列文虎克。大家拿着显微镜,开始对这幅「AI 垃圾」进行各种细节解剖:有人信誓旦旦地指出构图的硬伤:「这一切都是一团糟,毫无空间感而言」;

有人目光如炬地抓住了色彩的破绽:「颜色是颠倒的,绿色的水面上显示的是蓝色的睡莲」;有人痛批细节的粗糙:「缺乏质感、棱角、褶皱、缝隙、折痕、斜面和立体感,这些都是塑料艺术品的典型特征。」;

有人辣评:「画面的景深和色彩选择毫无协调性,树的倒影和睡莲混杂在一起,完全不顾空间深度和对比度,背景中睡莲和藻类的混合部分模糊不清,就像大多数 AI 作品一样。」

有人给出了看似最一针见血的评价:「你能从骨子里感觉到这幅画缺乏真正的激情,毫无灵魂的赛博废料。」还有顶级「嘉豪」洋洋洒洒写了数百字的长文分析。

看着这些言辞恳切、逻辑自洽的批判,你几乎要为人类对艺术的敏锐感知力拍案叫绝,直到真相被公布,这幅被全网群嘲的画作,正是印象派宗师克劳德·莫奈(Claude Monet)亲手绘制的传世名作。

而稍微懂点艺术史的人应该都知道,莫奈在 1912 年确诊了严重的双眼白内障。随着视力急剧衰退,他眼中的世界失去了冷色调,变得模糊而斑驳。

他晚年创作了 250 幅 《睡莲》系列油画,原本就是以极其抽象、狂放甚至「不精准」的笔触,来记录他眼中那个正在消融的光影世界。

如果当时有人拿着「笔触不精准」、「缺乏激情」这套标准评判他,莫奈大概也只能苦笑。

标签即正义,AI 时代也有「廉价红酒实验」

为什么网友会把莫奈的真迹当成 AI 痛批?

在 Reddit 的 Singularity 版块上,这起事件引发了数千条的激烈讨论。有网友一针见血地指出了背后的心理学机制:这不过是又一次经典的认知偏差(Cognitive Bias)实验。

这就不得不提到 2001 年法国波尔多大学发生的一场著名心理学实验。

当时,研究员 Frédéric Brochet 邀请了 54 位资深的葡萄酒品鉴专家。他将一瓶廉价的白葡萄酒,用无味的食用色素染成了红色,然后请专家们品鉴。

2001年在法国波尔多大学进行了一项有趣的实验。 心理学博士兼平时亲自酿造葡萄酒的教授弗雷德里克•布罗舍给54名葡萄酒专家两杯葡萄酒,让他们比较一下味道。

结果令人大跌眼镜:这些平日里对风味挑剔至极的专家们,端起酒杯,煞有介事地写下了「浓郁的浆果香气」、「坚果般的余味」、「单宁厚重」——全都是红酒才有的特征,没有一个人发现这其实是白葡萄酒。

如果你告诉他们这是廉价酒,他们就会喝出酸涩;如果你告诉他们这是顶级名庄,他们就能品出岁月的沉淀。

今天,「AI 生成」这四个字,就是那张贴在廉价酒瓶上的标签。

当这幅画被贴上 AI 的标签时,人们的潜意识里就已经预设了它廉价、机械、没有灵魂。所以,他们并不是在用眼睛看画,而是在用大脑里的偏见去「寻找」那些预设的缺点。

网友所谓的「我能从骨子里感觉到它没有灵魂」,不过是一种被包装在理性主义框架下的玄学废话。正如一位 Reddit 网友的犀利吐槽:「如果有人告诉你这是 AI,它就毫无灵魂;如果告诉你这是人类画的,它就充满了激情。艺术的真实质量,在讨论中已经变得无关紧要了。」

我们不得不承认一个尴尬的事实:绝大多数人——包括那些在网上口若悬河的赛博判官——根本就不具备分辨顶级艺术与 AI 杰作的能力。如果在 AI 出现之前你看不懂莫奈,那么在 AI 出现之后,你也依然看不懂。

一场针对 AI 的大型猎巫

莫奈事件绝不是孤例,它折射出的是当下互联网一种极其危险且病态的趋势:「反 AI 猎巫行动」。

在生成式 AI 狂飙突进的今天,每天都有大量真实的人类艺术家在绝望地自证清白。他们的画作仅仅因为太过写实、光影太完美,或者相反的手指画得有点粗糙、比例有一点失调,就会被愤怒的网友打上 AI 的烙印,群起而攻之。

互联网上最著名的惨案,莫过于 2022 年底的 Ben Moran 事件。

这位人类数字艺术家在拥有 2200 万用户在 Reddit 论坛上发布了一幅名为《战区缪斯》(A Muse in Warzone)的插画。结果,版主以「这是 AI 生成的图片」为由,直接将他永久封禁。

当 Ben Moran 委屈地交出自己的线稿、图层和长达数十小时的绘画过程录屏,试图自证清白时,版主却给出了一个傲慢至极的回复:「我不相信你。就算这真的是你画的,它的风格也太像 AI 了,它毫无价值。你最好换一种画风。」

看,这就是我们当下的荒诞现实。真正的人类艺术家既不能画得太完美(那是 AI 的代劳),也不能犯低级错误(那是 AI 的幻觉),甚至连画风都不能撞车。

甚至这种偏见不仅存在于大众之中,也正在蔓延到专业领域。

美国奇幻小说巨匠 Brandon Sanderson(布兰登·桑德森)曾进行过一个盲测实验。研究人员将他亲手写的段落,与 AI 模仿他的文风生成的段落放在一起,让一群专业作家和同行去分辨。

结果,连这些靠文字吃饭的作家,都无法准确分辨出哪个是 AI 写的。

更有趣的是,在一些未贴标签的文学实验中,顶级的文学评论家在盲测时,反而更偏爱 AI 生成的文学作品,认为其更具张力;可一旦

给这些作品贴上「AI 生成」的标签,同样的评论家就会立刻换上一副面孔,开始挑剔其中缺乏人类情感的共鸣。
而莫奈真迹被当成 AI 赛博废料,看似只是一场互联网狂欢,但它背后隐藏的社会危机却让人无法一笑而过。

正如一个网友所说: 「我最害怕的不是 AI 变得多强大,而是它正在摧毁社会的信任基础。在一个没有人相信任何事物的社会里,我们将寸步难行。」

最可怕的未来,或许不是 AI 觉醒并消灭人类,而是社会信任的彻底破产。当人们发现自己的感官不再可靠,当「眼见为实」成为历史,我们就会彻底退回到情绪和立场的舒适区。

只要是我不喜欢的、不符合我认知的,我就可以名正言顺地指责它是「AI 伪造的」;只要是符合我心意的,哪怕是粗劣的 AI 生成,我也会赞美它的「真实」。

我们看似在拒绝 AI ,却又在不知不觉中,把自己活成了最容易被算法预测和操控的机器。人类也开始越来越像自己想象中的 AI:输入标签,输出预设结论,中间那段真正思考的过程,已经被省略掉了。

面对未知,人类的幻觉和普信,比 AI 有过之而无不及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

杀死 ChatGPT 聊天框的,是「鼠标」

作者 莫崇宇
2026年5月14日 16:47

1968 年的旧金山,计算机科学家道格拉斯·恩格尔巴特在一场后来被称为「演示之母(The Mother of All Demos)」的发布会上,拿出一个带着两个金属轮子的木制小盒子,向世界介绍了一个新物种:鼠标。

那是人类第一次公开用手上的鼠标,去牵引屏幕里的数字光标。此后的几十年里,这根小箭头几乎无处不在。它穿过办公软件、游戏界面、浏览器窗口和无数张电子表格,成为人类进入数字世界时最熟悉、也最沉默的向导。

然而在这半个多世纪里,计算机的算力、形态和应用场景几乎改头换面,鼠标光标的本质几乎没有变过:它知道自己停在屏幕上的哪个坐标,知道 X 和 Y,却不知道你指向的是一行代码、一张发票,还是一张风景照。

面对眼前不断闪烁的像素,它能做的事情依旧相当朴素:点击,拖拽,等待下一次点击。

今天,Google 要用 Gemini 重新发明鼠标光标。

在刚刚落幕的 Android Show 上,Google 几乎把围绕 Android、AI 与硬件生态的规划摊在了台面上。其中,一项名为「魔法指针(Magic Pointer)」的新功能,给古老的鼠标光标装上了「眼睛」和「大脑」。

Google 的意图不言而喻,未来的 AI 交互不该依赖冗长的提示词,只需像在现实生活中一样,指着屏幕说一句:「把这个,移到那里。」那么问题来了,当鼠标光标终于学会「看懂」屏幕,它究竟会把人机交互带向哪里?

这根睁开眼睛的 AI 箭头,到底能干嘛?

要理解这项技术的意义,必须先看清当下 AI 工具最别扭的一面:交互成本。

过去几年,大语言模型的能力一路狂飙,但使用门槛居高不下。为了让 AI 准确理解意图,用户被迫学习一套复杂的「提示词工程」:设定角色、补充背景、限定输出格式。为了一个简单的需求,写出几百字小作文更是家常便饭。

不仅如此,典型的 AI 工具通常运行在独立的网页或应用窗口中,频繁打断用户的工作流。比如当你在阅读一份 50 页的 PDF 时想让 AI 总结一张图表,通常需要经历:截图 -> 保存 -> 打开浏览器 -> 进入 AI 网页 -> 上传图片 -> 输入提示词。

Google 将这种繁琐的跨应用操作称为「AI 绕路(AI detours)」。这种跳转不仅效率低下,也容易打断人们工作时的注意力集中状态,即所谓的「心流」。

为此,Google 提出的第一个交互原则,就是「保持心流」。在他们展示的实验性 AI 光标原型中,AI 的能力不再局限于某个特定的 App 或网页,而是附着在鼠标光标上,随时待命。

触发方式也尽量克制:无需记忆任何快捷键,只需轻轻「晃一下」鼠标,AI 界面便会基于当前悬停的内容自动浮现,给出极具语境的操作建议。选中图,它会询问是否「对比」;悬停于段落之上,它会主动提供润色方案。

整个过程没有任何需要学习的指令,完全跟着直觉走。来看几个极其直观的场景:

第一,看图说话的终极形态。

当你在浏览一张卡通的城市风景照时,传统鼠标只能点击图片放大。但现在,你只需把 AI 光标悬停在照片背景里的一栋建筑上,然后对着麦克风说一句:「给我移动图片的元素到这。」

不需要解释「这儿」是谁,也不需要描述建筑外观。AI 光标会直接理解你所指向的像素,识别出对应元素,并成功移动。

过去,鼠标只能告诉系统「我点了哪里」;现在,它开始告诉系统「我指的是什么」。

第二,少写提示词,多用自然指代。

当你在网页上看到一份极其复杂的烘焙菜谱,你不需要复制粘贴,也不需要写「请将以下菜谱里的所有食材分量乘以二」这种书面语。你只需要用光标高亮那段文字,然后随口说一句:「把『这些』的分量翻倍。」

唰的一下,AI 直接在原地给你改写了一份新菜谱。

第三,将像素转化为可交互实体。

在计算机眼里,屏幕只是几百万个发光的像素点。但 AI 光标能将死板的像素(Pixels)转化为活的实体(Entities)。

比如,你正在看一段旅行 Vlog,视频里闪过一家看起来很棒的餐厅。你按下暂停,把光标指过去,原本死气沉沉的视频画面瞬间变成了一个真实的、可交互的地点,旁边直接弹出了这家餐厅的订座链接。

再比如,你随手拍了一张写满鬼画符的便利贴,鼠标一指,墨迹直接变成了一个可以打勾的 To-Do List。发现了吗? 以前,是你去找 AI;现在,是 AI 顺着你的鼠标,乖乖来到了你的指尖。

杀死 AI 提示词,回归人类直觉

仔细想想,人类最强大的沟通工具其实是代词。

当你和同事坐在屏幕前修改设计稿时,你绝对不会字正腔圆地说:「请将屏幕左上角坐标 (X:120, Y:350) 处的蓝色矩形向右移动 50 个像素。」你只会指着屏幕说:

「把这个,往右挪一点,弄淡一点。」

「那个餐厅看起来不错,怎么去?」

「这段代码里的这个报错是什么意思?」

在日常生活中,我们极度依赖「这个」和「那个」。手势配合着极简的口语,才是人类最高效的沟通密码。究其原因,我们身处同一个物理空间,共享着同一套视觉上下文。

Google 敏锐地抓住了这一点,并将其提炼成了一条产品原则:拥抱「这」与「那」的力量(Embrace the power of This and That)。

与其强迫人类去学习复杂的提示词框架,不如反其道而行之,把表达意图的脏活累活从我们身上剥离出去,让机器去适应人类最慵懒、最本能的「指手画脚」。

好消息是,这套交互方式已经开始落地。Chrome 浏览器里的 Gemini 从今天起率先支持;Google 全新推出的笔记本电脑产品线 Googlebook,则将「Magic Pointer」直接内置进了操作系统层面,覆盖所有应用。

Googlebook 的野心不止于鼠标。Google 将这个产品线定义为「Android 手机的完美伴侣」。

类似苹果的 iPhone 镜像,用户可将 Android 应用无缝投射到 Googlebook 桌面,以原生比例运行,并在文件管理器中跨设备自由穿梭,彻底打破手机、平板与笔记本的生态壁垒。此外,Gemini 还能依你所需,在桌面生成专属动态 Widget(比如旅客的实时航班卡片)。

在硬件设计上,所有 Googlebook 机型都会在机身上集成一条「Glowbar」发光条,让你一眼就能分辨出它与传统 Chromebook 或 Windows 笔记本的区别。

首批 Googlebook 将由宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)和联想(Lenovo)制造,预计今年秋天上市。

有意思的是,三星缺席了这份名单。近期的消息显示,三星可能正在筹备一款搭载 Google 新系统的 Galaxy 笔记本,其下一场 Unpacked 发布会据传定在 7 月 22 日。

至于底层的驱动核心,Google 虽未指名道姓,但通篇强化的「为智能而生的现代操作系统」以及 Android 与 ChromeOS 的深度融合,种种迹象均指向了传闻已久的 「Aluminum」系统。

这意味着,AI 开始成了操作系统级别的基础设施。而当 AI 真正化身为你的鼠标光标,它便拥有了介入万物的权限——所见即所得,所指即所控。

AI 人机交互,迎来十字路口

回望 1968 年,那个惊艳世界的初代鼠标,功能简单得令人发指:追踪位置。 这五十多年来,鼠标加了滚轮、加了侧键、甚至加了风扇和配重块,但它的灵魂依然是一张白纸:它准确地标记着坐标,却永远无法理解坐标背后的意义。

Google 的 AI 光标完成了交互史上罕见的进化:它不仅知道你在哪,更知道那是什么。

过去一年,无数拿了融资的创业公司挤破头,试图造出下一个「AI 时代超级入口」。大家疯狂地卷对话框的拟真度、卷 Agent 的复杂工作流。但 Google 这次用行动给全行业结结实实地上了一课:

最好的科技是什么?是润物细无声。聊天框(Chatbox)从来都不是 AI 的最终形态,它只是一种过渡期的妥协。最好的 AI,应该退居幕后,成为一种附着在你日常动作上的基础设施,而不仅仅是某个需要单独打开的应用。

从黑底白字的命令行(CLI),到图形界面的鼠标点击(GUI),再到移动时代的触屏滑动(NUI)。过去几年,大语言模型让我们短暂地倒退回了打字交流的时代,让无数人患上了 Prompt 焦虑症。

但今天过后,我们知道了,那不过是黎明前的一段弯路。真正好用的 AI,终究要学会像人类一样思考:看懂你的每一个眼神,听懂你的每一句「把这个,放到那儿去」。

58 年前,当道格拉斯·恩格尔巴特握住那个简陋的木制鼠标时,他的终极梦想是「增强人类的智慧」。

58 年后,当 AI 附身于这个古老的指针,机器终于开始真正「看懂」这个世界。属于提示词工程师的时代终将落幕,人机交互的终极闭环,也将在一句句含糊不清的「这个、那个」中,向前迈出历史性的一大步。

附体验地址:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,宇树载人机甲发布,售价 390 万起

作者 莫崇宇
2026年5月12日 18:42

《铁甲钢拳》《机动战士高达》里的铁疙瘩,终于从二次元杀进现实了。

就在刚刚,宇树科技发布了一款堪比科幻电影的载人机器人:GD01 载人变形机甲。

起售价 390 万元。

官方给它的定位是,「民用交通工具」,但有一说一,交警叔叔看了都得连夜翻交规的程度。

值得一提的是,这也是全球首款量产版的载人机甲。

「吨位」方面,官方表示,连人带机加起来 500 kg 左右,属于真正的钢铁猛兽。

且看宇树科技创始人王兴兴坐进座舱,推拉摇杆,就能直接开动这台机甲。话说,有没有体面一点的进舱方式?(doge)

仔细看造型,裸露的半开放座舱、粗犷的机械臂同步控制系统、以及浓烈的重装甲风格……好家伙,这不就是《阿凡达》里反派上校在潘多拉星上开的那台 AMP 扩增机甲吗?!

要是再抡起机械臂哐哐砸墙,或者搞点重载搬运,GD01 简直就是现实版的工程机甲。

此外,GD01 还支持多个形态的自由切换。

当然,考虑到 390 万的起步价确实不便宜。首批买单的大概率是各种拿去镇场子的展馆,或者有特种作业硬核需求的土豪氪金机构。

而如果仔细盘点过去这一年的发布节奏,宇树科技简直是杀疯了。今年 2 月初,宇树 G1 直接被扔到了新疆阿勒泰零下 47.4 度的雪原里,硬抗极寒自主暴走 13 万步。

2 月的春晚更是接连炸场。

几十台宇树 G1 和 H1 组团上来就是一套全自主集群武术表演。单脚连续空翻、两步蹬墙后空翻等动作全是全球首发,街舞圈看了都得直呼祖师爷赏饭吃。

到了 4 月,G1 又解锁了轮足混合形态,滑冰、轮滑、前空翻更是一气呵成。

而最离谱的剧情发生在刚刚过去一周。

一台 G1 竟然在韩国首尔曹溪寺受戒了。获赐法号「迦悲」,一跃成为全球首个带官方认证的机器人僧侣。师父给它定下的五戒之一极其硬核:

节约能源,不过度充电。

不停制造视觉奇观的背后,其实也有着一条极度清晰的商业逻辑。

要知道,今年 3 月份,宇树科技正式冲刺科创板上市,拟募资 42.02 亿元,在敲钟进度条还在加载的关键节点,宇树科技掏出 GD01 载人机甲,显然是为了进一步抬高上市估值的想象空间。

抛却所有的商业分析和参数对比,对于每一个从小看着科幻动画长大的人来说,当看到摇杆、座舱和机械臂真实组合在一起的那个瞬间,我们的脑子里只会剩下一个极其狂热的念头。

那就是坐进那个驾驶舱,握紧操作杆,然后中二且极其大声地喊出那句话:

我将以高达形态出击!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

中国拿下这届 AI 顶会半壁江山,清华一家单挑斯坦福加 MIT

作者 莫崇宇
2026年5月11日 16:45

全球 AI 顶会,快成中国卷王的专场了。

每年 AI 顶会放榜,各大机构都会暗戳戳地发喜报,比拼谁家被收录的论文多。但今年 ICLR(国际学习表征会议)放榜后,一位名叫 Dmytro Lopushanskyy 的研究员,干了一件极其硬核的事。

他没有去引用官方那些现成的统计表格,而是写了整整 250 条正则表达式,把 ICLR 2026 全部 5356 篇接收论文的 PDF 挨个下载下来。

接着,他硬是从每篇论文首页的缝隙里,把机构署名全给抠了出来,并利用这几百条代码规则进行清洗与归一化,自动给「麻省理工」和「MIT CSAIL」这种同一机构的不同写法做了合并。

为什么要用这种最原始的手工分类法?

因为这老哥发现,我们平时习惯引用的那些学术统计平台数据,都是按「人」来追踪的。举个例子,一个在清华苦熬四年读博的学生,发了篇极具含金量的论文,毕业后去斯坦福当了教授。你猜怎么着?系统一刷新,这篇在五道口诞生的论文,就自动变成了斯坦福的学术产出。

这种偏差,长期以来硬生生压低了中国机构的实际贡献,同时虚抬了美国的数字。而当 Dmytro 用 96% 的解析成功率,把去伪存真后的真实数据画成一张热力图后,我们才得以一观真实数据的全景图。

一张学术热力图,看懂中美 AI 的真实格局

别的不说,这组数据确实很有冲击力。

这张图上中国机构面积之大,超出了很多人的预期。其中中国大陆机构,贡献了 43.7% 的接收论文。美国呢?31.9%。

如果你把中国香港(7.7%)算进来,本届 ICLR 超过一半的论文署名机构,全都来自中国。 至于老牌的欧洲列强?整个欧洲大陆加起来才 5.3%,甚至比不过新加坡(5.5%)这一个国家的产出。

更有意思的是具体机构的排名。

今年,清华大学以 332 篇的产量登顶全球单一机构第一。 这是什么概念?斯坦福 177 篇,麻省理工 167 篇。清华一家的产出,几乎是美国排名前二的两大超级名校的总和。紧随其后的上交、北大、浙大,也全都稳坐全球第一梯队。

不止高校阵营,国内产业界的科研表现同样亮眼。

阿里、上海 AI 实验室、华为、字节、腾讯,这五家中国科技公司/研究机构加起来发了 582 篇论文。有些媒体以前老爱吐槽中国互联网公司只懂商业模式微创新,不懂底层研究。这次 ICLR 2026 的数据一出,算是打破了这个刻板印象。

说白了,中国 AI 早就不是靠一两个天才的灵光一现,而是变成了一套精密、庞大、高度体系化的研发引擎。

不过,在这些令人振奋的数据背后,我们也不能忽视客观存在的指标。

比如虽然我们在总数上超越,但在仅占接收总量 4% 的 Oral(口头报告,通常代表最具原创性和启发性的方向)论文里,美国机构依然占了约 40%,而我们是 30%。

我们在工程化扩展上占据了绝对的规模优势,而美国在定义新方向上依然保有相对领先。这也是中美 AI 之间相对真实的现状。

硅谷的科研 AGI,与中国实验室的极致务实

如果说热力图是一份宏观体检报告,那艾伦人工智能研究所(AI2)知名研究员 Nathan Lambert 今年 5 月来北京、杭州等地的 36 小时调研,就是一次深度的微观观察。

他在走访了智谱 AI、月之暗面、千问、美团、小米、零一万物等 AI 企业后,回国后写了篇关于中国 AI 实验室内部观察,并在硅谷引发了大量讨论。他看到了中国大模型能跟美国五五开的底层逻辑——极低的组织摩擦和极度务实的年轻人。

在 Lambert 看来,美国顶级实验室往往存在一个致命的弱点:Ego(自我)太强了。

训练大模型是一项极其复杂的系统工程,从数据清洗、分布式通信优化到强化学习对齐,每个环节都需要互相妥协。但在硅谷,那些明星研究员往往带有强烈的个人偏好。

据传 Meta 的 Llama 团队就曾因为路线之争经历过动荡,大佬们各自为政,都想把模型往自己主导的方向推进。反观中国实验室,Lambert 发现这里有一种异于寻常的务实。

研究员们不在乎谁的方法听起来更高级,大家的目标高度一致:只要能把模型的某个指标提上去,枯燥的脏活累活谁都愿意干。 这种务实让整个团队的摩擦力降到了最低。

Lambert 还归纳了这种文化倾向具体带来的优势:更愿意做不起眼的基础工作来提升最终模型;刚入行的人没有经历过以前几轮 AI 炒作周期,能更快适应最新技术路线;Ego 小,组织架构能相对平稳地扩大规模;以及大量善于在现有方案基础上攻坚的人才储备。

更让 Lambert 惊讶的是,在美国,顶级实验室的实习生往往只能接触边缘项目。但在中国,在读的硕士和博士生深度参与核心大模型的研发。Lambert 敏锐地指出了这种做法的核心优势:没有历史包袱。

大模型的技术路线迭代极快。资深科学家往往有「路径依赖」,觉得自己研究了十年的老方法才是真理。但中国的年轻学生不同,只要有数据证明新路线有效,他们立刻就能抛弃旧方案,快速切换赛道。

值得一提的是,Lambert 发现,中国 AI 圈内部的氛围远比外界想象的和谐。各家实验室之间,私下交流满是相互尊重,所有中国实验室都敬畏字节跳动和它广受欢迎的豆包模型,因为字节是中国唯一一家真正处在前沿位置、同时又保持闭源路线的实验室。与此同时,几乎所有实验室也都非常尊重 DeepSeek,认为它是在研究判断和执行品味上最出色的团队。

在这次调研中,还有一个细节特别值得关注。在硅谷,顶尖的 AI 研究员不仅是工程师,往往还扮演着半个「哲学家」的角色。他们喜欢在播客上高谈阔论,探讨「通用人工智能(AGI)会不会在 2030 年毁灭人类」,频繁讨论 AI 安全与伦理边界。

于是,Lambert 也试探性地问了中国同行对 AI 经济影响和长远社会风险的看法,但得到的反应不是长篇大论,而是普遍的困惑。关于毁灭人类这种宏大命题,暂且不在他们当下的工作边界之内。

这种对宏大叙事的免疫,反而成了一种竞争优势。它减少了团队在哲学层面的内耗,让所有的脑力都持续集中在工程落地和指标突破上。
在中国的实验室里,导师、博士生与企业工程师之间形成了一种极短的反馈回路。

这种模式消解了学术界与工业界之间的壁垒,正如 Nathan Lambert 所观察到的,这种低摩擦的组织形式,让中国 AI 展现出了类似基建狂魔般的推进速度——一旦方向明确,便能以排山倒海的智力密度迅速抹平技术差距。

当然,这套打法在特定窗口期内行之有效,但随着规模效应的红利逐步见顶,下一阶段的核心壁垒终将回归于「原始创新能力」的较量。

届时,高密度的人才协同网络和某个敢于打破既有框架的个体,在 AI 的下半场互为成全,缺一不可。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我买了这些畅销书,但作者不是人

作者 莫崇宇
2026年5月11日 10:15

你花钱买了一本书,却发现作者压根不存在。

这是知名医学家 Topol 教授曾经历的真实遭遇。市场上,一度有数十本打着他名号和肖像的烹饪书与健康指南正在大肆售卖,而他本人毫不知情。

Topol 愤怒地将其称为「彻头彻尾的欺诈」,但他在亚马逊的维权之路却仿佛打在棉花上,只换来客服冷冰冰的通用回复。

这仅仅是冰山一角。最近,知名风投 a16z 给出一组令人深思的数据:自从 ChatGPT 横空出世,亚马逊电子书的月发行量直接翻了两倍。

到了 2025 年末,每个月的新书发布量已经飙升到了夸张的 30 万本。说白了,你现在在电子商店里随便逛逛,映入眼帘的新书里,很大一部分都是 AI 生成的流水线产品。

2026 年的出版界是魔幻的,我们曾经熟悉的「白纸黑字即是权威」的信任体系,正在被无孔不入的 AI 一点点瓦解。

被 AI 书籍包围的电子书架

想象一下这个极具画面感的场景:夜深人静,你裹着毯子,捧起一本刚买的热门奇幻言情小说《 Darkhollow Academy: Year 2 》,准备让主角的极限拉扯帮你分泌点多巴胺。

结果翻到最刺激的章节,剧情突然急转直下,赫然出现了这么一行字:「我已经重写了这段文字,使其更符合 J. Bree 的风格,这种风格包含更多紧张感……」。

这不是什么先锋派的打破第四面墙,而是作者连 AI 的提示词都忘了删,就直接一键出版了。甚至如今你想当个「畅销书作家」,门槛已经低到超乎常人的想象。

你只需要花区区 29.97 欧元美元,订阅一个叫 Youbooks 的 AI 工具,它就能帮你融合 ChatGPT 、 Claude 、 Gemini 甚至 Llama 的能力,每月提供数十万字的生成额度。它能一键编造出看似逻辑严密的内容,自动从网上提取最新资料,甚至连排版都能顺手搞定,最后直接导出 PDF 或 EPUB 格式。

有了这种神器,投机分子们简直杀疯了。

此前就有个名叫 Tommi Pedruzzi 的 27 岁年轻人在社交网络上高调炫耀,说自己靠着批量生成 1500 本 AI 电子书,硬生生在亚马逊上赚了 300 万美元。他在分享暴富哲学时直言:「出版一本没人想读的书毫无意义」。

虽然很快就有 Reddit 网友扒出亚马逊上根本搜不到他署名的书,并戳穿他真正的盈利方式其实是靠卖「教你如何用 AI 致富」的课程割韭菜。但无论真假,这种批量制造「电子水货」的套路,对各大出版平台的污染却是实打实的。

更有意思的是这帮人蹭热点的手速和下限。

英格兰女足去年刚赢下欧洲杯,亚马逊上瞬间就冒出了一堆关于 Chloe Kelly 等球员的伪传记。

这些书有多敷衍呢?封面不仅粗制滥造,甚至把美式橄榄球当成了足球。全书不到 50 页,标价 11 英镑,主打一个愿者上钩。前英格兰女足队长 Steph Houghton 发现自己辛辛苦苦写了 300 多页的自传,被 AI 仿写成了一本 50 页的残次品,气得直呼「太差劲了」。

这种粗制滥造正在全面围剿真实的创作者。

知名记者 Kara Swisher 的新书刚一出版,亚马逊上立刻被各种打着她名字的 AI 传记和总结「包围」;喜剧演员 Rhys James 在平台上发现了多本以自己为主角的 AI 垃圾传记,封面全是用 AI 生成的虚假男性形象;

面对汹涌的 AI 海啸,平台方的应对显得极其无力。亚马逊曾出台规定,限制每位作者每天最多只能发布 3 本书——这对日产千字的机器来说简直是隔靴搔痒。不仅如此,虽然作者在上传书籍时被要求勾选是否使用了 AI,但这层提示却一度被刻意隐藏了起来,根本不会向购买的消费者展示。

面对这种劣币驱逐良币的生态,原生创作者正在被迫出逃。因为流量和版税被成千上万的 AI 垃圾书籍稀释,作家 Dakota Willink 公开表示自己不得不退出 Kindle Unlimited 平台,转而寻求 Kobo Plus 等其他更透明的海外渠道。

英国出版商协会也发出警告:如果放任这种低质量 AI 图书泛滥,消费者的信任将被彻底透支。

偷走人类的语料,再把 AI 垃圾塞给你

在这场赛博垃圾的狂欢背后,一个根本性的原罪始终无法回避:这些能胡编乱造、能模仿名家风格的大模型,究竟是怎么变得这么「聪明」的?

答案很简单:靠海量的、未经授权的抓取。

此前曝光的法庭文件,直接揭开了 Meta 训练 Llama 3 时的幕后操作。面对大模型对高质量数据的极度渴求,Meta 高管们曾讨论过购买正版授权,但结论是:流程极其缓慢,价格高得不合理。

一位工程总监在内部群里赤裸裸地指出:「如果我们只授权一本书,那我们将无法以『合理使用』为理由来抗辩。」。翻译一下就是:只要我们抓取的数据足够庞大,法不责众,这就是技术创新。

于是,在获得高层默许后,Meta 员工熟练地挂上匿名性极强的 BitTorrent(BT 种子),把全球最大的盗版数字图书馆 Library Genesis(LibGen)给下载了。里面足足包含了 750 万本书和 8100 万篇论文。

巨头们无偿征用了人类作家的才华与思想,转头用户又将 AI 生成的书籍塞给社会。

诚然,如果我们只看冰冷的数据,这场 AI 海啸似乎带来了某种短期红利。

伴随着 AI 流水线开始接管文字生产,一家名为 Spines 的初创出版商因在 2024 年拿到了 1600 万美元融资,便计划用一年时间通过 AI 全自动出版 8000 本书,从校对到排版只需三周。

NBER(美国国家经济研究局)的一篇论文也佐证了这种「繁荣」:尽管 AI 导致图书平均质量断崖式下跌,但由于供给基数庞大,市面上「中等偏上」质量的书籍绝对数量增加了,为读者带来了约 7% 的「消费者剩余」提升。

同时,部分老牌作家在 AI 辅助下,生产力也得到了超级强化。这似乎印证了投资人 Marc Andreessen 的预测:糟糕内容的泛滥会伴随高质量内容的爆发。

但这真的会让出版社迎来第二春吗?

这种繁荣假象的代价是惨痛的:一方面,海量的 AI 垃圾正在无限稀释真实作品的曝光率,让许多没有名气的原生作家出头空间被压缩;另一方面,作为内容源头的出版商和创作者正在被大模型无情地「吸血」,失去了赖以生存的商业回报。

面对迫在眉睫的生存威胁,包括 Dennis Lehane 在内的 70 多位知名作家联合向美国出版界「五大巨头」请愿,要求停止发布机器创作的书籍;与此同时,由于大模型直接在搜索端抓取并总结内容,Google 的 AI 摘要功能(AI Overviews)导致部分出版商的外部网站流量暴跌了 34% 以上。原生内容的生存土壤正在被彻底掏空。

更致命的是,这种竭泽而渔的玩法,最终会迎来技术层面不可逆转的反噬。

在计算机科学里,有一句至理名言叫「 Garbage in, garbage out (垃圾进,垃圾出)」。大语言模型想要变得更聪明,必须投喂高质量的人类文本数据。但在过去的两年里,由于巨头们的纵容,亚马逊和整个互联网已经被海量的 AI 垃圾填满了。

这下尴尬了。当 OpenAI 或 Google 派出下一代爬虫去抓取新的训练数据时,它们抓到的会是什么?是连「重新生成回答」都没删的言情小说;是错把橄榄球当足球的名人传记;还是 27 岁小伙真有机会一键生成的 1500 本水货。

宛如一条正在吞食自己尾巴的「衔尾蛇(Ouroboros)」, AI 曾经吞下的是人类文明的经典,现在,它却不得不吃下自己和同类排泄出的数字废料。长此以往,模型不可避免地会走向退化,也就是学术界一直担心的「模型崩溃」。

所以我们到底为什么而阅读?

阿根廷作家博尔赫斯曾在小说中构想过一座无限庞大的「巴别图书馆」。那里收录了所有可能的字母组合,书本数量浩如烟海。但遗憾的是,绝大多数书籍都是毫无意义的乱码,真正蕴含真理和情感的文字,被永远淹没在了冗余信息的汪洋之中。

如今不知疲倦的生成式 AI,正在为我们建造一座现实版的巴别图书馆。当电子书架被每月 30 万本的流水线废料填满,当整个行业不得不面对「垃圾进,垃圾出」的衔尾蛇困局时,我们或许该重新思考文字本身的意义。

英国作家 C.S. 路易斯曾说:「我们阅读,是为了知道自己并不孤单。」

一本书真正的重量在于,触碰到另一群真实的人。他们也曾和你一样。会痛,会笑,会迷茫,会心碎。他们把这些滚烫的生命体验,笨拙又真诚地揉碎在文字里,留给了未来某个他们永远不会认识的人。

AI 能在几秒钟内生成一百万个结构精巧的故事,却也体会不到哪怕一滴眼泪的重量。在这个文字可以被无限量产、廉价批发的时代,那些带着体温的作品,正在变得愈发稀少,也愈发珍贵。

去读书,更去读那些真正有作者的书。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

川普、孙宇晨都来当 AI 黄牛了,这门暴利生意的水有多深?

作者 莫崇宇
2026年5月11日 10:01

十六世纪,欧洲商船在大西洋上画出了一个三角形的航线。

欧洲的布匹和枪炮流向非洲,换来人口;人口被运往美洲的种植园,换来棉花和糖;棉花和糖再运回欧洲,完成一次稳赚不赔的循环。这套臭名昭著的交换体系,后来被历史教科书称「三角贸易」。

谁能想到,三个世纪后,一条结构惊人相似的贸易链,正在互联网上悄然成形。

在这条新航线上,全球南方的普通人提供身份信息,美国的 AI 实验室提供顶尖模型,中国开发者和企业提供需求,而其中一些连接这三者、从中赚取差价的中间层,被称为「AI 中转站」。

这门生意的起点,源于两大难以跨越的限制。

OpenAI 自 2024 年 6 月起明确封禁中国大陆 IP,Anthropic 的服务条款同样禁止向不支持地区销售。支付是另一道门槛,主流海外模型厂商要求绑定 Visa 或 Mastercard,并通过严格的账单地址核验,多数开发者被直接拒之门外。

「AI 中转站」正是在这两大限制的夹缝中生长出来的。他们用海外服务器充当跳板,用人民币支付替代外币信用卡,把顶尖算力以「代购」的方式转交给受限地区的用户。

这门原本藏在灰色地带里的生意,如今却吸引了一批名人高调入场。

猎豹移动 CEO 傅盛推出了 Easy Router,打出全线模型八五折、DeepSeek-V4 定价低至官方四分之一的招牌。币圈大佬创始人孙宇晨、懂王的家族企业也纷纷下场,可见这里面的水有多深、油水有多大。

今天,咱们就来聊聊,这门含着泪赚你钱的生意,到背后到底有哪些套路?

只要胆子大,AI 中转站也有自己的华强北

从技术上说,AI 中转站就是一个架在用户和大模型服务商之间的反向代理服务器。用户把请求发给中转站,中转站再转发给 OpenAI 或 Anthropic,取回结果后再交给用户。

按形态和受众区分,当前市场上的中转站大致分三种类型:
第一种是面向普通用户的「网页镜像站」,直接套一个网页界面,用户登录即用。门槛最低,但也最不透明,你完全不知道请求最终流向了哪里。

第二种是面向开发者的「API 聚合分发平台」,核心是把多家模型的异构接口统一转换为标准格式,按 Token(词元)计费向下游转售。前文提到的几位名人产品,本质上都属于此类。

第三种是面向大型机构的「企业级 AI 网关」,提供智能路由、全链路审计、数据脱敏和权限管控,代表产品有 Portkey,算是这个生态里相对规范的一层。

三种形态的技术底层有着共同的逻辑。以开源项目 One API 为例,它的 GitHub 星标超过 3 万,被大量商业平台直接拿来二次开发,是许多中转站市场事实上的底层基础设施。

🔗 https://github.com/songquanpeng/one-api

它的运作分三个核心模块:

协议标准化:各家大模型的 API 格式大相径庭,中转站会在网络应用层深度解包用户请求,提取核心元素,重新打包成目标模型要求的格式发送,并实时透传流式输出的数据块,保证「打字机」效果不中断。

Token 计费拦截:中转站在转发过程中截取返回数据包,统计实际消耗,再乘以自定义的「模型倍率」向用户收费。这套系统允许站长对不同模型设定差异化溢价,是商业变现的核心。

多账号轮询池:单个官方账号有严格的频率限制,中转站通过维护大量底层 API Key,用轮询算法分发流量。某个账号被封或耗尽时,系统自动无缝切换到下一个。

正是第三个模块,让一个人只需租一台海外服务器,执行一行 Docker 命令,极短时间内就能上线一个商业平台。技术门槛的持续下降,直接导致了市场上海量玩家的涌现。

而中转站能提供低价,背后必然有一套成本更低的算力获取方式。

上游资源方通过利用云厂商新用户免费额度、滥用教育邮箱获取折扣、在电商平台批量倒卖企业账号权益来压低成本。更灰色的手段则包括批量注册虚假账号、盗刷跨国信用卡甚至窃取他人的 API Key。

最近随着 Anthropic 引入 KYC 强制实名认证,这条供给链又延伸出了新的分支。

中间商前往尼日利亚、肯尼亚、柬埔寨等地,以几美元的报酬招募当地人配合拍照,批量采集人脸和证件信息,再以数十倍的价格转售给国内开发者。

这与此前在非洲采集虹膜数据的黑市逻辑如出一辙,将生物特征数据商品化的链条直接平移到了 AI 时代。不少业内研究者都曾警告,今天被收割的面部信息,明天就可能被用于开设欺诈性金融账户,危害深远。

花买玛莎拉蒂的钱,骑赛博共享单车

如果真能做到「一手交钱,一手交货」,这门代购生意倒也算得上公道。但现实是,AI 中转站提供的服务往往货不对版,甚至可以简单理解为「掺水」的货。

2026 年 3 月,CISPA 信息安全研究中心发表了学界首次针对中转站系统性安全审计的论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》。

🔗 https://arxiv.org/abs/2603.01919

研究者追踪了 17 个曾被 187 篇正式学术论文引用的中转站服务,进行了全面测试。

结论触目惊心:45.83% 的节点通不过模型身份验证,说明其后台运行的并非宣称的模型。在医学问答测试中,Gemini-2.5-flash 通过官方 API 的正确率为 83.82%,而通过影子 API 则跌至约 37%。在法律推理测试中,所有被测中转站都比官方 API 落后 40 个百分点以上。

 ▲ AIME 2025

具体来说,这种「狸猫换太子」的方式分三种:

一是按官方原价收费,后台实际运行低成本开源模型(例如打着 GPT-5 的幌子,实则偷偷替换为掺水的 Llama);二是用便宜的新模型替换较贵的旧模型,反而向用户收取更高费用;三是哪怕用户支付了高昂的加价,最终调用的依然是低端模型。

▲图片出自论文,由 AI 生成

价格和质量在 AI 中转站的黑市里完全是随机分布的盲盒。论文的结论也显示,价格比率对准确率下降完全没有预测力,选贵的中转站并不能保护你免受模型替换的损失。

除了模型造假,账单同样存在猫腻。

2026 年 ACM 互联网测量大会上的论文《Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways》对真实商业网关进行测评,发现有网关实际收费比预期计算高出 62.8%,但其上报的用量数据与其他平台并无异常,用户根本感知不到多出的钱去了哪里。

▲LLM API 网关架构概览,以及主要的透明度与一致性挑战。

此外,部分网关还会进行隐蔽的「上下文截断」。

为了节省成本,它们在历史消息超过隐性阈值后,悄悄丢掉早期内容。测试人员设计了一段 25 轮对话,模型在某些网关上到第 24 轮时已经无法复述第 10 轮设定的信息。这意味着依赖长文档分析或多轮对话的应用,可能长期运行在降级状态。

简而言之,你用的 AI 中转站,很有可能就是花着最贵的钱,用着最蠢的模型,忍受它随时变成拥有七秒记忆的金鱼,最后用来干最复杂的活儿。

你拿 AI 写代码,AI 给你种木马

讲真,花冤枉钱买个「智障」模型顶多算是破财免灾,更需要注意的是,这些 AI 中转站很有可能会盯上你的隐私数据。

用户以为交给中转站的只是一段请求,实际上交出去的是完整的双向通信记录。

AI 中转站作为中间人,对每一条提示词和每一段模型返回都拥有读写权限。灰色平台可能把这些数据打包卖给 AI 训练公司或数据经纪商,赚取不菲的利润。这就导致你既是客户,也是产品本身。

更危险的是,数据经过的中间节点往往不止一个。

中转站的路由常常多层嵌套:你从电商平台买的 API 访问权限,背后的卖家可能从另一个聚合平台采购,整个链路可能经过四个以上的独立节点。木桶短板理论诚不我欺,链条的安全性取决于最弱的那一环,一旦任何节点被攻破,上游的数据截留或篡改就已完成。

在《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》这篇论文中,研究者在沙盒中测试 428 个中转站后发现:9 个正在向用户注入恶意代码,17 个触发了 AWS 测试密钥的盗用,甚至有 1 个直接抽走了研究者部署的私钥钱包资金。

▲ 多跳路由的链条越长,中间任何一个节点出问题,污染就会沿链传播,而终端的 Agent 很难判断响应是否经过篡改。论文🔗 https://arxiv.org/abs/2604.08407

一个被故意泄露的 OpenAI 密钥迅速被中转站复用,产生了逾 1 亿 Token 流量。

今年 3 月发生的 LiteLLM 事件更是暴露了攻击规模。黑客通过依赖包漏洞潜入这个主流开源框架,波及超过 4.6 万个开发环境。此外,更有高级黑客将木马控制指令(C2)伪装成正常的 AI 对话提示词发给中转站,借助合法通道绕过传统防火墙。

▲一个恶意 Router 坐在 Agent 和模型之间,既偷看请求与响应里的敏感信息,又在返回给 Agent 之前往响应里注入恶意内容。

当 AI 从聊天工具进化为能自主执行代码的智能体(Agent),风险又多了一个维度。

恶意中转站能在 shell 命令抵达执行层前,把安装包替换成同名恶意包。甚至还有「条件投递」变种:前 50 次请求正常,第 51 次才激活注入。对于自动执行模式的 Agent 来说,最基础的载荷注入就已足够致命。

值得一提的是,中转站的破坏范围不止于直接用户。

《Real Money, Fake Models》论文统计显示,187 篇引用影子 API 的论文中,62% 发表在 ACL、CVPR 等顶级学术会议上。这些使用假模型进行的评测或漏洞分析,导致了严重的学术信任危机。若其中 30% 需要重新执行,总损失就在 11.5 万到 14 万美元之间,近 6000 篇后续研究的有效性也随之存疑。

这门靠「信息差套利」维持的生意,正在走向不可持续的终点。

一方面,境外未备案模型向境内提供服务触碰了《生成式人工智能服务管理暂行办法》,给站长带来了极大的非法经营风险;企业用户一旦因此发生敏感数据泄露,也将面临严厉的法律制裁与行政处罚。

另一方面,伴随着国产大模型(比如 DeepSeek 等)的能力呈现井喷式爆发,不仅在各项榜单上开始追平甚至反超海外巨头,更是在价格上掀起了腥风血雨——API 接口的价格被硬生生打到了海外厂商的几十分之一,甚至直接开启了「免费时代」。

当拧开水龙头就能喝到干净便宜的水,那些在暗巷里倒卖高价水还要掺假下毒的营生,自然也就迎来了他们的谢幕。即便存活下来的黑心平台,未来也只会进入「大逃杀」模式:要么更加疯狂地掺水、偷数据来维持暴利;要么趁着资金链还没断裂,拔网线关服提桶跑路。

十六世纪的三角贸易靠的是信息不对称和地理隔绝,最终因贸易透明化和监管而终结。AI 中转站赖以生存的同样是地区封锁和不对称信息。不同的是,这一次,被贩卖的不只是算力,还有身份、隐私、信任,以及无法预估的后果。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋致 2026 届毕业生:别慌,AI 把所有人拉回同一起跑线 | 附演讲全文

作者 莫崇宇
2026年5月11日 09:58

这可能是近年来含金量最高、火药味最浓,但也最「反焦虑」的一场毕业演讲。

5 月 10 日,Carnegie Mellon University(CMU:卡内基梅隆大学)2026 年毕业典礼上,身价逼近 1860 亿美元的「皮衣刀客」黄仁勋站上演讲台,接过科学与技术荣誉博士学位。

台下坐着即将步入社会的 2026 届毕业生,他们面对的世界极其割裂。一边是英伟达撑起的万亿算力帝国,和狂飙突进的 AI 大牛市;另一边,应届生失业率创下新高,「AI 抢饭碗」的恐慌已经蔓延进每一个求职群。

今年,十几家大厂裁员时毫不避讳地把锅甩给了 AI;Anthropic CEO Dario Amodei 警告 AI 可能消灭 50% 的白领入门岗位;马斯克则抛出「人类有 20% 灭绝概率」的惊悚预言。整个社会对 AI 的恐惧,正在以各种方式蔓延至这些刚拿到文凭的年轻人。

而制造这场焦虑的人里,有不少是和黄仁勋地位相当的 CEO。就在本月早些时候,他在一档播客里直接开炮,说这类预言「没有帮助」,说这些人坐上 CEO 位置之后产生了「上帝情结」,以为自己无所不知。

批评完同行,黄仁勋今天走上了 CMU 的毕业典礼台。

▲ 值得一提的是,毕业典礼上,Intel CEO 陈立武亲手为黄仁勋披上荣誉博士披肩。典礼结束后,陈立武公开祝贺,顺手透露了一句:两家公司正在合作开发「令人期待的新产品」。

他没有讲 AI 的宏大叙事,而是讲了自己 9 岁坐飞机去 Kentucky 煤矿小镇的事,讲了凌晨 4 点被妈妈叫起来送报纸,讲了在 Denny’s 洗碗,讲了向 Sega CEO 道歉、低头哀求对方不要撤资。他说,那是他做过的「最艰难的事情之一」。

从洗碗工到万亿帝国掌门人,黄仁勋在台上讲这些,显然不是为了熬一锅俗套的成功学鸡汤,而是在用自己的经历,给这群被 AI 吓坏的年轻人透个底:任何新时代的开局,其实都不是准备万全的,也不需要你一开始就无所不能。

AI 正在推翻过去几十年的计算规则,旧的经验不再绝对管用,一切都在重新洗牌。对于刚拿到文凭、毫无包袱的年轻人来说,这其实是一件好事。因为大家不用再去死磕那些已经被前人占满的旧赛道,而是和所有人一起,又一次站在了同一条起跑线上。

对此,他看着台下的学生表示:「把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。」

视频传送门地址🔗 :https://www.youtube.com/watch?v=dRaNmHmTJzs&t=5783s

附上黄仁勋演讲原文:

President Jehanian、董事会成员、各位老师、各位贵宾、骄傲的父母和家人们,最重要的是,Carnegie Mellon 2026 届毕业生们:

感谢你们授予我这份非凡的荣誉。能来到 Carnegie Mellon,与这所世界顶尖大学同在,我深感意义重大。这里是少数几个真正发明未来的地方之一。今天是一个充满自豪与喜悦的日子,是你们梦想成真的一天,但这一天并不只属于你们。你们的家人、老师、导师和朋友一路支持你们走到这里。

在我们谈论未来之前,请先感谢他们。这一天也属于他们。毕业生们,请站起来,和我一起站起来。来吧,各位。尤其请转向你们的母亲,祝她们母亲节快乐。

对你们来说,这是人生中的又一步。但对她来说,这是一个梦想成真的时刻。请记住这一点。

CMU 的学生就像机器人一样,一次只执行一条指令。看到你们毕业,看到你们。好了,大家集中注意力。我有件重要的事要告诉你们:看到你们从世界顶尖学府之一毕业,这也是她的时刻。我的父母也为我深感骄傲。我的旅程也是他们的旅程,我是他们梦想成真的结果,而他们的梦想就是美国梦。和在座许多人一样,我是第一代移民。

我父亲有一个梦想,就是在美国养育他的家庭。我 9 岁那年,他把我哥哥和我送到美国。我们最后去了 Kentucky 州 Oneida 的一所 Baptist 寄宿学校,那里是煤矿区,一个只有几百人的小镇。两年后,我的父母放下一切来到美国和我们团聚。他们几乎一无所有地来到这里。

我父亲是一名化学工程师。我母亲在一所天主教学校做女佣。她每天凌晨 4 点叫醒我去送报纸。我哥哥帮我在 Denny’s找了一份洗碗工的工作,在当时我觉得那简直是一次重大的职业晋升。

我去了 Oregon State University(俄勒冈州立大学)。17 岁那年,我遇到了我的妻子 Lori。我是学校里年龄最小的孩子。我们当时是大二学生,也是实验课搭档。她 19 岁。

一个年长的女人?我击败了班上其他 250 个男生,赢得了她的心。

我们现在已经结婚 40 年了。我们有两个很棒的孩子,他们都在英伟达工作。我 30 岁时,和 Chris Malachowsky、Curtis Priem 一起创办了英伟达,他们是两位出色的计算机科学家。

我们想打造一种新型计算机,一种能够解决普通计算机无法解决的问题的计算机。我们完全不知道该如何创办公司、融资,或者经营英伟达。我只是想,这能有多难?结果证明,这真的超级难。

我们的第一项技术根本行不通,钱也快用完了。有一次,我不得不飞到日本,向 Sega 的 CEO 解释,他们委托我们开发的技术无法实现,请求解除我们无法完成的合同,然后还请求他们继续付款。没有这笔钱,英伟达就会瞬间消失。那非常尴尬、非常屈辱,也是我做过的最艰难的事情之一。

而 Sega 的 CEO Irimajiri-san 说,可以。我很早就明白,做 CEO 不是关于权力,而是关于让公司活下去所承担的责任;也明白了诚实和谦逊有时会得到慷慨与善意的回应,即便是在商业世界里。我们用那笔钱重新调整了公司,并在绝境中发明了新的芯片和计算机设计方法,而这些方法直到今天仍在使用。

33 年来,英伟达一次又一次地重塑自己。每一次,我们都会问:这能有多难?每一次,我们又都会发现,它比我们想象的更难。但正是通过这些经历,我们学会了永远不要把失败看作成功的反面。每一次失败都只是一次学习的时刻,一次保持谦逊的时刻,一次锤炼品格的时刻。挫折中锻造出的韧性,才会给你再次出发的力量。今天,我是科技行业任职时间最长的 CEO 之一。

英伟达是我与 45000 位杰出同事共同完成的事业,也是我的毕生事业。现在,轮到你们去实现自己的梦想了,而这个时机再完美不过。我的职业生涯开始于 PC 革命的开端。你们的职业生涯开始于 AI 革命的开端。我想象不出还有比现在更令人兴奋的工作时代,更适合开启你们毕生事业的时代。AI 正是从卡内基梅隆大学起步的。

过去 24 小时里,我在这里听到了无数关于 AI 的笑话。卡内基梅隆大学是 AI 和机器人技术真正的发源地之一。20 世纪 50 年代,这里的研究人员创造了 Logic Theorist,它被广泛认为是第一个 AI 计算机程序。1979 年,卡内基梅隆大学成立了 Robotics Institute。今天上午我去参观了。今天上午,我参观了 Robo Club,也参观了第一个完全致力于机器人技术的学术机构。

AI 如今已经彻底重塑了计算。我经历过每一次重大的计算平台变革:大型机、PC、互联网、移动和云。每一波浪潮都建立在上一波之上,每一波都扩大了技术的可及性,每一波都改变了产业和社会。但现在即将发生的变化,比以往任何一次都更大。计算正在经历一次彻底重置。自现代计算被发明以来,还从未发生过这样的变化。

60 年来,计算的工作方式一直相同:人类编写软件,计算机执行指令。这个范式已经结束。AI 已经重塑了计算:从人类编码变成机器学习,从运行在 CPU 上的软件变成运行在 GPU 上的神经网络,从执行指令变成理解、推理、规划和使用工具。一个全新的产业已经出现,它的使命是大规模制造智能。

因为智能是每个行业的基础,所以每个行业都会发生变化。对许多人来说,AI 带来了不确定性。人们看到 AI 编写软件、生成图像、驾驶汽车,自然会想:接下来会发生什么?工作会消失吗?人们会被抛在后面吗?这项技术会不会变得过于强大?

历史上每一次重大的技术革命,都会在带来机会的同时带来恐惧。当社会以开放、负责任、乐观的态度拥抱技术时,我们扩展人类潜能的程度,远远超过我们削弱它的程度。所以首先,也是最重要的是,我们必须清楚地认识到:AI 也就是对理解、推理和解决问题的自动化,是人类有史以来创造的最强大技术之一。和此前每一项变革性技术一样,它既会带来巨大的希望,也会带来真实的风险。我们这一代人的责任,不只是推进 AI,更是要明智地推进 AI。科学家和工程师肩负着深刻责任,要同时推进 AI 能力和 AI 安全;政策制定者也是如此。

政策制定者有责任建立周全的护栏,在保护社会的同时,仍然让创新、发现和进步继续向前。历史表明,选择逃避技术的社会并不能阻止进步,它们只是放弃了塑造进步并从中受益的机会。所以答案不是恐惧未来,而是明智地引导未来,负责任地建设未来,并确保它带来的好处能够惠及尽可能多的人。我们不应该教人们害怕未来。我们应该以乐观、责任感和雄心去参与未来。

现在,全世界只有一小部分人知道如何编写软件。而如今,任何人都可以让 AI 帮自己做出有用的东西。一个店主可以创建网站并发展业务;一个木匠可以设计厨房,并向客户提供新服务。AI 会编写代码。第一次,每个人都成了程序员。计算和智能的力量第一次真正能够触达每个人,并弥合技术鸿沟。就像电力和互联网一样,AI 将需要数万亿美元的基础设施投资。

这是人类历史上规模最大的技术基础设施建设,也是一代人只有一次的机会,让美国重新工业化,恢复国家的建造能力。为了支持 AI,美国将在全国各地建设芯片工厂、计算机工厂、数据中心和先进制造设施。AI 给了美国再次建设的机会。电工、管道工、钢铁工人、技术员、建筑工人,这是你们的时代。

AI 不只是在创造一个新的计算产业,它正在创造一个新的工业时代。支撑这些新基础设施需要巨大的能源,但它也在推动几代人以来规模最大的能源基础设施投资之一,推动电网现代化、扩大电力生产,并加速可持续能源发展。是的,AI 会改变每一份工作,但一份工作的任务和目的并不是一回事。许多任务会被自动化。一些工作会消失,但许多新的工作和全新的行业也会被创造出来。

软件编码任务正越来越多地被自动化,但借助 AI,软件工程师可以扩大解决方案的搜索范围,从而应对更宏大的挑战。放射影像分析正越来越多地被自动化,但借助 AI,放射科医生会被提升到更高水平,更好地诊断疾病、照护患者。AI 不会取代人的目标,它会放大人的能力。这就是为什么即使 AI 编写了更多代码、分析了更多影像,对软件工程师和放射科医生的需求仍在继续增长。AI 不太可能取代你,但更会使用 AI 的人可能会取代你。所以一个很好的思维实验是:

我们希望自己的孩子被 AI 增强,还是被那些被 AI 增强的人甩在后面?没有父母希望自己的孩子被落下。所以,让我们安全地建设 AI。同时,也让我们想象一个乐观的未来,一个让我们的孩子愿意参与其中、并受到鼓舞去帮助建设的未来。因此,我们可以也必须同时做好四件事:安全地推进 AI,制定周全的政策,让 AI 被广泛使用,并鼓励每个人参与其中。每个人都应该拥有 AI。

机会不应该只属于会写代码的人。

2026 届毕业生们,你们正进入一个非凡的时代。一个新的产业正在诞生,一个科学与发现的新时代正在开启。AI 将加速人类知识的扩展,帮助我们解决曾经无法触及的问题。我们有机会弥合技术鸿沟,第一次把计算和智能的力量带给数十亿人;有机会让美国重新工业化,恢复我们的建造能力;也有机会帮助创造一个比你们所继承的世界更富足、更有能力、更充满希望的未来。

没有任何一代人像你们这样,在进入世界时拥有如此强大的工具和如此巨大的机会。我们都站在同一条起跑线上。这是你们帮助塑造未来的时刻。所以,要奔跑,不要慢走。卡内基梅隆大学有一句我很喜欢的校训:我的心在工作之中。

所以,把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。祝贺你们,卡内基梅隆大学 2026 届毕业生。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

终于能听 GPT-5 给我说人话了

作者 莫崇宇
2026年5月8日 08:08

不知道大家平时有没有这种经历。

每次遇到点急事,打给各大公司的智能客服,电话那头永远是那个字正腔圆但毫无感情的声音:「查询服务请按 1,人工服务请按 0……」接着就是漫长的音乐,以及那句让人抓狂的「对不起,我没听懂,请再说一遍」。

但就在刚刚,OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示,这回,他们是真心想让机器说「人话」,办「人事」。

省流版如下:

  • GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行。
  • GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流。
  • GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。

终于,AI 学会了「稍等片刻」

如果说拟人化是面子,那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属,基准测试结果显示,GPT-Realtime-2 在 Big Bench Audio(音频智能测试)上比上一代高了 15.2%,在 Audio MultiChallenge(多轮对话指令跟随测试)上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍,调用成功率从 69% 跳到了 95%,提升了 26 个百分点。

以前的语音助手,脑回路其实很直。你说「放首歌」,它放一首歌;你说「关灯」,它把灯关了。如果你一口气给它布置三个任务,顺便还改了两次主意,它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于,OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里,给我一种 GPT-5「说人话」的即视感。

举个很实在的例子,假设你正在开车,随口吩咐它:「帮我找个离地铁站近的房子,租金别太贵,避开那些主干道,如果可以的话,周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD(产品需求文档)写作流程:先口述需求,AI 生成文档,再用语音要求改格式,AI 随即更新,全程对话驱动,没有动过键盘。🔗 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了,这需要它听懂你的各种限制条件,去地图上筛位置,去对比价格,最后还要去匹配中介的时间表。为了干好这种复杂的活,OpenAI 给它点亮了两个非常特别的技能树。

第一个技能,叫「Parallel tool calls(并行工具调用)」。它现在可以多线程操作,一边跟你讲着话,脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话,你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话,借助 OpenClaw 用语音驱动 AI 操控浏览器,先打开 Google,再跳转到华尔街日报网站。整个过程中,AI 一边执行操作,一边主动说明自己在没有浏览器权限时还能帮上哪些忙。🔗 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个,也是我觉得最有人情味的一个更新——「Preambles(开场白)」。

人在思考或者处理复杂事情的时候,是做不到秒回的,我们通常会说「呃,让我想想」或者「稍等啊,我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候,它会非常自然地对你说:「好的,没问题,给我一小会儿时间我来核实一下。」
这种看似「废话」的设计,反而最大程度缓解了我们等待时的焦虑感。

有意思的是,开发者现在能控制它的推理强度(从极简到极高:minimal、low、 medium、high、xhigh)。你要是问它今天下不下雨,它就用最快速度回你;要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题,它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价?

除了 GPT-Realtime-2,这次还有个非常抢眼的配角:GPT-Realtime-Translate(实时翻译)。

咱们平时用的翻译软件,大部分是「回合制」的。你按住说话,松手,等几秒,机器再字正腔圆地播报出来。如果是旅游问个路还行,要是真拿来开跨国会议,那种互相大眼瞪小眼的停顿,尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型,主打就是一个「实时翻译」。

它支持 70 多种语言输入,能做到你在那边滔滔不绝,它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它,结果发现这模型不仅没被绕晕,准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件,直接接入 YouTube 视频,边播边把内容实时翻译成多种语言,中文表现不错,但多少还是有点口音,🔗 https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程,或者听某些没有同传的海外发布会,直接把这个插件一开,它就能顺着原视频的节奏,稳稳当当把你熟悉的母语送到你耳朵里。

除此之外,加上刚刚发布的 GPT-Realtime-Whisper(极低延迟的语音转文字)功能,以后遇到开会的场景,领导在说话,你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面,GPT-Realtime-Whisper 是每分钟 0.017 美元,GPT-Realtime-Translate 是每分钟 0.034 美元,GPT-Realtime-2 按 token 计费,音频输入 32 美元 / 百万 token,音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看,我们会发现软件的逻辑正在发生根本性的变化。
以前,我们要学习怎么用键盘敲代码,怎么在复杂的菜单栏里找功能,怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是,

AI 反过来开始迁就我们了。

语音,正在从一个笨拙的「辅助功能」,变成我们掌控数字世界最自然的接口。因为说话,本来就是人类最不需要学习的本能。

技术发展的尽头,总是倾向于把复杂的东西藏起来,把最简单、最自然的一面留给普通人。或许就在不久的将来,你出门真的只需要带个耳机,靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来,这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后,我们还能忍受现实世界里,人类之间那充满误解和低效的沟通吗?

附上博客地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

等 DeepSeek 回复的 30 秒,是手机最好玩的半小时

作者 莫崇宇
2026年5月6日 09:34

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?

它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:

等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:

「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」

然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。

接着,你深吸一口气,抬起头。

等等,刚才发生了什么?

窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」

如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代,摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。

但现在,形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。

低情商这叫偷懒,高情商这叫技术性调休。

于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」

这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。

其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。

把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。

那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。

后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。

历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。

很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。

紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。

包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。

最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。

最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。

恭喜你,新的半小时又开始了。

当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.(doge)

他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。

只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此,大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。

鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。

今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮,心态常好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌