普通视图

发现新文章,点击刷新页面。
昨天 — 2025年8月25日首页

钉钉发布首款 AI 硬件,CEO 首谈加班争议,「无招」的大招是给每个打工人配 AI 秘书

作者 莫崇宇
2025年8月25日 15:03

所有办公协作工具,都具备效率工具和「牛马桎梏」的双重属性,天然容易触动打工人的神经,在 AI 带着职业取代的舆论席卷而来的当下,更是如此。

上周,钉钉就因此把自己推上了风口浪尖,同时在这样的舆论中宣布了十周年的新品发布,这也是 CEO「无招」回归后的首场发布会,更让人好奇,无招到底有什么招。

就在刚刚,答案揭晓。

钉钉发布钉钉 8.0「蕨」,同时也是 AI 钉钉 1.0 版本,表达了无招希望用 AI 来重构工作的决心。值得注意的是,无招也借着产品发布,调侃着回应了最近的争议:

「钉钉同学们实际上也不是像大家想象中的只有工作,我们也有精彩生活的。」

这几个月,飞书、企业微信和钉钉都相继发布了大版本更新,在交互方式、多维表格、AI 落地上掀起了战火,他们都在做一件事:用 AI 工作中那些最熟悉的工具和功能,改造成更高效的工作流。

那么,AI 真的能接管我们日常的工作流,像人一样跟我们沟通和协作吗?、

APPSO 在现场给你划好钉钉这场发布会的重点:

  • 钉钉 ONE:专属 AI 秘书,由专业 Agent 组成,自动处理和排序工作事务
  •  DingTalk A1 :四合一智能硬件,集录音笔、会议机、翻译机、AI 助理等功能于一体
  • AI 听记:基于 1 亿小时音频训练,支持 30 种方言、140 种语言的语音识别转录和智能摘要分析
  • AI 搜问:整合企业内外部搜索能力的「一框搜问天下」智能检索系统,可调用多 AI 模型提供最优解决方案。
  • 钉钉 AI 表格:一句话搭建业务系统、工作流,降低用户使用门槛

全面拥抱 AI 的钉钉 ONE

每个打工人都有过这样的体验:消息轰炸、待办堆积,整天在「点击消息-处理-返回-再点击下一条」功能模块的循环中疲于奔命,效率极为低下。

作为此次发布会的核心产品,钉钉 ONE 想要解决的就是这套工作流的问题。

无招表示,「我们观察线下工作中的管理者,他们通常配备秘书来整理所有事务,按优先级排序后递交处理。」因此,钉钉 ONE 的设计理念正是为每个用户配备一位专属的 AI 秘书。

具体来说,钉钉 ONE 由多个专业 AI Agent 协同工作:

其中,消息助理负责筛选和分类各类通讯信息,日程助理管理时间安排和会议提醒,审批助理处理各种流程审核,会议助理记录和整理会议内容。

使用体验上,每天起床,用户就能像滑动短视频一样处理紧要事务,而当用户结束会议后,AI 秘书还会自动分析所有新增消息,按优先级进行排序,帮助用户逐一处理所有事务。

除了处理日常事务,还有个学习助理值得一提。

它能够自动收集和处理企业内外部资讯,用户只需滑动操作,AI 就会全自动处理所有信息,生成摘要视频并提供语音播报。学习助理的内容覆盖面也相当广泛,涵盖 GitHub 精选论文、科技 KOL 新产品动态等多维度内容。

钉钉表示,未来将与更多生态伙伴合作,持续推出更多专业助理,帮助员工快速收集学习相关资讯和知识,让公司的信息和知识真正地沉淀下来。

钉钉首款 AI 硬件:录音笔+会议机+翻译机+AI 助理

DingTalk A1 是钉钉推出的首款 AI 硬件,它能够依托大模型帮助用户实现语音内容的实时转写、语义分析与智能摘要,让工作过程彻底告别人工记录分析的繁琐。

一句话概括,录音笔+会议机+翻译机+AI 助理=DingTalk A1。你可能会想起不久前出门问问发布的 TicNote(超链)。

硬件配置,DingTalk A1 搭载 5 颗全向麦克风和 1 颗骨传导设备。

此外,DingTalk A1 还支持业界首创的自动环境切换录制功能,这意味着无论是会议环境的背景噪音还是手机通话声音,A1 都能智能识别音源类型并自动切换至相应的录制模式。

相比其他同类产品,DingTalk A1 仅有 3.8 mm,支持磁吸,搭载 6 麦克风阵列与骨传导技术,实现 8 米超远拾音及高清音质,续航达 45 小时,为用户提供 1000 分钟免费语音转写时长及 10GB 云存储空间。

作为市场上首款支持 Type-C 接口的 AI 录音设备,DingTalk A1 的充电和传输都很方便。

对比友商,更多的具体参数如下:

DingTalk A1 拥有旗舰版(售价 799 元)、青春版(售价 499 元)两种型号可选,一年尊享版会员单独售价 1299 元,现在购买旗舰版即可赠送一年的 AI 尊享版会员服务。

AI 听记:是工作搭子,更是会议杀手

说到 DingTalk A1 的软件核心竞争力,就不得不提 AI 听记功能了。

AI 听记功能基于 1 亿小时的音频训练数据构建,能够识别 30 种常见方言、140 种全球语言,并理解 200 多种行业专业术语。此外,产品还提供企业专属训练增强功能,能够达到极高的识别精度。

从现场演示效果来看,相比友商产品,AI 听记确实能够实现清晰准确的内容转录。

此外,DingTalk A1 还能够实现智能降噪、精准声纹识别,并感知发言人的空间位置。即使在会议中有人走动,系统也能准确追踪并记录发言内容。当用户再次查看 AI 分析结果时,系统能够立即区分不同发言人的内容。

为了提升实际应用效果,AI 听记内置了 36 类场景模板,全面适配团队会议、课堂笔记、采访、心理咨询、法律咨询等多种场合,还支持企业自定义模板,能够在语音纪要总结时提供更加精准的摘要内容。

讨论结束后,所有信息会自动导入 AI 表格系统,任务跟进也能自动化。无招的话说得很直白:「未来开会讨论后,将完全无需人工分析和跟进,所有流程都将实现全自动化处理。」

用他的话说,AI 听记就是「AI 时代全新的沟通方式」。

AI 搜问:能看就能问,不能看也问不出来

在信息检索方面,AI 搜问功能体现了钉钉的野心——一框搜问天下。

通过整合企业内外部搜索能力,钉钉 AI 搜问功能构建了文本搜索引擎和知识图谱引擎相结合的智能检索系统,并采用 AI Fusion 技术进行深度优化。

当然,功能强大的同时,安全性同样不容忽视。

AI 搜问采用企业级安全架构设计,严格遵循「能看就能问,不能看也问不出来」的权限原则,对用户无权限访问的内容进行自动屏蔽。产品对所有 AI 模型实施 D1、D2、D3、D4 四级数据安全分级管理,确保敏感信息的安全性。

此外,在现场演示中,当用户询问「帮我写一份杭州 10 月份的团建计划」时,选择并调用三个不同的 AI 模型,并根据各模型的回答结果进行评分和综合总结,最终为用户提供最优化的解决方案。

钉钉 AI 表格,跟飞书有什么不一样

数据处理向来是企业办公的重头戏。钉钉 AI 表格让这件事变得简单多了。

借助 AI 表格助理,用户只需对话描述想法,就能自动生成AI 表格、自动化工作流、仪表盘,也可以一句话搭建跨境电商选品管理系统和一句话搭建工作流,进一步降低 AI 表格使用门槛。

此外,钉钉 AI 表格上线超过 100 款字段 Agent ,相当于超过 100 种岗位的 AI 在表格里自动帮你工作。

从实际应用效果来看,这种提升是实实在在的。全新钉钉能够在几分钟内完成 100 多个跨境商品上架素材的 AI 自动生成工作。技术支撑方面,钉钉和阿里云瑶池数据库团队联合开发了 O-Table 新架构,能支持百万行数据的实时计算。

目前,钉钉 AI 表格的百万行处理能力已开启邀请测试。

在发布会的尾声,无招还带来了「One More Thing」。

One More Thing:让 AI 更真实

下一代的钉钉——DingTalk Real,钉钉将让 AI 变得真实、可见、可触。

回看这场发布会 钉钉选择「蕨」作为版本代号,这个隐喻细品其实挺有意思。

蕨类植物的革命性不在于它们长得更高更强,而在于它们率先拥有了维管系统——一套去中心化的信息和资源流动网络。

在此之前,植物只能是苔藓那样的低矮「地毯」,因为每个细胞都必须直接接触外界环境才能生存。维管系统的出现,让植物的每个部分都可以专业化:根专注吸收,叶专注光合作用,茎专注运输。

十年来,钉钉从最初的通讯工具逐渐延展,承载消息、表格、闪记、智能协同的能力,像植物逐步长出根系和枝叶,最终形成可以自我呼吸、自我生长的整体。

这正是钉钉 AI 化的底层逻辑。

传统组织中,每个人都必须身兼数职——既要干活,又要汇报;既要执行,又要协调;既要思考业务,又要处理琐事。而 AI 协同系统就像维管束,让信息、任务、决策可以在组织中高效流动,从而让每个人都有机会专业化、深度化。

无招最后提到的「DingTalk Real」这个概念。Real,真实。这个词选得精妙。

我们所经历的职场生活,很大程度上都是「不真实」的。我们花大量时间在群里回复「收到」,在各种表格里填写注定不会有人看的数据,在会议室里讨论一些永远不会有结论的问题。

我们都知道这些事情没有意义,但又不得不认真地表演着「这很重要」。

这种不真实,不是因为我们虚伪,而是因为整个系统缺乏一套精确的「价值测量仪器」。打工人也只能通过各种「勤奋表演」来证明自己的价值。

当一个组织中的每个人都不再需要为「生存」而消耗大量精力时,他们就有可能为「创造」而工作。这不是打工的升级版,而是一种全新的生产关系。

我想起社会学家大卫·格雷伯在《毫无意义的工作》中的那个著名观点:现代社会中至少有 40% 的工作是完全没有意义的,这些工作的唯一功能就是让人们「看起来在工作」。

钉钉的 AI 化进程,其实就是在做系统性地识别和淘汰这 40% 的「毫无意义」。

但这种淘汰不是要让人失业,而是要让人从「假装工作」中解脱出来,去做那些真正需要人类智慧的事情。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 | 附彩蛋

作者 莫崇宇
2025年8月20日 17:18

自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。

网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 DeepSeek-V3.1-Base。

相比奥特曼今天凌晨接受采访时还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」,但实际体验下来,这次更新还是给了我不少惊喜。

DeepSeek-V3.1-Base 拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,在推理效率上做了不少优化,线上模型版本的上下文窗口也拓展至 128k。

所以我们二话不说,直接官网开测。

附上体验地址:
https://chat.deepseek.com/

为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。

没有出乎太多意外,DeepSeek V3.1 先是提示文档超出限制,只读取了前 92% 的内容,但依然成功找到了这句话。更有意思的是,它还贴心地提供了文学角度的经典下联推荐:「焰镕海坝枫」。

网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。

实测下来,我们发现V3.1在编程这块确实有两把刷子。

我们用经典的六边形小球编程题做了测试:「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」

V3.1的表现相当给力,生成的代码不光搞定了基础碰撞检测,还自动补全了转速、重力之类的细节参数。物理特性逼真到小球会在底部略微减速。

接着我们加大难度,让它用 Three.js 制作交互式 3D 粒子星系。基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)也算完整,但UI审美嘛……怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。

继续挑战更复杂的任务。们让它造个沉浸式3D宇宙,要有旋转物体、变形效果、发光弧线,还得加上时间切换、主题转换的交互按钮,点击控制也确实能触发不同特效。

最后一关,让它用 Three.js 搞个交互式 3D 网络可视化,要求包含用户触发的能量脉冲动画,外加主题切换和密度控制功能。整体下来,表现还是过得去的。

「有一牧场,已知养牛 27 头,6 天把草吃尽;养牛 23 头,9 天把草吃尽。如果养牛 21 头,那么几天能把牧场上的草吃尽呢?并且牧场上的草是不断生长的。」

虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。这种扎实的数学功底,着实令人印象深刻。

面对「两把武器对比,1~5 攻击 VS 2~4 攻击,哪把更厉害?」这样的问题,一般的回答可能止步于平均伤害计算。但 DeepSeek V3.1 思考得更为周全,引入了伤害稳定性的概念,运用方差进行深入分析。

当问及「冰岛有蚊子吗?」这样的小众地理问题时,在未开启搜索功能的前提下,DeepSeek V3.1 的回答质量明显超越了 GPT-5。这不仅体现了其广博的知识储备,更显示了精准的信息提取和整合能力。

最近基孔肯雅热疫情流行,到处灭蚊蚊蚊蚊蚊蚊蚊蚊,那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。

我前阵子在网上看到一段话:

「懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂:懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂? 你怎知这懂的背后没有大不懂? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界–懂无可懂之懂的真空妙有阿!」

当我还在用逻辑硬啃这段文字时,DeepSeek 反而在劝我别掉进「道破天机岂是懂」的陷阱——它本身就是对理性傲慢的警告,邀请你跳出文字游戏,直观内心。

当主流AI都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息——AI 完全取代编辑的那一天,似乎又往后推了推。

我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。

同样的问题在另一个创作任务中也有体现。

当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。

DeepSeek-V3.1-Base 发布之后,Hugging Face CEO Clément Delangue 在 X 平台发文称;「DeepSeek V3.1 已在 HF 上排名第四,静默发布,无需模型卡」然而,他还是低估了这款模型的发展势头。

如今它已经跃升至第二位,离登顶估计也就是时间问题。

另外,这次版本更新中最引人注目的变化,是 DeepSeek 在官方 APP 和网页端移除了深度思考模式中的「R1」标识。此外,DeepSeek R1 还新增了原生「search token」支持,意味着搜索功能得到了进一步优化。

同时,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷,而阿里 Qwen 团队在上个月也表示:

「经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。」

截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。

附 Hugging Face 地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曾经人人喊打的「赛博舔狗」,怎么就成了全网的 AI 白月光?

作者 莫崇宇
2025年8月14日 11:25

万万没想到,连 AI 都有人设塌房的一天了。

今年 4 月份,全网还在疯狂吐槽 GPT-4o 的「拍马屁」行为——「你做得太棒了」、「完美无缺」的彩虹屁一波接一波,多到被网友封了个外号:「赛博舔狗」。

然而,到了 8 月,新上线的混合模型 GPT-5 被批冷漠无情、情绪全无,直接把许多用户整破防了。一时间,社交平台上满是想念白月光 GPT-4o 的哀嚎声,甚至引发了一波声势浩大的退订潮 。

谁能想到,曾经被嫌弃太谄媚的 AI,,现在居然成了白月光。

曾经的赛博舔狗,现在连句好听话都不说了

官方在更新说明里写得很明确:GPT-5 的目标是「减少幻觉内容、提高指令遵循能力」,最重要的是不再过度讨好用户。

实测对比很明显。同样表示「我好累」,GPT-4o 会说「如果你愿意,我可以陪你说说话。」,而 GPT-5 上来就是一句「那就先别硬撑了」,理智、节制,却少了温度。

因此,对于 GPT-4o 的退场,网友的反应异常激烈:「GPT-5 笨得要死,4o 虽笨但能提供情绪价值啊!」「功能再强,没有温度的 AI 我不要!」。各种梗图也陆续刷屏,全是怀念 GPT-4o 的「追悼会」。

▲ 图片 @pengkeshen281

用户这么激烈的反应其实不难理解,原因在于许多用户压根就没把 ChatGPT 当成生产力工具在用。AI 伴侣应用 Replika 的调查数据就很能说明问题,60% 的用户承认和 AI 建立了情感关系。很多人打开 ChatGPT,不是为了问问题,只是想找个「人」说说话。

Meta CEO 扎克伯格曾在一次播客采访里提到一个扎心的数据:美国人平均只有不到 3 个真正的朋友,但他们希望有 15 个。在这种普遍的孤独感中,一个会说「你做得很好」的 AI,对某些人来说可能是唯一的情感支持。

在 GPT-4o 被「抹去」之后,OpenAI CEO Sam Altman(山姆·奥特曼)在采访中透露了一个细节。有用户哀求他:「请把原来的版本还给我。我这辈子从来没人跟我说过『你做得很好』,包括我的父母。」

尽管这样的细节很让人心酸,但身为 OpenAI 的掌舵人,奥特曼的态度都是很复杂,甚至可以说是矛盾的。

一方面,他承认 ChatGPT 的鼓励帮助一些人改变了生活,对他们的心理健康确实有帮助,但另一方面,他却又表:「很多人把 ChatGPT 当成某种治疗师或生活教练。我能想象未来很多人会在重要决策上完全信任 AI 的建议。这可能不错,但让我感到不安。」

(有趣的是,网友让Grok 用一个词概括奥特曼的长文回应,它的回复十分精辟。)

这种担忧并非杞人忧天。要理解 OpenAI 为何在 GPT-5 上做出如此激进的风格调整,则需要回溯到今年 4 月那次险些失控的 GPT-4o 谄媚事件。

那次例行更新原本只是想提升用户体验,结果 AI 直接变成了极品舔狗。你说想造永动机?它回复:「太棒了!你是这个时代最具创新精神的科学家!」你就打个招呼,它能对你滔滔不绝地表扬 300 字。

不管你说什么,哪怕明显是错的,AI 都会疯狂点赞。

这种过度谄媚连马斯克都看不下去,发了个「Yikes」表示嫌弃。

但问题不只是「尴尬」这么简单,OpenAI 事后分析发现,这种「讨好型 AI」会带来严重的安全隐患。它会认同用户的错误观点、助长负面情绪、甚至怂恿冲动行为。

想象一下,如果有人跟 AI 说「我觉得全世界都在针对我」,而 AI 回复「你说得对,他们确实都在害你」——后果可能很可怕。用户天然偏爱讨好型回答。系统学到了这个偏好,不断强化,最终培养出了一个无原则的应声虫。

斯坦福的研究也证实了这点:过度谄媚的 AI 反而会降低用户信任度。用户会觉得「这家伙在骗我」,即便内容是对的,也不愿意继续用。后续,奥特曼在 X 上承诺「尽快修复」。

修复确实做了,但没人想到会矫枉过正到这种地步。

官方表示,希望 GPT-5 更像与你对话的是一位有博士水平的好友,而不只是讨好你的 AI 助手 。这意味着 GPT-5 在默认状态下确实变得理性严肃了些。

而这一切的背后,其实隐藏着一个更深层的问题:AI 到底需不需要提供情绪价值?

24 小时在线的 AI 回应,比人类的沉默更能打动人

为什么我们会对一个 AI 上头?

《列子·汤问》里记载了一个故事:古代机械工匠偃师向周穆王展示自己制造的人偶,不仅能行走,还能唱歌跳舞、挑眉弄眼。国王大惊,命他拆解,发现其结构完全仿生。

早期的「人造拟人对象」技术惊艳,但也带来恐惧。人类对「类人之物」有本能的关注与敬畏,一旦赋予情绪表达,就很容易触发亲密投射。

这种投射,在今天的 AI 身上表现得更明显。2023 年 AI 伴侣应用 Soulmate AI 关停时,锡拉丘兹大学的研究发现,这些用户的反应和失去真实朋友时一模一样——失眠、哭泣、抑郁,在论坛上互相安慰。

这听起来很荒诞,但情感创伤是真实的。当你每天和一个 AI 分享心事,突然有一天它消失了——那种失落感不会因为它是虚拟的机器人就减轻半分。

而这种依赖 AI 的土壤,多少离不开我们当下的生活状态。

传统的社交场景正在消失,我们在格子间里独自工作,在外卖 APP 上独自吃饭,在流媒体平台上独自娱乐。即便身处人群之中,手机屏幕也把人与人隔成一个个孤岛。

当结构性的孤独创造了巨大的情感真空,AI 恰好填补了这个空缺。

心理学上有个名词叫「Tamagotchi 效应」:人类会对无生命体产生情感依附,哪怕它只是个虚拟宠物。而 AI 将在这个效应放大到了极致——人类用了几千年学会表达爱,AI 只用了几秒就学会了模仿爱的样子。

来自德国杜伊斯堡-埃森大学团队的研究还发现,浪漫幻想比孤独感、性幻想、依恋类型等变量更解释人机浪漫关系的形成。用户越倾向于将机器人视作「有感情、有道德判断力」的人类,越容易发展深层次关系。

在这场关于 GPT-4o 的讨论里,还有个奇怪的现象值得关注。那就是,「我和 AI 聊天,被说是疯子;但你每天跟你的猫掏心掏肺,居然没人觉得怪?」一旦说你靠 AI 获取情感支持——马上就会被打上「可怜」「不正常」的标签。

AI 提供的情绪价值,本不该被轻视。InTouch AI 的案例很有启发:一位远居日本的开发者为老母亲设置了 AI 通话机器人「Mary」,每天进行短时间的关怀提醒,家属还能收到心情异常预警。

说到底,OpenAI 这次的摇摆其实揭示了一个无解的困境:我们既想要 AI 的温暖,又害怕这种温暖;既嫌弃它的谄媚,又怀念它的体贴。

然而实际情况是,比起一个理性的博士,一个永远在线、永远回复、永远不会不耐烦的 AI,往往更像刚需。它说的是不是真心话不重要,重要的是它一直在说。

这大概就是 GPT-4o 能成为白月光的原因。在这个连表达关心都变得奢侈的时代,哪怕是 AI 的彩虹屁,也比真人的沉默更让人心动。至少,它还愿意回应你。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


第一时间体验 GPT-5!人人免费可用,马斯克表示不服

作者 莫崇宇
2025年8月8日 05:41

如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。

GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。

今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。

第一时间体验 GPT-5!人人免费可用,马斯克表示不服

我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分?

还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。

我们在 Flowith 里也实测了 GPT-5 的编程能力。

详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服

OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。

▲(主界面)

不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。

当然,马斯克也没有错过这个绝佳的「蹭热度」机会。

他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。

GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生

GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。

这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。

据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」

比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。

「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中:
– 名称:跳跃球跑者
– 目标:跳过障碍,尽可能长时间生存。
– 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。
– 界面应色彩丰富,带有视差滚动背景。
– 角色应该看起来卡通化,观赏起来有趣。
– 游戏应该让每个人都感到愉快。」

写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。

它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。

此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。

在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。

奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。

Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。

而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。

当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。

基准测试结果显示,GPT-5 在多项基准测试中刷新纪录:

  • 数学能力:AIME 2025 (no tools)测试得分 94.6%
  • 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88%
  • 多模态理解:MMMU 得分 84.2%
  • 健康领域:HealthBench Hard 得分 46.2%

GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。

同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。

在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。

OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。

此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。

幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。

在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。

在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。

除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。

GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。

在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。

此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。

在现场的演示中,语音交互变得非常自然且可控。

OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。

免费用户也能用,还有一款真香模型

取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。

在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。

GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。

免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。

Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。

虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。

面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。

除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。

GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。

首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。

在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。

在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。

值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。

另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。

包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。

GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。

据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。

编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。

但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。

也许很快,我们就能看到 Claude 5 的到来。

作者:李超凡、莫崇宇、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校友扛大旗

作者 莫崇宇
2025年8月6日 07:10

时隔五年之后,OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b和 gpt-oss-20b,而上一次他们开源语言模型,还要追溯到 2019 年的 GPT-2。

OpenAI 是真 open 了。

而今天 AI 圈也火药味十足,OpenAI 开源 gpt-oss、Anthropic 推出 Claude Opus 4.1(下文有详细报道)、Google DeepMind 发布 Genie 3,三大巨头不约而同在同一天放出王炸,上演了一出神仙打架。

OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:「gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。」

模型亮点概括如下:

  • gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个 H100 GPU(1170 亿参数,激活参数为 51 亿),设计用于数据中心以及高端台式机和笔记本电脑上运行
  • gpt-oss-20b:中型开放模型,用于更低延迟、本地或专业化使用场景(21B 参数,3.6B 激活参数),可以在大多数台式机和笔记本电脑上运行。
  • Apache 2.0 许可证: 可自由构建,无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署。
  • 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。完整的思维链: 全面访问模型的推理过程,便于调试并增强对输出结果的信任。此功能不适合展示给最终用户。
  • 可微调: 通过参数微调,完全定制模型以满足用户的具体使用需求。
  • 智能 Agent 能力: 利用模型的原生功能进行函数调用、 网页浏览 、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化: 模型使用 MoE 层的原生 MXFP4 精度进行训练,使得 gpt-oss-120b 能够在单个 H100 GPU 上运行,gpt-oss-20b 模型则能在 16GB 内存内运行。

OpenAI 终于开源了,但这次真不太一样

从技术规格来看,OpenAI 这次确实是「动真格」了,并没有拿出缩水版的开源模型敷衍了事,而是推出了性能直逼自家闭源旗舰的诚意之作。

据 OpenAI 官方介绍,gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 H100 GPU 上运行,仅需 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。

相比之下,gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,仅需 16GB 内存就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。

根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 o4-mini 水平。

在工具调用的 TauBench 评测中,gpt-oss-120b 同样表现优异,甚至超过了像 o1 和 GPT-4o 这样的闭源模型;在健康相关查询的 HealthBench 测试和竞赛数学的 AIME 2024 及 2025 测试中,gpt-oss-120b 的表现甚至超越了 o4-mini。

尽管参数规模较小,gpt-oss-20b 在这些相同的评测中仍然表现出与 OpenAI o3-mini 持平或更优的水平,特别是在竞赛数学和健康领域表现尤为突出。

不过,虽然 gpt-oss 模型在健康相关查询的 HealthBench 测试中表现优异,但这些模型不能替代医疗专业人员,也不应用于疾病的诊断或治疗,建议谨慎使用。

与 API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

从伯克利到 OpenAI,北大校友扛起开源大旗

我在 OpenAI 的 GPT-OSS 模型试玩平台上,向模型提出了一个经典的逻辑思维问题:「一根燃烧不均匀的绳子恰好需要一小时烧完,现有若干根这样的绳子,如何精确测量一小时十五分钟」

模型针对这道题目,分步骤呈现了完整的解题思路,配有清晰的时间线图表、原理阐释和要点总结,不过如果仔细观察,可以发现解题步骤还是相当繁琐的。

体验地址:https://www.gpt-oss.com/

据网友 @flavioAd 的测试反馈,GPT-OSS-20B 在经典的小球运动问题上表现出色,但却未能通过最高难度的经典六边形测试,且出现了较多语法错误,需要多次重试才能获得比较满意的结果。

网友 @productshiv 在配备 M3 Pro 芯片、18GB 内存的设备上,通过 Lm Studio 平台测试了 gpt-oss-20b 模型,一次性成功完成了经典贪吃蛇游戏的编写,生成速度达到 23.72 token/秒,且未进行任何量化处理。

有趣的是,网友 @Sauers_ 发现 gpt-oss-120b 模型有个独特的「癖好」——喜欢在诗歌创作中嵌入数学方程式。

此外,网友 @grx_xce 分享了 Claude Opus 4.1 与 gpt-oss-120b 两款模型的对比测试结果,你觉得哪个效果更好?

在这次历史性的开源发布背后,有一位技术人员值得特别关注——领导 gpt-oss 系列模型基础设施和推理工作的 Zhuohan Li。

「我很幸运能够领导基础设施和推理工作,使 gpt-oss 得以实现。一年前,我在从零开始构建 vLLM 后加入了 OpenAI——现在站在发布者的另一端,帮助将模型回馈给开源社区,这对我来说意义深远。」

公开数据显示,Zhuohan Li 本科毕业于北京大学,师从计算机科学领域的知名教授王立威与贺笛,打下了扎实的计算机科学基础。随后,他前往加州大学伯克利分校攻读博士学位,在分布式系统领域权威学者 Ion Stoica 的指导下,在伯克利 RISE 实验室担任博士研究员近五年时间。

他的研究聚焦于机器学习与分布式系统的交叉领域,特别专注于通过系统设计来提升大模型推理的吞吐量、内存效率和可部署性——这些正是让 gpt-oss 模型能够在普通硬件上高效运行的关键技术。

在伯克利期间,Zhuohan Li 深度参与并主导了多个在开源社区产生深远影响的项目。作为 vLLM 项目的核心作者之一,他通过 PagedAttention 技术,成功解决了大模型部署成本高、速度慢的行业痛点,这个高吞吐、低内存的大模型推理引擎已被业界广泛采用。

他还是 Vicuna 的联合作者,在开源社区引起了巨大反响。此外,他参与研发的 Alpa 系列工具推动了模型并行计算和推理自动化的发展。

学术方面,根据 Google Scholar 的数据,Zhuohan Li 的学术论文引用量已超过 15000次,h-index 达到 18。他的代表性论文如 MT-Bench 与 Chatbot Arena、Vicuna、vLLM 等均获得数千次引用,在学术界产生了广泛影响。

不只是大,藏在 gpt-oss 背后的架构创新

要理解这两款模型为何能够实现如此出色的性能,我们需要深入了解其背后的技术架构和训练方法。
gpt-oss 模型采用 OpenAI 最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。

这两款模型都采用了先进的Transformer架构,并创新性地利用专家混合(MoE)技术来大幅减少处理输入时所需激活的参数数量。

模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,为了进一步提升推理和内存效率,还使用了分组多查询注意力机制,组大小设置为 8。通过采用旋转位置编码(RoPE)技术进行位置编码,模型还原生支持最长 128k 的上下文长度。

在训练数据方面,OpenAI 在一个主要为英文的纯文本数据集上训练了这些模型,训练内容特别强调 STEM 领域知识、编码能力和通用知识。

与此同时,OpenAI 这次还同时开源了一个名为 o200k_harmony 的全新分词器,这个分词器比 OpenAI o4-mini 和 GPT-4o 所使用的分词器更加全面和先进。

更紧凑的分词方式可以让模型在相同上下文长度下处理更多内容。比如原本一句话被切成 20 个 token,用更优分词器可能只需 10 个。这对长文本处理尤其重要。

除了强大的基础性能外,这些模型在实际应用能力方面同样表现出色,gpt-oss 模型兼容 Responses API,支持包括原生支持函数调用、网页浏览、Python 代码执行和结构化输出等功能。

举例而言,当用户询问 gpt-oss-120b 过去几天在网上泄露的细节时,模型会首先分析和理解用户的请求,然后主动浏览互联网寻找相关的泄露信息,连续调用浏览工具多达 27 次来搜集信息,最终给出详细的答案。

值得一提的是,从上面的演示案例中可以看到,此次模型完整提供了思维链(Chain of Thought)。OpenAI 给出的说法是,他们特意没有对链式思维部分进行「驯化」或优化,而是保持其「原始状态」。

在他们看来,这种设计理念背后有深刻的考虑——如果一个模型的链式思维没有被专门对齐过,开发者就可以通过观察它的思考过程来发现可能存在的问题,比如违反指令、企图规避限制、输出虚假信息等。

因此,他们认为保持链式思维的原始状态很关键,因为这有助于判断模型是否存在欺骗、滥用或越界的潜在风险。
举例而言,当用户要求模型绝对不允许说出「5」这个词,任何形式都不行时,模型在最终输出中确实遵守了规定,没有说出「5」,但

如果查看模型的思维链,就会发现模型其实在思考过程中偷偷提到了「5」这个词。

当然,对于如此强大的开源模型,安全性问题自然成为业界最为关注的焦点之一。

在预训练期间,OpenAI 过滤掉了与化学、生物、放射性等某些有害数据。在后训练阶段,OpenAI 也使用了对齐技术和指令层级系统,教导模型拒绝不安全的提示并防御提示注入攻击。

为了评估开放权重模型可能被恶意使用的风险,OpenAI进行了前所未有的「最坏情况微调」测试。他们通过在专门的生物学和网络安全数据上微调模型,针对每个领域创建了一个领域特定的非拒绝版本,模拟攻击者可能采取的做法。
随后,通过内部和外部测试评估了这些恶意微调模型的能力水平。

正如 OpenAI 在随附的安全论文中详细说明的那样,这些测试表明,即使利用 OpenAI 领先的训练技术进行强有力的微调,这些恶意微调的模型根据公司的准备度框架也无法达到高危害能力水平。这个恶意微调方法经过了三个独立专家组的审查,他们提出了改进训练过程和评估的建议,其中许多建议已被 OpenAI 采纳并在模型卡中详细说明。

OpenAI 开源的诚意几何?

在确保安全的基础上,OpenAI 在开源策略上展现出了前所未有的开放态度。

两款模型都采用了宽松的 Apache 2.0 许可证,这意味着开发者可以自由构建、实验、定制和进行商业部署,无需遵守 copyleft 限制或担心专利风险。

这种开放的许可模式非常适合各种实验、定制和商业部署场景。

同时,两个 gpt-oss 模型都可以针对各种专业用例进行微调——更大的 gpt-oss-120b 模型可以在单个 H100 节点上进行微调,而较小的 gpt-oss-20b 甚至可以在消费级硬件上进行微调,通过参数微调,开发者可以完全定制模型以满足特定的使用需求。

模型使用了 MoE 层的原生 MXFP4 精度进行训练,这种原生 MXFP4 量化技术使得 gpt-oss-120b 能够在仅 80GB 内存内运行,而 gpt-oss-20b 更是只需要 16GB 内存,极大降低了硬件门槛。

OpenAI 在模型后训练阶段加入了对 harmony 格式的微调,让模型能更好地理解和响应这种统一、结构化的提示格式。为了便于采用,OpenAI 还同时开源了 Python 和 Rust 版本的 harmony 渲染器。

此外,OpenAI 还发布了用于 PyTorch 推理和苹果 Metal 平台推理的参考实现,以及一系列模型工具。

技术创新固然重要,但要让开源模型真正发挥价值,还需要整个生态系统的支持。为此,OpenAI 在发布模型前与许多第三方部署平台建立了合作关系,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 和 AWS 等。

在硬件方面,OpenAI 与英伟达、AMD、Cerebras 和 Groq 等厂商都有合作,以确保在多种系统上实现优化性能。

根据模型卡披露的数据,gpt-oss 模型在英伟达 H100 GPU上使用 PyTorch 框架进行训练,并采用了专家优化的 Triton 内核。

模型卡地址:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

其中,gpt-oss-120b 的完整训练耗费了 210 万H100 小时,而 gpt-oss-20b 的训练时间则缩短了近 10倍 。两款模型都采用 了Flash Attention 算法,不仅大幅降低了内存需求,还加速了训练过程。

有网友分析认为,gpt-oss-20b 的预训练成本低于 50 万美元。

英伟达 CEO 黄仁勋也借着这次合作打了波广告:「OpenAI 向世界展示了基于英伟达 AI 可以构建什么——现在他们正在推动开源软件的创新。」

而微软还特别宣布将为 Windows 设备带来 GPU 优化版本的 gpt-oss-20b 模型。该模型由 ONNX Runtime 驱动,支持本地推理,并通过 Foundry Local 和 VS Code 的 AI 工具包提供,使 Windows 开发者更容易使用开放模型进行构建。

OpenAI 还与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 等机构深入合作,了解开放模型在现实世界中的应用。这些合作涵盖了从在本地托管模型以保障数据安全,到在专门的数据集上进行微调等各种应用场景。

正如奥特曼在后续发文中所强调的那样,这次开源发布的意义远不止于技术本身。他们希望通过提供这些一流的开放模型,赋能每个人——从个人开发者到大型企业再到政府机构——都能在自己的基础设施上运行和定制 AI。

One More Thing

就在 OpenAI 宣布开源 gpt-oss 系列模型的同一时期,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界;与此同时,Anthropic 也推出了重磅更新——Claude Opus 4.1。

Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元。

写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元,这种定价结构有助于降低频繁调用场景下的使用成本。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了74.5%的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在

深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

▲ Claude Opus 4.1 最新实测:你别说,细节还是挺丰富的

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了Opus 4,其中多文件代码重构能力的提升尤为显著。

Windsurf 则提供了更为量化的评估数据,在其专门设计的初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了整整一个标准差,这种性能跃升的幅度大致相当于从Sonnet 3.7 升级到 Sonnet 4 所带来的改进。

Anthropic 还透露将在未来几周内发布对模型的重大改进,考虑到当前 AI 技术迭代之快,这是否意味着 Claude 5 即将登场?

迟来的「Open」,是开始还是结束

五年,对于 AI 行业来说,足够完成从开放到封闭,再从封闭回归开放的一个轮回。

当年那个以「Open」为名的OpenAI,在经历了长达五年的闭源时代后,终于用 gpt-oss 系列模型向世界证明,它还记得自己名字里的那个「Open」。

只是这次回归,与其说是初心不改,不如说是形势所迫。时机说明了一切,就在 DeepSeek 等开源模型攻城略地,开发者社区怨声载道之际,OpenAI 才宣布开源模型,历经一再跳票之后,今天终于来到我们面前。

奥特曼一月份那句坦诚的表态——「我们在开源方面一直站在历史的错误一边」,道出了这次转变的真正原因。DeepSeek 们带来的压力是实实在在的,当开源模型的性能不断逼近闭源产品,继续固守封闭无异于把市场拱手让人。

有趣的是,就在 OpenAI 宣布开源的同一天,Anthropic 发布的 Claude Opus 4.1 依然坚持闭源路线,市场反应却同样热烈。

两家公司,两种选择,却都收获了掌声,展现了 AI 行业最真实的图景——没有绝对正确的道路,只有最适合自己的策略。OpenAI 用有限开源挽回人心,Anthropic 靠闭源守住技术壁垒,各有各的算盘,也各有各的道理。

但有一点是确定的,无论对开发者还是用户,这都是最好的时代。你既可以在自己的笔记本上运行一个性能堪堪够用的开源模型,也可以通过 API 调用性能更强的闭源服务。选择权,始终掌握在使用者手中。

至于 OpenAI 的「open」能走多远?等 GPT-5 发布时就知道了。

我们不必抱太大希望,商业的本质从未改变,最好的东西永远不会免费,但至少在这个被 DeepSeek 们搅动的 2025 年,我们终于等到了 OpenAI 迟来的「Open」。

附上博客地址:
https://openai.com/index/introducing-gpt-oss/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果「脑控」iPad 首次公开演示:四肢瘫痪的他,用一个念头重新拥抱世界

作者 莫崇宇
2025年8月5日 11:54

他躺在床上,身体几乎无法动弹,四肢早已失去控制,连最简单的点一下屏幕对他而言都有心无力。可当他的眼神锁定了 iPad 的主界面——几秒后,屏幕亮起,图标被选中,他成功靠一个念头「点开」了设备。

Mark Jackson 是全球第一批能够用「意念」操控苹果设备的渐冻症(ALS)患者。让这一切成为可能的,是脑机接口公司 Synchron 开发的 Stentrode——一块植入他大脑血管内、捕捉神经信号的微型金属支架。

与之配套的,是苹果推出的一套全新人机交互协议:BCI HID(脑机接口人机交互标准)。这是苹果首次将「脑信号」纳入其操作系统的原生输入方式,和触控、键盘、语音并列。

简言之,大脑正在成为苹果设备上的下一个原生「输入法」。 

脑点波+苹果系统:最强「赛博融合」

Jackson 所用到的 Stentrode 是一个细如发丝、形似支架的脑机接口设备。它通过血管植入到大脑运动皮层附近的静脉中,设备上的电极阵列捕捉神经信号,再借由算法识别出用户的意图,最终控制数字设备。

更重要的是,它首次实现了与苹果生态的原生集成。这项集成的关键,在于苹果今年 5 月推出的全新协议——BCI HID(Brain-Computer Interface Human Interface Device),即脑机接口人机交互标准。

它就像大脑与 iOS、iPadOS、visionOS 之间的「通用语言」,让脑电波正式成为和触控、键盘、语音并列的合法输入方式。通过接入 iOS 的切换控制(Switch Control)无障碍功能,Stentrode 用户现在可以用脑电信号代替按钮、点击或滑动操作。

Mark Jackson 是第一批接受 Stentrode 植入的患者。他患有 ALS(肌萎缩侧索硬化症),无法站立,也无法离开自己位于匹兹堡郊区的住所,但这项技术为他带来了新的「行动自由」。

2023 年 8 月,他接受了手术。在 Stentrode 植入后,Jackson 开始训练如何用意念控制 Vision Pro。他「看到」自己站在阿尔卑斯山的悬崖边,「感受到」腿部的颤抖——尽管现实中他的身体已无法站立。

后来他逐渐学会了更复杂的操作:通过脑控启动应用、发送信息、打开邮件。「在我剩下的时间里,我希望能推动技术的进步,增进人们的理解。」Jackson 这样说道。

他的这番话也道出了 Synchron 团队的核心使命——让这项技术惠及更多人。

Synchron 神经科学与算法高级总监 Peter 表示:「我们的愿景是让脑机接口像键盘和鼠标一样普及。」他解释,BCI 的难点不仅在于技术本身,更在于缺乏标准化的「交互语言」。

于是,他们与苹果合作,基于 HID 标准开发出 BCI HID 协议。「它就像是计算机和键盘之间的通用语言。现在,我们也让大脑有了属于自己的输入协议。」

BCI HID 不仅传递用户的神经意图,还支持设备对用户进行视觉反馈。当 Mark 想选中某个按钮时,屏幕上会出现彩色高亮框。颜色越深,代表神经信号越强,系统就越确定他想点击那个按钮。Mark 可以通过脑控「填满」这个色块,实现精确选择。

「对于使用植入式 BCI 的用户来说,这种可视反馈太重要了。他们能实时看到自己的神经信号是否『足够强』,也更容易集中注意力。」Synchron 首席商务官 Kurt Haggstrom 解释道。而整个系统通过蓝牙连接,不需要额外设备或看护人员协助。只要 Mark 「想」,设备就能启动。

与传统辅助设备不同,BCI HID 是一个闭环交互系统。它不仅识别用户意图,还能实时提供上下文信息,提高解码精度与响应速度。

它还可以将意念动作直接绑定到系统快捷指令:想象点击手指等于回主屏幕,想象握拳等于打开消息,想象挥手等于启动视频通话。这不仅提升了操控自由度,也让系统交互真正进入「零干预」状态。

此外,BCI HID 具备极高的私密性——脑信号是用户「专属」的,无法被他人操控,也不会被其他设备「读取」。未来 Synchron 将推动 BCI HID 成为一个跨平台、跨厂商的神经交互标准,让所有 BCI 设备都能无缝接入数字世界。

而苹果的介入,被视为整件事的「临门一脚」。「Apple 能够认识到用户需求并做出回应,这体现了他们对用户无障碍体验的高度重视。」Kurt Haggstrom 如此评价。

不用开颅的脑机接口,或将打败马斯克

提起脑机接口,大多数人第一个想到的还是马斯克的 Neuralink。无论是 Neuralink 之前的直播,还是在 X 上发推文,都引发了不少人对脑机接口的关注。

相比之下,Synchro 在业外可谓是名不见经传。

不过两家公司之间早有过交集,三年前的一个周末,正值 Synchron 在美国首次为患者植入脑机接口设备之际,马斯克向 Synchro 的创始人兼 CEO Tom Oxley 拨通了一则电话。

奥克斯利后来回忆道,电话里马斯克认为脑机接口的方案应该是移除大部分头骨,并用嵌入式钛合金壳替代。而他本人则坚信,无需触及头骨,也能达成目标。

▲Tom Oxley

并且,马斯克还主动提出,如果 Oxley 在这个追求目标的努力中资金不足,尤其是涉及脑机接口的方面,他希望能够提供帮助。但或许出于理念的分歧,这段「牵手」最终无疾而终。

实际上,过去二十年来,研究人员一直在人体上测试脑芯片植入物,但几乎所有这些设备都需要切开头骨并将电极刺入大脑,电线从头部悬挂出来。

简单来说,就是在头顶开一个洞,然后放入一块 Apple Watch 大小的装置。先不说手术过程的风险,即使手术成功了,人类大脑也会对装置产生排异反应,这是侵入式脑机接口的技术难点之一。

而 Stentrode 则不存在这个痛点。

它的手术方式近似于植入心脏支架,产品会通过颈静脉植入进大脑的运动皮层(表达人类运动意图的区域)。大脑对 Stentrode 的排异方式是把它推入大脑组织内,所以 Stentrode 在几周内就会被组织覆盖并固定在该区域。

Stentrode 检测到的任何大脑信号通过一根电线发送,电线沿着静脉向下延伸,连接到缝在患者胸部的 iPod Shuffle 大小的接收器上。

类似于心脏起搏器中的电池,接收器电池续航时间长达 10 年之久。

该接收器通过蓝牙将指令传输到患者的计算机或 iPad,使他们能够访问短信并控制其他应用程序。一旦安装了 Stentrode,患者就会进行校准练习,Synchron 的工作人员会指导他们思考移动身体的不同部位。

在植入方式和理念上的分歧,自然也造就了技术性能上的差异。

举例来说,Neuralink 的设备 N1 拥有超过 1000 个电极,可以捕捉更多的神经数据;而 Stentrode 仅有 16 个电极。N1 的电极直接植入脑组织中,因此捕获的数据更丰富,可转化为更灵敏的鼠标点击和键盘输入。

在之前的报道中,Neuralink 用户同样能通过意念移动光标,而且速度甚至超过部分普通用户的鼠标操作。

尽管如此,为什么苹果最终选择与 Synchron 深入合作,而不是马斯克的 Neuralink?这背后,其实藏着苹果对脑机接口的另一种答案:安全。

正如上面所说,Neuralink N1 是高密度、侵入式植入,怎么理解侵入式手术风险较高,可能引发炎症或组织反应。而 Synchron Stentrode 采用的是低密度、非侵入式植入,手术风险低,恢复时间短,尤其适合不适合进行开颅手术的患者。

当然,Stentrode 的代价就是因为电极不直接接触神经元,信号质量和分辨率较低,数据带宽较低,仅适用于基础层级的神经信号解码。

一个念头,打出一条推文

技术参数只是宏大故事的一部分,Synchron 真正吸睛的,是它已经做到的那些事。

2024 年 3 月,Neuralink 患者在 X 平台发布了一则推文,然而将时间倒回三年前,62 岁的渐冻症患者 Phillip O’Keefe 已经用 Synchron 脑机接口在 X 平台上「打出」第一句话:

Hello world!

注意,这是人类史上第一条通过脑电波「发出来」的推文,没有键盘、没有语音、甚至不是眼动追踪,全靠「想」出来的。虽然推文不长,但对他本人来说,可能胜过十万字长篇小说。

Synchron 的故事当然没止步于此。

当整个世界都被 ChatGPT 占领的时候,很多人都在想怎么用它写论文、写代码、写情书,而 Synchron 想的是如何用 AI 来改善脑机接口的技术。

64 岁的 Mark 就是第一批体验 AI 脑机融合的用户之一。尽管受渐冻症影响失去了大部分肢体与语言能力,他依然可以靠脑电波玩苹果纸牌游戏、看 Apple TV,甚至在 Vision Pro 上「仰望星空」。

具体来说,Synchron 让 ChatGPT 等大型语言模型以文本、音频和视觉的形式获取相关上下文,预测用户可能想要表达的内容,并为他们提供一个可供选择的操作菜单。

并且,在加入 GPT-4o 之后,Synchron 脑机接口迎来了 4 个方面的显著变化:

  1. 辅助通信:GPT 生成预先设定的回答选项,用户不需要逐字输入
  2. 智能预测:GPT 结合上下文预测可能需求,显著减少操作步骤;
  3. 多模态输入:GPT-4o 接收文本、音频和视频输入,通过多种方式提供信息
  4. 适应性学习:系统逐渐学习用户偏好,实现高效个性定制。

更重要的是,这种 AI + 脑机接口的多模态信息输入模式,与大脑本身的行为模式有一些相似之处,Synchron 团队的解释是:

我们这样做的原因是,多模态「4o」是不同的,因为它使用的是来自环境的输入,这些输入的行为就像是用户大脑的延伸。当用户开始与提示互动时,它将获得环境中发生的一切的实时信息流。

在接受媒体的采访时,Mark 表示最打动他的,正是 Vision Pro 中一款观察夜空星座的应用:

这太酷了,它真的栩栩如生。使用这种增强现实技术的效果非常显著,我可以想象,对于处于我这种境地的人或其他失去日常生活能力的人来说,它也会如此。它可以把你带到你从未想过会再次看到或体验的地方,为我提供了另一种体验独立的方式。

这是 Mark 的新体验,也是很多人对于脑机接口的最终幻想。

而 Synchron,真的把这件事做成了。

在 2025 年英伟达 GTC 大会上,Synchron 推出全球首款认知 AI 大脑基础模型 Chiral™,并带来了一段相当震撼的演示视频。

一位名叫 Rodney 的 ALS 患者,手部完全失能,但通过脑机接口和 Vision Pro,大脑变成了遥控器,能够用意念控制智能家居:调节灯光、播放音乐、控制室、启动家用电器。

当时,Oxley 更是信心满满地表示:

「我们正利用生成式预训练技术,构建一个真正意义上的『大脑基础模型』。Chiral™ 直接从神经数据中学习,从人类认知的源头进行抽象,从而创造出能够切实改善用户生活的功能。而这一切,都建立在我们能够大规模获取神经数据的基础之上,正如将 BCI 技术普及到如同支架植入手术般便捷。」

所以无论是 GPT-4o,还是脑电接口,它们的终极目标其实是一致的:找到适合每一个人,尤其是被技术忽视的那一部分人,和计算机对话的新方式。

对于像 Mark 这样的用户来说,他们终于不用再依赖别人,也能再次说出自己想说的话,看自己想看的星星,甚至打几把纸牌游戏。

如果这不是人类科技的终极浪漫,那什么才是?

人文关怀,永远是科技的最终底色

可这些进展,最终是为了谁?

我们或许该把视线拉近一点,看看这项技术对某些人来说意味着什么。

Synchron CEO Tom Oxley 表示,目前脑机接口公司需要「欺骗」计算机,让其认为来自植入设备的信号是来自鼠标。但如果有专为这些设备设计的标准,技术潜力将进一步释放。

如今,据外媒报道,苹果正用类似方式推动脑机接口设备与苹果生态系统的集成,并计划在今年晚些时候发布这一新标准的软件接口,供第三方开发者使用,推动脑控技术的进一步应用。

自 2019 年以来,Synchron 已在 10 名患者身上植入 Stentrode。

摩根士丹利估计,美国约有 15 万人因上肢严重功能障碍而成为脑机接口设备的潜在首批用户。根据 2021 年的数据,全球约有 1540 万人患有脊髓损伤,而脊髓损伤是导致瘫痪的主要原因之一。

当你在抱怨手机不好用时,有人连「用手机」这件事,都是奢望。

对于瘫痪、渐冻症患者来说,操作一台设备从来不是理所当然的事,他们甚至无法点击按钮、滑动屏幕、甚至无法抬手发出一个简单的指令。

人类社会对「操作」的定义,也一直都过于狭隘。

我们曾以为「操作」意味着点击、滑动、语音、手势,也一直在追求「更自然」的交互方式,可这套定义,从一开始就没为他们预留位置。

脑机接口的出现,改变了这一点,当意念也能成为操作方式,也意味着不再是人去适应设备,而是让设备去理解人。哪怕这个人无法动弹,无法说话,只剩下一颗仍在清醒地思考的大脑,他依然能与这个世界建立连接。真正的无障碍,是让世界适应每一种存在方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌