普通视图

发现新文章,点击刷新页面。
今天 — 2025年7月10日首页

年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士

作者 莫崇宇
2025年7月10日 15:17

马斯克憋了快半年,终于把 Grok 4 端上了台面。

这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。

可以,熟悉的味道,熟悉的配方。

当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。

至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。

世界上最聪明的 AI?世界上最贵的 AI!

Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。

马斯克说得轻描淡写,但训练的动静却不小。

相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。

马斯克表示,Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。

他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。

当然,让 AI 接入现实世界,才是真正的关键。

他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。

在产品形态上,Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。

前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。

在现场演示中,Grok 4 Heavy 展示了多个场景能力。

比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。

再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人 Greg Yang。

有趣的是,虽然模型准确理解了「奇怪」这一主观概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了 Anthropic 员工 Jan Leike 的头像,看来准确率也有待提高。

除了推理和搜索,Grok 还能生成内容时间轴。

比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。

换句话说,Grok 不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的 AI。

目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。

演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。

尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。

就纸面参数而言,Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。

根据 xAI 数据,Grok 4 在不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。

而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。

非营利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,几乎是当前排名第二的 Claude Opus 4 的两倍。

面对一些常规的基准测试中,Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管整体难度略低于 HLE,Grok 4 Heavy 依然取得了满分成绩,展现出极强的推理与理解能力。

不仅如此,在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT(麻省理工数学竞赛)还是 USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。

另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。

数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。

马斯克也强调:

「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」

目前,Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到 3000 美元/年档位,成了不少用户吐槽的焦点。

这么一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。

值得一提的是,发布后不久就有网友表示,Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。

不只会说话,Grok Voice 还有了「灵魂」

除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。

跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。

在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真的不像是 AI,像是伦敦剧场里的舞台演员在表演。

这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。

发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。

马斯克:让 Grok 去开一百万个自动售货机赚钱

几个 Grok 4 API 的应用场景让我印象非常深刻。

比如,在一项自动售货机商业模拟 Vending-Bench中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。

▲注:Vending-Bench 是一个专门设计用于测试基于 LLM 的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。

测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。

在科研领域,Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。

此外,像是金融领域、游戏开发等项目,都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师,他在 xAI 发布了 Grok 4 预览 API 后,就立刻参与测试。然后,他花了短短 4 小时就做出了一个第一人称射击游戏。

Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。

  • 代码模型:这次竟然没有发布 Grok Code,不过 xAI 提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。
  • 多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
  • 视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。

可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。

其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。

吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。

▲ 吴宇怀(左二)和吉米·巴(左三)

坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。

他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。

最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。

不得不说,Gork 4 的到来适逢其时。

前代 Grok 3 的热度来得猛,退得也快。

根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。

相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。

只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。

老马啊,可不能宽于律己,严以待人呀。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天 — 2025年7月9日首页

打工人天天用的三件套,被飞书用 AI 重做了一遍,还将打通企微和钉钉

作者 莫崇宇
2025年7月9日 15:43

曾几何时,OpenAI、Anthropic 等巨头还在死磕大模型,转头便卷起 AI 编程等行业,另一边,不少用户开始从各种炫技的 demo 回过神来,重新审视 AI 工具的稳定性、可交付性,甚至是使用方式本身。

硅谷知名增长策略专家和顾问 Elena Verna 最近提出了一个名为 AI 原生员工的概念,指的是那些天生以 AI 工具为工作核心、能够无缝协作并高效驱动产品交付的职场个体。

在她看来,真正的 AI 原生员工不是在用 AI 工具,而是默认以 AI 为工作引擎,跳过传统的流程设计、角色划分、文档撰写和任务交接,直接进入构建与交付阶段。

以 Lovable 为代表的 AI 初创公司,便是这样一个典型的样本。

不到 35 人的团队,靠 AI 原生的工作流,在 7 个月内做到了 8000 万美元 ARR(年度经常性收入),而他们的秘诀正是每名员工都默认「先问 AI,再交付」。

▲ 飞书 CEO 谢欣

对大多数公司来说,复制这种工作节奏并非易事,问题不在于人力或预算,而在于思维方式,除此之外,还得有一整套匹配的新工具、新流程,甚至是一种全新的协作逻辑。

就在今天,飞书召开了最新的 AI 产品发布会,发布并升级了知识问答、AI 会议、飞书妙搭等多款 AI 产品,尤其值得注意的是,飞书还宣布多维表格未来将支持企业微信和钉钉,能够跨平台融入用户现有协作环境。

此外,为了帮助用户判断 AI 工具的可用性,飞书团队还提出了一套「AI 产品成熟度模型」理论,把所有产品的 AI 能力分为四个等级,从使用者的视角出发,帮他们判断一个功能是否靠谱、是否能用。

划重点:

  • 知识问答不需要提前搭知识库,能从企业文档中直接抓出答案、理解权限并结构化输出,现在是 M3 等级。
  • AI 会议支持实时纪要、声纹识别和会后速递,继续走实用派,已经落地到了 M4。
  • 多维表格是更新最重的一块,表格撑到千万行、千人协同都不是重点。重点是现在已经支持企业微信,钉钉也快了。此外,它还能拿来搭系统、跑流程,AI 也完全嵌入到表格每一个字段、节点和操作里。
  • 企业也能 Vibe Coding,从需求分析到应用构建一整套链路,开发套件提供了企业级 AI 开发全家桶,适合各种规模的公司。

知识问答:最懂公司业务的 AI 秘书

在企业内部,知识往往分散在不同系统、文档、聊天记录中,查找效率低、重复沟通成本高。

飞书试图用「知识问答」这个功能,来回应这一长期存在的结构性问题。目标并不复杂:做一个能随时调用、响应权限、贴近业务的企业内搜索工具。

目前,这项能力已经达到 M3 等级,在多数常见场景下能够稳定使用。

当你在工作中遇到问题时,可随时向它提问,飞书知识问答会基于用户在系统中可访问的文档、知识库、聊天记录等信息,生成结构化的回复内容。

具体来说,当你输入「飞书鸿蒙项目进展怎么了」,系统即可快速给出整理后的进度摘要,实时跟踪项目信息。

与多数 AI 工具需要手动构建知识库不同,飞书的知识问答并不依赖预设结构,而是基于企业日常使用中自然沉淀下来的内容进行响应。

以某家央企为例,员工在一年内创建了 940 万篇文档。这也意味着,飞书知识问答可以不依赖通用模型的泛化回答,而是对权限体系进行深度解析之后,尽量保障回答的准确性与上下文一致性。

飞书 AI 会议升级了,甚至能听出你是谁

AI 会议是飞书推出最早、最成熟的 AI 产品功能,目前已达到 M4 级别,支持在不同会议场景中生成内容摘要、回放、要点归纳与行动事项提炼。

它可以处理多种输入形式:无录制的实时纪要、会后音视频导入生成、会议中实时生成逐字稿……所有会议内容都能被系统自动转化为结构化的知识资产。

其中一项值得注意的功能是声纹识别,它可以识别不同发言者的身份角色,更精确地标注和归集内容,提高会议记录的可追踪性。

在此次产品更新中,飞书会议速递功能,还可以自动回顾用户过去一周的会议要点,输出:高频讨论主题、每日会议速览、关键结论梳理以及待办事项追踪等。

那么这到底能带来什么变化?以鹏飞集团为例,这是一家员工超过 2.5 万的大型能源企业,日均需要召开约 400 场「班前会」,内容涉及安全、规范、作业流程等核心事项。

过去依赖人工抽查,效率低。接入飞书 AI 会议后,系统能够自动生成质检报告,使得管理层可在 5 分钟内完成原本需要数小时的抽查流程,且会议覆盖率提升超过 15 倍。

飞书多维表格掀桌了,将支持接入钉钉企微

多维表格是这次发布会讲得最细的一部分。飞书说月活快破千万了,听着夸张,但结合它这次更新的内容,也能理解为什么。

这次主要围绕四个方向:数据库、仪表盘、应用模式和 AI 能力。

先说数据库。飞书推出了全球首个支持「千万行单表」的表格系统,协作上限也拉到了 1000 人。哪怕是上万行、几十列公式的表格,也能在一秒内计算完成,比市面上同类产品快十几倍。背后是它重构了计算引擎和协同算法,说人话就是,大数据也能稳稳跑。

仪表盘这块更接近轻量 BI 系统,新增了数据透视、切片器、图表联动等分析功能,支持 50 多种图表和多套模板,业务人员不用买 BI 软件,也能做出专业报表。

有个例子是大兴机场用它做了一个设备运维仪表盘,能实时追踪 14 万台设备的状态,还能自动生成运维报告和提醒。茶百道也用多维表格对全国超过八千多家门店的数据进行了可视化分析,各门店的设计进展一目了然,让整个筹建的周期也缩短了 40%。

我自己最关注的是它的应用模式。飞书现在的想法是:你不用写代码,也能用表格搭出一套电商后台、CRM 或行政系统。组件自由组合,权限也能精细控制。对预算有限但业务不简单的团队来说,这种「用表格搭系统」的能力很值钱。

AI 能力这次也做了非常大的升级。比如可以像写公式一样,在表格里直接调用 AI 功能,叫 AI 字段捷径。

你可以把它理解成,像写函数公式一样,在表格单元格里调用各种 AI 能力,帮助你做文案生成、内容提取、情感分析、图像识别等等。它的好处在于,每一行表都可以自动调用一套逻辑去处理数据,你不用再手动拷贝、切换工具。

第二项是 AI 接入工作流,让它自动判断、提取、录入信息。飞书还强调了他们不只是「接了大模型」,而是让 AI 能稳定理解流程、提取参数、按需执行。

飞书这次还专门创建了 228 个真实复杂的工作流评测集,在功能正式推出后,这些评测集也会公开给其他同类工具挑战。

AI Agent 也不能少,它能根据问题自主查表、调用多维表格,流程不止是跑预设动作,也能帮助你「想一步」。还有一个 AI 侧边栏,能边用表边提问分析。虽然部分功能还在预览,但负责人说在今年都会陆续上线。

有几个案例我印象挺深的,像是泡泡玛特,他们用多维表格做了一个爆款文案系统,自动抓平台内容、分析转化效果,再生成门店能直接用的内容素材,线上引流到线下,全都靠它跑。

另外,飞书也宣布多维表格未来将支持企业微信和钉钉。这不只是一个表格工具,而是在朝一个轻量业务系统平台去走了。

除了飞书知识问答、AI 会议、以及在多维表格全面升级 AI 表格,飞书正在试图搭一整套 AI 工作方式,畅想未来的 AI 软件形态,重新定义「人和 AI 在一起工作」这件事。

它整了一个专为企业打造的 AI 开发全家桶「 AI 开发套件」。在这个开发套件里,不仅有包含了多款适配于不同场景的 AI 开发工具「飞书妙搭」,让 Vibe Coding 直接面向企业。

飞书的 aPaaS 也完成了多项 AI 迭代更新。从需求分析、功能设计、数据管控、应用开发,再到问题修复;每个模块都有专业的 Agent 在背后支持,在提升交付质量的同时,有望带来更好的开发体验。

每天都有新模型发布,AI 产品越来越多,真正能融入企业流程、替人干实事的产品,始终屈指可数。当模型不再稀奇,工具也琳琅满目,真正稀缺的,是那些能撑得住业务、扛得起流程重量的产品。

纵观整场发布会,飞书给出了一个更脚踏实地的答案,也让飞书成为少数明确界定产品成熟度边界的公司之一。

过去三年,我们见过太多炸裂的演示 demo 猛刷存在感,而 M3 和 M4 的划分,是飞书内部对可交付性的要求。一个功能如果只是偶尔有效、不具备稳定性,就不会推向企业客户。

截至目前,飞书已发布的知识问答、会议纪要、多维表格等功能,均基于这一标准。能否降本增效,能否顺利嵌入现有系统架构,是评估标准的全部。

用飞书 CEO 谢欣的话来说:

「我们今天发布的每一个飞书 AI 功能,我们都会标清楚是什么等级。我们让大家的选择更加透明,我们认为这是 AI 从业者其实很必要的一个企业责任。」

想象力撑起了 AI 的上半场,真正决定下半场的,是落地的能力。今天飞书没打算用一小时的发布会回答所有问题,但在 AI 工具能不能用、又该怎么用这个现实命题上,它确实已经比大多数公司说得更明白。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌