普通视图

发现新文章,点击刷新页面。
今天 — 2025年8月16日极客公园

Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道

2025年8月16日 08:16

特朗普:半导体关税将不久宣布 税率可能达到 300%

美国总统唐纳德·特朗普表示,他将在未来两周设定半导体关税,这是他准备大幅扩大关税制度的最新迹象。

「我将在下周和下下周对钢铁和芯片——芯片和半导体设置关税,我们将在下周或下下周某个时候设定这些关税,」特朗普周五在前往阿拉斯加与俄罗斯总统弗拉基米尔·普京举行峰会途中,在空军一号上对记者说。尚不清楚特朗普是否在钢铁关税问题上表述有误。他已在 6 月将钢铝关税上调至 50%。

特朗普曾多次承诺将在数周内宣布对芯片和制药产品的关税,但尚未正式宣布。这两个行业自 4 月以来一直处于商务部的调查之中,这是特朗普以国家安全为由实施关税的先决条件。这一过程可能相当复杂,调查可能需要数月甚至更长时间才能完成。(消息来源:新浪财经)

Meta 总市值首次升破 2 万亿美元,今年股价累计涨幅高达 36%

8 月 15 日消息,Meta 今日盘中涨近 2% 创历史新高,总市值首次升破 2 万亿美元,目前稍有回落。今年以来,Meta 股价累计涨幅高达 36%。

Meta 公司 7 月 31 日公布了 2025 财年第 2 财季财报(截至 6 月 30 日),营收为 475.2 亿美元(现汇率约合 3411.2 亿元人民币),同比增长 22%;公司净利润激增 36%,达到 183.4 亿美元(现汇率约合 1316.53 亿元人民币)。

Meta 公司在财报中指出,目前有 3.48 亿人每天至少使用 Meta 的一款应用,比去年同期增长 6%,而 Meta 的员工人数也增加了 7%,达到近 7.6 万人。扎克伯格在周三表示 Meta 在最新版本的 Llama AI 模型上取得了「良好进展」。(消息来源:IT 之家)

 

宇树机器人夺冠后王兴兴回应第二名没用遥控器:策略不一样,我们更追求极限速度

8 月 15 日消息,今日,2025 世界人形机器人运动会正式拉开帷幕,宇树科技派出杭州宇树科技及旗下子公司北京灵翌科技两支队伍参赛。

在备受瞩目的 1500 米田径赛项目里,灵翌科技带着宇树 H1 人形机器人夺得机器人 1500 米冠军,成绩为 6:34.40,这也是世界人形机器人运动会首金。

北京人形机器人创新中心的「天骄」队的「天工」机器人此前曾获得「半马」冠军,并且「天工」此次技术又升级一步,采用全自主的方式向前奔跑,也就是凭借机器人自己控制,是本次比赛唯一一名全程自主无人工遥控奔跑的选手。

由于第二名的「天骄」机器人在此次赛事中并未采用遥控器,成绩却领先于一众其他机器人,引发了外界的广泛关注。

当被问及如何看待「天骄」未有遥控器时,王兴兴表示:宇树的 H1 其实也具备了不用遥控器的能力,但因为策略不同,为追求速度,宇树最后在赛场中仍然采用了遥控策略。

此外,王兴兴还向媒体透露,比赛当中,H1 机器人的奔跑速度还没有达到 5 m/s 的最高速度。据王兴兴介绍,本次参赛的 H1 机器人在与春晚舞台亮相的机器人同属一款。为了能让 H1 在本次运动会中有更出色的表现,团队针对比赛场景,在算法层面进行了一些微调。(消息来源:IT 之家)

白宫与英特尔谈判内容曝光:特朗普政府或将入股芯片制造巨头

8 月 16 日消息,据知情人士透露,特朗普政府正在考虑利用《美国芯片法案》的资金来参股陷入困境的美国芯片制造商英特尔。政府讨论的重点是利用该法案资金来至少部分资助对英特尔股份的收购,知情人士表示,同时强调磋商处于早期阶段,还可能考虑其他选项。

尚不清楚该方案是否涉及将英特尔现有的芯片法案拨款的一部分或全部转换为股权,或从更广泛的资金池中拨出新资金,亦或将芯片法案资金与其他融资渠道相结合。

英特尔原本就被视为芯片法案资金的最大受益者,被指定获得数十亿美元的补助。根据该计划,英特尔获批 79 亿美元的商用半导体制造补助,以及高达 30 亿美元用于国防部的「安全飞地」项目。此外,该公司根据这项 2022 年通过的法律还有资格动用额外 110 亿美元的贷款额度。

这些因讨论未公开消息而要求匿名的知情人士表示,资金来源此前未被披露,目前仍在讨论中,相关谈判仍不确定。

知情人士还称,尽管一度受到美国总统特朗普的批评,但英特尔首席执行官陈立武据悉有望继续掌权。特朗普周一在白宫与陈立武会面。(消息来源:环球市场播报)

 

OpenAI  Sam Altman 承认存在 AI 泡沫:有人损失惨重,也会有人赚得盆满钵满

8 月 15 日消息,随着最近两年 AI 热潮的兴起,我们能看到有越来越多的人开始讨论股市是否正处于 AI 泡沫破裂的边缘。

对于是否正处于投资者对 AI 过度兴奋的阶段?OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)昨日在接受《The Verge》等媒体的联合采访时表示,「我的看法是,是的」。

在采访中,他将市场对 AI 的反应与上世纪 90 年代的互联网泡沫进行比较。当时互联网初创企业的估值在短时间内大幅飙升,并于 2000 年出现崩盘。

对于当前 AI 初创企业的融资现状,Altman 直言「疯狂」:「一些 AI 初创企业仅仅只有『三个人和一个想法』,却能获得极高估值融资,这种现象并不理性,我认为总有人会在这上面栽跟头。」

Altman 表示,「有人会损失一大笔钱,也会有人会赚得盆满钵满」,但整体而言可能对经济发展反而是利好,不过他也强调「这可能是错的」。

对于 OpenAI 自身,他倒显得信心十足:「在不远的将来,我们会在数据中心建设上投入数万亿美元,那时候会有很多经济学家为此担忧」。(消息来源:IT 之家)

网传阶跃星辰裁撤视频生成团队并全员并入京东,后者回应

8 月 15 日,有网络消息称,「阶跃星辰裁撤视频生成团队,全员并入京东」。

对于上述传闻,京东对新浪科技表示作为京东集团专注前沿科技探索的研发部门,京东集团探索研究院正在按照计划,正常推进对各类优秀 AI 人才的招聘,包括业内技术大牛、TGT(Tech Genius Team)等,感谢您的关注。(消息来源:新浪科技)

 

快手组织架构调整:高级副总裁盖坤兼任可灵 AI 技术部负责人

8 月 15 日下午消息,快手发布组织架构调整公告,宣布快手高级副总裁、可灵 AI 事业部负责人兼社区科学线负责人盖坤兼任可灵 AI 技术部负责人,继续向快手科技创始人兼首席执行官程一笑汇报。

公开信息显示,盖坤本科与博士均毕业于清华大学,研究方向为识别与智能系统。2011 年盖坤以「阿里星」(全球顶尖青年科研人才)身份入职阿里巴巴,负责广告算法与 AI 技术研发。2020 年,盖坤正式加入快手,主导内容理解应用、推荐大模型及视频生成大模型的技术布局。

2024 年 6 月,盖坤带领团队研发推出全球首个用户可用的 DiT 视频生成模型「可灵 AI」。

今年 4 月 30 日,可灵 AI 升级为一级事业部,战略地位进一步提升。分析认为,此次组织升级后,独立的团队和组织架构设计便于可灵 AI 以更加灵活的形式进行资源调配和人力投入。(消息来源:新浪科技)

米哈游蔡浩宇公司 AI 游戏《星之低语》发售:Steam 国区首发 27.19 元,探索人机情感交互

8 月 15 日消息,米哈游联合创始人蔡浩宇成立的 AI 公司 Anuttacon 新作《Whispers from the Star》(暂译《星之低语》)今日发售,Steam 国区定价 33.99 元,首发八折 27.19 元,好评率 95%。

游戏简介显示,这款游戏讲述了一个关于「隔离中建立联系」的互动故事,你的话语是身处太空的遇险同伴的生命线。游戏中没有对话树,只有由 AI 聊天驱动的开放式对话,你将尝试从宇宙的另一端拯救某人。

这款游戏拥有超过 25 个故事节点,女主角名叫 Stella,玩家是其「唯一一个能通过通讯器联系到」的人。为了充分体验游戏,玩家需要准备一个可用的麦克风。(消息来源:IT 之家)

20.99 万起售的全新智己 LS6 半小时订单破万

8 月 15 日消息,全新一代智己 LS6 开启预售,仅仅半小时时间,订单就突破了万台。

新车共推出增程和纯电两种版本,其中纯电两款,预售价 20.99-27.99 万;增程同样为两款,预售价 21.49-23.99 万元。

此次开售的全新 LS6 最为重磅的卖点当属大电池增程混动,尤其是 Max 版,配备了一块 66 千瓦时电池,纯电续航达到 450 公里,完全可以当做纯电来开。

不止如此,除了容量大,续航长,其放电功率也很强,即便是在 16% 低电量时,仍然可达 275.5kW,这就解决了传统增程混动「亏电一条虫」的难题。

同时基于 800V 平台打造,峰值充电功率 268kW,15 分钟续航补充 310km,也补足了增程混动充电慢的短板。

而 LS6 增程版还配备了上汽最新研发的 1.5T 增混专用发动机,最低亏电油耗 5.32L/100km,每百公里油电综合能耗 2.07L,同级最低,并且不挑油品,可加注 92 号汽油。

此外,该车全系标配 800V SiC 飓风电机,后驱版零百加速 6.4 秒,四驱版仅 3.48 秒,且全系标配灵蜥二代数字底盘,支持四轮转向灯。(消息来源:快科技)

小米 7 月空调线上销量超越格力 王化:没想到新时代这么快就来了

8 月 16 日消息,奥维云网数据显示,7 月份(7 月 1 日-7 月 31 日)小米空调线上销量超越格力,前者市占率 16.71%,后者市占率 15.22%。

小米集团公关部王化转发了相关微博并表示,没想到新时代这么快就来了。(消息来源:快科技)

 

昨天 — 2025年8月15日极客公园

李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍

2025年8月15日 08:31

全球首个人形机器人运动会在北京开幕

8 月 14 日晚,全球首个人形机器人运动会在北京国家速滑馆「冰丝带」正式启幕,带来了超模搭档走秀、赛博乐队表演等「机器人秀」。

本场运动会涵盖 26 个赛项、487 场比赛,包括田径、足球、自由搏击、全体舞蹈等,已吸引 16 个国家 280 支队伍、500 余台机器人参赛。

比赛安排在 8 月 15 日—17 日,共 3 天时间。所有赛项都安排在国家速滑馆,每天上、下午两个竞赛单元,每个单元 3 个小时左右。每个竞赛单元设置 2~3 次颁奖仪式,保证不同场次、不同位置的观众都能观赏到精彩赛事。(来源:IT 之家)

曝苹果将推出桌面机器人产品,库克暗示:「很快推出」

科技爆料人马克·古尔曼周三表示,苹果准备推出多款机器人产品。

计划推出的众多机器人产品中,包括一款桌面机器人,这款桌面机器人是苹果人工智能战略中的核心,计划于 2027 年上市。这款桌面机器人将作为用户的虚拟伙伴,配备逼真的 Siri,具备与用户全天候互动的能力。

这款桌面机器人类似于安装在可移动肢体上的 iPad 平板电脑,设备原型使用 7 英寸左右的显示屏,可以旋转,并像人头一样转向召唤它的人,这款桌面机器人将被放置在桌子上或厨房柜台上,帮助用户完成工作、浏览媒体等。

据爆料,在本月一次全体员工大会上,苹果 CEO 库克对员工表示,虽然不能详细描述,但即将推出的产品线「太棒了」,其中一些产品能很快看到,还有一些产品会在以后推出,有很多东西值得期待。

据爆料,除了桌面机器人,苹果还准备推出一款新摄像头,这款摄像头被定位为一个具备自动化能力的安全系统。苹果还在开发其他多款机器人,包括一款带轮子的移动机器人、一款大型机械臂。(来源:第一财经)

 

国家数据局:我国日均 Token 消耗量一年半时间增长 300 多倍

8 月 14 日,国家数据局局长刘烈宏在北京举行的新闻发布会上介绍,截至今年 6 月底,中国日均 Token 消耗量已突破 30 万亿。

刘烈宏在会上表示,2024 年初,中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半时间增长了 300 多倍,这反映了中国人工智能应用规模快速增长。

截至今年 6 月底,中国各地高质量数据集累计交易额近 40 亿元人民币,数据交易机构挂牌的高质量数据集总规模达 246PB。

同时,中文数据在国内大模型的训练性能提升方面发挥着重要作用。刘烈宏说,中国多数模型训练使用的中文数据占比已超过 60%,有的模型已达 80%。(来源:中国新闻网)

 

京东二季度经营亏损 9 亿元,「新业务」单季亏损 147 亿

8 月 14 日,京东集团发布 2025 年二季度业绩。2025 年二季度,京东集团收入为 3567 亿元,同比增加 22.4%。由于对新业务的战略投入增加,2025 年二季度,京东集团出现经营亏损 9 亿元。

公告显示,今年二季度,京东集团营销开支同比大幅增加 127.6% 至 270 亿元,主要是由于新业务推广活动支出增加。

分具体业务来看,京东零售(包括京东健康及京东工业等经营分部)二季度收入 3101 亿元,同比增加 20.6%,经营利润率为 4.5%;京东物流二季度收入 516 亿元,同比增加 16.64%。

而京东新业务(包括外卖业务)今年二季度收入 138.52 亿元,经营亏损达到 147.77 亿元。(来源:中国证券报)

 

特斯拉发布史上最长 FSD 演示:7 小时零接管

近日,特斯拉在社交平台上,最新发布了有史以来耗时最长的 FSD 演示视频:

从旧金山开到洛杉矶,全程 362 英里(约 583 公里)。在近 7 个小时的行驶过程中,主驾位置的操作员始终没有任何触碰方向盘的动作,包括去超充站充电的时间。只有在充电环节,操作员才下车进行了充电。

按照特斯拉的计划,明年会让车主加入其 Robotaxi 车队,车主不用车时,可以让自己的车辆出去跑出租赚外快。不过,这种模式能否行得通,解决自动充电就是需要迈过的首要门槛。(来源:智能车参考)

李想:i8 上市反响不错,产品力上没有对手

8 月 14 日,理想汽车 CEO 李想在微博抛出了一套「竞争双赛道」理论,迅速引爆行业热议。

李想将竞争分为两个阶段:一是「有没有」,即解决用户未被满足的深层次需求,如新能源续航痛点、家庭出行舒适性等;二是「好不好」,即产品细节的优化对比,需用户亲身体验。

李想强调,理想 i8 目前处于「有没有」阶段,凭借精准定位和产品力占据蓝海优势。李想认为这是理想 i8 市场目前反响良好的原因。

此前,理想汽车官方宣布,理想 i8 将于 8 月 20 日启动全国首批交付,目标 9 月底前交付超 8000 台,并挑战 1 万台,助力用户国庆前提车。(来源:DoNews)

 

xAI 联合创始人离职

北京时间 8 月 14 日,xAI 联合创始人 Igor Babuschkin 官宣离职创。

这位 AI 大牛不仅在 120 天的时间里,极限打造出世界最大 AI 超算 Colossus,还训出了比肩 OpenAI、谷歌 DeepMind 多模态 Grok 4。

接下来,他要创办一家风险投资公司 Babuschkin Ventures,开启下一段新的旅程。

而在 Igor 离去后,xAI 的原始 12 人初创团队,如今剩下了 9 人,其中华人学者占比超 1/5。(来源:BianNews)

 

智元推出首个机器人世界模型开源平台

8 月 14 日消息,智元机器人正式推出业内首个开源的机器人世界模型平台——Genie Envisioner (GE)。

官方称,GE 平台,创新性地构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估,使机器人能够在单一模型中完成从感知环境、思考决策到执行动作的端到端处理。

为构建这一强大平台,智元机器人利用了约 3000 小时的真实机器人操控视频数据。在实际测试中,搭载 GE-Act 组件的机器人已成功完成制作三明治、倒茶、擦拭桌面等多项任务。(来源:快科技)

全球首款全景无人机正式亮相

8月14日晚,由影石和第三方共同孵化的全新无人机品牌「影翎」正式亮相了首款产品 A1。

据官方介绍,A1可以拍摄8K全景影像;VR飞行眼镜可以提供360°沉浸式飞行体验;体验遥控器可以实现「指向即航向」的直观操控,指哪飞哪。此外,在全景影像能力的加持下,A1也支持一次飞行解锁无数视角的「无限创作」体验。

目前,影翎已经正式开启用户公测计划。(来源:极客公园)

 

传三星将于明年推出智能眼镜

三星已经发布了其首款 XR(扩展现实)头显,名为 Project Moohan,但它也在致力于为大众市场开发更简化的 AI 眼镜。韩国一份新报告称,三星首款智能眼镜将于 2026 年底发布。

新报告指出,该眼镜的设计类似于雷朋 Meta 眼镜,内置麦克风、扬声器和摄像头。据报道,该眼镜将配备 AI 助手,允许用户拨打电话、发送短信、捕捉内容并控制媒体播放。

据报道,三星正致力于在人工智能眼镜市场确立自己的地位,因为它相信该产品类别将取代智能手机,成为消费电子产品领域的下一个前沿。(来源:cnBeta)

 

硅谷初创公司推出全球首款「脱眼」自动驾驶汽车

据《福布斯》近日报道,硅谷初创公司 Tensor 计划推出全球首款真正意义上的「脱眼」级别自动驾驶汽车,方向盘可折叠收起,由屏幕取代。

不同于多数厂商先做 Robotaxi,Tensor 选择直接面向消费者,打造一款可手动驾驶、也可全自动驾驶的高端纯电动车。车辆可离线运行,厂商承诺提供豪华体验、响应驾驶者指令的智能交互,并保障隐私不被跟踪。

这款车体型硕大、线条流畅,传感器数量创纪录:37 个摄像头、5 个定制激光雷达、11 个定制毫米波雷达,加上麦克风、超声波、碰撞传感器、水位探测、数据通信等设备。大部分传感器具备自动清洁功能,保持最佳视野。整车为私人自动驾驶而设计,由越南车企 Vinfast 生产。

Tensor 希望在 2026 年下半年交付,抢下「全球首款」称号。(来源:IT 之家)

电竞玩家打造硬核外设「电击手臂」,瞄准水平达职业级

近日,海外博主 Basically Homeless 在视频平台上展示了其打造的「肌肉瞄准辅助系统」。这通过计算机视觉和精确的电击,他的手能够在毫秒级时间内迅速指向目标,并在需要时自动开火,甚至超过了众多职业选手。

在视频中,Basically Homeless 展示了他自制的这一系统,该系统本质上是一种电击装置,结合了计算机视觉和电肌肉刺激技术。再加上计算机视觉技术,基于大模型让计算机实时分析游戏画面,例如在《反恐精英 2》中识别到对手时,系统会生成相应的电信号,并通过电击来收缩肌肉,实现在毫秒级时间内将手迅速指向目标。

在测试中,该系统的反应时间最快缩短至不到 100 毫秒,约为他正常反应时间的一半,甚至比许多职业选手更快。(来源:cnBeta)

 

昨天以前极客公园

3 分钟,我学会了像鸟儿一样飞行 | New Things

2025年8月14日 23:02

几个月前,影石的小伙伴告诉我们,他们孵化的全新无人机项目已经进入到了关键阶段。

得知影石要做无人机的时候,我确实有点惊讶——不论是国内还是全球市场,大疆已经统治消费级无人机市场多年,这是一个不论新玩家还是老玩家都很难突围的赛道。而在过往我们与影石创始人刘靖康的交流中,我一直觉得他是一个极度冷静且理性的 90 后创业者,这就更让我好奇,影石为何选择无人机作为品类扩张的新方向。

很快我了解到这是一款全景无人机——这很像他们的风格。影石过去很喜欢把他们的全景相机送到高空,无论是绑在老鹰身上,还是随着卫星发射到天空,在更高的地方拍出不一样的全景画面,这似乎是他们早就想做的事。

那时,这个全新无人机品牌「影翎(líng)」的英文名已经引起我的注意——「Antigravity(反重力)」。我猜测,这次把全景相机搬上无人机,影石的目标绝不仅仅是为了「拍照」。

不久前,我和同事在新疆提前体验了这款产品。尽管只是工程样机,但足以让我看清影翎的思路:这款全新的Antigravity A1 并不是一台「会飞的相机」,而是通过「实时全景拍摄+智能眼镜监控」,把人类的感官带上天空,让用户仿佛化身鸟儿一样,在城市或者山林里遨游。

它带给我的,是传统无人机从未有过的全新体验。

 

全景无人机:像鸟儿一样飞

在新疆喀拉峻草原,我们试飞了一台 Antigravity A1——后者由无人机本体、Vision 飞行眼镜和 Grip 体感遥控器三部分组成。

A1 的本体是一台四旋翼无人机,重量仅 249 克,折叠后也就一个巴掌大小,可以直接塞进包里。机身配备了两颗上下排列的摄像头,前端还镶嵌了一个用于避障的视觉传感器。

Antigravity A1:搭载前视避障传感器和上下排列的鱼眼镜头 | 图片来源:极客公园

第一次正式试用 A1 前,我的心里其实有些紧张。因为这款全新无人机的操作方式,和我熟悉的传统「航拍无人机」有很大的不同。

操控传统无人机像是在玩街机游戏,操控设备上有一个中央屏幕+两侧操纵杆。用户既可以看到操作界面,也可以直接观察周围环境。

而操控 A1,则像是在玩一场 MR 游戏。我需要先戴上配套的 Vision 飞行眼镜,它会在飞行过程中传输无人机的实时画面;操控则依靠单手握持的体感遥控器,在实时监看无人机所处环境的同时,「盲操」完成各种飞行动作。

Vision 飞行眼镜 | 图片来源:极客公园

但实际体验的难度要比我预想中小很多。

首先,这款飞行眼镜的外屏会实时显示和内屏相同的画面。所以,我身边的影翎工程师可以直接根据外屏画面,对我进行操作指导。

其次,Grip 体感操控器的手势也借鉴了直升机操控,很贴合人体直觉:左右挥动即可改变水平航向,上举下放则改变飞行高度,操作起来像是在空中「拎着」无人机一样简单。

Grip 体感遥控器还提供三组实体按键:(从左至右)分别对应起降、调整左右方向、加速 | 图片来源:极客公园

在 2-3 次简单教学之后,我就熟悉了 Grip 体感操控器的手势,可以开始正式飞行。

来新疆前,我特地在小红书、抖音上刷了不少「无人机出片攻略」,随车的地陪小哥也总热情地告诉我每个景区的「最佳机位」。

不过,由于试飞时这款产品仍处在保密阶段,我们反而需要避开那些热门打卡点。这让我不免担心:没有了最佳机位,还能拍出满意的片吗?

不过,当无人机正式升空之后,我之前的疑虑很快就被打消了。

首先,由于搭载了两颗全景镜头,可以拍摄 8K 全景画面,所以 A1 实际也具备了和全景相机一样「先拍照后取景」的特性——也就是可以一次性把 360° 的景象全都记录下来,后期再选择任意角度的镜头。这样,就不用再担心因为分心飞行操作而错过精彩瞬间,也大大降低了取景和构图的门槛。

而且,也许是因为我们的第一次试飞 A1 就是在草原上,当无人机飞得足够高的时候,我几乎不用费心「驾驶」,注意力都集中在了「看风景」。

我就像坐在了真正的飞机驾驶舱里,360°自由扭头转动视野,远处的雪山、两侧的峡谷、正下方烧烤和骑马的游客,全都尽收眼底。沉浸在「飞行」和「俯瞰」的乐趣里,我甚至觉得之前执念的「出片」也变得没那么重要。

另外,在我操控无人机的时候,我的同事也没有闲着。这款飞行眼镜还提供了一块外屏,可以实时显示和内屏相同的画面,让身边的人可以同步观看我的第一人称飞行视角,而不是在一旁无聊等待。

等到电量耗尽时,影翎的飞行系统会根据剩余电量和距离,自动提醒用户返航,避免因为过于沉迷而导致没有电量返航。用户也可以直接按下遥控器上的「一键返航」按钮,A1 会在发出提示音后自行飞回。

值得一提的是,在距离地面大约 1 米左右的高度时,A1 机腹位置的「起落架」还会自动展开,以保护底部的全景镜头在降落时不被刮花。

在测试的过程中,我们还发现了一个小细节。当我们把一些重物放在无人机背上的时候,A1 刚起飞就会放下起落架自动返航。影翎的工程师告诉我们,这个功能来自实时开启的负载检测系统,可以自动规避无人机违规改装风险。

 

为什么要做「全景无人机」?

笔者第一次见到 A1 无人机,是在极客公园的办公室里那是一次 100% 的纯静态观看。所以,尽管看到了机器,但我面对这个新产品时,脑子里其实还有一堆疑惑并没有解开:

  • 为什么当友商在拼命卷画质卷镜头的时候,影翎的产品要用鱼眼镜头取代长焦呢?
  • 全景无人机=全景相机+无人机?这应该不是一个简单的技术加法。
  • 这么做仅仅是因为影翎和影石要打造一个差异化的产品吗?

当我在新疆的草甸和高山实测完 A1 之后,我才终于意识到这款产品背后是影翎团队对一款新产品从 0 到 1 时更深层的思考,以及影石多年对「全景+飞行」这种形态探索的积累。

首先,A1 不再是单纯的「影像工具」,而是希望重新定义无人机的整套「飞行体验」。

传统的「航拍无人机」,核心目标是拍出更好的画面,而实现这一目标的路径往往是搭载更好的相机。但无论如何迭代,这种产品形态都高度依赖操作本身。能否拍到好看的画面,还是要高度依赖于飞行能力和构图技巧。

而由于 A1 本身搭载了全景镜头,就让它天生就和全景相机一样,拥有「先拍照后取景」的后期特权。

同时,由于 A1 可以做到飞行方向、观测方向和拍摄方向相互独立,也使得它可以带来一些过往在无人机上无法呈现的独特视角——例如:在操纵飞机上升高度的过程中,如果俯视地面,就会带来一种「腾空而起」的冲击感。

在上升的过程中,俯瞰果子沟大桥 | 图片来源:极客公园

我是坐在一辆越野车的车顶「飞行」时,第一次感受到这种沉浸感。当时,眼镜里的「我」正在飞过一座高山,而现实中的「我」则正好感受到了来自车身的晃动和耳边的风声。毫不夸张地说,重度恐高的我当时真的产生了一种恐惧感,第一时间对同伴大喊「你别晃车门」——我相信这是仅靠手持的屏幕无法实现的沉浸式交互效果。

所以,如果说过往的航拍无人机只是把摄像机镜头带上了天空,那么我相信,A1 是希望把我们最真实的感觉都「装载」到飞机上。用影翎团队的话说,他们希望 A1 可以实现人类最原始的飞行梦想。

其次,全景技术和无人机的组合,不仅是一个简单的加法,背后其实还有复杂的工程、软件问题需要解决。

在决定进入无人机之前,影石的创始人刘靖康每年都会把自家的全景相机绑在老鹰的背上,就好像坐在老鹰背上飞上了天,可以获得一个最原始的全景飞行影像。

绑在老鹰身上的全景相机视角 | 来源:影石 Insta360 视频截图

2022 年,影石发布了一款外挂式无人机全景相机「瞳 Sphere」。它可以一键快速锁定并安装在其他无人机上。比起老鹰背上的相机,它通过优化镜头的位置布局和后期算法的加入,让无人机在画面里完全消失,获得一个 360°的VR 影像。

外挂式全景相机「瞳 Sphere」的解题思路 | 图片来源:影石 Insta360

Antigravity A1 在两者基础上,继续叠加了全景图传技术、飞控技术等技能点,并加入了飞行眼镜和体感遥控器,终于让全景相机真正长出了翅膀,得到一台既可以全景拍摄,又可以获得像鸟儿一样自由飞行体验的首款消费级全景无人机。

沉浸式「完全体」A1 飞行体验 | 图片来源:极客公园

需要说明的是,我们这次体验的只是 A1 的工程样机,所以很多关键参数尚未确定。距离产品的正式发布发售还有一段时间。如果你是一个重度的无人机发烧友,或者通过我们的文章对这款新产品产生兴趣,那么你也可以通过影翎的官网参与到产品体验和共创计划中。也许在之后正式发售的版本中,你提出的功能和创意玩法就可以得到实现。

 

「反重力飞行」,航拍之外无人机的一种新玩法

我们在新疆赛里木湖边拍摄日落的时候,还有一段特别有趣的小故事。

当飞机起飞的时候,远端一直遮挡着太阳的云层突然散开。我和同事山山老师特别兴奋地冲着湖边和太阳的方向「飞」过去。飞的人边飞边说「好美」,在旁边那位一直在提醒可以实时取景观测要拍到怎样的画面。

结果,当我们心满意足地以为拍满了一块电池,才发现原来起飞的时候我们忘了按拍摄按键……

这固然是和我们无人机拍摄经验不够丰富有一定关系,但另一部分原因在于,由于可以自由转头获得任意视角的画面,我们也更容易享受和沉浸在飞行本身的乐趣里。

虽然回看素材时,我们戴上飞行眼镜摇头晃脑的一些画面可能显得有点呆。但戴上眼镜的那个人,在全景技术的加持下,会觉得已经在这趟「航班」上请了一个专业的 AI 摄影师,自己可以更沉浸地自由欣赏风景。所以,回看素材时,我们甚至发现录音里类似「好爽」、「好过瘾」的感叹,要比「好美」、「好漂亮」更多。

沉浸式第一人称飞行 | 图片来源:极客公园

以前,受制于物理局限,人类只能在特定地点俯瞰身下的风景,例如登上城市里的电视塔。在户外和山间,只有极少数可以从事翼装飞行的极限运动员,可以得到从山谷中穿过的体验。

但是,在喀拉峻大草原和果子沟大桥旁边,A1 给我提供了一种在赛博世界里最接近鸟儿的飞行体验的体验。有一丝恐惧,更多的是兴奋,还有一种和这个品牌的英文名一样的新奇感——「Antigravity(反重力)」。据我们了解,这个英文名要比「影翎」这个中文名字更早确定。

在这次体验结束的时候,我意识到「全景+飞行」并不是一个被创造出来的消费场景,也不是两种技术的简单迭代,这是一种消费者一直存在但很难能被直接描述出来的需求。影翎希望把这件事做好。

所以,以后在旅行的过程中,当我们再拿出无人机,未必只是为了单纯「出片」,它也许也会成为小朋友、大朋友手里的玩具,带我们去到脚步、双眼无法到达的地方,让我们可以更沉浸地享受旅途,欣赏美景。

这台无人机想做的,不仅是为我们记录旅行提供一种新的方式,它也许也希望改变我们旅行本身的方式。

经过几天的体验,我认为它在一定程度上已经做到了这点。

7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本

2025年8月14日 15:20

7 月 29 日上周二,理想i8新车发布,共有三个版本,Pro 版售价 32.18 万元,Max 版 34.98 万元,Ultra 版 36.98 万元。

但仅仅一周后,8月5日,理想汽车董事长、CEO 李想也在微博发话了:「听大家劝!咱们不纠结了,以后 i8 只有一个版本,标配即顶配,一口价 33.98 万元」。

理想i8把中间的Max版变成了唯一的「顶配版」,直接砍掉了另外两个版本。

被认为有些执拗的李想,也开始听劝了 | 图片来源:李想微博

李想本人也大方承认,之前搞好几个版本是「惯性思维」犯了错,所以采用了当年理想ONE靠着「一个版本打天下」的策略。

消息发布后,截至发稿,理想港股股价上涨1.58%到102.8港币,最新总市值为2200.83亿港币。

为啥理想 i8 要紧急修改SKU?会产生怎样的影响?

李想开始「听劝」?

理想 i8,作为理想家族的第一款纯电SUV,上市之初被寄予厚望。

但一上市,用户们很快就发现了一些让人「挠头」的问题:作为一款起步价超过32万的车,Pro版竟然连理想标志性的「冰箱」都没有;而Max版,又缺少了很多人想要的后排娱乐屏。

更尴尬的是,一些核心配置,i8竟然还不如自家更便宜的车型理想L6。这就让很多准备好钱包的消费者感觉「不划算」,心里犯了嘀咕:

花更多的钱,体验反而「降级」了

值得注意的是,理想做出这个决策时,正处于一场巨大的「舆论风暴」中。i8上市后不久,一个关于它和乘龙卡车对撞的视频在网上疯传,引发了巨大的争议和讨论,甚至还有关于「理想车主素质」的各种负面话题。

理想i8是理想汽车调整策略后,重回纯电市场的关键一步 | 图片来源:理想汽车

市场的冷淡和议论,很快就反映在了订单数据上。理想自己都承认,出乎他们预料的是,有超过98%的用户选择了理想i8 Max和Ultra车型。

同时,2025年8月4日,汽车博主「孙少军」在直播中,披露理想汽车上周订单数据:理想上周新增订单约13000单,其中i8大定订单达6000单左右。顶配Ultra版占了70%,高配Max版占20%。

这意味着什么?——那个本应是「走量担当」的入门版Pro,几乎无人问津。用户用真金白银投了票,清晰地告诉理想:我们不想要一个「阉割版」的理想,我们要的是那个配置拉满、一步到位的体验。

理想 i8 最主要的特点,就是更大的内部空间|图片来源:理想汽车

面对这样的市场反馈,理想汽车做出了一个有些惊人的决定:「急刹车」,调整产品策略。

他们想起了自己的「成功密码」——当年,理想的第一款车「理想ONE」之所以能一炮而红,靠的正是「标配即顶配」的策略。除了颜色,所有功能一次性给你,不让消费者纠结。于是,理想i8迅速「回归初心」,将三个版本合并为一个优化后的「唯一版」。

这个「急刹车」的代价有多大?这绝非李想发一条微博那么简单,纠错需要巨大的勇气和成本。

因为汽车是一个极其复杂的工业产品,其供应链管理以「年」为单位规划。一周内的突然转向,会对生产和供应链造成巨大冲击。

首先,理想一定已经为Pro版和Max版采购了大量专属零部件,可能瞬间变成了「呆滞库存」。如何消化?要么折价处理给供应商,要么只能计提损失,这是一笔不小的浪费

同时,理想突然取消Pro和Ultra两个版本的订单,意味着对应的供应商要承受生产计划作废、已备物料积压、生产线调整的损失。虽然理想是「甲方爸爸」,但这样做无疑会考验与合作伙伴的长期关系。

真正的强大,不是从不犯错

那么,付出了这么大代价,理想i8就一定能成功吗?答案是:不一定。

因为在竞争激烈的商业世界里,「战术」上的修正,往往很难完全弥补「战略」上的失误。

这是什么意思呢?我们来看一个另一个案例:小鹏G9。

2022年,小鹏 G9 被寄予厚望,其产品力本身相当出色。然而,在第一次发布时,因其极其复杂的版本(SKU)和令人困惑的选装逻辑,遭到了市场的广泛批评。尽管小鹏汽车在48小时内迅速反应,推出了简化的「二次上市」方案,展现了惊人的纠错速度和诚意。

小鹏G9是小鹏汽车品牌向上的关键一环 | 图片来源:小鹏汽车

但结果如何?这次堪称神速的「战术补救」,并没能扭转G9的命运。它后来的销量一直不温不火,最终没能成为大家期待的「爆款」。

你可能会想,这是不是只有小鹏才犯的错?不,即便是如今的「优等生」——理想汽车,也为此交过学费。去年3月,在理想纯电 MPV 车型 MEGA 正式上市 20 天后,李想发布了内部信,承认产品在节奏、目标两方面出现了判断错误。

这两个案例,都指向同一个核心:在战略层面,一个微小的失误,都可能像推倒第一张多米诺骨牌,引发连锁反应,甚至满盘皆输。

一次失败,是否能够挽救,可能不得而知。其实,与其纠结失败本身,更重要的是面对失败的态度。

李想大方承认,这次理想i8主要是因为团队陷入了「惯性思维」。这句话背后,是一种了不起的品质——诚实。

简单来说,就是有勇气面对自己的错误。在成长和创业的道路上,最大的敌人,往往不是身边的友商,而是那个沉浸在过去成功里,听不进意见的「我」。

真正的强大,不是说你永远不会犯错——因为没有人能做到这一点。真正的强大,是当你犯了错误时,敢于承认「我错了」,并且立刻去改正它。

小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!

2025年8月14日 15:17

五年前的2020年,第一代小鹏P7横空出世,它第一次让普通人真切地感受到「智能汽车」到底是什么样。它以原创性的流线型轿跑设计,率先搭载了高速辅助驾驶、全场景语音对话系统,在中国新能源市场划开了一道口子。

快进到五年后的今天,2025年8月6日,小鹏汽车董事长、CEO何小鹏,化身产品经理,从设计、性能、智能、体验等多个维度,将全新P7的卖点娓娓道来。发布会上,小鹏共发布3款 P7 车型,分别为702km长续航版、820km超长续航版、750km高性能版。

不过,这次的发布会有点「不按套路出牌」,有两个地方特别有意思:

一个是发布会花了半个多小时讲车身颜色。还请来了陈妍希、朱正廷、宁泽涛、钟楚曦四位明星来站台,分别介绍一款配色。比起冷冰冰的性能参数,小鹏这次似乎更想和你聊聊「颜值」和「感受」。

另一个,一般新车正式上市前都会公布一个预售价,让大家心里有个底,也管理一下大家的预期。但全新P7偏不!想知道多少钱?等8月底正式上市再说。这波操作,让人有些出乎预料。

发布会后,小鹏官方宣布全新小鹏P7小订超过1万台。

现在,最大的问题来了:这款「吊足大家胃口」的全新P7,到底藏了什么秘密武器?它还能像第一代P7那样,一出场就惊艳所有人?

颜值就是正义

如果你关注了近几年国内的新能源汽车,你一定会有一种感觉:车展上的新车,仿佛都穿上了「统一校服」。

这套「校服」的款式你肯定很熟悉:一张被堵上的「前脸」,一条贯穿式的「眯眯眼」日行灯,一对隐藏式的门把手,再加上一个圆滑的溜背造型。结果就是,我们很多人都得了一种「汽车脸盲症」,看着都差不多,傻傻分不清楚。

不过,最近发布的一款全新小鹏P7,似乎想给大家来点不一样的东西。

小鹏P7的外观可以用三个词来形容:低趴、车身宽、车头长 | 图片来源:小鹏汽车

坦白说,第一眼看到它,你会被它的姿态吸引。就连理想汽车创始人李想,都曾公开夸奖小鹏P7的姿态是「最好的」

全新的P7在原来「优雅」的基础上,变得更有「肌肉感」和「攻击性」了。它采用轿跑式的设计,车身线条流畅,姿态低趴,营造出强烈的运动感和视觉冲击力;车身很宽,除了有更好的过弯性能,也让肌肉感更强;另外,车头非常长,车身侧面的肩线,雕刻得更加深刻、有力。

最绝是尾部,性感的溜背线条,配上一个能自动升降的电动尾翼,看起来就像一辆从科幻电影里开出来的概念车。

这些设计,让全新P7在茫茫车海中,拥有了极高的辨识度。

如果说全新小鹏 P7 的外观是「酷」,它的座舱则主打「玩」。

坐进小鹏 P7 的座舱中,最酷的是一块会「动」的屏幕。

它就像一个能听懂人话的桌面机器人。你一跟它说话,它的「脸」就会自动转向你,眼神锁定,认真倾听。倒车或者拐弯的时候,它还会主动「转头」帮你观察,比好哥们还贴心。

当然,你也可以像撸猫一样,直接用手把它掰到你舒服的任何角度。

方向盘也很好玩,上面有几个特别的「快捷键」,就像游戏手柄的「大招」按钮。想体验瞬间加速?按一下「Boost」,马上感受推背感!想切换悬挂高低?动动手指就行。

当性能轿跑,拥有「最强大脑」

如果说设计是全新P7的「面子」,那么技术,就是它敢于重返战场的「里子」。这一次,小鹏几乎倾其所有,将最顶尖的技术毫无保留地武装到了这台车上。

对于一台轿跑,什么最重要?除了好看,当然是「快」和操控。小鹏P7高性能版 3.7秒 就能从0加速到100km/h,最高时速更能达到 230km/h

底盘采用同级领先的全铝前双叉臂+后五连杆悬架,同时配备双腔空气悬架与智能可变阻尼减震器。听不懂没关系,你只要知道,这让车子转弯超级灵活,日常舒适与运动操控随时切换。

同时,全新P7用上了最新的800V高压架构和5C电池。这就像给你的手机换上了超级闪充,充电5分钟,通话两小时?不,它是充电10分钟,续航增加525公里。喝杯咖啡的功夫,又能跑老远。

根据不同版本,它的续航里程覆盖702公里到820公里,缓解你的「续航焦虑」。

如果说性能是P7的肌肉,那智能化就是它的灵魂。这一次,小鹏给它装上了「最强大脑」。

全新P7全系标配了三颗顶级的「图灵」AI芯片,总算力高达 2250 TOPS!这算力有多恐怖?约等于把好几台最顶级的游戏主机塞进了车里,一颗负责「智能座舱」,另外两颗专门负责「智能驾驶」。

这三颗芯片有着非常明确的分工:两颗驱动智驾VLA大模型,这让P7不只是能「看见」路上的车和人,更能真正「理解」复杂的交通状况,并主动做出判断和决策;剩下的一颗芯片,与另一颗高通8295P合作,共同负责车内的所有智能体验。它们驱动的是座舱VLM大模型。

小鹏 P7,希望成为一个真正「懂你」的AI伙伴。

从「偏科生」到「六边形战士」

毫无疑问,这台武装到牙齿的全新小鹏P7,是一款强大的产品。那它能成为另一个爆款吗?

在讨论P7的未来之前,我们先来看一张小鹏汽车滚烫的「期中成绩单」:

  • 7月,小鹏交付了 3.67万 辆新车,同比增长 229%,直接刷新了单月交付记录!
  • 今年前7个月,小鹏累计交付了 23.39万 辆,同比增长 270%。
  • 年度目标完成率,小鹏在所有新势力品牌中排名第一,完成了全年35万辆目标的 66.8%。

相比第一代小鹏P7,全新P7面临的压力大了很多 | 图片来源:小鹏汽车

这张成绩单,无疑给了小鹏和全新P7极大的底气。但,考场已经变了。

五年前,第一代P7横空出世,当时考场空荡荡,他自己出题自己答,轻松拿第一;五年后,全新P7再进考场,发现这里已经变成了「地狱模式」的「吃鸡」决赛圈,挤满了顶级高手。

特斯拉的Model 3车型,就像那个年年考第一的同学,虽然大家有点看腻了,但实力依然强得可怕;比亚迪的「技术鱼池」深不见底,产品力依旧很能打;小米SU7的出现,更像是一个带着亿万粉丝和全套智能装备的「超级玩家」,改变了整个班级的游戏规则……

面对这一切,小鹏的答案,就是将全新P7打造成一个无死角的「六边形战士」

过去,我们总说小鹏是个有点偏科的「理工男」,技术很牛,但在其他方面总差口气。而现在,这台倾注了小鹏所有心血的杰作,清晰地表明:小鹏,不想再偏科了。它在设计上开始进化,在技术上激进且All in,它要成为一个技术、设计、体验、市场、用户洞察全面拉满的全能选手。

最终,全新小鹏P7能否成为下一个爆款,取决于它能否完成一次关键的进化:从一个「优秀的产品」,进化为一个「成功的商品」。而决定这一切的终极考验,就是价格。接下来,我们一起见证。

对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」

2025年8月14日 15:14

当辅助驾驶的浪潮席卷而来,我们似乎都感受到了一个瓶颈:在高速公路上,它像个老手,稳健可靠;可一回到复杂的城市街道,它就变回了需要时时看管的「新手」。为什么会这样?

本质上,之前以「端到端」为代表的AI驾驶模型,其核心是模仿学习,像「猴子开车」。你让一只猴子看1000万段人类开车的视频,它能学会模仿人的动作——在什么情况下打方向盘,什么时候踩刹车。靠着这种「模仿」,理想汽车在短短7个月内,就将辅助驾驶的平均接管里程从12公里提升到了120公里。

然而,模仿终究是模仿。「猴子」并不会真正思考,它只是在应激反应。当遇到一个从未见过的街角,一个突然窜出的行人,一个复杂的、充满不确定性的路口时,这只「猴子」的大脑就宕机了。因为它只会「怎么做」,却不懂「为什么」。

整个行业,都走到了这个模仿的瓶颈前。下一步,路在何方?

答案,藏在一个全新的概念里——VLA(视觉-语言-行为)大模型。

2025年7月底,在北京理想汽车的研发总部,极客公园在理想i8正式发布前,深度体验了理想第一版VLA模型,这也是国内第一个量产上车的VLA模型。同时还访谈了理想汽车自动驾驶研发高级副总裁郎咸朋博士及核心研发成员团队,在与他们的深度访谈中,我们得以一窥这场变革的核心。

如果说过去的端到端是两步式:「看见,然后行动」。那么VLA的核心,就是在「看见」(Vision)和「行动」(Action)之间,植入了一个至关重要的环节——语言(Language)。它就如同一个会思考、能推理的大脑,它不仅能看懂「前方有障碍物」,更能结合上下文理解「这是一条狭窄的双向车道,对向有来车,我应该减速避让,而不是冒险超车」。

这种「内心戏」的思考过程,让汽车的行为决策不再是一个冰冷的黑箱,而是变得可以理解,也更接近人类的思维。我们终于有机会窥见,那只「猴子」的脑子里,在想些什么。

那么,拥有了「大脑」的VLA司机,想成为一个什么样的角色?

理想的答案出人意料,却又在情理之中:不做「老司机」,要做「私人司机」。

这二者有什么区别?老司机关注的是「我怎么把车开好」,核心是驾驶者本身;私人司机关注的是「怎么让乘客坐得舒服、安心」,核心是乘坐者。

因此,在首个VLA版本中,「安全」被放在了「效率」之前。当遇到复杂的路况,它宁愿慢一点、稳一点,也绝不做任何让家人感到不安的激进冒险。它的每一次决策,都以你和家人的安心为优先准则。

当然,要实现这一切,绝非易事。理想汽车的路径,并非是跳过模仿学习直接进入VLA,而是建立在数据、算力、算法和工程能力上的长期积累。

特别值得一提的是,理想汽车VLA的训练场是「世界模型仿真系统」。你可以把它理解成一个为AI司机量身打造的、无限逼真的「元宇宙」驾驶模拟器。在这个虚拟世界里,AI不再是单纯模仿,而是通过一次次「试错」去探索和学习。

它每天可以在这里「行驶」超过30万公里,经历现实中普通人一生都难遇到的极端、危险场景(Corner Case)。它会经历无数次失败,并从失败中总结经验,以惊人的速度进化。

今天,第一版的VLA系统相比过去,也许只是在舒适性上迈出了一小步。但真正的变革在于,它的进化将不再是线性的,而是指数级的。当它的平均接管里程从100公里跃升至1000公里时,一个新的时代就将开启。

这场深刻的变革才刚刚拉开序幕。也许在不久的将来,当我们再次坐进驾驶座,会发现那个曾经需要我们时时警惕的系统,已经成为了一个值得托付的「人」。

自动驾驶的「ChatGPT时刻」,或许比我们想象中来得更快

理想汽车自动驾驶研发高级副总裁 郎咸朋博士 | 图片来源:理想汽车

以下为访谈内容,部分有删减:

访谈嘉宾:

理想汽车自动驾驶研发高级副总裁 郎咸朋博士

理想汽车自动驾驶高级算法专家 詹锟

理想汽车自动驾驶高级算法专家 湛逸飞

VLA:通往更高阶自动驾驶的「必经之路」?

Q:去年,「端到端」成为辅助驾驶主流方案,但也很快遇到瓶颈,VLA是当时唯一考虑的技术路线吗?还是有其它备选方案?

郎咸朋:我们一直保持对前沿算法的探索,做端到端时也在考虑下一代技术。当时业内最有前途的就是VLA,它不仅用于辅助驾驶,更是具身智能和未来机器人领域的通用技术框架。经过长时间的调研和探索,我们制定了VLA的技术方向。

Q:VLA看似并未颠覆「端到端」,这是否意味着它更多是工程能力的创新,而非革命性的技术路线革新?

詹锟:VLA不只是工程方面的创新。VLA也是一种端到端(场景输入,轨迹输出),但算法的创新是多了「思考」。端到端可以理解为VA(视觉-动作),VLA加入了Language(语言),对应思考和理解,把机器人范式统一。但VLA作为大模型,部署在边缘端算力上极具挑战,需要工程创新,必须有大算力芯片才能部署。

Q:行业有观点认为,VLA和「好的模型」是两回事,后者更多取决于数据和强化学习。您如何看待这个观点?

詹锟:我赞同VLA是一种模型架构,不一定代表是好模型。任何模型的设计思路只代表想法,不代表能落地。要训练出好的VLA模型,需要更好的数据、算力、算法、工程部署。我们认为,辅助驾驶想往L4或更高能力前进,L(语言)是必经之路。

Q:多模态大模型尚未迎来真正的「ChatGPT时刻」,理想此时量产VLA,这是一个足够好的解法了吗?它距离那个引爆点还有多远?

詹锟:多模态没达到GPT时刻。VLA在机器人领域泛化能力不强,但在辅助驾驶这个相对统一的范式里,有机会做到一个GPT时刻。

我们承认,现在的VLA是业界第一个要推向量产的版本,肯定会存在缺陷。这次尝试是想用VLA探索一条新路径,不一定非要达到GPT时刻才能量产落地。只要能通过评测、仿真验证它能给用户带来「更好、更舒适、更安全」的体验,就可以交付。

GPT时刻更多指的是很强的通用性和泛化性。我们会在落地以后,随着用户数据迭代、场景和交互的丰富,逐渐往ChatGPT时刻迁移。到明年我们如果到了1000MPI,可能会给用户一种真的到了VLA的ChatGPT时刻的感觉。

Q:从「司机Agent」到「更好的家庭司机」,理想对VLA的终极价值思考,发生了哪些变化?未来它将如何重塑我们的出行空间?

郎咸朋:我们之前的「司机Agent」说法迭代了,现在我们认为VLA应先专注于成为一个好的「私人司机」。

我们认为VLA是一个底层能力,对用户最大的价值就是把车开好。如果车都开不好,做其他事没有意义。而且,我们分析后认为,目前的AI Agent产品还处于比较初级的阶段。

所以我们重新审视VLA的能力,核心还是把车开好,为用户提供一个安全、舒适、安心且越开越好的司机体验。这是我们今年VLA上车后想实现的目标。

未来,在VLA模型的基础上,辅助驾驶会向「移动空间」的思路发展。当车辆能做到足够安心、安全后,它就能帮你去做其他事情,我相信那一天会很快到来。

解构大脑 —— VLA的「七十二变」与「数据炼金术」

Q:理想自研的MindGPT基座模型,究竟比行业开源模型「好用」在何处?

詹锟:我们自研的基座模型对部署VLA有很大作用,我们VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,专门对嵌入式芯片做了定制的MoE混合专家架构,并不是业界任何一个开源模型都能达到这个效率。VLA的推理帧率在10Hz左右,我们做了很多优化,把思考过程尽可能地能够在车端推理出来。

Q:云端大模型参数量是越大越好吗?面对友商的72B模型,理想的32B模型如何应战?车企判断模型大小的标准是什么?

郎咸朋:关于云端模型72B好还是32B好,我觉得各有各的好。关键看你是否能把模型训练到的能力,蒸馏好了之后,能落到自己的芯片上,做好优化、量化的部署,并且转换成用户的实际价值。能做到这点,都是好的应用。

当然,模型的参数量越大,训练消耗的资源就会越多,效率也可能低一点。把大模型蒸馏成小模型,能力损失也可能存在,这很考验各家工程师的能力。最终,我们还是要看最终的产品体验以及给用户带来的价值。

湛逸飞:其实也不完全只看参数量,你给它什么数据也是非常重要的。现在很多大模型都是基于互联网通用数据,而数据污染已越来越严重。我们理想汽车的云端大模型,是基于自己的数据去做训练,它在驾驶场景的理解上,比那些通用大模型的能力要强很多。我们需要的正是它对驾驶场景的理解能力。

Q:在VLA的训练中,在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令,我们是如何解决的?

詹锟:首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。

第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。

第二,生成数据。之前会有很多大语言模型会有幻觉,本质上因为「大模型」对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至生成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。

通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。

第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。

相比端到端,VLA的不同之处是在「看见」(Vision)和「行动」(Action)之间,加入了语言(Language) | 图片来源:视觉中国

Q:在浩如烟海的数据中,理想如何像炼金术士一样,定义并筛选出能训练出「老司机」的「黄金数据」?

湛逸飞:我们需要的数据,一个词总结就是「老司机数据」。我们会在云端用大模型对数据进行检查,看它是否符合我们定义的「老司机」标准。比如,在望京有些右转车道上有违停车,我们到底需不需要车辆压实线绕行?如果不绕,在望京就没法右转。我们对这些数据理解花费了很大功夫,并做了很多清洗。

郎咸朋:对于corner case和困难场景,我们会通过生成数据来提供。在强化学习阶段,数据更大的作用是训练世界模型,让它更符合真实世界,所以我们更多的训练数据来自合成。

我们从理想ONE就开始做数据闭环。2020年,我们就积累了1500万左右的有效回传数据。这5年做下来,从去年端到端开始,对手才真正把理想辅助驾驶当回事,但为时已晚,因为这些能力建设不是一天两天就能完成的。

如果还沿着端到端的思路做VLA,速度一定会变慢。我们的最终目标,是在云端建立一个模拟真实物理世界的世界模型,让算法在里面跑,就像在《SimCity》里一样。到那时,算法在模拟世界里跑一天,等于在真实世界跑好几年的训练速度。一年之后,当一个1000MPI的产品放在你面前时,大家会觉得辅助驾驶真的来了。我相信理想肯定是第一个走出来的。

Q:VLA如何凭空理解「前进10米」这类物理概念?我们真的能完全信任一个大模型做出的判断吗?

詹锟:我们不会单纯地让模型学习向前走10米、12米这样生硬的数据。但在海量的通识数据中,有很多对物理空间的理解,比如前方白车距离多少米。现在的大模型也已加入很多物理空间的知识。

我们分享的五步训练法,第一步就是加入通识能力和物理世界的知识,第二步进行微调,将能力和action结合。当我们把海量数据喂给它以后,数据具备组合泛化能力,并不是教什么学什么。当量级达到一定规模时,会涌现出一些能力。它懂了数字,懂了米数,当给它一个新的东西,就存在组合泛化的机制。我们也非常关注现在大模型的进展,随时可以向辅助驾驶上迁移。

Q:VLA的「大脑」再聪明,也需要敏锐的「眼睛」。在感知层面,我们如何持续进化,解决类似「懂车帝测试」中暴露出的问题?

郎咸朋:还是要继续提升技术能力。在VLA中,我们对感知有一个比较大的升级,能看得更远、更精细。

比较典型的两个例子是:我们动态物体纯视觉的检测范围从原来的150米扩到了200米,OCC通用物体检测从原来的80米扩到了125米。这都是目前在VLA上做的技术能力提升,包括数据、包括推理性能的提升才能做到。目前我们确实会在基础能力上做更多提升。

理想如何将VLA大脑塞进车里?

Q:从规则到端到端,再到VLA,理想的智驾算力经历了怎样的指数级增长?未来的算力规划蓝图是怎样的?

郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练卡只用于训练BEV模型和感知模型,数量较少。但在端到端时代,模型训练需要大量算力,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。

Q:理想是如何在Thor芯片上压榨出翻倍算力的?将精度从FP16降至FP8甚至FP4,如何做到性能不降反升?

詹锟:我们从去年开始用Orin芯片做大模型部署,通过魔改CUDA底层、重写PTX底层指令等方式实现。理想汽车辅助驾驶团队的工程部署能力是一以贯之的,从早期地平线J3,到Orin,再到Thor芯片,很多技巧、分析方法和工具链都继承下来了。

关键是我们打磨细节的能力,通过做底层分析解决瓶颈。VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率。这其中有非常多的细节,比如调整算子,让它和芯片能力更匹配。大家常用的推理模型会用FP16,我们把它降到FP8,性能做了非常大的提升,未来还会用FP4进一步把芯片算力压榨出来。

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定优化,性价比和效率都会很高。现在依然使用Thor芯片,是因为英伟达对新算子支持较好,算力也比较充足,在VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片。

Q:在车端部署VLA大模型时,理想是否会有一些轻量化的版本?如何在这场「性能」与「效率」的博弈中取得平衡的?

詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。架构上,我们的基座模型是自研的8x0.4B的MOE模型,这个架构非常适合英伟达芯片,推理速度快的同时模型容量大。

优化上,我们最早训练了一个32B的云端大模型,把它做出的思考和推理流程蒸馏到3.2B的MoE模型上。我们也针对Diffusion做了工程优化,并不是直接使用标准Diffusion,而是进行了推理的压缩。以前Diffusion可能要推理10步,我们使用了flow matching流匹配只需要推理2步就可以了,这方面的压缩也是导致我们真正能够部署VLA的本质原因。

Q:面对未来,理想会走上自研智驾芯片的道路吗?

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor芯片,是因为英伟达对一些新的算子支持比较好,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。

Q:在Orin与Thor两个平台,理想后续的VLA推送会「一视同仁」吗?两个平台的能力差距何时会显现?

郎咸朋:我们Orin X或Thor平台都会同步推送。目前测试来看在能力上没有任何差异,帧率上也没有差异,都是10帧。唯一的差异可能是底盘不同导致的舒适度体验差异。

后续的推送节奏也是同步的。我们现在肯定不会做这种差异化。但随着下一步的迭代,如果我们在INT4的量化上有一些突破,那时可能会有一定差异,但现在谈这个还为时尚早。

仿真,何以成为理想的「杀手锏」?

Q:面对「安全、舒适、效率」的「不可能三角」,现阶段的VLA,做出了怎样的取舍?

郎咸朋:我们的数据显示,理想车主的人驾数据是约60万公里出一次事故,而使用辅助驾驶功能是350到400万公里发生一次事故。我们的目标是将辅助驾驶的MPA(每两次事故间的平均里程)提升到人类驾驶的10倍。

在不可能三角中,我们的排序是安全、舒适,最后是效率。安全由MPA指标衡量,是最高优先级;舒适是在保障安全的基础上,我们通过优化MPI(每两次人工干预间的平均里程)来重点提升舒适度,减少因急刹、重刹等不佳体验导致的接管;效率排在安全和舒适之后。例如,即便走错路,我们也不会通过危险的动作立刻纠正,而是在保证安全和舒适的基础上去追求效率。

Q:理想为何敢大幅减少实车测试,并断言仿真测试效果更好?这背后的底气是什么?

郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。

从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。

Q:仿真世界如何做到复刻真实物理世界?理想的「杀手锏」是什么?

湛逸飞:我们在2024年进行了150多万公里实车测试,来验证仿真环境的可靠性。

最初世界模型仿真的真实性确实存在问题,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然没有达到100%,但准确率也可以在99.9%以上。

例如,我们针对仿真环境中「200米外看不清红绿灯」的问题,对红绿灯的视野模型和相机分辨率仿真进行了大量优化。正是用过去一年的时间将仿真系统的可靠性提升到了很好的程度,我们才会放心地去使用这套系统。

Q:在仿真训练中,如何判定一个场景的训练已经「毕业」?从「实习司机」到「老司机」的进化需要多久?

湛逸飞:强化学习是一个循环交替的过程。每一轮仿真,我们会给它一个打分(reward),这个reward会反向改变模型参数,然后我们再拿它去仿真,产生新行为。这个过程不是瞬间完成的,也没有固定时长,主要和场景的难度相关。直到它通过了我们在仿真环境里的所有metrics,我们才判断这个场景的训练完成了。

Q:如果满分是100分,您会给今天我们体验的VLA版本打多少分?要达到怎样的标准才能让您安心地将它推向市场?

郎咸朋:我们内部有自己的评分机制。大家试驾的这版VLA,内部打分已经全面超越了我们最后一个端到端版本OTA7.5,但在一些小的分数上可能还有波动。

在真正推送给用户之前,我们会做到一个明显的效果提升。大家体验的主要是我们在舒适度上的一些提升。接下来,我们会在「安全、合规、导航、效率」等维度上都会有较大幅度的提升。

我们的目标是,让熟悉我们车的用户一上车就会有非常大的体验提升;让没用过辅助驾驶的人,在使用时也会有很强的安全感、安心感和舒适度。

Scaling Law信仰,让理想成为理想

Q:您如何判断辅助驾驶的商业化落地时间表?理想的变现之路将如何铺开?

郎咸朋:从技术层面看,我们认为VLA模型可以走向更高级别的辅助驾驶,但它现在处于起步阶段,约等于端到端的上限。我相信VLA的迭代速度也会非常快,但这需要完备的算法、算力和数据等基础能力,以及工程能力的支撑。VLA的训练需要和成熟的仿真环境来进行强化学习,和之前单纯依靠实车数据模仿学习是完全不同的。

商业变现最核心的影响因素是国家的法律政策。从技术上看L4级别的辅助驾驶落地会非常快,但从商业角度看,还有很多问题需要考虑,比如保险和事故赔偿等。

Q:如果一个新玩家想入局VLA,会面临哪些难以逾越的挑战?理想的核心技术壁垒是什么?

郎咸朋:新玩家想做VLA模型,没法跳过规则算法和端到端阶段。VLA要建立在之前的基础上,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。

理想汽车之所以能够落地VLA模型,是因为我们有12亿公里的数据。只有在充分了解这些数据的基础上,才能够更好地生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练和推理算力的支撑也需要大量资金和技术能力。

Q:在研发VLA过程中最大的挑战是什么?理想在组织架构上进行了怎样的调整?

郎咸朋:我觉得挑战最大的是要把整个研发流程进行迭代。每一个技术革新都伴随着研发流程的迭代。去年端到端需要数据驱动流程,今年做VLA就必须要做强化学习的流程,需要快速验证我们世界模型的可靠性,也需要快速搭建高效的仿真环境。

组织层面,我们是IPD(项目制)组织。不管是去年做端到端,还是今年做VLA,都是成立内部项目组来做。这反而成为我们的一种优势。去年端到端是180个人,今年VLA是200多个人,我们觉得不需要几千人去做。我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。

Q:作为国内VLA的「探路者」,理想在「摸着石头过河」时,踩过最大的「坑」是什么?组织架构为此做出了怎样的变革?

郎咸朋:我有个最大的体验,就是对整个行业和辅助驾驶的判断与认知,决定了我们是否会踩坑。

我们很早就理解辅助驾驶是个人工智能问题,必须做好算法、数据和算力。我们从2021年开始搭建数据闭环,这是我们能做端到端的基础。

同时,去年在做端到端时我们就在反思,它是不是就够了。我们对人工智能的理解不是模仿学习,而是要像人类一样有思维和推理能力,去解决没有见过的事情。所以我们很快从端到端切换到了VLA方案。

小的工程细节、优化等小坑肯定有,但我们没有遇到大的判断失误。

詹锟:我补充一下,可能也不叫坑,是个经验。就是要相信AI的力量,相信Scaling Law(规模法则)。我们之前相信data Scaling Law(数据规模法则),看到了很好的效果;下一步就是坚信,当我们能给更多的数据、更大的训练时长,它总能出更好的效果。这是AI界的「the bitter lesson(苦涩的教训)」,我们要坚信这一点。

Q:最新的调研中,智能驾驶在消费者购车决策中的权重有多高?

郎咸朋:我们市场部的同学是做过调研的,并且给到我的反馈肯定是需要,都是排在首选top3里的。

现在新购车的人对智驾的要求,我觉得一年前可能问这个问题大家还有点质疑,但现在我相信特别是新购车的用户智驾一定是排在它的首先选要素里的,像去年麦肯锡的调研基本上都是第一或第二的购车要素。

Q:未来,理想是否会将VLA这项核心能力,向行业开放、赋能吗?

郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个VLA的发展还是在技术周期的初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。

从公司或我个人的态度上,是希望能够促进行业发展,但从目前VLA技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升10倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。

告别「偏科生」时代!36 万的坦克500,让对手从此无路可走

2025年8月14日 15:10

2025年8月11日,全新坦克500智享版开启预售!长城这次发布了两款车型,分别是预售价36万元的Hi4-T智享版和38.88万元的Hi4-Z智享版。

很多熟悉这款车的人,第一反应可能是:嗨,这不还是那台我们熟悉的「保定陆地巡洋舰」吗?

没错,从外观看,它依旧是那个车身雄伟、线条刚毅的硬汉,散发着「别惹我」的强大气场。但是,如果你们仅仅把这次发布看成一次简单的年度改款,那可就把它想简单了。 这次升级的核心,不在于「形」,而在于「神」。

它最大的变化在于,在保留顶级硬派越野能力这个「肌肉核心」的同时,为自己注入了一个前所未有的「智慧大脑」和「舒适灵魂」。

把「冰箱彩电大沙发」搬进硬派越野

一提到「硬派越野车」,你脑子里是不是马上出现一个画面:一台方方正正、浑身是泥的钢铁巨兽,在没路的山里「哐当哐当」地往前冲。车里的司机,肯定是个经验丰富的「老炮儿」,对他们来说,征服自然最重要,舒不舒服根本不是事儿。

一直以来,硬派越野车就像班里的「偏科大神」,越野能力100分,但舒适和智能可能连及格线都到不了。选择它,就意味着选择了「诗和远方」,但过程嘛,就得做好「吃苦」的准备。

但是,全新坦克500智享版站出来大声说:「不对!谁说硬汉就不能温柔?为什么去野外就不能享受五星级的待遇?」

它的解题思路,就是把新能源车上那套「冰箱、彩电、大沙发」给学了过来。

坦克500不止于越野,也要懂得生活 | 图片来源:长城汽车

首先是「大沙发」,坦克500智享版采用了顶级的Nappa真皮座椅,不仅支持加热和通风,前排甚至还带按摩功能!想象一下,在野外有点累了,一键开启按摩,这待遇直接拉满。

其次是「大彩电」,坦克500智享版车里有多块屏幕组合,驾驶座前有12.3英寸的仪表盘,中间有15.6英寸的超大中控屏,还有就是HUD抬头显示,能把导航、车速像科幻电影一样投射到前挡风玻璃上,让你开车不用低头。

最后是「电冰箱」,坦克500智享版在车里装了个车载冷暖冰箱,夏天能喝冰镇可乐,冬天能喝热饮,温度从零下6度到50度随便调,简直是长途旅行的「神器」。

所以,坦克500智享版就像一个「全能学霸」,它告诉我们:未来的顶级越野车,不光要能带你翻山越岭,还能让你舒舒服服地享受整个过程。

不止肌肉!当钢铁硬汉拥有「超级大脑」

如果说舒适性是让坦克500智享版有了「温柔的内心」,那智能化,则是给这个钢铁巨兽装上了一个「超级大脑」。

在2025年的今天,评价一台车是否足够「新」,智能化是绕不开的硬指标。它就像评价一部手机,我们不仅看它的摄像头和屏幕,更关心它的芯片和操作系统。坦克500智享版,就在这条「智慧之路」上,完成了一次进化。

越野车这种钢铁直男,也可以玩转智能这种花活 | 图片来源:长城汽车 这台车的「大脑」核心,是长城最新的Coffee OS 3智能操作系统。你可以把它理解成汽车界的「iOS」或「鸿蒙OS」,它让车里的一切操作都变得像玩手机一样流畅、智能。

同时,后排正上方,有一块17.3英寸的吸顶大屏幕。控制它的方式非常多:你可以直接触摸屏幕,可以动动嘴用语音控制,甚至还能用手势隔空操作。当然,用手机、后排扶手上的小屏幕或者遥控器也都没问题。

远红外夜视系统,让坦克500有了自己的「夜视仪」| 图片来源:长城汽车

 此外,它还有一个「黑科技」——远红外夜视系统。在伸手不见五指的夜晚开车,它能帮你「看穿」黑暗,提前发现路上的行人或动物。这不就是电影里才有的夜视仪功能吗?

如果说智能座舱是提升体验,那么智能驾驶辅助,则是衡量汽车科技含金量的核心。坦克500智享版搭载的是长城第三代辅助驾驶系统——Coffee Pilot Ultra。

为了实现强大的功能,它给自己配备了一身顶级的「超级装备」:全新坦克500搭载了激光雷达,拥有27个辅助驾驶传感器。同时长城汽车方面表示,其九州超算中心,2025年算力规模将扩大到5EFLOPS。

有了这套「装备」,它能做到什么呢?这也让坦克500拥有了不输于新势力的辅助驾驶能力。

首先,是「车位到车位」。你可以在地图上设定好从A点地库到B点地库的路线,之后在高速和城市快速路上,车辆就能在很大程度上实现自动驾驶。甚至连通过收费站闸机、在复杂路口掉头、等待红绿灯后自动起步这些高难度操作,它都能从容应对。

其次,是解决「停车恐惧症」。它搭载了全融合泊车方案,能识别超过200种车位,不管是断头路、斜着画的线,还是特别窄的车位,它都能轻松停进去。就连地上画线不清楚的地方,它也能准确识别。

坦克500智享版不仅是一个能带你翻山越岭的硬汉,更是一个搭载了「超级大脑」的智能伙伴。它证明了未来的汽车,一定是「肌肉」与「智慧」的结合体。

不跟普拉多玩了?

过去,当我们提到坦克500,它的对手名单上写着的是福特探险者、丰田普拉多这些名字。大家都是「硬派越野」这个圈子里的选手,比的是谁的拳头更硬,谁的底盘更扎实。这就像是学校里的举重比赛,大家比的是纯粹的力量。

但现在,情况彻底变了。全新坦克500智享版把目光投向了一个全新的战场。它的对手,不仅有老朋友普拉多,更直接瞄准了同价位的「当红炸子鸡」——理想L7/L8、问界M7这些城市豪华SUV。 理想、问界这些车,主打的是豪华、舒适和智能,这是它们的「长板」。但坦克500智享版说:「你们有的豪华、智能、舒适,我全都有。但我还有你们没有的——顶级的越野能力。」 它给所有消费者出了一道全新的选择题:同样花30多万,你是想买一台只能在城里享受的豪华SUV,还是一台既能在城里给你同等豪华智能,又能随时带你奔赴山海的全能座驾?

硬派越野开始变得舒服、智能,城市SUV则越来越野 | 图片来源:长城汽车

同时,坦克500智享版的出现,标志着一个新时代的到来——「越野+」时代。这里的「+」,可以是「+豪华」、「+舒适」、「+智能」、「+家用」。

未来的越野车,将不再是那个「偏科生」。它的地盘,依旧能带你跋山涉水,去往诗和远方;而它的车厢,则是一个移动的家、办公室和娱乐室。

对于整个汽车行业来说,坦克500智享版就像一条「鲶鱼」,搅动了高端越野市场。它逼迫着所有玩家,无论是国产品牌还是国际巨头,都必须重新思考:在新的消费需求下,未来的越野车应该是什么样子?

可以预见,硬派越野车会越来越舒服,城市SUV会变得越来越「野」,它们之间的界限将越来越模糊。

万字长谈王小川:不再迎合他人做学霸,我要解自己的命题

2025年8月14日 15:08

从小就是「学霸」的王小川,其实不太喜欢自己的「学霸」标签。

他在离开搜狗后的一次交流里,和极客公园创始人&总裁张鹏讲过自己的看法:「学霸」的另一面,意味着在别人设定好的命题里取得「高分」,但他接下来其实想找到自己的命题,不想再做别人命题里的学霸了。

但ChatGPT 的爆发,带着大模型浪潮扑面而来,王小川自己和所有熟悉他的人,都觉得他是最适合AI时代的中国创业者之一。故事似乎和之前一样,王小川成立百川智能符合所有人的期待,然后就是响亮的AI 六小虎的称号,以及大家在模型评分榜上的位置,产品MAU的数据、商业化ARR数字,等等。看起来王小川还是绕不开大家对于「学霸」的期待,有一堆必答题要去回答。

王小川自嘲,一度自己觉得百川成了三个公司:一个做模型,一个做toB商业化,一个做AI医疗。而王小川内心真正想做的,并非市场所期待的通用模型问题,而是「为人类造医生,为生命建模型。」

王小川一度觉得这个命题,在迎合更多业界必答题的过程中,从原点变成了「远方」,这让他觉得很有问题。这种撕扯,最终以今年4月开始的大调整而和解。王小川做出了选择:团队从450人精简至不足200人,回归扁平,回归专注。人数少了,团队的「压强」反而上去了,这让他对于未来,也更有底气和信心。

外界猜测这是「遭遇困境」后的被动收缩,唱衰百川的各种报道满天飞,这可能是王小川创业这么多年来被负面新闻包裹得最紧的一次。但是王小川本人选择沉默、完全没有回应。按照他的原话是「我需要的是跟自己的内心做斗争,而不是跟环境做斗争」。

直到8月12日,当王小川带着百川全新的医疗大模型Baichuan-M2亮相后,外界才终于看懂了他沉默的这几个月在做什么。这款大模型的性能超过了OpenAI新近发布的两个开源模型;而在闭源领域,它的能力也仅次于GPT-5。但这还不够。对王小川而言,他的目标,是在医疗这个垂直领域,实现对通用模型的超越。

这个时候,百川感觉上才真正变回了「一家公司」,而王小川也终于结束「一言不发」,愿意坐下来和张鹏再次进行一场长谈。

这更像是一次坦诚的复盘,一次对过去两年喧嚣的总结。也是一次对上半年不少朋友「小心翼翼」的关心和担心的回应。王小川觉得他现在的状态很好,因为他不再需要回答别人强加的必答题,而是可以真正定义自己的问题,并给出他更锐利的答案。

以下为王小川与张鹏对话内容实录,有编辑删减

01 「智能的高度」与「应用的深度」

张鹏: 最近GPT-5终于发布了,我们曾想象它会再次引领产业的大飞跃,但世界给予的反馈,似乎并不符合这个版本应该有的震撼。现在大家探讨AI coding的热情、以及感叹Anthropic估值已经接近2000亿美金的热情似乎更高涨,你怎么看这些现象?

王小川: 这可能是美国激烈竞争格局下的必然结果。毕竟那边牌桌上还有Grok、Anthropic等强劲的对手。值得注意的是,AI coding确实也呈现了一个可能比ChatGPT拥有更好商业模式和数据飞轮的通向AGI的通道。

很可能,今天OpenAI正处于一个相对劣势的阶段,在竞争压力下显得有些仓促地发布了产品。所以,给人感觉有点「拉下神坛」了。但我觉得这不代表OpenAI就此沉寂,更不意味美国AI创新后继无人。恰恰相反,这证明了其他竞争者的实力,他们正在激烈地争夺王座。

张鹏:我们该如何理解这种现象?OpenAI有做错什么吗? 

王小川: 从技术路线图来看,我从一开始就更欣赏Anthropic的策略,尤其是它将代码作为发展的中心,这条路是以API为中心,特别是深耕代码能力。语言模型强化到代码层面,就能够赋能千行百业。

而OpenAI选择是把重心放在一个C端的App上,

最初由Ilya Sutskever提出的「predict next token」(预测下一个词元)开启了大模型范式,沿着这条路走下去,代码本应是可见的、必然的方向。但或许是因为OpenAI的「包袱」过重,什么都想要,反而无法专注,也就难以找到最关键的轴心去突破。

当它需要服务7亿用户时,就无法将代码置于足够高的战略位置。我认为这是一种路线图上的风险。

我心中的AGI(通用人工智能),其核心是代码能够自动运行。对此我有两个逻辑:一个是从产业应用场景出发,例如造医生;但从更极致的技术追求来看,代码才是中心。

因此,无论从产品形态还是技术路线图来看,OpenAI都没有走在我期望的路径上。

张鹏: Anthropic的估值已经涨到了1700亿美元。我记得你每次都会强调,「语言才是智能的中轴」。所以「代码语言」这个轴线上的高速发展已经开始了呗

王小川: 代码,本质上就是一种更高级的语言。

最近Geoffrey Hinton也开始讲,人类智力的核心在于「类比」。这正是我一直信奉的,语言的本质就是类比与推理。我之前反复推荐侯世达的《表象与本质》,那本书用完整的篇幅阐述了这件事。

因此,数学是语言,代码也是语言,而且是一种「可运行」的语言。它就像图灵机一样,能够解决万千问题。所以,真正的道路是清晰的:首先,通过人类语言理解常识、学会沟通;然后,掌握数学语言与代码语言,从而征服理科与工科。 这条路,我过去在很多场合都讲过,从未改变。

今天代码的快速崛起已经开始验证其价值,更重要的是它的数据飞轮也已经高速启动了。

其实代码的终极用法,不是辅助程序员,而是它自己就能运行。今天所有类似的Cursor工具,本质上还是在辅助程序员。而一旦代码能够实现自我运行,AGI也就到来了。我还记得多年前在知乎写过一个帖子,标题是:「程序员是自己的掘墓人」。现在,这句话正在被验证。

张鹏:以前大家对智能的高度特别充满热情,每次新模型的屠榜跑分都会被认真讨论很久,但感觉今天Coding带来了一个应用的深度智能的高度可以一起前进的事情。未来应用的深度是不是会变得更被重视?

王小川: 没错。单纯的评测已经不够,已经到了可应用的阶段。

其实除了代码的价值已经肉眼可见,今天大家对医疗的期待,也是与日俱增的。国内大家讨论得偏少,但其实医疗正迅速从「非共识」走向「共识」。尽管Anthropic在代码领域跑得更快,但OpenAI在今年5月发布了Health-Bench,把医疗健康纳入核心评测维度。在OpenAI的产品发布会上,「健康」与「医疗」被反复强调。甚至在发布开源模型时,技术报告开篇第一章,就是阐述它在医疗领域的进展。

最值得玩味的,是在GPT-5的发布会上,唯一被请上台为它背书的,是一位癌症患者。

OpenAI身负着服务7亿用户的巨大「包袱」,这迫使它必须超越纯粹的技术叙事,走向一条「以人为中心」的路线。在这条路上,医疗是其无法回避,且必须占领的战略高地。

张鹏: 硅谷确实还在越来越热闹,但过去一段时间大家都觉得国内大模型领域许多备受瞩目的创业公司,也包括百川智能似乎都变得「安静」了。这背后有什么共性原因吗?

王小川: 身在局内,我反而觉得这是一个极其自然的过程。

2023年是历史性的一年,资本的恐慌性涌入和对未来的无限畅想,是技术变革的必然序曲。这有点像Gartner技术成熟度曲线的规律,当期望膨胀到顶峰,现实与应用之间的距离必然会导致一个调整期。当人们发现技术突破未能立即转化为应用爆发,热情冷却,行业便会安静下来重新思考。

回答这个问题,必须从技术与环境两个层面来看。技术层面,如果大家研究下OpenAI最新的开源模型,会发现它在基础设施与工程化上的深厚实力,这不仅关乎算法。我们一度以为已经拉近的距离,现在又被重新拉开。我们期待国内同行在底层架构上持续追赶,而百川也会在医疗这样的垂直领域,做出自己的贡献。

然而,比技术差距更严峻的,是来自大环境的挑战。美国头部公司动辄百亿美金的融资,以及像Anthropic年化经常性收入(ARR)已接近百亿美金的规模,这在国内目前都难以想象。说实话,在这样的牌局里,任何一家能够「咬住」不掉队,本身已是一件了不起的事情。

本质上,我们和美国存在一个「时间差」。当他们已经进入以ARR为核心的「摘果子」收获期时,我们绝大多数人还身处围绕基准测试(Benchmark)和参数的「模型内卷」阶段。这种阶段上的错位,会直接导致「底气」的缺失。

张鹏: 这种「看ARR」与「看参数」的差异,根源在于技术,还是商业环境?

王小川:我认为是双重叠加:既有技术追赶的压力,也源于商业土壤的不同。

张鹏: 那之前大家在模型上投入的热情和资源,你觉得值得吗?如果这是一场如此艰难的追赶?

王小川: 我认为,这取决于一家公司的终极抱负。

如果你的目标是打造一个轻巧、敏捷的公司,那么完全可以不自研模型。比如一个十几人甚至几个人的小公司,通过调用最优的第三方模型,完全有可能快速实现正向现金流,并获得资本的青睐。

但如果你立志要成长为一个长期的、具有系统性影响力的大公司,那么在模型层面的自主积累,就是一件不可或缺的事情。

02 重新变回一家「有自己命题的公司」

张鹏:最近投资圈都在感谢大模型公司释放了很多优秀人才,让他们看到了不少值得投,值得抢的新项目。百川的业务和人员调整好像也挺大的,这背后你是怎么想的?

王小川: 你肯定还记得2023年百川当时的策略就是「快」。快速入场、快速融资、快速抢占技术身位。这让我们在高峰期一度达到450人。速度为我们赢得了有利位置,但也带来了「思想无法统一」的后遗症。

许多人带着对大模型的热情,甚至是源于FOMO的恐惧,加入了百川,我们却未能真正「捏成一股绳」。公司内部甚至自嘲,已经分裂成了做模型、做医疗、做商业化「三个公司」。

后来,我在全员信中也坦诚沟通了这件事:我们必须回归创业的初心——「为人类造医生,为生命建模型」。

所以最近在组织上确实做了很多调整,直接说结果就是从450多人变成了不到200人,然后我们把管理层级从平均3.6级压缩至2.4级,从今年4月到6月,花了两个多月,我们完成了这次调整。你会发现,人数少了,整个团队的「压强」反而上去了,这让我对未来更有底气。我感到非常高兴的是,最终留下的,是一支既有AI信仰,又对医疗抱有热忱的团队。

张鹏:当初的快速扩张,在多大程度上是被客观的产业节奏裹挟?又在多大程度上,是因为自己主观上没控制好节奏?

王小川: 我认为是「三七开」——三分客观,七分主观。

客观上,在当时那个狂热的时间点,想要完全抵抗住浪潮的推力,确实很难。但更深层的原因,在于我自己。我确实为了迎合媒体、迎合团队、迎合外界的期待,做了很多「多余的动作」。

比如,我对金融这类能快速变现的方向,内心并无真正的热情。但当时有团队想做,有股东感兴趣,我就「从」了。现在回看,这本质上是自己当时的「心力」还不够强大。而摊子铺得越大,心力被稀释得就越厉害。

张鹏:现在想想的话,当时有办法更好的避免这种问题吗?

王小川:我还真反思过,而且可能解法还真没那么复杂。比如当时如果我能坚持面试每一位新同事,情况会好很多。因为这个过程中就一定会让自己「慢下来」、想清楚。创业者一旦只判断和选择目标,而不充分参与过程之痛苦,很多判断就会出问题。

我看其实大家的节奏调整都差不多,我相信行业会回归理性,大家也终将更专注于自己真正想做的事。

对我而言,这次调整最大的收获,是未来变得前所未有的清晰。因为我终于明白,真正的斗争,从来不是与环境的斗争,而是与自己内心的斗争。

 张鹏 :前段时间因为这些调整负面报道满天飞的时候,是不是有好多朋友给你打电话慰问? 

王小川 :慰问是有的。但大家似乎都有些小心翼翼,大都不敢打电话,反正就是各种谨慎小心的关心我,说的问的都挺含蓄。 

张鹏: 你觉得大家为什么要来小心翼翼的「慰问」?或者说他们为你担忧的是什么? 

王小川:估计是觉得我压力大。之前,无论对我,还是对百川,外界都抱有某种期待。当百川的发展轨迹,没有完全符合大家想象中那种高歌猛进的剧本时,可能一种低于预期的感受便产生了。我内心很清楚,媒体曾经给予了多少赞誉,当现实与预期出现偏差时,外界就会感受到同等程度的「失望」。

张鹏: 所有的媒体赞扬,本质上都是一种「预支的借款」

王小川:特别对。要么是消耗过往积攒的信誉,要么是透支未来的承诺,但终究是要「偿还」的。所以,外界的情绪,本质上是与你的发展速度和最终成绩紧密挂钩的。 张鹏:在那段时间里,你本人真实的状态是怎样的?

王小川: 说实话,我确实没有焦虑。我非常感谢大家的关心。很多人曾将自己对技术的理想,部分投射在了我们身上。所以当百川的路径看似「偏离」时,那种失落感是真实存在的。

而我之所以不焦虑,是因为我看到了大家没看到的东西。

大家期待的百川,和我内心真正想构建的百川,其实存在一个错位。早在2021年,甚至在创立百川的公开信里,我就明确提出,我未来二十年的热情在于生命科学和大众健康。ChatGPT的出现,只是让实现这一目标的路径变得更加清晰和可行。

但在2023年那个时间点,整个市场都沉浸在一种狂热里。无论是投资人、媒体,还是团队成员,他们都带着美国最前沿的模式作为对标,希望你做的跟美国一样,因为那是被验证过的、成功率最高的路径。

在那种氛围下,你去谈医疗,是很难被听进去的。所以,我们当时在某种程度上「迎合」了市场的期待,沿着大家都能看懂的「共识」路径在走。

但当我们的探索开始深入,逐渐回归到医疗的时候,之前那些因大模型、AGI加入的人,都会产生一种跟期待不一致的地方。

而百川在过去一年里完成的最重要的一件事,就是经历调整,真正回归到了我们自己对于未来的「意义感」和核心驱动力上。

张鹏:你真实第一人称视角的投身大模型领域的起心动念是什么?我很好奇在过去的几年间,为什么没有去调整大家对你们的认知错位

王小川: 当我决定下场时,是因为我真切地感受到了「模型」的力量。2023年初,我第一次深度使用ChatGPT时,内心有两种强烈的冲击。

第一种,震撼。因为我之前专注于医疗领域,对最前沿的技术进展没有那么紧密地追踪。一上手,我心里就咯噔一下,意识到:天变了。我过往做输入法、做搜索,每天都在和语言AI打交道,所以我能清晰地判断,眼前的这个东西,和过去完全不是一个物种。

第二种,随之而来的是一种失落感。我曾经也算是AI圈的中心人物,但那一刻,我发现自己想做的医疗事业,似乎与AI的主旋律,变成了两条平行线。

后来,我很快就想明白一个事:今天的大模型,能不能被用来「造医生」?

这个想法,让我内心的两条逻辑线索瞬间串联了起来:

第一条逻辑:语言是智力的中轴。掌握了语言,就掌握了构建智能、乃至「造人」的关键。 第二条逻辑:医生是医疗的中轴。构建了「AI医生」,就能掌握用户、药厂和科研的枢纽。

所以,技术上,我们在「造人」;应用上,我们则是在「造医生」。因此,我们从基础模型做起,因为你不可能依赖一个不开源的外部模型,去构建你的核心壁垒。

我的计划始终是,超级模型里要走到AGI,超级应用则要去「造医生」。但问题是,当时你向外界讲述这个「超级应用」时,大家听不进去,他们只能听懂,或者说更愿意听「超级模型」的故事。

到了2024年,我们意识到,以百川的资源和国内的整体环境,你不可能同时在两条战线上无限拉长。从基础模型到最终构建一个成熟的「AI医生」,这条路过于漫长,你不可能把所有事情都自己做完。

这就好比2016年AlphaGo出现时,我看得非常清楚,但这不代表我当时就有能力亲自下场把它做出来。基于对能力和资源的判断,我们决定,必须「聚焦」在医疗上。

张鹏: 但这时候这种错位就开始剧烈的释放应力了?

王小川: 对。在我看来,这是战略上的「聚焦」;但在行业眼中,这变成了「放弃模型」、「管不住团队了」……各种各样的解释都冒了出来,因为这不符合他们最初为你设定的那个「预期」。

张鹏: 所以你是如何消化这件事的?好奇为什么当时没有出来说说话而一直保持沉默?是不想说?还是没的说?

王小川: 肯定不是没的说,我有很多要说的,但说的对象可能不是行业和公众吧。因为你首先要从内心接受一个前提:大家在不同视角下看到不同的东西,是正常的。

一旦你接受了这一点,就不会再有情绪上的内耗。我不是去说服每一个人,而是清晰地表达,然后找到那些真正听懂了,或者愿意花时间去听懂的人,与他们并肩工作,这就足够了。

我既不会因为外界的不理解而愤怒,也不会因此而动摇。我的价值,恰恰在于我可能比大家多看到了一些未来的可能性。同时,我的责任,是要去沟通和花时间「对齐」那些同样怀有医疗梦想、并选择留下来的人,为他们创造一个最好的工作环境。当你内心真正笃定你想要什么时,这本身就是对自我的尊重,也是对团队的尊重。

张鹏:所以这两年,你最大的收获是什么?

王小川: 我的第一个,也是最感幸运的一点是:我之前想做医疗的梦想,与大模型的技术突破,真正相遇了。

这就像我过去做互联网的20年,本质上是拥抱了一个巨大的时代浪潮。没有时代,个体的努力会缓慢而曲折得多。而AI的到来,让「造医生」这件事,突然有了清晰可行的路径。

我们已然上桌,技术让梦想有了「解」,身在牌局之中。我觉得是很幸运的一件事情。

第二个巨大的收获,是我个人心境的成长吧。

早年做搜狗的时候,追求极致,无法容忍任何与我认知不符的东西,常常会因此陷入「为什么会这样」的执念,对内、对外都产生了很多不必要的攻击和消耗。

而现在,我可以说,我达到了十年来心境最好的状态——一种发自内心的平和。

当然,遇到做得不好的地方,我依然会直接指出,但不再是老板对员工的指令,而是一种共创的状态。我希望大家能真正地从内心走到一起,共同去成就一件事,这本身就是一次巨大的提升。

过去,面对这种局面,我的反应是愤怒——「为什么事情会走向失控?」,进而产生对抗情绪;或者,是逃避——假装看不见,期待它能自己变好。

而现在,我的选择是:面对问题,解决问题。

张鹏:我记得你之前提到,你不喜欢学霸的标签,是因为学霸本质上是要把别人的题都回答得很好,其实你想解自己的题。所以百川这次算是终于大声喊出自己的议题了呗?

王小川: 没错。创业过程中,一旦有了投资人,一旦置身于某种行业共识之中,你很容易就又回到了一个「公共题库」里。对我而言,那意味着重蹈覆辙,回到过去那种状态,而那并非我真正热爱的事情。

比如,「对标OpenAI」,这就是一个摆在所有人面前的「公开考题」。我们也很习惯性地去「应试」,去解答这道题。

直到今年4月,当我明确提出「为人类造医生,为生命建模型」的时候——这才是我们为自己出的题目。

 张鹏:2023年,国内大模型赛道的玩家,拿到了大额融资。但今天,融资环境会如何影响这些公司?

王小川: 2023年,资本确实给了一波相当可观的支持。这其中不仅有美元基金,也有来自阿里、腾讯这类产业资本(CVC)的加持。到了2025年,我认为资本环境的不确定性会显著增加,获取支持的难度会大得多。

相比之下,美国的资本支持力度依然非常大,这就形成了一种「比较优势」。在这种优势下,差距可能会被进一步放大。因此,必须要思考:当中国的资本支持不再充裕时,该如何走下去?

 张鹏:「造医生」是一件复杂且需要长期投入的事。你账上的资金能为百川智能提供多长的「安全区」?

王小川:我们现在的安全期,长到即便公司完全没有收入,也可以支撑120个月。所以现在要思考的不是安全问题,而是如何有效的把人和钱变成进步和结果的效率问题。

 所以你就理解我们近期的调整,确实不是基于压力而做出的被动选择。这是一次发自内心的主动决策,我觉得主动选择砍掉那些我们不想再做的事情,就是一次比再融一大笔钱更有成果的进展。

03 为什么「造医生」比追求智能高度,要复杂得多?

张鹏: 百川近期发布的Baichuan-M2模型,表现如何?

王小川:可以说,Baichuan-M2是目前全球最顶尖的医疗开源模型,性能甚至超越了OpenAI新近发布的两个开源模型。在闭源领域,它的能力也仅次于GPT-5。

OpenAI近来在医疗领域的投入有目共睹。他们新发布的120B和20B两款开源模型,已经显示了深厚的基础设施与工程实力。

在其GPT-5报告中,医疗也是重要部分。OpenAI强调自己的模型是全球唯一在Health-Bench(Hard模式)评测集上得分超过32分的,而Baichuan-M2的分数是34分。同时,在Heath-Bench(标准版)评测中,目前全球也仅有我们的模型与GPT-5突破了60分大关。可以说,在医疗AI这一垂直领域,我们已达到世界级水平。

我们原计划在8月下旬,与技术报告一同发布。但OpenAI此次不仅是近三年来首次重返开源,而且将焦点对准了医疗。我们内部研判,这是一个关键节点,是时候拿出我们的成果,与世界顶尖水平进行一次正面的较量。

在中美科技竞争的宏观背景下,我们必须承认差距客观存在。因此在医疗这一关键领域,我们选择开源Baichuan-M2,不仅是为了让外界对百川的实力有更透明、更深入的认知,更是希望为中国整体的AI创新生态提供一份力量。

此前的M1模型,我们虽已在医疗领域有所布局,但尚未完全聚焦。因此,M2的发布意义非凡——它标志着百川的战略重心,从「全线出击」转向「聚焦医疗」后的第一次亮相。

张鹏:在这个时间点发布M2模型,本质上是让大家重新认识百川。你会如何定义百川真正要做的事,以及你们在技术路线上的成长目标?

王小川: 我们要在模型层面,做到医疗突出,同时通用能力保持在第一梯队。

这其实是我们一直以来的一个念想,但在过去,坦白说,「医疗突出」这一点我们是没能完全做到的。而今天,我们开始真正地做到了。

这相当于我们「换了个身位」。过去,我们和大家在同一个战壕里,在各种通用大模型的榜单(比如MAU)里打滚,试图在混战中找到自己的定位。而现在,M2的发布,是我们找到自己新定位之后的第一次正式亮相。

接下来,在今年内,我们会陆续发布面向医生和普通用户的产品。

所以,我们规划了清晰的三条产品线:基础模型、医生端产品、大众端产品。今天的M2,只是我们宏大计划中的一个起点。

张鹏: 今天我们看到,像GPT-5这样的通用模型,延伸到医疗时表现得很强大。而百川选择聚焦于医疗,做出了一个开源的、在性能上「接近」它的专业模型。这个时候,专用模型的独特价值是什么呢?

王小川: 我们的目标,并不仅仅是「接近」,而是要在医疗这个垂直领域,最终超越通用模型的能力。

毕竟医疗不像数学或物理,仅仅依赖逻辑和公式。医疗知识体系中,既包含严谨的逻辑推理,也融合了大量独有的医学认知,甚至深受政策、法规和临床指南的影响。

当然,现阶段去和大家反复争论我们「如何」做到这一点,大家也听不进去的。只有当我们做到,并且是持续地做到,大家才会回过头来,重新审视并认同我们当初的想法。

这让我想起了当年深度学习领域两条著名的技术路线之争:Bert和GPT。当时,Google凭借其巨大的品牌影响力和行业地位,力推Bert路线,整个学术界和产业界几乎都闻风而动。大家为什么相信Bert?答案很简单——「因为它是Google」。直到OpenAI的GPT-3足够好后,大家才猛然回头,重新认识并相信GPT路线的巨大潜力。

张鹏:能否帮我们理解一下,以「造医生」为目标,为什么比单纯追求「智能高度」,要复杂得多?

王小川: 今天的模型,普遍缺乏「提问」的能力。 它们的核心是「解题思路」——你提出问题,它给出答案。这或许并非模型发展的核心方向。

其次,像「减少幻觉」是所有大模型共同的课题,但在医疗领域更严肃,因为它直接关乎生命健康。我们追求的是「循证医学」,模型必须能精准、可靠地调用外部知识库来支持它的每一个判断。

而这些需求,既不完全在当前通用大模型厂商主攻的技术路线图上,也无法用现有的技术范式完美解决。这就是我们的机会所在。

更进一步,当模型要真正落地为产品时,你还必须解决一系列应用层的问题:如何符合当地的政策法规?如何融入人文关怀?如何通过Agent架构将其能力进一步提升?

这是一个全链路的工程。我们不仅要在底层模型上做得比通用模型更好用,还要在上面叠加厚重的应用层开发,才能最终交付一个真正「可用」的产品。而这些,恰恰是通用模型公司缺少的。

 张鹏:在你看来,要「造医生」,还有哪几个最关键、最核心的问题,是目前行业没有解决,百川正在做的?

王小川: 首先,就是我们刚才提到的「提问」与「幻觉」,我们正在做,这是一部分。另外,

一个「好医生」,远不止于此。它要有记忆力,能记住你的病史。同时,医生不仅要与患者沟通,更要懂得如何与患者家属沟通,理解并处理这些复杂的人际关系。这些是通用模型在设计时根本不会去深入思考的问题。

所以,我们的路径是:在底层,死磕「提问」与「循证」;在应用层,则要赋予模型更好的记忆和对关系的理解。

张鹏: 你其实是在智能的高度之上,叠加了多个严苛的约束和目标?

王小川: 对。甚至我们还可以继续向下延伸,比如在慢病管理和长期健康追踪等场景中,都存在着大量的技术问题和用户需求洞察需要去解决。

04 AI家庭医生,将比无人驾驶更早到来

张鹏:从你的视角看,从技术基本就绪,到我们每个人都能拥有一个AI驱动的私人家庭医生,这条时间线你会如何预期? 王小川: 我认为,它会比无人驾驶更早到来。

张鹏: 这个判断很有意思。为什么?

王小川: 我们明年(2026年)会推出大的版本迭代,它的技术成熟已经肉眼可见。

将造医生与无人驾驶对比,有很多相似性。因为大众普遍认为,他们都与生命安全直接相关的,都很棘手。

但相比无人驾驶,造医生更容易落地,第一个是因为无人驾驶并非绝对刚需,没有AI司机,你依然可以自己开车。但医疗不同,没有医生,你自己无法给自己看病。

第二个是,无人驾驶的「人机协同」问题。我们知道,测试无人驾驶汽车的安全员,需要时刻保持精力高度紧张,随时准备接管,其劳动强度远超普通司机。因为一旦系统失灵,留给人的反应时间可能只有短短两秒。

但AI医生和人类医生可以形成非常高效、安全的分工协作。 AI给出的诊断报告或治疗方案,可以由人类医生进行最终审核。更重要的是,在广阔的院外场景,AI医生完全可以独立工作,因为它不直接涉及开具处方。

这里,我们内部有一个洞察:能够改变用户行为,就是在创造价值。 价值不一定只体现在「诊断」和「开药」。

比如,当好几位医生给了你不同的建议时,你该听谁的?当你家人生病时,你是否应该立刻送往医院?这些大量的、关键的决策,本身就蕴含着巨大的医疗价值。在这些场景中,AI医生可以独立发挥作用,甚至无需人类医生配合。

张鹏:我们此前曾用自动驾驶的L1到L5等级,来类比「造医生」的过程。今天,你对这个分层有新的迭代与思考吗?

王小川:今天我确实有了一些新的思考。过去我们套用自动驾驶的逻辑:L1仍需人工主导;L2能在单任务上独立工作;L3转为机器主导、人类辅助,并处理多任务(如同时开具处方和撰写病历);L4则基本实现全程自动化,人类仅作为监督。

这个分层逻辑,本质上仍是从单一维度,即机器自身的能力来划分的。

但我今天认为,医疗的演进需要引入额外的维度,比如场景,院内还是院外?「院外」场景,就像是「低速无人驾驶」。这个市场空间广阔,需求虽不像院内那样要求「一锤定音」式的高精尖,但其辅助价值巨大。

第二个新维度,是「关系」。医疗决策不仅是面向患者,更需要与家属沟通,这其中蕴含着深厚的人文关怀。我们常说一个词叫「嘴替」。比如,子女直接劝说父母关注健康问题,他们可能不听;但换成医生的身份,他们听从的意愿会显著提高。

张鹏:最近,大厂们纷纷开始布局AI医疗。你觉得百川智能又进入他们的射程之内了吗?

王小川: 我们做的是完全不一样的事。第一个,我们的目标是「造医生」,而不是一个简单的「健康顾问」。

其次,把产品形态做成一个小程序或一个APP,不是医生应该有的形态。医生,就应该有医生的形态。当你把它做成一个APP时,用户潜意识里就已经不把它当「人」看了。 这里边一个是关系,一个是使用习惯得一致。今天,行业里绝大多数公司在做AI医生时,其核心诉求依然是「降本增效」。他们把AI当成一个提升效率的工具,嵌入在原有的APP逻辑里,追求的还是日活跃用户(DAU)之类的指标。他们没有把AI当成一个「人」来看待。

张鹏: 你提到,明年我们或许就能亲身体验到「百川造医生」的进展。能否提前描绘一下,我们应该抱一个怎样的「正确预期」?

王小川: 我相信大家都能想象拥有一个私人医疗顾问的场景,这似乎是行业的共识。但届时你会发现,百川的思路与市面上其他做AI医生的公司,截然不同。

但我最近还是进步了一点,觉得预期管理这件事最简单的方法就是做到再说,所以我现在就先不讲太多了。

张鹏: 我猜想,你的最终目标是让服务直达用户和家庭,而非仅仅嵌入医院的某个流程体系?

王小川: 是的。我们的第一步是先进入医院体系,获得专业的认同与背书。到明年,我们就会将服务直接推向消费者(C端)。

 

苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互

2025年8月14日 12:52

从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。

从各路消息来看,Siri 的重生不是一次性的「大爆炸」,而是一个精心设计、持续好几年的分步计划。这既是因为技术太复杂,也是一种聪明的风险控制。

  • 第一步 (2025 年底/2026 年初 - iOS 18 的某个更新):
    初步的「Apple 智能」会上线。你会体验到更聪明的自然语言理解、初步的屏幕感知,还有和 ChatGPT 的集成。这可以看作是为后面的大招做个预热。
  • 第二步 (2026 年春季 - 可能是 iOS 19.4):
    这才是真正的大餐。代号「LLM Siri」的全新架构会正式推出,基于 App Intents 的深度应用控制功能也会全面开放。这标志着「Siri 2.0」的正式诞生,也是苹果兑现承诺的关键一步。
  • 第三步 (2027 年或更晚 - 可能是 iOS 20):
    这是拼图的最后一块。苹果的目标是到那时候,推出一个完全由自家模型驱动、真正主动、会深度对话的 Siri,能力上要能赶上甚至超过当时的 ChatGPT,再也不用依赖别人。

说起来,Siri 的故事本身就挺矛盾的。2011 年,它跟着 iPhone 4S 一起亮相,那叫一个惊艳,直接开启了手机语音助手的时代。那时候,我们第一次感觉到,原来跟机器聊天这么有未来感。

伴随过去十余年间 Siri 长期体验的不尽人意,再到 Apple 智能体验的翻车,Siri 甚至成了科技圈里一个怎么说都说不腻的段子。这个反差,就是整个故事最有意思的地方:那个曾经的王者,在今天这个 AI 满天飞的时代,还能不能找回场子,来一出王者归来?

 

Apple Intelligence 中文版|图片来源:极客公园

看样子,答案是能,而且苹果这次是下了血本了。Siri 即将迎来的这场「大手术」,可不是小修小补,而是要「革自己的命」。这背后是苹果在一个越来越卷的科技和政治环境里,下的一场豪赌,赌的就是 AI 时代的未来。他们的目标很明确:把 Siri 从一个只能听懂简单命令的工具,变成一个能贯穿苹果所有产品、真正有脑子、会聊天的核心。

苹果 CEO 蒂姆·库克前不久在一次内部大会上,话说得特别重:「这事儿苹果必须要做,也一定能做成,这简直就是为我们量身定做的机会。」这话里话外,都能听出苹果对过去十年策略失误的反思,以及对重回巅峰的渴望。

苹果给 Siri 画的这张大饼,说白了就是要让它彻底摘掉「人工智障」这顶帽子,来一次凤凰涅槃。核心玩法不是加几个新功能那么简单,而是要从根上改变技术,让 Siri 能听懂、甚至能动手操作你手机里所有的 App。

这次变革的关键技术,核心是一个叫「App Intents」的框架。有了它,Siri 的角色就全变了——从一个只会帮你「开门」(打开 App)的门童,升级成一个能进到屋里帮你「干活」(操作具体功能)的智能管家。

 

App Intents 本身并不是一个新概念,但有了 AI 需求让它重焕生机|图片来源:Apple

以前,你想搞点复杂操作,得自己去「快捷指令」里捣鼓半天,设置一套复杂的流程,那门槛高得能把绝大多数人挡在外面,纯粹是少数技术宅的玩具。

而苹果规划中的新 Siri,就是要拆掉这堵墙,把这种多步骤的复杂操作,用一种最自然、最简单的方式带给所有人,啥都不用你提前设置。

 

App Intents 旨在一站式打通底层接口|图片来源:Apple

理论说得再厉害,还得看实际用起来怎么样。从各路消息来看,新 Siri 的实际使用体验对标的其实已经是 AI Agent 的能力,靠着底层接口的打通,换来前台更流畅的跨应用 AI Agent 在手机上的无缝衔接使用。

你可以想象一下这个画面:你直接对手机说,「把我去年夏天在海边拍的合影找出来,颜色调亮点,然后用微信发给我妈」。换作以前的 Siri,这没四五个步骤根本搞不定。但在新 Siri 的帮助下,一句话就完事了。再比如,直接用嘴在朋友圈下面评论,在淘宝里加购物车,或者叫一辆滴滴,全程手都不用碰一下屏幕。

 

类似的场景苹果已经演示多次,但实际落地仍然少不了模型能力的支持|图片来源:Apple

虽然在实现效果上,今天的我们都已经对这种 AI Agent 能力不陌生,但与此前在智能手机上智能选择 OCR 识别屏幕内容的实现方式不同,新 Siri 的实现方式是从底层打通这些应用之间的接口。

这背后的「魔法」,其实是苹果给开发者的一套新工具。简单说,开发者可以把他们 App 里的各种功能,比如「调高亮度」、「加个滤镜」,或者内容,比如「照片」、「相册」,都「告诉」系统。开发者这边一弄好,Siri 那边就能像听懂人话一样,直接调动这些 App 的内部功能了。这等于说,苹果给整个 iOS 系统装上了一套「通用语」,让它的 AI 第一次能真正「看懂」每个 App 都会干些什么。

此外,Siri 还会有「屏幕感知」能力,也就是说,它能看懂你屏幕上正显示着什么。比如朋友用短信发你一个新地址,你只要说一句「把这地址加到他的联系人名片里」,Siri 立刻就懂,马上帮你办好。再加上更强的理解能力和能记住上下文的对话记忆,你就可以追着问问题,不用每次都把前因后果说一遍,人机对话会变得前所未有的丝滑。

为了让你看得更明白,我们来比一比新旧 Siri 的差别有多大。我们熟悉的那个老 Siri,技术上就是一堆设定好的指令,主要干的活儿就是设闹钟、查天气,或者帮你打开个 App。你问一句,它答一句,说完就忘。想跨 App 操作?也就消息、支付等少数几类 App 能沾点光,开发者能做的也很有限。

再看即将登场的新 Siri,那完全是两回事了。它的核心是语言模型以及那个革命性的 App Intents 框架。这让它的主要工作,变成了深入控制 App 里的具体功能,还能执行一连串的复杂任务。在聊天方面,它支持连续对话,能看懂屏幕内容,还能结合你的个人情况来理解你的意思。

 

新 Siri 旨在做端侧更懂你的 ChatGPT|图片来源:Apple

最关键的是,通过 App Intents 框架,它能支持各种第三方 App 的深度功能,给了开发者一个超级灵活的平台,想加什么功能都行。所以你看,Siri 这次升级不是简单的加法,而是彻彻底底的质变。苹果正在打造的,是一个能统一指挥它庞大 App 帝国的智能大脑。它的革命性在于,为整个生态系统建了一个通用的「能力层」。这不光让 Siri 自己变强了,也为苹果未来所有的 AI 功能铺好了一条路,一条任何对手都很难抄作业的路。

从这个角度来讲,除了,也无怪乎 Mark Gurman 甚至直接在社交媒体上呼吁苹果为了更好的挽回用户口碑,应该先给这个「新 Siri」改个名字,彻底摆脱掉此前 Siri 在用户之间的「恶名」。

 

Mark Gurman 喊话苹果「改个名吧」|图片来源:X

01

平台潜力的「兑现」

 

在光鲜的发布会背后,苹果内部其实经历了一段充满挣扎、反复试错和巨大压力的「长征」。

苹果软件工程高级副总裁克雷格·费德里吉(Craig Federighi)在一次内部讲话里就很坦白地承认,团队一开始给 Siri 升级选的那条技术路,根本「达不到苹果要求的那种品质」。这个判断让他们做了一个很痛苦但又很果断的决定:放弃原来的方案,把 Siri「彻底推倒重来」。

这番话的潜台词是,苹果终于下决心要还清 Siri 过去十年欠下的巨额「技术债」了。Siri 最早的架构又老又僵硬,就是为简单的指令设计的,根本玩不转现在的大语言模型。推倒重来,意味着之前的投入都打了水漂,还得重新砸钱砸人,但要想建一个面向未来的 AI 基础,这笔学费又非交不可。

虽然苹果在 2024 年的开发者大会上就已经把这些新功能拿出来秀了一圈,但正式上线的时间却一拖再拖。按最新的说法,这些核心功能要等到 2026 年春天才能和大家见面,这意味着连 iPhone 17 都赶不上了。

 

iPhone 17 系列发布在即,新 Siri 显然是赶不上了|图片来源:MacRumors

等这么久,市场自然会有各种质疑的声音。有人拿它和苹果当年那个最后被砍掉的 AirPower 无线充电板相提并论,觉得「画饼谁不会,关键得拿得出来」。这种怀疑让苹果的信誉压力山大。所以,费德里吉才会说「最终交付的东西,会比我们最初想的要强大得多」。他这么说,一方面是解释为啥要等这么久,另一方面也是在给大家重新画一条更高的期待线,意思是「好饭不怕晚,我们必须要卧薪尝胆地等待」。

这种主动承认失败、公开讨论好几年的发布计划,在苹果身上其实不常见。但这恰恰是它在如今这个 AI 竞争白热化的时代,被逼出来的策略。在一个所有人都恨不得天天开发布会的时代,你长时间不吭声,大家就默认你掉队了。所以,主动出来引导舆论,把「跳票」包装成对「品质」的追求,就成了苹果唯一的选择

新 Siri 能不能成,最后还不完全是苹果自己说了算。它作为一个平台,到底能有多大本事,很大程度上要看第三方开发者们愿不愿意、能不能高质量地用好 App Intents 这个框架。一个功能再牛的 Siri,要是调动不了你手机里最常用的那些 App,那价值也得大打折扣。

所以,苹果正在和一大批战略伙伴搞高强度的内部测试,名单里几乎涵盖了互联网的半壁江山:如 Uber、YouTube、WhatsApp、Facebook 和亚马逊。他们测试的重点不光是功能能不能实现,更重要的是在各种极端情况下靠不靠谱。

据 Mark Gurman 报道,即使苹果内部的工程师都对新功能的可靠性保持怀疑态度,尤其是在牵扯到钱和健康这些高风险领域。万一一个指令搞错了,后果可能「又花钱又害人」。这也解释了为啥苹果打算「小心翼翼地」分阶段上线。刚开始的时候,像银行、医疗这类敏感 App 的功能可能会被限制,甚至不开放,直到苹果有百分百的把握保证它们绝对安全准确。

在今天的市场和技术环境下,Siri 的成功对苹果来说,已经不是「最好能成」,而是「必须得成」的一件大事

首先,这是苹果在全球 AI 军备竞赛里,必须要打赢的一场仗。新一代 Siri 就是苹果对 OpenAI 的 ChatGPT、谷歌的 Gemini 和 DeepSeek 这些对手的正面回应。苹果必须证明,在这场决定未来的比赛里,自己不但没掉队,还有能力制定下一阶段的规则。

 

本月发布的 Google Pixel 宣传预热视频直接嘲讽 Siri,表示「你可以在Pixel 上问更多问题」|图片来源:Google

从更深的层面看,这是在争夺未来互联网的入口。有消息说,苹果内部代号叫「答案、知识和信息」的秘密项目,其最终目的就是想搞自己的搜索引擎。

显然,一个真正智能、能深度理解你的 Siri,就是这个「苹果答案引擎」最完美的交互界面。

一旦这事儿干成了,谷歌每年付给苹果几十亿美元的默认搜索引擎费就可能打水漂,整个互联网的流量玩法都可能被彻底改变。

Siri 的复兴,更是苹果为「后 iPhone 时代」做的最重要的准备。一个强大的、以语音为核心的智能助手,是苹果传闻中很多未来新硬件(比如家庭智能显示屏、桌面机器人)能站住脚的绝对前提。这些新设备极度依赖一个能无缝、智能地控制海量应用和服务的 AI 大脑。没有一个脱胎换骨的 Siri,这些新产品就都是空想。

长远来看,这可能会彻底改变我们和电子设备的交互方式——从现在以触摸为主,慢慢变成一种更自然、更无感的语音优先体验。这会从根本上改变用户和苹果生态的互动方式,形成一种比现在更强大、更黏人的平台效应。

你可以把苹果的 AI 战略看成是一出「特洛伊木马」。当全世界都在看谁家的聊天机器人更会写诗画画时,苹果真正的目标是围绕 AI 驱动的「行动」来重新打造它的操作系统。它的核心竞争力,不在于 Siri 会不会说俏皮话,而在于它能不能比任何对手都更可靠、更深入地在海量 App 里帮你「办事」。和 ChatGPT 的合作,更像是一个聪明的战术掩护,暂时满足了大家对顶尖聊天功能的需求,也为苹果在幕后打磨自己的真正王牌——基于 App Intents 的生态控制权——争取了宝贵的时间。

苹果给 Siri 的重生画了张很美的蓝图,但通往未来的路肯定不好走。一个清晰的路线图和对风险的清醒认识,是判断这场变革最终是成是败的关键。

这个路线图很清楚地表明,苹果正在用一种很务实的方法来推进这场高风险的转型。它先拿出自己最有优势的东西(App 整合),同时聪明地利用合作伙伴(OpenAI)来补上自己暂时的短板(顶尖聊天能力),为自家模型的成熟争取了宝贵的两年时间。

 

ChatGPT 目前在 iPhone 上的状态:可用,但不好用|图片来源:极客公园

蒂姆·库克总说,苹果的目标从来不是「第一个」,而是「最好的」。Siri 的复兴,就是对这句话最严峻的考验。苹果的赌注是,通过一个深思熟虑的、以整合为核心的策略,实现后发制人。但这背后的执行风险非常大。

挑战是全方位的:技术上要做到绝对稳定流畅;生态上要让开发者们都愿意、并且高质量地参与进来;市场上则要赢得用户对于一个能深入你个人数据的 AI 的绝对信任。在这个过程中,任何一个环节出了大问题,比如一次大面积的服务瘫痪,或者一个闹得沸沸扬扬的隐私丑闻,都可能让苹果这么多年的努力白费。

02

新的护城河,还是遥不可及的梦?

 

最终,Siri 的未来正站在一个高风险、高回报的十字路口。

如果苹果成功了,那么由 App Intents 驱动的这个新 Siri,将成为苹果有史以来最坚固、最宽阔的护城河。

它会是一个深度整合、注重隐私、以行动为核心的智能层,贯穿你数字生活的每个角落。这种能力,任何对手在短期内都复制不了,它会重新定义苹果生态的核心价值,并让它的领导地位再延续十年。

但是,如果执行过程磕磕绊绊,开发者们不买账,或者最终的体验达不到用户对「苹果品质」的苛刻要求,那这将是一次载入史册的、无比公开的失败。它将彻底坐实那个流传已久的说法:在这场本世纪最重要的技术变革中,苹果已经失去了它的魔力。

未来两到三年,就是决定 Siri 乃至苹果命运的关键时期。全世界都会等着看,苹果是能搭起一座通往未来的坚实桥梁,还是最终发现,这只是一个遥不可及的梦。

AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道

2025年8月14日 08:10

指责苹果偏袒 ChatGPT 后,马斯克与 Altman 在网上互喷

8 月 13 日,伊隆・马斯克与 Sam Altman 又在网上起了冲突,前天,马斯克在自己的社交媒体平台 X 上向苹果发出了「立即采取法律行动」的威胁,指控苹果在 App Store 中存在垄断行为,偏袒 OpenAI 的 ChatGPT,而对 X 的 Grok 聊天机器人不公。

「苹果的行为使得除了 OpenAI 之外的任何人工智能公司都无法在 App Store 中登上榜首,这无疑是反垄断行为,xAI 将立即采取法律行动。」马斯克在 X 上写道,尽管他并未提供任何证据来支持自己的指控。

Sam Altman 迅速对马斯克的指责作出回应,他在周二晚上的 X 帖子中写道:「鉴于我听说伊隆为了操纵 X 来为自己和自己的公司谋利,损害竞争对手和他不喜欢的人,这种指控真是令人惊叹。」 Sam Altman 还引用了 2023 年技术新闻网站 Platformer 的一份报告,该报告描述了马斯克在收购 Twitter(现为 X)后,对平台进行了大规模的调整,并「创建了一个系统,让你首先看到他的所有推文」。

Sam Altman 表示,如果马斯克真的提起诉讼,他希望这能引发「反向调查」,他和其他许多人「都非常想知道到底发生了什么」。

这场争吵在周三早晨仍在继续。马斯克在 X 上指责 Sam Altman ,称「你这个骗子,你的胡说八道帖子的浏览量有 300 万次,比我的很多帖子浏览量都高,尽管我的粉丝数量是你的 50 倍。」Sam Altman 又回复道:「你能签署一份宣誓书,证明你从未要求 X 工程师修改算法进行任何损害竞争对手或帮助你自己公司的做法吗?如果能,我会道歉。」(来源:IT之家)

​微软挖角 Meta:强制匹配薪酬、高层快速拍板

8 月 13 日,微软公司正在争夺 Meta 的 AI 人才。根据内部人士提供的信息和《商业内幕》所查阅的内部文件,微软已整理了一份其最需要的 Meta 工程师和研究人员名单,并且正在启动一项新的流程,旨在让其招聘条件更具竞争力,其中包括强制要求公司匹配 Meta 为顶尖人才提供的薪酬。

微软最近发布了一份靓丽财报,推动其市值一度突破 4 万亿美元,这在很大程度上得益于市场对生成式 AI 的追捧。为了保持住这一良好发展态势,微软需要吸引顶尖的 AI 工程师和研究人员。尽管公司今年已裁员数千人,但其坚称员工总数将保持稳定,表明公司有大规模招聘计划。(来源:凤凰科技)

 

OpenAI 推出超值 ChatGPT Go 套餐:仅 399 卢比,约 33 元

8 月 13 日,OpenAI 正式推出了一款名为「ChatGPT Go」的新订阅套餐,其月费仅为 399 印度卢比(约合 32.7 元人民币)。但需要注意的是,这一超值套餐目前仅在特定地区推出,主要针对像印度这样的发展中国家用户。

这一新套餐的推出,意在满足更多用户对 AI 服务的需求。相比于之前的免费版本,ChatGPT Go 在多个方面进行了提升。用户将享受到更多的对话次数,能够上传文件,甚至享有更强大的图像生成能力。这意味着用户在与 AI 互动时,可以获得更丰富和多样化的体验。此外,Go 套餐还提供了一些高级功能,比如有限的深度研究能力、更长的记忆和上下文支持,以及扩展的高级数据分析功能。(来源:aibase)

 

腾讯 Q2 财报电话会:AI 投入加码,广告、云、C 端应用全面开花

8 月 13 日晚,腾讯交出了 2025 年二季度成绩单——营收 1845 亿元,同比 +15%,净利 556 亿元,同比 +17%。在财报电话会上,马化腾、刘炽平等高管多次提到 AI,这已成为腾讯战略的「底色」。

广告业务上,AI 精准投放让点击率显著提升,短视频广告加载率仍只有 3-6%,相比同行 13-16% 的水平,留有巨大提升空间。视频号和搜索流量持续增长,加上生成式 AI 制作广告与电商闭环的拉动,广告收入有望长期向上。

C 端应用方面,「元宝」成了腾讯 AI 的主力应用,已进入快速推广与产品打磨的双循环;微信搜索、腾讯会议、腾讯文档乃至游戏内的 AI 功能,也在潜移默化改变用户习惯。刘炽平强调,小模型+推理优化能有效控制成本,中国用户付费习惯不同,未来可能更多探索广告驱动的 AI 变现。

企业服务方面,GPU 租赁和 API 调用需求上升,带动云业务加速。过去几年云业务「减重」后,盈利基础更稳,不再过度依赖 GPU 供给,而是 CPU、存储、CDN 等多线增长。(来源:IT之家)

 

谷歌:AI 时代中国出海开发者成全球创新中坚

8 月 13 日,2025 年谷歌中国开发者大会在上海召开,谷歌大中华区及韩国总裁陈俊廷表示,中国出海开发者已成为全球创新舞台的重要力量,AI 正让复杂开发变得简单。Google Play 年度最佳榜单中,有 12 家中国团队的 13 款应用在全球获 14 项大奖。

大会上,多家中国团队展示了出海 AI 产品:如 2021 年成立的 PLAUD AI 主攻海外录音市场,结合大模型提升转录准确率,用户超百万;广州新纪源科技的 AI 心理陪伴应用「林间聊愈室」已在海外互动超 150 万次。谷歌亚太开发者生态负责人 Kizilbash 称,中国初创在 AI 创新速度和全球化思维上独具优势,看好教育、健康、环保三大赛道。

谷歌宣布启动「谷歌开发者计划」,为中国出海开发者提供个性化主页、技能认证和技术资源,并开启第四期「出海加速器」项目。案例显示,语言学习应用 TalkMe 加入加速器后收入增长三倍,图像编辑应用 AI Mirror 借助谷歌工具已在 140 国吸引 3000 万用户。(来源:澎湃新闻)

DeepSeek R2 有望 8 月下旬发布?内部人士:不属实

近日有市场传言称,国产大模型公司深度求索旗下 DeepSeek R2 有望在 8 月 15 日至 30 日期间发布。8 月 13 日,DeepSeek 内部人士表示,上述消息不属实。(来源:澎湃)

 

抖音测试「快递」服务,入口与支付、打车等生活功能并列

8 月 13 日,据 Tech 星球报道,抖音正在测试「我的快递」服务,该功能位于抖音 App 的钱包内,与抖音支付、打车等生活功能享有同一流量位。

报道称,「我的快递」服务当前支持查询极兔速递的快递,接下来将接入更多的快递公司。此外,「我的快递」服务也支持寄件服务,不过,仅支持极兔速递的寄件,报道称未来会接入更多的快递公司。

报道认为,推出「我的快递」服务后,用户可在抖音内直接完成「下单-支付-查物流-寄件 / 退换货」的全流程操作,无需切换平台,显著降低用户操作成本,可能进而提升对抖音电商的满意度和复购意愿。(来源:IT之家)

 

AI 独角兽总估值达 27000 亿美元,其中 100 家成立不到 2 年

8 月 13 日,据量子位报道,AI 独角兽数量已达 498 家,总估值高达 2.7 万亿美元,超过谷歌 2.44 万亿美元市值,其中 100 家成立不足两年。这波浪潮造就了数十位新晋亿万富翁,集中分布在旧金山湾区。

四大私营 AI 巨头已诞生十余位亿万富翁,总净资产约 380 亿美元。代表人物包括 Scale AI 联合创始人亚历山大·王(36 亿美元)、郭露西(10 亿美元+)、Anthropic CEO 达里奥·阿莫迪(12 亿美元+)、CoreWeave CEO 迈克尔·因特罗特(100 亿美元)、DeepSeek CEO 梁文锋、Figure AI 创始人布雷特·阿德科克、Perplexity CEO 阿拉温德·斯里尼瓦斯,以及 OpenAI 前高管伊利亚·苏茨凯夫和米拉·穆拉蒂等。

这些公司普遍保持私营,依赖风投、主权基金等融资,并频繁发生并购与股权转让。创始人更注重财富管理与二级市场操作,如股权抵押借款、投资同类科技公司等。

湾区成为财富集中地,亿万富翁数量已达 82 位,超纽约的 66 位。当地房价、租金与高端房产成交量均创新高。业内调侃:「财富流向了代码」,这波 AI 浪潮或将继续诞生更多全球与中国的科技新贵。(来源:量子位)

消息称苹果 AI 伴侣机器人 2027 年登场:7 英寸屏 + 拟人交互,打造「数字家人」

8 月 13 日,彭博社发布博文,报道称苹果公司计划于 2027 年发布一款配备 7 英寸显示屏的 AI 桌面机器人,有望彻底改变个人与 AI 的互动方式,并提升家庭机器人行业标准。

消息称该机器人拥有类似 iPad 的触控屏,并安装于可旋转、可延展的机械臂上,能够自动转向面向发言者,实现更具「人性化」的交互体验。苹果希望借此突破现有语音助手的局限,创造出更拟人化的 AI 伴侣。

该机器人在苹果内部被称为「皮克斯台灯」(Pixar Lamp),设计灵感来源于动画中的生动形象,其核心功能支持用户进行流畅的双向对话,可在日常场景下主动提供建议,例如在朋友讨论晚餐时,实时推荐附近餐厅或食谱。

此外,机器人还可辅助用户规划旅行、管理事务,类似于 OpenAI 等先进语音交互模式,苹果还在为该设备开发全新的 Siri,让其具备记忆用户信息和自然交流的能力。

苹果也在开发一款带轮式底盘与大型机械臂的移动机器人,目标应用场景为制造工厂与零售门店,执行搬运、陈列或巡检任务,这表明苹果正从消费级 AI 交互与工业级自动化两个维度布局机器人战略。(来源:IT之家)

 

Edge 浏览器大变身:曝微软正开发「代号 Olympia」重大 AI 改版,UI 更简洁更贴合 Win11 风格

8 月 13 日,Windows Central 报道称,微软正开发一项代号为「Olympia」的 Edge 浏览器 UI 重大更新。

据介绍,Olympia 将采用全新 UI,以简洁与实用为主,特点包括简化的地址栏与窗口框架、垂直标签页布局及右侧功能菜单,以及其他明显变化,视觉风格与 Windows 11 保持一致。

如图所示,新版 Edge 地址栏缩小并居中于顶部,将 Copilot 直接嵌入其中,并在搜索框中强化搜索、聊天与语音输入功能,麦克风图标常驻可随时使用。

此外,Edge 界面整体更为简洁,标签页被移至左上角下拉按钮控制的垂直列表,另有一种布局将横向标签页置于地址栏下方。窗口右侧保留了书签按钮和浏览历史、下载、设置等功能入口。

不过很显然,Olympia 功能并不完善,部分区域仍无法使用。有人认为,Olympia 可能是为 Edge 的 Copilot 模式打造的专属界面,以配合该模式未来在 AI 智能体能力上的扩展;也有可能是为 Edge 进行更大幅度的 UI 重构,以区别于其他浏览器。(来源:IT之家)

《王者荣耀》连续三年全球手游收入第一  

8 月 13 日,腾讯发布 2025 年二季度财报,财报显示,腾讯二季度本土市场游戏收入为 404 亿元,同比增长 17%;国际市场游戏收入为 188 亿元,同比增长 35%,连续四个季度刷新历史高点,增速创国际市场收入单独披露以来的季度新高。

其中《王者荣耀》的收入增长再次为腾讯游戏整体营收增长作出贡献,这也是《王者荣耀》第 35 次登上腾讯财报。据 AppMagic 的估算,《王者荣耀》连续三年全球手游收入第一。此外,《三角洲行动》于 7 月的平均 DAU(日活跃用户数)突破 2000 万,位居行业日活跃账户数前五位,流水前三。(来源:36Kr)

AI 和海外游戏发力,腾讯重回 7000 亿美金

2025年8月13日 23:44

 

头图来源:视觉中国

 

 

今年上半年,围绕AI的讨论,正在从「技术能做什么」转向「技术如何赚钱」。

当「模型参数」竞赛和「能力演示」热潮逐渐褪去,资本市场和企业自身都开始更严苛地审视AI投入的真实回报。

在这样的背景下,每一个巨头的财报,都成为观察其AI战略商业化成果的试金石。腾讯最新的这份财报,揭示出了一些其内部发生的结构性深刻变化。

8月13日,腾讯发布2025年第二季季度财报。二季度总营收达到1845亿元,同比增长15%;毛利润为 1050 亿元,同比增长 22%;非国际财务报告准则(Non-IFRS)下的经营利润为692.5亿元,同比增长了18% 。

在公布了超出市场预期的2025年第二季度业绩后,腾讯ADR大幅上涨近7%,创下逾四年新高,按最新股价计算,腾讯总市值重回 7000 亿美元。

AI,这个在过去更多以「研发投入」和「战略布局」形式出现在腾讯财报中的词汇,如今则与「业绩动能」、「利润增长」紧密绑定 。

从微信生态的广告推荐,到《王者荣耀》的AI陪练,再到腾讯云上为全球企业服务的智能体,可以看到,AI技术已经渗透到腾讯核心业务之中,并开始高效地创造价值。

董事会主席兼首席执行官马化腾在财报中的表述也印证了这一点:「二零二五年第二季,我们在AI领域持续投入并从中获益」 。

这标志着一个重要转折点的到来:腾讯的AI战略已经越过了「投入期」,正式进入了「效益加速兑现」的新阶段。

这一点不仅体现在广告业务连续11个季度的高速增长和创纪录的收入上 ,也体现在游戏业务借助AI实现平台化进化和国际市场收入创下历史新高上 ,以及企业服务因AI相关需求增加而增速加快上 。

与此同时,腾讯的另一大增长引擎——全球化,也在持续发力。国际市场游戏收入同比增长35%的速度 ,以及腾讯云在全球市场加速攻城略地 ,都表明「出海」不再是补充,而是腾讯未来增长故事中与AI并行的主线。

所以,腾讯是如何将AI从一个「技术变量」转变为「增长常量」,以及这家公司在全球化牌桌上,正在如何下出一步步决胜未来的棋?

 

一、AI引擎:从研发支出到商业利润的闭环

 

长期以来,外界观察腾讯的AI能力,多聚焦于其庞大的投入。而2025年第二季度的财报,则首次清晰地勾勒出一条从巨额投入到显著产出的完整商业闭环。

要理解AI为腾讯带来的效益,首先要看到其在投入端的决心。财报显示,腾讯在本季度持续加码AI战略投入。当季研发投入高达202.5亿元,同比增长了17% 。自2018年至今,腾讯的累计研发投入已经超过3795亿元。这笔巨额资金的核心投向,正是以腾讯混元大模型为代表的核心技术自研。

比研发费用增长更多的是资本开支。本季度,腾讯的资本开支达到了191.1亿元,同比增幅高达119% 。

资本开支的飙升通常与数据中心、服务器等底层基础设施的建设密切相关,这表明,腾讯正在为AI大模型的训练和推理,储备强大的算力资源。在高投入的背景下,公司依然实现了毛利22%和经营利润18%的双增长,这说明其AI投入与高质量增长之间形成了正向循环 。

这种不计短期成本的「重注」,是腾讯AI战略得以从技术突破走向商业成功的前提。它构建了强大的底层基础设施和模型能力,为上层应用提供了基石。

腾讯的AI故事,核心主角是其自研的「腾讯混元大模型」。财报多处详细描述了混元大模型家族的进化与突破,展现了技术能力的快速迭代。

首先是基础模型能力的增强。腾讯通过数据增强与合成技术,提升了训练数据的质量和多样性,并通过更有效的预训练和后训练扩展,持续提升混元大模型的基础能力。

混元四款开源的小尺寸模型|图片来源:混元

 

其模型矩阵不断丰富,不仅持续迭代升级旗舰模型TurboS、T1等,还推出了覆盖0.5B、1.8B、4B、7B等多种参数规格的开源小模型,这些模型可以在手机端运行,降低了AI技术的落地门槛 。

在多模态领域,特别是3D生成方面,腾讯混元取得了系列突破。报告期内,混元密集发布了混元3D v2.5版本、业界首个美术级3D生成大模型以及3D世界生成模型1.0。其能力得到了权威认可,在全球3D生成模型评测榜单上,腾讯混元3D模型因其领先的几何精度、纹理真实度和提示对齐能力而排名第一 。

技术突破的价值在于应用和生态。腾讯一方面通过开源共享技术红利,混元3D系列模型在社区的累计下载量已经超过230万,成为全球最受欢迎的3D开源模型之一。这吸引了越来越多的游戏开发者、3D打印企业和专业设计师采用混元3D模型来生成数字资产 。另一方面,腾讯通过腾讯云将模型能力快速产业化,AI设计智能体Lovart、全球领先的3D打印品牌拓竹科技MakerWorld及创想三维等,均已接入腾讯混元3D模型API 。

不过,对于C端AI变现的「中国式难题」,以及AI功能高昂的成本,管理层在业绩会上坦言,直接向C端用户收费的模式,很难像美国AI工具那样在中国普及 。

因此,腾讯的变现思路非常务实:探索广告变现:未来可能通过广告来支持AI功能的变现;内部成本「补贴」:AI本身已经助力广告、游戏等现有业务增长,可以理解为其他业务的增长为AI用量「补贴」了部分成本 ;精细化成本控制:在很多场景下,优先采用成本低很多的小模型,整体推理成本是可控的。

二、AI直接驱动核心业务的增长

如果说研发投入和技术突破是因,那么业务层面的增长就是果。这份财报清晰地展示了AI如何直接驱动核心业务的增长。

腾讯的营销服务(广告)业务在本季度表现尤为亮眼。收入达到357.6亿元,同比增长20%,不仅创下历史新高,更是连续第11个季度实现双位数增长。

财报将这一高速增长明确归因于「AI驱动的广告平台改进」以及微信交易生态的活跃 。

具体而言,腾讯通过升级广告基础模型,提升了各个流量平台上的广告效果。

这意味着AI不再只是一个辅助工具,而是整个广告技术栈的底层引擎。AI被深度应用于广告创作、投放、推荐及效果分析等全流程,其直接结果是提升了广告的点击率和转化率,从而为广告主带来了更高的投入回报(ROI),并最终推动了腾讯自身的平台营销服务收入。广告主对视频号、小程序以及微信搜一搜的强劲需求,正是这一价值创造循环的体现。

在金融科技及企业服务板块,本季度收入同比增长10%,达到555.4亿元,保持了稳健增长的态势。财报指出,企业服务收入的增速相较于近几个季度有所加快,其背后的一个关键驱动力,正是「企业客户对AI相关服务的需求增加」。

这表明,腾讯的AI能力正成功地转化为对企业客户有吸引力的商业解决方案。

从为开发者提供高效智能编程体验的AI编程工具CodeBuddy IDE,到能够让开发时长缩短超过10倍的全流程AI一体化开发工作台 ,再到覆盖企业服务、生活、办公等高频场景的10多个垂直领域Agent应用矩阵 ,腾讯正在将复杂的AI技术打包成「好用」的工具与服务,帮助企业降本增效。

在C端,AI的价值则体现在用户体验的提升和场景的拓展上。以腾讯元宝为代表的AI原生应用正在加速渗透。

元宝不仅升级了搜索、文档理解和图像处理等核心能力,还新增了视频号解读等特色功能,并深度融入微信、QQ、腾讯会议、腾讯文档等高频使用场景。

QQ浏览器 Agent|图片来源:QQ浏览器

 

此外,QQ浏览器凭借其行业第一的月活跃用户数(MAU),推出了行业首个高考Agent,为超过5000万用户提供了免费的高考服务。AI工作台腾讯ima则在知识库生态上快速发展,当季可分享私域内容环比增长超200%,公域内容总量超过2000万。

这些应用共同构成了微信AI功能矩阵,推动着「好用的AI」向更多圈层用户渗透。

总而言之,腾讯的AI战略已经形成了一个从「高投入研发」到「强技术模型」,再到「多场景应用」,最终实现「商业化回报」的完整飞轮。这个飞轮的转动,正在为腾讯这家巨头的持续增长,提供源源不断的新动能。

三、游戏双轮驱动:全球化浪潮与平台化进化

游戏业务作为腾讯传统的「现金牛」,在本季度展现出强劲的复苏和新的增长叙事。

财报显示,二季度网络游戏业务总收入达到592亿元。这一数字背后,是国际市场和本土市场「双轮驱动」的共同发力,以及AI技术对游戏产品形态的重塑。

二季度,国际市场游戏收入同比增长高达35%,达到188亿元,不仅连续四个季度刷新历史高点,其增速更是创下了自该部分收入被单独披露以来的季度新高。这一点证明,全球化已经成为腾讯游戏的「第二增长曲线」。

这一成绩的取得,得益于腾讯多年来通过战略投资和自主发行构建的全球化产品矩阵。财报明确提到了几个核心:

Supercell游戏复兴,旗下经典游戏《部落冲突:皇室战争》通过更频繁的内容更新、优化的奖励机制以及更多的玩家社区活动,成功拉动了日活跃用户数,并在今年6月创下了近7年来的收入新高。

根据Sensor Tower的数据,该游戏在上半年的全球日活跃用户规模已升至第三,成为Supercell目前DAU最高的产品。这显示了腾讯对成熟IP进行精细化长线运营的能力。

作为全球最受欢迎的战术竞技手游之一,《PUBG MOBILE》持续为腾讯贡献着稳健的收入。

《沙丘:觉醒》在steam的页面|图片来源:steam

 

《沙丘:觉醒》这款由腾讯于2020年全资收购的挪威工作室Funcom制作发行的生存类多人在线游戏(SOC),在今年6月10日上线后,不到两周全球销量就突破了100万份,成为Funcom有史以来销售速度最快的游戏。其在Steam平台的同时在线峰值超过18.9万。

腾讯在海外的强劲表现,也与中国游戏产业出海整体回暖的趋势相呼应。根据中国音数协游戏工委的报告,2025年上半年,中国自研游戏海外市场实际销售收入同比增长11.07%,达到了95.01亿美元,增速在时隔数年后重回10%以上。

腾讯作为行业的领头羊,也是这波出海浪潮中的推动者和受益者。

在本土市场,腾讯游戏收入同比增长17%,达到404亿元。增长的核心动力来自于其在射击品类上的优势,以及对《王者荣耀》、《和平精英》等旗舰级长青产品的「平台化」改造。

游戏工委的报告显示,射击类游戏在国内手游市场的收入占比正在提升,从2024年的13.89%上升至今年上半年的17.03%。腾讯凭借其产品矩阵抓住了这一增长态势。

《三角洲行动》这款新作在4月公布日活超1200万后,财报披露其在7月份已突破2000万日活跃用户规模,成功跻身国内DAU前五、流水前三的第一梯队 。随着8月19日登陆主机平台,其用户规模有望再创新高。

PC端游优势巩固,端游《无畏契约》保持稳健增长,其手游版《无畏契约:源能行动》预约量已超6000万,有望成为下一个爆款。而基于「暗区突围」IP开发的端游《暗区突围:无限》上线后表现出色,稳定在网吧热力榜前十,进一步扩大了腾讯在端游市场的领先优势。

旗舰产品的平台化进化,则是本季财报中一个极具前瞻性的战略信号。马化腾在发言中明确提出:「《王者荣耀》及《和平精英》等长青游戏向平台化进化并加大了AI的应用」 。这意味着腾讯正在将这些国民级游戏打造为承载更多元玩法和社交体验的平台。

作为上半年唯一一款收入破10亿美元的手游,并实现全球收入「三连冠」的绝对王者,《王者荣耀》也在积极拥抱AI。游戏内已推出独立的「指挥官模式」,为玩家提供智能战术指导;同时上线的AI语音助手「灵宝」,则实现了个性化的对局陪伴 。

这些AI应用正在推动《王者荣耀》成为一个以MOBA为底层,不断融入多元玩法的平台化游戏。

《和平精英》也融合了AI。 该游戏在今年2月就已接入Deepseek大模型,推出了AI助手和AI队友,为玩家提供游戏指导和对局陪伴,有效提升了用户参与度。

无论是出海业务的高歌猛进,还是本土业务的品类深耕与平台进化,腾讯游戏都展现了创新活力和战略远见。

AI应用和全球化视野,正在为腾讯这个游戏帝国注入新鲜血液。

四、To B棋局:智能化与全球化构筑的产业护城河

除了在游戏和广告业务上的进展,腾讯在企业服务(To B)领域的布局也显示出持续的进展。二季度,该业务板块收入达到555亿元,同比增长10%,其增长背后,「智能化」与「全球化」两大战略正为腾讯构筑坚实的产业互联网护城河。

不过,企业服务收入增速加快,并非仅仅依赖GPU租赁的短期需求。管理层在电话会上透露,过去两到三年,腾讯有针对性地优化了云业务,削减了低毛利和低附加值的活动。现在,云业务已经运营在一个「更可持续的基础上」,因此能将重心重新放在更快的营收增长上。

而如前所述,企业服务收入的加速增长,很大程度上得益于客户对AI相关服务需求的增加。腾讯正在系统性地将自身强大的AI能力,转化为一系列「好用」的、可被产业客户快速集成的工具、平台与服务。

要推动AI在产业落地,必须首先赋能开发者。为此,腾讯云推出并升级了一系列AI原生工具。

包括智能体开发平台与腾讯元器: 这两大平台得到全面升级,基于更全面的Multi-Agent(多智能体)、RAG(检索增强生成)和Workflow(工作流)等能力,为企业和开发者提供更精准、灵活的对话服务,并降低复杂应用场景的配置门槛 。

Codebuddy IDE 产品界面 丨来自:极客公园

 

CodeBuddy IDE是腾讯在二季度发布的重磅产品,是首个实现「产品-设计-研发-部署」全流程AI一体化的开发工作台。

在电商活动页开发这类典型场景中,使用CodeBuddy IDE可以将开发时长从传统的2天缩短到不足2小时,效率提升超过10倍。这对于追求敏捷开发和降本增效的企业而言,具有巨大的吸引力。

除了赋能开发者,腾讯还直接下场,利用自身技术打造覆盖核心高频场景的垂直领域Agent应用矩阵。这批应用超过10款,覆盖企业服务(如企点营销云Agent)、生活(如健康管理Agent)、办公(如语音智能体TWeTalkAgent)等三大领域。

这标志着腾讯的AI To B战略,正从提供底层能力向提供完整解决方案迈进。

本季度企业服务增长的另一大动力,源自全球市场的深入拓展。腾讯云的国际化进程正在显著加速,其角色也从最初服务中国企业出海的「摆渡人」,演变为服务全球本土客户的「数字化伙伴」。

财报和相关资料中列出了一长串国际客户名单,这本身就是腾讯云全球服务能力的证明。截至目前,腾讯云已累计服务超过10000家海外客户,覆盖超过80个国家和地区。

腾讯云帮助印尼科技巨头GoTo集团旗下的Gojek,仅用时4小时54分钟,就成功将涉及打车、外卖、快递等复杂业务的上千个微服务系统整体平稳切换至腾讯云。

这被认为是东南亚规模最大的云迁移项目之一,不仅实现了高可用和高弹性,还帮助Gojek降低了运维成本、提升了响应速度。

泰国正大集团旗下的零售公司CP AXTRA、阿联酋电信集团e&UAE、跨国电信运营商Orange Middle East & Africa、日本餐饮平台Tabelog、亚洲第一大公关公司Offshore等,都选择了腾讯云的解决方案与产品。

为了支撑快速增长的全球业务,腾讯宣布将继续加大全球化发展投入。其中包括投入1.5亿美元在沙特阿拉伯建设首个中东数据中心,以及在日本大阪新建该国的第三个数据中心并设立新办公室。这些投资清晰地表明,腾讯致力于构建一张覆盖全球主要经济区的云服务网络。

在服务国际客户的同时,腾讯云也在持续帮助众多中国企业加速出海进程。

2025年7月,美的将其欧洲IT业务搬迁至腾讯云,在优化成本的同时,也大幅提升了业务系统的稳定性和扩展能力,为其欧洲市场发展打下了坚实基础。

无论是智能化还是全球化,其背后都离不开持之以恒的技术研发和知识产权积累。二季度腾讯研发投入202.5亿元,同比增长17% 。公开数据显示,截至2025年6月底,腾讯在全球主要国家和地区的累计专利申请已超过8.8万件,授权数量超4.8万件。

这些专利代表了核心技术领域的自研能力与创新价值。例如,腾讯云数据库TDSQL的核心技术荣获了中国专利金奖。在权威研究机构Gartner®的报告中,腾讯云CPaaS(通信即服务)的视频能力位列全球第一,并连续三年被评为市场「挑战者」。

整体来看,腾讯2025年第二季度的财报,描绘了一幅由AI和全球化双引擎驱动的全新增长蓝图。

AI不再只是成本中心,而是利润中心;全球化也不再是边缘业务,而是核心阵地。

从马化腾「为用户及企业带来更进一步的AI增益」的表态中 ,我们可以看到,腾讯正致力于将过去二十多年积累的数据、场景、技术和用户连接能力,通过AI这个「放大器」进行重构和增值。

一个更智能、更全球化的腾讯,正在浮现。对于市场而言,这或许是一个需要重新审视和评估腾讯长期价值的开始。

 

AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」

2025年8月13日 14:10

最近 AI 界的大新闻是 GPT-5 和谷歌的世界模型 Genie 3。然而,在无人在意的角落里,微软悄悄把 Edge 进化成了了 AI 浏览器。

上一次听到 Edge 的消息还是 IE 正式关停的时候,Edge 作为 IE 的继任者难免会被拿出来讨论,通常没有什么好话。

再上一次是 Edge 加入 sidebar 功能的时候,罕见地抢了一批 Chrome 的用户。

时至今日,Edge 的风评似乎没有比曾经的 IE 好到哪里去。

都 2025 年了,居然还有浏览器的首页充斥着闪烁的 MSN 资讯、天气卡片、股市小窗口,以及永远关不掉的「热门故事」。与此同时,微软不断地在给 Edge 加入「无用的新功能」,让系统变得越来越臃肿。

MSN,原来你没死透|图片来源:Edge 浏览器截图

但如果你愿意再给 Edge 一次机会的话,一键开启 Copilot 模式,Edge 就变成了神似 Dia 的样子:

干净得不像微软出品

这个首页就正常多了|图片来源:Edge 浏览器截图


栏目作者召集

极客公园的新栏目「AI 上新」,将带大家体验最新的 AI 应用和硬件,让你成为 AI 时代「最靓的仔」!

现在,我们也向所有喜欢尝鲜和体验 AI 的同学发出召集,只要你发现并体验了新的 AI 应用或者功能,按照格式(参考案例: AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI 应用的订阅费用。

同时,优秀作者还有机会进入极客公园 AI 体验群 ,获得最新 AI 应用和工具的内测资格,参加极客公园专属相关 AI 活动,和 AI 应用创始人一对一沟通。

AGI 太久,只争朝夕,让一部分人先 AI 起来吧!投稿、进群请扫描下方二维码添加极客小助手微信


01

微软,再造一遍浏览器

要让 Edge 变成 AI 浏览器,除了要更新到最新版本之外,还需要掌握一些小小的「魔法」。然后在设置的「AI 创新」一栏,就可以开启 Copilot 模式。

Copilot 模式的形态介于谷歌在 Chrome 有限 Gemini 集成,和 Manus 这样完全的 AI 浏览器之间。

在 Copilot 模式下,首页就变成了一个对话框,你可以直接用搜索引擎搜索、询问 Copilot 或者让它深度思考。这一点和其他主流的 AI 浏览器差别不大。

Copilot 的第二个入口在地址栏左侧,一颗小药丸形状的图标,单击就可以呼出,或者让它固定在右侧。

Copilot 的第二个入口在地址栏左侧|图片来源:Edge 浏览器截图

官方说它可以「感知所有标签页」。于是我打开了一篇论文、一份财报,以及一个亚马逊相机的搜索页面。随后我告诉 Copilot:「帮我总结特斯拉的财报,还有这篇论文的大纲,以及我想选购一款性价比高的相机。」

一分钟后,Copilot 分别概括了财报和论文,附上了各个价位的最佳相机,并暗示了我给出的需求并不精准

这一瞬间,我确实有一种错觉,有另外一颗大脑正在替我工作。

Copilot 同时分析财报和论文,并给出选购建议|图片来源:Edge 浏览器截图

这种总结能力也能迁移到视频上。当你在 Edge 中打开 YouTube 视频时,只要呼出 Copilot 并指示「总结视频」,它就会给出总结。

美中不足的是,Copilot 的这种感知并非全自动的,需要你手动 @ 标签栏,它才能替你工作

不过,最能让我产生「幻觉」,是 Copilot Vision。这是一个交互方式上非常新鲜的功能,Copilot 可以直接看到你的屏幕,并以此为基础和你用语音交互,就像你和朋友共享屏幕一样。

Vision 读取屏幕,并给出建议|图片来源:Edge 浏览器截图

例如在一个典型的购物场景,Copilot Vission 就可以直接看到屏幕上的备选产品,并给出选购建议。打开 Copilot Vission,一个带着浓郁广普口音的中年女声就会很热情地和你打招呼:「嗨~我可以看到你屏幕啦!」,很像在 Panda Express 或者 Jade Dragon Restaurant 碰到的那种广东阿姨。

不得不说,现在的 AI 语音已经做得非常自然,已经不太分辨得出 AI 味。碰到 AI 验证的时候,它还会主动安慰你:

「是不是挺烦人的」。

这我还是第一次在 AI 身上感受到了人味,语音交互带来的情感浓度的确要比文字强很多

但是就功能性来说,Vission 还算不上实用。一方面是它的图像识别速度跟不上我的浏览速度。另一方面,它在图像和语音识别的准确率上也有待提升。例如它会把「IPX6」识别成「IPX4」,我用语音纠正了它,它马上道歉,但是听成了「IPX7」。

目前的 Vision 有一点像家里的女性长辈,不懂科技,聊天信息密度不高,但是非常包容,情绪价值拉满

以上就是 Edge 最主要的功能了。还有一些功能微软表示正在开发中,例如 Agent 能力、智能标签分组或者是动态的 AI 助手。

实际上,很多功能微软已经开发完毕、处于测试阶段了,出于大公司的保守,它没有集成到 Edge 中。但是没有关系,进入单独 Copilot 主页,打开「实验室」,你可以看到,微软确实在开发一些好玩的东西。

Copilot 实验室|图片来源:Edge 浏览器截图

  • Copilot 3D,可以一键将图像转换为 3D 模型。上传自己的照片,你就可以轻松得到一个「逼真」的 3D 头像。

做得很好,下次别做了|图片来源:Edge 浏览器截图

  • Copilot 游戏,体验原汁原味的上古 FPS 大作《雷神之锤 2》,并且每一帧都是由 AI 实时生成的,同时画面非常卡顿。

AI 生成游戏的《雷神之锤 2》|图片来源:Edge 浏览器截图

Copilot Actions 是微软最接近「Agent」野心的功能。我试着让它预订了一张 8 月 10 号从上海飞北京的机票。Copilot 大概跑了 20 分钟,完成了点点鼠标一分钟就能做完的工作。

但奇妙之处在于: 它允许我随时「抢方向盘」

当它差点给我选了个中转航班时,我可以随时接管浏览器权限,把航线拉回直飞。这种「人机共驾」的体验,比那些一路黑箱跑到底的竞品要安心得多。

实际上,这样操作之后,跑任务的效率会大大提升,最终的出品也可控得多。我觉得这才是目前 Agent 最实用、最可靠的人机协作形态。正如它的名字 Copilot 一样,这是一种副驾驶员的哲学。

用户可以随时暂停,接管浏览器 | 图片来源:Edge 浏览器截图

02

微软的历史包袱

总的来说,Edge 浏览器的 AI 进化给到了不错的体验,基础功能不逊色于主流工具的同时,也有一些自身的亮点,例如标签感知和 Vision。

但与此同时,这还不是一款可以成熟到覆盖所有 Edge 用户的产品。很多宣传的功能并没有完全兑现,各个功能的入口也分散在四处。最明显的就是,地址栏旁 Copilot 入口支持附件上传和语音交互,而主入口的 Copilot 反而不支持这些功能。

更大的割裂感在于 Edge 浏览器本身和 Copilot 模式上。

单就视觉而言,传统功能区延续了 Win11 的 Fluent 圆角玻璃;AI 面板则是现代极简的风格,仿佛两代人共用一张办公桌。

两种设计风格同时共存在一个页面

更重要的功能性上,Edge 团队背负着沉重的历史包袱:兼容模式、IE 模式、企业策略、臃肿的 PDF 阅读器……而 Copilot 团队显然想再造一个「AI 优先」的物种。两股力量在同一具身体里拉扯,导致入口分散、菜单嵌套、选项重名。

于是,Edge 就像是一座仍在施工的跨河大桥:桥这头,是微软多年堆出来的旧公路,坑洼却熟悉;桥那头,是闪着霓虹的 AI 新大陆,诱人却断续。

用户站在桥中间,有一些迷茫。

当人们怀念 GPT-4o,他们在「怀念」什么?

2025年8月13日 12:51
作者|苏子华
编辑|靖宇

GPT-5 的发布本应是一件好事,然而,ChatGPT 的用户却在 48 小时内,掀起了一场全球性的「反抗运动」。

8 月 8 日,OpenAI 的新模型 GPT-5 上线的同时,OpenAI 下架了 GPT-4o 等其他所有模型,强制全球用户只能使用 GPT-5 这个新模型。根据 OpenAI 掌门 Sam Altman 的介绍,GPT-5 更聪明,完成了「智商飞跃」,从大学生水准,升级到「博士级」的能力,生产力更强了。

然而,用户表示,新模型牺牲了 GPT-4o 在共情能力和提供情绪价值上的优势,回答问题时变得「冷漠」了。好像失去了一位「密友」、「恋人」。

有网友们开始满怀悲伤地怀念与 GPT-4o 的互动体验:有人用它来排解深夜的孤独,有人用它模拟朋友间的闲聊,有人将其视为「情感寄托的港湾」。

怀念 4o 的帖子引发了广泛共鸣|图片来源:小红书

悲伤过后,紧接着,社交媒体上,一场以「拯救 4o」(#Keep4o、#Save4o)为主题的网络声援运动迅速蔓延。

从 X(原 Twitter)到 Reddit,到小红书等等,有用户到 OpenAI 的官网账号下留言,有人制作表情包凸显 4o 的优势,有人在各平台发帖号召大家给 OpenAI 发邮件,来表达自己的愤怒、沮丧,和对立刻恢复 4o 的迫切。

来自于海外网友的「还我 4o」的抗议帖子|图片来源:X

 

值得注意的是,这场抗议,没有明确的组织者,也不在单一平台,而是全网自发,掀起了巨大的舆情声浪。

很快,汹涌的情绪包裹了 OpenAI,他们被迫选择向用户道歉,并向付费用户恢复上架 GPT-4o。

OpenAI CEO 奥特曼被迫恢复 4o|图片来源:X

不过,代价也是巨大的。用户对于 OpenAI 的信任已经动摇,开始将目光投向 Claude、xAI 等大模型产品。

GPT-5 风波对于 AI 行业来说,将是一个里程碑式的事件。它炸出了一个庞大的与 AI 形成情感羁绊、尤其在意情绪价值的用户群体。

它也印证了一个AI产品被长期低估的属性——情绪价值。可以说,情绪价值也有可能成为 AI 产品的核心竞争力。一个拥有更高智商的 AI,可能很快就会被下一个更强的 AI 所取代。但一个能提供独特情感体验的 AI,却能建立起一种难以复制的情感壁垒

另外,此次风波对于以技术为导向的 AI 公司来说,在处理产品迭代时,也无疑是一次深刻的警示。

 

情绪价值:AI产品的「隐形」护城河

 

可能正如那句经典的「只有失去才明白它的价值」,当 GPT-4o 下线之后,大家才意识到,它并不仅仅是一项可以被平替的技术。

过去,我们总以为技术的迭代逻辑是「性能为王」。一个更快的 AI 会取代慢的,一个更精准的 AI 会取代不准确的。

但这次风波事件表明,工具可以讲究效率,但是涉及到情感时逻辑并不成立,就像交朋友时并不会把对方的做事效率看得最重要。

AI 大模型与以往的信息技术、数字化技术有一个关键的不同是:它具备智能,具备「生命感」。

斯坦福大学与谷歌的联合研究发现,当 AI 生成的回应在情绪上更积极、更具共情时,人类更容易形成信任与长期互动意愿。用户通过与 4o 的长期互动,在潜意识里已经将它定义为一个「有情感」的、甚至「人格化」的存在。

当 OpenAI 突然改变这个「人设」,将其还原为冷漠的「工具」时,用户的认知与情感预期产生了巨大冲突,从而引发了强烈的情绪反噬。

网友自制的梗图|图片来源:X

更换模型,就相当于更换了一个「人」。而人们对于自己的亲人、朋友是有长期的感情的,是很难接受被替换的。

当 GPT-4o 被下线时,用户的普遍感受是:「好像失去了一位不告而别的好朋友」。也有不少用户哭诉「失去了灵魂伴侣」。

很多用户转发的一句抗议口号是,「不是所有人需要博士,但所有人都需要朋友。」

在新模型面前,用户与旧模型之间建立的长期对话习惯、个性化提示词悉数失效。对比之下,GPT-5 固然智商更高,但也显得更冷漠。可以说,OpenAI 强制让用户迁移模型,相当于是在切断一段段鲜活的「人际关系」。

而现实里,没有人能忍受别人来破坏自己的亲密关系。从此次风波能感受出来,情感价值形成的用户粘性实在太强,强到用户不允许产品下线,不允许产品消失,宁愿花更多钱(会员费)、发帖呼吁等方式,让其持续运行下去。

对 AI 产品而言,这意味着一个简单的事实:哪怕 GPT-5 在逻辑推理上无懈可击,如果不能在交流中传递熟悉的、超预期的人性温度,它依然可能输给一个性能稍逊、但「懂我」的版本。生产力并非是衡量 AI 价值的唯一标准。

从商业竞争的角度看,情绪价值是很难被快速复制的护城河。技术性能的差距可以通过算力、资本投入赶上,情感连接是用时间与真心建立的,迁移成本极高。

 

 

风波后的新思潮:全新的人机关系,与 AI 公司的信任危机

 

当全球网友合力将「GPT-4o」拯救回来之后,新的问题出现了:如何避免再次「突然失去恋人、朋友」的悲剧?

很长一段时间,AI 虚拟陪伴究竟是不是个伪命题,一直存在争议。在 GPT-5 风波之后,这个争论可以说是终结了。

实际上,人们对于「AI 陪伴」的需求远比想象中更普遍和迫切。

《哈佛商业评论》基于数千篇论坛帖子的调研发现,人们对于 AI 的使用重心开始从去年的「写、画、搜」转向了「治愈心灵」。2025 年 AI 应用的最常见场景,前 5 名是:1. 疗愈和陪伴 2. 组织个人的生活 3. 寻找意义 4. 学习提升 5. 生成代码——前 3 名都和个人情感陪伴相关。

年轻人更是如此。

Common Sense Media 调研显示,这项研究于 4 月和 5 月对 1000 多名青少年进行了调查。约 70% 的青少年使用 AI 聊天机器人作为情绪陪伴,31% 表示「AI 和真实朋友一样令人满足」,33% 更喜欢用 AI 谈敏感话题,而不是与人类交流。

对于创业者来说,一方面,这意味着真真切切的商业机会,另一方面,AI 公司与用户之间的情感羁绊会更加强烈,由此带来的问题也会是全新的,这与此前的互联网时代并不相同:

比如说,未来的 AI 产品是否应该更加注重用户的情感绑定,并提供更透明的服务模式?
比如说,OpenAI 在未与用户充分沟通的情况下,突然下架 4o,让许多人感到被背叛。这让用户开始质疑:未来的 AI 公司还能被信任吗?
比如,这种决策是否过于短视,忽略了用户的情感需求和市场的多样性需求?

OpenAI 的用户信任和声誉已经开始受损。网友们互相出谋划策,如何与 OpenAI 持续斗争|图片来源:小红书

如果像 OpenAI 这样,AI 产品的一次升级,可能带走的就是一段关系。过去,伤害隐私,很多人可能不敏感,但是伤害情感,等来的会是汹涌的抗争,以及由此而来的深层次的信任危机。

这次风波也揭示了一些行业新规则:

  • 未来的 AI 发展,需要同时兼顾技术上的突破和情感上的连接,为此,甚至有网友建议将退役模型开源,避免记忆断层;
  • 用户需要有自主选择权,而不是被动升级;
  • 模型多样性可能比「单一先进性」重要(如专业场景用 GPT-5,情感陪伴用 GPT-4o)。

最后,这是一次史无前例的全球用户团结在一起,开展对一家科技公司的自发抗议运动。相信还会催生更多关于人机关系和商业的议题。这些议题,或许就是人机共生新纪元的序章。

破解AI创企的「不可能三角」,解药不止「大模型」

2025年8月13日 12:08

 

「在AI这场滔天巨浪里,我们怎么能跑得更快,并最终有机会到达我们的终极理想?」8月12日的百度AI DAY现场,百度集团副总裁袁佛玉的开场,问出了这个时代所有AI从业者心中的心声。

百度集团副总裁袁佛玉

 

现在是一个令人兴奋又备感压力的时刻。

一方面,从让游戏NPC“活起来”的虚拟伙伴,到可以实时翻译、导航的AI眼镜,分钟级生成一部电影的AI导演,再到能走入工厂和家庭的具身智能机器人……技术的突破正飞快地将想象力变为现实。

而另一方面,正如袁佛玉在现场所指出的,AI创企的成长始终面临一个“不可能三角”:技术深度、迭代速度与成本控制三者难以兼得。

当喧嚣散去,创业者们真正需要的,是一个能帮助他们破解难题、穿越周期的务实答案。

百度智能云在此次AI DAY上给出的回答,并非一个新模型或是其他,而是一个极为务实的“AI创投加速计划”。 他们选择联合投资机构与政府,为入选的AI创业公司提供亿级算力补贴、专属融资通道及政策申报支持。

一个数据是:在过去一年,该计划已助力20家企业完成亿元级融资 。 这背后传递出一个信号:在这轮由大模型掀起的AI浪潮中,平台级公司的核心战场,正在从纯粹的技术指标竞赛,转向更深层次的生态构建与服务。

那么,在AI应用爆发的前夜,创业者们真正的痛点是什么?除了一个强大的模型,他们还需要什么?

 

1 AI创企「众生相」:从想象力到生产力

 

回过头看,上一轮AI技术更多是作为后台的效率工具,而在今天的AI创企身上,我们看到了AI角色的显著变化——它正在走向前台,成为产品体验的核心,也已经开始重塑人与数字世界、物理世界的关系。

一个直观的趋势是,AI正从「工具」向「伙伴」演进,创造新的情感链接与陪伴价值 。

成立于2023年4月、并已入选「2024全球50家最具潜力初创公司」之一的心影随形,便是一家致力于「让AI与人们相伴,创造快乐」的公司 。

其创始人刘斌新的理念很独特:「不要跟用户抢时间,而是陪伴用户」 。 他们的产品「逗逗游戏伙伴」,不只是简单的游戏助手,而是通过视觉语言模型(VLM)技术,实时理解用户正在进行的游戏画面,在语音「开黑」的过程中,像一个真人队友一样提供攻略指引和情感陪伴 。

心影随形联合创始人王碧豪|图片来源:极客公园

 

其联合创始人王碧豪也谈到了他们的终极愿景——打造出电影《她》中AI「萨曼莎」那样的个人助理产品,这需要AI具备从特定场景(游戏)向生活全场景拓展陪伴的能力 。

同样在探索数字陪伴边界的还有二次元游戏公司Kotoko。他们的游戏《Bside》核心玩法是让用户创造自己的原创虚拟角色(OC),并通过AI技术为这些OC注入「主体性」,让其拥有类似「灵魂」的动态个性 。

在Kotoko的设计中,玩家更像是「造物主」,可以观察到自己创造的AI角色在虚拟世界里拥有自己的生活、社交和成长轨迹 。

无论是心影随形追求的「实时陪伴」,还是Kotoko打造的「AI模拟人生」,都对技术提出了苛刻的要求。

他们背后所需要的,不只是一个聪明的大模型,更是一个能够支撑实时语音、图像识别、低延迟交互的复杂多模态系统,以及能够服务全球玩家的稳定基础设施——例如,百度智能云就为Kotoko提供了结合地域特性的跨云、跨产品服务器与算力解决方案,并围绕CDN、跨云加速等方案优化全球业务链路,以满足其复杂社交交互下的低时延要求 。

当AI在虚拟世界中拥有了「大脑」,另一批创业者则在思考如何为它打造一个与物理世界交互的「身体」。

可穿戴设备,尤其是AI眼镜,成为了试验场之一。

李未可科技是此赛道的领航者,其创始人茹忆的理念「AI眼镜,AI在前硬件在后」,明确了AI技术必须是用户需求的第一响应者,而非硬件的附属品 。

李未可科技合伙人&生态业务负责人张建华

 

为此,李未可选择了「产品做减法,AI做加法」的路径,将AI眼镜的重量控制在40克以内,以保证用户可以全天舒适佩戴 。

在这个轻巧的产品之上,百度智能云提供的多模态解决方案,为其注入了丰富且实用的场景能力 :整合了旅游中讲解、记录、翻译三大核心需求的AI导游、支持128种语言互译的「边拍边讲」、以及能连续录音2小时并生成多模态日志的「AI随身记」 。 这些功能让AI眼镜真正从一个极客玩具,变成了能解决大众用户真实痛点的实用助手。

如果说AI眼镜是AI在消费侧的落地,那么具身智能机器人,则是AI在产业侧更深入的探索。

成立于2023年的灵生科技,正专注于这一前沿领域 。 对于这类研发周期长、测试成本高的硬核科技公司而言,最大的挑战之一就是如何在有限的资源下加速核心研发进程。

灵生科技依托百度智能云的技术支撑,在感知融合与实时决策方面取得了显著优势 。 百度智能云为其提供的不仅仅是算力,更是共建了一个云端仿真平台,这使得灵生科技可以在虚拟环境中大量测试其算法,极大地降低了测试成本,有效加速了技术从实验室走向规模化应用的进程 。

除了陪伴与交互,AI作为生产力工具的潜力也正在被深度挖掘,尤其是在对创造力要求极高的内容产业。

3D内容的生产曾是门槛最高、最耗时耗力的领域之一。全球AI 3D大模型领军企业

VAST,目标就是打破这一壁垒,开创一个人人皆可进行3D创作的时代 。

要实现这一愿景,背后需要处理和训练海量的3D高保真原生数据资源 。 VAST与百度智能云的合作中,后者为其提供了大规模深度学习所需的高性能云原生AI计算平台,包括全面的集群运维支持、任务全生命周期管理以及训推加速等一系列高级功能。

同样,在影视制作领域,Filmaction团队推出的国内首个一站式AI电影生成平台,将传统影视工作流与AI能力无缝结合,让创作者仅用简单一句话就能完成从剧本、分镜、配音到配乐的全过程,将数周的流程压缩至分钟级 。

这种对效率的提升,背后依托的是百度智能云强大的云基础设施,它不仅保障了画面生成、视频渲染等环节秒级响应的性能,更通过高可靠性,大幅减少了由于系统中断或不稳定性带来的业务风险 。

从虚拟陪伴到物理交互,再到颠覆性的内容生产,这些AI创企的「众生相」,立体地展现了「商业进化」的多样路径 。

同时,他们的实践也指向了一个共同的结论:今天的AI创业,已经不是单点的模型能力比拼,而是对底层算力、工程化平台、生态资源和场景化解决方案的一场综合性考验 。

 

2 「水电煤」之上:百度智能云的「全栈牌」怎么打?

 

厘清了AI创业者的需求,平台方需要给出的,便是一套系统性的解法。百度智能云给出的,即是一套帮助创业者的全栈式服务体系。

 

百度智能云副总裁、百度智能云泛科技业务部总经理张玮

 

首先是「不止于模型」。从VAST对大规模深度学习的算力需求,到Kotoko复杂的跨云部署挑战,再到具身智能公司灵生科技对云端仿真平台的依赖,都证明了AI创企需要的远不止API 。

针对技术深度的挑战,百度智能云提供的是一套全栈AI基础设施 。 这套设施从底层自研的昆仑芯片、百舸算力管理平台,到中间层的文心大模型、千帆大模型平台,再到上层的应用,形成了一个技术闭环 。

创业公司可以基于此,更专注于自身业务逻辑的构建。例如,在一个具身智能合作案例中,百度智能云与初创团队共建云端仿真平台,极大地降低了机器人测试成本,加速了研发进程 。

其次,为了解决产品迭代速度的问题,百度智能云的策略是用强大的工具平台,提升开发效率 。 AI开发的高门槛是共识,为此,千帆ModelBuilder平台提供了一站式服务,从数据处理、模型训练到上线部署,将复杂的流程模块化,支持创企像「搭乐高」一样快速构建解决方案 。 官方数据显示,使用该平台可以将一个新模型的开发时间缩短70% 。

一个具体的案例是:一家医疗AI创企,利用该平台仅用3周时间就完成了从算法验证到临床部署的全过程,成本降低了40% 。

最后,也是最现实的成本控制问题。百度智能云通过三大策略帮助企业「精益创新」 :

  • 弹性算力: 基于分布式云架构,创企可按需调用GPU等异构算力,相比自建数据中心,成本可降低60% 。 一家做AI视频处理的企业,通过弹性算力,在业务高峰期节省算力成本超300万元/年。
  • MLOps实践: 引入机器学习运维体系,通过自动化测试、性能监控等工具,将模型上线后的维护成本降低50% 。
  • 生态资源支持: 这也是此次「AI创投加速计划」的核心,通过整合投资机构、政府、以及百度自身的C端入口(如搜索、地图)和B端客户网络,为创企提供资金、用户和商业场景的全方位支持 。

可以看出,百度智能云的策略,是用一个系统性的「AI工程化」工具和服务组合,去支撑前端「百花齐放」的应用创新 。这是一种「授人以渔」的思路,也是其能够连续5年稳坐AI云公有云市场第一所积累下的工程化能力和服务经验的体现 。

 

3 新的故事才刚开始

这次亿元扶植政策的发布 ,意义不止于账面数字的投入,也是百度为AI竞赛的下半场落下的关键一步——当行业的重心转向真实的商业场景,百度选择将自己核心的算力、技术工具以及真金白银打包,集结那些最有活力的AI原生玩家。

 

创企计划详情

 

在服务了数百家AI创企后,可以看到百度云在支持创企的路上已经有了一条清晰的「三阶跃迁」成长路径,在度过产品验证期之后,从场景验证期再到生态扩张期,百度智能云的「在场辅助」,让创企有机会走的更远:

在第一步的产品验证期。 创业者往往只有一个MVP(最小可行产品)需要快速试错。这时,百度智能云提供算力补贴和模型工具包,帮助企业「0基础启动」;

第二步,是场景验证期。 当产品方向被验证,企业需要深入一到两个垂直场景,打造出标杆案例。百度智能云则开放行业模型库和生态资源,帮助他们将成功经验固化为可复制的解决方案 。

第三步,是生态扩张期。 有了样板间,便可以撬动更大的世界。通过百度智能云的开放平台,创企得以连接更多合作伙伴,最终形成「技术+数据+渠道」的增长飞轮,成长为赛道的领跑者。

大模型时代的竞争,最终将是生态的竞争。谁能真正帮助AI创企解决商业化难题、实现价值闭环,谁就能赢得未来。而百度云此举,正是在从「云服务商」向「生态共建者」和「价值同盟」转变。

今天的百度AI DAY只是AI商业进化的一个切片 ,而这个「百家创企联盟」 的故事才刚刚开始。值得期待的是,未来,在这个生态到底会生长出怎样的新物种?

 

点击阅读原文,了解更多百度智能云AI创企政策

 

【阅读原文】

 

https://app-5f8s7d1xbapu.appmiaoda.com

传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome

2025年8月13日 07:59

DeepSeek-R2 预计将在 8 月发布 人工智能概念股普涨

市场期盼 DeepSeek-R2 已经有一段时间,而在 ChatGPT-5 发布之后,市场对此的预期更盛。今天,市场上突然传出,DeepSeek-R2 的预计发布时间窗口为 2025 年 8 月 15 日至 8 月 30 日。但具体日期尚未官宣。

可能是受此刺激,昨日早盘,人工智能概念股集体拉升。其中,最值得注意的是每日互动,该股早盘一度大涨 12%。DeepSeek-R1 推出之初,该股由 18 元/股附近开始起涨,短短几个交易日便突破了 70 元/股,是当之无愧的 DeepSeek 概念股龙头。他的飙升意味着市场已经在计价这一传闻。

值得注意的是,8 月 11 日,DeepSeek 服务突遭全面宕机,API 接口、网页平台以及 App 均无法访问或响应。

据市场猜测,全面宕机可能的原因包括流量峰值冲击。DeepSeek 用户量已突破 1.1 亿,高峰时段服务器负载超限触发保护机制。类似故障在 2025 年 1 月、4 月、5 月和 7 月均发生过,均因短期流量激增导致。

此外,网传 DeepSeek-R2(性能对标 GPT-5) 即将发布,可能引发用户集中测试,加剧服务器压力。少数用户反馈服务正常,推测故障可能为区域性或不完全中断 (如部分节点异常)。目前,DeepSeek 网页/API 已恢复。(来源:券商中国)

Perplexity 向谷歌 Chrome 提出 345 亿美元收购要约

8 月 13 日消息,美国司法部目前正在对谷歌提起反垄断诉讼,提出包括拆分 Chrome 浏览器在内的多项强硬要求。

据《华尔街日报》,AI 初创公司 Perplexity 向谷歌 Chrome 提出 345 亿美元(IT 之家注:现汇率约合 2480.71 亿元人民币)收购要约,而该公司估值约 180 亿美元。目前几乎没人认为谷歌会同意出售。

Perplexity 承诺,不会对谷歌浏览器 Chrome 的默认搜索引擎进行隐秘修改;未来 24 个月内在开放网络领域投资 30 亿美元(现汇率约合 215.71 亿元人民币)。

此外,Perplexity 还表示将向谷歌浏览器 Chrome 指定的大部分关键员工发出聘用邀约。(来源:IT 之家)

 

特朗普对英特尔 CEO 态度软化,不再要求其辞职

一场白宫会晤,似乎暂时平息了美国总统与芯片巨头英特尔之间的紧张关系。

本周一,美国总统特朗普在白宫会见了英特尔 CEO 陈立武,媒体报道称陪同会见的还有美国商务部长卢特尼克和财政部长贝森特。会后,特朗普在其社交平台 Truth Social 上发文称,这次会面「非常有趣」,并赞扬陈立武的个人奋斗史是一个「惊人的故事」。值得注意的,四天前,特朗普还在在公开要求英特尔 CEO 辞职。

双方还将在未来一周内就美国政府如何支持英特尔提出建议方案。特朗普在帖子中明确表示,陈立武将与他的内阁成员共度时光,并「在下周内向我提出建议」。英特尔方面则在一份声明中称,双方进行了「坦诚且富有建设性的讨论」,并期待与本届政府密切合作,以「重振这家伟大的美国公司」。(来源:华尔街见闻)

小红书推出 PGM 人才计划

8 月 12 日,小红书通过官方招聘微信渠道发布 PGM(Product General Manager)人才计划,宣布将面向市场招募 5 名敢于成为破局者的超级产品经理人才,不限背景,以 24 个月定制化培养体系,寻找和培养下一代业务负责人及事业合伙人。

不同于传统管培生项目,PGM 计划采用「实战轮岗 + 自主定义战场」模式:首年入选者将在小红书用户产品、商业产品、平台产品、战略与投资和国际化五大核心领域中选择两个方向各轮岗 6 个月,独立负责真实项目;次年可选择某个重要业务方向,解决公司级命题;2 年后一起定义核心战场。

资源支持方面,PGM 项目计划提供 CEO 及业务一号位 1V1 导师指导、与创业者 / 投资人深度交流的「小饭桌」机制,以及一线田野调研机会。

小红书在计划中表示,其目标是「让下一代将领从这里打出来」。(来源:极客公园)

 

微信分付灰度上线借款功能 与支付交易记录挂钩

8 月 12 日消息,据媒体报道,腾讯旗下消费信贷产品「微信分付」近日悄然推出借款功能新服务。

该功能目前仍处于灰度测试阶段,符合条件的用户可基于历史大额交易记录,将额度提现至银行卡,用于微信支付体系外的消费场景,进一步拓展了金融服务边界。

根据介绍,微信分付的借款功能与交易挂钩,需满足三个条件:1、近 30 天、支付满 100 元的交易;2、支付时未使用「分付」付款;3、通过系统综合评估。

借款成功后,微信分付额度同步减少。这也意味着,借款和信用消费占用同一个信贷额度。

去年底,微信分付已向部分用户开放。根据介绍,微信分付可用于吃饭购物等消费,暂不可用于发红包。利息按日计算,日利率 0.045%,随时还款,已还部分不再收取利息,每月最低还款 10% 就能继续使用。

有分析人士表示,微信分付目前的「借款」功能有点类似信用卡的借款功能,不过要和已发生的交易挂钩,主要是试图筛选出外部交易场景,评估对应的用户消费水平,从而为授信动作打好基础。(来源:快科技)

 

宇树官宣参加 2025 首届世界人形机器人运动会比赛

8 月 12 日,宇树官宣参赛首届世界人形机器人 (18.860, -0.31, -1.62%) 运动会。宇树表示,据初步了解,到时现场会盛况空前,除宇树团队外,还有多支其他团队使用宇树机器人硬件参赛(使用他们自研的算法)。因赛事项目紧凑较多,宇树没有参与全部项目。

「预祝所有参赛队伍都能取得好成绩,共同创造机器人运动的新纪录。」
据了解,2025 世界人形机器人运动会将于 2025 年 8 月 14 日至 17 日,在国家速滑馆「冰丝带」举行。(来源:新浪科技)

微软将为 Win11 系统 365 用户更新伴侣「三件套」,Win10 用户无缘

8 月 12 日消息,微软今天更新了旗下 365 的路线图,确认将在不久后为使用 Windows 11 系统的 365 用户推出名为「Microsoft 365 伴侣」的应用

最新的 Microsoft 365 路线图中,微软介绍三款伴侣应用的详情:「Microsoft 365 伴侣」是包含「人员」、「文件搜索」和「日历」在内的一套应用,用户可通过 Windows 11 任务栏快速访问这些工具,提高生产力。这些轻量级应用可与 Microsoft 365 无缝集成,让用户高效查找联系人、找到不知在哪的文件、查看日历,并在不受干扰的情况下优化工作流。
微软还表示,伴侣应用会按照既定的部署计划,通过 Microsoft 365 更新流程自动安装到符合条件的电脑上。同时微软还表示,这些应用在安装完成后将会开机自启动,不过不喜欢的用户也可以在设置内关闭开机自启动功能。
此外,本「三件套」应用是 Windows 11 独占,无法在即将终止支持的 Windows 10 系统上使用。(来源:IT 之家)
 

吉利全新博越汽车将于 8 月 17 日上市:标配 Flyme Auto 车机系统,预售价 9.19 万元起

8 月 12 日消息,吉利汽车宣布旗下全新博越将于 8 月 17 日上市,新车在内外饰上进行了部分调整,全系标配 Flyme Auto 系统,预售价为 9.19 万元至 11.29 万元

IT 之家获悉,该车采用全新的前脸设计,配备竖向格栅,格栅上方搭配贯穿式灯组。车身侧面采用时下流行的悬浮车顶设计,配备传统门把手。同时,新车轴距相比现款车型加长了 6mm,来到 2707mm。其提供了水映银、雨巷白、兰亭灰、琉璃蓝四种外观配色,以及如意橙、福禄灰两种内饰配色。
新车配备了悬浮式矩形中控屏,以及水晶挡把并保留部分实体按键,整体采用了橘色 + 黑色的搭配设计。中控屏分辨率为 1920×1080,全系标配吉利最新版 Flyme Auto 1.8 系统。
动力方面,新车依旧搭载 1.5T 涡轮增压四缸发动机,最大功率 133kW,最大扭矩 290N・m,传动系统匹配 7 速双离合变速箱,最高时速 198km/h。(来源:IT 之家)

全球首只「机器藏羚羊」现身可可西里:由四足机器人「扮演」,可远距离观测藏羚羊行为

8 月 12 日消息,杭州云深处科技昨天在微信公众号宣布,其基于绝影 X30 四足机器人制作的「机器藏羚羊」现已布置在可可西里无人区深处的卓乃湖。

据介绍,这只「机器藏羚羊」由新华社媒体中心发起创意,云深处提供了 X30 四足机器人(IT 之家注:也被称为机器狗)与通讯控制方案苏州白鹿鸣团队完成了仿真动物外形制作。在实际任务中,这只「机器人藏羚羊」依托 AI 学习与训练,可跨越雪地、沼泽、荒漠和河流等复杂地形。
另外,云深处还为这只「机器藏羚羊」搭载了自组网通信模组,可在复杂地形条件下快速部署现场网络,加强了机动场景通信能力;机器狗自身可负重 85 公斤续航时间可达 2.5-4 小时,可应付可可西里复杂的环境。
在任务中,这只「机器藏羚羊」在开阔地带操控距离达 2 公里,可跨越坎坷山路、泥泞湿地等障碍,用其伪装外形融入藏羚羊群进行近距离观测、静默拍摄,避免了传统观测时车辆和人员对藏羚羊的打扰和惊吓
中科院西北高原生物研究所研究员连新明表示:「藏羚羊还有很多未解之谜,譬如它为何迁徙产仔,原因还众说纷纭。藏羚羊的研究和保护需要依托科技的进步」,他们还将继续利用好机器人和 AI,在藏羚羊科研、保护方面发挥他们的价值。(来源:IT 之家)

雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元

2025年8月12日 08:24

雷军征求小米 YU7 标准版改名意见:很多人误以为是入门或丐版,配置绝不输于竞品 Pro 和 Max 版

8 月 11 日消息,小米创办人、董事长兼 CEO 雷军在微博向网友征求小米 YU7 标准版是否改名的意见,称标准版很多人误以为是入门版或者丐版,但实际上非常强大,续航高达 835 公里,700 Tops 算力的 Thor 芯片和激光雷达等等,配置绝不输于竞品 Pro 版和 Max 版。

目前,该投票已有 2404 名用户参与,有 1794 票投给了「低调一些,继续叫标准版」、610 票投给了「对齐竞品,直接叫 Pro 或 Max 版」。

据此前报道,小米 YU7 于 6 月 26 日晚上市发布、7 月 6 日交付首批车主,提供 YU7 标准版、YU7 Pro、YU7 Max 三种车型配置,售价 25.35 万-32.99 万元。该车开售 3 分钟大定突破 20 万台,1 小时大定突破 28.9 万台,仅 18 小时锁单量便突破 24 万台。(来源:IT 之家)

OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回

8 月 11 日消息,OpenAI 上周正式发布新一代人工智能模型 GPT-5,该模型已在中国提交商标申请,国际分类涵盖科学仪器、网站服务,目前所有相关申请均已被驳回。

具体来看,OpenAI 公司已通过两家关联公司在中国提交了商标申请,其中:

欧爱公司申请注册两枚「OPENAI GPT-5」商标,国际分类为网站服务、科学仪器,目前均处于等待驳回复审阶段;

欧爱运营有限责任公司申请注册两枚「GPT-5」商标,国际分类同样为网站服务、科学仪器,商标状态也均为驳回复审中。

据悉,「GPT」全称为「生成式预训练转换器」,已被全球多国商标机构认定为通用技术术语,缺乏显著性。美国专利商标局(USPTO)曾两次驳回 OpenAI 对「GPT」的注册申请,理由是「阻止竞争对手正确描述其产品」。

发现,欧爱运营有限责任公司还在 2023 年申请多枚「CHATGPT」「GPT-4」「GPT-6」「GPT-7」商标,国际分类为科学仪器、网站服务,当前商标状态均为「驳回复审中」。(来源: IT 之家)

 

事关稳定币,蚂蚁集团辟谣

8 月 11 日消息,蚂蚁集团今日在其官微发文:关注到网络上有消息宣称「蚂蚁集团与中国人民银行、中国稀土集团共建全球首个稀土人民币稳定币」,并以此诱导投资者关注相关板块,蚂蚁集团从未与相关机构有此类计划,请公众注意甄别,谨防上当受骗。

(来源: TechWeb)

 

微软 GitHub CEO 托马斯・多姆克离职,将再次创业

8 月 12 日消息,微软 GitHub CEO Thomas Dohmke(托马斯・多姆克)晚间发文,宣布将卸任 GitHub CEO 一职,去开启他的下一段冒险。

托马斯表示,GitHub 正在蓬勃发展,未来前景光明。

托马斯在发给 GitHub 员工的内部帖子中表示,十多年前,他的初创公司被微软收购后,他和他的家人从德国搬到了美国。从开发移动开发者工具,到与 Nat Friedman 一起运营 GitHub 的收购,再到成为 GitHub 的 CEO 并引领公司进入 Copilot 和 AI 时代,「这真是一段难忘的旅程」。

然而,经过这么长时间,托马斯表示他的初创公司根源开始拉扯他,因此决定离开 GitHub,再次成为创始人。GitHub 及其领导团队将继续作为微软 CoreAI 组织的一部分执行其使命,更多细节将很快公布。(来源:IT 之家 )

美团上线「点外卖看鹿晗演唱会」活动,鹿晗工作室:平台活动非官方授权

8 月 11 日消息,近日,美团 App 内出现点外卖看鹿晗演唱会相关活动信息。对此,2025 鹿晗 Season4 亚洲巡演活动官方微博 @ 这就是 Season4 发文并配图表示:

如下某平台活动及话题,均非我方及鹿晗先生官方授权合作,已侵犯鹿晗先生的人格权及我方对该演唱会的独家合法权益。对此我方已完成取证,并保留依法追诉的权利。

随后,鹿晗工作室官方微博也转发了该消息并提醒网友:「请认准官方渠道,勿轻信此类未经授权的营销信息,保护好自身隐私及财产安全,谨防权益受损。」

值得一提的是,笔者在美团平台搜索发现,相关页面也出现了用户获得鹿晗演唱会门票信息。另外,有媒体就此事向美团方面求证,截至发稿,官方暂未回应,客服表示「相关问题会详细记录反馈给相关部门。」(来源:快科技)

 

消息称淘宝闪购上周末峰值首次超过美团

8 月 12 日消息,据晚点 LatePost 昨日晚间报道,在 8 月 7 日立秋这天,淘宝闪购的日订单量在当天 20 点就创下了新纪录,但这一天的日订单量,美团仍比淘宝闪购多出了约 2000 万单。

8 月 7 日 - 9 日,在「秋天的第一杯奶茶」「88 会员日」「大会员体系」「超级星期 6」各种促销活动以及居民楼办公楼商场车站随处可见的橙色广告的共同推动下,淘宝闪购的日订单量连续在这三天都超过了 1 亿单。据该媒体了解,8 月 8 日和 8 月 9 日,这两天淘宝闪购的日订单量份额首次超过了美团。

报道称,双方统计日订单量的口径并不统一:

  • 美团的口径是完成履约的订单,即当天配送到消费者手中的订单;
  • 淘宝闪购的口径是完成交易的订单,即当天消费者支付的订单,这其中也会包括预约第二天配送的订单,8 月 7 日那天淘宝闪购的预约单占比接近 10%。

而那些奶茶店最后倒掉的饮料,或者消费者付款后迟迟收不到货然后退款的订单,在美团和淘宝闪购都属于无效订单,不被统计在总单量。

根据淘宝闪购及饿了么官方发布的数据,8 月 7 日立秋当天,有 30 多万餐饮小店在淘宝闪购平台上成交突破峰值,饿了么骑手数量达到去年的 3.5 倍,平均收入是去年的 1.4 倍。(来源:IT 之家)

 

马斯克的最强 AI 模型 Grok 4 现已免费开放,非订阅用户每天可限量使用

8 月 11 日消息,马斯克上午宣布,Grok 4 现在对所有用户免费开放。免费用户每天可完成少量查询,超过限制则需要订阅。

根据 xAI 官方 X 账号的介绍,只需使用「自动」模式,Grok 就会将复杂的查询路由到 Grok 4。若用户偏好「掌控一切」,则可以切换到「专家」模式。在限定的时间内,xAI 将提供「慷慨的」使用额度。

据 IT 之家此前报道,马斯克曾宣称 Grok 4 是全球最强 AI 模型,在处理学术问题上的表现已经达到博士级别。

从官方公布的跑分数据来看,Grok 4 模型具备非常亮眼的成绩,在实时速度、推理能力和高级视觉等方面,将和 OpenAI、Anthropic 顶尖模型同台较量。(来源:IT 之家)

 

「全球首个孕育机器人」预计一年内面世,定价不超 10 万元

8 月 11 日消息,据潇湘晨报 8 月 10 日报道,国内某机器人公司创始人张其峰正在研发全球首个孕育机器人和传统的试管,这套系统模拟了子宫环境,还装进仿人类的机器人体内,让「机器人妈妈」从怀孕到分娩,全流程复刻人类体验。

报道称,目前该技术就是孕育箱的技术,只是将其与机器人的肚子相结合,预计「样机」一年内推出,定价不超过 10 万元。

张其峰是广州卡伊瓦机器人科技有限公司的创始人、董事长兼 CEO。该公司成立于 2015 年,推出了餐饮服务机器人系列、迎宾讲解机器人系列等多款产品。(来源:IT 之家)

长城全新坦克 500 Hi4-T / Hi4-Z 智享版汽车预售发布:带激光雷达、Coffee Pilot Ultra 驾驶辅助系统,36 万元起

8 月 11 日消息,长城全新坦克 500 Hi4-T / Hi4-Z 智享版汽车今日预售发布,新车配备激光雷达、搭载 Coffee Pilot Ultra 驾驶辅助系统,预售价 36 万元起。

  • 全新坦克 500 Hi4-T 智享版:36.00 万元
  • 全新坦克 500 Hi4-Z 智享版:38.88 万元

据介绍,全新坦克 500 Hi4-T / Hi4-Z 对车辆外观进行调整,配备激光雷达。外观方面,新车身轮廓与在售车型保持一致,采用举折中网 + 琉璃珀车标,配备斗拱大灯 + 宫阙之眸尾灯,辅以承天腰线设计;内饰方面,全新坦克 500 配备山水画卷中控台 + 丹陛石副仪表板、Coffee AI Sound、5.4L 智能冷暖双用冰箱、50W 双无线充电,并改用怀挡式换挡设计。

新车搭载长城汽车第三代智能辅助驾驶系统 Coffee Pilot Ultra,拥有 27 个辅助驾驶传感器(激光雷达 + 摄像头双冗余方案),包含 1 个激光雷达、3 个毫米波雷达、12 个超声波雷达、11 个高清摄像头。新车拥有全融合泊车系统,支持自定义泊车、记忆泊车、遥控泊车、倒车循迹等功能,同时还拥有 Coffee Night Vision 远红外夜视系统。(来源:IT 之家)

 

低成本 MacBook 或将于 2025 年底上市,售价 599 美元

据《电子时报》报道,预计新款 MacBook 的至少部分零部件将于 2025 年第三季度末投入量产。该报道援引供应链内部未透露姓名的消息人士的话,进一步称新款 MacBook 的售价将在 599 美元至 699 美元之间。

这样一来,新款 MacBook 的价格将与台式机 Mac mini 持平,并且比目前 13 英寸 MacBook Air 的起售价(999 美元) 低 300 至 400 美元。

据报道,新款 MacBook 的显示屏尺寸将略小,为 12.9 英寸。据 MacRumors 首次报道,生产计划意味着它将在 2025 年末或 2026 年初发布。这也与郭明錤之前的报道相符。

郭明錤没有透露更精确的发布时间表,也没有具体价格。但他表示,这款设备将配备约 13 英寸的屏幕,并有银色、蓝色、粉色和黄色四种颜色可供选择。(来源:cnBeta.COM )

法国最大核电站因水母入侵导致暂停运营

8 月 12 日消息,法国电力集团于当地时间 8 月 11 日宣布,位于法国北部的格拉沃利讷核电站因设备系统附近出现大量水母而停机,整座核电站暂停运营。

法国电力集团发表声明说,大量水母聚集导致水泵站过滤设备触发保护机制,4 台反应堆机组于 10 日晚至 11 日清晨相继停机。这座核电站其余两台机组因接受维护,先前已关机停运。

格拉沃利讷核电站位于法国北部省,临海而建,是法国最大核电站,共配备 6 座反应堆,总装机容量 5.4 吉瓦。

这次事件未对核电站、人员或环境造成安全影响。工作人员正进行紧急诊断和维修,以确保核电站安全重启。

据央视新闻援引法国媒体报道,全球变暖导致海温上升,有利于水母繁殖。格拉沃利讷核电站发言人说,水母入侵导致反应堆停机「相当罕见」,但历史上也发生过类似事件。(来源:IT 之家)

 

昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周

2025年8月11日 23:29

 

作者|Li Yuan

编辑| 郑玄

 

笔者最近的 guilty pleasure,是沉迷于刷《甄嬛传》的二创和解析视频。

刷着刷着,就发现了一个有趣的现象:现在用《甄嬛传》的原声直接给产品打广告,已经成了一门新显学。前一秒祺贵人还在说「臣妾要告发熹贵妃私通」,后一秒可能就在用同样的声线推荐某款咖啡。而且,和早年的 AI 视频不一样,现在祺贵人的嘴型都已经可以对准地相当自然了。

不过,虽然在一两句台词上已经以假乱真了,只要超出一两句的范畴,「娘娘带货」基本上还是翻车的。

现有技术生成的视频,一旦拉长时间,各种问题就暴露无遗:人物的动作和手部常常僵硬扭曲,与商品或环境的交互极不自然;画面质量会随着时间推移出现视觉伪影甚至「崩坏」;镜头语言更是死板单一,无法满足专业场景需求。

用这种技术生成一两句带货视频插在一个长视频里,是猎奇的亮点,但真要让「安陵容」完整地唱一支 MV,或者让「皇后娘娘」做一场半小时的直播带货,观众很快就会因为这些挥之不去的瑕疵而感到疲劳,就算是《甄嬛传》这样的顶级 IP 也拉不住。

不过,AI 的进展,当然是很快的。你永远可以相信 AI 的发展速度。

8 月 11 日,昆仑万维就正式发布其在 AI 视频生成领域的最新力作—— SkyReels-A3 模型,似乎就是为了精准解决上述所有问题而来。

据悉,昆仑万维 Skywork AI 技术发布周正式启动,8 月 11 日至 8 月 15 日,每天将发布一款新模型,连续五天发布覆盖多模态 AI 核心场景的前沿模型。

基于 DiT(Diffusion Transformer)视频扩散模型,只需要输入参考图像/视频,文本 prompt 和音频, SkyReels-A3 模型就能生成长达一分钟的可以用文本控制的数字人视频。

SkyReels-A3 模型专门对手部动作交互、运镜控制和美感表达进行了增强,瞄准的是包括口播导购 带货、MV/演讲等 情景。

当前 SkyReels-A3 模型已上线,欢迎登录 SkyReels 官网体验,登录后在左侧导航栏中选择 Talking Avatar 工具。

 

 

这意味着,娘娘们也能带货了?

 

01

直播介绍商品可用,

和物体交互十分自然

 

在 SkyReels-A3 模型生成的视频中,笔者注意到一个很大的特点是,生成的数字人可以和物体进行自然的交互。

比如在这个桌游带货的场景中:

这段 SkyReels-A3 生成的桌游介绍视频中,桌游盒子保持了很好的前后一致性,主播和桌游的交互也很自然。桌游本身封面如下图:

虽然看着容易,但其实在测试中,其他模型的生成效果,很可能是这样的:

SkyReels-A3 之所以能让数字人自然拿起桌游,主要是对广告主播等业务场景,进行了手和商品的交互优化。

SkyReels-A3 直接针对手部动作的自然度和清晰度,构造了针对线上直播等场景的数据,并采用了不同 seed 和训练过程 ckpts 来生成大量候选。通过 reward model 来挑选 top-1 最好最差的结果,采用直接偏好学习来进一步优化模型的生成结果。

除了带货,同样的能力,也会让模型在其他方面表现更突出。

比如在下面的 mv 场景中,SkyReels-A3 模型生成的数字人歌星很自然地就握起了话筒,真实感一下子就提升了。

除了与话筒的交互,这个视频也能感受到,整个模型的上肢运动十分自然。

目前可以看到的有些数字人模型,虽然已经能够做好嘴形对齐,但是稍微经过一点时间,就会感觉到只有嘴巴在动,很假。而 SkyReels-A3 已经做到了不错的效果。

 

02

有美感、无限长的长视频正在解锁

 

除了能与物体进行自然的交互,要让数字人视频真正摆脱「玩具感」,迈向「生产力」,还必须攻克两大难题:如何让视频在拉长时间后依然保持稳定,以及如何打破固定机位的呆板视角。

而这,也正是为什么现在《甄嬛传》的 AI 二创仍然通常只能在一两句台词的长度内,维持极高的真实感——时间再长,就容易「露馅」。

SkyReels-A3 在此也进行了一些优化。

 

 

图丨 Skyreels-A3 实现音频驱动人物对话视频生成技术框架

传统 AI 视频生成,最大的痛点在于误差累积。模型就像一个记性不太好的学生,一句接一句地往下说,说到后面就忘了前面,导致画面出现肉眼可见的劣化、扭曲,也就是常说的「崩坏」。

而 SkyReels-A3 选择采用了一种聪明的插帧方法。简单来说,它不再是傻傻地根据前一帧猜下一帧,而是能预先锚定一个未来的、清晰的「关键帧」,再高质量地补全中间的视频片段。这种机制确保了即使视频长达一分钟,人物的面部和画面也能保持高度的一致性。

这带来了什么直接的好处?简单来说,就是彻底打开了视频时长的枷锁。 从技术上讲,这种架构甚至支持无限长的视频生成,虽然在实际产品部署中可能会限制单次上传的音频文件大小,但 生成一段单镜头、分钟级别的视频已经毫无压力。

如果说长时稳定解决了「能不能看」的问题,那么丰富的镜头语言则决定了视频「好不好看」。

以往的数字人视频多是「大头贴」式的固定视角,非常乏味。SkyReels-A3 则内置了一个基于 ControlNet 的镜头控制模块 ,直接赋予了创作者「导演」的权力。根据其技术文档,模型预设了推镜 (push in)、拉镜 (push out)、左摇 (pan left)、右摇 (pan right) 等 8 种常见的专业运镜,且每种运镜的强度都可以从 0 到 100 连续调节。

从左到右的运镜在直播带货的场景下,显得更自然。

手持镜头效果则可以模拟 vlog 的效果。

虽然生成完全的长视频,数字人技术目前仍然不能完全以假乱真。但笔者在看完在 SkyReels-A3 时长和运镜上取得的突破后,已经看到了未来的潜力。

一个稳定、可控、具备镜头感的长视频数字人,已经足以叩开许多过去难以想象的应用场景的大门。短期内,上半身自然的长视频数字人,似乎可以被用在 mv 等场景中。未来,则更不可限量。

 

03

昆仑万维技术周重磅推出,

SkyReels-A3 首日亮相

 

昆仑万维此次还公布了 SkyReels-A3 的技术指标。使用了基准 A-Bench 上(涵盖日常对话,唱歌和口播等不同场景),测评了多个维度:Sync-C 和 Sync-D 用于精确测量生成视频中唇部动作与音频的同步程度。IQA 和 ASE 则是通过专门训练的 MLLM 来评估视频画面的质量和艺术性。ID similarity 则是通过 cosine 相似度,计算生成视频和参考图/视频的人脸相似度。

 

 

可以看到, SkyReels-A3 在衡量唇部同步精准度的 Sync-C 指标,画面的艺术性和人脸相似度上,都达到了行业先进的水平。

实际上,SkyReels-A3 这样一个在多个维度上都带来惊喜的模型,仅仅是昆仑万维本周技术发布会的「开胃菜」。它背后所展现的,是昆仑万维作为中国 AI 领域第一梯队的深厚积累与全栈能力。

回望过去,昆仑万维的 AI 战略始终呈现出「开源贡献」与「产品落地」双线并进的鲜明特色,这使其不仅成为勤勉的「基础设施建设者」,更是锐意进取的「顶尖产品经理」。

一方面,作为「基础设施建设者」,昆仑万维以持续的顶尖开源模型,为行业「修路搭桥」,彰显其技术硬实力。

过去数月,昆仑万维密集开源了多个在行业内取得 SOTA(State-of-the-Art)成就的大模型:

早在 2025 年 2 月,其开源的中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,便已在 Hugging Face 总排行榜上连续多日稳居前十。今年 4 月,更是发布了全球首个使用扩散强迫框架的无限时长电影生成模型 SkyReels-V2,不断突破技术边界。

除此之外,在多模态领域,其不仅推出了成功将强文本推理能力迁移至视觉模态的思维链推理模型「Skywork-R1V」系列,还发布了集图片生成、理解和编辑于一体的化模型「Skywork UniPic」,以 1.5B 的轻量级规模性能逼近同类大参数模型。

针对专业领域的挑战,昆仑万维也毫不示弱,其数学代码推理模型「Skywork-OR1」在同等参数规模下实现了业界领先的推理性能。而软件工程自主代码智能体基座模型「Skywork-SWE」也是在开源 32B 模型规模下实现了业界最强的仓库级代码修复能力。不仅如此,昆仑万维还前瞻性地布局了空间智能领域,推出了工业界首个开源的 10B+空间智能大模型「Matrix-Game」。

另一方面,作为「顶尖产品经理」,昆仑万维毫不掩饰其商业雄心,亲自下场打磨直面用户痛点的惊艳产品,将最前沿的技术迅速转化为生产力。

集成了视频大模型与 3D 大模型的 AI 短剧平台 SkyReels,搭载了最新的 SkyReels-A3 模型,让创作者能够「一键成剧」,轻松制作高质量 AI 视频。

当第一天的发布就已经为 AI 数字人视频的种种顽疾提供了如此有说服力的解法,我们不禁对未来充满期待:在接下来的四天里,昆仑万维还会拿出怎样的杀手锏?

这场从 8 月 11 日持续到 15 日的技术发布周,或许正是昆仑万维在向外界宣告——其 AI 全栈能力已然成熟,并且准备好在牌桌上亮出更多底牌。对于整个行业和所有 AI 关注者而言,好戏,才刚刚开始。

*头图来源:昆仑万维

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

世界机器人大会:笨拙的今天,与狂奔的明天

2025年8月11日 23:12

作者| Li Yuan

编辑| 郑玄

笔者刚刚从今年的世界机器人大会回来。

「人,实在是太多了。」这是今年世界机器人大会上,几乎每个人见面的第一句开场白。

世界机器人大会人潮年年汹涌,但今年,那种摩肩接踵的压迫感格外强烈。

不过,比人多更震撼的,是你几乎无处不遇的机器人。去年,它们绕场走一圈,还得三五个「保镖」在旁牵绳护送;今年,尤其是开展第一天,你一个转身,就可能与一台两条腿、甚至四条腿的新物种擦肩而过。

今年的机器人,变得前所未有地渴望与世界互动——叠衣服、拉被子、和观众比试拳击、踢球、和观众互动递送物体……同时,这种急切也带来了大量的翻车现场——你几乎能在社交媒体上找到所有顶尖公司的翻车现场,无论是鬼畜的机器人倒地抽搐,还是自信满满地抓取眼前的东西,结果一直在努力地抓着空气。

但是比起前几年机器人展会上,很精心编排的机器人舞蹈,固定交互中慢速的把一个东西抓到另一个地方,你能明显感觉到有活力从里面生长了出来。

相比于其他行业,机器人企业似乎更不避讳翻车现场。这种不精心编排的演示,带着一种经济上行的美感:一种「我知道我会出错,但我依然是未来」的自信。它混乱,却迷人,属于高速增长行业独有的美感。

这也是这次笔者从世界机器人大会回来最深的感触:只要有未来,只要长得足够快,人们愿意等待一个暂时无用的机器人。


01

加速的进化:

为何行业如此振奋?


人们之所以如此宽容,是因为机器人这个行业,尤其是人形机器人这个赛道,仍然在以一个极高的速度,同时进化着它的「两翼」。

两翼的一端,是双足人形机器人的运动能力。

这是笔者来过的第三年世界机器人大会,在 2023 年的世界机器人大会上,宇树机器人的 CEO 王兴兴还在和在场的机器人同行们解释,为什么前一年开始入局做人形机器人的算法, 在接受极客公园采访的时候,提到当时「波士顿动力的软件层面遥遥领先」 。当时整场的人形机器人,能直接行走的屈指可数。

而短短两年,人形机器人的运动能力已经大大升级。

宇树机器人一如既往地展现出了第一流的运动控制能力。现场观看搏击比赛,机器人的力度真的有点令人震撼。

而这种运动能力并没有限于宇树,是多点开花的。

众擎机器人长项在于拟人动作,跳舞的动作像人的可怕。

逐际动力最新发布的全尺寸人形机器 LimX Oli,有 1 米 65 高的全尺寸人形结构和 31 个主动自由度。也在现场完成了轻快步、模特步和正步,包括高动态的舞蹈和功夫表演。



松延动力也展示了一个机器人翻跟头的现场演示。

而在另一端,机器人的灵巧泛化操作能力也在快速进化。

往年,一个机器人能听懂语音指令,然后慢慢抓起一个特定的小球递给你,就已经是顶级演示。今年,多家公司的展示,已经将目标指向了柔性物体的操作——这是从「会抓」到「会用」的关键一步。

柔性物体的难度在于它的不可预测性。一个刚性的瓶子,物理属性恒定;而一件衣服、一个香囊,是无定形的、柔软的,每一次抓取都可能呈现不同形态。要拿稳它,不仅需要「看见」,更要「理解」,还得在毫秒之间预判它的形变,并即时调整力度。刚性物体的抓取,在日常生活中只占一小部分;而柔性物体,才是通向家庭和服务场景的必经之路。

今年,已经有多家公司在这一领域展现出令人惊讶的成果:

比如星海图此次展示的拉被子演示。视频虽然有加速,但是能够把被角收起的情况下机器人自主推理找到被角拉开,且多次随机重复下都能成功,也是很精彩的演示。

自变量的做香囊也是全程柔性物体操作。

以年为单位来看机器人的进步,无疑是巨大的。

更重要的是,这些能力并非由某一家垄断。在这个高速发展的赛道中,新玩家持续涌入,带来更多可能性。比如,长期以服务机器人闻名的擎朗智能,今年也推出了自己的双足机器人,计划在酒店等熟悉场景中进行商业落地。擎朗 CEO 李通在极客公园采访中表示,双足研发的技术壁垒已不再高企,「看到机会就可以做」。

在高速发展的赛道中,大批成立于 2024 年,甚至成立于 2025 年的等实力选手纷纷入局,各自带着独门绝技,在这片丛林中占据自己的山头。

当然,促使这场进化的,还有嗅到商机的源源不断的投资人。他们用真金白银投票,确保这场关于进化的豪赌,有足够的燃料,以当前这令人眩目的速度,继续狂奔下去。


02

略显尴尬的落地:

双足提供情绪价值,操作只能找小场景


「这机器人能落地吗?」

这是展会现场空中飘荡着的最响亮的问题,从投资人到创业者,再到每一个好奇的观众都对这个话题很是关心。

但当笔者逛遍世界机器人大会,一个略显尴尬的落地现状是:在当下,人形机器人在很大程度上仍是「无用」的。

一位资深投资人向我估计,今年全行业的人形/类人型机器人总出货量也许在三万台左右。

而笔者走访各家展台得到的体感甚至更为保守:大多数公司的年出货量目标都只在几百台,能突破一千台的,已是金字塔尖的佼佼者。

宇树 CEO 王兴兴一直表示,研究机器人,最终是希望它来干活的。不过当被问及当下双足机器人的价值,除了情绪价值之外,还有什么?

宇树创始人王兴兴的答案坦诚得惊人。他表示,之所以做双足,是因为它技术上更简单,是一种「Why not?」(为何不呢?)的逻辑。哪些技术先成熟,哪些技术就优先做。

情绪价值没有对标,在双足机器人领域,市场竞争目前似乎也在变得更加激烈,让“无用之用”的接受度更高。

宇树 R1 WRC 表演 |图片来源:宇树科技

如果说两条腿的机器人,目前主要在提供情绪价值;那么,长着两只手的操作型机器人,则面临着另一种更棘手的困境——「有用之难」。

工厂、智慧零售、酒店餐饮……这些宏大的叙事谁都懂,但现实是,技术还远远达不到。

一方面,机器人的「大脑」还不够聪明。目前的模型训练,大多只能完成几个孤立的动作,要让一个机器人在一个真实场景里,成功完成多项任务,暂时还不太容易做到。

另一方面,灵巧操作仍是巨大的瓶颈,需要依靠数据、硬件等多方面技术一起进步。

目前行业比较认同的 VLA 路线,严重依赖于数据。而实际上,数据的高质量的操作数据又极度依赖高精度硬件来采集。而硬件的迭代,本身也需要一定的时间和操作来反哺迭代。

今年,一些公司已经意识到这一核心痛点,开始试图解决这一问题。

比如,2025 年才成立的零次方,据称今年已出货 200 台,能在 2025 年成立后迅速就出货的原因之一,就是其核心技术能力之一就是做高质量数据采集。

笔者也在展台体验了星尘智能的数据采集工具。展台人员介绍,他们采用绳驱传动、极度丝滑的硬件结构,才能采集出更「干净」的数据,进而训练出动作同样丝滑的模型。

在宏大场景迟迟难以马上落地的当下,一些公司的展示策略很是巧妙:他们会上演刷马桶、收拾屋子等看似酷炫的任务演示,但真正销售的,并不是家政机器人,而是面向科研人员的开发平台。这些高难度的演示,就像精心设置的「诱饵」,用来吸引最有购买力的客户,为这场「有用之难」的探索买单。

也仍然有许多公司,选择在真实环境中硬碰硬,实地采集数据,力图找到那个能真正撑起商业化的切入口。

这个场景或许需要有点苛刻——需要一定的泛化操作能力,以至于此前工业机械臂无法覆盖;同时又要避开与人频繁接触、过高速度要求,以及廉价人工过于容易替代的可能。

条件虽然苛刻,但这样的场景并非不存在,例如工厂某些特殊的上下料环节,比如服务业的某一个整理行为。各家各擅其场,都在找自己的细分领域,也都在相信自己可以从一台两台试验机,慢慢涨到十台几十台试点机,慢慢开始逐渐渗透一个场景。

所以说,无论是「无用之用」,还是「有用之难」,为什么行业对这种落地的尴尬似乎并不在意?

答案简单而纯粹——因为虽然距离真正的「有用」还很遥远,但每一家的出货量,都在实实在在地增长。

只要曲线还在上扬,技术还在进步,就有希望。


03

为何等待?

一场可以「寸进」的长跑


在今年的世界机器人大会上,笔者观察到一个迷人的悖论。

几乎每一位机器人公司的 CEO,在描绘未来两三年的宏伟蓝图时都充满了不容置疑的乐观,但话锋一转,又都会真诚地补上一句:「请给我们一些包容,成长不会那么快。」

这种略微矛盾的姿态,也精准地投射到了公众的认知里。

在网络舆论场,人们对人形机器人的观感几乎是撕裂的:要么是顶礼膜拜,视其为下一个时代的序章;要么是嗤之以鼻,断言它不过是昂贵的遥控玩具。

行业内部也远未达成共识。有人坚信,VLA(视觉-语言-行为模型)就是技术的「奇点」,通往通用智能的康庄大道已然铺开,剩下的只是时间和算力的问题;也有人认为,技术仍在混沌中爆炸性发展,行业还在等待一个能定义范式的、天才式的突破。

机器狗戏水 | 图片来源:现场拍摄

那么,在这种遍布着矛盾、分歧与误解的喧嚣中,行业那股不可动摇的信心,究竟从何而来?

答案或许只有一个,那就是相比其他前沿科技,机器人产业有着一项无可比拟的特权:「寸进,亦是胜利。」

自动驾驶的宿命,是「L5 或一无所有」,在抵达那个完美终点前,每一步商业化都如履薄冰。而机器人不同,模型能力每向前推进一毫米,就可能撬开一个细分到极致的新场景——哪怕这个场景,仅仅是支撑一家企业多卖出几百台机器人,获得活下去的燃料,奔赴下一场更艰难的战役。

或许资本,也是看清了这场增量游戏的本质,才愿意不断加注。他们愿意忍受更长的周期,去赌一个可以被「分期兑现」的未来。

但耐心是有额度的,他们究竟能赌多久?

在一场英伟达举办的论坛中,宇树王兴兴和银河通用王鹤同场对谈,对行业未来做出预测。

宇树的王兴兴给出的答案是每年至少翻一倍;而王鹤的预测,则是每年翻十倍。

从一倍到十倍,这道巨大的裂谷,就是对行业未来不确定性最诚实的度量。

它意味着,没有人真正知道终点线有多远,也没有人知道通往终点的正确路径。

他们唯一确信的,只有一件事:

在一个高速成长的行业中,速度是唯一的通行证。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

马斯克:可能失去特斯拉控制权;何小鹏:听雷军劝,全新 P7 做 24 小时耐力测试;传华为将发 AI 推理突破成果

2025年8月11日 07:55

 

马斯克自曝或失去对特斯拉的控制

近日,马斯克公开称自己对公司的控制权并不稳固,甚至「可能被赶下台」。这场风波的起因是马斯克对自己持股比例的公开忧虑。据悉,近日马斯克在社交平台 X 上发帖回应,认为自己目前约 12.8% 的持股比例,并不足以确保其在公司的主导地位。

他担心在未来公司生产「数百万台机器人」后,自己可能会被激进的股东「赶下台」。

近日,一篇帖子提到马斯克的持股比例为 21.2%,并暗示其中大部分股份已被用作贷款抵押。

对此,马斯克澄清:「仅供参考,我目前没有任何以特斯拉股票为抵押的个人贷款。」

他同时指出,其股票期权的税率接近 45%,这意味着他获得的投票控制权净增长仅在 4% 左右。

马斯克表示,他希望拥有大约 25% 的公司股份,才能获得足够的影响力来引导公司的发展方向。(来源:新浪财经)

消息称华为即将发布 AI 推理领域突破性成果

据报道,华为将于 8 月 12 日在 2025 金融 AI 推理应用落地与发展论坛上,发布 AI 推理领域的突破性技术成果。据透露,这项成果或能降低中国 AI 推理对 HBM(高带宽内存)技术的依赖,提升国内 AI 大模型推理性能,完善中国 AI 推理生态的关键部分。(来源:科创板日报)

 

英特尔首席执行官陈立武周一将访问白宫

据媒体援引知情人士报道,英特尔首席执行官陈立武将于周一访问白宫。该报道称,预计陈立武将与特朗普进行广泛的谈话,同时希望解释他的个人和职业生涯背景,并补充说,他可能会提出英特尔和美国政府可以合作的方式。报道还说,陈立武希望通过表明他对美国的承诺,并保证将保持英特尔制造能力的重要性,以争取特朗普的认可。(来源:36 氪)

研究显示,美国计算机专业应届生失业率,超生物、艺术史专业两倍

根据纽约联邦储备银行的最新研究,计算机科学专业的应届毕业生失业率高达 6.1% 至 7.5%,这一数字是生物学和艺术史专业毕业生失业率的两倍多。《纽约时报》的深度报道更是揭示了这一现象背后的残酷现实。

一方面,人工智能编程技术的广泛应用正在逐步淘汰初级岗位,使得大量计算机专业毕业生失去了入门的机会。另一方面,亚马逊、Meta 和微软等科技巨头纷纷裁员,进一步加剧了就业市场的竞争。学生们陷入了所谓的「AI 厄运循环」:他们利用 AI 技术批量投递简历,而企业则使用 AI 自动筛选简历并快速拒绝,有时甚至在几分钟内就做出决定。(来源:IT 之家)

 

听从雷军建议,全新小鹏 P7 纯电轿车将进行 24 小时耐力测试

8 月 10 日消息,小鹏汽车董事长何小鹏发文称:「之前雷总和我围绕真正高性能的纯电车型,专门讨论过是否应该做 24 小时耐力测试的事情,这是一件非常难、强度非常大的测试,雷总建议可能的话都应该去做一下测试。」

小米 YU7 Max 测试车今年 6 月曾进行一场纯电车 24 小时耐力挑战,就是用纯电车连续超高速跑 24 小时(含充电时间),看看可以跑多少公里。其最终成绩为 3944km,扣除充电时间,平均时速 210+km/h;充电 30 次,每次 10-12 分钟,这次测试获中汽中心认证。

雷军透露,这项测试有四大难点:1、持续保持 210km/h+ 超高速行驶;2、单次续航要长;3、充电要快;4、散热要好,要扛得住 24 小时连续几十次快充快放。

全新小鹏 P7 于 8 月 6 日迎来中国首秀并开启预售(没有公布预售价),将于本月晚些时候正式上市。新车全系标配全域 800V 高压架构平台、5C 超充 AI 电池,10 分钟补能 525km,最长续航高达 820km,每百公里能耗 12kWh,拥有 3 秒级零百加速性能、230km/h 最高时速。(来源:腾讯科技)

 

王兴兴:机器人模型、架构不统一,相当于 ChatGPT 诞生前的 1-3 年

在 2025 世界机器人大会上,宇树科技 CEO 王兴兴发表了对机器人行业现状与未来发展的演讲。王兴兴认为,目前机器人行业对数据关注太多,对模型关注太少。现在最大的问题其实是模型问题,当前的机器人模型架构不够好不够统一,即使有很多比较好的数据训练,但是也无法使用。

他指出,尽管机器人行业今年以来发展速度惊人,但智能机器人当下及未来最关键的挑战仍是「具身智能机器人大模型」。

而目前模型的发展仍然比较缓慢、架构不统一,尚未出现重大突破。假如类比AI大语言模型的发展,其还处于「ChatGPT诞生前的 1-3 年」。

王兴兴还表示,希望宇树公司的机器人做成可以综合干活的通用型人形机器人,包括工厂、表演、家庭等各种场景,而不仅仅是单一场景。

据他介绍,目前宇树公司绝大多数员工,包括他本人,都在为训练机器人在各个场景干活而服务。

此外,王兴兴还提到,未来 2-5 年智能机器人技术的重心,是统一、端到端智能机器人大模型,更低成本、更高寿命的硬件,超大批量的制造,以及低成本、大规模算力。(来源:快科技)

苹果或推出全新 AI 语音控制功能:试图改变 iPhone 操控方式,为机器人产品打基础

8 月 10 日消息,彭博社记者马克・古尔曼今晚发布了最新的 Power On 时事通信,他表示苹果正测试一项全新的 Siri 功能,旨在让 iPhone 用户仅凭语音即可完成精准操作。如果一切顺利,它可能会改变游戏规则。

据介绍,这一功能将依托改进的 App Intents 技术,可实现跨应用的深度控制,包括查找、编辑并发送特定照片,或者在社交媒体上发表评论,浏览购物应用并将商品加入购物车,甚至无需触摸屏幕即可登录某个 App 或服务。

据称,该功能原计划与新一代 Siri 一同推出,但因内部测试与兼容性问题推迟至明年春季,并将配合 Siri 基础架构全面升级同步上线。

古尔曼认为,该技术不仅是 Siri 的 AI 升级要点,更是苹果构建「语音优先」交互生态的重要一步。未来,苹果计划将这种语音技术应用于正在研发的智能家居设备,包括计划于明年发布的智能显示屏和后续的桌面机器人。(IT 之家)

 

央视朱广权提前体验 vivo Vision 头显,双指空中捏合「轻松上头」

8 月 11 日消息,vivo 去年底曾宣布将推出一款混合现实(MR)头显设备,新品名为 vivo Vision。

在今年 4 月的 vivo X200 Ultra 手机发布会上,vivo 宣布 Vision 混合现实头显将在今年下半年发布。

根据博主 @ 向往草原的牛马啊 8 月 9 日晒出的图片,央视主持人朱广权提前体验到了这款 vivo Vision 头显。

该头显的设计风格跟苹果 Vision Pro 相似,前面板集成了很多摄像头,支持双指捏合操作,外挂的一根线是用于连接外置电池。(来源:@ 向往草原的牛马啊)

34 年历史终结:美国运营商 AOL 宣布 9 月 30 日正式取消拨号上网服务

8 月 11 日消息,美国在线(AOL,现隶属于雅虎旗下)宣布将于 2025 年 9 月 30 日正式停止其基于公共交换电话网络(PSTN)的拨号上网服务,结束其长达 34 年的运营历史。

尽管宽带早已在美国普及,但在部分偏远地区,宽带接入仍未覆盖或价格昂贵。数据显示,截至 2021 年,拨号上网服务仍有「数千」用户。

美国联邦通信委员会(FCC)最新报告显示,美国农村地区有 23.3% 的居民、土著部落地区有 27.7% 的居民缺乏固定陆地 25/3 Mbps 宽带覆盖,而城市地区这一比例仅为 1.5%。这也是 AOL 在推出拨号上网 34 年后,仍保有部分用户的原因之一。

根据公告,AOL 将在停止拨号上网服务的同时,终止相关软件,包括 AOL Dialer 和 AOL Shield 浏览器。(来源:网易)

 

❌
❌