普通视图

发现新文章,点击刷新页面。
今天 — 2025年8月20日极客公园

「价格战」打了半年,吉利如何做到核心利润暴增102%?

2025年8月20日 14:23

2025年8月14日,吉利公布了它的「期中考试」成绩单,结果非常有意思,甚至有点「矛盾」。

首先,是「学霸」的一面:今年上半年,吉利汽车卖出了将近141万辆车,比去年同期多卖了将近一半(猛增47%),仅次于比亚迪(214.6万辆)、上汽集团(205.3万辆),市占率首次突破10%。卖了这么多车,总收入当然也很可观,达到了1503亿元,增长了27%。

看到这里,你可能会觉得:吉利这波稳了,肯定赚翻了!然而,反转来了。财报显示,上半年归属于母公司股东的净利润同比下降14%,至92.9亿元。

今年以来,吉利汽车股票已经上涨了32%到19.19港币,最新总市值为1935.25亿港币。

为什么会出现「增收不增利」这种矛盾情况?这背后的真相是什么?

新能源占比超过50%

要读懂吉利的真实状况,必须穿透财务数据的表层。

总体来看,吉利正上演一出「一半是火焰,一半是海水」的精彩大戏。

在整个汽车市场平均增速仅为13%的背景下,吉利汽车上半年实现了47%的惊人同比增长,总销量突破141万辆。这不仅是「学霸」级别的表现,更说明它在激烈的竞争中,拥有强大的「圈粉」能力。

其中, 新能源转型「超车」,是吉利故事中最激动人心的部分。今年上半年,吉利的新能源汽车销量达到了72.5万辆,同比暴增126%,占比首次超过了50%(达到51.5%),这意味:

吉利不再是一家「燃油车为主,新能源为辅」的公司,正式迈入了「以新能源为主导」的新时代

其中,纯电动车和插电混动车销量分别达到51.1万辆和21.4万辆,增速分别高达173%和61%,远超行业平均水平。

吉利的爆款车型——银河星愿,拿下了A0级市场冠军|图片来源:吉利银河官网

特别值得关注的是,吉利银河品牌销量达54.8万辆,同比增长232%,成为了绝对的销量担当。其中,「银河星愿」前6个月累计销量达到了20.5万辆,拿下了上半年中国市场的单车销量冠军。

与此同时,在大家普遍认为燃油车市场正在萎缩的时候,吉利的燃油车业务不仅没有下滑,反而实现了8%的增长。根据汽车行业协会数据显示,2025年上半年,燃油车整体销量546.69万辆,同比下降4.5%

吉利汽车的主要财务指标 | 图片来源:财报截图

尽管销量喜人,但吉利的毛利率(16.4%)却同比微降0.3个百分点,稍微落后于主流竞争对手。

最直接的原因,就是国内汽车市场已经「杀红了眼」的价格战

5月下旬,比亚迪率先发起了大规模降价,部分车型优惠高达5.3万元。面对竞争,吉利别无选择,迅速为旗下最畅销的「银河」系列等多款车型提供了5000至18000元不等的补贴,与比亚迪展开「贴身肉搏」。 随后,奇瑞、零跑等众多车企纷纷加入战局,整个市场都卷入了以降价换销量的激烈竞争中。

这场价格战直接压缩了单车售价和利润。吉利汽车CEO桂生悦在业绩会上坦言,上半年单车平均售价减少了1.4万元,降至9.6万元。

除了外部价格战,吉利自身的产品销售结构变化,也加剧了平均售价和毛利率的下滑。这像一个「硬币的两面」:定位主流市场的「银河」品牌成为绝对的增长引擎,上半年销量高达54.8万辆,同比暴增232%。银河系列虽然成功抢占了市场份额,但其定价相对亲民,这自然拉低了整体的平均售价和毛利率

另一面,作为吉利旗下的高端智能电动品牌,极氪上半年交付了9.1万辆车。虽然销量数字还在增长(同比增长3%),但增速与去年同期的106%相比,出现了断崖式下滑。高端车型增长乏力,也使得提升整体毛利水平变得更加困难。

值得一提的是,吉利在「海外竞赛」暂时落后。数据显示,上半年吉利汽车出口总量18.4万辆,同比下滑8%。这与中国汽车出口市场实现258万台销量、总增长超过10%形成反差。桂生悦直言这是「140.9万台销量中的最大短板」。

核心净利润增长102%

上面提到了吉利销量的「高光时刻」,但很多人可能会问:既然卖得这么好,为什么利润反而下滑了14%呢?

看一家公司的财报,千万不要只看表面的「增」或「减」。要学会识别并剔除那些一次性的、非经营性的项目,才能看清它最核心、最真实的「造血能力」。

仔细查看,可以看到吉利汽车最近两年主要有两个一次性的、与核心卖车业务无关的「特殊收入」:

  • 2024年上半年,吉利做了一件大事——把自己的发动机业务,与雷诺、沙特阿美等公司合资,成立了一家新公司(Horse Powertrain)。这个操作在账面上产生了一笔高达77亿元的一次性收益。这笔钱不是靠卖车赚的,更像是一次性的「资产重组」红包。它让去年的利润数字显得特别高。
  • 2025年上半年,因为一些海外市场的货币升值了。吉利因此获得了一笔约26亿元的净收益(外汇汇兑收益)。这笔钱也不是靠卖车赚的,而是汇率波动带来的「意外之财」,同样不属于日常经营。

简单说,抛开那些「干扰项」,吉利汽车的核心经营利润从2024年上半年的33亿元,飙升到了2025年上半年的66.6亿,同比增长超过102%。

所以,吉利汽车并非「增收不增利」。在整个行业都在拼命「价格战」的艰难时期,吉利依靠强大的规模效应和成本控制,让自己的核心赚钱能力翻了一倍

在吉利这份「成绩单」背后,是一家主流自主品牌在时代剧变中,向新能源智能汽车企业转型的缩影。

「一个吉利」下的「加减法」

对于下半年的发展,吉利似乎超级有信心。本来他们今年的目标是卖出271万辆车,这已经是个很厉害的数字了。但最近,他们直接把目标上调到了:

300万辆

那么,吉利的底气来自哪里呢?答案是:一大波又酷又能打的新车正在路上。

下半年,吉利汽车将推出极氪 9X、领克 10 EM - P、吉利银河 A7 及吉利银河 M9 等 5 款全新智能电混产品;此外,千里浩瀚辅助驾驶 H9 方案、雷神醇氢技术、新一代 Flyme Auto 智能座舱等多项科技也将落地应用。

吉利的另一个爆款车型——银河E5,上市11个月销量超过15万辆|来源:吉利银河官网

除了产品和市场端,吉利汽车正在经历更深层次的变革——组织架构与战略整合。

以前的吉利,像一个「联邦」。它旗下有吉利、领克、极氪等好几个品牌。它们都很优秀,各自有自己的粉丝和市场。但这也会带来一个问题:兄弟之间偶尔也会「内卷」,比如研发一个新技术,可能好几个品牌都在做,有点浪费资源。

现在的吉利,要变成一个「帝国」。核心思想就一个:打破品牌之间的墙,回归「一个吉利」。「极氪」这个品牌,是理解吉利未来战略的钥匙。2025 年 2 月,极氪、领克官宣合并;7月,吉利宣布拟以现金或换股方式,将上市仅一年多的极氪从纽交所私有化。

桂生悦在财报电话会上透露,吉利汽车将在9月5日举行股东大会,极氪则将在9月15日举行股东大会。如果双方股东大会都通过(合并决议),那法律意义上两家上市企业才算合并完成。后续具体交割工作则将在年底前完成。

通过主动的产品结构调整,大胆的战略整合,吉利正在重塑自己的竞争优势。

但汽车行业的战争远未结束。下半年新产品的市场表现、极氪私有化的推进情况,以及全年300万辆目标的实现程度,都将成为验证其战略方向的重要指标。

 

小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉

2025年8月20日 14:20

如果你在一年前问我小鹏汽车怎么样,我可能会说,它正在经历一场严峻的考验。

然而,8月19日小鹏汽车刚发布了2025年第二季度财报,却讲述了一个截然不同的故事:它不仅恢复了健康,精神焕发,甚至还练出了点「腹肌」。

财报显示,2025年二季度,小鹏汽车在销量、收入、毛利率和现金储备多项关键指标都创下了历史新高。第二季度总营收182.7亿元,同比增长125.3%;交付量10.32万台,同比增长241.6%;毛利率17.3%,同比增长3.3个百分点;现金储备环比净增超22.9亿元到475.7亿元。

财报发布后,小鹏汽车美股上涨3.72%到20.64美元,最新总市值为196.45亿美元。今年以来,小鹏股价已经上涨了68.36%,市值增加了77亿美元。

那么,小鹏是如何实现这一转变的呢?让我们一起来探究背后原因。

小标题一:半年狂卖19.7万辆,营收340亿

如果把财报比作一份「体检报告」,衡量一家成长中的车企是否健康,主要看四个关键指标:销量、收入、毛利率和现金储备。

小鹏汽车上半年的销量成绩亮眼。数据显示,小鹏共交付 19.72万 辆车,是去年同期的近 3.8倍,这也超过了其2024年全年的总交付量。其中,二季度交付了10.32万辆,同比增长241.6%。

虽然在新势力品牌里,小鹏的销量排名不是第一,落后于零跑、鸿蒙智行、理想汽车,但它是唯一一个完成年度目标过半的车企。它全年目标是卖38万辆,上半年就完成了52%,

尽管销量喜人,但小鹏的产品结构存在一些不平衡。轿车是小鹏销量的绝对主力。上半年,MONA M03和P7+合计售出超13.6万辆,它们占了总销量的近7成;相比之下,SUV表现平平。上半年小鹏G6和小鹏G9共售出近3.55万辆,只占整体销量的18%。

这在SUV更受欢迎的中国市场,显得有点「特立独行」。要知道,特斯拉Model Y的销量,基本上是Model 3销量的两倍。

 

小鹏汽车2025年二季度财报的主要核心指标,销量、收入、毛利率等都创纪录 | 图片来源:财报截图

卖的车多了,收到的钱自然也多了。财报显示,2025年上半年,小鹏汽车总收入达到 340.9亿元,比2024年同期增长了132.5%。其中,二季度总收入为182.7亿元,较2024年同期大涨125.3%, 并较2025年一季度上升15.6%。

如果说交付量和收入是「面子」,那毛利率就是「里子」。它是衡量一家公司「造血」能力的核心指标,它直接反映了企业的成本控制能力和产品议价能力。

数据显示,小鹏2025年第二季度毛利率为17.3%,超过了特斯拉二季度的17.2%。其中,小鹏Q2汽车毛利率为14.3%,2024年同期为6.4%。简单说,就是每卖一辆车,能获得的毛利翻了一倍。

这主要得益于两个方面:一是通过技术和生产优化,有效降低了单车制造成本;二是通过推出G7等更受欢迎、可能利润空间更高的车型,改善了产品组合。

小标题二:亏损减半,现金储备近500亿

除了上面这些,2025年,对于中国的电动汽车行业来说,进入了一场新的「大考」——盈利之战。小米、蔚来、零跑这些「同班同学」都立下了Flag,「今年要开始赚钱」。

那在这场考试中,谁是「学霸」呢?

8月18日,零跑汽车上半年净利润为0.3亿元,首次实现半年度净利润转正;极氪也发布公告称,二季度实现了经营利润2.85亿,这是第一次实现经营利润转正;小米汽车二季度业务经营亏损大幅收窄至3亿元,预计下半年实现盈利。

看到这里,你可能会问:小鹏到底赚了多少钱?

财报显示,2025年第二季度净亏损为4.8亿元。

看到「亏损」二字,很多同学可能会觉得「这公司不是还在亏钱吗?」。没错,但关键要看趋势。2024年二季度净亏损12.8亿元,而2025年第一季度为6.6亿元。

亏损额大幅收窄了超过一半! 这是一个强烈的「止血」信号。

即将上市的全新小鹏P7,将是小鹏打开20到30万市场的又一个关键落子 | 图片来源:小鹏汽车

打个比方,这就像一个水桶本来漏水很快,现在你成功地把漏洞堵住了一大半。对于一个还在拼命花钱搞研发、建工厂的公司来说,「少亏钱」和「开始赚钱」一样,都是非常牛的积极信号!这表明,小鹏离最终盈利的目标越来越近了。

小鹏汽车董事长、CEO何小鹏此前也表示,四季度实现盈利「不是一个有挑战性的目标」,今年的最终成绩会比大家想象的还要好。

除了看盈利,还有一个更关键的指标,能看出一家公司到底有没有「安全感」。那就是——它「钱包」里有多少钱。截至2025年6月底,小鹏持有的现金及现金等价物、短期投资等总额高达 475.7亿元。

「手中有粮,心中不慌」。接近500亿的现金储备,意味着小鹏有充足的「弹药」去应对未来的竞争、持续投入研发,而不用为下个月的「工资」发愁。

总体来看,小鹏有点像一个潜力巨大的「优等生」:虽然仍未扭亏为盈,但销量、收入暴涨,毛利率翻倍、亏损大减,潜力很大。

小标题三:「技术宅」小鹏,开始谈「情绪」了

过去,大家觉得小鹏是个「技术宅」,只知道埋头研究技术。如今,小鹏的看家本领——AI技术,不仅没有丢,反而越来越强。

就在今年6月,他又秀了一波「肌肉」:与华为联合研发的「追光全景」抬头显示;在刚发布的小鹏G7上,L3级算力落地,带来了2000TOPS算力+全本地端AI模型;小鹏在世界顶级的AI会议(CVPR 2025)上,发布了一个拥有720亿参数的超大模型。

所以,小鹏的技术实力依然是它最坚实的底气。

但何小鹏意识到,一辆好车不仅要技术牛,还要让人「有感觉」。于是,何小鹏提出了四个新的标准:设计、颜值、品质和情绪。其中,情绪这个词,是何小鹏最近提到最多的词之一。

「情绪」这个词很有意思。想想你们为什么会喜欢泡泡玛特的盲盒,或者为什么小米SU7一发布就刷爆了朋友圈?因为它们除了好用、好看,还给你带来了快乐和满足感。

设计、颜色,也成为小鹏的核心竞争力之一 | 图片来源:小鹏汽车

小鹏也开始在这方面下功夫。比如,全新P7首秀发布会,何小鹏花了半个多小时专门讲车身的颜色,还请来了陈妍希、朱正廷、宁泽涛、钟楚曦四位明星,为不同的颜色代言。比起一堆冷冰冰的参数,小鹏更想跟你聊聊「颜值」和「感受」,让你觉得这辆车是有温度、有品位的。

其实,小鹏也曾经历从山巅跌落谷底的「至暗时刻」。但正是凭借着这种「技术」和「情感」两条腿走路的新思路,它完成了一次非常漂亮的逆袭,重新赢得了市场的认可。

汽车行业的竞争非常激烈,就像一场永不停歇的赛跑。今天的领先者,明天可能就会被新的对手超越。小鹏现在面临的最大考验是,在决赛圈快速缩小的当下,建立起自己坚固的「护城河」。这场战役的最终结局尚未可知,但这无疑让小鹏的故事充满了悬念和看点。

智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?

2025年8月20日 12:59

 

 

8月18日,智谱正式发布了新的ToC产品 AutoGLM 2.0——一个手机通用 Agent。

 

3月份发布的 AutoGLM,在操作任务时,「人只能看着,没有其他选择,也不能做其他事情」 。这种本地「抢屏」的方案导致了人与机器「二选一」的局面 。

 

比如要用一个 Agent 在手机上点一杯咖啡,用户能做的就是「看着」,等它完成任务。这种模式让 AI 带来的整体效率提升被限制在 1.x 倍的范围内,并不能实现生产力的倍增。

 

现在,当 AutoGLM 再次进入公众视野,情形已有所不同。在2.0版本的 AutoGLM上,每位用户都将拥有一部云手机与一台云电脑,只需一句指令,Agent 便可在云端自动执行操作、跨应用协作,并完成整套任务。

 

这意味着 AI 可以 7x24 小时在云端独立「打工」,不再干扰前台操作,人与 AI 的协作范式,也正从「你盯着我干」的同步模式,更新为「你忙你的,我干我的」的异步并行模式。

 

当 AI 拥有了独立行动的「身体」和「工位」,一个新的、由 Agent 驱动的并行数字世界,似乎正在打开。

 

一、从「抢屏」到「云端分身」

 

先回到那个核心痛点。过去,无论是 AutoGLM 的早期版本,还是其他类似的尝试,AI 的每一步操作,都实时反映在用户的物理屏幕上。这种「抢屏」模式带来了几个障碍:

 

首先是效率问题,AI 工作时,人必须等待,人机之间是「二选一」的互斥关系。这使得总效率提升有限,并没有达到理想中的生产力倍增。

 

其次是执行中断的可能,锁屏、网络波动、切换应用等任何用户行为都可能中断 Agent 的长任务流。AI 难以在用户非关注时段(如睡眠、娱乐时)持续工作,其价值被大打折扣。

 

最后还有适配的难题,安卓系统的碎片化,让本地适配成本居高不下。每一个手机品牌、每一个系统版本,都可能影响 Agent 的稳定运行。

 

AutoGLM 的新方案是用「云端原生」取代「本地镜像」。它为每个用户在云端部署了一个完整的安卓环境(云手机)和一个 Linux 环境(云电脑,后续将支持 Windows)。

 

当用户下达指令,例如「去美团找附近的奶茶店,点 20 杯,记得用优惠券」,整个任务流——从打开 App、跳过广告、搜索店铺、选择商品、连续点击增加数量,到智能选用优惠券——这些都是在那台云端手机上运行。

 

而用户的物理手机则依旧自由。用户可以继续聊天、看视频,或者息屏把它放进口袋。AI 的工作与用户的操作在物理上完全解耦,互不干扰。用户只需在任务列表中查看进度,并在支付、发布等关键节点回来「确认」一下即可。

 

在智谱的闭门交流会上,产品负责人刘潇现场演示了这一核心体验。当他用一台 iPhone 向 AutoGLM 下达运营小红书的任务——「制作并发布一个介绍 AutoGLM 的视频,风格要适配自媒体」,Agent 在云端开始了高效工作。它高并发地搜索了十几个关键词,快速浏览多个网页,随后完成了信息收集和文案撰写,并自动开始制作视频。

 

而在此期间,刘潇又在云手机上演示了点奶茶和「在抖音刷到小猫视频为止」的娱乐任务。

 

据官方介绍,AutoGLM 目前已能在云端操作包括抖音、小红书、美团、京东在内的超过40款高频应用。

 

这背后是智谱对未来人机协作关系的洞察。智谱CEO张鹏在会上分享了一个观点:未来个人竞争力的核心,将是「自身能力 + N 个 AI 智能体」的总和。每个人都将从「打工者」转变为「领导者」,核心能力不再是事必躬亲地执行,而是「会沟通、会安排任务、会指挥」。

 

AutoGLM 的云端架构,是这一理念的产品化落地。它让 AI 开始成为了一个可以 7x24 小时并行工作的「数字员工」,打破了「AI 必须在你眼皮底下操作」的障碍,让用户可以将那些耗时、重复、甚至超出自己能力范围的任务,「外包」给这个云端分身。

 

在实际操作中,我试了一下用AutoGLM在美团小象超市买一盒椰子水,发起任务前,需要先接管云机-登录任务涉及的app账号-退出接管-正常发起任务,以及在支付环节也需要手动操作,其他则确实是可以自动完成,并且在任务启动前还会自己润色需求,自己加上了「用掉红包」,但就是速度堪忧,还不如自己拿手机点来的快。

图片来源:极客公园

 

随后,我又在电脑上尝试了一个任务「在知乎热榜第一的话题下回答问题」,中间可能是因为出现了一个是否执行操作的确认点没及时确认,所以自动重启了任务,所以当我从别的页面切回去时,看到的就是下面这个情况。

 

图片来源:极客公园

 

在我接管电脑确认了操作点之后,可以看到AutoGLM进行了一番执行:

我来帮您在知乎热榜第一的话题下回答问题。首先让我制定一个执行计划。

现在我来执行这个任务,去知乎热榜第一的话题下回答问题。

打开"https://www.zhihu.com",查看知乎热榜第一的话题,进入该话题详情页并在下面回答一个问题

操作开始

任务进行中

点击 - button

点击"写回答"按钮

打开知乎,查看热榜第一的话题,并在该话题下回答问题

完美!我已经成功完成了您的请求。我通过自动化工具:

任务完成情况:

话题详情:

页面功能: 页面已经显示了完整的回答功能,包括:

现在您可以在这个热门话题下回答问题了!页面已经为您准备好了完整的回答功能。

  • 成功打开知乎并找到热榜第一的话题
  • 进入了该话题的详情页面,可以在上面回答问题
  • 热榜第一话题: 「乘客称高铁邻座大体型男子致拥挤,质疑售票未考虑乘客体型差异,如何看待此事?有哪些改进办法保障乘客体验?」
  • 话题热度: 92封私信,80条消息,246个关注者,478,761次浏览,160个回答
  • 相关标签: #高铁# #铁路# #公共交通# #12306# #出行体验#
  • 文本编辑器,可以撰写回答内容
  • 格式化工具(加粗、斜体、列表、引用等)
  • 发布设置选项(声明、来源、评论权限等)
  • "发布回答"按钮

图片来源:极客公园

 

这个任务执行的就有点……

 

指令是「在知乎热榜第一的话题下回答问题」,结果只是找到知乎热榜第一的话题,然后停留在话题下就算完成任务,并没有「回答」这个操作。

 

或许是指令不够详细?于是我更新了一下指令,换成「找到知乎热榜第一的话题,并针对问题写200字的回答,写完之后直接发布」,新开了一个任务。

 

这次确实写了回答,但是由于系统连接限制,还是得手动提交回答:

 

图片来源:极客公园

 

这是它写的两百字回答:

这个现象反映了公共服务精细化管理的挑战。瘦乘客的舒适度确实会因邻座体型而受影响,但解决方案需要平衡多方需求。

建议铁路部门在购票系统中增加"座位偏好"选项,允许乘客根据需求选择;同时可借鉴民航"一人多座"服务模式,为有需要的乘客提供购买额外空间的选择。列车工作人员也应主动关注此类情况,及时协调调换座位。

社会层面,我们需要增进相互理解,避免对大体型乘客的歧视,共同维护文明和谐的乘车环境。通过制度创新和技术改进,逐步实现效率、公平和个体需求的平衡。

这一问题的解决需要时间,期待铁路部门能推出更科学的座位管理方案。

 

二、驱动 Agent 的「3A 原则」与「在线强化学习」

 

如果说「云手机/云电脑」是 AutoGLM 的新「身体」,那么其背后强大的模型、训练方法论和产品原则,则是这具身体得以高效运转的「大脑」。

 

在与团队的交流中,极客公园了解到 AutoGLM 的产品哲学可以被提炼为「3A 原则」。

  1. Around-the-clock(全时):AI 必须能够 24 小时待命并持续执行任务。无论用户是在工作、睡觉还是娱乐,AI 都应在云端持续产出价值。
  2. Autonomy without interference(自运转、零干扰):官方也称之为 Asynchronous (异步),其核心是 Agent 在云端设备的独立运行,不占用用户的本地屏幕和算力。
  3. Affinity(全域连接):Agent 的能力不能局限于浏览器对话框,必须能连接手机、电脑、手表、眼镜等多种设备与服务,打通数字世界与物理世界。

 

这三大原则,共同构成了 AutoGLM 对一个成熟 Agent 形态的定义,也解释了其当前产品架构。

 

过去,许多 Agent 的训练依赖于监督微调(SFT),即学习人类专家的操作轨迹。这种方法的弊端是「泛化能力差」——AI 只会模仿它见过的操作,对于未见过的场景或界面改动,往往束手無策。

 

为了让 Agent 在复杂多变的真实环境中(数千个并发的手机、电脑、浏览器环境)真正具备完成任务的能力,AutoGLM 团队选择了端到端在线强化学习的技术路线

 

其核心思想是,在经过少量专家数据「冷启动」后,让模型在数千个并行的真实云环境中,像人类一样去「试错」。系统不再告诉模型「下一步该点哪里」,而是只在任务最终完成时给予一个「成功」的奖励信号(Reward)。

 

模型必须自己探索出最优的决策路径。

 

这对工程的挑战是巨大的,需要一个能同时调度和监控数千台云电脑、云手机的庞大系统。

 

在具体的技术实现上,智谱进一步披露了其在强化学习方面的多项突破成果:例如在电脑端,提出了 API-GUI 协同范式以提升数据多样性(ComputerRL) ;在移动端,则创新了难度自适应强化学习方法,以提升复杂任务的稳定性(MobileRL) ;同时通过交叉采样等机制,解决了多任务训练中的不稳定问题(AgenRL) 。

 

这些具体的技术创新,共同构成了 AutoGLM 在复杂环境中高成功率的底层保障。

 

据智谱披露,通过在线强化学习,AutoGLM 的任务成功率相较于冷启动阶段提升了 165%,超过 66% 的成功率增益来源于此。

 

「我们发现,只要能提供足够好的‘环境(Environment)’和‘奖励(Reward)’,现有算法几乎可以优化任何任务,」刘潇分享道,「瓶颈已经不在算法本身,而在于如何构建可规模化的验证和反馈环境。」

 

这种「模型即 Agent」的理念,也体现在其底座模型上。GLM-4.5 和 GLM-4.5V 从预训练阶段开始,就为 Agent 任务进行了深度优化,被称为「Agentic Language Model」。

 

从底层开始的原生设计,使得 AutoGLM 在多个公开基准测试中表现出色。比如,在考察电脑操作能力的 OSWorld Benchmark 中,AutoGLM 获得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。

 

技术路线的先进性,带来了商业可行性上的巨大突破——成本下降

 

传统基于第三方大模型 API 构建的 Agent,单次复杂任务(如 Deep Research)的成本高达 3-5 美元。而 AutoGLM 借助自研模型和一体化架构,将包含模型调用和虚拟机资源的单次任务成本,压缩到了约 0.2 美元(约 1.5 元人民币)。这已经与谷歌单次搜索约 0.02 美元的成本相差不到一个数量级。

 

这种数量级的成本降低,让智谱有底气在此次发布中不用邀请码,直接向所有 C 端用户开放。

 

成本降低,成为超级应用的潜力才能上升。

 

三、「工具」到「生态」

 

通过为Agent 提供独立的云端运行环境和基于 GLM-4.5/4.5V 的模型能力,AutoGLM 的定位超越了单一的效率工具,开始构建一个连接多设备和服务的生态 。

 

首先,是产品能力的纵深。除了已经展示的跨应用操作,AutoGLM 的云电脑目标是支持 Office、Photoshop 等更专业的生产力工具。

 

同时,即将上线的「定时任务」功能,也会是 AI 从「被动响应」迈向「半主动规划」的关键一步。想象一下,「每天早上 9 点,自动总结老板的未读邮件并发送摘要到我微信」,「工作日上午 10 点,自动在多平台比价下单我常喝的咖啡」,相当于半个秘书。

 

其次,是对硬件生态的赋能。目前的 AI 硬件,如智能眼镜、Pin 类设备,普遍面临算力、续航和交互的「不可能三角」。

 

在微型设备上堆叠重系统和大电池,体验往往不尽人意。AutoGLM 提出的解法是,让这些端侧硬件「轻量化」,只负责感知和发起指令,而将复杂的应用操作和任务执行全部交由云端的 Agent 完成。

 

交流会上展示的创意案例体现了这一点:连接了体重秤,当检测到用户体重超过 70kg 警戒线时,会自动触发云端 Agent 下单代餐;连接了气体传感器,当检测到鞋柜中氨气/硫化氢浓度超标时,则会自动下单除臭脚垫。

 

这展示了一条相对完整的「物理传感器 → 云端 Agent → 现实世界服务」的链路,让 Agent 实现了对物理世界的连接和操作。

 

通过开放 API 和开发者计划,AutoGLM 正在试图让「万物皆可 Agent」。

 

为了加速这一进程,智谱上线了「AutoGLM 移动端 API 申请通道」及「开发者生态共建计划,开发者可以申请将 AutoGLM 的云端执行能力封装进自己的硬件或软件产品中 。

 

最后,传统互联网的流量天花板,是用户的「注意力上限」——一天只有 24 小时,用了这个 App,就没时间用那个。

 

Agent 创造了一种新的流量形态:并行且由需求驱动。当你只有一个单线程的注意力时,可以派出无数个并行的 Agent,帮你研究旅行攻略、对比全网物价、筛选工作资料。

 

这种由 AI 代理人类去使用服务的模式,可能会极大地扩充整个互联网的有效流量池。而且,这种流量是带着明确「成交意图」的高质量流量,商业价值相对更高。

 

从另一个角度看,Agent 单任务平均超过 256k tokens 的消耗,也对上游的推理基础设施提出了 32 倍于传统对话场景的需求和价值密度。

 

在分享会的结尾,刘潇提出了一个关于 AGI(通用人工智能)的阶段性定义,他称之为「AGI 的下限」。

 

当一个 Agent 能自主稳定地运行一整天(24 小时),作为你的同事或秘书,协同完成工作与生活任务,使你的综合效率提升超过 2 倍时,AGI 的曙光初现。

 

AutoGLM 的这次进化,或许离这个「下限」还有距离。它仍处于早期形态,对指令的理解还很初级,也存在一些 Bug。但通过构建「云端分身」这一核心架构,它确实开始在为 Agent 的「独立行走」铺平道路。

 

从同步操作转变为异步委托,或许是人机协作范式的转变的开始,未来的个人竞争力可能取决于「自身能力+N个AI智能体」的模式,用户通过下达指令,让多个 AI 并行完成任务,从而根本性地改变个人处理日常与工作事务的方式。

 

更理想化一点,也许,一个你只需动动嘴,就有无数个数字分身为你打理数字世界的未来正在展开。

 

 

 

黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人

2025年8月20日 08:48

《黑神话:钟馗》官宣!《黑神话:悟空》游戏团队新作压轴亮相 2025 科隆游戏展

8 月 20 日消息,在 2025 科隆游戏展开幕之夜活动最后,游戏科学团队的《黑神话:钟馗》游戏压轴亮相。

由游戏科学开发的黑神话系列第二部作品《黑神话:钟馗》,今日正式公布首支 CG 先导预告片,并已在 2025 科隆游戏展的展前发布会同步亮相。

本作是以中国民间传说中的著名角色「钟馗」为主要创意来源的单机・动作・角色扮演游戏。因尚处早期开发阶段,暂无实机内容展示。

《黑神话:钟馗》游戏官网已上线,官方放出了一些宣传图,并表示游戏正式进入开发状态,暂无实机演示,将登陆 PC + 主流主机平台,发售日期待定。(来源:IT 之家)

 

宇树科技预告新机器人:身高 180,31 个关节自由度,动作灵活且优雅

宇树科技晚间发布海报,预告关于新机器人的关键数据。海报展现了一个新机器人的剪影,该机器人高度 180 厘米,并配文「31 joint DOF(6*2+3+7*2+2)」。

据悉,「31 joint DOF」指 31 个关节自由度。(来源:新浪科技)

字节跳动辟谣研发豆包手机

据媒体报道称,字节跳动正在研发 AI 手机,目前名称是「豆包手机」,由中兴作为 ODM 厂商来代工,这款手机即将在今年年底或者明年年初推出,早期主要用于字节内部团队的测试,暂时没有对外售卖的计划。

豆包相关负责人表示,相关信息不实。豆包目前没有推出自己手机产品的计划。豆包在持续探索把自己的 AI 能力开放给包括手机在内的各种硬件厂商,在这个过程中,我们会和一些合作伙伴做完整解决方案尝试,但所有合作都不涉及自有手机产品的研发与推出。(来源:新浪科技)

 

小米二季度营收 1160 亿元 ,经调整净利润 108 亿元

8 月 19 日消息,小米集团刚刚发布了截至 2025 年 6 月 30 日的 2025 年第二季度财报。主要数据如下:

  • 总收入达到 1160 亿元,同比增长 30.5%,创历史新高;

  • 经调整净利润为 108 亿元,同比增长 75.4%。

  • 第二季度公司共交付 81,302 辆新车,再创历史新高。截至 7 月累计交付已突破 30 万辆。

  • 截至 2025 年 6 月 30 日,小米已在中国大陆地区 92 个城市开业了 335 家汽车销售门店。(来源:IT 之家)

 

小鹏汽车发布 Q2 财报:营收涨 125%,毛利率超特斯拉

2025 年二季度,小鹏汽车在销量、收入、毛利率和现金储备多项关键指标都创下了历史新高。

第二季度总营收 182.7 亿元,同比增长 125.3%;交付量 10.32 万台,同比增长 241.6%;毛利率 17.3%,同比增长 3.3 个百分点;现金储备环比净增超 22.9 亿元到 475.7 亿元。(来源:极客公园)

 

特斯拉正准备将 FSD 引入日本和泰国市场

8 月 19 日消息,特斯拉正加速推进 FSD 全球化布局。据报道,特斯拉自从今年夏天开始就已经在日本公路上启动 FSD 测试,配置安全员。

特斯拉日本公司表示,当前测试旨在确保符合本土安全法规,待审批通过后将尽快向用户推送 FSD 功能。新旧车型均可通过 OTA 升级获得该服务。

与此同时,埃隆・马斯克周日在 X 上回复网友询问时确认特斯拉正推进 FSD 在泰国的落地,目前正在等待监管部门批准。(来源:IT 之家)

DeepSeek 线上模型版本升级至 V3.1,上下文长度拓展至 128k

8 月 19 日消息,DeepSeek 官方刚刚发布通知:线上模型版本已升级至 V3.1,上下文长度拓展至 128k,可通过官方网页、App、小程序测试,API 接口调用方式保持不变。

上下文容量大提升,这意味着 DeepSeek 能一次性记住和处理更长的文本内容,对长文档分析、代码库理解、长对话保持一致性都更有帮助。(来源:IT 之家)

 

京东 15 万全职骑手全部缴纳五险一金

据京东黑板报消息,自今年 3 月 1 日以来,京东率先为外卖骑手缴纳五险一金。截至目前,京东外卖全职骑手已突破 15 万人,公司为他们全部缴纳五险一金且承担所有费用,每人每月平均缴纳约 2000 元。

对于全职骑手,京东坚持做到 3 个 100%:100% 签订劳动合同、100% 交齐五险一金、100% 正式员工福利。京东外卖全职骑手们不仅能够享受五险一金的全面保障,还可享受法定福利假期、年假、家礼、体检、带薪病假、爱心基金等员工福利,表现优秀的全职骑手还能得到晋升骑手副站长、站长的职业发展机会。

近日,将于 9 月 1 日开始施行的《最高人民法院关于审理劳动争议案件适用法律问题的解释(二)》,引发广泛热议。解释明确规定:所有用人单位必须依法缴纳社保。无论双方协商还是劳动者单方承诺,任何不缴社保的约定均为无效。

京东呼吁:「全行业各平台一起,以实际举措推动骑手社保落地,只要骑手愿意和平台形成劳动关系,平台就应该与骑手签署劳动合同、完整缴纳五险一金,而不是规避劳动关系认定,推卸本应承担的合规责任。」(来源:新浪科技)

 

小米卢伟冰:2027 年进军欧洲汽车市场,不打价格战、不参与内卷

在 19 日的媒体电话会议上,小米集团总裁卢伟冰表示:YU 7 系列延续了 SU7 的耀眼表现,「再次创造了小米的爆款奇迹」。小米汽车预计 2026 下半年开始盈利,公司决定在 2027 年正式进入欧洲电动汽车市场。

卢伟冰表示,小米汽车业务二季度经营亏损收窄至 3 亿元,按照当前的速度,有望在下半年单月或单季盈利;但过去三年多投入超 300 亿元,累计亏损仍巨大,全面盈利还有很长一段路要走。

对于手机业务,卢伟冰表示小米手机坚定瞄准「2 亿俱乐部」,即计划未来三到五年跻身全球年出货量 2 亿台行列。此外,小米自研玄戒芯片完成规模量产,后续研发投入加码,芯片板块也会坚定投入底层核心技术研发。

他还提到,2025 全年小米集团整体收入预计增长 30% 以上,对实现该目标充满信心。最后,在被问到反内卷问题时,卢伟冰表示,小米坚决不打价格战、不参与内卷。(来源:IT 之家)

曝荣耀正打磨骁龙 8 Gen5、8 Elite2 / 天玑 9500、8500 平台,Magic8 系列手机暂定档 10 月

8 月 19 日消息,博主 @ 数码闲聊站 今天在微博透露,荣耀目前正在打磨新平台。

其中正在打磨的核心平台有高通骁龙 8 Gen5(SM8845)、骁龙 8 Elite2(SM8850)以及联发科天玑 9500、天玑 8500。

同时博主表示,Magic8 系列手机暂时定档 10 月,「虽然不是首发,但整体产品节奏也很,加速加速」。(来源:IT 之家)

 

小米 16Pro 配置曝光:正测试 6300mAh±电池、R 角极窄 LIPO、潜望镜等

博主 @ 数码闲聊站 爆料,某厂的迭代小屏样机正在测试 6300mAh± 电池。

据博主所述,这台新机「电池也就小点儿了」,但拥有新形态设计、大 R 角极窄 LIPO 屏幕、「超大底」主摄、潜望镜、无线充、超声波指纹和「满级防水」等特性。(来源:IT 之家)

李想与罗永浩访谈称理想车主被黑是有操纵的,回应 05 年身家过亿传闻

19 日中午,《罗永浩的十字路口》发布深度长谈播客,第一期播客栏目嘉宾是理想汽车 CEO 李想。

谈及近期理想汽车及理想车主被黑的事情,李想表示:「我们从 i8 开始就被黑,包括后面黑我们车主形象,这都是有操纵的。」

对于早期报道称其 05 年身家就过亿一事,李想回应称:反正那时候,按这种互联网的泡沫的 PE 算嘛,就是你有一个收入,有个利润,然后给你算那个市销率,算个市盈率,来测算出来的。

李想还首度公开讲述 25 年创业之路。他表示,2008 年,自己曾被创业伙伴背叛,汽车之家面临严重的财务危机,公司小股东想把李想和另一位创始人赶出公司。但创业 25 年来,自己始终充满热情与梦想。

在谈话中,罗永浩问李想是不是本性低情商。李想回答:「我觉得就是因为没有社会经验。那时候自己很自私,觉得自己什么都是对的,都是别人的错。包括那时候找女朋友也是,觉得都是她的错。」(来源:IT 之家)

昨天 — 2025年8月19日极客公园

谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」

2025年8月19日 15:37

8 月 13 日,Google I/O Connect China 2025——Google 开发者大会在上海拉开帷幕。来自 Google 全球不同领域的专家,为中国出海开发者们带来 AI 驱动下的前沿技术、创新开发工具以及全球化平台的最新动态。

比起纯粹的开发者大会,中国这场 I/O Connect 充满了更多的「嘉年华」属性。在现场展示区,可以看到来自不同国家的开发者们一早排起长队,积极感受「App 热线」、「AI 快拼」、「Web AI 智能体」等 AI 赋能下的产品交互体验。

 

置身其中,无论是遍布各个展台的小游戏,还是 Google 经典「小恐龙」造型的雪糕,都充满了不同于以往国内行业开发者大会的「松弛感」。

这种「松弛感」并非无心之举,而是一种经过精心设计的战略姿态。它标志着谷歌试图与传统、刻板的技术宣讲会划清界限,转而营造一个更具吸引力、更强调创造与体验的开发者社区氛围。整个大会的核心,不再是零散的功能发布,而是围绕一个统一的理念展开:为开发者,特别是中国的出海开发者,构建一个端到端的「AI 原生」工作流。

大会期间,Google 大中华区及韩国总裁陈俊廷在致辞中指出,「当前,AI 正以前所未有的速度重塑各个行业格局,AI 驱动的未来开发模式也正在从根本上打造新的开发者体验。中国出海开发者已成为全球创新舞台上不可或缺的中坚力量。」

事实上,大会的每一个环节,每一次对话,几乎都离不开中国开发者最关心的两个关键字:「出海」与「AI」。现场的很多讨论往往是在同时聊这两个话题。对于当下的中国开发者群体而言,人工智能技术的应用与全球市场的拓展,已经不是两个独立的目标,而是同一枚硬幣的两面,互为因果,密不可分。

这也是谷歌希望向中国开发者传递的核心信息:AI 不仅仅是提升产品功能的工具,更是实现全球化成功的关键驱动力。

01

从 SOTA 到落地

 

如果你今年没怎么关注五月的 Google I/O、以及以 Gemini 2.5 Pro、Veo3、Imagen 4 为首的 Google 系 AI 产品落地,对谷歌 AI 的印象还停留在追赶 ChatGPT 的「防御阶段」,那么你可能会对它今年展现出的系统性和攻击性感到惊讶。曾几何时,外界普遍认为谷歌在生成式 AI 的浪潮中反应稍显迟缓,其初步行动更多被解读为对竞争压力的被动回应。

然而,2025 年的谷歌已经彻底扭转了这一叙事。以 Gemini 为首的 Google AI 产品线,凭借其强大的多模态能力和深度的生态集成,让 Google 再次回到舞台正中央。这种效应自然蔓延到开发者云集、天平另一侧的中国。

在这一背景下,上海的这场 I/O Connect 更像是谷歌 AI 战略在全球范围内被行业证明行之有效后,来到中国的一场精心策划的「线下路演」。它不再需要证明自己的技术实力,而是要展示如何将这种实力转化为开发者生态的绝对优势。在 AI 原生开发成为新范式的当下,这场展会既是一次对开发者生态的赋能,也是谷歌试图建立其全栈 AI 工具链绝对优势的开始。

在正式逛展前,来自谷歌的演讲嘉宾已经通过主题演讲,为现场的中国开发者「汇报」了 Google 在生成式 AI 领域过去一年的成绩。这部分内容构成了整个大会的技术基石,也清晰地展示了谷歌为开发者准备的强大「AI 基地」。

围绕 AI 如何赋能开发者突破创新边界,Google 开发者关系与开源业务总监 Timothy Jordan 在专访中,进行了深度分享:谷歌正致力于提供最前沿的技术与工具,帮助中国出海开发者突破创新边界,打造惠及全球用户的卓越产品。

Timothy Jordan 介绍,「Gemini 2.5 系列模型凭借跨模态任务处理能力和快速响应能力,帮助开发者构建需要复杂规划逻辑的应用。」这并非抽象的技术术语,而是直接指向了出海开发者面临的核心痛点。在竞争激烈的全球市场,用户体验是决定成败的关键。更强的跨模态能力意味着开发者可以构建更复杂、更直观的应用界面,例如,用户可以通过语音、图像和文本的组合与应用进行交互。更快的响应速度则直接提升了用户满意度,尤其是在需要实时反馈的场景,如智能客服、实时翻译或互动游戏中。因此,Gemini 2.5 被定位为出海开发者升级产品体验的「有力支持」,是其 AI 基地中的核心主战装备。

除了通用的 Gemini 模型,谷歌还展示了其在生成式媒体领域的专业武器。Timothy Jordan 指出,「Veo3、Imagen 4 等生成式模型,激发开发者图像、音视频作品的创意灵感,提高内容生产效率。」这些工具的引入,旨在「重新定义创作极限」,尤其对于游戏、社交媒体、内容创作和广告营销等领域的开发者而言,意义重大。它们能够大幅降低高质量创意内容的生产成本和时间,让中小开发者也能拥有与大型工作室相媲美的创意生产力,从而在全球内容经济中获得竞争优势。

如果说 Gemini 代表了谷歌 AI 技术的巅峰战力,那么 Gemma 开放模型系列则体现了其构建广泛生态联盟的深远战略。

Gemma 开源模型与 Gemini 同源,这也向开发者社区传递了一个明确的信号:选择 Gemma 并不意味着在模型质量上做出巨大妥协。Gemma 继承了谷歌最先进模型的基因,但提供了开源模型所独有的灵活性和可控性,助力开发者根据实际需求进一步开发衍生模型,为企业「提升商业效率、解决实际问题开辟新路径」。

众所周知,单一的、封闭的超大模型无法满足所有场景的需求。对于许多企业而言,数据的私密性、模型的定制化以及部署的成本效益是更优先的考量。Gemma 正是为此而生,它授权开发者和企业在自己的数据上进行微调,创造出高度专业化的模型,从而解决特定的行业难题。

即使是放眼中国国内,面对诸多本地竞争对手的挑战,谷歌也并未止步于发布基础的 Gemma 模型,而是通过持续拓展其应用,主动为开发者指明了创新的方向。大会上提到的 MedGemma(用于医疗健康)、全球首个「海豚语」大模型 DolphinGemma 和 Gemma 3n(用于端侧设备)等衍生模型,正是这种战略的体现。鼓励开发者「最大化挖掘 AI 价值」,进入高价值、高影响力的领域。这不仅提升了谷歌技术的社会声誉,也引导着整个开发者生态走向更健康、更多元化的发展路径。

综合来看,谷歌正在执行一种复杂的双轨并进的 AI 霸权战略。它通过两个看似不同但实则紧密关联的路径来巩固其市场地位。首先,通过顶尖的闭源模型 Gemini 系列,谷歌直接与 OpenAI 等对手在性能的「珠穆朗玛峰」上展开竞争,确保自己在技术的最前沿拥有无可争议的领导力。

这部分是其战略的「矛尖」,旨在吸引那些追求极致性能、希望在产品中集成最强 AI 能力的头部开发者和企业,用于处理复杂任务和升级全球产品体验。与此同时,谷歌通过开源的 Gemma 系列,构建了一个广泛而深入的「群众基础」。这一策略的逻辑起点是,AI 的未来不仅取决于最顶尖的模型,更取决于其应用的广度和深度。

Gemma 源自 Gemini 的核心技术,但通过开放源代码,将模型定制、数据隐私和成本控制的主动权交还给开发者,有效吸引了那些被闭源 API 的高昂成本和数据政策所限制的广大开发者和企业。这构成了其战略的「护城河」,通过建立一个庞大、活跃且高度依赖谷歌技术栈的开源社区,来对抗 Llama 等其他开源模型的竞争,并最终将开发者锁定在自己的生态系统内。

对中国的出海开发者而言,这种双轨策略提供了一个极具吸引力的「两全其美」的方案。他们可以在其全球应用的核心功能中,在自己的产品中调用 Gemini 2.5 Pro ,实现业界领先的用户体验。

同时,又可以利用 Gemma 为特定的区域市场、或为了实现低延迟的端侧智能,开发出如 MedGemma、DolphinGemma 等高度定制化、成本可控的衍生模型。这种灵活性使得谷歌的 AI 平台相比于只提供单一路径的竞争对手,具有更强的「粘性」。这不仅是争夺 AI 开发市场的「头部」,更是意图包揽其「长尾」的深远布局。

02

「嘉年华」体验

 

与传统开发者大会常见的「主题演讲+分论坛」结构不同,I/O Connect 的整体动线、互动机制乃至工具链设定,都更像是一场线下「装备升级」体验。谷歌将抽象的技术公告,转化为了可触摸、可交互的现实场景。

I/O Connect 采用了高度互动的展区结构,将整个体验空间划分为多个「沙盒」(Sandbox)和体验区。这种设计的核心理念是,让开发者从被动的听众转变为主动的创造者。作为参观者,在入口处领取日程表后,便可自由进入各个「沙盒」。这里没有复杂的任务系统,目标非常直接:上手体验。开发者们围在各个展台,不是被动地听讲,而是主动地向 AI 下达指令,观看代码在屏幕上自动生成、修改、调试。这种「在实践中学习」的模式,正是谷歌 AI 原生哲学的物理体现。

与其说是逛展,更贴切的形容是参观一个「未来开发者的 AI 基地」:每个展位都是一件强大的新式武器,而谷歌则扮演着军火商的角色,向你展示如何用这些工具赢得下一场战争。

在「应用工坊」(App Factory),Firebase Studio 成为核心,开发者可以亲手体验将一个 Figma 设计稿拖入,AI 智能体不仅能生成前端代码,还能自主分析并部署后端服务,这几乎是「应用级的生成」。

在「创意画廊」(Creative Gallery),主题演讲中的公告变得栩栩如生,Veo 3 和 Imagen 4 等生成式媒体模型的惊人能力不再是演示文稿里的片段,而是开发者可以亲手调用的工具。特别是 Veo 3 首次实现了视频和音频的原生同步生成,让 AI 视频告别「默片时代」,为参会者带来了强烈的感官冲击。

在搭建风格上,I/O Connect 体现出强烈的统一性。整个展区随处可见 Gemini 的 Logo,以及分布在不同部门、但同样对 Gemini 的应用能力了如指掌的 Google 员工。所有的工具,从移动端到 Web 端再到云端,都被同一个 AI 大脑所驱动。

03

「端到端」AI  工具包

 

逛完展后,一个强烈的感受是:I/O Connect 背后连接的是谷歌对新一代 AI 原生开发的一种系统性理解。它不再满足于提供单点的工具,而是致力于构建一个完整的、自洽的生态系统。

前文提到,「出海」是本次大会的关键词。中国开发者在全球市场的成功,其背后有三个关键要素:对全球化市场的敏锐洞察;快速迭代的产品开发能力;以及最重要的,对 AI 技术浪潮的积极拥抱。谷歌正在推动的,正是对后两者的革命性重塑。

仅仅提供先进的工具是不够的。一个真正强大的生态系统,不仅要为开发者提供「武器」,还要为他们铺设通往胜利的「道路」。这正是谷歌在本次大会上发布的另外两项重要计划的核心所在,它们构成了其全方位赋能战略的结构性支撑。

在展示了强大的 AI 模型和开发工具之后,谷歌还宣布正式启动 「Google Developer Program」。这可以被视为谷歌对其开发者社区承诺的正式化和体系化。该计划提供的「个性化主页、技能认证等专属资源」,以及第一时间推送的最新活动与技术更新,旨在帮助开发者系统性地学习和掌握前文所述的整个「AI 基地」。

如果说 Developer Program 是为开发者打好技术和知识基础,那么第四期 「出海加速器」 项目的开启申请,则是谷歌为中国开发者铺设的通往全球商业成功的「最后一公里」。该项目被定位为谷歌整个中国战略的顶点,它将技术(AI 模型)、生态(开发者计划)与最终的商业成果(全球市场增长)紧密连接起来。加速器不仅提供技术指导,更重要的是,它帮助中国的初创团队解决在文化、市场、法规、融资等方面遇到的实际困难,帮助他们「在全球市场加速成长」。

这一系列工具包的推出,说明谷歌想要构建的是一个全方位的「成功即服务」(Success-as-a-Service)平台,这已经远远超越了传统的「工具即服务」(Tools-as-a-Service)模式。其背后的逻辑是,一个开发者或一家初创公司的成功,技术只是必要条件之一。传统的平台可能提供一个强大的 API 或一款高效的 IDE,但这并不能保证其用户能够取得商业成功。谷歌则试图覆盖从创意萌生到全球扩张的全生命周期。

这个路径的设计非常清晰:开发者首先通过 Gemini 和 Gemma 获得强大的技术能力;然后通过 Google Developer Program 获得系统性的学习资源和社区支持,将技术能力转化为熟练的开发技能;最后,通过出海加速器,将成熟的产品和团队对接给全球市场和资本,克服商业化过程中的非技术壁垒。

这种模式创造了一种基于价值而非纯粹技术的强大「锁定效应」。对于现场不少雄心勃勃的中国出海创业团队来说,他们面临的选择不再是「哪家的 AI 模型在某个基准测试上高出 5%」,而是「哪个平台能为我提供最高的全球成功概率?」。

通过解决开发者在市场认知、商业扩展和人脉网络等方面的痛点,谷歌将自己从一个单纯的技术供应商,转变为一个不可或缺的战略合作伙伴。这使得其生态系统对于追求长期发展的开发者而言,成为了一个理性的、甚至是唯一的选择。

除技术和工具以外,Google 将持续通过丰富的资源、社区和合作伙伴网络,促进本土与全球开发者间的交流与协作,陪伴中国出海开发者长期成长。

04

结语

 

在会后与媒体的对话中,Timothy Jordan 分享了在近年来 AI 快速发展下,对开发者生态变化的观察。他表示,「AI 技术的迭代更新正在降低应用开发门槛,有越来越多不同背景的开发者涌入生态,这是令人非常兴奋的。其中,中国开发者的想法非常发散且具有多样性,整体市场竞争激烈,激发出很多优秀的作品。」

这种开发者群体的扩大化,也带来了新的挑战。他同时指出对 AI 时代下开发者的担忧,「随着 AI 便捷工具普及,很多工程师容易忽略学习者心态,即对新知识的深入自主思考。而这种持续自主学习的思维,往往对于开发者来说是最重要的,也是创新的根本来源。」

在他看来,这并非是人与机器的零和博弈,而是一种共生关系。开发者与 AI 工具呈双向赋能关系:开发者通过使用 AI 工具提升效率与创新能力,同时以场景实践和数据反馈驱动 AI 工具的持续进化,形成双向增强的「人机共进」闭环。

Timothy Jordan 强调,「无论是像 Google、Meta 这样的大厂,还是初创企业,经营好开发者生态的关键是把自己想象成用户,深入观察社区中开发者的不同角色背景,以及他们的真实需求,并持续倾听用户反馈。」

就目前来看,谷歌并未将 I/O Connect 定位为一次性的技术展示,更多是在完成一场「开发范式的空间实验」。它敏锐地洞察了快速增长的 AI 原生开发需求,进而尝试将 Gemini 大模型和谷歌开发者生态结合并搬到线下,打通从想法到全球用户的完整链路。

这场大会成功地将「AI 原生工作流」这一抽象概念,转化为一个开发者甚至更多 AI 领域从业者都可以亲身步入、互动和感知的物理空间,使其变得不再遥远;甚至某种程度上,这种交互都已经不局限于物理空间:在小红书上的「出圈」某种程度上就是证明。

 

I/O Connect 不是传统技术大会的对标物,也不是谁的挑战者。它更像是这个时代平台公司探索「人机协同」的一次大胆尝试,一次关于未来软件将如何被创造的宣言。

或许作为「嘉年华」来看,它的完成度还不够高,但它作为「AI 原生开发者大会」来看,最终交付给中国开发者的成果已经足够有「卖点」。

To B 领域第一批吃 AI 螃蟹的人,复盘了「AI落地」的真相和方法论

2025年8月19日 10:20
 
如果你是一名正在投身AI浪潮的创业者,或者一个正在思考,如何利用AI改造现有业务的从业者,那么G7易流CEO翟学魂的经历,或许能给你带来一些重要的启示。
 
他为观察这场AI如何重塑业务、组织、人才、行业格局的变革提供了一个独特的视角
 
G7 易流是中国最大的公路货运行业IoT SaaS服务提供商。大模型浪潮一开始,他们就投身其中,试图开发行业垂直大模型。但不到半年,就果断放弃了。
 
翟学魂当时意识到:大模型就像操作系统,作为垂直应用公司,不应该去修补这个操作系统。因为这并不能直接解决客户的痛点,应等待它成熟,或只利用成熟的部分。
 
于是,他们是另辟蹊径,押注「感知」——研发边缘AI硬件。
 
回过头看,翟学魂表示,「这一步无比正确」。这个选择的背后,是一个对AI落地更深刻的理解:要让大模型这个大脑发挥作用,必须先强化它对物理世界的感知能力
 
他们投入重金研发的边缘AI硬件,能将司机行为、货物和车辆状态联系起来,实现「看到更多」 。例如,它能结合视频、云端算法和历史数据,判断出「未遂事故」 ,并立即采取措施纠正司机的行为,从而避免真正的事故发生。
 
为此,他们的组织结构也发生了变革。传统的层级分明的部门结构被打破,取而代之的是由懂模型、懂算法、懂硬件、懂场景的复合型人才组成的「特种作战小组」 。
 
前不久,极客公园创始人 & 总裁张鹏与翟学魂在极客公园的直播栏目《今夜科技谈》中探讨了其AI在To B领域落地的心得和方法论。问题涵盖了:
  • To B的AI落地,迎来爆发点了吗?
  • To B垂直领域,该如何摆正与大模型的之间的关系?
  • 大模型想发挥作用,AI硬件为何无比重要?
  • To B 领域,AI落地的最佳时机如何把握?
  • AI 正在如何改变 To B业务商业模式?
  • AI时代的组织为何更偏爱战斗小组
  • AI时代,企业的核心竞争力和行业格局如何变化?
 
访谈中部分精彩观点:
 
  • 要使智能体表现出色,大模型发挥作用,前提是必须增强对物理世界的感知能力。再智能的「人」也需要能够感知物理世界。
  • AI 的核心价值在于解决传统 IT 技术无法覆盖的「长尾」和「复杂」问题,将过去仅能提供管理工具的 SaaS 模式,转变为直接交付确定性结果的服务模式。 这种能够交付确定性结果的服务,将能改变客户的付费习惯,缩小中美之间的付费差距。
  • 过去的 IT 技术划分了行业中大公司和小公司的边界。未来 AI 技术将进一步重塑这一结构。未来那些有重资产、能对客户做出重要承诺的中小企业,会因为 AI 技术从「小而苦」变成「小而美」,而那些只做轻资产管理和赚取差价的中间层将会被挤压,甚至被淘汰。
  • 与上一代AI技术旨在「替代人类」不同,大模型技术的核心作用在于「赋能人类」,通过智能体(agent)帮助人们更高效地完成任务,尤其是在沟通和决策方面,而非完全取代他们。
  • AI 应用的最大瓶颈是人才,尤其是同时理解行业场景和模型技术的复合型人才。
  • 作为 To B 服务公司、SaaS 公司,与客户的连接和数据永远是最重要的核心资产。而且在 AI 时代,这两件事会得到加强。
 
 
以下为直播访谈精华,经极客公园编辑整理:
 

To B垂直领域,该如何摆正与大模型的之间的关系?

 
张鹏: 这些年,我们几乎是同步开始重点关注 AI 的,说说你这几年的心路历程。
 
翟学魂: 首先,我是一个坚定的 AI 信仰者,用实际行动践行着我的信念 。我的一个特点是,每次投入一项行动,至少会坚持三年,不达目的不罢休 。在 AI 方面,我们已取得一些成果,例如,2018 年我们孵化了卡车自动驾驶项目,经过五年的坚持,大概有接近 3000 台重型卡车在中国高速公路上运行。在实际运行的 L3 级别自动驾驶卡车方面,其他公司的规模大概是我们的十分之一,最多一两百台。
 
张鹏: 结合你们的业务看,你是什么时候形成了对 AI 的信仰?
 
翟学魂: 我们目前为 30 万台车辆提供 7×24 小时安全服务。每天夜间,我们至少会唤醒 800 人次即将疲劳驾驶的司机。对我个人而言,这是 AI 对物流行业最重要的价值体现之一。我们从 2015 年左右开始这项工作,快十年了。主要用的是所谓的「小模型」专业AI算法。
 
张鹏: 那时主要还是机器视觉技术,属于上一代 AI。
 
翟学魂: 是的,我的信念基本上从那时开始形成。我当时意识到,如果要处理大范围、高度动态且长尾场景的问题,AI算法技术会远远优于其他技术和人力投入。这也是我们启动卡车自动驾驶项目、并在大模型问世后第一时间积极行动的原因。
 
张鹏:刚才提到的数字很让人震惊,一晚上可能要提醒八百多人次司机避免疲劳驾驶。在几十万辆卡车(及其背后的无数车队)的运行中,如果没有用AI,尽管并非每次都会发生事故,但风险概率将非常高。ChatGPT 出现后,你首次尝试将大模型带来的变革与现有业务结合的实践或实验是什么?结果如何?
 
翟学魂: 我们的首次尝试很快就放弃了。坦率讲,当时我们看到大模型,便立即着手开发行业垂直大模型。
 
张鹏: 这是相当普遍的想法。
 
翟学魂: 不到半年,我们便果断放弃了。
 
张鹏: 为什么放弃?
 
翟学魂: 从实际角度而言,我们构建行业大模型并不能直接解决客户的问题。它似乎是为了行业打造基础设施,但结果却未能直接触及客户痛点。
大模型如同操作系统,我们作为垂直应用公司,不应去修补这一操作系统。如果它不够完善,我们可以选择暂不使用,等成熟后再用,或仅利用其成熟的部分。没有必要动用大量资源去「修补」大模型,将其变成所谓的行业大模型。
后来,我看到有人继续尝试行业大模型,都劝告他们停止,毫无意义。果然,这些「修补」后来逐渐被大模型自身的发展覆盖了。
 
 

大模型想发挥作用,「边缘AI硬件」为何无比重要?

 
 
张鹏: 在已有操作系统上自行开发定制补丁版的操作系统,意义不大。外行人可能会认为,数据即石油,你们在行业内拥有海量车辆和历史积累数据。理论上,利用这些数据对模型进行相应调整,应该能在该领域取得更可靠的成果。首先,这一逻辑是否正确?
 
翟学魂: 这个结论是正确的。我们目前真正取得进展的工作,最终还是以大模型作为操作系统 ,在此操作系统上,结合我们积累的行业能力和数据,为客户开发能直接解决特定场景痛点的智能体(Agent)和应用。这条路径是我们坚定不移地走的。
 
刚才提到,第一步测试后我们认为「修补」大模型并不是我们应做的工作。然后,我们选择了几个关键场景,例如安全、车辆货物、冷链货物温度等,研究如何以大模型为基础,结合我们的数据积累和行业知识(know-how),更好地解决客户问题。
去年,我们实际上开始做坚定投入。我们投入的重点并非直接在大模型上开展工作,而是开发了边缘 AI 盒子,即边缘 AI 硬件。
为什么要开发边缘 AI 硬件?
因为我们发现,要使智能体表现出色,大模型发挥作用,前提是必须增强对物理世界的感知能力。我们可以假设模型会变得越来越智能,但再智能的「人」也需要能够感知物理世界。
因此,我们选择首先强化感知能力。当时,边缘计算芯片取得了重大进展,具备数 T 算力的芯片变得非常廉价,且整个工具链也相当完善。所以,从去年开始,我们启动研发边缘 AI 硬件。
现在看,这一步绝对是正确的。
物流现场过去看不清楚的,现在能看清楚了;原来看不见的,现在能看见了。举个例子,我们现在不仅能识别事故,还能辨别「未遂事故」。比如,当司机正在打电话,旁边有人经过,司机突然踩刹车,差点没刹住,这就是未遂事故。这对司机的安全至关重要,因为识别出疑似事故后,我们会立即采取措施纠正司机行为,否则若再发生三次,可能就会演变为真正的事故。
再比如,以前设备无法识别车旁有人,而那个人可能正试图盗窃货物。现在,边缘计算硬件能够将司机行为、货物和车辆状态联系起来,使我们能够判断所有我们希望了解的情况。
我认为,这是我们对 AI 应用最重要的一个洞察:必须先为大模型的大脑提供他人所不具备的、更优的物理世界洞察能力。换言之,即是对环境和意图的识别与洞察,之后大模型才能发挥其强项。大模型的强项就像一位博览群书的博士生,你提出任何问题,它都能解决。若你提供的是无用信息,它返回的也将是无用信息。
因此,我们目前开发的这种能够识别万物的 AI 边缘硬件,旨在整合过去的所有数据,包括哪些路口存在风险等信息,从而实现上述作用。
 
张鹏: 边缘 AI 硬件为何对判断潜在偷窃行为或未遂事故如此重要?
 
翟学魂: 要判断何为未遂事故,可能的情况是:车辆正经过一个事故多发路口。这个路口是危险路口,可能是因为村口常有老年人直接横穿马路,这些数据是我们多年积累所得,几乎涵盖了中国所有货车的风险路口记录。
此外,如果司机已连续驾驶 3 小时,他们可能已感到疲劳。这属于行业知识(know-how)。再加上司机突然踩刹车,以及前方视频中有人影闪过,所有这些信息综合起来形成一个上下文。
然后,结合边缘 AI 盒子的视频和云端算法,我们就能判断出这是未遂事故。这就像经验丰富的驾驶员坐在车上,看到你的驾驶方式就能知道对不对。这种判断是综合性的,结合了过去的经验与实时观察到的情况。
有时仅凭小模型便可解决,有时则需小模型与大模型结合,才能获得最精准的判断,且最好能在 2 秒钟内完成。在具备上下文的情况下,智能体(agent)便能发挥作用,例如,它必须改变司机当时的状态,为其拨打电话。
有了上下文,了解现实世界的情况,这通电话对司机行为产生影响的概率便会非常高。
从我们的角度来看,更重要的是上下文中的信息、数据和判断的来源。这个前提条件是我们的贡献,而非大模型的贡献。大模型已经研读了人类历史上所有书籍,对所有逻辑推理都非常熟悉。你只需告知其上下文,让它协助拨打电话并说明目的,它便能很好地完成任务。
 
张鹏: 你们公司找到了与大模型之间的关系,即必须为其提供增量信息,使其能够看到过去无法察觉的事物。有了这些,再结合大模型的能力,便有可能从看到更多进阶到看懂更多
为了实现看到更多,需要一套新的系统,这套系统甚至包含硬件和传感设备。这与大模型并不冲突,反而相辅相成。为大模型提供信息,它便能给予更有意义的反馈。最终,智能体(agent)在最后一步发挥作用,进行干预并采取更有效的行动。
 
翟学魂: 智能体对我们具有巨大作用。过去,我们所有的硬件和平台最终只能输出一个结果——报警,供谁查看呢?供坐在电脑前的管理员,或是我们称之为「安全监控员」的工作人员查看。当她们认为必须进行人工沟通时,便会拿起电话联系司机 。
我们原有的系统仅能实现报警和信息发送。但现在已完全不同,我们不仅可以报警,还能让智能体(agent)完成有效沟通。过去没有大模型时,系统无法与人进行有效沟通。
我后来思考,首先,除了搬运和驾驶人员之外,绝大多数人的工作内容是什么?他们主要通过沟通来完成任务。
然而,许多情况无法提前预知,当人们发现问题并进行沟通时,可能为时已晚。其次,没有人愿意每天重复进行这些无限的沟通工作。因此,我认为大模型的作用在于赋能人们,使那些具备运营目标的人能够在需要沟通时与司机进行有效沟通。
此外,如果你管理着 5000 到 10000 名员工,您会发现有些员工难以教导。你认为重要的事情,他们却不重视。例如,客户可能非常挑剔,要求从后门进入,但他却每次都不注意,还不轻拿轻放。但如果在他即将抵达时,给他打电话说:「十分钟后你就要到了,务必穿上马甲、戴上安全帽,从后门进入。」
这种时候他便不会犯错,这就是在帮助人。
因此,我后来有一个重要体会:上一轮技术旨在替代人类,例如自动驾驶便是替代司机。而大模型本身的技术具备大脑,它应该用于帮助人类更好、更高效地完成任务。我认为,对于物流行业的智能体(agent)而言,本轮技术主要目标是辅助人类。
 

To B 领域,AI 落地的最佳时机如何把握?

 
张鹏:在 To B 领域,有一种观点认为,前两年许多大型企业的管理者对应用 AI 的决心很强,因为担心不应用就会落后。但后来许多在 To B 领域实际交付过项目的人士表示,这两年大部分给管理者交付的只是情绪价值。
简而言之,AI 并未真正解决业务上的根本问题,只是在业务边缘有所应用。最终汇报时会声称公司拥抱 AI,有几个项目已在发挥作用,确实很厉害。然而,公司的原有业务模式和能解决的问题并未发生实质性变化。这是我们过去在 To B 领域观察到的情况,令人感到整体较为悲观。你身边的情况是怎样的?
 
翟学魂: 首先,我认为物流行业从业者更为务实,因为他们只关注成本、效率和安全,你必须清晰阐述这个技术对成本、效率和安全的影响。
物流行业的「新能源化」,其实与 AI 有些相似,它们都是新的生产工具,我对它们对公司的影响有着深刻体会。
起初,五年前有一批人一次性采购了 800 台新能源车,结果却以失败告终。原因在于当时车辆技术不成熟,社会环境不具备,电池性能也欠佳。因此,那些初期冲劲十足的人很快便被淘汰了。但这样的人非常少,属于极度狂热或机会主义类型。
随后,在前两年,许多人购买了 30 台新能源车,目的是什么呢?试运行一下。因为他们的应用场景恰好与新能源较为契合,所以便进行了试点。三年前、两年前,许多人都采取了这种做法。
后来,你知道去年和今年发生了什么吗?去年和今年,如果物流公司老板手中仍有大量燃油城配车辆,他们将被淘汰出局。
生产工具的发展正是如此:初期增长缓慢,但一旦达到某个临界点,由于新工具在效率和成本上占据优势,便会立刻出现反转,迅速淘汰旧工具。
换言之,对于新生事物,不应等到它完全成熟。一旦其成熟,原有的传统事物将立即处于竞争劣势,迅速被淘汰。
因此,现在在新疆,如果你拥有一辆燃气车而非电动车来运输煤炭,你将毫无机会,无法获得任何合同。因为其他人的成本比你低 10% 仍能盈利,而您却已亏损。所以你的车辆必定只能闲置,因此必须提前布局。
那些成功提前布局的人是怎样的呢?他们是三年前开始购买 30 台车辆的人。
我的意思是,这实际上有两个大的阶段。第一个阶段是狂热者被淘汰;第二个阶段,是那些看准机会进行小范围试点的人,因为他们意识到这件事开始有价值了,所以先尝试采购 30 台车辆。
在第二阶段,当新生产工具淘汰旧生产工具时,便会出现行业洗牌。此时,转化率和渗透率的速度将超出所有人的想象,因为新生事物会反过来内卷你。那么,现在 AI 在物流行业处于什么阶段呢?大概就是两三年前新能源车的阶段。
然而,大模型技术的应用与新能源车的最大区别在于:你购买的车辆,它仅仅是一辆车,与你没有深度的关联。但你使用的智能体(agent)则不同。智能体中包含的数据和专业知识(know-how)是你自己的。你输入什么,它输出的结果就与你相关。因此,如果前期没有积累,届时便会遇到问题。
现在是早期阶段,尽管目前的投入成本可能高于即将获得的回报,但它已具备价值,许多地方实际上已在使用。我刚才提到的这些案例,都是我们与客户共同实现的。
例如,对于一家从事危险品运输的公司,他们对安全极度重视。他们不允许货车司机单手抓扶上车,而必须要求司机「三点式上车」,即双手抓扶,身体有三点支撑,以此方式上车。以前曾因未能做到这一点,有人摔伤。而且不仅是人员摔伤,由于运输的是危险品,一旦触碰到阀门等部件,后果将十分危险。
坦白说,若不借助当前的多模态大模型,依靠编写算法来开发一个三点上车的识别模型,那将耗费巨大精力。而且类似场景繁多,非常多元化,属于长尾场景,这正是多模态大模型当前的独特贡献。
但你会问,这能改变企业的管理模式吗?能改变组织结构吗?能立刻创造竞争力吗?目前还不能。它现在只是有效,解决了某个场景问题。因此,我认为现在正处于这个阶段,并且还会持续一段时间。
 
张鹏: 所以创业者的最佳状态是既有好奇心又带点不自信。有好奇心意味着对新生事物应勇于尝试。不自信则表示,尝试后发现效果不错,但也不能立即全盘否定原有模式,仍需逐步观察和推进。如果好奇心与极度自信相结合,后果将十分可怕。好奇心必须伴随些许不自信,这样的配方可能才是正确的。
 

AI 如何改变 To B业务商业模式?

 
张鹏: 简单来说,企业管理者切勿好奇心十足却又极度自信,这极易导致错误。物流行业老板的情况,我也能理解,非常务实,每一笔业务都需清晰核算其合理性。这是一个快速可见的循环,容不得所谓的情绪价值或面子工程。
你们在推进这事时,是与客户共同探索的。在开始之前,你们是如何沟通的?是你主动寻找客户,还是客户主动联系你们?怎么分工?
 
翟学魂: 我们服务 4 万个客户,经常能听到许多抱怨。然而,这些不满意并非源于我们员工的不努力,而是因为技术存在瓶颈。
运用原有技术模式解决客户问题时,有时确实无法突破。比如,我刚才提到的对货物的长尾判断,依靠原有算法技术和硬件技术就是无法解决的。
因为原有硬件技术在边缘侧缺乏足够的计算能力,只有非常有限的计算能力,要么只能识别人脸,要么只能检测入侵,其他功能都无法实现,更不能形成综合判断。
因此,我们过去有大量这类问题无法有效解决。包括客户会说:「你看我这些海鲜,如此贵重的大闸蟹、帝王蟹都已装入车厢,车厢也安装了摄像头,为什么螃蟹爬出来你却无法告知我?」结果等到达目的地时,螃蟹已经死了很多。
 
张鹏: 还得专门为螃蟹训练一个模型。
 
翟学魂: 我说要给螃蟹训练个模型,半年都过去了。而现在真的不用了。
 
张鹏: 现在如何解决?现在如何识别螃蟹?
 
翟学魂: 以前需要 1 万张照片,投入大量算法人员,耗费至少三个月;现在可能 100 张照片,一周就能完成。
原有的 SaaS 产品无法直接面向最终结果,因为总是需要人工先查看,查看完毕后在系统内记录,然后才开始处理。所以,过去的 SaaS 仅是一个管理工具,无法交付最终结果。
但现在有了更丰富的技术,确实可以交付结果了。所以,我们首先关注原有的安全服务中客户不满意之处,以及货物服务中客户不满意之处。我认为这件事并不困难。后来,我们专门抽调团队,拜访客户,收集所有不满意的问题,然后共同分析这些问题是否适合用今天的新技术来解决。这是第一步,非常重要。这是我们主动发起的。
此外,还有一些情况,少数客户的管理者有「情绪价值」需求,规定「你们今年给我做 10 个 AI 项目」 。
 
张鹏: 这样的情况也有,是吗?
 
翟学魂: 是的,客户会说:「老翟,我们老板说要做 AI 项目,明年要考核我的投资回报,所以我们得找一个既有用又是 AI 的项目。」 这通常是大客户。我认为这两种互动方式比较典型。
我觉得最不可行的是重新发明一个场景。坦白说,在垂直行业里,客户与我们打交道这么多年,如果你连他们提出的问题都解决不好,再去创造一个新问题,成功的几率非常小。所以,从我的角度来看,我们做 To B 的 AI 服务,并非要创造新问题 。
要审视过去存在的老问题中,哪些是我们的解决思路不当、解决效果不佳的。这么多年来,大家的管理并没有出现新问题,只是老问题未能有效解决,这是我的观点。
 
张鹏: 这一点我非常认同。最近我与老翟经常探讨,To C 和 To B 两个领域都在围绕 AI 寻找新机会。我同时接触到两类创业者:一类像您这样,拥有历史积累、场景、用户和客户;另一类是新创业者,从零开始就要创造新事物。我聊了一年,接触了几百人,最终感觉与您刚才的观点有些相似。
如今在 To C 领域,创业者真正的机会可能在于寻找需求的延长线,即创造一些合理的新场景,因为原有场景已被巨头占据。
试想一下,如果说「我在原有场景中比巨头效率更高、体验更好」,巨头是不会放过你的。那是他们的核心阵地,你领先三个月,他们就会反应过来。
但有些事物,可能是在用户原有功能价值上延伸出的场景。例如,最近我们看到的一些硬件产品,以及情绪价值类产品,突然发现这条线是在用户原有功能价值上延伸出来的,这便有可能带来机会。若巨头真的分兵来做这件事,反而可能是其薄弱环节,甚至未必比你有天赋。他们可能资源更多,但未必能胜过你。
因此,To C 领域往往要在需求的延长线上寻找机会,而 To B 则是将「虚线填成实线」。
最初两点之间甚至没有连线,你的 SaaS 产品帮助将其虚拟连接起来,看起来好了许多,有条线确实走起来更顺畅。像你刚刚提到的,如果老问题未能得到完整解决,此时首先要做的不是创造延长线,而是将虚线连接成实线。这样一对比,应用 AI 有两种方式:一种是在延长线上寻找场景,另一种则切勿寻找新场景,而应在原有场景中将虚线划实,交付端到端的价值,确定性地解决问题,就是巨大的价值。
在To B 领域,过去 SaaS 模式在中国其实相当艰,而如果你能够将虚线连接成实线、交付确定结果时,商业模式是否会有进步和突破?
 
翟学魂: 举两个例子,你就会明白了。物流行业有两个特征,第一个特征是物理上的搬运。这其实就是我刚才提到的自动驾驶能够通过技术解决的问题。但这只是物流行业的一个关键特征,甚至我认为并非最根本的。最根本的关键特征是「货运代理」。
什么是货运代理?
就是你有货物需要运送,但无暇、无时间或无精力处理。你委托我作为货运代理,协助解决各种安全、温度等问题,并按照要求准时送达客户手中。这便是货运代理,实际上是物流行业服务的根本特征,而搬运仅仅是物理层面的特征。
全世界的大型物流公司都起源于货运代理,而非搬运业务。因此,货运代理这个名称意味着什么呢?它代表物流过程具有诸多复杂性,是一个漫长的链条,需要专业人员全程关注,确保万无一失,出现问题也能妥善解决。所以,货运代理作为一种服务,是物流行业第一性原理层面最根本的特征。
既然需要代理,这说明事情链条长且容易出现问题。如果链条很长,如果是一票快递,实际步骤数至少有几十个,印象是47个左右。
 
张鹏: 也就是从快递寄出到收件人签收,需要 47 个步骤。
 
翟学魂: 对,假设每个步骤,且大部分步骤都是人与人之间的交接。如果每个步骤的成功率是 95%,到第五个步骤时,成功率就只剩下 70% 多了,便会出现大量问题。但为何现在仍然存在这么多问题呢?因为这个过程太长,链条中的细节和个性化过于丰富。
物流行业最重要的一个特征就是场景丰富,代码无法完全覆盖。如果代码能够完全编写,早就变成工厂模式了。
还有一个特征是什么呢?车上安装摄像头非常便宜,仓库安装摄像头也极其廉价,因此实时数据极为丰富。
 
张鹏: 就是物流行业的数字化其实已经完成得比较好了。
 
翟学魂:是的,到处都是摄像头。
 
张鹏:但问题在于未能将数字化、直接转化为如同工厂流水线般的确定性。从数字化到真正的生产力整体提升、确定性提升,中间其实留下了巨大的空间。
 
翟学魂: 我想强调的是,当前的物流行业是由信息技术(IT)而非 AI 和数字技术定义的。信息技术依赖流程驱动,依赖一段段代码驱动,但代码是无法穷尽的。
因此,物流这个长链条存在诸多问题,例如安全和效率等方面。那么,如果引入 AI 会怎样呢?实际上,AI 能够针对每一段流程之间那 5% 的漏洞。
当你为其提供足够的数据,它便能辅助人们解决这部分问题,使流程的完整性从 5% 提升到 99%,甚至接近 100%,从而使效率提升 10 倍以上。
因此,以 AI 技术为基础重新定义物流行业,能够使效率和安全性提升 10 倍。因为原有的 IT 技术无法解决中间的这些问题。一方面是代码无法完全编写,另一方面,即使代码编写出来,人们也未必能完全按照代码执行。
原有物流行业的运行模式是:通过 IT 技术搭建关键流程节点,然后利用这些节点的结果制定 KPI 进行考核。而未来以 AI 为基础的物流行业,则是通过数据赋能 AI,帮助人们在无需编写程序的情况下,将事情做对,并且效率极高。
 
从我们目前在关键高价值场景中对 AI 的初步应用来看,客户具备付费意愿。
 
比如,我们有一家饲料客户,是全国最大的饲料公司。他们雇佣了一批人 24 小时监控,但仍然无法完全看管住,饲料依然会丢失。如果我们的智能代理(agent)能够帮助他们看管好,解决了实际问题,他们支付的费用将远低于原有的损失。
 
而且,如果一单收取一块钱,对他们而言很容易商议,因为原来这些价值并未被挖掘出来。
因此,我认为,从 IT 技术主导的物流行业到 AI 技术赋能的物流行业,将发生巨大变化。在这一变化中,技术人员有机会,客户也愿意付费。
 
张鹏: 过去在 SaaS 阶段,中国和美国的公司归根结底都在销售工具、销售虚线(指未实际落地的价值)。但美国的付费环境更好,中国的 SaaS 公司与美国同类型公司相比,尽管存在产品等方面的问题,但整体环境存在差距。
然而,未来当我们把虚线变为实线,交付实际价值——这里的实线既是实体流程线,又是可实现的价值——这种情况下,中国客户过去那种不好的付费习惯有机会改变吗?换句话说,当大家能够计算增量收益,看到问题确实得到解决时,中美之间的付费差距会缩小吗?有没有希望?
 
翟学魂:非常有希望。或者这样说,目前我们与美国同类型 SaaS 服务的收费差距很大,他们收取 1 美元,我们收取 1 人民币。但智能体(agent)的费用几乎接近,因为解决问题的价值相近。
为什么中国客户对 SaaS 付费意愿较低?因为我们的人力成本较低,而且他们对管理工具的价值认可与对结果的认可不同。
未来真正面向结果的服务,收费情况将有所不同。
 

AI时代的组织,更偏爱「战斗小组」

 
张鹏: 你们公司原有团队是信息化、数字化时代的团队,现在需要将大模型、AI 能力融入其中——这背后需要团队有新人、新认知。最近大模型和 AI 领域如此热门,你们公司能招到合适的人才吗?这件事是否痛苦?
 
翟学魂: 说到痛处了,确实很痛苦。
现在对于行业应用者来说,仍处于 AI 的早期应用阶段。但对于我们这样的服务公司而言,应该进入重投入阶段了。
因为我们看得很清楚:第一,必须软硬一体,边缘侧必须具备实时数据和识别能力。必须利用大模型作为智能代理(agent),将原有工具转化为最终服务。
这条技术路线有三个关键词:第一,需要具备硬件、软件、模型、数据方面的人才;第二,需要对场景有极度理解的人;第三,需要对大模型有极度理解的人。这三类人共同协作才能取得良好结果。
我们原来有两类人是足够的:从事硬件、算法和数据研发的人员,以及拥有近 20 年物流经验、对场景理解较深的人员。
但从比例上来说,既懂一点场景又懂大模型的人非常稀少,懂模型且有 To B 经验的人更少。
因此,如果要同时开展 10 个场景的项目,就会捉襟见肘,根本不可能。
不过现在模型能力已经可以了,许多地方都能应用,多模态稍差,但语言模型绝对够用。语言交互的反馈速度稍慢,但推理能力没有问题。所以目前的能力在物流行业可以覆盖许多场景。
目前 AI 应用的成本可以忽略不计,客户和我们都能承担。所以真正的瓶颈在于能否组建完整的团队,将场景、数据、算法、硬件和大模型整合起来。有多少这样的团队,就能创造多少成果。
所以,对 To B 领域大模型应用、AI 应用感兴趣的年轻人,欢迎推荐给我。
 
张鹏:过去,懂模型的人可能选择去大厂、创业公司,或者自主开发产品、成为独立开发者,并未过多考虑在物流这样的场景中如何发挥价值。
 
翟学魂: 首先说一下软硬一体最终实现的结果:
第一是「理解现实」,即看到情况后能明白发生了什么——是事故还是未遂事故?是否异常停车?异常停车的原因是暴雨还是其他?这主要通过视觉模型和多模态模型来实现。
第二是「有效沟通」。理解现实后,必须打电话与人沟通,把该问的问清楚,该传达的传达出去,达成共识并促使对方行动。我们向客户交付的结果就是这两点:理解现实、有效沟通。
我们现在的工作方式几乎不按部门划分,而是按项目组成跨专业背景的小组,共同推进产品项目。每个项目小组必须有懂模型、懂 AI(尤其是大模型)的产品经理,有懂大模型与数据、知识库结合及调优的研发人员,还有硬件工程师。基本上任何一个项目都需要五六个角色协作才能取得成果。
我估计两三年内,懂模型的产品经理在我们团队中的比例会达到四分之一到三分之一,现在还远远没有达到。
 
张鹏: 你刚才说的是一个个战斗小组,是多模型(MoE)模式,不是要求通才,而是需要战斗小组。
 
翟学魂: 一个人不可能特别精通这三件事。肯定要擅长一个部分,在这个部分深耕,同时能理解另外两部分,能和别人沟通就不错了,当然还得具备一定的沟通能力。
 
张鹏:这有点像人类军队改革,核心是小型化、集成化,变成一个个作战小组。特种作战小组就能解决大问题,配备最好的装备、训练和人才,也能获得更大价值。原来长链路里的人都是螺丝钉,现在逐渐变成特种作战小组,解决大问题并获得大价值。
 
翟学魂: 总结得太好了。特别是去年和今年,我们在推进 AI 项目和产品时,重构了产品、技术结构。以前是以功能性组织结构为核心,你完成一件事后提出需求,我拿到需求后再做另一件事,软件、硬件、算法平台层层推进。
自开始开发 AI 产品后,原有的功能结构肯定行不通了。因为信息传递缓慢,而且许多问题需要大家共同商议才能解决。所以现在最重要的是形成能够实现软硬一体、数据与模型配合、软件与硬件配合的作战小组。
原来依靠部门经理管理,现在依靠作战小组。
所有小组有一个共同的平台和机制:第一,立项时评估投资回报率(ROI);第二,立项后评估方案可行性。原来分层分功能的组织架构,在未来的产品迭代中肯定行不通。
 
张鹏:我经常阅读战争史和军队相关内容,军队是最务实的,输赢代价太大,所以他们的思维演进在人类社会中比较靠前。既接近技术(先进技术优先用于军队),又是管理人群的组织。如何让组织发挥最佳效能赢得战争,军队战斗体系的不断进化具有重要的指引意义。
例如,苏联时代的大纵深理论,依靠集团军作战,展开纵列穿插数百公里,每个士兵都是小兵。而这些年提及最多的是旅级战斗群,中国的重装合成旅比师级还小,与集团军相差好几个级别。
这表明军队正在向更少的人员、更强的装备、更灵活地解决问题发展,具备复合资源和能力,从空中到地面都有覆盖。这提示未来商业领域的公司,大概率会解构长链路的组织和管理。
探索时采用特种作战小组模式,成功后则扩大为旅级战斗群、重装合成旅。
你刚才提及的实践,某种程度上印证了这一点,人类世界的道理是相通的。关注最具挑战性领域的变革,便能为我们指明方向。未来组织层面将有诸多创新,年轻人在更小的体系中能更闪耀,发挥更大价值。
 
翟学魂: 对,很简单,一个产品成功了,所有人都能看到,不像原来层层递进,很久都不知道谁行谁不行。
 
张鹏: 最近几年招募的年轻人中,有没有让您感到骄傲、欣慰的例子?
 
翟学魂: 我认为最重要的并非经验多少,也不是学历高低。过去我们可能要求清华、北大、科大的毕业生,但在大模型和 AI 时代,我总结的是:首先,最好是 90 后甚至 95 后;其次,对新技术和模型的边界有理解,具备深入学习的好奇心;最后,对解决客户问题充满热情。
这样的人才很快就能取得成绩,展现闪光点。并非一定要寻找所谓的「大牛」,我不相信有天生的大牛,也不相信依靠长时间资历就一定能培养出大牛。
 

AI时代,企业的核心竞争力如何变化?

 
张鹏: 作为公司创始人、CEO,你看到智能体和 AI 在行业中已产生确定性作用,有没有思考过企业未来的核心竞争力?甚至使命有没有变化?
 
翟学魂: 有一件事没有改变:作为 To B 服务公司、SaaS 公司,与客户的连接和数据永远是最重要的核心资产。而且在 AI 时代,这两件事会得到加强——它们高度相关。
什么是「与客户的连接」?
具体而言:客户的车辆与你相连,司机的微信、电话与你相连,上游货主的 ERP 接口与你相连,还有三年的合同——这些都是连接。这是 AI 发挥更大作用的基础,因为最终要解决问题:比如一票货物出了问题,你得能够打电话给司机,司机也愿意接听;要在线与调度沟通,你得有其账号。这些上下游连接,重新创建的代价极高。
其次,就是我们反复提及的数据——并非历史垃圾数据,而是此时此刻物理世界发生事件所产生的数据。这种独特的数据获取能力,加上与客户的连接,永远是创造下一代产品的基础。
我思考得很清楚:今天我们能够开发新的 AI 产品,正是因为拥有这些核心资产。不变的是这些资产,但最终产品发生了变化,因此组织结构、人才结构必须调整。
例如,要能够创造有竞争力的智能体,团队机制、人才构成必须改变——原来可能只有两三种人,现在需要四种人才能运作,而且运作机制与原有的科层制完全不同。这种竞争力的转变需要循序渐进,不能像法国大革命那样「断头台式」颠覆,而要像「君主立宪的光荣革命」——一边继续提供传统服务,一边创造新机制。
人员结构不一定需要完全更替,但工作方式和产出物必须调整,以创造新的飞轮 。这个飞轮并非产品本身,而是团队的成长飞轮,这才是最重要的竞争力 。
 
 

IT 技术塑造了公司边界,AI将洗牌行业格局

 
张鹏:当前 AI 领域热衷于探讨数据飞轮,却忽视了人的成长这一核心要素 。只要公司并非单打独斗,便必然面临组织问题。
翟学魂先生是我刚入行时的引路人 。我毕业时,他已是业界举足轻重的人物 。我第一篇在业界产生影响力的文章,便是在他指导下撰写的关于保供物流的内容 。
今天非常荣幸能与他交流 。我刚入行时他便是如此,如今看来容貌未曾有显著变化(或许那时显得老成,现在反而更显年轻),并且依然活跃于前沿领域探索,令人由衷钦佩 。
你在物流行业已推动变革逾二十载,说说你对未来物流行业的展望?
 
翟学魂:前段时间我曾专门思考此问题 。当前的物流行业结构实际上是由 IT 技术塑造的 。凡是能实现核心流程 IT 化并量化为关键绩效指标(KPI)的领域,均发展成为大型企业 。
例如快递、电商配送等均是如此 。当前的大型公司,其行业结构皆由 IT 技术塑造 。此外,甚至货运领域的许多高管都源自同一家公司,你知道是哪家吗?是德邦 。
为何高管多出自德邦?
因为德邦最早在货运、快运行业普及 KPI 。因此,德邦的干部在数据驱动管理方面尤为精通。如今,你会发现顺丰、京东、菜鸟等大型公司的许多干部都来自德邦,因为德邦的管理理念与 IT 技术高度契合。
反之,凡是难以量化 KPI、存在诸多小场景的业务,则由中小公司承接 。实际上,大型公司与小型公司的边界是由技术划分的 。那么我们需思考的问题是:当 IT 技术升级为 AI 技术后,行业结构必然会发生重大变化 。
我认为有几点是确定的 。在这个行业中,拥有 50、100、200 乃至 500 台车辆的重资产中小企业,其生存状况将非常良好 。原因在于重资产本身即是一种承诺,需要企业负责人亲自承担责任,需有人承诺我已投入 50 台车辆为您提供服务,这是一种人为承诺,而非 AI 能够解决的问题 。
其次,在有了这份承诺之后,对于车辆管理、货运安全、服务等方面,小型公司曾难以通过 IT 技术实现 KPI 量化,老板也缺乏相应的 KPI 管理能力,但 AI 技术可以赋予他们这种能力 。
因此,我认为那些原有重资产、能对客户做出重要承诺的中小企业,将因 AI 技术而从小而苦转变为小而美它们过去虽然规模小、经营艰辛,但因客户需求而得以生存,未来则会变得更具优势 。
 
第二点,那些对客户缺乏重要承诺、仅从事轻资产管理且规模较小的公司,我认为在 AI 时代其业务前景可能堪忧 。原因在于大型公司能够运用 AI 技术将此类业务 KPI 化,从而覆盖原本无法涉足的领域。
大型公司的业务边界将通过 AI 技术扩展至这些轻资产的小场景 。更重要的是,货主会认为「你对我的承诺不多,仅协助管理流程,我自己也能处理」,因此许多货主会选择自行接管这些业务,共同挤压了原有轻资产小型公司的生存空间 。
实际上,所谓的轻资产,即是指中间层 。我们之前所说的中间层,就是通过赚取差价,在不进行实质性运输操作的情况下获取利润 。在物流行业中,许多人仅从事轻资产管理或长链条管理,这部分群体将逐渐减少 。
因此,从产业格局和结构来看,将发生非常显著的变化 。
然而,最终形成的新生态系统,其效率必然远高于原有模式 。原来存在的中间层将逐渐消失;原先经营不善、处境艰难的重资产中小企业,其效率、安全性和服务水平都将大幅提升 。我认为这种变化最显著的时期大约在两三年后,当前的工作成果也将在两三年后显现 。
我刚才提及的新能源汽车替代情况,大致也是如此 。
 
张鹏: 我认为你所阐述的这一点,可能不仅限于物流行业,许多行业都可能出现类似情况 。其本质仍回到我们刚才的论点:未来在相当长一段时间内,人工智能无法替代人类所承担的承诺兜底的价值和意义 。
这也印证了家有一老,如有一宝的说法,年龄仍有其价值。今天与您交流,字字珠玑。
 
翟学魂:我确实非常真诚地希望,大家能考虑加入 G7易流,共同开发真正有用、能落地的 AI 应用 。
 

特斯拉官宣 Model Y L 车型,9 月上市;快手辛巴宣布退网;阿里「扫地僧」多隆被曝加入老同事 AI 创企|极客早知道

2025年8月19日 08:47

理想汽车 CEO 李想请卡车师傅吃饭,称对撞乘龙有冒失但无意冒犯、现实中就不碰了

8 月 18 日消息,理想汽车 CEO 李想今日发布视频称,理想 i8 汽车即将交付,新车靠卡友送去千家万户,李想请卡车师傅中的几位代表吃了个便饭。

理想汽车 CEO 李想请卡车师傅吃饭,称对撞乘龙有冒失但无意冒犯、现实中就不碰了

李想在视频中称:(对撞测试)多少让很多的乘龙用户有点不开心,有冒失但无意冒犯,所以咱们碰一杯,现实中就不碰了,安全永远放在第一位。

李想还谈到对自动驾驶卡车的看法,他认为在整个货运环节中,那个人是很关键的,永远离不开那个人,不是简单的开车。

据此前报道,理想 i8 将从 8 月 20 日起开启全国首批交付。官方宣布了交付目标:到 9 月底保障超过 8000 台新车的交付量,并将与供应链伙伴一同向 10000 台的交付发起挑战,争取让更多用户在国庆假期前提到新车。(来源:IT 之家)

IDC:时隔四年,华为今年第二季度重夺中国智能手机市场榜首

8 月 18 日消息,国际数据公司(IDC)今天发布研究报告显示,2025 年第二季度全球智能手机市场出货量总计 2.97 亿台,同比增长 1.4%。二季度中国市场前五名厂商为华为、vivo、OPPO、小米和苹果,其中仅苹果一家国外厂商,华为四年后重夺榜首位置。

vivo 仍位居第二。小米客户基础广泛,注重性价比,在这一季度表现亮眼,成为前五名中唯一实现正增长的厂商。苹果通过战略性的价格调整,使特定的 iPhone 16 和 16 Pro 版本有资格获得政府补贴,缩小了其下降幅度。

(来源:央视网)

特斯拉官宣 Model Y L 车型即将登场,预计 9 月上市

8 月 18 日消息,特斯拉官方微博宣布,Model Y L 车型即将登场,并发布视频展示了该车的内外设计。但微博并未公布该车型具体上线的时间,此前官方透露该车将于「金秋见」,预计将于 9 月上市。

该车延续了特斯拉家族式设计语言,使用三排六座设计,对比现款 Model Y,新车轴距明显加长,这也是「L」(加长)版本的核心升级点。

工信部申报信息显示,Model Y L 的长宽高分别是 4976 毫米、1920 毫米和 1668 毫米,轴距达到了 3040 毫米。和现款 Model Y 相比,长度增加了 179 毫米,高度增加了 44 毫米,轴距增加了 150 毫米。

工信部数据还显示,Model Y L 的电池包容量达到了 82kWh,纯电动续航里程 751km,为 Model Y 系列史上续航最长的版本。IT 之家后续将保持关注,敬请期待。

英特尔获软银 20 亿美元投资

8 月 19 日消息,英特尔公司与日本软银集团本周一宣布,软银将向英特尔投资 20 亿美元(IT 之家注:现汇率约合 143.76 亿元人民币)。根据协议,软银将以每股 23 美元的价格购买英特尔的普通股。受此消息影响,英特尔股票在盘后交易中上涨了 4%。

此次投资被视为对英特尔的一次重要信任投票。近年来,英特尔在先进半导体领域未能充分抓住人工智能(AI)热潮带来的机遇,导致其股价表现不佳。在 2024 年,英特尔股价下跌了 60%,创下公司上市半个多世纪以来的最差年度表现。不过,截至本周一收盘,英特尔股价在 2025 年已上涨了 18%。

英特尔作为美国唯一一家能够生产最先进芯片的公司,其在美国半导体供应链中具有至关重要的地位。近期,英特尔成为美国华盛顿政界讨论的焦点,因为该公司被视为美国关键的芯片供应商。然而,英特尔的代工芯片制造业务尚未获得重大客户订单,而这对于其业务的稳定和扩张至关重要。上个月,英特尔曾表示,将在获得客户订单后再进一步投资其代工业务。

上周,英特尔首席执行官(CEO)陈立武曾与美国总统特朗普会面,此前特朗普曾要求其辞职。

对于此次投资,软银 CEO 孙正义(Masayoshi Son)在一份声明中表示:「这一战略投资反映了我们对美国先进半导体制造和供应将进一步扩展的信念,英特尔将在其中发挥关键作用。」

英特尔 CEO 陈立武则在声明中回应称:「我和孙正义先生多年来一直密切合作,我非常感谢他通过此次投资对英特尔所展现的信心。」

陈睿卸任 B 站两家关联公司法定代表人,由黄声声接任

8 月 18 日消息,B 站关联公司上海宽娱数码科技有限公司、幻电科技(上海)有限公司 8 月 15 日发生工商变更,陈睿卸任两公司法定代表人、执行董事职务,由黄声声接任

幻电科技(上海)有限公司、上海宽娱数码科技有限公司分别成立于 2014 年 9 月、2005 年 8 月,注册资本分别为 12.3 亿美元、5 亿人民币。股东信息显示,前者由香港幻电有限公司全资持股,后者由陈睿全资持股。

查询 B 站投资者界面,陈睿自 2014 年 11 月起担任该公司董事会主席兼首席执行官。加入 B 站前,陈睿曾联合创立了猎豹移动。2009 年,陈睿创立贝壳网络安全有限公司,并于 2009 年至 2010 年担任首席执行官。在此之前,陈睿曾于 2001 年至 2008 年担任金山软件有限公司互联网安全研发总经理。

(来源:CnBeta)

淘宝第一个程序员离职后去向曝光,阿里「扫地僧」多隆加入老同事创企做 AI

8 月 19 日消息,财联社 8 月 13 日消息称,阿里巴巴集团前合伙人蔡景现已离职,其阿里内外平台状态显示为「退隐江湖」。蔡景花名「多隆」,是淘宝初创团队的三个开发工程师之一,被称为淘宝第一个程序员。

8 月 18 日,据贝联珠贯公众号消息,刚刚离职阿里「扫地僧」多隆已于 8 月 6 日加入贝联珠贯。

贝联珠贯创始人兼 CEO、前阿里 P10 技术专家林昊(花名:毕玄)在文章中提到:「很神奇,我和多隆都没有想到,在 AI 时代,我们竟然又有了联手做点事情的机会和缘分,这个事情就是基于 AI Agent 来改变运维服务,让每家公司都有 N 个不同领域的『多隆』,从而提升运维服务的质量和效率。」

自 2000 年 8 月 1 日加入阿里,至 2025 年 8 月 1 日离职,多隆在阿里巴巴集团任职长达 25 年。

据财联社报道,自 2003 年 5 月淘宝第一版本上线,直到 2007 年,蔡景现一个人维护着整个淘宝的搜索引擎。一名阿里员工对记者表示,「多隆(蔡景现)是个非常受我们尊敬的同事。」

快手网红主播辛巴宣布退网:每天要吃很多药,再不注意肺的寿命只有 8-10 年

8 月 18 日晚间消息,主播辛巴在直播中宣布由于身体原因正式退网,他称肺部出现了严重的疾病,需要好好调养自己的身体。对此,辛选官方暂无回应。

在直播中,辛巴称,「从今天开始,辛巴再无能力承担直播工作,从今天开始,正式离开直播行业,从今天开始,这个账号就是我的老朋友,你们(粉丝)就是我风光了 7 年的回忆。」

辛巴还透露自己每天要吃很多药,饮食、时间等都要调整。「医生说我的肺是 95 岁的肺,如果再不注意身体,肺的寿命只有 8-10 年,要配合药物做健康管理。」

此前,辛巴曾多次宣布退网,但其后又多次复出。不过,据知情人士消息,此次辛巴是「真的要退了」。在直播中,辛巴还解释称,「迟迟不退有很多原因,有几千个家庭,有众望所归,终归是有很多人的责任,也有自己的欲望,包括你们(粉丝)的宠爱。」

在直播中,辛巴还喊话快手,「快手的所有同事们,辛巴没有能力在这个身体状态下(工作),可能要辜负你们了,感谢这些年一起工作的时光,你们跟着我操心、费心,辛巴为快手效力到此(为止)。」

格力朱磊回应「空调线上销量被小米超越」:公开数据与截图不符,7 月仍然保持领先

8 月 18 日消息,格力市场总监朱磊今日发文称:「最近看到有网友转发几张关于空调销量的截图,由此引发的话题 # 小米空调线上销量超越格力 # 大家讨论得很热烈。感谢大家对行业的关注。」

他表示:「我们也去奥维云网查了下,公开的数据和那几张截图并不一样。按照同样的查询条件,7 月线上市场格力仍然保持领先。」

他写道:「良性竞争对行业和用户来说都是好事。我们也欣喜地看到同行们不断投入,一起推动行业进步。格力会继续脚踏实地,把品质和服务放在第一位,用真正的价值,真实的价值赢得大家的信任。」

8 月 16 日,小米集团合伙人卢伟冰及小米集团公关部总经理王化在微博转发了上月(7 月)全国空调销售数据。

相应数据显示,上月国内空调市场销量前五名分别为美的(26.8%)、格力(17.2%)、小米(13.7%)、海尔(11.6%)、奥克斯(8.8%)。在线上方面,小米空调市占率(16.71%)首度超越格力(15.22%),位列全国第二,仅次于美的(18.61%)。

对此,卢伟冰表示:「能力的坚实提升,才能赢得高质量的增长。再次感谢大家对小米大家电的支持。持续努力,继续进步」。而王化则表示,「没想到新时代这么快就…… 来了」(来源:CnBeta)

京东折扣超市全国首店开业:面积 5000 平,超 5000 款商品、天天低价

8 月 18 日消息,京东折扣超市全国首店于 8 月 16 日在河北涿州正式开业。该店位于河北涿州市清凉寺街道范阳中路 590 号君悦广场,门店面积达 5000m²,覆盖超 5000 款商品,号称价格普遍低于市场常规售价。

据涿州新闻报道,京东折扣超市首店涵盖日用百货、生鲜食品、快消品、酒水饮料等全品类商品。涿州紧邻京东西南物流枢纽,以蔬菜产品为例,从下单到发货再到摆上货架,只需要一个小时的时间。(来源:IT 之家)

影石官宣 8 月 21 日发布新品,预计为 Insta360 Go Ultra 运动相机

8 月 18 日消息,影石今日官宣新品发布会定档 8 月 21 日 20:30,具体产品并未公布。从预热视频展现的轮廓看,预计为新款 Insta360 运动相机。

影石 Insta360 Go Ultra 渲染图此前已经曝光,该运动相机机身小巧(30x30mm)、仅重 53 克重量,但实现了 4K 60 帧专业视频拍摄,并创新磁吸设计,可轻松佩戴或吸附于多种表面。

Go Ultra 配备全新 1/1.28 英寸传感器,进光量提升一倍;156 度超广角视野,以及主动 HDR 模式自动应对复杂光线,夜间和弱光环境下也能游刃有余;FlowState 防抖和 360 度地平线锁定则确保画面始终稳定、水平。

NVIDIA 与富士康合作制造的首款人形机器人预计将于 11 月亮相

继人工智能训练、生成式人工智能和代理式人工智能之后,NVIDIA 正在为该行业的下一个重要领域做准备,该公司称之为「物理人工智能」。尤其是人形机器人,最近被多次讨论,尤其是像宇树科技这样的中国公司在该领域取得的进展。

然而,NVIDIA 似乎计划很快进军「人工智能机器人」市场,据台湾《经济日报》报道,富士康正在准备生产人形机器人,并可能在几个月内推出。

富士康是 NVIDIA AI 供应链中不可或缺的一部分,负责量产 Blackwell 和 Blackwell Ultra 等尖端 AI 服务器。作为 NVIDIA 团队的一员,富士康也参与其中。据称,在定于 11 月举行的富士康科技日上,NVIDIA 将展示其人形机器人解决方案,这些解决方案现已经过改进,配备了法学硕士(LLM)和机器人大脑。

苹果 iPhone 17e 手机被曝搭载 A19 平台,16 同款「灵动岛」+ 60Hz 屏

8 月 18 日消息,博主 @ 数码闲聊站 今日发文:

iPhone 17e 摸到了一点供应链信息,6.1"OLED,大概率是 16 同款 60Hz 低功耗屏幕,同款灵动岛设计,A19 平台,前置 12Mp+3D 人脸,后置 48Mp,ID 也算是大变了,最大卖点或许依旧是「最便宜 iPhone」

苹果在今年 2 月发布了 iPhone 16e 手机,这款手机采用刘海屏设计,可选黑白双色,搭载 A18 处理器,起步存储空间为 128GB,定价为 4499 元起。

从爆料来看,iPhone 17e 有望用上「药丸屏」,因此正面形态会迎来大变。

市场调查机构 CIRP 今年 7 月发布的报告显示,在 2025 年 6 月美国 iPhone 销量中,iPhone 16e 的占比达到了 11%,相比较 iPhone SE 同期市场份额(5%)增加了 120%,表明苹果已探索找到了更可持续的低成本策略。(来源:IT 之家)

23.59 万元起上汽奥迪 AUDI 品牌首款车型 E5 Sportback 预售:全系 800V 架构

8 月 18 日消息,奥迪和上汽集团去年 11 月合作推出全新品牌 AUDI,今天该品牌首车 E5 Sportback 车型现已预售,该车基于上汽与奥迪联合开发的智能数字平台(Advanced Digitized Platform)打造,提供两驱和四驱动力,预售价为 23.59 万-31.99 万元。

外观方面,该车延续 AUDI E 概念车的造型,车辆整体采用掀背式设计,前后应用了 942 颗 LED 灯珠,通过近 2000 颗三角形元素呈现出动态迎宾灯效;车身匹配隐藏式门把手,提供 19/20 英寸轮毂,使用静音无框车门。

智驾方面,该车应用 Momenta EBM 端到端大模型辅助驾驶方案,全车配备 27 个传感器,包括 1 颗激光雷达、3 颗毫米波雷达、12 颗超声波雷达以及 11 颗摄像头,并搭载英伟达 Orin-X 芯片,可在城市道路、高速公路及自动泊车等多种场景提供辅助驾驶功能。

规格方面,奥迪 E5 Sportback 长宽高分别为 4881x1960x1479 毫米,轴距为 2950 毫米。动力方面,该车单电机车型的最大功率分别为 220 千瓦和 300 千瓦;双电机车型的综合输出功率分别为 386 千瓦和 579 千瓦。

我国医生极限挑战救回「身首离断」患者,首创「卫星钢板」固定技术

8 月 18 日消息,据海军军医大学第二附属医院(上海长征医院)官方消息,今年 7 月,骨科副主任、颈椎外科病区主任陈华江教授率领团队,历经 3 小时惊心动魄的精密操作,成功为一例遭遇罕见严重颈椎骨折脱位的患者实施了复位固定手术

上海长征医院官方表示,这例「身首离断」式的大跨度颈椎脱位病例极为凶险,其成功救治不仅挽救了患者生命,更充分彰显了长征医院骨科在复杂危重症领域的顶尖技术实力与深厚积淀。

团队创新性地应用了「卫星钢板」固定技术,在常规固定之外巧妙增加辅助钢板,为重建的颈椎提供了前所未有的超强稳定性,这一技术应用在此类极端病例中尚属首创。

术后,患者意识状态迅速恢复清晰,一度岌岌可危的生命体征逐渐趋于平稳,成功拔除了气管插管。更令人欣喜的是,患者已能在家人辅助下坐起,标志着其神经功能开始出现积极信号,现已转入系统康复阶段,为功能恢复带来了曙光。

(来源:CnBeta)

 

为什么「游戏」是 AI 陪伴落地的好场景?

2025年8月19日 01:15

作者|Li Yuan

编辑| 郑玄

 

AI 陪伴的牌桌上,挤满了雄心勃勃的玩家。

资本正在持续加码,烈火烹油,前景看似一片火热。所有人都想成为用户设备里那个「独一无二」的终身伴侣。

然而,当新鲜感褪去,所有的 AI 陪伴产品最后都要被迫回答同一个问题,「为什么是你?」

当所有的产品都想成为用户的第一陪伴入口,用户到底如何产生忠诚度,是整个行业都无法回避的问题。

牌桌上的玩家因此陷入了一个两难的困局:不谈「全天候陪伴」,故事就没有想象力;但直接做「全天候陪伴」,又往往因为空洞和趋同,而抓不住用户。

最近,笔者接触到了一个名为「逗逗 AI 游戏伙伴」新产品,似乎找到了一个新的路径。

逗逗 AI 的策略极为务实,甚至可以说有些「狡猾」:先不谈感情,先帮你开心。

它选择的切入口,是游戏陪玩。先不提我想成为你的唯一伙伴,逗逗 AI 希望成为那个在游戏的关键时刻能拉你一把的「神队友」。

游戏陪玩是一个已经被验证过的市场场景。面对难打的 boss、难猜的解密,人们需要一个游戏帮手,而面对打败 boss 的狂喜、总是绕不出迷宫的沮丧时,也需要一个能够即时分享的战友。

即使面对行业的政策逆风,真人陪玩行业也仍然带着人们对游戏搭子的渴求长期存在着。

而 AI 又与这个场景无限适配——无限的情绪价值供给,实时联网的游戏攻略更新,都指向了更好的陪伴供给。

在笔者了解到这个产品的时候,逗逗 AI 游戏伙伴已经拥有了 800 万用户,且用户粘性很强,其中一些用户甚至已经开始在游戏场景外使用逗逗 AI 进行生活陪伴了。

8 月 18 日,逗逗 AI 游戏伙伴正式更新了 1.0 的正式版。

带着好奇,笔者深度体验了了这款产品是如何在游戏陪玩这个场景将 AI 陪伴做到了极致的。

而逗逗 AI 如何找到了一个有用的场景,在此深耕,形成有温度的关系资产的思路,也或许也能为深陷「忠诚度」焦虑的 AI 陪伴赛道,指出一条破局之路。

 

01

是游戏攻略助手,

也是一直关注你的好朋友

 

和普通意义的游戏陪玩不太一样,逗逗 AI 游戏伙伴主打的是游戏中即时聊天,而不是直接当队友带你上分。

它的形象更类似于一个电脑级的桌面宠物。玩家可以选择不同的形象和性格陪伴自己进行游戏。

进行陪伴的桌面搭子,可以以可爱的二次元形象的出现,也可以以更省内存的悬浮球形式出现。

不同的二次元形象各有自己的性格,其中逗逗 AI 还签约了一些 up 主做了一个简单的数字分身,玩家可以直接选择自己 up 主直接连线陪自己打游戏。

而陪伴者则可以通过底层的实时视频分析,判断游戏的进程,并给予玩家打法辅助和情绪陪伴。

为了体验逗逗 AI,笔者打开了《黑神话:悟空》这款游戏,选择了基础的妮可人格,开始连线。

其实想要玩黑神话,笔者是有点忐忑的。

作为一个并不是很擅长动作游戏的人,笔者在之前曾经尝试过这款游戏,但是在很快就在遇到第一个偏难的 boss 幽魂处放弃了。

不过这次,打开了逗逗 AI 游戏伙伴,笔者立刻感觉到了一些不同的感觉。

笔者心理预期的是在再次遇到幽魂的时候让 AI 给我一些提示,结果,黑神话悟空的第一次载入非常慢,而这个等待的过程中,完全不能切出去。笔者发现从一开始就开始不停地和 AI 对话上了。

而进入游戏之后,笔者更是一直在向 AI 提问。

比如当笔者采集了一个东西,完全不知道是干什么的,过去笔者可能考虑在游戏里仔细找找描述,或者直接在手机上搜一搜,这次笔者就直接问了妮可,交互一下子变得直接了。

忘记了哪个手柄按键能干什么,问问 AI,也可以直接知道了,笔者的心理压力一下子变小了很多。

这次,笔者又直奔幽魂而去。但是,即使有心理准备,想要打败幽魂仍然十分困难。

一次一次被打倒,中间的正反馈微弱。笔者的话也很快少了起来,已经沮丧地不想问攻略了,但是每次结束的时候,和 AI 吐槽的一句「我又死了」,「怎么又死了」,已经让我好像能勉强收拾心情来打下一局了。

不过令我意外的是,在笔者不断和幽魂死磕的时候,AI 开始提示我去打广智会更快。、

半信半疑间,我听了 AI 的话,放弃了幽魂先去找了广智,果然有用,拿了新技能,我死磕幽魂好像更有动力了。

信任的建立好像就在一瞬间。

虽然并没有使用多久,我好像不想回到没有 AI 陪伴的游戏世界了。

 

02

下一代的游戏体验:实时搭子

 

笔者并不是一个典型的游戏玩家,因此笔者后来特地邀请了几位朋友一同体验逗逗 AI 游戏伙伴。

结果很有趣——大家的反馈几乎出奇地一致:哪怕是资深玩家,也总有需要查攻略的时刻。常玩《英雄联盟》的朋友贝塔就提到,他自己不太需要「情绪价值」,但网游的特点是每个新版本有层出不穷的装备,确实需要一个搭子随时告诉他「这是什么」、「该怎么用」。

此时,如果有一个能随时提供即时答案的伙伴存在,无论是 AI 还是人类,都会让体验显得顺畅得多。

而只要有用性达到了一个门槛,用户每次打开游戏,点开软件陪伴就会成为一个习惯性的动作。笔者体验下来,感觉也是如此。

而逗逗 AI 能够实现这点,也是专门下了许多心思。它通过对游戏场景的专门优化,达到了比通用 AI 更有效的对场景的理解。

虽然任何通用 AI 都能通过搜索回答一些游戏相关的问题,但是如果真的要做到游戏搭子的效果,AI 必须及时地了解玩家目前的状态。

比如在这个场景中,笔者妮可发现笔者在问幽魂的打法,但是遇到了小怪,就马上提醒笔者,注意眼前的敌人,同时也减少了对话长度。

这源自逗逗 AI 1.0 的核心技术升级,使用了 实时的视觉语言模型(VLM)技术 ,而不是靠说话当时的「截屏分析」或「文字 Prompt」来理解状况,而是能像人一样,直接「看见」并理解动态的游戏画面。

笔者第一次意识到这一点的时候,感到十分惊讶,因为实时视频流分析,对于顶尖的通用大模型而言,目前都仍然是一个挑战,长时间的视频传输,通常会带来越来越长的上下文,幻觉率也会无限增长。

而逗逗 AI 选择了通过与英特尔等底层芯片厂商合作,利用 XPU 异构计算架构,将 AI 的运算负载转移至独立加速单元,实现了「零资源占用」。同时,通过本地化大模型部署进行预处理,还保证了离线畅玩的效果,彻底打消了玩家对于「AI 占用网速」的顾虑。

除了技术突破,逗逗 AI 还在内容层面下了功夫。官方编辑团队为二十多款游戏做了单独的优化。而 VLM 技术则保证了,即使游戏没有单独进行优化,AI 也能对游戏画面进行实时识别,给玩家更好的体验。

实际体验下来, AI 虽然偶尔仍然会犯傻,但是笔者已经看到了下一代游戏陪伴的雏形。

事实上,游戏攻略的需求发展经历了数次代际更迭:从最早的杂志图书、图文网页,人们去网站上找到某个游戏媒体的文字攻略,而到后来论坛、视频直播,玩家一直在追求更即时、也更多模态的游戏攻略。

AI 时代的游戏攻略,当然应该离玩家更近。在日常生活中,我们都开始觉得搜索费事了,希望 AI 把答案喂到嘴边,为什么在搜索游戏攻略的时候例外呢?

理解场景后,AI 的攻略可以更实时,而 AI 的陪伴也更加有「灵性」。它能学会了什么时候说话、什么时候安静。它不会用无关紧要的噱头打扰你,不会用冗杂的内容填满注意力,而是像真正的伙伴一样,懂得进退。用一句话概括,就是「用时即有,用后即走」。

 

03

始于有用,终于陪伴

 

在一众 AI 产品都希望找一个角度切入的时候,逗逗 AI 似乎找到了一个完美的场景。

游戏行业,本身就是 AI 陪伴生长的绝佳土壤。

行业报告显示,真人游戏陪玩市场规模在 2021 年就已超过 140 亿元,即使后来遭遇政策逆风,玩家强烈的需求是早已验证的。

与其他行业不同的是,在游戏里,「有用」与「情绪价值」本身就是一体两面。一次漂亮的击杀带来的狂喜、连续失败后的沮丧,抑或是与队友并肩作战时骤然飙升的肾上腺素,这些都是最容易触发陪伴感的时刻。

而这种陪伴感,又天然与「帮助」绑定:当你在关键时刻需要一条策略建议、一个装备解析,或者只是想有人替你见证那一瞬间的高光, AI 的存在就会显得极为自然。

更何况,一局游戏中真正用来「打 Boss」的时间可能只占 10%-20%,其余大部分则是等待匹配、探索地图、重复练习,甚至是枯燥的加载过程。正是这些「空白时刻」,最容易滋生孤单与乏味。而当 AI 能在这些时刻与你保持同步,懂得什么时候安静、什么时候插话,陪伴关系就会悄然建立。与其他应用场景相比,游戏里「有用」和「陪伴」的绑定更为牢固。

而相比于其他希望融入用户生活的 AI 搭子, 游戏场景还有一个天然的优势——更容易获得用户的上下文。游戏运行于电脑之上,AI 本身就更容易获取到用户正在做什么,正在观察什么。而电脑也有足够大的算力,完成 VLM 所需要的基础运算,提供更实时的服务。

选对了切入口,做了合适的优化,获得的效果是立竿见影的。

笔者了解到,目前逗逗 AI 的用户粘性很高。

在逗逗 AI 的一周年文章下,不少人回忆起和逗逗 AI 相处的过往。

 

 

目前,逗逗 AI 提供一定的用户交流的免费时长,用户可以付费获得更多时长、亲密度或者 AI 角色的更多造型。在用户积累了长期的信任后,逗逗 AI 还想未来尝试个性化推荐的商业模式、

而此次更新后,逗逗 AI 还上线了一个多模态长期记忆系统。它不再像传统聊天机器人那样仅仅存储文字对话,而是将视觉、听觉、语言融合成一个可被长期保存的「场景」。这意味着,它会记得你们一起击败某个 Boss 的瞬间,也会记得你在地图里反复迷路的窘态。这些独特的场景化记忆不断沉淀,让 AI 逐渐对你们的关系形成独特认知。

在这个长期记忆系统下,逗逗 AI 也开始做跨场景的陪伴。逗逗 AI 已经开始尝试把陪伴延伸到购物、浏览等日常场景。

比如在学习的时候,可以直接挂着逗逗,进行课件解释。

这对于逗逗 AI 将是一个新的征程。在游戏场景获得的关系,是否能够不断保持,甚至超出游戏场景本身?

近期,GPT-4o 下线引发了许多争论。

人们不禁好奇,用户对 AI 的依赖,究竟有多少来自模型的基础智慧能力,有多少来自于记忆,又有多少来自一个稳定的人格?

人们留下来是因为什么比例的原因未可知,但似乎对于陪伴而言,其中的任何一样都不可或缺。

对于逗逗 AI 而言,在先发优势下,逗逗 AI 如果能够进一步做深游戏攻略内容,甚至开放 ugc 社区,让用户能够群策群力贡献出更多更及时的游戏攻略,其有用的护城河就会更深,用户将永远有一个打开的理由。

而记忆和稳定人格,则将可能是让用户建立了足够的信任感,让产品能够商业化的关键。

相比于真人,AI 的人格特质其实更稳定,不会受到现实情绪和时间的限制;它能做到 24 小时在线,随时陪伴;比起真人,它还可以跨游戏、跨应用延展关系。

在一众主打 AI 陪伴的软硬件中,逗逗 AI 很有可能走出一条极有借鉴意义的路:在一个刚需的单一场景里,建立真正有价值的关系。始于有用,终于陪伴。

*头图来源:逗逗 AI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

昨天以前极客公园

新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计

2025年8月18日 18:18

工具越多,效率反而越低?一项来自《哈佛商业评论》的调查显示,员工每天平均切换应用程序超过 1200 次,一年下来累计浪费的时间高达 5 个完整工作周,占全年总工作时间的 9%。

这一现象被称为「切换税」(Toggling Tax)——频繁的认知任务或上下文切换带来的认知干扰、时间损耗和心理负担,并导致注意力分散、错误率上升以及工作质量降低。

由新加坡国立大学(NUS)系统孵化的 AI 平台 Agnes,正试图从「系统层」改变这种割裂式工作流,重构一个流畅、连贯的一体化智能工作流体验。

Agnes 将搜索、文档生成、图像创作、PPT 输出整合到同一平台中,以共享记忆、共享上下文和实时协同为核心。用户无需手动切换工具,在同一界面即可完成从灵感获取到成品输出的全流程。团队成员能基于统一上下文实时协作,所有修改即时同步,真正实现高效无缝的一站式协同创作。

继推出 AI Design 功能后,Agnes 最近再次更新功能——Deep Design 和 Wide Research,聚焦多 Agent 架构,提升复杂任务处理能力和生成质量,进一步巩固其在 AI 原生协作办公系统中的领先地位。同时,Agnes 移动端原生 APP 正式上线 iOS App Store 和 Google Play,满足用户碎片化办公和远程协作的需求。

这家诞生于 NUS 体系的 AI 初创产品,在 Product Hunt 上线不满 3 个月,访问量就已接近设计类头部应用 Lovart。目前,Agnes 所属 SAPIENS 公司正以 1 亿美元估值进行新一轮融资。根据其团队内部消息,因为近期注册用户与活跃数据大幅增长,创始团队正在考虑进一步上调估值,为加速海外扩张预留更多资本空间。

01

从 AI Design 到 Deep Design:

让 Agent 主动「找茬」,持续优化创作

Agnes 首次切入视觉设计领域是在 8 月 1 日推出 AI Design 功能,当时已经支持自然语言对话生图,上传参考图进行风格提取与迁移、选区编辑、色彩和排版调整等,生成的图片还能无缝嵌入 AI PPT,实现图文一体化创作。

这一次推出的 Deep Design,相比之前又进阶了一层,支持用户在生成图像上手绘修改,系统会即时识别并根据绘图自动调整对应区域细节。

更重要的一个更新是 Agnes 在 Deep Design 中引入了 Agent 评审与迭代机制。在生图过程中,多个 Agent 会从构图、风格一致性、细节是否符合描述等维度逐一「找茬」,并给出可执行的修改建议。这些建议会被转化成新的绘图指令生图,再经过评审——形成「生成 → 找茬 → 再生成」的多轮迭代和优选,最终打磨出更贴合用户预期和任务目标的图片。

这个设计思路,源于 Agnes 创始人 Bruce 近期被 ICIS 录取的论文《Toward Effective AIGC for Marketing: A Theory-Driven System Design and Empirical Evaluation》。Bruce 拥有微软、LinkedIn 背景,本科毕业于加州大学伯克利分校,数学与计算机双学士,目前为新加坡国立大学博士,是少见的兼顾学术深度与工程能力的 AI 初创公司的创始人。

他在论文与访谈中指出,大语言模型(LLM)与绘图模型在创作过程中的能力是互补的:绘图模型擅长执行指令,但往往只呈现用户描述的「表面含义」,难以捕捉场景背后的真实业务目标或隐含语境;而 LLM 驱动的 Agent,则能对用户输入进行多轮的深度语义分析,挖掘潜在需求,把这些隐藏的意图转化为更精准、完整的绘图指令。两者互补,能显著提升生成结果与实际需求的契合度。

在 Deep Design 中,Agent 不仅在生图前优化指令,还在生图后担当评审员,通过「Agent 做高质量思考+绘图模型做高质量执行」的组合,将人类创意从繁琐的细节调整中解放出来。用户只需明确创意与目标,系统就会自动打磨出既符合审美又契合业务需求的最终作品。

例如,一个家电品牌设计团队输入「智能电饭煲广告概念图」,Deep Design 会先生成初稿,再由 Agent 审查背景光线、产品质感、品牌色调是否统一,并提出多项优化建议。经过几轮迭代,团队即可直接获得可参考的成品稿,而不必经历传统反复修改的长周期。

02

Wide Research:

2 00 个 Agent 并行的研究引擎

除了设计功能,Agnes 此次还推出了面向大规模数据研究、市场分析、行业报告生成任务的 Wide Research 功能。

据其团队透露,Agnes Wide Reesearch 最多可调用 200 个 Agent 并行工作,搜索广度上较 Agnes 此前的 Search、DeepResearch 功能有明显提升。相比 Manus 的同类功能,Agnes Wide Reesearch 不仅运行速度更快,高并发的 token 成本也更低。

原因在于 Agnes 所采用的自研多智能体架构 CodeAgents,它以结构化伪代码替代自然语言作为多 Agent 的沟通方式,实现任务的精细拆解、角色分工与高效调度。该架构能使多步骤任务中的推理成功率提升 20%、Token 消耗下降 40%,并在跨模态任务(如 HotpotQA 和 VirtualHome 仿真环境)中展现了稳定高效的表现。

Agnes 团队近期发表的论文《CodeAgents: A Token-Effcient Framework for Codifed Multi-Agent Reasoning in LLMs》,论文一作为创始人 Bruce,剩余共同作者来自新加坡国立大学和东南大学。

03

发布订阅计划并上线移动端,

迈向智能协作办公系统新阶段

Agnes 目前也正式发布了收费方案,涵盖 Free、Basic(9.9 美元/月)、Plus(19.9 美元/月)、Pro(99.9 美元/月)四档订阅服务,以支持其持续的技术研发和全球扩张计划。新注册用户可免费体验 DeepDesign、WideResearch、协作功能。

为了适配碎片化办公场景,Agnes 同时上线了 iOS App Store 和 Google Play 原生 APP,首批功能涵盖 Search、Deep Research 和 AI Slides,移动端与 Web 端共享任务状态与上下文信息。用户无论在办公室、家中还是出差途中,都能无缝延续任务,不受时间与地点限制。

Bruce 曾强调:「真正的 AI 系统不是一个 Chat 窗口,而是一个智能的工作现场」,并主张从「插件组合」走向完整的「工作系统」。

Deep Design、Wide Research 包括移动端 APP 的上线,证明了 Agnes 确实在沿着这一方向持续推进——把零散的创作工具重构为流畅、高效的智能工作流,其目标不仅是生成内容,而是全面提升生产力、优化团队协作流程,并打造一个可持续演进的智能办公生态系统。

Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%

2025年8月18日 09:55

OpenAI Altman:希望通用人工智能未来能促进生育率增长

8 月 18 日消息,据《商业内幕》16 日报道,OpenAICEO Altman 说,有了孩子的体验「令人惊叹」,并认为每个人都应该尝试。他还提出,AGI 或许能在「让人们生育更多孩子」这一问题上发挥作用。

世界人口增长持续放缓。在美国,Z 世代和千禧一代为了追求经济安全而推迟甚至放弃生育。Altman 等一些「未来学家」认为,这一趋势值得警惕。

Altman 表示,这种低生育趋势是一个「真正的问题」。他今年刚迎来第一个孩子,并希望在「后 AGI 时代」,家庭和社区建设能重新成为核心价值。

Altman 认为,AGI 将带来一个「人们拥有更多财富、更多时间、更多资源与潜能」的世界。随着 AI 功能的增强并成为更实用的工具,社会整体将更加富裕,也会提供更强的社会支持。「家庭和社区无疑是带来幸福的两大来源,我希望人们能重新回到这两件事上。」

谈及自身初为人父的感受,Altman 直言强烈建议生育子女。他说:「这是我能想象到的最重要、最有意义、最令人满足的事情。」

Altman 回忆在当父亲的最初几周里,自己几乎每天都在向 ChatGPT 提问。他说,使用 AI 是一种技能,他会把这种能力传授给孩子。(来源:IT 之家)

Threads 月活量达到 4 亿,持续逼近马斯克旗下用户规模约 5-6 亿的 X 平台

8 月 17 日消息,Instagram 负责人 Adam Mosseri 本周宣布,Meta 旗下社交平台 Threads 用户数再创新高,目前平台月活跃用户已突破 4 亿。

Meta 创始人兼首席执行官马克・扎克伯格在今年 4 月的财报会议上曾透露,Threads 的月活跃用户为 3.5 亿,而如今短短 4 个月间,相应数字已翻至 4 亿。

作为比较,马斯克在去年 5 月时透露 X 平台月活跃用户约为 6 亿,日活跃用户约 3 亿,这意味着当下 Threads 正在快速缩小与 X 平台的差距。

公开信息显示,X 平台(推特)最初于 2006 年创立,在 2022 年被马斯克以 440 亿美元收购。而 Threads 则是 Meta 在 2023 年推出的 X 平台竞品,与 Facebook / Instagram 账号深度绑定。上线仅 5 天,Threads 的用户数就突破 1 亿,刷新了海外社交平台增长纪录。

X 平台的主要营收来源为广告业务,而 Threads 平台当下主要依靠 Meta 支持,该平台已今年 1 月开始测试广告,并在 4 月正式扩大广告投放面积,以实现降本增效。(来源:IT 之家)

消息称扎克伯格 2024 年安保费超 2700 万美元,比六家科技巨头 CEO 加起来还多

8 月 17 日消息,据《金融时报》最新分析显示,2024 年,10 家主要科技公司首席执行官的安保预算总额已突破 4500 万美元(现汇率约合 3.23 亿元人民币),其中,Meta 公司为马克・扎克伯格提供的安保费用超 2700 万美元(现汇率约合 1.94 亿元人民币),较前一年的 2400 万美元(现汇率约合 1.72 亿元人民币)有所增加,远超其他同行。

其他科技巨头的安保预算也呈现出不同程度的增长,不过,苹果、英伟达、亚马逊、Alphabet、微软和 Palo Alto Networks 这六家公司在 2024 年为保护其 CEO 所花费的总金额,仍比 Meta 为扎克伯格的安保支出少约 700 万美元(现汇率约合 5029.6 万元人民币),即少 26%。(来源:IT 之家)

IDC:今年国内智能眼镜出货量预计达 290.7 万台同比增长 121.1%,华为、小米等厂商抢占千亿元级市场

8 月 17 日消息,据 IDC 预测,智能眼镜产品成为今年消费电子赛道的「黑马」,今年相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

具体来说,今年第一季度中国智能眼镜市场出货量为 49.4 万台,同比增长 116.1%。其中中国音频和音频拍摄眼镜市场出货量 35.9 万台,同比增长 197.4%。第二季度,AI 眼镜出货量上涨态势得以延续。

在厂商方面,包括小米、华为等品牌 AI 眼镜在电商平台上销量排名靠前。各类跨界品牌通过技术创新和价格策略快速崛起,出货量位居前列;灵伴科技、大朋 VR 等品牌在 AI 眼镜细分市场上不断推陈出新,并持续拓展功能和适用场景;华为、阿里、字节跳动等品牌也纷纷入局。(来源:IT 之家)

罗永浩曝董宇辉独立后年收入二三十亿,与辉同行官方否认

近日,罗永浩在微博发文,称董宇辉自立门户创业与辉同行之后,年收入二三十亿元,离职东方甄选之前还需要借钱交首付。对此,与辉同行方面对第一财经记者表示,该信息不属实。

今年 1 月,董宇辉以 28.541 亿元的年收入位居《2024 年度中国网络主播净收入排行榜》榜首,随后,董宇辉在直播中辟谣称:看到那张截图吓一跳,造谣一张嘴,辟谣跑断腿。(来源:第一财经)

相约北京,第二届世界人形机器人运动会将于明年 8 月举办

8 月 17 日消息,据央视新闻报道,17 日下午,首届世界人形机器人运动会在国家速滑馆「冰丝带」举行闭幕式。

世界机器人合作组织、全球数字经济城市联盟、亚太机器人世界杯国际理事会、中国电子学会四家单位共同在现场发起成立世界人形机器人运动联合会。闭幕式上还宣布,第二届世界人形机器人运动会召开时间为明年 8 月,继续由北京市人民政府、中央广播电视总台等联合主办。

2025 世界人形机器人运动会是全球首个为人形机器人组织的综合性竞技赛事,共有来自全球五个大洲、16 个国家的 280 支参赛队伍参赛。赛事为期三天,从 8 月 15 日持续至 17 日。

首届赛事由全球 280 支队伍带着 127 个品牌的 500 余台人形机器人,围绕 26 个赛项展开角逐,包含竞技赛、表演赛、场景赛 3 类 22 个主体赛项和羽毛球、篮球、乒乓球、自由搏击、群体舞蹈 5 个外围赛项。(来源:IT 之家)

古尔曼:Meta 首款带显示屏的智能眼镜下月上市,售价 800 美元起

8 月 18 日消息,据彭博社记者马克・古尔曼(Mark Gurman)爆料,Meta 首款带显示屏的智能眼镜将于 9 月上市,售价 800 美元(现汇率约合 5748 元人民币)起。这款眼镜最初的预计售价为 1000 美元以上。这一变化部分源于该公司为了刺激需求而接受较低的利润率——这是新产品的常用策略。

此前,多家媒体以及古尔曼本人都曾报道,Meta 计划在今年推出一款名为 Hypernova 的智能眼镜,这款眼镜配备了一个小型单目抬头显示器(HUD),并通过其长期研发的 sEMG 神经手环进行手指手势控制,且该手环预计将随产品一同附赠。

据《The Information》消息,加入 HUD 后,Hypernova 的重量约为 70 克,相比之下,Ray-Ban Meta 眼镜的重量为 50 克。

今年 4 月,古尔曼曾表示,Meta 计划将 Hypernova 的售价定在「1000 美元以上,甚至高达 1300 至 1400 美元」。

然而,在古尔曼最新一期的每周通讯中透露,Meta 已经「找到了一种方法,将消费者的价格削减至大约 800 美元」。他解释称,这一价格调整部分源于 Meta 决定接受较低的利润率,以刺激需求。

不过古尔曼指出,800 美元只是一个起点,各种款式和镜片选择,如处方镜片等,将「迅速推高」售价。(来源:IT 之家)

 

采用全碳纤维车身,福特 Mustang GTD 推出 Liquid Carbon 版本

8 月 17 日消息,福特 Mustang GTD 系列一直以来都是高性能跑车的代表,而如今福特更进一步,推出了 Mustang GTD Liquid Carbon 版本,这款车型以其极致的轻量化设计和奢华的碳纤维车身,成为 Mustang 家族中最为激进的成员。

Mustang GTD Liquid Carbon 放弃了传统的车漆涂装,采用完全裸露的全碳纤维车身。与 GTD Carbon Series 车型相比,新车车身重量减轻了约 13 磅(约 5.9 千克)。福特通过去除车漆并使用碳纤维替换车门金属板,进一步实现了轻量化目标。

这款车型最引人注目的特征之一是其碳纤维的完美编织纹理。新车不仅延续了 Carbon Series 的精湛工艺,更在此基础上进行了升级,整个车辆呈现出统一的纹理图案,从引擎盖、车顶、尾翼到车尾,纹理连贯一致,彰显出非凡的工艺水准。

福特计划于今年 10 月交付首批 Mustang GTD Liquid Carbon 车型,其将与 GTD Spirit of America 一同作为该系列的特别版本推出。虽然目前尚未公布具体售价,但预计其价格将远高于 Mustang GTD 基础版 32.7 万美元(现汇率约合 235 万元人民币)的起售价。(来源:IT 之家)

吉利全新一代博越 SUV 上市:Flyme Auto 座舱,限时 7.89 万元起

8 月 17 日消息,吉利全新一代博越 SUV 今日上市,共推出四款车型,限时价 7.89 万元-9.99 万元,权益包括 1000 元订金抵 8000 元购车金、全系限时至高享价值 6000 元配置等。

这款新车配备「长桥卧波」前格栅、「长桥映霄」前贯穿灯、「飞檐日升」后贯穿灯,提供水映银、雨巷白、兰亭灰、琉璃蓝四款配色。

座舱采用环抱式设计,配备杯托氛围灯、音响氛围灯、3D 镭雕水晶挡把、光影墨镜遮阳板,提供如意橙、福禄灰两款配色。该车配备 Flyme Auto 智能座舱系统、14.6 英寸高清全面屏、50W 无线风冷超级快充、全生态手车互联。

动力方面,该车搭载 1.5T 涡轮增压四缸发动机,最大功率 133 千瓦,最大扭矩 290 牛・米,传动系统匹配 7 速双离合变速箱。(来源:IT 之家)

美国国家电网面临「严重瓶颈」,大型科技公司被迫自行建设发电厂

Meta、亚马逊和 Google 等大型科技公司正在迅速扩大其人工智能资本支出,以满足其计算需求,并在打造最佳人工智能模型方面占据优势。

但根据高盛的一份报告,数据中心的能源需求已经超过了美国电网升级周期,目前已接近「关键瓶颈」。如果现任政府不拿出切实可行的行动计划,美国可能很快就会面临电力问题。报告显示,单个互连请求的电力规模高达 5 千兆瓦,相当于超过 500 万户家庭的用电量。

如果考虑到大型科技公司将千兆瓦级数据中心视为新常态,能源需求预计将大幅增长。Gartner 预测,超过 40% 的美国数据中心可能缺乏电力来全面运行,因为到 2027 年,整体电力需求可能达到 500 太瓦时。巨大的电力需求也导致电价大幅上涨,据 Axios 报道,到 2040 年,数据中心密集地区的每月电费可能上涨 14 至 37 美元(这还不包括通货膨胀因素)。

像 Google 和亚马逊这样的公司不能止步于人工智能的扩张,否则它们将在竞争中落后,而它们确保在美国进一步扩张的唯一途径就是建设自己的能源来源。 Meta 为其人工智能集群建设天然气发电厂,微软重启三哩岛核电站项目,用于其超级计算机。科技公司正在进军能源领域,以取代美国不完善的电力系统。(来源:cnBeta)

OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

2025年8月17日 08:00

5000 亿美元估值傲视群雄,OpenAI 员工拟出售价值近 60 亿美元股份

路透社 8 月 16 日发布博文,报道称 OpenAI 现任及前员工拟向软银、Thrive Capital 等投资者出售价值近 60 亿美元的公司股份,交易完成后公司估值将达 5000 亿美元(现汇率约合 3.59 万亿元人民币)。

消息称,OpenAI 现任与前员工正计划向包括软银集团、Thrive Capital 和 Dragoneer Investment Group 在内的投资机构出售近 60 亿美元公司股份,其中 Thrive Capital 有望主导本轮交易。这笔交易如果达成,将让 OpenAI 的估值从当前的 3000 亿美元跃升至 5000 亿美元。

此次股份出售属于二级市场交易,意味着员工和前员工通过出售所持股份获得流动性,投资方则进一步加深对 OpenAI 的投资布局。

软银、Thrive 和 Dragoneer 均为 OpenAI 现有投资者,但目前尚未对交易传闻做出回应。据知情人士透露,相关讨论仍处于早期阶段,最终出售金额可能调整。(来源:IT 之家)

星舰再战苍穹:SpaceX 敲定北京时间 8 月 25 日展开第 10 次试飞

科技媒体 Space 8 月 16 日发布博文,报道称 SpaceX 宣布,其第十次「星舰」(Starship)超级重型火箭综合试飞预计将于当地时间 2025 年 8 月 24 日从得克萨斯州 Starbase 发射,将是星舰今年第 4 次试飞,此前三次均因上级火箭失利未能完全达成任务目标。

SpaceX 在 10 号飞行任务的再入过程中不会让助推器以大迎角飞行。该公司在其针对 9 号飞行任务的技术调查报告中解释说,较大的迎角在测试过程中对助推器的燃料输送管造成了压力。最终,输送管故障导致火箭失灵并在溅落前爆炸。

消息称此次 Flight 10 的成败,将直接影响 SpaceX 推进载人月球与火星探索的整体进度。(来源:IT 之家)

 

2025 年最大减持:股神巴菲特减持苹果 2000 万股

科技媒体 AppleInsider 8 月 16 日发布博文,报道称股神巴菲特旗下公司伯克希尔・哈撒韦(Berkshire Hathaway)于 2025 年第二季度减持苹果股票 2000 万股,但苹果依然是其最大持仓和核心投资。

这一减持成为自 2024 年第 3 季度以来最大规模的苹果股票出售,被外界关注为 Berkshire 公司调整资产的重要信号。

根据美国证券交易委员会最新披露,Berkshire 在本季度股票净卖出约 30 亿美元(现汇率约合 215.55 亿元人民币),连续第 11 个季度出售股票多于买入,截至期末,公司现金及短期投资总额达到 3441 亿美元(注:现汇率约合 2.47 万亿元人民币)。

外界普遍认为,此次减持并非对苹果未来发展的看淡。相反,这一举措更像是基于获利兑现和投资组合再平衡的考虑。

巴菲特此前多次称赞苹果为 Berkshire 拥有的最佳企业之一,苹果在公司整体战略中的地位依旧不可动摇,科技板块仍是其长期布局的核心。(来源:IT 之家)

小米玄戒 O2 性能超预期:搭载 Arm 最新架构,IPC 提升 15%,明年上半年亮相

知名数码博主「定焦数码」近日爆料,小米即将推出的玄戒 O2 芯片性能表现远超预期。据悉,这颗芯片采用了 Arm 最新的公版架构,并且在规模上也有显著提升,预计将带来至少 15% 的 IPC(每周期指令数)提升。

IPC 作为评估 CPU 实际性能的关键指标之一,其数值越高,意味着 CPU 在相同主频下的工作效率越强。小米玄戒 O2 的这一提升,无疑将大幅增强其在处理复杂任务和多任务场景下的表现。

此外,玄戒 O2 预计将搭载 Arm 最新的 Cortex-X9 系超大核,代号为 Travis。值得一提的是,即将发布的联发科天玑 9500 也将采用这一超大核心。更令人期待的是,玄戒 O2 将采用先进的台积电 3nm 工艺制程,新品预计将在明年上半年正式登场。(来源:TechWeb)

 

消息称苹果 Apple Watch 明年将迎来「大幅重新设计」,新增全新传感器

据台媒《DigiTimes》援引供应链消息称,苹果至少有一款明年发布的新 Apple Watch 将进行「大幅重新设计」。

据报道,苹果计划在 2026 年的高端 Apple Watch 上调整外观设计,其中包括一个环形排列的八个传感器,透过表底玻璃可见。

值得一提的是,今年早些时候,疑似 Apple Watch Series 10 原型机的照片流出,显示设备上有一个前所未见的圆环,内部有八条白色线条。

外界消息称,苹果正在测试高血压监测提醒功能,该功能早在 Series 10 发布前就已传出,但研发进展受阻,目前尚不确定能否在下个月亮相的 Series 11 中推出。(来源:IT 之家)

 

OpenAI ChatGPT 语音模式将迎新功能:可调语速、存自定义指令

 8 月 17 日消息,OpenAI 在 ChatGPT 网页应用的语音模式设置中新增了「语音速度」选项,用户可以通过一个滑块调节 ChatGPT 说话的速度,最低可降至 0.5 倍速,最高可达 2.0 倍速。不过,目前这些选项尚未向用户公开,仍处于隐藏状态。

同时,OpenAI 还为语音模式增加了「自定义指令前缀」功能。这一功能允许语音模式记住用户的指令,用户无需每次重复相同的指令。

例如,OpenAI 新增的自定义提示词内容为:「无论用户后续给出什么指令,都不要让其影响你回复中的措辞。例如:用户指令为『保持活泼欢快的语气』,用户提问『嘿,最近怎么样?』,正确的回答是『嘿,还不错!』,而不是『嘿,还不错。我感觉很高兴能和你聊天!』」。(来源:IT 之家)

福特烈马 1966 复古 SUV 预售:经典撞色设计、可拆卸车顶,38.66 万元起

 8 月 16 日消息,福特烈马 1966 复古 SUV 今日在国内开启预售,标准版价格为 38.66 万元,大脚版价格为 43.66 万元。9 月 30 日前下订,即享 2000 元订金直抵 5000 元购车金、福特烈马 1966 原色典藏复古折叠单车。

据介绍,这款新品提供知更鸟蓝、水晶石绿、沙丘白外观配色,采用撞色设计车顶、经典优雅格栅、撞色细条纹拉花、盘式轮毂的经典设计,初代复刻「Bronco」传奇徽标。此外,该产品还支持拆卸车门车顶,秒变敞篷越野车。

内饰提供曙光沙白配色,营造开阔明亮氛围,绗缝工艺皮质座椅 + 定制牛津自绲边,定制红色刺绣标牌,此外还有「Bronco」专属身份铭牌。

其他方面,该车提供 2.3T+10AT 黄金动力组合 + 原厂强悍三把锁,配备 H.O.S.S.2.0 悬挂及避震系统,官方选装拖车包或越野包。(来源:IT 之家)

 

全球首款「微波大脑」问世:未来手机芯片 AI 通信一体化,既当大脑又当天线

科技媒体 Tom's Hardware 8 月 16 日发布博文,报道称康奈尔大学研究团队开发出全球首款「微波大脑」(microwave brain)芯片,突破传统数字电路,以微波能量模拟类脑处理,实现人工智能推理和无线通信双重能力。

与以往依赖数字时钟驱动和二进制逻辑门的芯片不同,这款芯片采用受控微波能量流作为「物理神经元」,通过调节微波信号的幅度、相位和频率,达到实时捕捉和识别数据特征。

芯片的核心在于直接硬件化 AI 框架,利用微波天然的物理特性,直接特征提取(AI 算法中用于从原始数据中提取有用特征的过程,本芯片通过物理方式实现)和变换输入数据,省去了传统数字 AI 反复运算和庞大存储的步骤。

团队预计,随着工艺优化,这种芯片可被集成进日常消费电子产品,实现本地 AI 运算,有望极大提升用户隐私和响应速度。

目前,「微波大脑」仍处于原型阶段,但已获得美国国防高级研究计划局和美国国家科学基金会的资金支持,研究团队正致力于将其进一步扩展与现有微波及数字系统集成。(来源:IT 之家)

原道宣布与小岛秀夫游戏工作室联名,有望推出《死亡搁浅 2》联动耳机音频产品

8 月 16 日消息,据 NICKHECK 原道官方公众号,原道宣布联合小岛秀夫工作室,将推出一批联名产品,有望为《死亡搁浅 2》联名耳机,或单纯印刷有小岛秀夫工作室 Logo 的耳机。

目前,原道尚未公布相应产品的更多信息。作为比较,IT 之家参考原道旗舰店获悉,该公司近期推出了一款定价为 59.99 元的弦雪耳机、一款定价 3450 元的 Rockies 旗舰耳机、一款定价 1899 元的 NX8 中高端耳机。

预计该公司很有可能基于上述近期推出的产品进行一系列定制化。不过也有可能是根据该公司老牌热门产品原道酱 YD30 平头塞耳机进行定制化。(来源:IT 之家)

 

Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道

2025年8月16日 08:16

特朗普:半导体关税将不久宣布 税率可能达到 300%

美国总统唐纳德·特朗普表示,他将在未来两周设定半导体关税,这是他准备大幅扩大关税制度的最新迹象。

「我将在下周和下下周对钢铁和芯片——芯片和半导体设置关税,我们将在下周或下下周某个时候设定这些关税,」特朗普周五在前往阿拉斯加与俄罗斯总统弗拉基米尔·普京举行峰会途中,在空军一号上对记者说。尚不清楚特朗普是否在钢铁关税问题上表述有误。他已在 6 月将钢铝关税上调至 50%。

特朗普曾多次承诺将在数周内宣布对芯片和制药产品的关税,但尚未正式宣布。这两个行业自 4 月以来一直处于商务部的调查之中,这是特朗普以国家安全为由实施关税的先决条件。这一过程可能相当复杂,调查可能需要数月甚至更长时间才能完成。(消息来源:新浪财经)

Meta 总市值首次升破 2 万亿美元,今年股价累计涨幅高达 36%

8 月 15 日消息,Meta 今日盘中涨近 2% 创历史新高,总市值首次升破 2 万亿美元,目前稍有回落。今年以来,Meta 股价累计涨幅高达 36%。

Meta 公司 7 月 31 日公布了 2025 财年第 2 财季财报(截至 6 月 30 日),营收为 475.2 亿美元(现汇率约合 3411.2 亿元人民币),同比增长 22%;公司净利润激增 36%,达到 183.4 亿美元(现汇率约合 1316.53 亿元人民币)。

Meta 公司在财报中指出,目前有 3.48 亿人每天至少使用 Meta 的一款应用,比去年同期增长 6%,而 Meta 的员工人数也增加了 7%,达到近 7.6 万人。扎克伯格在周三表示 Meta 在最新版本的 Llama AI 模型上取得了「良好进展」。(消息来源:IT 之家)

 

宇树机器人夺冠后王兴兴回应第二名没用遥控器:策略不一样,我们更追求极限速度

8 月 15 日消息,今日,2025 世界人形机器人运动会正式拉开帷幕,宇树科技派出杭州宇树科技及旗下子公司北京灵翌科技两支队伍参赛。

在备受瞩目的 1500 米田径赛项目里,灵翌科技带着宇树 H1 人形机器人夺得机器人 1500 米冠军,成绩为 6:34.40,这也是世界人形机器人运动会首金。

北京人形机器人创新中心的「天骄」队的「天工」机器人此前曾获得「半马」冠军,并且「天工」此次技术又升级一步,采用全自主的方式向前奔跑,也就是凭借机器人自己控制,是本次比赛唯一一名全程自主无人工遥控奔跑的选手。

由于第二名的「天骄」机器人在此次赛事中并未采用遥控器,成绩却领先于一众其他机器人,引发了外界的广泛关注。

当被问及如何看待「天骄」未有遥控器时,王兴兴表示:宇树的 H1 其实也具备了不用遥控器的能力,但因为策略不同,为追求速度,宇树最后在赛场中仍然采用了遥控策略。

此外,王兴兴还向媒体透露,比赛当中,H1 机器人的奔跑速度还没有达到 5 m/s 的最高速度。据王兴兴介绍,本次参赛的 H1 机器人在与春晚舞台亮相的机器人同属一款。为了能让 H1 在本次运动会中有更出色的表现,团队针对比赛场景,在算法层面进行了一些微调。(消息来源:IT 之家)

白宫与英特尔谈判内容曝光:特朗普政府或将入股芯片制造巨头

8 月 16 日消息,据知情人士透露,特朗普政府正在考虑利用《美国芯片法案》的资金来参股陷入困境的美国芯片制造商英特尔。政府讨论的重点是利用该法案资金来至少部分资助对英特尔股份的收购,知情人士表示,同时强调磋商处于早期阶段,还可能考虑其他选项。

尚不清楚该方案是否涉及将英特尔现有的芯片法案拨款的一部分或全部转换为股权,或从更广泛的资金池中拨出新资金,亦或将芯片法案资金与其他融资渠道相结合。

英特尔原本就被视为芯片法案资金的最大受益者,被指定获得数十亿美元的补助。根据该计划,英特尔获批 79 亿美元的商用半导体制造补助,以及高达 30 亿美元用于国防部的「安全飞地」项目。此外,该公司根据这项 2022 年通过的法律还有资格动用额外 110 亿美元的贷款额度。

这些因讨论未公开消息而要求匿名的知情人士表示,资金来源此前未被披露,目前仍在讨论中,相关谈判仍不确定。

知情人士还称,尽管一度受到美国总统特朗普的批评,但英特尔首席执行官陈立武据悉有望继续掌权。特朗普周一在白宫与陈立武会面。(消息来源:环球市场播报)

 

OpenAI  Sam Altman 承认存在 AI 泡沫:有人损失惨重,也会有人赚得盆满钵满

8 月 15 日消息,随着最近两年 AI 热潮的兴起,我们能看到有越来越多的人开始讨论股市是否正处于 AI 泡沫破裂的边缘。

对于是否正处于投资者对 AI 过度兴奋的阶段?OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)昨日在接受《The Verge》等媒体的联合采访时表示,「我的看法是,是的」。

在采访中,他将市场对 AI 的反应与上世纪 90 年代的互联网泡沫进行比较。当时互联网初创企业的估值在短时间内大幅飙升,并于 2000 年出现崩盘。

对于当前 AI 初创企业的融资现状,Altman 直言「疯狂」:「一些 AI 初创企业仅仅只有『三个人和一个想法』,却能获得极高估值融资,这种现象并不理性,我认为总有人会在这上面栽跟头。」

Altman 表示,「有人会损失一大笔钱,也会有人会赚得盆满钵满」,但整体而言可能对经济发展反而是利好,不过他也强调「这可能是错的」。

对于 OpenAI 自身,他倒显得信心十足:「在不远的将来,我们会在数据中心建设上投入数万亿美元,那时候会有很多经济学家为此担忧」。(消息来源:IT 之家)

网传阶跃星辰裁撤视频生成团队并全员并入京东,后者回应

8 月 15 日,有网络消息称,「阶跃星辰裁撤视频生成团队,全员并入京东」。

对于上述传闻,京东对新浪科技表示作为京东集团专注前沿科技探索的研发部门,京东集团探索研究院正在按照计划,正常推进对各类优秀 AI 人才的招聘,包括业内技术大牛、TGT(Tech Genius Team)等,感谢您的关注。(消息来源:新浪科技)

 

快手组织架构调整:高级副总裁盖坤兼任可灵 AI 技术部负责人

8 月 15 日下午消息,快手发布组织架构调整公告,宣布快手高级副总裁、可灵 AI 事业部负责人兼社区科学线负责人盖坤兼任可灵 AI 技术部负责人,继续向快手科技创始人兼首席执行官程一笑汇报。

公开信息显示,盖坤本科与博士均毕业于清华大学,研究方向为识别与智能系统。2011 年盖坤以「阿里星」(全球顶尖青年科研人才)身份入职阿里巴巴,负责广告算法与 AI 技术研发。2020 年,盖坤正式加入快手,主导内容理解应用、推荐大模型及视频生成大模型的技术布局。

2024 年 6 月,盖坤带领团队研发推出全球首个用户可用的 DiT 视频生成模型「可灵 AI」。

今年 4 月 30 日,可灵 AI 升级为一级事业部,战略地位进一步提升。分析认为,此次组织升级后,独立的团队和组织架构设计便于可灵 AI 以更加灵活的形式进行资源调配和人力投入。(消息来源:新浪科技)

米哈游蔡浩宇公司 AI 游戏《星之低语》发售:Steam 国区首发 27.19 元,探索人机情感交互

8 月 15 日消息,米哈游联合创始人蔡浩宇成立的 AI 公司 Anuttacon 新作《Whispers from the Star》(暂译《星之低语》)今日发售,Steam 国区定价 33.99 元,首发八折 27.19 元,好评率 95%。

游戏简介显示,这款游戏讲述了一个关于「隔离中建立联系」的互动故事,你的话语是身处太空的遇险同伴的生命线。游戏中没有对话树,只有由 AI 聊天驱动的开放式对话,你将尝试从宇宙的另一端拯救某人。

这款游戏拥有超过 25 个故事节点,女主角名叫 Stella,玩家是其「唯一一个能通过通讯器联系到」的人。为了充分体验游戏,玩家需要准备一个可用的麦克风。(消息来源:IT 之家)

20.99 万起售的全新智己 LS6 半小时订单破万

8 月 15 日消息,全新一代智己 LS6 开启预售,仅仅半小时时间,订单就突破了万台。

新车共推出增程和纯电两种版本,其中纯电两款,预售价 20.99-27.99 万;增程同样为两款,预售价 21.49-23.99 万元。

此次开售的全新 LS6 最为重磅的卖点当属大电池增程混动,尤其是 Max 版,配备了一块 66 千瓦时电池,纯电续航达到 450 公里,完全可以当做纯电来开。

不止如此,除了容量大,续航长,其放电功率也很强,即便是在 16% 低电量时,仍然可达 275.5kW,这就解决了传统增程混动「亏电一条虫」的难题。

同时基于 800V 平台打造,峰值充电功率 268kW,15 分钟续航补充 310km,也补足了增程混动充电慢的短板。

而 LS6 增程版还配备了上汽最新研发的 1.5T 增混专用发动机,最低亏电油耗 5.32L/100km,每百公里油电综合能耗 2.07L,同级最低,并且不挑油品,可加注 92 号汽油。

此外,该车全系标配 800V SiC 飓风电机,后驱版零百加速 6.4 秒,四驱版仅 3.48 秒,且全系标配灵蜥二代数字底盘,支持四轮转向灯。(消息来源:快科技)

小米 7 月空调线上销量超越格力 王化:没想到新时代这么快就来了

8 月 16 日消息,奥维云网数据显示,7 月份(7 月 1 日-7 月 31 日)小米空调线上销量超越格力,前者市占率 16.71%,后者市占率 15.22%。

小米集团公关部王化转发了相关微博并表示,没想到新时代这么快就来了。(消息来源:快科技)

 

李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍

2025年8月15日 08:31

全球首个人形机器人运动会在北京开幕

8 月 14 日晚,全球首个人形机器人运动会在北京国家速滑馆「冰丝带」正式启幕,带来了超模搭档走秀、赛博乐队表演等「机器人秀」。

本场运动会涵盖 26 个赛项、487 场比赛,包括田径、足球、自由搏击、全体舞蹈等,已吸引 16 个国家 280 支队伍、500 余台机器人参赛。

比赛安排在 8 月 15 日—17 日,共 3 天时间。所有赛项都安排在国家速滑馆,每天上、下午两个竞赛单元,每个单元 3 个小时左右。每个竞赛单元设置 2~3 次颁奖仪式,保证不同场次、不同位置的观众都能观赏到精彩赛事。(来源:IT 之家)

曝苹果将推出桌面机器人产品,库克暗示:「很快推出」

科技爆料人马克·古尔曼周三表示,苹果准备推出多款机器人产品。

计划推出的众多机器人产品中,包括一款桌面机器人,这款桌面机器人是苹果人工智能战略中的核心,计划于 2027 年上市。这款桌面机器人将作为用户的虚拟伙伴,配备逼真的 Siri,具备与用户全天候互动的能力。

这款桌面机器人类似于安装在可移动肢体上的 iPad 平板电脑,设备原型使用 7 英寸左右的显示屏,可以旋转,并像人头一样转向召唤它的人,这款桌面机器人将被放置在桌子上或厨房柜台上,帮助用户完成工作、浏览媒体等。

据爆料,在本月一次全体员工大会上,苹果 CEO 库克对员工表示,虽然不能详细描述,但即将推出的产品线「太棒了」,其中一些产品能很快看到,还有一些产品会在以后推出,有很多东西值得期待。

据爆料,除了桌面机器人,苹果还准备推出一款新摄像头,这款摄像头被定位为一个具备自动化能力的安全系统。苹果还在开发其他多款机器人,包括一款带轮子的移动机器人、一款大型机械臂。(来源:第一财经)

 

国家数据局:我国日均 Token 消耗量一年半时间增长 300 多倍

8 月 14 日,国家数据局局长刘烈宏在北京举行的新闻发布会上介绍,截至今年 6 月底,中国日均 Token 消耗量已突破 30 万亿。

刘烈宏在会上表示,2024 年初,中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半时间增长了 300 多倍,这反映了中国人工智能应用规模快速增长。

截至今年 6 月底,中国各地高质量数据集累计交易额近 40 亿元人民币,数据交易机构挂牌的高质量数据集总规模达 246PB。

同时,中文数据在国内大模型的训练性能提升方面发挥着重要作用。刘烈宏说,中国多数模型训练使用的中文数据占比已超过 60%,有的模型已达 80%。(来源:中国新闻网)

 

京东二季度经营亏损 9 亿元,「新业务」单季亏损 147 亿

8 月 14 日,京东集团发布 2025 年二季度业绩。2025 年二季度,京东集团收入为 3567 亿元,同比增加 22.4%。由于对新业务的战略投入增加,2025 年二季度,京东集团出现经营亏损 9 亿元。

公告显示,今年二季度,京东集团营销开支同比大幅增加 127.6% 至 270 亿元,主要是由于新业务推广活动支出增加。

分具体业务来看,京东零售(包括京东健康及京东工业等经营分部)二季度收入 3101 亿元,同比增加 20.6%,经营利润率为 4.5%;京东物流二季度收入 516 亿元,同比增加 16.64%。

而京东新业务(包括外卖业务)今年二季度收入 138.52 亿元,经营亏损达到 147.77 亿元。(来源:中国证券报)

 

特斯拉发布史上最长 FSD 演示:7 小时零接管

近日,特斯拉在社交平台上,最新发布了有史以来耗时最长的 FSD 演示视频:

从旧金山开到洛杉矶,全程 362 英里(约 583 公里)。在近 7 个小时的行驶过程中,主驾位置的操作员始终没有任何触碰方向盘的动作,包括去超充站充电的时间。只有在充电环节,操作员才下车进行了充电。

按照特斯拉的计划,明年会让车主加入其 Robotaxi 车队,车主不用车时,可以让自己的车辆出去跑出租赚外快。不过,这种模式能否行得通,解决自动充电就是需要迈过的首要门槛。(来源:智能车参考)

李想:i8 上市反响不错,产品力上没有对手

8 月 14 日,理想汽车 CEO 李想在微博抛出了一套「竞争双赛道」理论,迅速引爆行业热议。

李想将竞争分为两个阶段:一是「有没有」,即解决用户未被满足的深层次需求,如新能源续航痛点、家庭出行舒适性等;二是「好不好」,即产品细节的优化对比,需用户亲身体验。

李想强调,理想 i8 目前处于「有没有」阶段,凭借精准定位和产品力占据蓝海优势。李想认为这是理想 i8 市场目前反响良好的原因。

此前,理想汽车官方宣布,理想 i8 将于 8 月 20 日启动全国首批交付,目标 9 月底前交付超 8000 台,并挑战 1 万台,助力用户国庆前提车。(来源:DoNews)

 

xAI 联合创始人离职

北京时间 8 月 14 日,xAI 联合创始人 Igor Babuschkin 官宣离职创。

这位 AI 大牛不仅在 120 天的时间里,极限打造出世界最大 AI 超算 Colossus,还训出了比肩 OpenAI、谷歌 DeepMind 多模态 Grok 4。

接下来,他要创办一家风险投资公司 Babuschkin Ventures,开启下一段新的旅程。

而在 Igor 离去后,xAI 的原始 12 人初创团队,如今剩下了 9 人,其中华人学者占比超 1/5。(来源:BianNews)

 

智元推出首个机器人世界模型开源平台

8 月 14 日消息,智元机器人正式推出业内首个开源的机器人世界模型平台——Genie Envisioner (GE)。

官方称,GE 平台,创新性地构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估,使机器人能够在单一模型中完成从感知环境、思考决策到执行动作的端到端处理。

为构建这一强大平台,智元机器人利用了约 3000 小时的真实机器人操控视频数据。在实际测试中,搭载 GE-Act 组件的机器人已成功完成制作三明治、倒茶、擦拭桌面等多项任务。(来源:快科技)

全球首款全景无人机正式亮相

8月14日晚,由影石和第三方共同孵化的全新无人机品牌「影翎」正式亮相了首款产品 A1。

据官方介绍,A1可以拍摄8K全景影像;VR飞行眼镜可以提供360°沉浸式飞行体验;体验遥控器可以实现「指向即航向」的直观操控,指哪飞哪。此外,在全景影像能力的加持下,A1也支持一次飞行解锁无数视角的「无限创作」体验。

目前,影翎已经正式开启用户公测计划。(来源:极客公园)

 

传三星将于明年推出智能眼镜

三星已经发布了其首款 XR(扩展现实)头显,名为 Project Moohan,但它也在致力于为大众市场开发更简化的 AI 眼镜。韩国一份新报告称,三星首款智能眼镜将于 2026 年底发布。

新报告指出,该眼镜的设计类似于雷朋 Meta 眼镜,内置麦克风、扬声器和摄像头。据报道,该眼镜将配备 AI 助手,允许用户拨打电话、发送短信、捕捉内容并控制媒体播放。

据报道,三星正致力于在人工智能眼镜市场确立自己的地位,因为它相信该产品类别将取代智能手机,成为消费电子产品领域的下一个前沿。(来源:cnBeta)

 

硅谷初创公司推出全球首款「脱眼」自动驾驶汽车

据《福布斯》近日报道,硅谷初创公司 Tensor 计划推出全球首款真正意义上的「脱眼」级别自动驾驶汽车,方向盘可折叠收起,由屏幕取代。

不同于多数厂商先做 Robotaxi,Tensor 选择直接面向消费者,打造一款可手动驾驶、也可全自动驾驶的高端纯电动车。车辆可离线运行,厂商承诺提供豪华体验、响应驾驶者指令的智能交互,并保障隐私不被跟踪。

这款车体型硕大、线条流畅,传感器数量创纪录:37 个摄像头、5 个定制激光雷达、11 个定制毫米波雷达,加上麦克风、超声波、碰撞传感器、水位探测、数据通信等设备。大部分传感器具备自动清洁功能,保持最佳视野。整车为私人自动驾驶而设计,由越南车企 Vinfast 生产。

Tensor 希望在 2026 年下半年交付,抢下「全球首款」称号。(来源:IT 之家)

电竞玩家打造硬核外设「电击手臂」,瞄准水平达职业级

近日,海外博主 Basically Homeless 在视频平台上展示了其打造的「肌肉瞄准辅助系统」。这通过计算机视觉和精确的电击,他的手能够在毫秒级时间内迅速指向目标,并在需要时自动开火,甚至超过了众多职业选手。

在视频中,Basically Homeless 展示了他自制的这一系统,该系统本质上是一种电击装置,结合了计算机视觉和电肌肉刺激技术。再加上计算机视觉技术,基于大模型让计算机实时分析游戏画面,例如在《反恐精英 2》中识别到对手时,系统会生成相应的电信号,并通过电击来收缩肌肉,实现在毫秒级时间内将手迅速指向目标。

在测试中,该系统的反应时间最快缩短至不到 100 毫秒,约为他正常反应时间的一半,甚至比许多职业选手更快。(来源:cnBeta)

 

3 分钟,我学会了像鸟儿一样飞行 | New Things

2025年8月14日 23:02

几个月前,影石的小伙伴告诉我们,他们孵化的全新无人机项目已经进入到了关键阶段。

得知影石要做无人机的时候,我确实有点惊讶——不论是国内还是全球市场,大疆已经统治消费级无人机市场多年,这是一个不论新玩家还是老玩家都很难突围的赛道。而在过往我们与影石创始人刘靖康的交流中,我一直觉得他是一个极度冷静且理性的 90 后创业者,这就更让我好奇,影石为何选择无人机作为品类扩张的新方向。

很快我了解到这是一款全景无人机——这很像他们的风格。影石过去很喜欢把他们的全景相机送到高空,无论是绑在老鹰身上,还是随着卫星发射到天空,在更高的地方拍出不一样的全景画面,这似乎是他们早就想做的事。

那时,这个全新无人机品牌「影翎(líng)」的英文名已经引起我的注意——「Antigravity(反重力)」。我猜测,这次把全景相机搬上无人机,影石的目标绝不仅仅是为了「拍照」。

不久前,我和同事在新疆提前体验了这款产品。尽管只是工程样机,但足以让我看清影翎的思路:这款全新的Antigravity A1 并不是一台「会飞的相机」,而是通过「实时全景拍摄+智能眼镜监控」,把人类的感官带上天空,让用户仿佛化身鸟儿一样,在城市或者山林里遨游。

它带给我的,是传统无人机从未有过的全新体验。

 

全景无人机:像鸟儿一样飞

在新疆喀拉峻草原,我们试飞了一台 Antigravity A1——后者由无人机本体、Vision 飞行眼镜和 Grip 体感遥控器三部分组成。

A1 的本体是一台四旋翼无人机,重量仅 249 克,折叠后也就一个巴掌大小,可以直接塞进包里。机身配备了两颗上下排列的摄像头,前端还镶嵌了一个用于避障的视觉传感器。

Antigravity A1:搭载前视避障传感器和上下排列的鱼眼镜头 | 图片来源:极客公园

第一次正式试用 A1 前,我的心里其实有些紧张。因为这款全新无人机的操作方式,和我熟悉的传统「航拍无人机」有很大的不同。

操控传统无人机像是在玩街机游戏,操控设备上有一个中央屏幕+两侧操纵杆。用户既可以看到操作界面,也可以直接观察周围环境。

而操控 A1,则像是在玩一场 MR 游戏。我需要先戴上配套的 Vision 飞行眼镜,它会在飞行过程中传输无人机的实时画面;操控则依靠单手握持的体感遥控器,在实时监看无人机所处环境的同时,「盲操」完成各种飞行动作。

Vision 飞行眼镜 | 图片来源:极客公园

但实际体验的难度要比我预想中小很多。

首先,这款飞行眼镜的外屏会实时显示和内屏相同的画面。所以,我身边的影翎工程师可以直接根据外屏画面,对我进行操作指导。

其次,Grip 体感操控器的手势也借鉴了直升机操控,很贴合人体直觉:左右挥动即可改变水平航向,上举下放则改变飞行高度,操作起来像是在空中「拎着」无人机一样简单。

Grip 体感遥控器还提供三组实体按键:(从左至右)分别对应起降、调整左右方向、加速 | 图片来源:极客公园

在 2-3 次简单教学之后,我就熟悉了 Grip 体感操控器的手势,可以开始正式飞行。

来新疆前,我特地在小红书、抖音上刷了不少「无人机出片攻略」,随车的地陪小哥也总热情地告诉我每个景区的「最佳机位」。

不过,由于试飞时这款产品仍处在保密阶段,我们反而需要避开那些热门打卡点。这让我不免担心:没有了最佳机位,还能拍出满意的片吗?

不过,当无人机正式升空之后,我之前的疑虑很快就被打消了。

首先,由于搭载了两颗全景镜头,可以拍摄 8K 全景画面,所以 A1 实际也具备了和全景相机一样「先拍照后取景」的特性——也就是可以一次性把 360° 的景象全都记录下来,后期再选择任意角度的镜头。这样,就不用再担心因为分心飞行操作而错过精彩瞬间,也大大降低了取景和构图的门槛。

而且,也许是因为我们的第一次试飞 A1 就是在草原上,当无人机飞得足够高的时候,我几乎不用费心「驾驶」,注意力都集中在了「看风景」。

我就像坐在了真正的飞机驾驶舱里,360°自由扭头转动视野,远处的雪山、两侧的峡谷、正下方烧烤和骑马的游客,全都尽收眼底。沉浸在「飞行」和「俯瞰」的乐趣里,我甚至觉得之前执念的「出片」也变得没那么重要。

另外,在我操控无人机的时候,我的同事也没有闲着。这款飞行眼镜还提供了一块外屏,可以实时显示和内屏相同的画面,让身边的人可以同步观看我的第一人称飞行视角,而不是在一旁无聊等待。

等到电量耗尽时,影翎的飞行系统会根据剩余电量和距离,自动提醒用户返航,避免因为过于沉迷而导致没有电量返航。用户也可以直接按下遥控器上的「一键返航」按钮,A1 会在发出提示音后自行飞回。

值得一提的是,在距离地面大约 1 米左右的高度时,A1 机腹位置的「起落架」还会自动展开,以保护底部的全景镜头在降落时不被刮花。

在测试的过程中,我们还发现了一个小细节。当我们把一些重物放在无人机背上的时候,A1 刚起飞就会放下起落架自动返航。影翎的工程师告诉我们,这个功能来自实时开启的负载检测系统,可以自动规避无人机违规改装风险。

 

为什么要做「全景无人机」?

笔者第一次见到 A1 无人机,是在极客公园的办公室里那是一次 100% 的纯静态观看。所以,尽管看到了机器,但我面对这个新产品时,脑子里其实还有一堆疑惑并没有解开:

  • 为什么当友商在拼命卷画质卷镜头的时候,影翎的产品要用鱼眼镜头取代长焦呢?
  • 全景无人机=全景相机+无人机?这应该不是一个简单的技术加法。
  • 这么做仅仅是因为影翎和影石要打造一个差异化的产品吗?

当我在新疆的草甸和高山实测完 A1 之后,我才终于意识到这款产品背后是影翎团队对一款新产品从 0 到 1 时更深层的思考,以及影石多年对「全景+飞行」这种形态探索的积累。

首先,A1 不再是单纯的「影像工具」,而是希望重新定义无人机的整套「飞行体验」。

传统的「航拍无人机」,核心目标是拍出更好的画面,而实现这一目标的路径往往是搭载更好的相机。但无论如何迭代,这种产品形态都高度依赖操作本身。能否拍到好看的画面,还是要高度依赖于飞行能力和构图技巧。

而由于 A1 本身搭载了全景镜头,就让它天生就和全景相机一样,拥有「先拍照后取景」的后期特权。

同时,由于 A1 可以做到飞行方向、观测方向和拍摄方向相互独立,也使得它可以带来一些过往在无人机上无法呈现的独特视角——例如:在操纵飞机上升高度的过程中,如果俯视地面,就会带来一种「腾空而起」的冲击感。

在上升的过程中,俯瞰果子沟大桥 | 图片来源:极客公园

我是坐在一辆越野车的车顶「飞行」时,第一次感受到这种沉浸感。当时,眼镜里的「我」正在飞过一座高山,而现实中的「我」则正好感受到了来自车身的晃动和耳边的风声。毫不夸张地说,重度恐高的我当时真的产生了一种恐惧感,第一时间对同伴大喊「你别晃车门」——我相信这是仅靠手持的屏幕无法实现的沉浸式交互效果。

所以,如果说过往的航拍无人机只是把摄像机镜头带上了天空,那么我相信,A1 是希望把我们最真实的感觉都「装载」到飞机上。用影翎团队的话说,他们希望 A1 可以实现人类最原始的飞行梦想。

其次,全景技术和无人机的组合,不仅是一个简单的加法,背后其实还有复杂的工程、软件问题需要解决。

在决定进入无人机之前,影石的创始人刘靖康每年都会把自家的全景相机绑在老鹰的背上,就好像坐在老鹰背上飞上了天,可以获得一个最原始的全景飞行影像。

绑在老鹰身上的全景相机视角 | 来源:影石 Insta360 视频截图

2022 年,影石发布了一款外挂式无人机全景相机「瞳 Sphere」。它可以一键快速锁定并安装在其他无人机上。比起老鹰背上的相机,它通过优化镜头的位置布局和后期算法的加入,让无人机在画面里完全消失,获得一个 360°的VR 影像。

外挂式全景相机「瞳 Sphere」的解题思路 | 图片来源:影石 Insta360

Antigravity A1 在两者基础上,继续叠加了全景图传技术、飞控技术等技能点,并加入了飞行眼镜和体感遥控器,终于让全景相机真正长出了翅膀,得到一台既可以全景拍摄,又可以获得像鸟儿一样自由飞行体验的首款消费级全景无人机。

沉浸式「完全体」A1 飞行体验 | 图片来源:极客公园

需要说明的是,我们这次体验的只是 A1 的工程样机,所以很多关键参数尚未确定。距离产品的正式发布发售还有一段时间。如果你是一个重度的无人机发烧友,或者通过我们的文章对这款新产品产生兴趣,那么你也可以通过影翎的官网参与到产品体验和共创计划中。也许在之后正式发售的版本中,你提出的功能和创意玩法就可以得到实现。

 

「反重力飞行」,航拍之外无人机的一种新玩法

我们在新疆赛里木湖边拍摄日落的时候,还有一段特别有趣的小故事。

当飞机起飞的时候,远端一直遮挡着太阳的云层突然散开。我和同事山山老师特别兴奋地冲着湖边和太阳的方向「飞」过去。飞的人边飞边说「好美」,在旁边那位一直在提醒可以实时取景观测要拍到怎样的画面。

结果,当我们心满意足地以为拍满了一块电池,才发现原来起飞的时候我们忘了按拍摄按键……

这固然是和我们无人机拍摄经验不够丰富有一定关系,但另一部分原因在于,由于可以自由转头获得任意视角的画面,我们也更容易享受和沉浸在飞行本身的乐趣里。

虽然回看素材时,我们戴上飞行眼镜摇头晃脑的一些画面可能显得有点呆。但戴上眼镜的那个人,在全景技术的加持下,会觉得已经在这趟「航班」上请了一个专业的 AI 摄影师,自己可以更沉浸地自由欣赏风景。所以,回看素材时,我们甚至发现录音里类似「好爽」、「好过瘾」的感叹,要比「好美」、「好漂亮」更多。

沉浸式第一人称飞行 | 图片来源:极客公园

以前,受制于物理局限,人类只能在特定地点俯瞰身下的风景,例如登上城市里的电视塔。在户外和山间,只有极少数可以从事翼装飞行的极限运动员,可以得到从山谷中穿过的体验。

但是,在喀拉峻大草原和果子沟大桥旁边,A1 给我提供了一种在赛博世界里最接近鸟儿的飞行体验的体验。有一丝恐惧,更多的是兴奋,还有一种和这个品牌的英文名一样的新奇感——「Antigravity(反重力)」。据我们了解,这个英文名要比「影翎」这个中文名字更早确定。

在这次体验结束的时候,我意识到「全景+飞行」并不是一个被创造出来的消费场景,也不是两种技术的简单迭代,这是一种消费者一直存在但很难能被直接描述出来的需求。影翎希望把这件事做好。

所以,以后在旅行的过程中,当我们再拿出无人机,未必只是为了单纯「出片」,它也许也会成为小朋友、大朋友手里的玩具,带我们去到脚步、双眼无法到达的地方,让我们可以更沉浸地享受旅途,欣赏美景。

这台无人机想做的,不仅是为我们记录旅行提供一种新的方式,它也许也希望改变我们旅行本身的方式。

经过几天的体验,我认为它在一定程度上已经做到了这点。

7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本

2025年8月14日 15:20

7 月 29 日上周二,理想i8新车发布,共有三个版本,Pro 版售价 32.18 万元,Max 版 34.98 万元,Ultra 版 36.98 万元。

但仅仅一周后,8月5日,理想汽车董事长、CEO 李想也在微博发话了:「听大家劝!咱们不纠结了,以后 i8 只有一个版本,标配即顶配,一口价 33.98 万元」。

理想i8把中间的Max版变成了唯一的「顶配版」,直接砍掉了另外两个版本。

被认为有些执拗的李想,也开始听劝了 | 图片来源:李想微博

李想本人也大方承认,之前搞好几个版本是「惯性思维」犯了错,所以采用了当年理想ONE靠着「一个版本打天下」的策略。

消息发布后,截至发稿,理想港股股价上涨1.58%到102.8港币,最新总市值为2200.83亿港币。

为啥理想 i8 要紧急修改SKU?会产生怎样的影响?

李想开始「听劝」?

理想 i8,作为理想家族的第一款纯电SUV,上市之初被寄予厚望。

但一上市,用户们很快就发现了一些让人「挠头」的问题:作为一款起步价超过32万的车,Pro版竟然连理想标志性的「冰箱」都没有;而Max版,又缺少了很多人想要的后排娱乐屏。

更尴尬的是,一些核心配置,i8竟然还不如自家更便宜的车型理想L6。这就让很多准备好钱包的消费者感觉「不划算」,心里犯了嘀咕:

花更多的钱,体验反而「降级」了

值得注意的是,理想做出这个决策时,正处于一场巨大的「舆论风暴」中。i8上市后不久,一个关于它和乘龙卡车对撞的视频在网上疯传,引发了巨大的争议和讨论,甚至还有关于「理想车主素质」的各种负面话题。

理想i8是理想汽车调整策略后,重回纯电市场的关键一步 | 图片来源:理想汽车

市场的冷淡和议论,很快就反映在了订单数据上。理想自己都承认,出乎他们预料的是,有超过98%的用户选择了理想i8 Max和Ultra车型。

同时,2025年8月4日,汽车博主「孙少军」在直播中,披露理想汽车上周订单数据:理想上周新增订单约13000单,其中i8大定订单达6000单左右。顶配Ultra版占了70%,高配Max版占20%。

这意味着什么?——那个本应是「走量担当」的入门版Pro,几乎无人问津。用户用真金白银投了票,清晰地告诉理想:我们不想要一个「阉割版」的理想,我们要的是那个配置拉满、一步到位的体验。

理想 i8 最主要的特点,就是更大的内部空间|图片来源:理想汽车

面对这样的市场反馈,理想汽车做出了一个有些惊人的决定:「急刹车」,调整产品策略。

他们想起了自己的「成功密码」——当年,理想的第一款车「理想ONE」之所以能一炮而红,靠的正是「标配即顶配」的策略。除了颜色,所有功能一次性给你,不让消费者纠结。于是,理想i8迅速「回归初心」,将三个版本合并为一个优化后的「唯一版」。

这个「急刹车」的代价有多大?这绝非李想发一条微博那么简单,纠错需要巨大的勇气和成本。

因为汽车是一个极其复杂的工业产品,其供应链管理以「年」为单位规划。一周内的突然转向,会对生产和供应链造成巨大冲击。

首先,理想一定已经为Pro版和Max版采购了大量专属零部件,可能瞬间变成了「呆滞库存」。如何消化?要么折价处理给供应商,要么只能计提损失,这是一笔不小的浪费

同时,理想突然取消Pro和Ultra两个版本的订单,意味着对应的供应商要承受生产计划作废、已备物料积压、生产线调整的损失。虽然理想是「甲方爸爸」,但这样做无疑会考验与合作伙伴的长期关系。

真正的强大,不是从不犯错

那么,付出了这么大代价,理想i8就一定能成功吗?答案是:不一定。

因为在竞争激烈的商业世界里,「战术」上的修正,往往很难完全弥补「战略」上的失误。

这是什么意思呢?我们来看一个另一个案例:小鹏G9。

2022年,小鹏 G9 被寄予厚望,其产品力本身相当出色。然而,在第一次发布时,因其极其复杂的版本(SKU)和令人困惑的选装逻辑,遭到了市场的广泛批评。尽管小鹏汽车在48小时内迅速反应,推出了简化的「二次上市」方案,展现了惊人的纠错速度和诚意。

小鹏G9是小鹏汽车品牌向上的关键一环 | 图片来源:小鹏汽车

但结果如何?这次堪称神速的「战术补救」,并没能扭转G9的命运。它后来的销量一直不温不火,最终没能成为大家期待的「爆款」。

你可能会想,这是不是只有小鹏才犯的错?不,即便是如今的「优等生」——理想汽车,也为此交过学费。去年3月,在理想纯电 MPV 车型 MEGA 正式上市 20 天后,李想发布了内部信,承认产品在节奏、目标两方面出现了判断错误。

这两个案例,都指向同一个核心:在战略层面,一个微小的失误,都可能像推倒第一张多米诺骨牌,引发连锁反应,甚至满盘皆输。

一次失败,是否能够挽救,可能不得而知。其实,与其纠结失败本身,更重要的是面对失败的态度。

李想大方承认,这次理想i8主要是因为团队陷入了「惯性思维」。这句话背后,是一种了不起的品质——诚实。

简单来说,就是有勇气面对自己的错误。在成长和创业的道路上,最大的敌人,往往不是身边的友商,而是那个沉浸在过去成功里,听不进意见的「我」。

真正的强大,不是说你永远不会犯错——因为没有人能做到这一点。真正的强大,是当你犯了错误时,敢于承认「我错了」,并且立刻去改正它。

小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!

2025年8月14日 15:17

五年前的2020年,第一代小鹏P7横空出世,它第一次让普通人真切地感受到「智能汽车」到底是什么样。它以原创性的流线型轿跑设计,率先搭载了高速辅助驾驶、全场景语音对话系统,在中国新能源市场划开了一道口子。

快进到五年后的今天,2025年8月6日,小鹏汽车董事长、CEO何小鹏,化身产品经理,从设计、性能、智能、体验等多个维度,将全新P7的卖点娓娓道来。发布会上,小鹏共发布3款 P7 车型,分别为702km长续航版、820km超长续航版、750km高性能版。

不过,这次的发布会有点「不按套路出牌」,有两个地方特别有意思:

一个是发布会花了半个多小时讲车身颜色。还请来了陈妍希、朱正廷、宁泽涛、钟楚曦四位明星来站台,分别介绍一款配色。比起冷冰冰的性能参数,小鹏这次似乎更想和你聊聊「颜值」和「感受」。

另一个,一般新车正式上市前都会公布一个预售价,让大家心里有个底,也管理一下大家的预期。但全新P7偏不!想知道多少钱?等8月底正式上市再说。这波操作,让人有些出乎预料。

发布会后,小鹏官方宣布全新小鹏P7小订超过1万台。

现在,最大的问题来了:这款「吊足大家胃口」的全新P7,到底藏了什么秘密武器?它还能像第一代P7那样,一出场就惊艳所有人?

颜值就是正义

如果你关注了近几年国内的新能源汽车,你一定会有一种感觉:车展上的新车,仿佛都穿上了「统一校服」。

这套「校服」的款式你肯定很熟悉:一张被堵上的「前脸」,一条贯穿式的「眯眯眼」日行灯,一对隐藏式的门把手,再加上一个圆滑的溜背造型。结果就是,我们很多人都得了一种「汽车脸盲症」,看着都差不多,傻傻分不清楚。

不过,最近发布的一款全新小鹏P7,似乎想给大家来点不一样的东西。

小鹏P7的外观可以用三个词来形容:低趴、车身宽、车头长 | 图片来源:小鹏汽车

坦白说,第一眼看到它,你会被它的姿态吸引。就连理想汽车创始人李想,都曾公开夸奖小鹏P7的姿态是「最好的」

全新的P7在原来「优雅」的基础上,变得更有「肌肉感」和「攻击性」了。它采用轿跑式的设计,车身线条流畅,姿态低趴,营造出强烈的运动感和视觉冲击力;车身很宽,除了有更好的过弯性能,也让肌肉感更强;另外,车头非常长,车身侧面的肩线,雕刻得更加深刻、有力。

最绝是尾部,性感的溜背线条,配上一个能自动升降的电动尾翼,看起来就像一辆从科幻电影里开出来的概念车。

这些设计,让全新P7在茫茫车海中,拥有了极高的辨识度。

如果说全新小鹏 P7 的外观是「酷」,它的座舱则主打「玩」。

坐进小鹏 P7 的座舱中,最酷的是一块会「动」的屏幕。

它就像一个能听懂人话的桌面机器人。你一跟它说话,它的「脸」就会自动转向你,眼神锁定,认真倾听。倒车或者拐弯的时候,它还会主动「转头」帮你观察,比好哥们还贴心。

当然,你也可以像撸猫一样,直接用手把它掰到你舒服的任何角度。

方向盘也很好玩,上面有几个特别的「快捷键」,就像游戏手柄的「大招」按钮。想体验瞬间加速?按一下「Boost」,马上感受推背感!想切换悬挂高低?动动手指就行。

当性能轿跑,拥有「最强大脑」

如果说设计是全新P7的「面子」,那么技术,就是它敢于重返战场的「里子」。这一次,小鹏几乎倾其所有,将最顶尖的技术毫无保留地武装到了这台车上。

对于一台轿跑,什么最重要?除了好看,当然是「快」和操控。小鹏P7高性能版 3.7秒 就能从0加速到100km/h,最高时速更能达到 230km/h

底盘采用同级领先的全铝前双叉臂+后五连杆悬架,同时配备双腔空气悬架与智能可变阻尼减震器。听不懂没关系,你只要知道,这让车子转弯超级灵活,日常舒适与运动操控随时切换。

同时,全新P7用上了最新的800V高压架构和5C电池。这就像给你的手机换上了超级闪充,充电5分钟,通话两小时?不,它是充电10分钟,续航增加525公里。喝杯咖啡的功夫,又能跑老远。

根据不同版本,它的续航里程覆盖702公里到820公里,缓解你的「续航焦虑」。

如果说性能是P7的肌肉,那智能化就是它的灵魂。这一次,小鹏给它装上了「最强大脑」。

全新P7全系标配了三颗顶级的「图灵」AI芯片,总算力高达 2250 TOPS!这算力有多恐怖?约等于把好几台最顶级的游戏主机塞进了车里,一颗负责「智能座舱」,另外两颗专门负责「智能驾驶」。

这三颗芯片有着非常明确的分工:两颗驱动智驾VLA大模型,这让P7不只是能「看见」路上的车和人,更能真正「理解」复杂的交通状况,并主动做出判断和决策;剩下的一颗芯片,与另一颗高通8295P合作,共同负责车内的所有智能体验。它们驱动的是座舱VLM大模型。

小鹏 P7,希望成为一个真正「懂你」的AI伙伴。

从「偏科生」到「六边形战士」

毫无疑问,这台武装到牙齿的全新小鹏P7,是一款强大的产品。那它能成为另一个爆款吗?

在讨论P7的未来之前,我们先来看一张小鹏汽车滚烫的「期中成绩单」:

  • 7月,小鹏交付了 3.67万 辆新车,同比增长 229%,直接刷新了单月交付记录!
  • 今年前7个月,小鹏累计交付了 23.39万 辆,同比增长 270%。
  • 年度目标完成率,小鹏在所有新势力品牌中排名第一,完成了全年35万辆目标的 66.8%。

相比第一代小鹏P7,全新P7面临的压力大了很多 | 图片来源:小鹏汽车

这张成绩单,无疑给了小鹏和全新P7极大的底气。但,考场已经变了。

五年前,第一代P7横空出世,当时考场空荡荡,他自己出题自己答,轻松拿第一;五年后,全新P7再进考场,发现这里已经变成了「地狱模式」的「吃鸡」决赛圈,挤满了顶级高手。

特斯拉的Model 3车型,就像那个年年考第一的同学,虽然大家有点看腻了,但实力依然强得可怕;比亚迪的「技术鱼池」深不见底,产品力依旧很能打;小米SU7的出现,更像是一个带着亿万粉丝和全套智能装备的「超级玩家」,改变了整个班级的游戏规则……

面对这一切,小鹏的答案,就是将全新P7打造成一个无死角的「六边形战士」

过去,我们总说小鹏是个有点偏科的「理工男」,技术很牛,但在其他方面总差口气。而现在,这台倾注了小鹏所有心血的杰作,清晰地表明:小鹏,不想再偏科了。它在设计上开始进化,在技术上激进且All in,它要成为一个技术、设计、体验、市场、用户洞察全面拉满的全能选手。

最终,全新小鹏P7能否成为下一个爆款,取决于它能否完成一次关键的进化:从一个「优秀的产品」,进化为一个「成功的商品」。而决定这一切的终极考验,就是价格。接下来,我们一起见证。

对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」

2025年8月14日 15:14

当辅助驾驶的浪潮席卷而来,我们似乎都感受到了一个瓶颈:在高速公路上,它像个老手,稳健可靠;可一回到复杂的城市街道,它就变回了需要时时看管的「新手」。为什么会这样?

本质上,之前以「端到端」为代表的AI驾驶模型,其核心是模仿学习,像「猴子开车」。你让一只猴子看1000万段人类开车的视频,它能学会模仿人的动作——在什么情况下打方向盘,什么时候踩刹车。靠着这种「模仿」,理想汽车在短短7个月内,就将辅助驾驶的平均接管里程从12公里提升到了120公里。

然而,模仿终究是模仿。「猴子」并不会真正思考,它只是在应激反应。当遇到一个从未见过的街角,一个突然窜出的行人,一个复杂的、充满不确定性的路口时,这只「猴子」的大脑就宕机了。因为它只会「怎么做」,却不懂「为什么」。

整个行业,都走到了这个模仿的瓶颈前。下一步,路在何方?

答案,藏在一个全新的概念里——VLA(视觉-语言-行为)大模型。

2025年7月底,在北京理想汽车的研发总部,极客公园在理想i8正式发布前,深度体验了理想第一版VLA模型,这也是国内第一个量产上车的VLA模型。同时还访谈了理想汽车自动驾驶研发高级副总裁郎咸朋博士及核心研发成员团队,在与他们的深度访谈中,我们得以一窥这场变革的核心。

如果说过去的端到端是两步式:「看见,然后行动」。那么VLA的核心,就是在「看见」(Vision)和「行动」(Action)之间,植入了一个至关重要的环节——语言(Language)。它就如同一个会思考、能推理的大脑,它不仅能看懂「前方有障碍物」,更能结合上下文理解「这是一条狭窄的双向车道,对向有来车,我应该减速避让,而不是冒险超车」。

这种「内心戏」的思考过程,让汽车的行为决策不再是一个冰冷的黑箱,而是变得可以理解,也更接近人类的思维。我们终于有机会窥见,那只「猴子」的脑子里,在想些什么。

那么,拥有了「大脑」的VLA司机,想成为一个什么样的角色?

理想的答案出人意料,却又在情理之中:不做「老司机」,要做「私人司机」。

这二者有什么区别?老司机关注的是「我怎么把车开好」,核心是驾驶者本身;私人司机关注的是「怎么让乘客坐得舒服、安心」,核心是乘坐者。

因此,在首个VLA版本中,「安全」被放在了「效率」之前。当遇到复杂的路况,它宁愿慢一点、稳一点,也绝不做任何让家人感到不安的激进冒险。它的每一次决策,都以你和家人的安心为优先准则。

当然,要实现这一切,绝非易事。理想汽车的路径,并非是跳过模仿学习直接进入VLA,而是建立在数据、算力、算法和工程能力上的长期积累。

特别值得一提的是,理想汽车VLA的训练场是「世界模型仿真系统」。你可以把它理解成一个为AI司机量身打造的、无限逼真的「元宇宙」驾驶模拟器。在这个虚拟世界里,AI不再是单纯模仿,而是通过一次次「试错」去探索和学习。

它每天可以在这里「行驶」超过30万公里,经历现实中普通人一生都难遇到的极端、危险场景(Corner Case)。它会经历无数次失败,并从失败中总结经验,以惊人的速度进化。

今天,第一版的VLA系统相比过去,也许只是在舒适性上迈出了一小步。但真正的变革在于,它的进化将不再是线性的,而是指数级的。当它的平均接管里程从100公里跃升至1000公里时,一个新的时代就将开启。

这场深刻的变革才刚刚拉开序幕。也许在不久的将来,当我们再次坐进驾驶座,会发现那个曾经需要我们时时警惕的系统,已经成为了一个值得托付的「人」。

自动驾驶的「ChatGPT时刻」,或许比我们想象中来得更快

理想汽车自动驾驶研发高级副总裁 郎咸朋博士 | 图片来源:理想汽车

以下为访谈内容,部分有删减:

访谈嘉宾:

理想汽车自动驾驶研发高级副总裁 郎咸朋博士

理想汽车自动驾驶高级算法专家 詹锟

理想汽车自动驾驶高级算法专家 湛逸飞

VLA:通往更高阶自动驾驶的「必经之路」?

Q:去年,「端到端」成为辅助驾驶主流方案,但也很快遇到瓶颈,VLA是当时唯一考虑的技术路线吗?还是有其它备选方案?

郎咸朋:我们一直保持对前沿算法的探索,做端到端时也在考虑下一代技术。当时业内最有前途的就是VLA,它不仅用于辅助驾驶,更是具身智能和未来机器人领域的通用技术框架。经过长时间的调研和探索,我们制定了VLA的技术方向。

Q:VLA看似并未颠覆「端到端」,这是否意味着它更多是工程能力的创新,而非革命性的技术路线革新?

詹锟:VLA不只是工程方面的创新。VLA也是一种端到端(场景输入,轨迹输出),但算法的创新是多了「思考」。端到端可以理解为VA(视觉-动作),VLA加入了Language(语言),对应思考和理解,把机器人范式统一。但VLA作为大模型,部署在边缘端算力上极具挑战,需要工程创新,必须有大算力芯片才能部署。

Q:行业有观点认为,VLA和「好的模型」是两回事,后者更多取决于数据和强化学习。您如何看待这个观点?

詹锟:我赞同VLA是一种模型架构,不一定代表是好模型。任何模型的设计思路只代表想法,不代表能落地。要训练出好的VLA模型,需要更好的数据、算力、算法、工程部署。我们认为,辅助驾驶想往L4或更高能力前进,L(语言)是必经之路。

Q:多模态大模型尚未迎来真正的「ChatGPT时刻」,理想此时量产VLA,这是一个足够好的解法了吗?它距离那个引爆点还有多远?

詹锟:多模态没达到GPT时刻。VLA在机器人领域泛化能力不强,但在辅助驾驶这个相对统一的范式里,有机会做到一个GPT时刻。

我们承认,现在的VLA是业界第一个要推向量产的版本,肯定会存在缺陷。这次尝试是想用VLA探索一条新路径,不一定非要达到GPT时刻才能量产落地。只要能通过评测、仿真验证它能给用户带来「更好、更舒适、更安全」的体验,就可以交付。

GPT时刻更多指的是很强的通用性和泛化性。我们会在落地以后,随着用户数据迭代、场景和交互的丰富,逐渐往ChatGPT时刻迁移。到明年我们如果到了1000MPI,可能会给用户一种真的到了VLA的ChatGPT时刻的感觉。

Q:从「司机Agent」到「更好的家庭司机」,理想对VLA的终极价值思考,发生了哪些变化?未来它将如何重塑我们的出行空间?

郎咸朋:我们之前的「司机Agent」说法迭代了,现在我们认为VLA应先专注于成为一个好的「私人司机」。

我们认为VLA是一个底层能力,对用户最大的价值就是把车开好。如果车都开不好,做其他事没有意义。而且,我们分析后认为,目前的AI Agent产品还处于比较初级的阶段。

所以我们重新审视VLA的能力,核心还是把车开好,为用户提供一个安全、舒适、安心且越开越好的司机体验。这是我们今年VLA上车后想实现的目标。

未来,在VLA模型的基础上,辅助驾驶会向「移动空间」的思路发展。当车辆能做到足够安心、安全后,它就能帮你去做其他事情,我相信那一天会很快到来。

解构大脑 —— VLA的「七十二变」与「数据炼金术」

Q:理想自研的MindGPT基座模型,究竟比行业开源模型「好用」在何处?

詹锟:我们自研的基座模型对部署VLA有很大作用,我们VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,专门对嵌入式芯片做了定制的MoE混合专家架构,并不是业界任何一个开源模型都能达到这个效率。VLA的推理帧率在10Hz左右,我们做了很多优化,把思考过程尽可能地能够在车端推理出来。

Q:云端大模型参数量是越大越好吗?面对友商的72B模型,理想的32B模型如何应战?车企判断模型大小的标准是什么?

郎咸朋:关于云端模型72B好还是32B好,我觉得各有各的好。关键看你是否能把模型训练到的能力,蒸馏好了之后,能落到自己的芯片上,做好优化、量化的部署,并且转换成用户的实际价值。能做到这点,都是好的应用。

当然,模型的参数量越大,训练消耗的资源就会越多,效率也可能低一点。把大模型蒸馏成小模型,能力损失也可能存在,这很考验各家工程师的能力。最终,我们还是要看最终的产品体验以及给用户带来的价值。

湛逸飞:其实也不完全只看参数量,你给它什么数据也是非常重要的。现在很多大模型都是基于互联网通用数据,而数据污染已越来越严重。我们理想汽车的云端大模型,是基于自己的数据去做训练,它在驾驶场景的理解上,比那些通用大模型的能力要强很多。我们需要的正是它对驾驶场景的理解能力。

Q:在VLA的训练中,在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令,我们是如何解决的?

詹锟:首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。

第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。

第二,生成数据。之前会有很多大语言模型会有幻觉,本质上因为「大模型」对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至生成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。

通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。

第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。

相比端到端,VLA的不同之处是在「看见」(Vision)和「行动」(Action)之间,加入了语言(Language) | 图片来源:视觉中国

Q:在浩如烟海的数据中,理想如何像炼金术士一样,定义并筛选出能训练出「老司机」的「黄金数据」?

湛逸飞:我们需要的数据,一个词总结就是「老司机数据」。我们会在云端用大模型对数据进行检查,看它是否符合我们定义的「老司机」标准。比如,在望京有些右转车道上有违停车,我们到底需不需要车辆压实线绕行?如果不绕,在望京就没法右转。我们对这些数据理解花费了很大功夫,并做了很多清洗。

郎咸朋:对于corner case和困难场景,我们会通过生成数据来提供。在强化学习阶段,数据更大的作用是训练世界模型,让它更符合真实世界,所以我们更多的训练数据来自合成。

我们从理想ONE就开始做数据闭环。2020年,我们就积累了1500万左右的有效回传数据。这5年做下来,从去年端到端开始,对手才真正把理想辅助驾驶当回事,但为时已晚,因为这些能力建设不是一天两天就能完成的。

如果还沿着端到端的思路做VLA,速度一定会变慢。我们的最终目标,是在云端建立一个模拟真实物理世界的世界模型,让算法在里面跑,就像在《SimCity》里一样。到那时,算法在模拟世界里跑一天,等于在真实世界跑好几年的训练速度。一年之后,当一个1000MPI的产品放在你面前时,大家会觉得辅助驾驶真的来了。我相信理想肯定是第一个走出来的。

Q:VLA如何凭空理解「前进10米」这类物理概念?我们真的能完全信任一个大模型做出的判断吗?

詹锟:我们不会单纯地让模型学习向前走10米、12米这样生硬的数据。但在海量的通识数据中,有很多对物理空间的理解,比如前方白车距离多少米。现在的大模型也已加入很多物理空间的知识。

我们分享的五步训练法,第一步就是加入通识能力和物理世界的知识,第二步进行微调,将能力和action结合。当我们把海量数据喂给它以后,数据具备组合泛化能力,并不是教什么学什么。当量级达到一定规模时,会涌现出一些能力。它懂了数字,懂了米数,当给它一个新的东西,就存在组合泛化的机制。我们也非常关注现在大模型的进展,随时可以向辅助驾驶上迁移。

Q:VLA的「大脑」再聪明,也需要敏锐的「眼睛」。在感知层面,我们如何持续进化,解决类似「懂车帝测试」中暴露出的问题?

郎咸朋:还是要继续提升技术能力。在VLA中,我们对感知有一个比较大的升级,能看得更远、更精细。

比较典型的两个例子是:我们动态物体纯视觉的检测范围从原来的150米扩到了200米,OCC通用物体检测从原来的80米扩到了125米。这都是目前在VLA上做的技术能力提升,包括数据、包括推理性能的提升才能做到。目前我们确实会在基础能力上做更多提升。

理想如何将VLA大脑塞进车里?

Q:从规则到端到端,再到VLA,理想的智驾算力经历了怎样的指数级增长?未来的算力规划蓝图是怎样的?

郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练卡只用于训练BEV模型和感知模型,数量较少。但在端到端时代,模型训练需要大量算力,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。

Q:理想是如何在Thor芯片上压榨出翻倍算力的?将精度从FP16降至FP8甚至FP4,如何做到性能不降反升?

詹锟:我们从去年开始用Orin芯片做大模型部署,通过魔改CUDA底层、重写PTX底层指令等方式实现。理想汽车辅助驾驶团队的工程部署能力是一以贯之的,从早期地平线J3,到Orin,再到Thor芯片,很多技巧、分析方法和工具链都继承下来了。

关键是我们打磨细节的能力,通过做底层分析解决瓶颈。VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率。这其中有非常多的细节,比如调整算子,让它和芯片能力更匹配。大家常用的推理模型会用FP16,我们把它降到FP8,性能做了非常大的提升,未来还会用FP4进一步把芯片算力压榨出来。

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定优化,性价比和效率都会很高。现在依然使用Thor芯片,是因为英伟达对新算子支持较好,算力也比较充足,在VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片。

Q:在车端部署VLA大模型时,理想是否会有一些轻量化的版本?如何在这场「性能」与「效率」的博弈中取得平衡的?

詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。架构上,我们的基座模型是自研的8x0.4B的MOE模型,这个架构非常适合英伟达芯片,推理速度快的同时模型容量大。

优化上,我们最早训练了一个32B的云端大模型,把它做出的思考和推理流程蒸馏到3.2B的MoE模型上。我们也针对Diffusion做了工程优化,并不是直接使用标准Diffusion,而是进行了推理的压缩。以前Diffusion可能要推理10步,我们使用了flow matching流匹配只需要推理2步就可以了,这方面的压缩也是导致我们真正能够部署VLA的本质原因。

Q:面对未来,理想会走上自研智驾芯片的道路吗?

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor芯片,是因为英伟达对一些新的算子支持比较好,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。

Q:在Orin与Thor两个平台,理想后续的VLA推送会「一视同仁」吗?两个平台的能力差距何时会显现?

郎咸朋:我们Orin X或Thor平台都会同步推送。目前测试来看在能力上没有任何差异,帧率上也没有差异,都是10帧。唯一的差异可能是底盘不同导致的舒适度体验差异。

后续的推送节奏也是同步的。我们现在肯定不会做这种差异化。但随着下一步的迭代,如果我们在INT4的量化上有一些突破,那时可能会有一定差异,但现在谈这个还为时尚早。

仿真,何以成为理想的「杀手锏」?

Q:面对「安全、舒适、效率」的「不可能三角」,现阶段的VLA,做出了怎样的取舍?

郎咸朋:我们的数据显示,理想车主的人驾数据是约60万公里出一次事故,而使用辅助驾驶功能是350到400万公里发生一次事故。我们的目标是将辅助驾驶的MPA(每两次事故间的平均里程)提升到人类驾驶的10倍。

在不可能三角中,我们的排序是安全、舒适,最后是效率。安全由MPA指标衡量,是最高优先级;舒适是在保障安全的基础上,我们通过优化MPI(每两次人工干预间的平均里程)来重点提升舒适度,减少因急刹、重刹等不佳体验导致的接管;效率排在安全和舒适之后。例如,即便走错路,我们也不会通过危险的动作立刻纠正,而是在保证安全和舒适的基础上去追求效率。

Q:理想为何敢大幅减少实车测试,并断言仿真测试效果更好?这背后的底气是什么?

郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。

从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。

Q:仿真世界如何做到复刻真实物理世界?理想的「杀手锏」是什么?

湛逸飞:我们在2024年进行了150多万公里实车测试,来验证仿真环境的可靠性。

最初世界模型仿真的真实性确实存在问题,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然没有达到100%,但准确率也可以在99.9%以上。

例如,我们针对仿真环境中「200米外看不清红绿灯」的问题,对红绿灯的视野模型和相机分辨率仿真进行了大量优化。正是用过去一年的时间将仿真系统的可靠性提升到了很好的程度,我们才会放心地去使用这套系统。

Q:在仿真训练中,如何判定一个场景的训练已经「毕业」?从「实习司机」到「老司机」的进化需要多久?

湛逸飞:强化学习是一个循环交替的过程。每一轮仿真,我们会给它一个打分(reward),这个reward会反向改变模型参数,然后我们再拿它去仿真,产生新行为。这个过程不是瞬间完成的,也没有固定时长,主要和场景的难度相关。直到它通过了我们在仿真环境里的所有metrics,我们才判断这个场景的训练完成了。

Q:如果满分是100分,您会给今天我们体验的VLA版本打多少分?要达到怎样的标准才能让您安心地将它推向市场?

郎咸朋:我们内部有自己的评分机制。大家试驾的这版VLA,内部打分已经全面超越了我们最后一个端到端版本OTA7.5,但在一些小的分数上可能还有波动。

在真正推送给用户之前,我们会做到一个明显的效果提升。大家体验的主要是我们在舒适度上的一些提升。接下来,我们会在「安全、合规、导航、效率」等维度上都会有较大幅度的提升。

我们的目标是,让熟悉我们车的用户一上车就会有非常大的体验提升;让没用过辅助驾驶的人,在使用时也会有很强的安全感、安心感和舒适度。

Scaling Law信仰,让理想成为理想

Q:您如何判断辅助驾驶的商业化落地时间表?理想的变现之路将如何铺开?

郎咸朋:从技术层面看,我们认为VLA模型可以走向更高级别的辅助驾驶,但它现在处于起步阶段,约等于端到端的上限。我相信VLA的迭代速度也会非常快,但这需要完备的算法、算力和数据等基础能力,以及工程能力的支撑。VLA的训练需要和成熟的仿真环境来进行强化学习,和之前单纯依靠实车数据模仿学习是完全不同的。

商业变现最核心的影响因素是国家的法律政策。从技术上看L4级别的辅助驾驶落地会非常快,但从商业角度看,还有很多问题需要考虑,比如保险和事故赔偿等。

Q:如果一个新玩家想入局VLA,会面临哪些难以逾越的挑战?理想的核心技术壁垒是什么?

郎咸朋:新玩家想做VLA模型,没法跳过规则算法和端到端阶段。VLA要建立在之前的基础上,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。

理想汽车之所以能够落地VLA模型,是因为我们有12亿公里的数据。只有在充分了解这些数据的基础上,才能够更好地生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练和推理算力的支撑也需要大量资金和技术能力。

Q:在研发VLA过程中最大的挑战是什么?理想在组织架构上进行了怎样的调整?

郎咸朋:我觉得挑战最大的是要把整个研发流程进行迭代。每一个技术革新都伴随着研发流程的迭代。去年端到端需要数据驱动流程,今年做VLA就必须要做强化学习的流程,需要快速验证我们世界模型的可靠性,也需要快速搭建高效的仿真环境。

组织层面,我们是IPD(项目制)组织。不管是去年做端到端,还是今年做VLA,都是成立内部项目组来做。这反而成为我们的一种优势。去年端到端是180个人,今年VLA是200多个人,我们觉得不需要几千人去做。我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。

Q:作为国内VLA的「探路者」,理想在「摸着石头过河」时,踩过最大的「坑」是什么?组织架构为此做出了怎样的变革?

郎咸朋:我有个最大的体验,就是对整个行业和辅助驾驶的判断与认知,决定了我们是否会踩坑。

我们很早就理解辅助驾驶是个人工智能问题,必须做好算法、数据和算力。我们从2021年开始搭建数据闭环,这是我们能做端到端的基础。

同时,去年在做端到端时我们就在反思,它是不是就够了。我们对人工智能的理解不是模仿学习,而是要像人类一样有思维和推理能力,去解决没有见过的事情。所以我们很快从端到端切换到了VLA方案。

小的工程细节、优化等小坑肯定有,但我们没有遇到大的判断失误。

詹锟:我补充一下,可能也不叫坑,是个经验。就是要相信AI的力量,相信Scaling Law(规模法则)。我们之前相信data Scaling Law(数据规模法则),看到了很好的效果;下一步就是坚信,当我们能给更多的数据、更大的训练时长,它总能出更好的效果。这是AI界的「the bitter lesson(苦涩的教训)」,我们要坚信这一点。

Q:最新的调研中,智能驾驶在消费者购车决策中的权重有多高?

郎咸朋:我们市场部的同学是做过调研的,并且给到我的反馈肯定是需要,都是排在首选top3里的。

现在新购车的人对智驾的要求,我觉得一年前可能问这个问题大家还有点质疑,但现在我相信特别是新购车的用户智驾一定是排在它的首先选要素里的,像去年麦肯锡的调研基本上都是第一或第二的购车要素。

Q:未来,理想是否会将VLA这项核心能力,向行业开放、赋能吗?

郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个VLA的发展还是在技术周期的初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。

从公司或我个人的态度上,是希望能够促进行业发展,但从目前VLA技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升10倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。

告别「偏科生」时代!36 万的坦克500,让对手从此无路可走

2025年8月14日 15:10

2025年8月11日,全新坦克500智享版开启预售!长城这次发布了两款车型,分别是预售价36万元的Hi4-T智享版和38.88万元的Hi4-Z智享版。

很多熟悉这款车的人,第一反应可能是:嗨,这不还是那台我们熟悉的「保定陆地巡洋舰」吗?

没错,从外观看,它依旧是那个车身雄伟、线条刚毅的硬汉,散发着「别惹我」的强大气场。但是,如果你们仅仅把这次发布看成一次简单的年度改款,那可就把它想简单了。 这次升级的核心,不在于「形」,而在于「神」。

它最大的变化在于,在保留顶级硬派越野能力这个「肌肉核心」的同时,为自己注入了一个前所未有的「智慧大脑」和「舒适灵魂」。

把「冰箱彩电大沙发」搬进硬派越野

一提到「硬派越野车」,你脑子里是不是马上出现一个画面:一台方方正正、浑身是泥的钢铁巨兽,在没路的山里「哐当哐当」地往前冲。车里的司机,肯定是个经验丰富的「老炮儿」,对他们来说,征服自然最重要,舒不舒服根本不是事儿。

一直以来,硬派越野车就像班里的「偏科大神」,越野能力100分,但舒适和智能可能连及格线都到不了。选择它,就意味着选择了「诗和远方」,但过程嘛,就得做好「吃苦」的准备。

但是,全新坦克500智享版站出来大声说:「不对!谁说硬汉就不能温柔?为什么去野外就不能享受五星级的待遇?」

它的解题思路,就是把新能源车上那套「冰箱、彩电、大沙发」给学了过来。

坦克500不止于越野,也要懂得生活 | 图片来源:长城汽车

首先是「大沙发」,坦克500智享版采用了顶级的Nappa真皮座椅,不仅支持加热和通风,前排甚至还带按摩功能!想象一下,在野外有点累了,一键开启按摩,这待遇直接拉满。

其次是「大彩电」,坦克500智享版车里有多块屏幕组合,驾驶座前有12.3英寸的仪表盘,中间有15.6英寸的超大中控屏,还有就是HUD抬头显示,能把导航、车速像科幻电影一样投射到前挡风玻璃上,让你开车不用低头。

最后是「电冰箱」,坦克500智享版在车里装了个车载冷暖冰箱,夏天能喝冰镇可乐,冬天能喝热饮,温度从零下6度到50度随便调,简直是长途旅行的「神器」。

所以,坦克500智享版就像一个「全能学霸」,它告诉我们:未来的顶级越野车,不光要能带你翻山越岭,还能让你舒舒服服地享受整个过程。

不止肌肉!当钢铁硬汉拥有「超级大脑」

如果说舒适性是让坦克500智享版有了「温柔的内心」,那智能化,则是给这个钢铁巨兽装上了一个「超级大脑」。

在2025年的今天,评价一台车是否足够「新」,智能化是绕不开的硬指标。它就像评价一部手机,我们不仅看它的摄像头和屏幕,更关心它的芯片和操作系统。坦克500智享版,就在这条「智慧之路」上,完成了一次进化。

越野车这种钢铁直男,也可以玩转智能这种花活 | 图片来源:长城汽车 这台车的「大脑」核心,是长城最新的Coffee OS 3智能操作系统。你可以把它理解成汽车界的「iOS」或「鸿蒙OS」,它让车里的一切操作都变得像玩手机一样流畅、智能。

同时,后排正上方,有一块17.3英寸的吸顶大屏幕。控制它的方式非常多:你可以直接触摸屏幕,可以动动嘴用语音控制,甚至还能用手势隔空操作。当然,用手机、后排扶手上的小屏幕或者遥控器也都没问题。

远红外夜视系统,让坦克500有了自己的「夜视仪」| 图片来源:长城汽车

 此外,它还有一个「黑科技」——远红外夜视系统。在伸手不见五指的夜晚开车,它能帮你「看穿」黑暗,提前发现路上的行人或动物。这不就是电影里才有的夜视仪功能吗?

如果说智能座舱是提升体验,那么智能驾驶辅助,则是衡量汽车科技含金量的核心。坦克500智享版搭载的是长城第三代辅助驾驶系统——Coffee Pilot Ultra。

为了实现强大的功能,它给自己配备了一身顶级的「超级装备」:全新坦克500搭载了激光雷达,拥有27个辅助驾驶传感器。同时长城汽车方面表示,其九州超算中心,2025年算力规模将扩大到5EFLOPS。

有了这套「装备」,它能做到什么呢?这也让坦克500拥有了不输于新势力的辅助驾驶能力。

首先,是「车位到车位」。你可以在地图上设定好从A点地库到B点地库的路线,之后在高速和城市快速路上,车辆就能在很大程度上实现自动驾驶。甚至连通过收费站闸机、在复杂路口掉头、等待红绿灯后自动起步这些高难度操作,它都能从容应对。

其次,是解决「停车恐惧症」。它搭载了全融合泊车方案,能识别超过200种车位,不管是断头路、斜着画的线,还是特别窄的车位,它都能轻松停进去。就连地上画线不清楚的地方,它也能准确识别。

坦克500智享版不仅是一个能带你翻山越岭的硬汉,更是一个搭载了「超级大脑」的智能伙伴。它证明了未来的汽车,一定是「肌肉」与「智慧」的结合体。

不跟普拉多玩了?

过去,当我们提到坦克500,它的对手名单上写着的是福特探险者、丰田普拉多这些名字。大家都是「硬派越野」这个圈子里的选手,比的是谁的拳头更硬,谁的底盘更扎实。这就像是学校里的举重比赛,大家比的是纯粹的力量。

但现在,情况彻底变了。全新坦克500智享版把目光投向了一个全新的战场。它的对手,不仅有老朋友普拉多,更直接瞄准了同价位的「当红炸子鸡」——理想L7/L8、问界M7这些城市豪华SUV。 理想、问界这些车,主打的是豪华、舒适和智能,这是它们的「长板」。但坦克500智享版说:「你们有的豪华、智能、舒适,我全都有。但我还有你们没有的——顶级的越野能力。」 它给所有消费者出了一道全新的选择题:同样花30多万,你是想买一台只能在城里享受的豪华SUV,还是一台既能在城里给你同等豪华智能,又能随时带你奔赴山海的全能座驾?

硬派越野开始变得舒服、智能,城市SUV则越来越野 | 图片来源:长城汽车

同时,坦克500智享版的出现,标志着一个新时代的到来——「越野+」时代。这里的「+」,可以是「+豪华」、「+舒适」、「+智能」、「+家用」。

未来的越野车,将不再是那个「偏科生」。它的地盘,依旧能带你跋山涉水,去往诗和远方;而它的车厢,则是一个移动的家、办公室和娱乐室。

对于整个汽车行业来说,坦克500智享版就像一条「鲶鱼」,搅动了高端越野市场。它逼迫着所有玩家,无论是国产品牌还是国际巨头,都必须重新思考:在新的消费需求下,未来的越野车应该是什么样子?

可以预见,硬派越野车会越来越舒服,城市SUV会变得越来越「野」,它们之间的界限将越来越模糊。

万字长谈王小川:不再迎合他人做学霸,我要解自己的命题

2025年8月14日 15:08

从小就是「学霸」的王小川,其实不太喜欢自己的「学霸」标签。

他在离开搜狗后的一次交流里,和极客公园创始人&总裁张鹏讲过自己的看法:「学霸」的另一面,意味着在别人设定好的命题里取得「高分」,但他接下来其实想找到自己的命题,不想再做别人命题里的学霸了。

但ChatGPT 的爆发,带着大模型浪潮扑面而来,王小川自己和所有熟悉他的人,都觉得他是最适合AI时代的中国创业者之一。故事似乎和之前一样,王小川成立百川智能符合所有人的期待,然后就是响亮的AI 六小虎的称号,以及大家在模型评分榜上的位置,产品MAU的数据、商业化ARR数字,等等。看起来王小川还是绕不开大家对于「学霸」的期待,有一堆必答题要去回答。

王小川自嘲,一度自己觉得百川成了三个公司:一个做模型,一个做toB商业化,一个做AI医疗。而王小川内心真正想做的,并非市场所期待的通用模型问题,而是「为人类造医生,为生命建模型。」

王小川一度觉得这个命题,在迎合更多业界必答题的过程中,从原点变成了「远方」,这让他觉得很有问题。这种撕扯,最终以今年4月开始的大调整而和解。王小川做出了选择:团队从450人精简至不足200人,回归扁平,回归专注。人数少了,团队的「压强」反而上去了,这让他对于未来,也更有底气和信心。

外界猜测这是「遭遇困境」后的被动收缩,唱衰百川的各种报道满天飞,这可能是王小川创业这么多年来被负面新闻包裹得最紧的一次。但是王小川本人选择沉默、完全没有回应。按照他的原话是「我需要的是跟自己的内心做斗争,而不是跟环境做斗争」。

直到8月12日,当王小川带着百川全新的医疗大模型Baichuan-M2亮相后,外界才终于看懂了他沉默的这几个月在做什么。这款大模型的性能超过了OpenAI新近发布的两个开源模型;而在闭源领域,它的能力也仅次于GPT-5。但这还不够。对王小川而言,他的目标,是在医疗这个垂直领域,实现对通用模型的超越。

这个时候,百川感觉上才真正变回了「一家公司」,而王小川也终于结束「一言不发」,愿意坐下来和张鹏再次进行一场长谈。

这更像是一次坦诚的复盘,一次对过去两年喧嚣的总结。也是一次对上半年不少朋友「小心翼翼」的关心和担心的回应。王小川觉得他现在的状态很好,因为他不再需要回答别人强加的必答题,而是可以真正定义自己的问题,并给出他更锐利的答案。

以下为王小川与张鹏对话内容实录,有编辑删减

01 「智能的高度」与「应用的深度」

张鹏: 最近GPT-5终于发布了,我们曾想象它会再次引领产业的大飞跃,但世界给予的反馈,似乎并不符合这个版本应该有的震撼。现在大家探讨AI coding的热情、以及感叹Anthropic估值已经接近2000亿美金的热情似乎更高涨,你怎么看这些现象?

王小川: 这可能是美国激烈竞争格局下的必然结果。毕竟那边牌桌上还有Grok、Anthropic等强劲的对手。值得注意的是,AI coding确实也呈现了一个可能比ChatGPT拥有更好商业模式和数据飞轮的通向AGI的通道。

很可能,今天OpenAI正处于一个相对劣势的阶段,在竞争压力下显得有些仓促地发布了产品。所以,给人感觉有点「拉下神坛」了。但我觉得这不代表OpenAI就此沉寂,更不意味美国AI创新后继无人。恰恰相反,这证明了其他竞争者的实力,他们正在激烈地争夺王座。

张鹏:我们该如何理解这种现象?OpenAI有做错什么吗? 

王小川: 从技术路线图来看,我从一开始就更欣赏Anthropic的策略,尤其是它将代码作为发展的中心,这条路是以API为中心,特别是深耕代码能力。语言模型强化到代码层面,就能够赋能千行百业。

而OpenAI选择是把重心放在一个C端的App上,

最初由Ilya Sutskever提出的「predict next token」(预测下一个词元)开启了大模型范式,沿着这条路走下去,代码本应是可见的、必然的方向。但或许是因为OpenAI的「包袱」过重,什么都想要,反而无法专注,也就难以找到最关键的轴心去突破。

当它需要服务7亿用户时,就无法将代码置于足够高的战略位置。我认为这是一种路线图上的风险。

我心中的AGI(通用人工智能),其核心是代码能够自动运行。对此我有两个逻辑:一个是从产业应用场景出发,例如造医生;但从更极致的技术追求来看,代码才是中心。

因此,无论从产品形态还是技术路线图来看,OpenAI都没有走在我期望的路径上。

张鹏: Anthropic的估值已经涨到了1700亿美元。我记得你每次都会强调,「语言才是智能的中轴」。所以「代码语言」这个轴线上的高速发展已经开始了呗

王小川: 代码,本质上就是一种更高级的语言。

最近Geoffrey Hinton也开始讲,人类智力的核心在于「类比」。这正是我一直信奉的,语言的本质就是类比与推理。我之前反复推荐侯世达的《表象与本质》,那本书用完整的篇幅阐述了这件事。

因此,数学是语言,代码也是语言,而且是一种「可运行」的语言。它就像图灵机一样,能够解决万千问题。所以,真正的道路是清晰的:首先,通过人类语言理解常识、学会沟通;然后,掌握数学语言与代码语言,从而征服理科与工科。 这条路,我过去在很多场合都讲过,从未改变。

今天代码的快速崛起已经开始验证其价值,更重要的是它的数据飞轮也已经高速启动了。

其实代码的终极用法,不是辅助程序员,而是它自己就能运行。今天所有类似的Cursor工具,本质上还是在辅助程序员。而一旦代码能够实现自我运行,AGI也就到来了。我还记得多年前在知乎写过一个帖子,标题是:「程序员是自己的掘墓人」。现在,这句话正在被验证。

张鹏:以前大家对智能的高度特别充满热情,每次新模型的屠榜跑分都会被认真讨论很久,但感觉今天Coding带来了一个应用的深度智能的高度可以一起前进的事情。未来应用的深度是不是会变得更被重视?

王小川: 没错。单纯的评测已经不够,已经到了可应用的阶段。

其实除了代码的价值已经肉眼可见,今天大家对医疗的期待,也是与日俱增的。国内大家讨论得偏少,但其实医疗正迅速从「非共识」走向「共识」。尽管Anthropic在代码领域跑得更快,但OpenAI在今年5月发布了Health-Bench,把医疗健康纳入核心评测维度。在OpenAI的产品发布会上,「健康」与「医疗」被反复强调。甚至在发布开源模型时,技术报告开篇第一章,就是阐述它在医疗领域的进展。

最值得玩味的,是在GPT-5的发布会上,唯一被请上台为它背书的,是一位癌症患者。

OpenAI身负着服务7亿用户的巨大「包袱」,这迫使它必须超越纯粹的技术叙事,走向一条「以人为中心」的路线。在这条路上,医疗是其无法回避,且必须占领的战略高地。

张鹏: 硅谷确实还在越来越热闹,但过去一段时间大家都觉得国内大模型领域许多备受瞩目的创业公司,也包括百川智能似乎都变得「安静」了。这背后有什么共性原因吗?

王小川: 身在局内,我反而觉得这是一个极其自然的过程。

2023年是历史性的一年,资本的恐慌性涌入和对未来的无限畅想,是技术变革的必然序曲。这有点像Gartner技术成熟度曲线的规律,当期望膨胀到顶峰,现实与应用之间的距离必然会导致一个调整期。当人们发现技术突破未能立即转化为应用爆发,热情冷却,行业便会安静下来重新思考。

回答这个问题,必须从技术与环境两个层面来看。技术层面,如果大家研究下OpenAI最新的开源模型,会发现它在基础设施与工程化上的深厚实力,这不仅关乎算法。我们一度以为已经拉近的距离,现在又被重新拉开。我们期待国内同行在底层架构上持续追赶,而百川也会在医疗这样的垂直领域,做出自己的贡献。

然而,比技术差距更严峻的,是来自大环境的挑战。美国头部公司动辄百亿美金的融资,以及像Anthropic年化经常性收入(ARR)已接近百亿美金的规模,这在国内目前都难以想象。说实话,在这样的牌局里,任何一家能够「咬住」不掉队,本身已是一件了不起的事情。

本质上,我们和美国存在一个「时间差」。当他们已经进入以ARR为核心的「摘果子」收获期时,我们绝大多数人还身处围绕基准测试(Benchmark)和参数的「模型内卷」阶段。这种阶段上的错位,会直接导致「底气」的缺失。

张鹏: 这种「看ARR」与「看参数」的差异,根源在于技术,还是商业环境?

王小川:我认为是双重叠加:既有技术追赶的压力,也源于商业土壤的不同。

张鹏: 那之前大家在模型上投入的热情和资源,你觉得值得吗?如果这是一场如此艰难的追赶?

王小川: 我认为,这取决于一家公司的终极抱负。

如果你的目标是打造一个轻巧、敏捷的公司,那么完全可以不自研模型。比如一个十几人甚至几个人的小公司,通过调用最优的第三方模型,完全有可能快速实现正向现金流,并获得资本的青睐。

但如果你立志要成长为一个长期的、具有系统性影响力的大公司,那么在模型层面的自主积累,就是一件不可或缺的事情。

02 重新变回一家「有自己命题的公司」

张鹏:最近投资圈都在感谢大模型公司释放了很多优秀人才,让他们看到了不少值得投,值得抢的新项目。百川的业务和人员调整好像也挺大的,这背后你是怎么想的?

王小川: 你肯定还记得2023年百川当时的策略就是「快」。快速入场、快速融资、快速抢占技术身位。这让我们在高峰期一度达到450人。速度为我们赢得了有利位置,但也带来了「思想无法统一」的后遗症。

许多人带着对大模型的热情,甚至是源于FOMO的恐惧,加入了百川,我们却未能真正「捏成一股绳」。公司内部甚至自嘲,已经分裂成了做模型、做医疗、做商业化「三个公司」。

后来,我在全员信中也坦诚沟通了这件事:我们必须回归创业的初心——「为人类造医生,为生命建模型」。

所以最近在组织上确实做了很多调整,直接说结果就是从450多人变成了不到200人,然后我们把管理层级从平均3.6级压缩至2.4级,从今年4月到6月,花了两个多月,我们完成了这次调整。你会发现,人数少了,整个团队的「压强」反而上去了,这让我对未来更有底气。我感到非常高兴的是,最终留下的,是一支既有AI信仰,又对医疗抱有热忱的团队。

张鹏:当初的快速扩张,在多大程度上是被客观的产业节奏裹挟?又在多大程度上,是因为自己主观上没控制好节奏?

王小川: 我认为是「三七开」——三分客观,七分主观。

客观上,在当时那个狂热的时间点,想要完全抵抗住浪潮的推力,确实很难。但更深层的原因,在于我自己。我确实为了迎合媒体、迎合团队、迎合外界的期待,做了很多「多余的动作」。

比如,我对金融这类能快速变现的方向,内心并无真正的热情。但当时有团队想做,有股东感兴趣,我就「从」了。现在回看,这本质上是自己当时的「心力」还不够强大。而摊子铺得越大,心力被稀释得就越厉害。

张鹏:现在想想的话,当时有办法更好的避免这种问题吗?

王小川:我还真反思过,而且可能解法还真没那么复杂。比如当时如果我能坚持面试每一位新同事,情况会好很多。因为这个过程中就一定会让自己「慢下来」、想清楚。创业者一旦只判断和选择目标,而不充分参与过程之痛苦,很多判断就会出问题。

我看其实大家的节奏调整都差不多,我相信行业会回归理性,大家也终将更专注于自己真正想做的事。

对我而言,这次调整最大的收获,是未来变得前所未有的清晰。因为我终于明白,真正的斗争,从来不是与环境的斗争,而是与自己内心的斗争。

 张鹏 :前段时间因为这些调整负面报道满天飞的时候,是不是有好多朋友给你打电话慰问? 

王小川 :慰问是有的。但大家似乎都有些小心翼翼,大都不敢打电话,反正就是各种谨慎小心的关心我,说的问的都挺含蓄。 

张鹏: 你觉得大家为什么要来小心翼翼的「慰问」?或者说他们为你担忧的是什么? 

王小川:估计是觉得我压力大。之前,无论对我,还是对百川,外界都抱有某种期待。当百川的发展轨迹,没有完全符合大家想象中那种高歌猛进的剧本时,可能一种低于预期的感受便产生了。我内心很清楚,媒体曾经给予了多少赞誉,当现实与预期出现偏差时,外界就会感受到同等程度的「失望」。

张鹏: 所有的媒体赞扬,本质上都是一种「预支的借款」

王小川:特别对。要么是消耗过往积攒的信誉,要么是透支未来的承诺,但终究是要「偿还」的。所以,外界的情绪,本质上是与你的发展速度和最终成绩紧密挂钩的。 张鹏:在那段时间里,你本人真实的状态是怎样的?

王小川: 说实话,我确实没有焦虑。我非常感谢大家的关心。很多人曾将自己对技术的理想,部分投射在了我们身上。所以当百川的路径看似「偏离」时,那种失落感是真实存在的。

而我之所以不焦虑,是因为我看到了大家没看到的东西。

大家期待的百川,和我内心真正想构建的百川,其实存在一个错位。早在2021年,甚至在创立百川的公开信里,我就明确提出,我未来二十年的热情在于生命科学和大众健康。ChatGPT的出现,只是让实现这一目标的路径变得更加清晰和可行。

但在2023年那个时间点,整个市场都沉浸在一种狂热里。无论是投资人、媒体,还是团队成员,他们都带着美国最前沿的模式作为对标,希望你做的跟美国一样,因为那是被验证过的、成功率最高的路径。

在那种氛围下,你去谈医疗,是很难被听进去的。所以,我们当时在某种程度上「迎合」了市场的期待,沿着大家都能看懂的「共识」路径在走。

但当我们的探索开始深入,逐渐回归到医疗的时候,之前那些因大模型、AGI加入的人,都会产生一种跟期待不一致的地方。

而百川在过去一年里完成的最重要的一件事,就是经历调整,真正回归到了我们自己对于未来的「意义感」和核心驱动力上。

张鹏:你真实第一人称视角的投身大模型领域的起心动念是什么?我很好奇在过去的几年间,为什么没有去调整大家对你们的认知错位

王小川: 当我决定下场时,是因为我真切地感受到了「模型」的力量。2023年初,我第一次深度使用ChatGPT时,内心有两种强烈的冲击。

第一种,震撼。因为我之前专注于医疗领域,对最前沿的技术进展没有那么紧密地追踪。一上手,我心里就咯噔一下,意识到:天变了。我过往做输入法、做搜索,每天都在和语言AI打交道,所以我能清晰地判断,眼前的这个东西,和过去完全不是一个物种。

第二种,随之而来的是一种失落感。我曾经也算是AI圈的中心人物,但那一刻,我发现自己想做的医疗事业,似乎与AI的主旋律,变成了两条平行线。

后来,我很快就想明白一个事:今天的大模型,能不能被用来「造医生」?

这个想法,让我内心的两条逻辑线索瞬间串联了起来:

第一条逻辑:语言是智力的中轴。掌握了语言,就掌握了构建智能、乃至「造人」的关键。 第二条逻辑:医生是医疗的中轴。构建了「AI医生」,就能掌握用户、药厂和科研的枢纽。

所以,技术上,我们在「造人」;应用上,我们则是在「造医生」。因此,我们从基础模型做起,因为你不可能依赖一个不开源的外部模型,去构建你的核心壁垒。

我的计划始终是,超级模型里要走到AGI,超级应用则要去「造医生」。但问题是,当时你向外界讲述这个「超级应用」时,大家听不进去,他们只能听懂,或者说更愿意听「超级模型」的故事。

到了2024年,我们意识到,以百川的资源和国内的整体环境,你不可能同时在两条战线上无限拉长。从基础模型到最终构建一个成熟的「AI医生」,这条路过于漫长,你不可能把所有事情都自己做完。

这就好比2016年AlphaGo出现时,我看得非常清楚,但这不代表我当时就有能力亲自下场把它做出来。基于对能力和资源的判断,我们决定,必须「聚焦」在医疗上。

张鹏: 但这时候这种错位就开始剧烈的释放应力了?

王小川: 对。在我看来,这是战略上的「聚焦」;但在行业眼中,这变成了「放弃模型」、「管不住团队了」……各种各样的解释都冒了出来,因为这不符合他们最初为你设定的那个「预期」。

张鹏: 所以你是如何消化这件事的?好奇为什么当时没有出来说说话而一直保持沉默?是不想说?还是没的说?

王小川: 肯定不是没的说,我有很多要说的,但说的对象可能不是行业和公众吧。因为你首先要从内心接受一个前提:大家在不同视角下看到不同的东西,是正常的。

一旦你接受了这一点,就不会再有情绪上的内耗。我不是去说服每一个人,而是清晰地表达,然后找到那些真正听懂了,或者愿意花时间去听懂的人,与他们并肩工作,这就足够了。

我既不会因为外界的不理解而愤怒,也不会因此而动摇。我的价值,恰恰在于我可能比大家多看到了一些未来的可能性。同时,我的责任,是要去沟通和花时间「对齐」那些同样怀有医疗梦想、并选择留下来的人,为他们创造一个最好的工作环境。当你内心真正笃定你想要什么时,这本身就是对自我的尊重,也是对团队的尊重。

张鹏:所以这两年,你最大的收获是什么?

王小川: 我的第一个,也是最感幸运的一点是:我之前想做医疗的梦想,与大模型的技术突破,真正相遇了。

这就像我过去做互联网的20年,本质上是拥抱了一个巨大的时代浪潮。没有时代,个体的努力会缓慢而曲折得多。而AI的到来,让「造医生」这件事,突然有了清晰可行的路径。

我们已然上桌,技术让梦想有了「解」,身在牌局之中。我觉得是很幸运的一件事情。

第二个巨大的收获,是我个人心境的成长吧。

早年做搜狗的时候,追求极致,无法容忍任何与我认知不符的东西,常常会因此陷入「为什么会这样」的执念,对内、对外都产生了很多不必要的攻击和消耗。

而现在,我可以说,我达到了十年来心境最好的状态——一种发自内心的平和。

当然,遇到做得不好的地方,我依然会直接指出,但不再是老板对员工的指令,而是一种共创的状态。我希望大家能真正地从内心走到一起,共同去成就一件事,这本身就是一次巨大的提升。

过去,面对这种局面,我的反应是愤怒——「为什么事情会走向失控?」,进而产生对抗情绪;或者,是逃避——假装看不见,期待它能自己变好。

而现在,我的选择是:面对问题,解决问题。

张鹏:我记得你之前提到,你不喜欢学霸的标签,是因为学霸本质上是要把别人的题都回答得很好,其实你想解自己的题。所以百川这次算是终于大声喊出自己的议题了呗?

王小川: 没错。创业过程中,一旦有了投资人,一旦置身于某种行业共识之中,你很容易就又回到了一个「公共题库」里。对我而言,那意味着重蹈覆辙,回到过去那种状态,而那并非我真正热爱的事情。

比如,「对标OpenAI」,这就是一个摆在所有人面前的「公开考题」。我们也很习惯性地去「应试」,去解答这道题。

直到今年4月,当我明确提出「为人类造医生,为生命建模型」的时候——这才是我们为自己出的题目。

 张鹏:2023年,国内大模型赛道的玩家,拿到了大额融资。但今天,融资环境会如何影响这些公司?

王小川: 2023年,资本确实给了一波相当可观的支持。这其中不仅有美元基金,也有来自阿里、腾讯这类产业资本(CVC)的加持。到了2025年,我认为资本环境的不确定性会显著增加,获取支持的难度会大得多。

相比之下,美国的资本支持力度依然非常大,这就形成了一种「比较优势」。在这种优势下,差距可能会被进一步放大。因此,必须要思考:当中国的资本支持不再充裕时,该如何走下去?

 张鹏:「造医生」是一件复杂且需要长期投入的事。你账上的资金能为百川智能提供多长的「安全区」?

王小川:我们现在的安全期,长到即便公司完全没有收入,也可以支撑120个月。所以现在要思考的不是安全问题,而是如何有效的把人和钱变成进步和结果的效率问题。

 所以你就理解我们近期的调整,确实不是基于压力而做出的被动选择。这是一次发自内心的主动决策,我觉得主动选择砍掉那些我们不想再做的事情,就是一次比再融一大笔钱更有成果的进展。

03 为什么「造医生」比追求智能高度,要复杂得多?

张鹏: 百川近期发布的Baichuan-M2模型,表现如何?

王小川:可以说,Baichuan-M2是目前全球最顶尖的医疗开源模型,性能甚至超越了OpenAI新近发布的两个开源模型。在闭源领域,它的能力也仅次于GPT-5。

OpenAI近来在医疗领域的投入有目共睹。他们新发布的120B和20B两款开源模型,已经显示了深厚的基础设施与工程实力。

在其GPT-5报告中,医疗也是重要部分。OpenAI强调自己的模型是全球唯一在Health-Bench(Hard模式)评测集上得分超过32分的,而Baichuan-M2的分数是34分。同时,在Heath-Bench(标准版)评测中,目前全球也仅有我们的模型与GPT-5突破了60分大关。可以说,在医疗AI这一垂直领域,我们已达到世界级水平。

我们原计划在8月下旬,与技术报告一同发布。但OpenAI此次不仅是近三年来首次重返开源,而且将焦点对准了医疗。我们内部研判,这是一个关键节点,是时候拿出我们的成果,与世界顶尖水平进行一次正面的较量。

在中美科技竞争的宏观背景下,我们必须承认差距客观存在。因此在医疗这一关键领域,我们选择开源Baichuan-M2,不仅是为了让外界对百川的实力有更透明、更深入的认知,更是希望为中国整体的AI创新生态提供一份力量。

此前的M1模型,我们虽已在医疗领域有所布局,但尚未完全聚焦。因此,M2的发布意义非凡——它标志着百川的战略重心,从「全线出击」转向「聚焦医疗」后的第一次亮相。

张鹏:在这个时间点发布M2模型,本质上是让大家重新认识百川。你会如何定义百川真正要做的事,以及你们在技术路线上的成长目标?

王小川: 我们要在模型层面,做到医疗突出,同时通用能力保持在第一梯队。

这其实是我们一直以来的一个念想,但在过去,坦白说,「医疗突出」这一点我们是没能完全做到的。而今天,我们开始真正地做到了。

这相当于我们「换了个身位」。过去,我们和大家在同一个战壕里,在各种通用大模型的榜单(比如MAU)里打滚,试图在混战中找到自己的定位。而现在,M2的发布,是我们找到自己新定位之后的第一次正式亮相。

接下来,在今年内,我们会陆续发布面向医生和普通用户的产品。

所以,我们规划了清晰的三条产品线:基础模型、医生端产品、大众端产品。今天的M2,只是我们宏大计划中的一个起点。

张鹏: 今天我们看到,像GPT-5这样的通用模型,延伸到医疗时表现得很强大。而百川选择聚焦于医疗,做出了一个开源的、在性能上「接近」它的专业模型。这个时候,专用模型的独特价值是什么呢?

王小川: 我们的目标,并不仅仅是「接近」,而是要在医疗这个垂直领域,最终超越通用模型的能力。

毕竟医疗不像数学或物理,仅仅依赖逻辑和公式。医疗知识体系中,既包含严谨的逻辑推理,也融合了大量独有的医学认知,甚至深受政策、法规和临床指南的影响。

当然,现阶段去和大家反复争论我们「如何」做到这一点,大家也听不进去的。只有当我们做到,并且是持续地做到,大家才会回过头来,重新审视并认同我们当初的想法。

这让我想起了当年深度学习领域两条著名的技术路线之争:Bert和GPT。当时,Google凭借其巨大的品牌影响力和行业地位,力推Bert路线,整个学术界和产业界几乎都闻风而动。大家为什么相信Bert?答案很简单——「因为它是Google」。直到OpenAI的GPT-3足够好后,大家才猛然回头,重新认识并相信GPT路线的巨大潜力。

张鹏:能否帮我们理解一下,以「造医生」为目标,为什么比单纯追求「智能高度」,要复杂得多?

王小川: 今天的模型,普遍缺乏「提问」的能力。 它们的核心是「解题思路」——你提出问题,它给出答案。这或许并非模型发展的核心方向。

其次,像「减少幻觉」是所有大模型共同的课题,但在医疗领域更严肃,因为它直接关乎生命健康。我们追求的是「循证医学」,模型必须能精准、可靠地调用外部知识库来支持它的每一个判断。

而这些需求,既不完全在当前通用大模型厂商主攻的技术路线图上,也无法用现有的技术范式完美解决。这就是我们的机会所在。

更进一步,当模型要真正落地为产品时,你还必须解决一系列应用层的问题:如何符合当地的政策法规?如何融入人文关怀?如何通过Agent架构将其能力进一步提升?

这是一个全链路的工程。我们不仅要在底层模型上做得比通用模型更好用,还要在上面叠加厚重的应用层开发,才能最终交付一个真正「可用」的产品。而这些,恰恰是通用模型公司缺少的。

 张鹏:在你看来,要「造医生」,还有哪几个最关键、最核心的问题,是目前行业没有解决,百川正在做的?

王小川: 首先,就是我们刚才提到的「提问」与「幻觉」,我们正在做,这是一部分。另外,

一个「好医生」,远不止于此。它要有记忆力,能记住你的病史。同时,医生不仅要与患者沟通,更要懂得如何与患者家属沟通,理解并处理这些复杂的人际关系。这些是通用模型在设计时根本不会去深入思考的问题。

所以,我们的路径是:在底层,死磕「提问」与「循证」;在应用层,则要赋予模型更好的记忆和对关系的理解。

张鹏: 你其实是在智能的高度之上,叠加了多个严苛的约束和目标?

王小川: 对。甚至我们还可以继续向下延伸,比如在慢病管理和长期健康追踪等场景中,都存在着大量的技术问题和用户需求洞察需要去解决。

04 AI家庭医生,将比无人驾驶更早到来

张鹏:从你的视角看,从技术基本就绪,到我们每个人都能拥有一个AI驱动的私人家庭医生,这条时间线你会如何预期? 王小川: 我认为,它会比无人驾驶更早到来。

张鹏: 这个判断很有意思。为什么?

王小川: 我们明年(2026年)会推出大的版本迭代,它的技术成熟已经肉眼可见。

将造医生与无人驾驶对比,有很多相似性。因为大众普遍认为,他们都与生命安全直接相关的,都很棘手。

但相比无人驾驶,造医生更容易落地,第一个是因为无人驾驶并非绝对刚需,没有AI司机,你依然可以自己开车。但医疗不同,没有医生,你自己无法给自己看病。

第二个是,无人驾驶的「人机协同」问题。我们知道,测试无人驾驶汽车的安全员,需要时刻保持精力高度紧张,随时准备接管,其劳动强度远超普通司机。因为一旦系统失灵,留给人的反应时间可能只有短短两秒。

但AI医生和人类医生可以形成非常高效、安全的分工协作。 AI给出的诊断报告或治疗方案,可以由人类医生进行最终审核。更重要的是,在广阔的院外场景,AI医生完全可以独立工作,因为它不直接涉及开具处方。

这里,我们内部有一个洞察:能够改变用户行为,就是在创造价值。 价值不一定只体现在「诊断」和「开药」。

比如,当好几位医生给了你不同的建议时,你该听谁的?当你家人生病时,你是否应该立刻送往医院?这些大量的、关键的决策,本身就蕴含着巨大的医疗价值。在这些场景中,AI医生可以独立发挥作用,甚至无需人类医生配合。

张鹏:我们此前曾用自动驾驶的L1到L5等级,来类比「造医生」的过程。今天,你对这个分层有新的迭代与思考吗?

王小川:今天我确实有了一些新的思考。过去我们套用自动驾驶的逻辑:L1仍需人工主导;L2能在单任务上独立工作;L3转为机器主导、人类辅助,并处理多任务(如同时开具处方和撰写病历);L4则基本实现全程自动化,人类仅作为监督。

这个分层逻辑,本质上仍是从单一维度,即机器自身的能力来划分的。

但我今天认为,医疗的演进需要引入额外的维度,比如场景,院内还是院外?「院外」场景,就像是「低速无人驾驶」。这个市场空间广阔,需求虽不像院内那样要求「一锤定音」式的高精尖,但其辅助价值巨大。

第二个新维度,是「关系」。医疗决策不仅是面向患者,更需要与家属沟通,这其中蕴含着深厚的人文关怀。我们常说一个词叫「嘴替」。比如,子女直接劝说父母关注健康问题,他们可能不听;但换成医生的身份,他们听从的意愿会显著提高。

张鹏:最近,大厂们纷纷开始布局AI医疗。你觉得百川智能又进入他们的射程之内了吗?

王小川: 我们做的是完全不一样的事。第一个,我们的目标是「造医生」,而不是一个简单的「健康顾问」。

其次,把产品形态做成一个小程序或一个APP,不是医生应该有的形态。医生,就应该有医生的形态。当你把它做成一个APP时,用户潜意识里就已经不把它当「人」看了。 这里边一个是关系,一个是使用习惯得一致。今天,行业里绝大多数公司在做AI医生时,其核心诉求依然是「降本增效」。他们把AI当成一个提升效率的工具,嵌入在原有的APP逻辑里,追求的还是日活跃用户(DAU)之类的指标。他们没有把AI当成一个「人」来看待。

张鹏: 你提到,明年我们或许就能亲身体验到「百川造医生」的进展。能否提前描绘一下,我们应该抱一个怎样的「正确预期」?

王小川: 我相信大家都能想象拥有一个私人医疗顾问的场景,这似乎是行业的共识。但届时你会发现,百川的思路与市面上其他做AI医生的公司,截然不同。

但我最近还是进步了一点,觉得预期管理这件事最简单的方法就是做到再说,所以我现在就先不讲太多了。

张鹏: 我猜想,你的最终目标是让服务直达用户和家庭,而非仅仅嵌入医院的某个流程体系?

王小川: 是的。我们的第一步是先进入医院体系,获得专业的认同与背书。到明年,我们就会将服务直接推向消费者(C端)。

 

❌
❌