阅读视图

发现新文章,点击刷新页面。

To B 领域第一批吃 AI 螃蟹的人,复盘了「AI落地」的真相和方法论

 
如果你是一名正在投身AI浪潮的创业者,或者一个正在思考,如何利用AI改造现有业务的从业者,那么G7易流CEO翟学魂的经历,或许能给你带来一些重要的启示。
 
他为观察这场AI如何重塑业务、组织、人才、行业格局的变革提供了一个独特的视角
 
G7 易流是中国最大的公路货运行业IoT SaaS服务提供商。大模型浪潮一开始,他们就投身其中,试图开发行业垂直大模型。但不到半年,就果断放弃了。
 
翟学魂当时意识到:大模型就像操作系统,作为垂直应用公司,不应该去修补这个操作系统。因为这并不能直接解决客户的痛点,应等待它成熟,或只利用成熟的部分。
 
于是,他们是另辟蹊径,押注「感知」——研发边缘AI硬件。
 
回过头看,翟学魂表示,「这一步无比正确」。这个选择的背后,是一个对AI落地更深刻的理解:要让大模型这个大脑发挥作用,必须先强化它对物理世界的感知能力
 
他们投入重金研发的边缘AI硬件,能将司机行为、货物和车辆状态联系起来,实现「看到更多」 。例如,它能结合视频、云端算法和历史数据,判断出「未遂事故」 ,并立即采取措施纠正司机的行为,从而避免真正的事故发生。
 
为此,他们的组织结构也发生了变革。传统的层级分明的部门结构被打破,取而代之的是由懂模型、懂算法、懂硬件、懂场景的复合型人才组成的「特种作战小组」 。
 
前不久,极客公园创始人 & 总裁张鹏与翟学魂在极客公园的直播栏目《今夜科技谈》中探讨了其AI在To B领域落地的心得和方法论。问题涵盖了:
  • To B的AI落地,迎来爆发点了吗?
  • To B垂直领域,该如何摆正与大模型的之间的关系?
  • 大模型想发挥作用,AI硬件为何无比重要?
  • To B 领域,AI落地的最佳时机如何把握?
  • AI 正在如何改变 To B业务商业模式?
  • AI时代的组织为何更偏爱战斗小组
  • AI时代,企业的核心竞争力和行业格局如何变化?
 
访谈中部分精彩观点:
 
  • 要使智能体表现出色,大模型发挥作用,前提是必须增强对物理世界的感知能力。再智能的「人」也需要能够感知物理世界。
  • AI 的核心价值在于解决传统 IT 技术无法覆盖的「长尾」和「复杂」问题,将过去仅能提供管理工具的 SaaS 模式,转变为直接交付确定性结果的服务模式。 这种能够交付确定性结果的服务,将能改变客户的付费习惯,缩小中美之间的付费差距。
  • 过去的 IT 技术划分了行业中大公司和小公司的边界。未来 AI 技术将进一步重塑这一结构。未来那些有重资产、能对客户做出重要承诺的中小企业,会因为 AI 技术从「小而苦」变成「小而美」,而那些只做轻资产管理和赚取差价的中间层将会被挤压,甚至被淘汰。
  • 与上一代AI技术旨在「替代人类」不同,大模型技术的核心作用在于「赋能人类」,通过智能体(agent)帮助人们更高效地完成任务,尤其是在沟通和决策方面,而非完全取代他们。
  • AI 应用的最大瓶颈是人才,尤其是同时理解行业场景和模型技术的复合型人才。
  • 作为 To B 服务公司、SaaS 公司,与客户的连接和数据永远是最重要的核心资产。而且在 AI 时代,这两件事会得到加强。
 
 
以下为直播访谈精华,经极客公园编辑整理:
 

To B垂直领域,该如何摆正与大模型的之间的关系?

 
张鹏: 这些年,我们几乎是同步开始重点关注 AI 的,说说你这几年的心路历程。
 
翟学魂: 首先,我是一个坚定的 AI 信仰者,用实际行动践行着我的信念 。我的一个特点是,每次投入一项行动,至少会坚持三年,不达目的不罢休 。在 AI 方面,我们已取得一些成果,例如,2018 年我们孵化了卡车自动驾驶项目,经过五年的坚持,大概有接近 3000 台重型卡车在中国高速公路上运行。在实际运行的 L3 级别自动驾驶卡车方面,其他公司的规模大概是我们的十分之一,最多一两百台。
 
张鹏: 结合你们的业务看,你是什么时候形成了对 AI 的信仰?
 
翟学魂: 我们目前为 30 万台车辆提供 7×24 小时安全服务。每天夜间,我们至少会唤醒 800 人次即将疲劳驾驶的司机。对我个人而言,这是 AI 对物流行业最重要的价值体现之一。我们从 2015 年左右开始这项工作,快十年了。主要用的是所谓的「小模型」专业AI算法。
 
张鹏: 那时主要还是机器视觉技术,属于上一代 AI。
 
翟学魂: 是的,我的信念基本上从那时开始形成。我当时意识到,如果要处理大范围、高度动态且长尾场景的问题,AI算法技术会远远优于其他技术和人力投入。这也是我们启动卡车自动驾驶项目、并在大模型问世后第一时间积极行动的原因。
 
张鹏:刚才提到的数字很让人震惊,一晚上可能要提醒八百多人次司机避免疲劳驾驶。在几十万辆卡车(及其背后的无数车队)的运行中,如果没有用AI,尽管并非每次都会发生事故,但风险概率将非常高。ChatGPT 出现后,你首次尝试将大模型带来的变革与现有业务结合的实践或实验是什么?结果如何?
 
翟学魂: 我们的首次尝试很快就放弃了。坦率讲,当时我们看到大模型,便立即着手开发行业垂直大模型。
 
张鹏: 这是相当普遍的想法。
 
翟学魂: 不到半年,我们便果断放弃了。
 
张鹏: 为什么放弃?
 
翟学魂: 从实际角度而言,我们构建行业大模型并不能直接解决客户的问题。它似乎是为了行业打造基础设施,但结果却未能直接触及客户痛点。
大模型如同操作系统,我们作为垂直应用公司,不应去修补这一操作系统。如果它不够完善,我们可以选择暂不使用,等成熟后再用,或仅利用其成熟的部分。没有必要动用大量资源去「修补」大模型,将其变成所谓的行业大模型。
后来,我看到有人继续尝试行业大模型,都劝告他们停止,毫无意义。果然,这些「修补」后来逐渐被大模型自身的发展覆盖了。
 
 

大模型想发挥作用,「边缘AI硬件」为何无比重要?

 
 
张鹏: 在已有操作系统上自行开发定制补丁版的操作系统,意义不大。外行人可能会认为,数据即石油,你们在行业内拥有海量车辆和历史积累数据。理论上,利用这些数据对模型进行相应调整,应该能在该领域取得更可靠的成果。首先,这一逻辑是否正确?
 
翟学魂: 这个结论是正确的。我们目前真正取得进展的工作,最终还是以大模型作为操作系统 ,在此操作系统上,结合我们积累的行业能力和数据,为客户开发能直接解决特定场景痛点的智能体(Agent)和应用。这条路径是我们坚定不移地走的。
 
刚才提到,第一步测试后我们认为「修补」大模型并不是我们应做的工作。然后,我们选择了几个关键场景,例如安全、车辆货物、冷链货物温度等,研究如何以大模型为基础,结合我们的数据积累和行业知识(know-how),更好地解决客户问题。
去年,我们实际上开始做坚定投入。我们投入的重点并非直接在大模型上开展工作,而是开发了边缘 AI 盒子,即边缘 AI 硬件。
为什么要开发边缘 AI 硬件?
因为我们发现,要使智能体表现出色,大模型发挥作用,前提是必须增强对物理世界的感知能力。我们可以假设模型会变得越来越智能,但再智能的「人」也需要能够感知物理世界。
因此,我们选择首先强化感知能力。当时,边缘计算芯片取得了重大进展,具备数 T 算力的芯片变得非常廉价,且整个工具链也相当完善。所以,从去年开始,我们启动研发边缘 AI 硬件。
现在看,这一步绝对是正确的。
物流现场过去看不清楚的,现在能看清楚了;原来看不见的,现在能看见了。举个例子,我们现在不仅能识别事故,还能辨别「未遂事故」。比如,当司机正在打电话,旁边有人经过,司机突然踩刹车,差点没刹住,这就是未遂事故。这对司机的安全至关重要,因为识别出疑似事故后,我们会立即采取措施纠正司机行为,否则若再发生三次,可能就会演变为真正的事故。
再比如,以前设备无法识别车旁有人,而那个人可能正试图盗窃货物。现在,边缘计算硬件能够将司机行为、货物和车辆状态联系起来,使我们能够判断所有我们希望了解的情况。
我认为,这是我们对 AI 应用最重要的一个洞察:必须先为大模型的大脑提供他人所不具备的、更优的物理世界洞察能力。换言之,即是对环境和意图的识别与洞察,之后大模型才能发挥其强项。大模型的强项就像一位博览群书的博士生,你提出任何问题,它都能解决。若你提供的是无用信息,它返回的也将是无用信息。
因此,我们目前开发的这种能够识别万物的 AI 边缘硬件,旨在整合过去的所有数据,包括哪些路口存在风险等信息,从而实现上述作用。
 
张鹏: 边缘 AI 硬件为何对判断潜在偷窃行为或未遂事故如此重要?
 
翟学魂: 要判断何为未遂事故,可能的情况是:车辆正经过一个事故多发路口。这个路口是危险路口,可能是因为村口常有老年人直接横穿马路,这些数据是我们多年积累所得,几乎涵盖了中国所有货车的风险路口记录。
此外,如果司机已连续驾驶 3 小时,他们可能已感到疲劳。这属于行业知识(know-how)。再加上司机突然踩刹车,以及前方视频中有人影闪过,所有这些信息综合起来形成一个上下文。
然后,结合边缘 AI 盒子的视频和云端算法,我们就能判断出这是未遂事故。这就像经验丰富的驾驶员坐在车上,看到你的驾驶方式就能知道对不对。这种判断是综合性的,结合了过去的经验与实时观察到的情况。
有时仅凭小模型便可解决,有时则需小模型与大模型结合,才能获得最精准的判断,且最好能在 2 秒钟内完成。在具备上下文的情况下,智能体(agent)便能发挥作用,例如,它必须改变司机当时的状态,为其拨打电话。
有了上下文,了解现实世界的情况,这通电话对司机行为产生影响的概率便会非常高。
从我们的角度来看,更重要的是上下文中的信息、数据和判断的来源。这个前提条件是我们的贡献,而非大模型的贡献。大模型已经研读了人类历史上所有书籍,对所有逻辑推理都非常熟悉。你只需告知其上下文,让它协助拨打电话并说明目的,它便能很好地完成任务。
 
张鹏: 你们公司找到了与大模型之间的关系,即必须为其提供增量信息,使其能够看到过去无法察觉的事物。有了这些,再结合大模型的能力,便有可能从看到更多进阶到看懂更多
为了实现看到更多,需要一套新的系统,这套系统甚至包含硬件和传感设备。这与大模型并不冲突,反而相辅相成。为大模型提供信息,它便能给予更有意义的反馈。最终,智能体(agent)在最后一步发挥作用,进行干预并采取更有效的行动。
 
翟学魂: 智能体对我们具有巨大作用。过去,我们所有的硬件和平台最终只能输出一个结果——报警,供谁查看呢?供坐在电脑前的管理员,或是我们称之为「安全监控员」的工作人员查看。当她们认为必须进行人工沟通时,便会拿起电话联系司机 。
我们原有的系统仅能实现报警和信息发送。但现在已完全不同,我们不仅可以报警,还能让智能体(agent)完成有效沟通。过去没有大模型时,系统无法与人进行有效沟通。
我后来思考,首先,除了搬运和驾驶人员之外,绝大多数人的工作内容是什么?他们主要通过沟通来完成任务。
然而,许多情况无法提前预知,当人们发现问题并进行沟通时,可能为时已晚。其次,没有人愿意每天重复进行这些无限的沟通工作。因此,我认为大模型的作用在于赋能人们,使那些具备运营目标的人能够在需要沟通时与司机进行有效沟通。
此外,如果你管理着 5000 到 10000 名员工,您会发现有些员工难以教导。你认为重要的事情,他们却不重视。例如,客户可能非常挑剔,要求从后门进入,但他却每次都不注意,还不轻拿轻放。但如果在他即将抵达时,给他打电话说:「十分钟后你就要到了,务必穿上马甲、戴上安全帽,从后门进入。」
这种时候他便不会犯错,这就是在帮助人。
因此,我后来有一个重要体会:上一轮技术旨在替代人类,例如自动驾驶便是替代司机。而大模型本身的技术具备大脑,它应该用于帮助人类更好、更高效地完成任务。我认为,对于物流行业的智能体(agent)而言,本轮技术主要目标是辅助人类。
 

To B 领域,AI 落地的最佳时机如何把握?

 
张鹏:在 To B 领域,有一种观点认为,前两年许多大型企业的管理者对应用 AI 的决心很强,因为担心不应用就会落后。但后来许多在 To B 领域实际交付过项目的人士表示,这两年大部分给管理者交付的只是情绪价值。
简而言之,AI 并未真正解决业务上的根本问题,只是在业务边缘有所应用。最终汇报时会声称公司拥抱 AI,有几个项目已在发挥作用,确实很厉害。然而,公司的原有业务模式和能解决的问题并未发生实质性变化。这是我们过去在 To B 领域观察到的情况,令人感到整体较为悲观。你身边的情况是怎样的?
 
翟学魂: 首先,我认为物流行业从业者更为务实,因为他们只关注成本、效率和安全,你必须清晰阐述这个技术对成本、效率和安全的影响。
物流行业的「新能源化」,其实与 AI 有些相似,它们都是新的生产工具,我对它们对公司的影响有着深刻体会。
起初,五年前有一批人一次性采购了 800 台新能源车,结果却以失败告终。原因在于当时车辆技术不成熟,社会环境不具备,电池性能也欠佳。因此,那些初期冲劲十足的人很快便被淘汰了。但这样的人非常少,属于极度狂热或机会主义类型。
随后,在前两年,许多人购买了 30 台新能源车,目的是什么呢?试运行一下。因为他们的应用场景恰好与新能源较为契合,所以便进行了试点。三年前、两年前,许多人都采取了这种做法。
后来,你知道去年和今年发生了什么吗?去年和今年,如果物流公司老板手中仍有大量燃油城配车辆,他们将被淘汰出局。
生产工具的发展正是如此:初期增长缓慢,但一旦达到某个临界点,由于新工具在效率和成本上占据优势,便会立刻出现反转,迅速淘汰旧工具。
换言之,对于新生事物,不应等到它完全成熟。一旦其成熟,原有的传统事物将立即处于竞争劣势,迅速被淘汰。
因此,现在在新疆,如果你拥有一辆燃气车而非电动车来运输煤炭,你将毫无机会,无法获得任何合同。因为其他人的成本比你低 10% 仍能盈利,而您却已亏损。所以你的车辆必定只能闲置,因此必须提前布局。
那些成功提前布局的人是怎样的呢?他们是三年前开始购买 30 台车辆的人。
我的意思是,这实际上有两个大的阶段。第一个阶段是狂热者被淘汰;第二个阶段,是那些看准机会进行小范围试点的人,因为他们意识到这件事开始有价值了,所以先尝试采购 30 台车辆。
在第二阶段,当新生产工具淘汰旧生产工具时,便会出现行业洗牌。此时,转化率和渗透率的速度将超出所有人的想象,因为新生事物会反过来内卷你。那么,现在 AI 在物流行业处于什么阶段呢?大概就是两三年前新能源车的阶段。
然而,大模型技术的应用与新能源车的最大区别在于:你购买的车辆,它仅仅是一辆车,与你没有深度的关联。但你使用的智能体(agent)则不同。智能体中包含的数据和专业知识(know-how)是你自己的。你输入什么,它输出的结果就与你相关。因此,如果前期没有积累,届时便会遇到问题。
现在是早期阶段,尽管目前的投入成本可能高于即将获得的回报,但它已具备价值,许多地方实际上已在使用。我刚才提到的这些案例,都是我们与客户共同实现的。
例如,对于一家从事危险品运输的公司,他们对安全极度重视。他们不允许货车司机单手抓扶上车,而必须要求司机「三点式上车」,即双手抓扶,身体有三点支撑,以此方式上车。以前曾因未能做到这一点,有人摔伤。而且不仅是人员摔伤,由于运输的是危险品,一旦触碰到阀门等部件,后果将十分危险。
坦白说,若不借助当前的多模态大模型,依靠编写算法来开发一个三点上车的识别模型,那将耗费巨大精力。而且类似场景繁多,非常多元化,属于长尾场景,这正是多模态大模型当前的独特贡献。
但你会问,这能改变企业的管理模式吗?能改变组织结构吗?能立刻创造竞争力吗?目前还不能。它现在只是有效,解决了某个场景问题。因此,我认为现在正处于这个阶段,并且还会持续一段时间。
 
张鹏: 所以创业者的最佳状态是既有好奇心又带点不自信。有好奇心意味着对新生事物应勇于尝试。不自信则表示,尝试后发现效果不错,但也不能立即全盘否定原有模式,仍需逐步观察和推进。如果好奇心与极度自信相结合,后果将十分可怕。好奇心必须伴随些许不自信,这样的配方可能才是正确的。
 

AI 如何改变 To B业务商业模式?

 
张鹏: 简单来说,企业管理者切勿好奇心十足却又极度自信,这极易导致错误。物流行业老板的情况,我也能理解,非常务实,每一笔业务都需清晰核算其合理性。这是一个快速可见的循环,容不得所谓的情绪价值或面子工程。
你们在推进这事时,是与客户共同探索的。在开始之前,你们是如何沟通的?是你主动寻找客户,还是客户主动联系你们?怎么分工?
 
翟学魂: 我们服务 4 万个客户,经常能听到许多抱怨。然而,这些不满意并非源于我们员工的不努力,而是因为技术存在瓶颈。
运用原有技术模式解决客户问题时,有时确实无法突破。比如,我刚才提到的对货物的长尾判断,依靠原有算法技术和硬件技术就是无法解决的。
因为原有硬件技术在边缘侧缺乏足够的计算能力,只有非常有限的计算能力,要么只能识别人脸,要么只能检测入侵,其他功能都无法实现,更不能形成综合判断。
因此,我们过去有大量这类问题无法有效解决。包括客户会说:「你看我这些海鲜,如此贵重的大闸蟹、帝王蟹都已装入车厢,车厢也安装了摄像头,为什么螃蟹爬出来你却无法告知我?」结果等到达目的地时,螃蟹已经死了很多。
 
张鹏: 还得专门为螃蟹训练一个模型。
 
翟学魂: 我说要给螃蟹训练个模型,半年都过去了。而现在真的不用了。
 
张鹏: 现在如何解决?现在如何识别螃蟹?
 
翟学魂: 以前需要 1 万张照片,投入大量算法人员,耗费至少三个月;现在可能 100 张照片,一周就能完成。
原有的 SaaS 产品无法直接面向最终结果,因为总是需要人工先查看,查看完毕后在系统内记录,然后才开始处理。所以,过去的 SaaS 仅是一个管理工具,无法交付最终结果。
但现在有了更丰富的技术,确实可以交付结果了。所以,我们首先关注原有的安全服务中客户不满意之处,以及货物服务中客户不满意之处。我认为这件事并不困难。后来,我们专门抽调团队,拜访客户,收集所有不满意的问题,然后共同分析这些问题是否适合用今天的新技术来解决。这是第一步,非常重要。这是我们主动发起的。
此外,还有一些情况,少数客户的管理者有「情绪价值」需求,规定「你们今年给我做 10 个 AI 项目」 。
 
张鹏: 这样的情况也有,是吗?
 
翟学魂: 是的,客户会说:「老翟,我们老板说要做 AI 项目,明年要考核我的投资回报,所以我们得找一个既有用又是 AI 的项目。」 这通常是大客户。我认为这两种互动方式比较典型。
我觉得最不可行的是重新发明一个场景。坦白说,在垂直行业里,客户与我们打交道这么多年,如果你连他们提出的问题都解决不好,再去创造一个新问题,成功的几率非常小。所以,从我的角度来看,我们做 To B 的 AI 服务,并非要创造新问题 。
要审视过去存在的老问题中,哪些是我们的解决思路不当、解决效果不佳的。这么多年来,大家的管理并没有出现新问题,只是老问题未能有效解决,这是我的观点。
 
张鹏: 这一点我非常认同。最近我与老翟经常探讨,To C 和 To B 两个领域都在围绕 AI 寻找新机会。我同时接触到两类创业者:一类像您这样,拥有历史积累、场景、用户和客户;另一类是新创业者,从零开始就要创造新事物。我聊了一年,接触了几百人,最终感觉与您刚才的观点有些相似。
如今在 To C 领域,创业者真正的机会可能在于寻找需求的延长线,即创造一些合理的新场景,因为原有场景已被巨头占据。
试想一下,如果说「我在原有场景中比巨头效率更高、体验更好」,巨头是不会放过你的。那是他们的核心阵地,你领先三个月,他们就会反应过来。
但有些事物,可能是在用户原有功能价值上延伸出的场景。例如,最近我们看到的一些硬件产品,以及情绪价值类产品,突然发现这条线是在用户原有功能价值上延伸出来的,这便有可能带来机会。若巨头真的分兵来做这件事,反而可能是其薄弱环节,甚至未必比你有天赋。他们可能资源更多,但未必能胜过你。
因此,To C 领域往往要在需求的延长线上寻找机会,而 To B 则是将「虚线填成实线」。
最初两点之间甚至没有连线,你的 SaaS 产品帮助将其虚拟连接起来,看起来好了许多,有条线确实走起来更顺畅。像你刚刚提到的,如果老问题未能得到完整解决,此时首先要做的不是创造延长线,而是将虚线连接成实线。这样一对比,应用 AI 有两种方式:一种是在延长线上寻找场景,另一种则切勿寻找新场景,而应在原有场景中将虚线划实,交付端到端的价值,确定性地解决问题,就是巨大的价值。
在To B 领域,过去 SaaS 模式在中国其实相当艰,而如果你能够将虚线连接成实线、交付确定结果时,商业模式是否会有进步和突破?
 
翟学魂: 举两个例子,你就会明白了。物流行业有两个特征,第一个特征是物理上的搬运。这其实就是我刚才提到的自动驾驶能够通过技术解决的问题。但这只是物流行业的一个关键特征,甚至我认为并非最根本的。最根本的关键特征是「货运代理」。
什么是货运代理?
就是你有货物需要运送,但无暇、无时间或无精力处理。你委托我作为货运代理,协助解决各种安全、温度等问题,并按照要求准时送达客户手中。这便是货运代理,实际上是物流行业服务的根本特征,而搬运仅仅是物理层面的特征。
全世界的大型物流公司都起源于货运代理,而非搬运业务。因此,货运代理这个名称意味着什么呢?它代表物流过程具有诸多复杂性,是一个漫长的链条,需要专业人员全程关注,确保万无一失,出现问题也能妥善解决。所以,货运代理作为一种服务,是物流行业第一性原理层面最根本的特征。
既然需要代理,这说明事情链条长且容易出现问题。如果链条很长,如果是一票快递,实际步骤数至少有几十个,印象是47个左右。
 
张鹏: 也就是从快递寄出到收件人签收,需要 47 个步骤。
 
翟学魂: 对,假设每个步骤,且大部分步骤都是人与人之间的交接。如果每个步骤的成功率是 95%,到第五个步骤时,成功率就只剩下 70% 多了,便会出现大量问题。但为何现在仍然存在这么多问题呢?因为这个过程太长,链条中的细节和个性化过于丰富。
物流行业最重要的一个特征就是场景丰富,代码无法完全覆盖。如果代码能够完全编写,早就变成工厂模式了。
还有一个特征是什么呢?车上安装摄像头非常便宜,仓库安装摄像头也极其廉价,因此实时数据极为丰富。
 
张鹏: 就是物流行业的数字化其实已经完成得比较好了。
 
翟学魂:是的,到处都是摄像头。
 
张鹏:但问题在于未能将数字化、直接转化为如同工厂流水线般的确定性。从数字化到真正的生产力整体提升、确定性提升,中间其实留下了巨大的空间。
 
翟学魂: 我想强调的是,当前的物流行业是由信息技术(IT)而非 AI 和数字技术定义的。信息技术依赖流程驱动,依赖一段段代码驱动,但代码是无法穷尽的。
因此,物流这个长链条存在诸多问题,例如安全和效率等方面。那么,如果引入 AI 会怎样呢?实际上,AI 能够针对每一段流程之间那 5% 的漏洞。
当你为其提供足够的数据,它便能辅助人们解决这部分问题,使流程的完整性从 5% 提升到 99%,甚至接近 100%,从而使效率提升 10 倍以上。
因此,以 AI 技术为基础重新定义物流行业,能够使效率和安全性提升 10 倍。因为原有的 IT 技术无法解决中间的这些问题。一方面是代码无法完全编写,另一方面,即使代码编写出来,人们也未必能完全按照代码执行。
原有物流行业的运行模式是:通过 IT 技术搭建关键流程节点,然后利用这些节点的结果制定 KPI 进行考核。而未来以 AI 为基础的物流行业,则是通过数据赋能 AI,帮助人们在无需编写程序的情况下,将事情做对,并且效率极高。
 
从我们目前在关键高价值场景中对 AI 的初步应用来看,客户具备付费意愿。
 
比如,我们有一家饲料客户,是全国最大的饲料公司。他们雇佣了一批人 24 小时监控,但仍然无法完全看管住,饲料依然会丢失。如果我们的智能代理(agent)能够帮助他们看管好,解决了实际问题,他们支付的费用将远低于原有的损失。
 
而且,如果一单收取一块钱,对他们而言很容易商议,因为原来这些价值并未被挖掘出来。
因此,我认为,从 IT 技术主导的物流行业到 AI 技术赋能的物流行业,将发生巨大变化。在这一变化中,技术人员有机会,客户也愿意付费。
 
张鹏: 过去在 SaaS 阶段,中国和美国的公司归根结底都在销售工具、销售虚线(指未实际落地的价值)。但美国的付费环境更好,中国的 SaaS 公司与美国同类型公司相比,尽管存在产品等方面的问题,但整体环境存在差距。
然而,未来当我们把虚线变为实线,交付实际价值——这里的实线既是实体流程线,又是可实现的价值——这种情况下,中国客户过去那种不好的付费习惯有机会改变吗?换句话说,当大家能够计算增量收益,看到问题确实得到解决时,中美之间的付费差距会缩小吗?有没有希望?
 
翟学魂:非常有希望。或者这样说,目前我们与美国同类型 SaaS 服务的收费差距很大,他们收取 1 美元,我们收取 1 人民币。但智能体(agent)的费用几乎接近,因为解决问题的价值相近。
为什么中国客户对 SaaS 付费意愿较低?因为我们的人力成本较低,而且他们对管理工具的价值认可与对结果的认可不同。
未来真正面向结果的服务,收费情况将有所不同。
 

AI时代的组织,更偏爱「战斗小组」

 
张鹏: 你们公司原有团队是信息化、数字化时代的团队,现在需要将大模型、AI 能力融入其中——这背后需要团队有新人、新认知。最近大模型和 AI 领域如此热门,你们公司能招到合适的人才吗?这件事是否痛苦?
 
翟学魂: 说到痛处了,确实很痛苦。
现在对于行业应用者来说,仍处于 AI 的早期应用阶段。但对于我们这样的服务公司而言,应该进入重投入阶段了。
因为我们看得很清楚:第一,必须软硬一体,边缘侧必须具备实时数据和识别能力。必须利用大模型作为智能代理(agent),将原有工具转化为最终服务。
这条技术路线有三个关键词:第一,需要具备硬件、软件、模型、数据方面的人才;第二,需要对场景有极度理解的人;第三,需要对大模型有极度理解的人。这三类人共同协作才能取得良好结果。
我们原来有两类人是足够的:从事硬件、算法和数据研发的人员,以及拥有近 20 年物流经验、对场景理解较深的人员。
但从比例上来说,既懂一点场景又懂大模型的人非常稀少,懂模型且有 To B 经验的人更少。
因此,如果要同时开展 10 个场景的项目,就会捉襟见肘,根本不可能。
不过现在模型能力已经可以了,许多地方都能应用,多模态稍差,但语言模型绝对够用。语言交互的反馈速度稍慢,但推理能力没有问题。所以目前的能力在物流行业可以覆盖许多场景。
目前 AI 应用的成本可以忽略不计,客户和我们都能承担。所以真正的瓶颈在于能否组建完整的团队,将场景、数据、算法、硬件和大模型整合起来。有多少这样的团队,就能创造多少成果。
所以,对 To B 领域大模型应用、AI 应用感兴趣的年轻人,欢迎推荐给我。
 
张鹏:过去,懂模型的人可能选择去大厂、创业公司,或者自主开发产品、成为独立开发者,并未过多考虑在物流这样的场景中如何发挥价值。
 
翟学魂: 首先说一下软硬一体最终实现的结果:
第一是「理解现实」,即看到情况后能明白发生了什么——是事故还是未遂事故?是否异常停车?异常停车的原因是暴雨还是其他?这主要通过视觉模型和多模态模型来实现。
第二是「有效沟通」。理解现实后,必须打电话与人沟通,把该问的问清楚,该传达的传达出去,达成共识并促使对方行动。我们向客户交付的结果就是这两点:理解现实、有效沟通。
我们现在的工作方式几乎不按部门划分,而是按项目组成跨专业背景的小组,共同推进产品项目。每个项目小组必须有懂模型、懂 AI(尤其是大模型)的产品经理,有懂大模型与数据、知识库结合及调优的研发人员,还有硬件工程师。基本上任何一个项目都需要五六个角色协作才能取得成果。
我估计两三年内,懂模型的产品经理在我们团队中的比例会达到四分之一到三分之一,现在还远远没有达到。
 
张鹏: 你刚才说的是一个个战斗小组,是多模型(MoE)模式,不是要求通才,而是需要战斗小组。
 
翟学魂: 一个人不可能特别精通这三件事。肯定要擅长一个部分,在这个部分深耕,同时能理解另外两部分,能和别人沟通就不错了,当然还得具备一定的沟通能力。
 
张鹏:这有点像人类军队改革,核心是小型化、集成化,变成一个个作战小组。特种作战小组就能解决大问题,配备最好的装备、训练和人才,也能获得更大价值。原来长链路里的人都是螺丝钉,现在逐渐变成特种作战小组,解决大问题并获得大价值。
 
翟学魂: 总结得太好了。特别是去年和今年,我们在推进 AI 项目和产品时,重构了产品、技术结构。以前是以功能性组织结构为核心,你完成一件事后提出需求,我拿到需求后再做另一件事,软件、硬件、算法平台层层推进。
自开始开发 AI 产品后,原有的功能结构肯定行不通了。因为信息传递缓慢,而且许多问题需要大家共同商议才能解决。所以现在最重要的是形成能够实现软硬一体、数据与模型配合、软件与硬件配合的作战小组。
原来依靠部门经理管理,现在依靠作战小组。
所有小组有一个共同的平台和机制:第一,立项时评估投资回报率(ROI);第二,立项后评估方案可行性。原来分层分功能的组织架构,在未来的产品迭代中肯定行不通。
 
张鹏:我经常阅读战争史和军队相关内容,军队是最务实的,输赢代价太大,所以他们的思维演进在人类社会中比较靠前。既接近技术(先进技术优先用于军队),又是管理人群的组织。如何让组织发挥最佳效能赢得战争,军队战斗体系的不断进化具有重要的指引意义。
例如,苏联时代的大纵深理论,依靠集团军作战,展开纵列穿插数百公里,每个士兵都是小兵。而这些年提及最多的是旅级战斗群,中国的重装合成旅比师级还小,与集团军相差好几个级别。
这表明军队正在向更少的人员、更强的装备、更灵活地解决问题发展,具备复合资源和能力,从空中到地面都有覆盖。这提示未来商业领域的公司,大概率会解构长链路的组织和管理。
探索时采用特种作战小组模式,成功后则扩大为旅级战斗群、重装合成旅。
你刚才提及的实践,某种程度上印证了这一点,人类世界的道理是相通的。关注最具挑战性领域的变革,便能为我们指明方向。未来组织层面将有诸多创新,年轻人在更小的体系中能更闪耀,发挥更大价值。
 
翟学魂: 对,很简单,一个产品成功了,所有人都能看到,不像原来层层递进,很久都不知道谁行谁不行。
 
张鹏: 最近几年招募的年轻人中,有没有让您感到骄傲、欣慰的例子?
 
翟学魂: 我认为最重要的并非经验多少,也不是学历高低。过去我们可能要求清华、北大、科大的毕业生,但在大模型和 AI 时代,我总结的是:首先,最好是 90 后甚至 95 后;其次,对新技术和模型的边界有理解,具备深入学习的好奇心;最后,对解决客户问题充满热情。
这样的人才很快就能取得成绩,展现闪光点。并非一定要寻找所谓的「大牛」,我不相信有天生的大牛,也不相信依靠长时间资历就一定能培养出大牛。
 

AI时代,企业的核心竞争力如何变化?

 
张鹏: 作为公司创始人、CEO,你看到智能体和 AI 在行业中已产生确定性作用,有没有思考过企业未来的核心竞争力?甚至使命有没有变化?
 
翟学魂: 有一件事没有改变:作为 To B 服务公司、SaaS 公司,与客户的连接和数据永远是最重要的核心资产。而且在 AI 时代,这两件事会得到加强——它们高度相关。
什么是「与客户的连接」?
具体而言:客户的车辆与你相连,司机的微信、电话与你相连,上游货主的 ERP 接口与你相连,还有三年的合同——这些都是连接。这是 AI 发挥更大作用的基础,因为最终要解决问题:比如一票货物出了问题,你得能够打电话给司机,司机也愿意接听;要在线与调度沟通,你得有其账号。这些上下游连接,重新创建的代价极高。
其次,就是我们反复提及的数据——并非历史垃圾数据,而是此时此刻物理世界发生事件所产生的数据。这种独特的数据获取能力,加上与客户的连接,永远是创造下一代产品的基础。
我思考得很清楚:今天我们能够开发新的 AI 产品,正是因为拥有这些核心资产。不变的是这些资产,但最终产品发生了变化,因此组织结构、人才结构必须调整。
例如,要能够创造有竞争力的智能体,团队机制、人才构成必须改变——原来可能只有两三种人,现在需要四种人才能运作,而且运作机制与原有的科层制完全不同。这种竞争力的转变需要循序渐进,不能像法国大革命那样「断头台式」颠覆,而要像「君主立宪的光荣革命」——一边继续提供传统服务,一边创造新机制。
人员结构不一定需要完全更替,但工作方式和产出物必须调整,以创造新的飞轮 。这个飞轮并非产品本身,而是团队的成长飞轮,这才是最重要的竞争力 。
 
 

IT 技术塑造了公司边界,AI将洗牌行业格局

 
张鹏:当前 AI 领域热衷于探讨数据飞轮,却忽视了人的成长这一核心要素 。只要公司并非单打独斗,便必然面临组织问题。
翟学魂先生是我刚入行时的引路人 。我毕业时,他已是业界举足轻重的人物 。我第一篇在业界产生影响力的文章,便是在他指导下撰写的关于保供物流的内容 。
今天非常荣幸能与他交流 。我刚入行时他便是如此,如今看来容貌未曾有显著变化(或许那时显得老成,现在反而更显年轻),并且依然活跃于前沿领域探索,令人由衷钦佩 。
你在物流行业已推动变革逾二十载,说说你对未来物流行业的展望?
 
翟学魂:前段时间我曾专门思考此问题 。当前的物流行业结构实际上是由 IT 技术塑造的 。凡是能实现核心流程 IT 化并量化为关键绩效指标(KPI)的领域,均发展成为大型企业 。
例如快递、电商配送等均是如此 。当前的大型公司,其行业结构皆由 IT 技术塑造 。此外,甚至货运领域的许多高管都源自同一家公司,你知道是哪家吗?是德邦 。
为何高管多出自德邦?
因为德邦最早在货运、快运行业普及 KPI 。因此,德邦的干部在数据驱动管理方面尤为精通。如今,你会发现顺丰、京东、菜鸟等大型公司的许多干部都来自德邦,因为德邦的管理理念与 IT 技术高度契合。
反之,凡是难以量化 KPI、存在诸多小场景的业务,则由中小公司承接 。实际上,大型公司与小型公司的边界是由技术划分的 。那么我们需思考的问题是:当 IT 技术升级为 AI 技术后,行业结构必然会发生重大变化 。
我认为有几点是确定的 。在这个行业中,拥有 50、100、200 乃至 500 台车辆的重资产中小企业,其生存状况将非常良好 。原因在于重资产本身即是一种承诺,需要企业负责人亲自承担责任,需有人承诺我已投入 50 台车辆为您提供服务,这是一种人为承诺,而非 AI 能够解决的问题 。
其次,在有了这份承诺之后,对于车辆管理、货运安全、服务等方面,小型公司曾难以通过 IT 技术实现 KPI 量化,老板也缺乏相应的 KPI 管理能力,但 AI 技术可以赋予他们这种能力 。
因此,我认为那些原有重资产、能对客户做出重要承诺的中小企业,将因 AI 技术而从小而苦转变为小而美它们过去虽然规模小、经营艰辛,但因客户需求而得以生存,未来则会变得更具优势 。
 
第二点,那些对客户缺乏重要承诺、仅从事轻资产管理且规模较小的公司,我认为在 AI 时代其业务前景可能堪忧 。原因在于大型公司能够运用 AI 技术将此类业务 KPI 化,从而覆盖原本无法涉足的领域。
大型公司的业务边界将通过 AI 技术扩展至这些轻资产的小场景 。更重要的是,货主会认为「你对我的承诺不多,仅协助管理流程,我自己也能处理」,因此许多货主会选择自行接管这些业务,共同挤压了原有轻资产小型公司的生存空间 。
实际上,所谓的轻资产,即是指中间层 。我们之前所说的中间层,就是通过赚取差价,在不进行实质性运输操作的情况下获取利润 。在物流行业中,许多人仅从事轻资产管理或长链条管理,这部分群体将逐渐减少 。
因此,从产业格局和结构来看,将发生非常显著的变化 。
然而,最终形成的新生态系统,其效率必然远高于原有模式 。原来存在的中间层将逐渐消失;原先经营不善、处境艰难的重资产中小企业,其效率、安全性和服务水平都将大幅提升 。我认为这种变化最显著的时期大约在两三年后,当前的工作成果也将在两三年后显现 。
我刚才提及的新能源汽车替代情况,大致也是如此 。
 
张鹏: 我认为你所阐述的这一点,可能不仅限于物流行业,许多行业都可能出现类似情况 。其本质仍回到我们刚才的论点:未来在相当长一段时间内,人工智能无法替代人类所承担的承诺兜底的价值和意义 。
这也印证了家有一老,如有一宝的说法,年龄仍有其价值。今天与您交流,字字珠玑。
 
翟学魂:我确实非常真诚地希望,大家能考虑加入 G7易流,共同开发真正有用、能落地的 AI 应用 。
 

特斯拉官宣 Model Y L 车型,9 月上市;快手辛巴宣布退网;阿里「扫地僧」多隆被曝加入老同事 AI 创企|极客早知道

理想汽车 CEO 李想请卡车师傅吃饭,称对撞乘龙有冒失但无意冒犯、现实中就不碰了

8 月 18 日消息,理想汽车 CEO 李想今日发布视频称,理想 i8 汽车即将交付,新车靠卡友送去千家万户,李想请卡车师傅中的几位代表吃了个便饭。

理想汽车 CEO 李想请卡车师傅吃饭,称对撞乘龙有冒失但无意冒犯、现实中就不碰了

李想在视频中称:(对撞测试)多少让很多的乘龙用户有点不开心,有冒失但无意冒犯,所以咱们碰一杯,现实中就不碰了,安全永远放在第一位。

李想还谈到对自动驾驶卡车的看法,他认为在整个货运环节中,那个人是很关键的,永远离不开那个人,不是简单的开车。

据此前报道,理想 i8 将从 8 月 20 日起开启全国首批交付。官方宣布了交付目标:到 9 月底保障超过 8000 台新车的交付量,并将与供应链伙伴一同向 10000 台的交付发起挑战,争取让更多用户在国庆假期前提到新车。(来源:IT 之家)

IDC:时隔四年,华为今年第二季度重夺中国智能手机市场榜首

8 月 18 日消息,国际数据公司(IDC)今天发布研究报告显示,2025 年第二季度全球智能手机市场出货量总计 2.97 亿台,同比增长 1.4%。二季度中国市场前五名厂商为华为、vivo、OPPO、小米和苹果,其中仅苹果一家国外厂商,华为四年后重夺榜首位置。

vivo 仍位居第二。小米客户基础广泛,注重性价比,在这一季度表现亮眼,成为前五名中唯一实现正增长的厂商。苹果通过战略性的价格调整,使特定的 iPhone 16 和 16 Pro 版本有资格获得政府补贴,缩小了其下降幅度。

(来源:央视网)

特斯拉官宣 Model Y L 车型即将登场,预计 9 月上市

8 月 18 日消息,特斯拉官方微博宣布,Model Y L 车型即将登场,并发布视频展示了该车的内外设计。但微博并未公布该车型具体上线的时间,此前官方透露该车将于「金秋见」,预计将于 9 月上市。

该车延续了特斯拉家族式设计语言,使用三排六座设计,对比现款 Model Y,新车轴距明显加长,这也是「L」(加长)版本的核心升级点。

工信部申报信息显示,Model Y L 的长宽高分别是 4976 毫米、1920 毫米和 1668 毫米,轴距达到了 3040 毫米。和现款 Model Y 相比,长度增加了 179 毫米,高度增加了 44 毫米,轴距增加了 150 毫米。

工信部数据还显示,Model Y L 的电池包容量达到了 82kWh,纯电动续航里程 751km,为 Model Y 系列史上续航最长的版本。IT 之家后续将保持关注,敬请期待。

英特尔获软银 20 亿美元投资

8 月 19 日消息,英特尔公司与日本软银集团本周一宣布,软银将向英特尔投资 20 亿美元(IT 之家注:现汇率约合 143.76 亿元人民币)。根据协议,软银将以每股 23 美元的价格购买英特尔的普通股。受此消息影响,英特尔股票在盘后交易中上涨了 4%。

此次投资被视为对英特尔的一次重要信任投票。近年来,英特尔在先进半导体领域未能充分抓住人工智能(AI)热潮带来的机遇,导致其股价表现不佳。在 2024 年,英特尔股价下跌了 60%,创下公司上市半个多世纪以来的最差年度表现。不过,截至本周一收盘,英特尔股价在 2025 年已上涨了 18%。

英特尔作为美国唯一一家能够生产最先进芯片的公司,其在美国半导体供应链中具有至关重要的地位。近期,英特尔成为美国华盛顿政界讨论的焦点,因为该公司被视为美国关键的芯片供应商。然而,英特尔的代工芯片制造业务尚未获得重大客户订单,而这对于其业务的稳定和扩张至关重要。上个月,英特尔曾表示,将在获得客户订单后再进一步投资其代工业务。

上周,英特尔首席执行官(CEO)陈立武曾与美国总统特朗普会面,此前特朗普曾要求其辞职。

对于此次投资,软银 CEO 孙正义(Masayoshi Son)在一份声明中表示:「这一战略投资反映了我们对美国先进半导体制造和供应将进一步扩展的信念,英特尔将在其中发挥关键作用。」

英特尔 CEO 陈立武则在声明中回应称:「我和孙正义先生多年来一直密切合作,我非常感谢他通过此次投资对英特尔所展现的信心。」

陈睿卸任 B 站两家关联公司法定代表人,由黄声声接任

8 月 18 日消息,B 站关联公司上海宽娱数码科技有限公司、幻电科技(上海)有限公司 8 月 15 日发生工商变更,陈睿卸任两公司法定代表人、执行董事职务,由黄声声接任

幻电科技(上海)有限公司、上海宽娱数码科技有限公司分别成立于 2014 年 9 月、2005 年 8 月,注册资本分别为 12.3 亿美元、5 亿人民币。股东信息显示,前者由香港幻电有限公司全资持股,后者由陈睿全资持股。

查询 B 站投资者界面,陈睿自 2014 年 11 月起担任该公司董事会主席兼首席执行官。加入 B 站前,陈睿曾联合创立了猎豹移动。2009 年,陈睿创立贝壳网络安全有限公司,并于 2009 年至 2010 年担任首席执行官。在此之前,陈睿曾于 2001 年至 2008 年担任金山软件有限公司互联网安全研发总经理。

(来源:CnBeta)

淘宝第一个程序员离职后去向曝光,阿里「扫地僧」多隆加入老同事创企做 AI

8 月 19 日消息,财联社 8 月 13 日消息称,阿里巴巴集团前合伙人蔡景现已离职,其阿里内外平台状态显示为「退隐江湖」。蔡景花名「多隆」,是淘宝初创团队的三个开发工程师之一,被称为淘宝第一个程序员。

8 月 18 日,据贝联珠贯公众号消息,刚刚离职阿里「扫地僧」多隆已于 8 月 6 日加入贝联珠贯。

贝联珠贯创始人兼 CEO、前阿里 P10 技术专家林昊(花名:毕玄)在文章中提到:「很神奇,我和多隆都没有想到,在 AI 时代,我们竟然又有了联手做点事情的机会和缘分,这个事情就是基于 AI Agent 来改变运维服务,让每家公司都有 N 个不同领域的『多隆』,从而提升运维服务的质量和效率。」

自 2000 年 8 月 1 日加入阿里,至 2025 年 8 月 1 日离职,多隆在阿里巴巴集团任职长达 25 年。

据财联社报道,自 2003 年 5 月淘宝第一版本上线,直到 2007 年,蔡景现一个人维护着整个淘宝的搜索引擎。一名阿里员工对记者表示,「多隆(蔡景现)是个非常受我们尊敬的同事。」

快手网红主播辛巴宣布退网:每天要吃很多药,再不注意肺的寿命只有 8-10 年

8 月 18 日晚间消息,主播辛巴在直播中宣布由于身体原因正式退网,他称肺部出现了严重的疾病,需要好好调养自己的身体。对此,辛选官方暂无回应。

在直播中,辛巴称,「从今天开始,辛巴再无能力承担直播工作,从今天开始,正式离开直播行业,从今天开始,这个账号就是我的老朋友,你们(粉丝)就是我风光了 7 年的回忆。」

辛巴还透露自己每天要吃很多药,饮食、时间等都要调整。「医生说我的肺是 95 岁的肺,如果再不注意身体,肺的寿命只有 8-10 年,要配合药物做健康管理。」

此前,辛巴曾多次宣布退网,但其后又多次复出。不过,据知情人士消息,此次辛巴是「真的要退了」。在直播中,辛巴还解释称,「迟迟不退有很多原因,有几千个家庭,有众望所归,终归是有很多人的责任,也有自己的欲望,包括你们(粉丝)的宠爱。」

在直播中,辛巴还喊话快手,「快手的所有同事们,辛巴没有能力在这个身体状态下(工作),可能要辜负你们了,感谢这些年一起工作的时光,你们跟着我操心、费心,辛巴为快手效力到此(为止)。」

格力朱磊回应「空调线上销量被小米超越」:公开数据与截图不符,7 月仍然保持领先

8 月 18 日消息,格力市场总监朱磊今日发文称:「最近看到有网友转发几张关于空调销量的截图,由此引发的话题 # 小米空调线上销量超越格力 # 大家讨论得很热烈。感谢大家对行业的关注。」

他表示:「我们也去奥维云网查了下,公开的数据和那几张截图并不一样。按照同样的查询条件,7 月线上市场格力仍然保持领先。」

他写道:「良性竞争对行业和用户来说都是好事。我们也欣喜地看到同行们不断投入,一起推动行业进步。格力会继续脚踏实地,把品质和服务放在第一位,用真正的价值,真实的价值赢得大家的信任。」

8 月 16 日,小米集团合伙人卢伟冰及小米集团公关部总经理王化在微博转发了上月(7 月)全国空调销售数据。

相应数据显示,上月国内空调市场销量前五名分别为美的(26.8%)、格力(17.2%)、小米(13.7%)、海尔(11.6%)、奥克斯(8.8%)。在线上方面,小米空调市占率(16.71%)首度超越格力(15.22%),位列全国第二,仅次于美的(18.61%)。

对此,卢伟冰表示:「能力的坚实提升,才能赢得高质量的增长。再次感谢大家对小米大家电的支持。持续努力,继续进步」。而王化则表示,「没想到新时代这么快就…… 来了」(来源:CnBeta)

京东折扣超市全国首店开业:面积 5000 平,超 5000 款商品、天天低价

8 月 18 日消息,京东折扣超市全国首店于 8 月 16 日在河北涿州正式开业。该店位于河北涿州市清凉寺街道范阳中路 590 号君悦广场,门店面积达 5000m²,覆盖超 5000 款商品,号称价格普遍低于市场常规售价。

据涿州新闻报道,京东折扣超市首店涵盖日用百货、生鲜食品、快消品、酒水饮料等全品类商品。涿州紧邻京东西南物流枢纽,以蔬菜产品为例,从下单到发货再到摆上货架,只需要一个小时的时间。(来源:IT 之家)

影石官宣 8 月 21 日发布新品,预计为 Insta360 Go Ultra 运动相机

8 月 18 日消息,影石今日官宣新品发布会定档 8 月 21 日 20:30,具体产品并未公布。从预热视频展现的轮廓看,预计为新款 Insta360 运动相机。

影石 Insta360 Go Ultra 渲染图此前已经曝光,该运动相机机身小巧(30x30mm)、仅重 53 克重量,但实现了 4K 60 帧专业视频拍摄,并创新磁吸设计,可轻松佩戴或吸附于多种表面。

Go Ultra 配备全新 1/1.28 英寸传感器,进光量提升一倍;156 度超广角视野,以及主动 HDR 模式自动应对复杂光线,夜间和弱光环境下也能游刃有余;FlowState 防抖和 360 度地平线锁定则确保画面始终稳定、水平。

NVIDIA 与富士康合作制造的首款人形机器人预计将于 11 月亮相

继人工智能训练、生成式人工智能和代理式人工智能之后,NVIDIA 正在为该行业的下一个重要领域做准备,该公司称之为「物理人工智能」。尤其是人形机器人,最近被多次讨论,尤其是像宇树科技这样的中国公司在该领域取得的进展。

然而,NVIDIA 似乎计划很快进军「人工智能机器人」市场,据台湾《经济日报》报道,富士康正在准备生产人形机器人,并可能在几个月内推出。

富士康是 NVIDIA AI 供应链中不可或缺的一部分,负责量产 Blackwell 和 Blackwell Ultra 等尖端 AI 服务器。作为 NVIDIA 团队的一员,富士康也参与其中。据称,在定于 11 月举行的富士康科技日上,NVIDIA 将展示其人形机器人解决方案,这些解决方案现已经过改进,配备了法学硕士(LLM)和机器人大脑。

苹果 iPhone 17e 手机被曝搭载 A19 平台,16 同款「灵动岛」+ 60Hz 屏

8 月 18 日消息,博主 @ 数码闲聊站 今日发文:

iPhone 17e 摸到了一点供应链信息,6.1"OLED,大概率是 16 同款 60Hz 低功耗屏幕,同款灵动岛设计,A19 平台,前置 12Mp+3D 人脸,后置 48Mp,ID 也算是大变了,最大卖点或许依旧是「最便宜 iPhone」

苹果在今年 2 月发布了 iPhone 16e 手机,这款手机采用刘海屏设计,可选黑白双色,搭载 A18 处理器,起步存储空间为 128GB,定价为 4499 元起。

从爆料来看,iPhone 17e 有望用上「药丸屏」,因此正面形态会迎来大变。

市场调查机构 CIRP 今年 7 月发布的报告显示,在 2025 年 6 月美国 iPhone 销量中,iPhone 16e 的占比达到了 11%,相比较 iPhone SE 同期市场份额(5%)增加了 120%,表明苹果已探索找到了更可持续的低成本策略。(来源:IT 之家)

23.59 万元起上汽奥迪 AUDI 品牌首款车型 E5 Sportback 预售:全系 800V 架构

8 月 18 日消息,奥迪和上汽集团去年 11 月合作推出全新品牌 AUDI,今天该品牌首车 E5 Sportback 车型现已预售,该车基于上汽与奥迪联合开发的智能数字平台(Advanced Digitized Platform)打造,提供两驱和四驱动力,预售价为 23.59 万-31.99 万元。

外观方面,该车延续 AUDI E 概念车的造型,车辆整体采用掀背式设计,前后应用了 942 颗 LED 灯珠,通过近 2000 颗三角形元素呈现出动态迎宾灯效;车身匹配隐藏式门把手,提供 19/20 英寸轮毂,使用静音无框车门。

智驾方面,该车应用 Momenta EBM 端到端大模型辅助驾驶方案,全车配备 27 个传感器,包括 1 颗激光雷达、3 颗毫米波雷达、12 颗超声波雷达以及 11 颗摄像头,并搭载英伟达 Orin-X 芯片,可在城市道路、高速公路及自动泊车等多种场景提供辅助驾驶功能。

规格方面,奥迪 E5 Sportback 长宽高分别为 4881x1960x1479 毫米,轴距为 2950 毫米。动力方面,该车单电机车型的最大功率分别为 220 千瓦和 300 千瓦;双电机车型的综合输出功率分别为 386 千瓦和 579 千瓦。

我国医生极限挑战救回「身首离断」患者,首创「卫星钢板」固定技术

8 月 18 日消息,据海军军医大学第二附属医院(上海长征医院)官方消息,今年 7 月,骨科副主任、颈椎外科病区主任陈华江教授率领团队,历经 3 小时惊心动魄的精密操作,成功为一例遭遇罕见严重颈椎骨折脱位的患者实施了复位固定手术

上海长征医院官方表示,这例「身首离断」式的大跨度颈椎脱位病例极为凶险,其成功救治不仅挽救了患者生命,更充分彰显了长征医院骨科在复杂危重症领域的顶尖技术实力与深厚积淀。

团队创新性地应用了「卫星钢板」固定技术,在常规固定之外巧妙增加辅助钢板,为重建的颈椎提供了前所未有的超强稳定性,这一技术应用在此类极端病例中尚属首创。

术后,患者意识状态迅速恢复清晰,一度岌岌可危的生命体征逐渐趋于平稳,成功拔除了气管插管。更令人欣喜的是,患者已能在家人辅助下坐起,标志着其神经功能开始出现积极信号,现已转入系统康复阶段,为功能恢复带来了曙光。

(来源:CnBeta)

 

为什么「游戏」是 AI 陪伴落地的好场景?

作者|Li Yuan

编辑| 郑玄

 

AI 陪伴的牌桌上,挤满了雄心勃勃的玩家。

资本正在持续加码,烈火烹油,前景看似一片火热。所有人都想成为用户设备里那个「独一无二」的终身伴侣。

然而,当新鲜感褪去,所有的 AI 陪伴产品最后都要被迫回答同一个问题,「为什么是你?」

当所有的产品都想成为用户的第一陪伴入口,用户到底如何产生忠诚度,是整个行业都无法回避的问题。

牌桌上的玩家因此陷入了一个两难的困局:不谈「全天候陪伴」,故事就没有想象力;但直接做「全天候陪伴」,又往往因为空洞和趋同,而抓不住用户。

最近,笔者接触到了一个名为「逗逗 AI 游戏伙伴」新产品,似乎找到了一个新的路径。

逗逗 AI 的策略极为务实,甚至可以说有些「狡猾」:先不谈感情,先帮你开心。

它选择的切入口,是游戏陪玩。先不提我想成为你的唯一伙伴,逗逗 AI 希望成为那个在游戏的关键时刻能拉你一把的「神队友」。

游戏陪玩是一个已经被验证过的市场场景。面对难打的 boss、难猜的解密,人们需要一个游戏帮手,而面对打败 boss 的狂喜、总是绕不出迷宫的沮丧时,也需要一个能够即时分享的战友。

即使面对行业的政策逆风,真人陪玩行业也仍然带着人们对游戏搭子的渴求长期存在着。

而 AI 又与这个场景无限适配——无限的情绪价值供给,实时联网的游戏攻略更新,都指向了更好的陪伴供给。

在笔者了解到这个产品的时候,逗逗 AI 游戏伙伴已经拥有了 800 万用户,且用户粘性很强,其中一些用户甚至已经开始在游戏场景外使用逗逗 AI 进行生活陪伴了。

8 月 18 日,逗逗 AI 游戏伙伴正式更新了 1.0 的正式版。

带着好奇,笔者深度体验了了这款产品是如何在游戏陪玩这个场景将 AI 陪伴做到了极致的。

而逗逗 AI 如何找到了一个有用的场景,在此深耕,形成有温度的关系资产的思路,也或许也能为深陷「忠诚度」焦虑的 AI 陪伴赛道,指出一条破局之路。

 

01

是游戏攻略助手,

也是一直关注你的好朋友

 

和普通意义的游戏陪玩不太一样,逗逗 AI 游戏伙伴主打的是游戏中即时聊天,而不是直接当队友带你上分。

它的形象更类似于一个电脑级的桌面宠物。玩家可以选择不同的形象和性格陪伴自己进行游戏。

进行陪伴的桌面搭子,可以以可爱的二次元形象的出现,也可以以更省内存的悬浮球形式出现。

不同的二次元形象各有自己的性格,其中逗逗 AI 还签约了一些 up 主做了一个简单的数字分身,玩家可以直接选择自己 up 主直接连线陪自己打游戏。

而陪伴者则可以通过底层的实时视频分析,判断游戏的进程,并给予玩家打法辅助和情绪陪伴。

为了体验逗逗 AI,笔者打开了《黑神话:悟空》这款游戏,选择了基础的妮可人格,开始连线。

其实想要玩黑神话,笔者是有点忐忑的。

作为一个并不是很擅长动作游戏的人,笔者在之前曾经尝试过这款游戏,但是在很快就在遇到第一个偏难的 boss 幽魂处放弃了。

不过这次,打开了逗逗 AI 游戏伙伴,笔者立刻感觉到了一些不同的感觉。

笔者心理预期的是在再次遇到幽魂的时候让 AI 给我一些提示,结果,黑神话悟空的第一次载入非常慢,而这个等待的过程中,完全不能切出去。笔者发现从一开始就开始不停地和 AI 对话上了。

而进入游戏之后,笔者更是一直在向 AI 提问。

比如当笔者采集了一个东西,完全不知道是干什么的,过去笔者可能考虑在游戏里仔细找找描述,或者直接在手机上搜一搜,这次笔者就直接问了妮可,交互一下子变得直接了。

忘记了哪个手柄按键能干什么,问问 AI,也可以直接知道了,笔者的心理压力一下子变小了很多。

这次,笔者又直奔幽魂而去。但是,即使有心理准备,想要打败幽魂仍然十分困难。

一次一次被打倒,中间的正反馈微弱。笔者的话也很快少了起来,已经沮丧地不想问攻略了,但是每次结束的时候,和 AI 吐槽的一句「我又死了」,「怎么又死了」,已经让我好像能勉强收拾心情来打下一局了。

不过令我意外的是,在笔者不断和幽魂死磕的时候,AI 开始提示我去打广智会更快。、

半信半疑间,我听了 AI 的话,放弃了幽魂先去找了广智,果然有用,拿了新技能,我死磕幽魂好像更有动力了。

信任的建立好像就在一瞬间。

虽然并没有使用多久,我好像不想回到没有 AI 陪伴的游戏世界了。

 

02

下一代的游戏体验:实时搭子

 

笔者并不是一个典型的游戏玩家,因此笔者后来特地邀请了几位朋友一同体验逗逗 AI 游戏伙伴。

结果很有趣——大家的反馈几乎出奇地一致:哪怕是资深玩家,也总有需要查攻略的时刻。常玩《英雄联盟》的朋友贝塔就提到,他自己不太需要「情绪价值」,但网游的特点是每个新版本有层出不穷的装备,确实需要一个搭子随时告诉他「这是什么」、「该怎么用」。

此时,如果有一个能随时提供即时答案的伙伴存在,无论是 AI 还是人类,都会让体验显得顺畅得多。

而只要有用性达到了一个门槛,用户每次打开游戏,点开软件陪伴就会成为一个习惯性的动作。笔者体验下来,感觉也是如此。

而逗逗 AI 能够实现这点,也是专门下了许多心思。它通过对游戏场景的专门优化,达到了比通用 AI 更有效的对场景的理解。

虽然任何通用 AI 都能通过搜索回答一些游戏相关的问题,但是如果真的要做到游戏搭子的效果,AI 必须及时地了解玩家目前的状态。

比如在这个场景中,笔者妮可发现笔者在问幽魂的打法,但是遇到了小怪,就马上提醒笔者,注意眼前的敌人,同时也减少了对话长度。

这源自逗逗 AI 1.0 的核心技术升级,使用了 实时的视觉语言模型(VLM)技术 ,而不是靠说话当时的「截屏分析」或「文字 Prompt」来理解状况,而是能像人一样,直接「看见」并理解动态的游戏画面。

笔者第一次意识到这一点的时候,感到十分惊讶,因为实时视频流分析,对于顶尖的通用大模型而言,目前都仍然是一个挑战,长时间的视频传输,通常会带来越来越长的上下文,幻觉率也会无限增长。

而逗逗 AI 选择了通过与英特尔等底层芯片厂商合作,利用 XPU 异构计算架构,将 AI 的运算负载转移至独立加速单元,实现了「零资源占用」。同时,通过本地化大模型部署进行预处理,还保证了离线畅玩的效果,彻底打消了玩家对于「AI 占用网速」的顾虑。

除了技术突破,逗逗 AI 还在内容层面下了功夫。官方编辑团队为二十多款游戏做了单独的优化。而 VLM 技术则保证了,即使游戏没有单独进行优化,AI 也能对游戏画面进行实时识别,给玩家更好的体验。

实际体验下来, AI 虽然偶尔仍然会犯傻,但是笔者已经看到了下一代游戏陪伴的雏形。

事实上,游戏攻略的需求发展经历了数次代际更迭:从最早的杂志图书、图文网页,人们去网站上找到某个游戏媒体的文字攻略,而到后来论坛、视频直播,玩家一直在追求更即时、也更多模态的游戏攻略。

AI 时代的游戏攻略,当然应该离玩家更近。在日常生活中,我们都开始觉得搜索费事了,希望 AI 把答案喂到嘴边,为什么在搜索游戏攻略的时候例外呢?

理解场景后,AI 的攻略可以更实时,而 AI 的陪伴也更加有「灵性」。它能学会了什么时候说话、什么时候安静。它不会用无关紧要的噱头打扰你,不会用冗杂的内容填满注意力,而是像真正的伙伴一样,懂得进退。用一句话概括,就是「用时即有,用后即走」。

 

03

始于有用,终于陪伴

 

在一众 AI 产品都希望找一个角度切入的时候,逗逗 AI 似乎找到了一个完美的场景。

游戏行业,本身就是 AI 陪伴生长的绝佳土壤。

行业报告显示,真人游戏陪玩市场规模在 2021 年就已超过 140 亿元,即使后来遭遇政策逆风,玩家强烈的需求是早已验证的。

与其他行业不同的是,在游戏里,「有用」与「情绪价值」本身就是一体两面。一次漂亮的击杀带来的狂喜、连续失败后的沮丧,抑或是与队友并肩作战时骤然飙升的肾上腺素,这些都是最容易触发陪伴感的时刻。

而这种陪伴感,又天然与「帮助」绑定:当你在关键时刻需要一条策略建议、一个装备解析,或者只是想有人替你见证那一瞬间的高光, AI 的存在就会显得极为自然。

更何况,一局游戏中真正用来「打 Boss」的时间可能只占 10%-20%,其余大部分则是等待匹配、探索地图、重复练习,甚至是枯燥的加载过程。正是这些「空白时刻」,最容易滋生孤单与乏味。而当 AI 能在这些时刻与你保持同步,懂得什么时候安静、什么时候插话,陪伴关系就会悄然建立。与其他应用场景相比,游戏里「有用」和「陪伴」的绑定更为牢固。

而相比于其他希望融入用户生活的 AI 搭子, 游戏场景还有一个天然的优势——更容易获得用户的上下文。游戏运行于电脑之上,AI 本身就更容易获取到用户正在做什么,正在观察什么。而电脑也有足够大的算力,完成 VLM 所需要的基础运算,提供更实时的服务。

选对了切入口,做了合适的优化,获得的效果是立竿见影的。

笔者了解到,目前逗逗 AI 的用户粘性很高。

在逗逗 AI 的一周年文章下,不少人回忆起和逗逗 AI 相处的过往。

 

 

目前,逗逗 AI 提供一定的用户交流的免费时长,用户可以付费获得更多时长、亲密度或者 AI 角色的更多造型。在用户积累了长期的信任后,逗逗 AI 还想未来尝试个性化推荐的商业模式、

而此次更新后,逗逗 AI 还上线了一个多模态长期记忆系统。它不再像传统聊天机器人那样仅仅存储文字对话,而是将视觉、听觉、语言融合成一个可被长期保存的「场景」。这意味着,它会记得你们一起击败某个 Boss 的瞬间,也会记得你在地图里反复迷路的窘态。这些独特的场景化记忆不断沉淀,让 AI 逐渐对你们的关系形成独特认知。

在这个长期记忆系统下,逗逗 AI 也开始做跨场景的陪伴。逗逗 AI 已经开始尝试把陪伴延伸到购物、浏览等日常场景。

比如在学习的时候,可以直接挂着逗逗,进行课件解释。

这对于逗逗 AI 将是一个新的征程。在游戏场景获得的关系,是否能够不断保持,甚至超出游戏场景本身?

近期,GPT-4o 下线引发了许多争论。

人们不禁好奇,用户对 AI 的依赖,究竟有多少来自模型的基础智慧能力,有多少来自于记忆,又有多少来自一个稳定的人格?

人们留下来是因为什么比例的原因未可知,但似乎对于陪伴而言,其中的任何一样都不可或缺。

对于逗逗 AI 而言,在先发优势下,逗逗 AI 如果能够进一步做深游戏攻略内容,甚至开放 ugc 社区,让用户能够群策群力贡献出更多更及时的游戏攻略,其有用的护城河就会更深,用户将永远有一个打开的理由。

而记忆和稳定人格,则将可能是让用户建立了足够的信任感,让产品能够商业化的关键。

相比于真人,AI 的人格特质其实更稳定,不会受到现实情绪和时间的限制;它能做到 24 小时在线,随时陪伴;比起真人,它还可以跨游戏、跨应用延展关系。

在一众主打 AI 陪伴的软硬件中,逗逗 AI 很有可能走出一条极有借鉴意义的路:在一个刚需的单一场景里,建立真正有价值的关系。始于有用,终于陪伴。

*头图来源:逗逗 AI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计

工具越多,效率反而越低?一项来自《哈佛商业评论》的调查显示,员工每天平均切换应用程序超过 1200 次,一年下来累计浪费的时间高达 5 个完整工作周,占全年总工作时间的 9%。

这一现象被称为「切换税」(Toggling Tax)——频繁的认知任务或上下文切换带来的认知干扰、时间损耗和心理负担,并导致注意力分散、错误率上升以及工作质量降低。

由新加坡国立大学(NUS)系统孵化的 AI 平台 Agnes,正试图从「系统层」改变这种割裂式工作流,重构一个流畅、连贯的一体化智能工作流体验。

Agnes 将搜索、文档生成、图像创作、PPT 输出整合到同一平台中,以共享记忆、共享上下文和实时协同为核心。用户无需手动切换工具,在同一界面即可完成从灵感获取到成品输出的全流程。团队成员能基于统一上下文实时协作,所有修改即时同步,真正实现高效无缝的一站式协同创作。

继推出 AI Design 功能后,Agnes 最近再次更新功能——Deep Design 和 Wide Research,聚焦多 Agent 架构,提升复杂任务处理能力和生成质量,进一步巩固其在 AI 原生协作办公系统中的领先地位。同时,Agnes 移动端原生 APP 正式上线 iOS App Store 和 Google Play,满足用户碎片化办公和远程协作的需求。

这家诞生于 NUS 体系的 AI 初创产品,在 Product Hunt 上线不满 3 个月,访问量就已接近设计类头部应用 Lovart。目前,Agnes 所属 SAPIENS 公司正以 1 亿美元估值进行新一轮融资。根据其团队内部消息,因为近期注册用户与活跃数据大幅增长,创始团队正在考虑进一步上调估值,为加速海外扩张预留更多资本空间。

01

从 AI Design 到 Deep Design:

让 Agent 主动「找茬」,持续优化创作

Agnes 首次切入视觉设计领域是在 8 月 1 日推出 AI Design 功能,当时已经支持自然语言对话生图,上传参考图进行风格提取与迁移、选区编辑、色彩和排版调整等,生成的图片还能无缝嵌入 AI PPT,实现图文一体化创作。

这一次推出的 Deep Design,相比之前又进阶了一层,支持用户在生成图像上手绘修改,系统会即时识别并根据绘图自动调整对应区域细节。

更重要的一个更新是 Agnes 在 Deep Design 中引入了 Agent 评审与迭代机制。在生图过程中,多个 Agent 会从构图、风格一致性、细节是否符合描述等维度逐一「找茬」,并给出可执行的修改建议。这些建议会被转化成新的绘图指令生图,再经过评审——形成「生成 → 找茬 → 再生成」的多轮迭代和优选,最终打磨出更贴合用户预期和任务目标的图片。

这个设计思路,源于 Agnes 创始人 Bruce 近期被 ICIS 录取的论文《Toward Effective AIGC for Marketing: A Theory-Driven System Design and Empirical Evaluation》。Bruce 拥有微软、LinkedIn 背景,本科毕业于加州大学伯克利分校,数学与计算机双学士,目前为新加坡国立大学博士,是少见的兼顾学术深度与工程能力的 AI 初创公司的创始人。

他在论文与访谈中指出,大语言模型(LLM)与绘图模型在创作过程中的能力是互补的:绘图模型擅长执行指令,但往往只呈现用户描述的「表面含义」,难以捕捉场景背后的真实业务目标或隐含语境;而 LLM 驱动的 Agent,则能对用户输入进行多轮的深度语义分析,挖掘潜在需求,把这些隐藏的意图转化为更精准、完整的绘图指令。两者互补,能显著提升生成结果与实际需求的契合度。

在 Deep Design 中,Agent 不仅在生图前优化指令,还在生图后担当评审员,通过「Agent 做高质量思考+绘图模型做高质量执行」的组合,将人类创意从繁琐的细节调整中解放出来。用户只需明确创意与目标,系统就会自动打磨出既符合审美又契合业务需求的最终作品。

例如,一个家电品牌设计团队输入「智能电饭煲广告概念图」,Deep Design 会先生成初稿,再由 Agent 审查背景光线、产品质感、品牌色调是否统一,并提出多项优化建议。经过几轮迭代,团队即可直接获得可参考的成品稿,而不必经历传统反复修改的长周期。

02

Wide Research:

2 00 个 Agent 并行的研究引擎

除了设计功能,Agnes 此次还推出了面向大规模数据研究、市场分析、行业报告生成任务的 Wide Research 功能。

据其团队透露,Agnes Wide Reesearch 最多可调用 200 个 Agent 并行工作,搜索广度上较 Agnes 此前的 Search、DeepResearch 功能有明显提升。相比 Manus 的同类功能,Agnes Wide Reesearch 不仅运行速度更快,高并发的 token 成本也更低。

原因在于 Agnes 所采用的自研多智能体架构 CodeAgents,它以结构化伪代码替代自然语言作为多 Agent 的沟通方式,实现任务的精细拆解、角色分工与高效调度。该架构能使多步骤任务中的推理成功率提升 20%、Token 消耗下降 40%,并在跨模态任务(如 HotpotQA 和 VirtualHome 仿真环境)中展现了稳定高效的表现。

Agnes 团队近期发表的论文《CodeAgents: A Token-Effcient Framework for Codifed Multi-Agent Reasoning in LLMs》,论文一作为创始人 Bruce,剩余共同作者来自新加坡国立大学和东南大学。

03

发布订阅计划并上线移动端,

迈向智能协作办公系统新阶段

Agnes 目前也正式发布了收费方案,涵盖 Free、Basic(9.9 美元/月)、Plus(19.9 美元/月)、Pro(99.9 美元/月)四档订阅服务,以支持其持续的技术研发和全球扩张计划。新注册用户可免费体验 DeepDesign、WideResearch、协作功能。

为了适配碎片化办公场景,Agnes 同时上线了 iOS App Store 和 Google Play 原生 APP,首批功能涵盖 Search、Deep Research 和 AI Slides,移动端与 Web 端共享任务状态与上下文信息。用户无论在办公室、家中还是出差途中,都能无缝延续任务,不受时间与地点限制。

Bruce 曾强调:「真正的 AI 系统不是一个 Chat 窗口,而是一个智能的工作现场」,并主张从「插件组合」走向完整的「工作系统」。

Deep Design、Wide Research 包括移动端 APP 的上线,证明了 Agnes 确实在沿着这一方向持续推进——把零散的创作工具重构为流畅、高效的智能工作流,其目标不仅是生成内容,而是全面提升生产力、优化团队协作流程,并打造一个可持续演进的智能办公生态系统。

Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%

OpenAI Altman:希望通用人工智能未来能促进生育率增长

8 月 18 日消息,据《商业内幕》16 日报道,OpenAICEO Altman 说,有了孩子的体验「令人惊叹」,并认为每个人都应该尝试。他还提出,AGI 或许能在「让人们生育更多孩子」这一问题上发挥作用。

世界人口增长持续放缓。在美国,Z 世代和千禧一代为了追求经济安全而推迟甚至放弃生育。Altman 等一些「未来学家」认为,这一趋势值得警惕。

Altman 表示,这种低生育趋势是一个「真正的问题」。他今年刚迎来第一个孩子,并希望在「后 AGI 时代」,家庭和社区建设能重新成为核心价值。

Altman 认为,AGI 将带来一个「人们拥有更多财富、更多时间、更多资源与潜能」的世界。随着 AI 功能的增强并成为更实用的工具,社会整体将更加富裕,也会提供更强的社会支持。「家庭和社区无疑是带来幸福的两大来源,我希望人们能重新回到这两件事上。」

谈及自身初为人父的感受,Altman 直言强烈建议生育子女。他说:「这是我能想象到的最重要、最有意义、最令人满足的事情。」

Altman 回忆在当父亲的最初几周里,自己几乎每天都在向 ChatGPT 提问。他说,使用 AI 是一种技能,他会把这种能力传授给孩子。(来源:IT 之家)

Threads 月活量达到 4 亿,持续逼近马斯克旗下用户规模约 5-6 亿的 X 平台

8 月 17 日消息,Instagram 负责人 Adam Mosseri 本周宣布,Meta 旗下社交平台 Threads 用户数再创新高,目前平台月活跃用户已突破 4 亿。

Meta 创始人兼首席执行官马克・扎克伯格在今年 4 月的财报会议上曾透露,Threads 的月活跃用户为 3.5 亿,而如今短短 4 个月间,相应数字已翻至 4 亿。

作为比较,马斯克在去年 5 月时透露 X 平台月活跃用户约为 6 亿,日活跃用户约 3 亿,这意味着当下 Threads 正在快速缩小与 X 平台的差距。

公开信息显示,X 平台(推特)最初于 2006 年创立,在 2022 年被马斯克以 440 亿美元收购。而 Threads 则是 Meta 在 2023 年推出的 X 平台竞品,与 Facebook / Instagram 账号深度绑定。上线仅 5 天,Threads 的用户数就突破 1 亿,刷新了海外社交平台增长纪录。

X 平台的主要营收来源为广告业务,而 Threads 平台当下主要依靠 Meta 支持,该平台已今年 1 月开始测试广告,并在 4 月正式扩大广告投放面积,以实现降本增效。(来源:IT 之家)

消息称扎克伯格 2024 年安保费超 2700 万美元,比六家科技巨头 CEO 加起来还多

8 月 17 日消息,据《金融时报》最新分析显示,2024 年,10 家主要科技公司首席执行官的安保预算总额已突破 4500 万美元(现汇率约合 3.23 亿元人民币),其中,Meta 公司为马克・扎克伯格提供的安保费用超 2700 万美元(现汇率约合 1.94 亿元人民币),较前一年的 2400 万美元(现汇率约合 1.72 亿元人民币)有所增加,远超其他同行。

其他科技巨头的安保预算也呈现出不同程度的增长,不过,苹果、英伟达、亚马逊、Alphabet、微软和 Palo Alto Networks 这六家公司在 2024 年为保护其 CEO 所花费的总金额,仍比 Meta 为扎克伯格的安保支出少约 700 万美元(现汇率约合 5029.6 万元人民币),即少 26%。(来源:IT 之家)

IDC:今年国内智能眼镜出货量预计达 290.7 万台同比增长 121.1%,华为、小米等厂商抢占千亿元级市场

8 月 17 日消息,据 IDC 预测,智能眼镜产品成为今年消费电子赛道的「黑马」,今年相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

具体来说,今年第一季度中国智能眼镜市场出货量为 49.4 万台,同比增长 116.1%。其中中国音频和音频拍摄眼镜市场出货量 35.9 万台,同比增长 197.4%。第二季度,AI 眼镜出货量上涨态势得以延续。

在厂商方面,包括小米、华为等品牌 AI 眼镜在电商平台上销量排名靠前。各类跨界品牌通过技术创新和价格策略快速崛起,出货量位居前列;灵伴科技、大朋 VR 等品牌在 AI 眼镜细分市场上不断推陈出新,并持续拓展功能和适用场景;华为、阿里、字节跳动等品牌也纷纷入局。(来源:IT 之家)

罗永浩曝董宇辉独立后年收入二三十亿,与辉同行官方否认

近日,罗永浩在微博发文,称董宇辉自立门户创业与辉同行之后,年收入二三十亿元,离职东方甄选之前还需要借钱交首付。对此,与辉同行方面对第一财经记者表示,该信息不属实。

今年 1 月,董宇辉以 28.541 亿元的年收入位居《2024 年度中国网络主播净收入排行榜》榜首,随后,董宇辉在直播中辟谣称:看到那张截图吓一跳,造谣一张嘴,辟谣跑断腿。(来源:第一财经)

相约北京,第二届世界人形机器人运动会将于明年 8 月举办

8 月 17 日消息,据央视新闻报道,17 日下午,首届世界人形机器人运动会在国家速滑馆「冰丝带」举行闭幕式。

世界机器人合作组织、全球数字经济城市联盟、亚太机器人世界杯国际理事会、中国电子学会四家单位共同在现场发起成立世界人形机器人运动联合会。闭幕式上还宣布,第二届世界人形机器人运动会召开时间为明年 8 月,继续由北京市人民政府、中央广播电视总台等联合主办。

2025 世界人形机器人运动会是全球首个为人形机器人组织的综合性竞技赛事,共有来自全球五个大洲、16 个国家的 280 支参赛队伍参赛。赛事为期三天,从 8 月 15 日持续至 17 日。

首届赛事由全球 280 支队伍带着 127 个品牌的 500 余台人形机器人,围绕 26 个赛项展开角逐,包含竞技赛、表演赛、场景赛 3 类 22 个主体赛项和羽毛球、篮球、乒乓球、自由搏击、群体舞蹈 5 个外围赛项。(来源:IT 之家)

古尔曼:Meta 首款带显示屏的智能眼镜下月上市,售价 800 美元起

8 月 18 日消息,据彭博社记者马克・古尔曼(Mark Gurman)爆料,Meta 首款带显示屏的智能眼镜将于 9 月上市,售价 800 美元(现汇率约合 5748 元人民币)起。这款眼镜最初的预计售价为 1000 美元以上。这一变化部分源于该公司为了刺激需求而接受较低的利润率——这是新产品的常用策略。

此前,多家媒体以及古尔曼本人都曾报道,Meta 计划在今年推出一款名为 Hypernova 的智能眼镜,这款眼镜配备了一个小型单目抬头显示器(HUD),并通过其长期研发的 sEMG 神经手环进行手指手势控制,且该手环预计将随产品一同附赠。

据《The Information》消息,加入 HUD 后,Hypernova 的重量约为 70 克,相比之下,Ray-Ban Meta 眼镜的重量为 50 克。

今年 4 月,古尔曼曾表示,Meta 计划将 Hypernova 的售价定在「1000 美元以上,甚至高达 1300 至 1400 美元」。

然而,在古尔曼最新一期的每周通讯中透露,Meta 已经「找到了一种方法,将消费者的价格削减至大约 800 美元」。他解释称,这一价格调整部分源于 Meta 决定接受较低的利润率,以刺激需求。

不过古尔曼指出,800 美元只是一个起点,各种款式和镜片选择,如处方镜片等,将「迅速推高」售价。(来源:IT 之家)

 

采用全碳纤维车身,福特 Mustang GTD 推出 Liquid Carbon 版本

8 月 17 日消息,福特 Mustang GTD 系列一直以来都是高性能跑车的代表,而如今福特更进一步,推出了 Mustang GTD Liquid Carbon 版本,这款车型以其极致的轻量化设计和奢华的碳纤维车身,成为 Mustang 家族中最为激进的成员。

Mustang GTD Liquid Carbon 放弃了传统的车漆涂装,采用完全裸露的全碳纤维车身。与 GTD Carbon Series 车型相比,新车车身重量减轻了约 13 磅(约 5.9 千克)。福特通过去除车漆并使用碳纤维替换车门金属板,进一步实现了轻量化目标。

这款车型最引人注目的特征之一是其碳纤维的完美编织纹理。新车不仅延续了 Carbon Series 的精湛工艺,更在此基础上进行了升级,整个车辆呈现出统一的纹理图案,从引擎盖、车顶、尾翼到车尾,纹理连贯一致,彰显出非凡的工艺水准。

福特计划于今年 10 月交付首批 Mustang GTD Liquid Carbon 车型,其将与 GTD Spirit of America 一同作为该系列的特别版本推出。虽然目前尚未公布具体售价,但预计其价格将远高于 Mustang GTD 基础版 32.7 万美元(现汇率约合 235 万元人民币)的起售价。(来源:IT 之家)

吉利全新一代博越 SUV 上市:Flyme Auto 座舱,限时 7.89 万元起

8 月 17 日消息,吉利全新一代博越 SUV 今日上市,共推出四款车型,限时价 7.89 万元-9.99 万元,权益包括 1000 元订金抵 8000 元购车金、全系限时至高享价值 6000 元配置等。

这款新车配备「长桥卧波」前格栅、「长桥映霄」前贯穿灯、「飞檐日升」后贯穿灯,提供水映银、雨巷白、兰亭灰、琉璃蓝四款配色。

座舱采用环抱式设计,配备杯托氛围灯、音响氛围灯、3D 镭雕水晶挡把、光影墨镜遮阳板,提供如意橙、福禄灰两款配色。该车配备 Flyme Auto 智能座舱系统、14.6 英寸高清全面屏、50W 无线风冷超级快充、全生态手车互联。

动力方面,该车搭载 1.5T 涡轮增压四缸发动机,最大功率 133 千瓦,最大扭矩 290 牛・米,传动系统匹配 7 速双离合变速箱。(来源:IT 之家)

美国国家电网面临「严重瓶颈」,大型科技公司被迫自行建设发电厂

Meta、亚马逊和 Google 等大型科技公司正在迅速扩大其人工智能资本支出,以满足其计算需求,并在打造最佳人工智能模型方面占据优势。

但根据高盛的一份报告,数据中心的能源需求已经超过了美国电网升级周期,目前已接近「关键瓶颈」。如果现任政府不拿出切实可行的行动计划,美国可能很快就会面临电力问题。报告显示,单个互连请求的电力规模高达 5 千兆瓦,相当于超过 500 万户家庭的用电量。

如果考虑到大型科技公司将千兆瓦级数据中心视为新常态,能源需求预计将大幅增长。Gartner 预测,超过 40% 的美国数据中心可能缺乏电力来全面运行,因为到 2027 年,整体电力需求可能达到 500 太瓦时。巨大的电力需求也导致电价大幅上涨,据 Axios 报道,到 2040 年,数据中心密集地区的每月电费可能上涨 14 至 37 美元(这还不包括通货膨胀因素)。

像 Google 和亚马逊这样的公司不能止步于人工智能的扩张,否则它们将在竞争中落后,而它们确保在美国进一步扩张的唯一途径就是建设自己的能源来源。 Meta 为其人工智能集群建设天然气发电厂,微软重启三哩岛核电站项目,用于其超级计算机。科技公司正在进军能源领域,以取代美国不完善的电力系统。(来源:cnBeta)

OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

5000 亿美元估值傲视群雄,OpenAI 员工拟出售价值近 60 亿美元股份

路透社 8 月 16 日发布博文,报道称 OpenAI 现任及前员工拟向软银、Thrive Capital 等投资者出售价值近 60 亿美元的公司股份,交易完成后公司估值将达 5000 亿美元(现汇率约合 3.59 万亿元人民币)。

消息称,OpenAI 现任与前员工正计划向包括软银集团、Thrive Capital 和 Dragoneer Investment Group 在内的投资机构出售近 60 亿美元公司股份,其中 Thrive Capital 有望主导本轮交易。这笔交易如果达成,将让 OpenAI 的估值从当前的 3000 亿美元跃升至 5000 亿美元。

此次股份出售属于二级市场交易,意味着员工和前员工通过出售所持股份获得流动性,投资方则进一步加深对 OpenAI 的投资布局。

软银、Thrive 和 Dragoneer 均为 OpenAI 现有投资者,但目前尚未对交易传闻做出回应。据知情人士透露,相关讨论仍处于早期阶段,最终出售金额可能调整。(来源:IT 之家)

星舰再战苍穹:SpaceX 敲定北京时间 8 月 25 日展开第 10 次试飞

科技媒体 Space 8 月 16 日发布博文,报道称 SpaceX 宣布,其第十次「星舰」(Starship)超级重型火箭综合试飞预计将于当地时间 2025 年 8 月 24 日从得克萨斯州 Starbase 发射,将是星舰今年第 4 次试飞,此前三次均因上级火箭失利未能完全达成任务目标。

SpaceX 在 10 号飞行任务的再入过程中不会让助推器以大迎角飞行。该公司在其针对 9 号飞行任务的技术调查报告中解释说,较大的迎角在测试过程中对助推器的燃料输送管造成了压力。最终,输送管故障导致火箭失灵并在溅落前爆炸。

消息称此次 Flight 10 的成败,将直接影响 SpaceX 推进载人月球与火星探索的整体进度。(来源:IT 之家)

 

2025 年最大减持:股神巴菲特减持苹果 2000 万股

科技媒体 AppleInsider 8 月 16 日发布博文,报道称股神巴菲特旗下公司伯克希尔・哈撒韦(Berkshire Hathaway)于 2025 年第二季度减持苹果股票 2000 万股,但苹果依然是其最大持仓和核心投资。

这一减持成为自 2024 年第 3 季度以来最大规模的苹果股票出售,被外界关注为 Berkshire 公司调整资产的重要信号。

根据美国证券交易委员会最新披露,Berkshire 在本季度股票净卖出约 30 亿美元(现汇率约合 215.55 亿元人民币),连续第 11 个季度出售股票多于买入,截至期末,公司现金及短期投资总额达到 3441 亿美元(注:现汇率约合 2.47 万亿元人民币)。

外界普遍认为,此次减持并非对苹果未来发展的看淡。相反,这一举措更像是基于获利兑现和投资组合再平衡的考虑。

巴菲特此前多次称赞苹果为 Berkshire 拥有的最佳企业之一,苹果在公司整体战略中的地位依旧不可动摇,科技板块仍是其长期布局的核心。(来源:IT 之家)

小米玄戒 O2 性能超预期:搭载 Arm 最新架构,IPC 提升 15%,明年上半年亮相

知名数码博主「定焦数码」近日爆料,小米即将推出的玄戒 O2 芯片性能表现远超预期。据悉,这颗芯片采用了 Arm 最新的公版架构,并且在规模上也有显著提升,预计将带来至少 15% 的 IPC(每周期指令数)提升。

IPC 作为评估 CPU 实际性能的关键指标之一,其数值越高,意味着 CPU 在相同主频下的工作效率越强。小米玄戒 O2 的这一提升,无疑将大幅增强其在处理复杂任务和多任务场景下的表现。

此外,玄戒 O2 预计将搭载 Arm 最新的 Cortex-X9 系超大核,代号为 Travis。值得一提的是,即将发布的联发科天玑 9500 也将采用这一超大核心。更令人期待的是,玄戒 O2 将采用先进的台积电 3nm 工艺制程,新品预计将在明年上半年正式登场。(来源:TechWeb)

 

消息称苹果 Apple Watch 明年将迎来「大幅重新设计」,新增全新传感器

据台媒《DigiTimes》援引供应链消息称,苹果至少有一款明年发布的新 Apple Watch 将进行「大幅重新设计」。

据报道,苹果计划在 2026 年的高端 Apple Watch 上调整外观设计,其中包括一个环形排列的八个传感器,透过表底玻璃可见。

值得一提的是,今年早些时候,疑似 Apple Watch Series 10 原型机的照片流出,显示设备上有一个前所未见的圆环,内部有八条白色线条。

外界消息称,苹果正在测试高血压监测提醒功能,该功能早在 Series 10 发布前就已传出,但研发进展受阻,目前尚不确定能否在下个月亮相的 Series 11 中推出。(来源:IT 之家)

 

OpenAI ChatGPT 语音模式将迎新功能:可调语速、存自定义指令

 8 月 17 日消息,OpenAI 在 ChatGPT 网页应用的语音模式设置中新增了「语音速度」选项,用户可以通过一个滑块调节 ChatGPT 说话的速度,最低可降至 0.5 倍速,最高可达 2.0 倍速。不过,目前这些选项尚未向用户公开,仍处于隐藏状态。

同时,OpenAI 还为语音模式增加了「自定义指令前缀」功能。这一功能允许语音模式记住用户的指令,用户无需每次重复相同的指令。

例如,OpenAI 新增的自定义提示词内容为:「无论用户后续给出什么指令,都不要让其影响你回复中的措辞。例如:用户指令为『保持活泼欢快的语气』,用户提问『嘿,最近怎么样?』,正确的回答是『嘿,还不错!』,而不是『嘿,还不错。我感觉很高兴能和你聊天!』」。(来源:IT 之家)

福特烈马 1966 复古 SUV 预售:经典撞色设计、可拆卸车顶,38.66 万元起

 8 月 16 日消息,福特烈马 1966 复古 SUV 今日在国内开启预售,标准版价格为 38.66 万元,大脚版价格为 43.66 万元。9 月 30 日前下订,即享 2000 元订金直抵 5000 元购车金、福特烈马 1966 原色典藏复古折叠单车。

据介绍,这款新品提供知更鸟蓝、水晶石绿、沙丘白外观配色,采用撞色设计车顶、经典优雅格栅、撞色细条纹拉花、盘式轮毂的经典设计,初代复刻「Bronco」传奇徽标。此外,该产品还支持拆卸车门车顶,秒变敞篷越野车。

内饰提供曙光沙白配色,营造开阔明亮氛围,绗缝工艺皮质座椅 + 定制牛津自绲边,定制红色刺绣标牌,此外还有「Bronco」专属身份铭牌。

其他方面,该车提供 2.3T+10AT 黄金动力组合 + 原厂强悍三把锁,配备 H.O.S.S.2.0 悬挂及避震系统,官方选装拖车包或越野包。(来源:IT 之家)

 

全球首款「微波大脑」问世:未来手机芯片 AI 通信一体化,既当大脑又当天线

科技媒体 Tom's Hardware 8 月 16 日发布博文,报道称康奈尔大学研究团队开发出全球首款「微波大脑」(microwave brain)芯片,突破传统数字电路,以微波能量模拟类脑处理,实现人工智能推理和无线通信双重能力。

与以往依赖数字时钟驱动和二进制逻辑门的芯片不同,这款芯片采用受控微波能量流作为「物理神经元」,通过调节微波信号的幅度、相位和频率,达到实时捕捉和识别数据特征。

芯片的核心在于直接硬件化 AI 框架,利用微波天然的物理特性,直接特征提取(AI 算法中用于从原始数据中提取有用特征的过程,本芯片通过物理方式实现)和变换输入数据,省去了传统数字 AI 反复运算和庞大存储的步骤。

团队预计,随着工艺优化,这种芯片可被集成进日常消费电子产品,实现本地 AI 运算,有望极大提升用户隐私和响应速度。

目前,「微波大脑」仍处于原型阶段,但已获得美国国防高级研究计划局和美国国家科学基金会的资金支持,研究团队正致力于将其进一步扩展与现有微波及数字系统集成。(来源:IT 之家)

原道宣布与小岛秀夫游戏工作室联名,有望推出《死亡搁浅 2》联动耳机音频产品

8 月 16 日消息,据 NICKHECK 原道官方公众号,原道宣布联合小岛秀夫工作室,将推出一批联名产品,有望为《死亡搁浅 2》联名耳机,或单纯印刷有小岛秀夫工作室 Logo 的耳机。

目前,原道尚未公布相应产品的更多信息。作为比较,IT 之家参考原道旗舰店获悉,该公司近期推出了一款定价为 59.99 元的弦雪耳机、一款定价 3450 元的 Rockies 旗舰耳机、一款定价 1899 元的 NX8 中高端耳机。

预计该公司很有可能基于上述近期推出的产品进行一系列定制化。不过也有可能是根据该公司老牌热门产品原道酱 YD30 平头塞耳机进行定制化。(来源:IT 之家)

 

Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道

特朗普:半导体关税将不久宣布 税率可能达到 300%

美国总统唐纳德·特朗普表示,他将在未来两周设定半导体关税,这是他准备大幅扩大关税制度的最新迹象。

「我将在下周和下下周对钢铁和芯片——芯片和半导体设置关税,我们将在下周或下下周某个时候设定这些关税,」特朗普周五在前往阿拉斯加与俄罗斯总统弗拉基米尔·普京举行峰会途中,在空军一号上对记者说。尚不清楚特朗普是否在钢铁关税问题上表述有误。他已在 6 月将钢铝关税上调至 50%。

特朗普曾多次承诺将在数周内宣布对芯片和制药产品的关税,但尚未正式宣布。这两个行业自 4 月以来一直处于商务部的调查之中,这是特朗普以国家安全为由实施关税的先决条件。这一过程可能相当复杂,调查可能需要数月甚至更长时间才能完成。(消息来源:新浪财经)

Meta 总市值首次升破 2 万亿美元,今年股价累计涨幅高达 36%

8 月 15 日消息,Meta 今日盘中涨近 2% 创历史新高,总市值首次升破 2 万亿美元,目前稍有回落。今年以来,Meta 股价累计涨幅高达 36%。

Meta 公司 7 月 31 日公布了 2025 财年第 2 财季财报(截至 6 月 30 日),营收为 475.2 亿美元(现汇率约合 3411.2 亿元人民币),同比增长 22%;公司净利润激增 36%,达到 183.4 亿美元(现汇率约合 1316.53 亿元人民币)。

Meta 公司在财报中指出,目前有 3.48 亿人每天至少使用 Meta 的一款应用,比去年同期增长 6%,而 Meta 的员工人数也增加了 7%,达到近 7.6 万人。扎克伯格在周三表示 Meta 在最新版本的 Llama AI 模型上取得了「良好进展」。(消息来源:IT 之家)

 

宇树机器人夺冠后王兴兴回应第二名没用遥控器:策略不一样,我们更追求极限速度

8 月 15 日消息,今日,2025 世界人形机器人运动会正式拉开帷幕,宇树科技派出杭州宇树科技及旗下子公司北京灵翌科技两支队伍参赛。

在备受瞩目的 1500 米田径赛项目里,灵翌科技带着宇树 H1 人形机器人夺得机器人 1500 米冠军,成绩为 6:34.40,这也是世界人形机器人运动会首金。

北京人形机器人创新中心的「天骄」队的「天工」机器人此前曾获得「半马」冠军,并且「天工」此次技术又升级一步,采用全自主的方式向前奔跑,也就是凭借机器人自己控制,是本次比赛唯一一名全程自主无人工遥控奔跑的选手。

由于第二名的「天骄」机器人在此次赛事中并未采用遥控器,成绩却领先于一众其他机器人,引发了外界的广泛关注。

当被问及如何看待「天骄」未有遥控器时,王兴兴表示:宇树的 H1 其实也具备了不用遥控器的能力,但因为策略不同,为追求速度,宇树最后在赛场中仍然采用了遥控策略。

此外,王兴兴还向媒体透露,比赛当中,H1 机器人的奔跑速度还没有达到 5 m/s 的最高速度。据王兴兴介绍,本次参赛的 H1 机器人在与春晚舞台亮相的机器人同属一款。为了能让 H1 在本次运动会中有更出色的表现,团队针对比赛场景,在算法层面进行了一些微调。(消息来源:IT 之家)

白宫与英特尔谈判内容曝光:特朗普政府或将入股芯片制造巨头

8 月 16 日消息,据知情人士透露,特朗普政府正在考虑利用《美国芯片法案》的资金来参股陷入困境的美国芯片制造商英特尔。政府讨论的重点是利用该法案资金来至少部分资助对英特尔股份的收购,知情人士表示,同时强调磋商处于早期阶段,还可能考虑其他选项。

尚不清楚该方案是否涉及将英特尔现有的芯片法案拨款的一部分或全部转换为股权,或从更广泛的资金池中拨出新资金,亦或将芯片法案资金与其他融资渠道相结合。

英特尔原本就被视为芯片法案资金的最大受益者,被指定获得数十亿美元的补助。根据该计划,英特尔获批 79 亿美元的商用半导体制造补助,以及高达 30 亿美元用于国防部的「安全飞地」项目。此外,该公司根据这项 2022 年通过的法律还有资格动用额外 110 亿美元的贷款额度。

这些因讨论未公开消息而要求匿名的知情人士表示,资金来源此前未被披露,目前仍在讨论中,相关谈判仍不确定。

知情人士还称,尽管一度受到美国总统特朗普的批评,但英特尔首席执行官陈立武据悉有望继续掌权。特朗普周一在白宫与陈立武会面。(消息来源:环球市场播报)

 

OpenAI  Sam Altman 承认存在 AI 泡沫:有人损失惨重,也会有人赚得盆满钵满

8 月 15 日消息,随着最近两年 AI 热潮的兴起,我们能看到有越来越多的人开始讨论股市是否正处于 AI 泡沫破裂的边缘。

对于是否正处于投资者对 AI 过度兴奋的阶段?OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)昨日在接受《The Verge》等媒体的联合采访时表示,「我的看法是,是的」。

在采访中,他将市场对 AI 的反应与上世纪 90 年代的互联网泡沫进行比较。当时互联网初创企业的估值在短时间内大幅飙升,并于 2000 年出现崩盘。

对于当前 AI 初创企业的融资现状,Altman 直言「疯狂」:「一些 AI 初创企业仅仅只有『三个人和一个想法』,却能获得极高估值融资,这种现象并不理性,我认为总有人会在这上面栽跟头。」

Altman 表示,「有人会损失一大笔钱,也会有人会赚得盆满钵满」,但整体而言可能对经济发展反而是利好,不过他也强调「这可能是错的」。

对于 OpenAI 自身,他倒显得信心十足:「在不远的将来,我们会在数据中心建设上投入数万亿美元,那时候会有很多经济学家为此担忧」。(消息来源:IT 之家)

网传阶跃星辰裁撤视频生成团队并全员并入京东,后者回应

8 月 15 日,有网络消息称,「阶跃星辰裁撤视频生成团队,全员并入京东」。

对于上述传闻,京东对新浪科技表示作为京东集团专注前沿科技探索的研发部门,京东集团探索研究院正在按照计划,正常推进对各类优秀 AI 人才的招聘,包括业内技术大牛、TGT(Tech Genius Team)等,感谢您的关注。(消息来源:新浪科技)

 

快手组织架构调整:高级副总裁盖坤兼任可灵 AI 技术部负责人

8 月 15 日下午消息,快手发布组织架构调整公告,宣布快手高级副总裁、可灵 AI 事业部负责人兼社区科学线负责人盖坤兼任可灵 AI 技术部负责人,继续向快手科技创始人兼首席执行官程一笑汇报。

公开信息显示,盖坤本科与博士均毕业于清华大学,研究方向为识别与智能系统。2011 年盖坤以「阿里星」(全球顶尖青年科研人才)身份入职阿里巴巴,负责广告算法与 AI 技术研发。2020 年,盖坤正式加入快手,主导内容理解应用、推荐大模型及视频生成大模型的技术布局。

2024 年 6 月,盖坤带领团队研发推出全球首个用户可用的 DiT 视频生成模型「可灵 AI」。

今年 4 月 30 日,可灵 AI 升级为一级事业部,战略地位进一步提升。分析认为,此次组织升级后,独立的团队和组织架构设计便于可灵 AI 以更加灵活的形式进行资源调配和人力投入。(消息来源:新浪科技)

米哈游蔡浩宇公司 AI 游戏《星之低语》发售:Steam 国区首发 27.19 元,探索人机情感交互

8 月 15 日消息,米哈游联合创始人蔡浩宇成立的 AI 公司 Anuttacon 新作《Whispers from the Star》(暂译《星之低语》)今日发售,Steam 国区定价 33.99 元,首发八折 27.19 元,好评率 95%。

游戏简介显示,这款游戏讲述了一个关于「隔离中建立联系」的互动故事,你的话语是身处太空的遇险同伴的生命线。游戏中没有对话树,只有由 AI 聊天驱动的开放式对话,你将尝试从宇宙的另一端拯救某人。

这款游戏拥有超过 25 个故事节点,女主角名叫 Stella,玩家是其「唯一一个能通过通讯器联系到」的人。为了充分体验游戏,玩家需要准备一个可用的麦克风。(消息来源:IT 之家)

20.99 万起售的全新智己 LS6 半小时订单破万

8 月 15 日消息,全新一代智己 LS6 开启预售,仅仅半小时时间,订单就突破了万台。

新车共推出增程和纯电两种版本,其中纯电两款,预售价 20.99-27.99 万;增程同样为两款,预售价 21.49-23.99 万元。

此次开售的全新 LS6 最为重磅的卖点当属大电池增程混动,尤其是 Max 版,配备了一块 66 千瓦时电池,纯电续航达到 450 公里,完全可以当做纯电来开。

不止如此,除了容量大,续航长,其放电功率也很强,即便是在 16% 低电量时,仍然可达 275.5kW,这就解决了传统增程混动「亏电一条虫」的难题。

同时基于 800V 平台打造,峰值充电功率 268kW,15 分钟续航补充 310km,也补足了增程混动充电慢的短板。

而 LS6 增程版还配备了上汽最新研发的 1.5T 增混专用发动机,最低亏电油耗 5.32L/100km,每百公里油电综合能耗 2.07L,同级最低,并且不挑油品,可加注 92 号汽油。

此外,该车全系标配 800V SiC 飓风电机,后驱版零百加速 6.4 秒,四驱版仅 3.48 秒,且全系标配灵蜥二代数字底盘,支持四轮转向灯。(消息来源:快科技)

小米 7 月空调线上销量超越格力 王化:没想到新时代这么快就来了

8 月 16 日消息,奥维云网数据显示,7 月份(7 月 1 日-7 月 31 日)小米空调线上销量超越格力,前者市占率 16.71%,后者市占率 15.22%。

小米集团公关部王化转发了相关微博并表示,没想到新时代这么快就来了。(消息来源:快科技)

 

李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍

全球首个人形机器人运动会在北京开幕

8 月 14 日晚,全球首个人形机器人运动会在北京国家速滑馆「冰丝带」正式启幕,带来了超模搭档走秀、赛博乐队表演等「机器人秀」。

本场运动会涵盖 26 个赛项、487 场比赛,包括田径、足球、自由搏击、全体舞蹈等,已吸引 16 个国家 280 支队伍、500 余台机器人参赛。

比赛安排在 8 月 15 日—17 日,共 3 天时间。所有赛项都安排在国家速滑馆,每天上、下午两个竞赛单元,每个单元 3 个小时左右。每个竞赛单元设置 2~3 次颁奖仪式,保证不同场次、不同位置的观众都能观赏到精彩赛事。(来源:IT 之家)

曝苹果将推出桌面机器人产品,库克暗示:「很快推出」

科技爆料人马克·古尔曼周三表示,苹果准备推出多款机器人产品。

计划推出的众多机器人产品中,包括一款桌面机器人,这款桌面机器人是苹果人工智能战略中的核心,计划于 2027 年上市。这款桌面机器人将作为用户的虚拟伙伴,配备逼真的 Siri,具备与用户全天候互动的能力。

这款桌面机器人类似于安装在可移动肢体上的 iPad 平板电脑,设备原型使用 7 英寸左右的显示屏,可以旋转,并像人头一样转向召唤它的人,这款桌面机器人将被放置在桌子上或厨房柜台上,帮助用户完成工作、浏览媒体等。

据爆料,在本月一次全体员工大会上,苹果 CEO 库克对员工表示,虽然不能详细描述,但即将推出的产品线「太棒了」,其中一些产品能很快看到,还有一些产品会在以后推出,有很多东西值得期待。

据爆料,除了桌面机器人,苹果还准备推出一款新摄像头,这款摄像头被定位为一个具备自动化能力的安全系统。苹果还在开发其他多款机器人,包括一款带轮子的移动机器人、一款大型机械臂。(来源:第一财经)

 

国家数据局:我国日均 Token 消耗量一年半时间增长 300 多倍

8 月 14 日,国家数据局局长刘烈宏在北京举行的新闻发布会上介绍,截至今年 6 月底,中国日均 Token 消耗量已突破 30 万亿。

刘烈宏在会上表示,2024 年初,中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半时间增长了 300 多倍,这反映了中国人工智能应用规模快速增长。

截至今年 6 月底,中国各地高质量数据集累计交易额近 40 亿元人民币,数据交易机构挂牌的高质量数据集总规模达 246PB。

同时,中文数据在国内大模型的训练性能提升方面发挥着重要作用。刘烈宏说,中国多数模型训练使用的中文数据占比已超过 60%,有的模型已达 80%。(来源:中国新闻网)

 

京东二季度经营亏损 9 亿元,「新业务」单季亏损 147 亿

8 月 14 日,京东集团发布 2025 年二季度业绩。2025 年二季度,京东集团收入为 3567 亿元,同比增加 22.4%。由于对新业务的战略投入增加,2025 年二季度,京东集团出现经营亏损 9 亿元。

公告显示,今年二季度,京东集团营销开支同比大幅增加 127.6% 至 270 亿元,主要是由于新业务推广活动支出增加。

分具体业务来看,京东零售(包括京东健康及京东工业等经营分部)二季度收入 3101 亿元,同比增加 20.6%,经营利润率为 4.5%;京东物流二季度收入 516 亿元,同比增加 16.64%。

而京东新业务(包括外卖业务)今年二季度收入 138.52 亿元,经营亏损达到 147.77 亿元。(来源:中国证券报)

 

特斯拉发布史上最长 FSD 演示:7 小时零接管

近日,特斯拉在社交平台上,最新发布了有史以来耗时最长的 FSD 演示视频:

从旧金山开到洛杉矶,全程 362 英里(约 583 公里)。在近 7 个小时的行驶过程中,主驾位置的操作员始终没有任何触碰方向盘的动作,包括去超充站充电的时间。只有在充电环节,操作员才下车进行了充电。

按照特斯拉的计划,明年会让车主加入其 Robotaxi 车队,车主不用车时,可以让自己的车辆出去跑出租赚外快。不过,这种模式能否行得通,解决自动充电就是需要迈过的首要门槛。(来源:智能车参考)

李想:i8 上市反响不错,产品力上没有对手

8 月 14 日,理想汽车 CEO 李想在微博抛出了一套「竞争双赛道」理论,迅速引爆行业热议。

李想将竞争分为两个阶段:一是「有没有」,即解决用户未被满足的深层次需求,如新能源续航痛点、家庭出行舒适性等;二是「好不好」,即产品细节的优化对比,需用户亲身体验。

李想强调,理想 i8 目前处于「有没有」阶段,凭借精准定位和产品力占据蓝海优势。李想认为这是理想 i8 市场目前反响良好的原因。

此前,理想汽车官方宣布,理想 i8 将于 8 月 20 日启动全国首批交付,目标 9 月底前交付超 8000 台,并挑战 1 万台,助力用户国庆前提车。(来源:DoNews)

 

xAI 联合创始人离职

北京时间 8 月 14 日,xAI 联合创始人 Igor Babuschkin 官宣离职创。

这位 AI 大牛不仅在 120 天的时间里,极限打造出世界最大 AI 超算 Colossus,还训出了比肩 OpenAI、谷歌 DeepMind 多模态 Grok 4。

接下来,他要创办一家风险投资公司 Babuschkin Ventures,开启下一段新的旅程。

而在 Igor 离去后,xAI 的原始 12 人初创团队,如今剩下了 9 人,其中华人学者占比超 1/5。(来源:BianNews)

 

智元推出首个机器人世界模型开源平台

8 月 14 日消息,智元机器人正式推出业内首个开源的机器人世界模型平台——Genie Envisioner (GE)。

官方称,GE 平台,创新性地构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估,使机器人能够在单一模型中完成从感知环境、思考决策到执行动作的端到端处理。

为构建这一强大平台,智元机器人利用了约 3000 小时的真实机器人操控视频数据。在实际测试中,搭载 GE-Act 组件的机器人已成功完成制作三明治、倒茶、擦拭桌面等多项任务。(来源:快科技)

全球首款全景无人机正式亮相

8月14日晚,由影石和第三方共同孵化的全新无人机品牌「影翎」正式亮相了首款产品 A1。

据官方介绍,A1可以拍摄8K全景影像;VR飞行眼镜可以提供360°沉浸式飞行体验;体验遥控器可以实现「指向即航向」的直观操控,指哪飞哪。此外,在全景影像能力的加持下,A1也支持一次飞行解锁无数视角的「无限创作」体验。

目前,影翎已经正式开启用户公测计划。(来源:极客公园)

 

传三星将于明年推出智能眼镜

三星已经发布了其首款 XR(扩展现实)头显,名为 Project Moohan,但它也在致力于为大众市场开发更简化的 AI 眼镜。韩国一份新报告称,三星首款智能眼镜将于 2026 年底发布。

新报告指出,该眼镜的设计类似于雷朋 Meta 眼镜,内置麦克风、扬声器和摄像头。据报道,该眼镜将配备 AI 助手,允许用户拨打电话、发送短信、捕捉内容并控制媒体播放。

据报道,三星正致力于在人工智能眼镜市场确立自己的地位,因为它相信该产品类别将取代智能手机,成为消费电子产品领域的下一个前沿。(来源:cnBeta)

 

硅谷初创公司推出全球首款「脱眼」自动驾驶汽车

据《福布斯》近日报道,硅谷初创公司 Tensor 计划推出全球首款真正意义上的「脱眼」级别自动驾驶汽车,方向盘可折叠收起,由屏幕取代。

不同于多数厂商先做 Robotaxi,Tensor 选择直接面向消费者,打造一款可手动驾驶、也可全自动驾驶的高端纯电动车。车辆可离线运行,厂商承诺提供豪华体验、响应驾驶者指令的智能交互,并保障隐私不被跟踪。

这款车体型硕大、线条流畅,传感器数量创纪录:37 个摄像头、5 个定制激光雷达、11 个定制毫米波雷达,加上麦克风、超声波、碰撞传感器、水位探测、数据通信等设备。大部分传感器具备自动清洁功能,保持最佳视野。整车为私人自动驾驶而设计,由越南车企 Vinfast 生产。

Tensor 希望在 2026 年下半年交付,抢下「全球首款」称号。(来源:IT 之家)

电竞玩家打造硬核外设「电击手臂」,瞄准水平达职业级

近日,海外博主 Basically Homeless 在视频平台上展示了其打造的「肌肉瞄准辅助系统」。这通过计算机视觉和精确的电击,他的手能够在毫秒级时间内迅速指向目标,并在需要时自动开火,甚至超过了众多职业选手。

在视频中,Basically Homeless 展示了他自制的这一系统,该系统本质上是一种电击装置,结合了计算机视觉和电肌肉刺激技术。再加上计算机视觉技术,基于大模型让计算机实时分析游戏画面,例如在《反恐精英 2》中识别到对手时,系统会生成相应的电信号,并通过电击来收缩肌肉,实现在毫秒级时间内将手迅速指向目标。

在测试中,该系统的反应时间最快缩短至不到 100 毫秒,约为他正常反应时间的一半,甚至比许多职业选手更快。(来源:cnBeta)

 

3 分钟,我学会了像鸟儿一样飞行 | New Things

几个月前,影石的小伙伴告诉我们,他们孵化的全新无人机项目已经进入到了关键阶段。

得知影石要做无人机的时候,我确实有点惊讶——不论是国内还是全球市场,大疆已经统治消费级无人机市场多年,这是一个不论新玩家还是老玩家都很难突围的赛道。而在过往我们与影石创始人刘靖康的交流中,我一直觉得他是一个极度冷静且理性的 90 后创业者,这就更让我好奇,影石为何选择无人机作为品类扩张的新方向。

很快我了解到这是一款全景无人机——这很像他们的风格。影石过去很喜欢把他们的全景相机送到高空,无论是绑在老鹰身上,还是随着卫星发射到天空,在更高的地方拍出不一样的全景画面,这似乎是他们早就想做的事。

那时,这个全新无人机品牌「影翎(líng)」的英文名已经引起我的注意——「Antigravity(反重力)」。我猜测,这次把全景相机搬上无人机,影石的目标绝不仅仅是为了「拍照」。

不久前,我和同事在新疆提前体验了这款产品。尽管只是工程样机,但足以让我看清影翎的思路:这款全新的Antigravity A1 并不是一台「会飞的相机」,而是通过「实时全景拍摄+智能眼镜监控」,把人类的感官带上天空,让用户仿佛化身鸟儿一样,在城市或者山林里遨游。

它带给我的,是传统无人机从未有过的全新体验。

 

全景无人机:像鸟儿一样飞

在新疆喀拉峻草原,我们试飞了一台 Antigravity A1——后者由无人机本体、Vision 飞行眼镜和 Grip 体感遥控器三部分组成。

A1 的本体是一台四旋翼无人机,重量仅 249 克,折叠后也就一个巴掌大小,可以直接塞进包里。机身配备了两颗上下排列的摄像头,前端还镶嵌了一个用于避障的视觉传感器。

Antigravity A1:搭载前视避障传感器和上下排列的鱼眼镜头 | 图片来源:极客公园

第一次正式试用 A1 前,我的心里其实有些紧张。因为这款全新无人机的操作方式,和我熟悉的传统「航拍无人机」有很大的不同。

操控传统无人机像是在玩街机游戏,操控设备上有一个中央屏幕+两侧操纵杆。用户既可以看到操作界面,也可以直接观察周围环境。

而操控 A1,则像是在玩一场 MR 游戏。我需要先戴上配套的 Vision 飞行眼镜,它会在飞行过程中传输无人机的实时画面;操控则依靠单手握持的体感遥控器,在实时监看无人机所处环境的同时,「盲操」完成各种飞行动作。

Vision 飞行眼镜 | 图片来源:极客公园

但实际体验的难度要比我预想中小很多。

首先,这款飞行眼镜的外屏会实时显示和内屏相同的画面。所以,我身边的影翎工程师可以直接根据外屏画面,对我进行操作指导。

其次,Grip 体感操控器的手势也借鉴了直升机操控,很贴合人体直觉:左右挥动即可改变水平航向,上举下放则改变飞行高度,操作起来像是在空中「拎着」无人机一样简单。

Grip 体感遥控器还提供三组实体按键:(从左至右)分别对应起降、调整左右方向、加速 | 图片来源:极客公园

在 2-3 次简单教学之后,我就熟悉了 Grip 体感操控器的手势,可以开始正式飞行。

来新疆前,我特地在小红书、抖音上刷了不少「无人机出片攻略」,随车的地陪小哥也总热情地告诉我每个景区的「最佳机位」。

不过,由于试飞时这款产品仍处在保密阶段,我们反而需要避开那些热门打卡点。这让我不免担心:没有了最佳机位,还能拍出满意的片吗?

不过,当无人机正式升空之后,我之前的疑虑很快就被打消了。

首先,由于搭载了两颗全景镜头,可以拍摄 8K 全景画面,所以 A1 实际也具备了和全景相机一样「先拍照后取景」的特性——也就是可以一次性把 360° 的景象全都记录下来,后期再选择任意角度的镜头。这样,就不用再担心因为分心飞行操作而错过精彩瞬间,也大大降低了取景和构图的门槛。

而且,也许是因为我们的第一次试飞 A1 就是在草原上,当无人机飞得足够高的时候,我几乎不用费心「驾驶」,注意力都集中在了「看风景」。

我就像坐在了真正的飞机驾驶舱里,360°自由扭头转动视野,远处的雪山、两侧的峡谷、正下方烧烤和骑马的游客,全都尽收眼底。沉浸在「飞行」和「俯瞰」的乐趣里,我甚至觉得之前执念的「出片」也变得没那么重要。

另外,在我操控无人机的时候,我的同事也没有闲着。这款飞行眼镜还提供了一块外屏,可以实时显示和内屏相同的画面,让身边的人可以同步观看我的第一人称飞行视角,而不是在一旁无聊等待。

等到电量耗尽时,影翎的飞行系统会根据剩余电量和距离,自动提醒用户返航,避免因为过于沉迷而导致没有电量返航。用户也可以直接按下遥控器上的「一键返航」按钮,A1 会在发出提示音后自行飞回。

值得一提的是,在距离地面大约 1 米左右的高度时,A1 机腹位置的「起落架」还会自动展开,以保护底部的全景镜头在降落时不被刮花。

在测试的过程中,我们还发现了一个小细节。当我们把一些重物放在无人机背上的时候,A1 刚起飞就会放下起落架自动返航。影翎的工程师告诉我们,这个功能来自实时开启的负载检测系统,可以自动规避无人机违规改装风险。

 

为什么要做「全景无人机」?

笔者第一次见到 A1 无人机,是在极客公园的办公室里那是一次 100% 的纯静态观看。所以,尽管看到了机器,但我面对这个新产品时,脑子里其实还有一堆疑惑并没有解开:

  • 为什么当友商在拼命卷画质卷镜头的时候,影翎的产品要用鱼眼镜头取代长焦呢?
  • 全景无人机=全景相机+无人机?这应该不是一个简单的技术加法。
  • 这么做仅仅是因为影翎和影石要打造一个差异化的产品吗?

当我在新疆的草甸和高山实测完 A1 之后,我才终于意识到这款产品背后是影翎团队对一款新产品从 0 到 1 时更深层的思考,以及影石多年对「全景+飞行」这种形态探索的积累。

首先,A1 不再是单纯的「影像工具」,而是希望重新定义无人机的整套「飞行体验」。

传统的「航拍无人机」,核心目标是拍出更好的画面,而实现这一目标的路径往往是搭载更好的相机。但无论如何迭代,这种产品形态都高度依赖操作本身。能否拍到好看的画面,还是要高度依赖于飞行能力和构图技巧。

而由于 A1 本身搭载了全景镜头,就让它天生就和全景相机一样,拥有「先拍照后取景」的后期特权。

同时,由于 A1 可以做到飞行方向、观测方向和拍摄方向相互独立,也使得它可以带来一些过往在无人机上无法呈现的独特视角——例如:在操纵飞机上升高度的过程中,如果俯视地面,就会带来一种「腾空而起」的冲击感。

在上升的过程中,俯瞰果子沟大桥 | 图片来源:极客公园

我是坐在一辆越野车的车顶「飞行」时,第一次感受到这种沉浸感。当时,眼镜里的「我」正在飞过一座高山,而现实中的「我」则正好感受到了来自车身的晃动和耳边的风声。毫不夸张地说,重度恐高的我当时真的产生了一种恐惧感,第一时间对同伴大喊「你别晃车门」——我相信这是仅靠手持的屏幕无法实现的沉浸式交互效果。

所以,如果说过往的航拍无人机只是把摄像机镜头带上了天空,那么我相信,A1 是希望把我们最真实的感觉都「装载」到飞机上。用影翎团队的话说,他们希望 A1 可以实现人类最原始的飞行梦想。

其次,全景技术和无人机的组合,不仅是一个简单的加法,背后其实还有复杂的工程、软件问题需要解决。

在决定进入无人机之前,影石的创始人刘靖康每年都会把自家的全景相机绑在老鹰的背上,就好像坐在老鹰背上飞上了天,可以获得一个最原始的全景飞行影像。

绑在老鹰身上的全景相机视角 | 来源:影石 Insta360 视频截图

2022 年,影石发布了一款外挂式无人机全景相机「瞳 Sphere」。它可以一键快速锁定并安装在其他无人机上。比起老鹰背上的相机,它通过优化镜头的位置布局和后期算法的加入,让无人机在画面里完全消失,获得一个 360°的VR 影像。

外挂式全景相机「瞳 Sphere」的解题思路 | 图片来源:影石 Insta360

Antigravity A1 在两者基础上,继续叠加了全景图传技术、飞控技术等技能点,并加入了飞行眼镜和体感遥控器,终于让全景相机真正长出了翅膀,得到一台既可以全景拍摄,又可以获得像鸟儿一样自由飞行体验的首款消费级全景无人机。

沉浸式「完全体」A1 飞行体验 | 图片来源:极客公园

需要说明的是,我们这次体验的只是 A1 的工程样机,所以很多关键参数尚未确定。距离产品的正式发布发售还有一段时间。如果你是一个重度的无人机发烧友,或者通过我们的文章对这款新产品产生兴趣,那么你也可以通过影翎的官网参与到产品体验和共创计划中。也许在之后正式发售的版本中,你提出的功能和创意玩法就可以得到实现。

 

「反重力飞行」,航拍之外无人机的一种新玩法

我们在新疆赛里木湖边拍摄日落的时候,还有一段特别有趣的小故事。

当飞机起飞的时候,远端一直遮挡着太阳的云层突然散开。我和同事山山老师特别兴奋地冲着湖边和太阳的方向「飞」过去。飞的人边飞边说「好美」,在旁边那位一直在提醒可以实时取景观测要拍到怎样的画面。

结果,当我们心满意足地以为拍满了一块电池,才发现原来起飞的时候我们忘了按拍摄按键……

这固然是和我们无人机拍摄经验不够丰富有一定关系,但另一部分原因在于,由于可以自由转头获得任意视角的画面,我们也更容易享受和沉浸在飞行本身的乐趣里。

虽然回看素材时,我们戴上飞行眼镜摇头晃脑的一些画面可能显得有点呆。但戴上眼镜的那个人,在全景技术的加持下,会觉得已经在这趟「航班」上请了一个专业的 AI 摄影师,自己可以更沉浸地自由欣赏风景。所以,回看素材时,我们甚至发现录音里类似「好爽」、「好过瘾」的感叹,要比「好美」、「好漂亮」更多。

沉浸式第一人称飞行 | 图片来源:极客公园

以前,受制于物理局限,人类只能在特定地点俯瞰身下的风景,例如登上城市里的电视塔。在户外和山间,只有极少数可以从事翼装飞行的极限运动员,可以得到从山谷中穿过的体验。

但是,在喀拉峻大草原和果子沟大桥旁边,A1 给我提供了一种在赛博世界里最接近鸟儿的飞行体验的体验。有一丝恐惧,更多的是兴奋,还有一种和这个品牌的英文名一样的新奇感——「Antigravity(反重力)」。据我们了解,这个英文名要比「影翎」这个中文名字更早确定。

在这次体验结束的时候,我意识到「全景+飞行」并不是一个被创造出来的消费场景,也不是两种技术的简单迭代,这是一种消费者一直存在但很难能被直接描述出来的需求。影翎希望把这件事做好。

所以,以后在旅行的过程中,当我们再拿出无人机,未必只是为了单纯「出片」,它也许也会成为小朋友、大朋友手里的玩具,带我们去到脚步、双眼无法到达的地方,让我们可以更沉浸地享受旅途,欣赏美景。

这台无人机想做的,不仅是为我们记录旅行提供一种新的方式,它也许也希望改变我们旅行本身的方式。

经过几天的体验,我认为它在一定程度上已经做到了这点。

7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本

7 月 29 日上周二,理想i8新车发布,共有三个版本,Pro 版售价 32.18 万元,Max 版 34.98 万元,Ultra 版 36.98 万元。

但仅仅一周后,8月5日,理想汽车董事长、CEO 李想也在微博发话了:「听大家劝!咱们不纠结了,以后 i8 只有一个版本,标配即顶配,一口价 33.98 万元」。

理想i8把中间的Max版变成了唯一的「顶配版」,直接砍掉了另外两个版本。

被认为有些执拗的李想,也开始听劝了 | 图片来源:李想微博

李想本人也大方承认,之前搞好几个版本是「惯性思维」犯了错,所以采用了当年理想ONE靠着「一个版本打天下」的策略。

消息发布后,截至发稿,理想港股股价上涨1.58%到102.8港币,最新总市值为2200.83亿港币。

为啥理想 i8 要紧急修改SKU?会产生怎样的影响?

李想开始「听劝」?

理想 i8,作为理想家族的第一款纯电SUV,上市之初被寄予厚望。

但一上市,用户们很快就发现了一些让人「挠头」的问题:作为一款起步价超过32万的车,Pro版竟然连理想标志性的「冰箱」都没有;而Max版,又缺少了很多人想要的后排娱乐屏。

更尴尬的是,一些核心配置,i8竟然还不如自家更便宜的车型理想L6。这就让很多准备好钱包的消费者感觉「不划算」,心里犯了嘀咕:

花更多的钱,体验反而「降级」了

值得注意的是,理想做出这个决策时,正处于一场巨大的「舆论风暴」中。i8上市后不久,一个关于它和乘龙卡车对撞的视频在网上疯传,引发了巨大的争议和讨论,甚至还有关于「理想车主素质」的各种负面话题。

理想i8是理想汽车调整策略后,重回纯电市场的关键一步 | 图片来源:理想汽车

市场的冷淡和议论,很快就反映在了订单数据上。理想自己都承认,出乎他们预料的是,有超过98%的用户选择了理想i8 Max和Ultra车型。

同时,2025年8月4日,汽车博主「孙少军」在直播中,披露理想汽车上周订单数据:理想上周新增订单约13000单,其中i8大定订单达6000单左右。顶配Ultra版占了70%,高配Max版占20%。

这意味着什么?——那个本应是「走量担当」的入门版Pro,几乎无人问津。用户用真金白银投了票,清晰地告诉理想:我们不想要一个「阉割版」的理想,我们要的是那个配置拉满、一步到位的体验。

理想 i8 最主要的特点,就是更大的内部空间|图片来源:理想汽车

面对这样的市场反馈,理想汽车做出了一个有些惊人的决定:「急刹车」,调整产品策略。

他们想起了自己的「成功密码」——当年,理想的第一款车「理想ONE」之所以能一炮而红,靠的正是「标配即顶配」的策略。除了颜色,所有功能一次性给你,不让消费者纠结。于是,理想i8迅速「回归初心」,将三个版本合并为一个优化后的「唯一版」。

这个「急刹车」的代价有多大?这绝非李想发一条微博那么简单,纠错需要巨大的勇气和成本。

因为汽车是一个极其复杂的工业产品,其供应链管理以「年」为单位规划。一周内的突然转向,会对生产和供应链造成巨大冲击。

首先,理想一定已经为Pro版和Max版采购了大量专属零部件,可能瞬间变成了「呆滞库存」。如何消化?要么折价处理给供应商,要么只能计提损失,这是一笔不小的浪费

同时,理想突然取消Pro和Ultra两个版本的订单,意味着对应的供应商要承受生产计划作废、已备物料积压、生产线调整的损失。虽然理想是「甲方爸爸」,但这样做无疑会考验与合作伙伴的长期关系。

真正的强大,不是从不犯错

那么,付出了这么大代价,理想i8就一定能成功吗?答案是:不一定。

因为在竞争激烈的商业世界里,「战术」上的修正,往往很难完全弥补「战略」上的失误。

这是什么意思呢?我们来看一个另一个案例:小鹏G9。

2022年,小鹏 G9 被寄予厚望,其产品力本身相当出色。然而,在第一次发布时,因其极其复杂的版本(SKU)和令人困惑的选装逻辑,遭到了市场的广泛批评。尽管小鹏汽车在48小时内迅速反应,推出了简化的「二次上市」方案,展现了惊人的纠错速度和诚意。

小鹏G9是小鹏汽车品牌向上的关键一环 | 图片来源:小鹏汽车

但结果如何?这次堪称神速的「战术补救」,并没能扭转G9的命运。它后来的销量一直不温不火,最终没能成为大家期待的「爆款」。

你可能会想,这是不是只有小鹏才犯的错?不,即便是如今的「优等生」——理想汽车,也为此交过学费。去年3月,在理想纯电 MPV 车型 MEGA 正式上市 20 天后,李想发布了内部信,承认产品在节奏、目标两方面出现了判断错误。

这两个案例,都指向同一个核心:在战略层面,一个微小的失误,都可能像推倒第一张多米诺骨牌,引发连锁反应,甚至满盘皆输。

一次失败,是否能够挽救,可能不得而知。其实,与其纠结失败本身,更重要的是面对失败的态度。

李想大方承认,这次理想i8主要是因为团队陷入了「惯性思维」。这句话背后,是一种了不起的品质——诚实。

简单来说,就是有勇气面对自己的错误。在成长和创业的道路上,最大的敌人,往往不是身边的友商,而是那个沉浸在过去成功里,听不进意见的「我」。

真正的强大,不是说你永远不会犯错——因为没有人能做到这一点。真正的强大,是当你犯了错误时,敢于承认「我错了」,并且立刻去改正它。

小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!

五年前的2020年,第一代小鹏P7横空出世,它第一次让普通人真切地感受到「智能汽车」到底是什么样。它以原创性的流线型轿跑设计,率先搭载了高速辅助驾驶、全场景语音对话系统,在中国新能源市场划开了一道口子。

快进到五年后的今天,2025年8月6日,小鹏汽车董事长、CEO何小鹏,化身产品经理,从设计、性能、智能、体验等多个维度,将全新P7的卖点娓娓道来。发布会上,小鹏共发布3款 P7 车型,分别为702km长续航版、820km超长续航版、750km高性能版。

不过,这次的发布会有点「不按套路出牌」,有两个地方特别有意思:

一个是发布会花了半个多小时讲车身颜色。还请来了陈妍希、朱正廷、宁泽涛、钟楚曦四位明星来站台,分别介绍一款配色。比起冷冰冰的性能参数,小鹏这次似乎更想和你聊聊「颜值」和「感受」。

另一个,一般新车正式上市前都会公布一个预售价,让大家心里有个底,也管理一下大家的预期。但全新P7偏不!想知道多少钱?等8月底正式上市再说。这波操作,让人有些出乎预料。

发布会后,小鹏官方宣布全新小鹏P7小订超过1万台。

现在,最大的问题来了:这款「吊足大家胃口」的全新P7,到底藏了什么秘密武器?它还能像第一代P7那样,一出场就惊艳所有人?

颜值就是正义

如果你关注了近几年国内的新能源汽车,你一定会有一种感觉:车展上的新车,仿佛都穿上了「统一校服」。

这套「校服」的款式你肯定很熟悉:一张被堵上的「前脸」,一条贯穿式的「眯眯眼」日行灯,一对隐藏式的门把手,再加上一个圆滑的溜背造型。结果就是,我们很多人都得了一种「汽车脸盲症」,看着都差不多,傻傻分不清楚。

不过,最近发布的一款全新小鹏P7,似乎想给大家来点不一样的东西。

小鹏P7的外观可以用三个词来形容:低趴、车身宽、车头长 | 图片来源:小鹏汽车

坦白说,第一眼看到它,你会被它的姿态吸引。就连理想汽车创始人李想,都曾公开夸奖小鹏P7的姿态是「最好的」

全新的P7在原来「优雅」的基础上,变得更有「肌肉感」和「攻击性」了。它采用轿跑式的设计,车身线条流畅,姿态低趴,营造出强烈的运动感和视觉冲击力;车身很宽,除了有更好的过弯性能,也让肌肉感更强;另外,车头非常长,车身侧面的肩线,雕刻得更加深刻、有力。

最绝是尾部,性感的溜背线条,配上一个能自动升降的电动尾翼,看起来就像一辆从科幻电影里开出来的概念车。

这些设计,让全新P7在茫茫车海中,拥有了极高的辨识度。

如果说全新小鹏 P7 的外观是「酷」,它的座舱则主打「玩」。

坐进小鹏 P7 的座舱中,最酷的是一块会「动」的屏幕。

它就像一个能听懂人话的桌面机器人。你一跟它说话,它的「脸」就会自动转向你,眼神锁定,认真倾听。倒车或者拐弯的时候,它还会主动「转头」帮你观察,比好哥们还贴心。

当然,你也可以像撸猫一样,直接用手把它掰到你舒服的任何角度。

方向盘也很好玩,上面有几个特别的「快捷键」,就像游戏手柄的「大招」按钮。想体验瞬间加速?按一下「Boost」,马上感受推背感!想切换悬挂高低?动动手指就行。

当性能轿跑,拥有「最强大脑」

如果说设计是全新P7的「面子」,那么技术,就是它敢于重返战场的「里子」。这一次,小鹏几乎倾其所有,将最顶尖的技术毫无保留地武装到了这台车上。

对于一台轿跑,什么最重要?除了好看,当然是「快」和操控。小鹏P7高性能版 3.7秒 就能从0加速到100km/h,最高时速更能达到 230km/h

底盘采用同级领先的全铝前双叉臂+后五连杆悬架,同时配备双腔空气悬架与智能可变阻尼减震器。听不懂没关系,你只要知道,这让车子转弯超级灵活,日常舒适与运动操控随时切换。

同时,全新P7用上了最新的800V高压架构和5C电池。这就像给你的手机换上了超级闪充,充电5分钟,通话两小时?不,它是充电10分钟,续航增加525公里。喝杯咖啡的功夫,又能跑老远。

根据不同版本,它的续航里程覆盖702公里到820公里,缓解你的「续航焦虑」。

如果说性能是P7的肌肉,那智能化就是它的灵魂。这一次,小鹏给它装上了「最强大脑」。

全新P7全系标配了三颗顶级的「图灵」AI芯片,总算力高达 2250 TOPS!这算力有多恐怖?约等于把好几台最顶级的游戏主机塞进了车里,一颗负责「智能座舱」,另外两颗专门负责「智能驾驶」。

这三颗芯片有着非常明确的分工:两颗驱动智驾VLA大模型,这让P7不只是能「看见」路上的车和人,更能真正「理解」复杂的交通状况,并主动做出判断和决策;剩下的一颗芯片,与另一颗高通8295P合作,共同负责车内的所有智能体验。它们驱动的是座舱VLM大模型。

小鹏 P7,希望成为一个真正「懂你」的AI伙伴。

从「偏科生」到「六边形战士」

毫无疑问,这台武装到牙齿的全新小鹏P7,是一款强大的产品。那它能成为另一个爆款吗?

在讨论P7的未来之前,我们先来看一张小鹏汽车滚烫的「期中成绩单」:

  • 7月,小鹏交付了 3.67万 辆新车,同比增长 229%,直接刷新了单月交付记录!
  • 今年前7个月,小鹏累计交付了 23.39万 辆,同比增长 270%。
  • 年度目标完成率,小鹏在所有新势力品牌中排名第一,完成了全年35万辆目标的 66.8%。

相比第一代小鹏P7,全新P7面临的压力大了很多 | 图片来源:小鹏汽车

这张成绩单,无疑给了小鹏和全新P7极大的底气。但,考场已经变了。

五年前,第一代P7横空出世,当时考场空荡荡,他自己出题自己答,轻松拿第一;五年后,全新P7再进考场,发现这里已经变成了「地狱模式」的「吃鸡」决赛圈,挤满了顶级高手。

特斯拉的Model 3车型,就像那个年年考第一的同学,虽然大家有点看腻了,但实力依然强得可怕;比亚迪的「技术鱼池」深不见底,产品力依旧很能打;小米SU7的出现,更像是一个带着亿万粉丝和全套智能装备的「超级玩家」,改变了整个班级的游戏规则……

面对这一切,小鹏的答案,就是将全新P7打造成一个无死角的「六边形战士」

过去,我们总说小鹏是个有点偏科的「理工男」,技术很牛,但在其他方面总差口气。而现在,这台倾注了小鹏所有心血的杰作,清晰地表明:小鹏,不想再偏科了。它在设计上开始进化,在技术上激进且All in,它要成为一个技术、设计、体验、市场、用户洞察全面拉满的全能选手。

最终,全新小鹏P7能否成为下一个爆款,取决于它能否完成一次关键的进化:从一个「优秀的产品」,进化为一个「成功的商品」。而决定这一切的终极考验,就是价格。接下来,我们一起见证。

对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」

当辅助驾驶的浪潮席卷而来,我们似乎都感受到了一个瓶颈:在高速公路上,它像个老手,稳健可靠;可一回到复杂的城市街道,它就变回了需要时时看管的「新手」。为什么会这样?

本质上,之前以「端到端」为代表的AI驾驶模型,其核心是模仿学习,像「猴子开车」。你让一只猴子看1000万段人类开车的视频,它能学会模仿人的动作——在什么情况下打方向盘,什么时候踩刹车。靠着这种「模仿」,理想汽车在短短7个月内,就将辅助驾驶的平均接管里程从12公里提升到了120公里。

然而,模仿终究是模仿。「猴子」并不会真正思考,它只是在应激反应。当遇到一个从未见过的街角,一个突然窜出的行人,一个复杂的、充满不确定性的路口时,这只「猴子」的大脑就宕机了。因为它只会「怎么做」,却不懂「为什么」。

整个行业,都走到了这个模仿的瓶颈前。下一步,路在何方?

答案,藏在一个全新的概念里——VLA(视觉-语言-行为)大模型。

2025年7月底,在北京理想汽车的研发总部,极客公园在理想i8正式发布前,深度体验了理想第一版VLA模型,这也是国内第一个量产上车的VLA模型。同时还访谈了理想汽车自动驾驶研发高级副总裁郎咸朋博士及核心研发成员团队,在与他们的深度访谈中,我们得以一窥这场变革的核心。

如果说过去的端到端是两步式:「看见,然后行动」。那么VLA的核心,就是在「看见」(Vision)和「行动」(Action)之间,植入了一个至关重要的环节——语言(Language)。它就如同一个会思考、能推理的大脑,它不仅能看懂「前方有障碍物」,更能结合上下文理解「这是一条狭窄的双向车道,对向有来车,我应该减速避让,而不是冒险超车」。

这种「内心戏」的思考过程,让汽车的行为决策不再是一个冰冷的黑箱,而是变得可以理解,也更接近人类的思维。我们终于有机会窥见,那只「猴子」的脑子里,在想些什么。

那么,拥有了「大脑」的VLA司机,想成为一个什么样的角色?

理想的答案出人意料,却又在情理之中:不做「老司机」,要做「私人司机」。

这二者有什么区别?老司机关注的是「我怎么把车开好」,核心是驾驶者本身;私人司机关注的是「怎么让乘客坐得舒服、安心」,核心是乘坐者。

因此,在首个VLA版本中,「安全」被放在了「效率」之前。当遇到复杂的路况,它宁愿慢一点、稳一点,也绝不做任何让家人感到不安的激进冒险。它的每一次决策,都以你和家人的安心为优先准则。

当然,要实现这一切,绝非易事。理想汽车的路径,并非是跳过模仿学习直接进入VLA,而是建立在数据、算力、算法和工程能力上的长期积累。

特别值得一提的是,理想汽车VLA的训练场是「世界模型仿真系统」。你可以把它理解成一个为AI司机量身打造的、无限逼真的「元宇宙」驾驶模拟器。在这个虚拟世界里,AI不再是单纯模仿,而是通过一次次「试错」去探索和学习。

它每天可以在这里「行驶」超过30万公里,经历现实中普通人一生都难遇到的极端、危险场景(Corner Case)。它会经历无数次失败,并从失败中总结经验,以惊人的速度进化。

今天,第一版的VLA系统相比过去,也许只是在舒适性上迈出了一小步。但真正的变革在于,它的进化将不再是线性的,而是指数级的。当它的平均接管里程从100公里跃升至1000公里时,一个新的时代就将开启。

这场深刻的变革才刚刚拉开序幕。也许在不久的将来,当我们再次坐进驾驶座,会发现那个曾经需要我们时时警惕的系统,已经成为了一个值得托付的「人」。

自动驾驶的「ChatGPT时刻」,或许比我们想象中来得更快

理想汽车自动驾驶研发高级副总裁 郎咸朋博士 | 图片来源:理想汽车

以下为访谈内容,部分有删减:

访谈嘉宾:

理想汽车自动驾驶研发高级副总裁 郎咸朋博士

理想汽车自动驾驶高级算法专家 詹锟

理想汽车自动驾驶高级算法专家 湛逸飞

VLA:通往更高阶自动驾驶的「必经之路」?

Q:去年,「端到端」成为辅助驾驶主流方案,但也很快遇到瓶颈,VLA是当时唯一考虑的技术路线吗?还是有其它备选方案?

郎咸朋:我们一直保持对前沿算法的探索,做端到端时也在考虑下一代技术。当时业内最有前途的就是VLA,它不仅用于辅助驾驶,更是具身智能和未来机器人领域的通用技术框架。经过长时间的调研和探索,我们制定了VLA的技术方向。

Q:VLA看似并未颠覆「端到端」,这是否意味着它更多是工程能力的创新,而非革命性的技术路线革新?

詹锟:VLA不只是工程方面的创新。VLA也是一种端到端(场景输入,轨迹输出),但算法的创新是多了「思考」。端到端可以理解为VA(视觉-动作),VLA加入了Language(语言),对应思考和理解,把机器人范式统一。但VLA作为大模型,部署在边缘端算力上极具挑战,需要工程创新,必须有大算力芯片才能部署。

Q:行业有观点认为,VLA和「好的模型」是两回事,后者更多取决于数据和强化学习。您如何看待这个观点?

詹锟:我赞同VLA是一种模型架构,不一定代表是好模型。任何模型的设计思路只代表想法,不代表能落地。要训练出好的VLA模型,需要更好的数据、算力、算法、工程部署。我们认为,辅助驾驶想往L4或更高能力前进,L(语言)是必经之路。

Q:多模态大模型尚未迎来真正的「ChatGPT时刻」,理想此时量产VLA,这是一个足够好的解法了吗?它距离那个引爆点还有多远?

詹锟:多模态没达到GPT时刻。VLA在机器人领域泛化能力不强,但在辅助驾驶这个相对统一的范式里,有机会做到一个GPT时刻。

我们承认,现在的VLA是业界第一个要推向量产的版本,肯定会存在缺陷。这次尝试是想用VLA探索一条新路径,不一定非要达到GPT时刻才能量产落地。只要能通过评测、仿真验证它能给用户带来「更好、更舒适、更安全」的体验,就可以交付。

GPT时刻更多指的是很强的通用性和泛化性。我们会在落地以后,随着用户数据迭代、场景和交互的丰富,逐渐往ChatGPT时刻迁移。到明年我们如果到了1000MPI,可能会给用户一种真的到了VLA的ChatGPT时刻的感觉。

Q:从「司机Agent」到「更好的家庭司机」,理想对VLA的终极价值思考,发生了哪些变化?未来它将如何重塑我们的出行空间?

郎咸朋:我们之前的「司机Agent」说法迭代了,现在我们认为VLA应先专注于成为一个好的「私人司机」。

我们认为VLA是一个底层能力,对用户最大的价值就是把车开好。如果车都开不好,做其他事没有意义。而且,我们分析后认为,目前的AI Agent产品还处于比较初级的阶段。

所以我们重新审视VLA的能力,核心还是把车开好,为用户提供一个安全、舒适、安心且越开越好的司机体验。这是我们今年VLA上车后想实现的目标。

未来,在VLA模型的基础上,辅助驾驶会向「移动空间」的思路发展。当车辆能做到足够安心、安全后,它就能帮你去做其他事情,我相信那一天会很快到来。

解构大脑 —— VLA的「七十二变」与「数据炼金术」

Q:理想自研的MindGPT基座模型,究竟比行业开源模型「好用」在何处?

詹锟:我们自研的基座模型对部署VLA有很大作用,我们VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,专门对嵌入式芯片做了定制的MoE混合专家架构,并不是业界任何一个开源模型都能达到这个效率。VLA的推理帧率在10Hz左右,我们做了很多优化,把思考过程尽可能地能够在车端推理出来。

Q:云端大模型参数量是越大越好吗?面对友商的72B模型,理想的32B模型如何应战?车企判断模型大小的标准是什么?

郎咸朋:关于云端模型72B好还是32B好,我觉得各有各的好。关键看你是否能把模型训练到的能力,蒸馏好了之后,能落到自己的芯片上,做好优化、量化的部署,并且转换成用户的实际价值。能做到这点,都是好的应用。

当然,模型的参数量越大,训练消耗的资源就会越多,效率也可能低一点。把大模型蒸馏成小模型,能力损失也可能存在,这很考验各家工程师的能力。最终,我们还是要看最终的产品体验以及给用户带来的价值。

湛逸飞:其实也不完全只看参数量,你给它什么数据也是非常重要的。现在很多大模型都是基于互联网通用数据,而数据污染已越来越严重。我们理想汽车的云端大模型,是基于自己的数据去做训练,它在驾驶场景的理解上,比那些通用大模型的能力要强很多。我们需要的正是它对驾驶场景的理解能力。

Q:在VLA的训练中,在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令,我们是如何解决的?

詹锟:首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。

第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。

第二,生成数据。之前会有很多大语言模型会有幻觉,本质上因为「大模型」对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至生成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。

通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。

第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。

相比端到端,VLA的不同之处是在「看见」(Vision)和「行动」(Action)之间,加入了语言(Language) | 图片来源:视觉中国

Q:在浩如烟海的数据中,理想如何像炼金术士一样,定义并筛选出能训练出「老司机」的「黄金数据」?

湛逸飞:我们需要的数据,一个词总结就是「老司机数据」。我们会在云端用大模型对数据进行检查,看它是否符合我们定义的「老司机」标准。比如,在望京有些右转车道上有违停车,我们到底需不需要车辆压实线绕行?如果不绕,在望京就没法右转。我们对这些数据理解花费了很大功夫,并做了很多清洗。

郎咸朋:对于corner case和困难场景,我们会通过生成数据来提供。在强化学习阶段,数据更大的作用是训练世界模型,让它更符合真实世界,所以我们更多的训练数据来自合成。

我们从理想ONE就开始做数据闭环。2020年,我们就积累了1500万左右的有效回传数据。这5年做下来,从去年端到端开始,对手才真正把理想辅助驾驶当回事,但为时已晚,因为这些能力建设不是一天两天就能完成的。

如果还沿着端到端的思路做VLA,速度一定会变慢。我们的最终目标,是在云端建立一个模拟真实物理世界的世界模型,让算法在里面跑,就像在《SimCity》里一样。到那时,算法在模拟世界里跑一天,等于在真实世界跑好几年的训练速度。一年之后,当一个1000MPI的产品放在你面前时,大家会觉得辅助驾驶真的来了。我相信理想肯定是第一个走出来的。

Q:VLA如何凭空理解「前进10米」这类物理概念?我们真的能完全信任一个大模型做出的判断吗?

詹锟:我们不会单纯地让模型学习向前走10米、12米这样生硬的数据。但在海量的通识数据中,有很多对物理空间的理解,比如前方白车距离多少米。现在的大模型也已加入很多物理空间的知识。

我们分享的五步训练法,第一步就是加入通识能力和物理世界的知识,第二步进行微调,将能力和action结合。当我们把海量数据喂给它以后,数据具备组合泛化能力,并不是教什么学什么。当量级达到一定规模时,会涌现出一些能力。它懂了数字,懂了米数,当给它一个新的东西,就存在组合泛化的机制。我们也非常关注现在大模型的进展,随时可以向辅助驾驶上迁移。

Q:VLA的「大脑」再聪明,也需要敏锐的「眼睛」。在感知层面,我们如何持续进化,解决类似「懂车帝测试」中暴露出的问题?

郎咸朋:还是要继续提升技术能力。在VLA中,我们对感知有一个比较大的升级,能看得更远、更精细。

比较典型的两个例子是:我们动态物体纯视觉的检测范围从原来的150米扩到了200米,OCC通用物体检测从原来的80米扩到了125米。这都是目前在VLA上做的技术能力提升,包括数据、包括推理性能的提升才能做到。目前我们确实会在基础能力上做更多提升。

理想如何将VLA大脑塞进车里?

Q:从规则到端到端,再到VLA,理想的智驾算力经历了怎样的指数级增长?未来的算力规划蓝图是怎样的?

郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练卡只用于训练BEV模型和感知模型,数量较少。但在端到端时代,模型训练需要大量算力,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。

Q:理想是如何在Thor芯片上压榨出翻倍算力的?将精度从FP16降至FP8甚至FP4,如何做到性能不降反升?

詹锟:我们从去年开始用Orin芯片做大模型部署,通过魔改CUDA底层、重写PTX底层指令等方式实现。理想汽车辅助驾驶团队的工程部署能力是一以贯之的,从早期地平线J3,到Orin,再到Thor芯片,很多技巧、分析方法和工具链都继承下来了。

关键是我们打磨细节的能力,通过做底层分析解决瓶颈。VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率。这其中有非常多的细节,比如调整算子,让它和芯片能力更匹配。大家常用的推理模型会用FP16,我们把它降到FP8,性能做了非常大的提升,未来还会用FP4进一步把芯片算力压榨出来。

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定优化,性价比和效率都会很高。现在依然使用Thor芯片,是因为英伟达对新算子支持较好,算力也比较充足,在VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片。

Q:在车端部署VLA大模型时,理想是否会有一些轻量化的版本?如何在这场「性能」与「效率」的博弈中取得平衡的?

詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。架构上,我们的基座模型是自研的8x0.4B的MOE模型,这个架构非常适合英伟达芯片,推理速度快的同时模型容量大。

优化上,我们最早训练了一个32B的云端大模型,把它做出的思考和推理流程蒸馏到3.2B的MoE模型上。我们也针对Diffusion做了工程优化,并不是直接使用标准Diffusion,而是进行了推理的压缩。以前Diffusion可能要推理10步,我们使用了flow matching流匹配只需要推理2步就可以了,这方面的压缩也是导致我们真正能够部署VLA的本质原因。

Q:面对未来,理想会走上自研智驾芯片的道路吗?

郎咸朋:自研芯片的核心原因是能针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor芯片,是因为英伟达对一些新的算子支持比较好,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。

Q:在Orin与Thor两个平台,理想后续的VLA推送会「一视同仁」吗?两个平台的能力差距何时会显现?

郎咸朋:我们Orin X或Thor平台都会同步推送。目前测试来看在能力上没有任何差异,帧率上也没有差异,都是10帧。唯一的差异可能是底盘不同导致的舒适度体验差异。

后续的推送节奏也是同步的。我们现在肯定不会做这种差异化。但随着下一步的迭代,如果我们在INT4的量化上有一些突破,那时可能会有一定差异,但现在谈这个还为时尚早。

仿真,何以成为理想的「杀手锏」?

Q:面对「安全、舒适、效率」的「不可能三角」,现阶段的VLA,做出了怎样的取舍?

郎咸朋:我们的数据显示,理想车主的人驾数据是约60万公里出一次事故,而使用辅助驾驶功能是350到400万公里发生一次事故。我们的目标是将辅助驾驶的MPA(每两次事故间的平均里程)提升到人类驾驶的10倍。

在不可能三角中,我们的排序是安全、舒适,最后是效率。安全由MPA指标衡量,是最高优先级;舒适是在保障安全的基础上,我们通过优化MPI(每两次人工干预间的平均里程)来重点提升舒适度,减少因急刹、重刹等不佳体验导致的接管;效率排在安全和舒适之后。例如,即便走错路,我们也不会通过危险的动作立刻纠正,而是在保证安全和舒适的基础上去追求效率。

Q:理想为何敢大幅减少实车测试,并断言仿真测试效果更好?这背后的底气是什么?

郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。

从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。

Q:仿真世界如何做到复刻真实物理世界?理想的「杀手锏」是什么?

湛逸飞:我们在2024年进行了150多万公里实车测试,来验证仿真环境的可靠性。

最初世界模型仿真的真实性确实存在问题,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然没有达到100%,但准确率也可以在99.9%以上。

例如,我们针对仿真环境中「200米外看不清红绿灯」的问题,对红绿灯的视野模型和相机分辨率仿真进行了大量优化。正是用过去一年的时间将仿真系统的可靠性提升到了很好的程度,我们才会放心地去使用这套系统。

Q:在仿真训练中,如何判定一个场景的训练已经「毕业」?从「实习司机」到「老司机」的进化需要多久?

湛逸飞:强化学习是一个循环交替的过程。每一轮仿真,我们会给它一个打分(reward),这个reward会反向改变模型参数,然后我们再拿它去仿真,产生新行为。这个过程不是瞬间完成的,也没有固定时长,主要和场景的难度相关。直到它通过了我们在仿真环境里的所有metrics,我们才判断这个场景的训练完成了。

Q:如果满分是100分,您会给今天我们体验的VLA版本打多少分?要达到怎样的标准才能让您安心地将它推向市场?

郎咸朋:我们内部有自己的评分机制。大家试驾的这版VLA,内部打分已经全面超越了我们最后一个端到端版本OTA7.5,但在一些小的分数上可能还有波动。

在真正推送给用户之前,我们会做到一个明显的效果提升。大家体验的主要是我们在舒适度上的一些提升。接下来,我们会在「安全、合规、导航、效率」等维度上都会有较大幅度的提升。

我们的目标是,让熟悉我们车的用户一上车就会有非常大的体验提升;让没用过辅助驾驶的人,在使用时也会有很强的安全感、安心感和舒适度。

Scaling Law信仰,让理想成为理想

Q:您如何判断辅助驾驶的商业化落地时间表?理想的变现之路将如何铺开?

郎咸朋:从技术层面看,我们认为VLA模型可以走向更高级别的辅助驾驶,但它现在处于起步阶段,约等于端到端的上限。我相信VLA的迭代速度也会非常快,但这需要完备的算法、算力和数据等基础能力,以及工程能力的支撑。VLA的训练需要和成熟的仿真环境来进行强化学习,和之前单纯依靠实车数据模仿学习是完全不同的。

商业变现最核心的影响因素是国家的法律政策。从技术上看L4级别的辅助驾驶落地会非常快,但从商业角度看,还有很多问题需要考虑,比如保险和事故赔偿等。

Q:如果一个新玩家想入局VLA,会面临哪些难以逾越的挑战?理想的核心技术壁垒是什么?

郎咸朋:新玩家想做VLA模型,没法跳过规则算法和端到端阶段。VLA要建立在之前的基础上,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。

理想汽车之所以能够落地VLA模型,是因为我们有12亿公里的数据。只有在充分了解这些数据的基础上,才能够更好地生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练和推理算力的支撑也需要大量资金和技术能力。

Q:在研发VLA过程中最大的挑战是什么?理想在组织架构上进行了怎样的调整?

郎咸朋:我觉得挑战最大的是要把整个研发流程进行迭代。每一个技术革新都伴随着研发流程的迭代。去年端到端需要数据驱动流程,今年做VLA就必须要做强化学习的流程,需要快速验证我们世界模型的可靠性,也需要快速搭建高效的仿真环境。

组织层面,我们是IPD(项目制)组织。不管是去年做端到端,还是今年做VLA,都是成立内部项目组来做。这反而成为我们的一种优势。去年端到端是180个人,今年VLA是200多个人,我们觉得不需要几千人去做。我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。

Q:作为国内VLA的「探路者」,理想在「摸着石头过河」时,踩过最大的「坑」是什么?组织架构为此做出了怎样的变革?

郎咸朋:我有个最大的体验,就是对整个行业和辅助驾驶的判断与认知,决定了我们是否会踩坑。

我们很早就理解辅助驾驶是个人工智能问题,必须做好算法、数据和算力。我们从2021年开始搭建数据闭环,这是我们能做端到端的基础。

同时,去年在做端到端时我们就在反思,它是不是就够了。我们对人工智能的理解不是模仿学习,而是要像人类一样有思维和推理能力,去解决没有见过的事情。所以我们很快从端到端切换到了VLA方案。

小的工程细节、优化等小坑肯定有,但我们没有遇到大的判断失误。

詹锟:我补充一下,可能也不叫坑,是个经验。就是要相信AI的力量,相信Scaling Law(规模法则)。我们之前相信data Scaling Law(数据规模法则),看到了很好的效果;下一步就是坚信,当我们能给更多的数据、更大的训练时长,它总能出更好的效果。这是AI界的「the bitter lesson(苦涩的教训)」,我们要坚信这一点。

Q:最新的调研中,智能驾驶在消费者购车决策中的权重有多高?

郎咸朋:我们市场部的同学是做过调研的,并且给到我的反馈肯定是需要,都是排在首选top3里的。

现在新购车的人对智驾的要求,我觉得一年前可能问这个问题大家还有点质疑,但现在我相信特别是新购车的用户智驾一定是排在它的首先选要素里的,像去年麦肯锡的调研基本上都是第一或第二的购车要素。

Q:未来,理想是否会将VLA这项核心能力,向行业开放、赋能吗?

郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个VLA的发展还是在技术周期的初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。

从公司或我个人的态度上,是希望能够促进行业发展,但从目前VLA技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升10倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。

告别「偏科生」时代!36 万的坦克500,让对手从此无路可走

2025年8月11日,全新坦克500智享版开启预售!长城这次发布了两款车型,分别是预售价36万元的Hi4-T智享版和38.88万元的Hi4-Z智享版。

很多熟悉这款车的人,第一反应可能是:嗨,这不还是那台我们熟悉的「保定陆地巡洋舰」吗?

没错,从外观看,它依旧是那个车身雄伟、线条刚毅的硬汉,散发着「别惹我」的强大气场。但是,如果你们仅仅把这次发布看成一次简单的年度改款,那可就把它想简单了。 这次升级的核心,不在于「形」,而在于「神」。

它最大的变化在于,在保留顶级硬派越野能力这个「肌肉核心」的同时,为自己注入了一个前所未有的「智慧大脑」和「舒适灵魂」。

把「冰箱彩电大沙发」搬进硬派越野

一提到「硬派越野车」,你脑子里是不是马上出现一个画面:一台方方正正、浑身是泥的钢铁巨兽,在没路的山里「哐当哐当」地往前冲。车里的司机,肯定是个经验丰富的「老炮儿」,对他们来说,征服自然最重要,舒不舒服根本不是事儿。

一直以来,硬派越野车就像班里的「偏科大神」,越野能力100分,但舒适和智能可能连及格线都到不了。选择它,就意味着选择了「诗和远方」,但过程嘛,就得做好「吃苦」的准备。

但是,全新坦克500智享版站出来大声说:「不对!谁说硬汉就不能温柔?为什么去野外就不能享受五星级的待遇?」

它的解题思路,就是把新能源车上那套「冰箱、彩电、大沙发」给学了过来。

坦克500不止于越野,也要懂得生活 | 图片来源:长城汽车

首先是「大沙发」,坦克500智享版采用了顶级的Nappa真皮座椅,不仅支持加热和通风,前排甚至还带按摩功能!想象一下,在野外有点累了,一键开启按摩,这待遇直接拉满。

其次是「大彩电」,坦克500智享版车里有多块屏幕组合,驾驶座前有12.3英寸的仪表盘,中间有15.6英寸的超大中控屏,还有就是HUD抬头显示,能把导航、车速像科幻电影一样投射到前挡风玻璃上,让你开车不用低头。

最后是「电冰箱」,坦克500智享版在车里装了个车载冷暖冰箱,夏天能喝冰镇可乐,冬天能喝热饮,温度从零下6度到50度随便调,简直是长途旅行的「神器」。

所以,坦克500智享版就像一个「全能学霸」,它告诉我们:未来的顶级越野车,不光要能带你翻山越岭,还能让你舒舒服服地享受整个过程。

不止肌肉!当钢铁硬汉拥有「超级大脑」

如果说舒适性是让坦克500智享版有了「温柔的内心」,那智能化,则是给这个钢铁巨兽装上了一个「超级大脑」。

在2025年的今天,评价一台车是否足够「新」,智能化是绕不开的硬指标。它就像评价一部手机,我们不仅看它的摄像头和屏幕,更关心它的芯片和操作系统。坦克500智享版,就在这条「智慧之路」上,完成了一次进化。

越野车这种钢铁直男,也可以玩转智能这种花活 | 图片来源:长城汽车 这台车的「大脑」核心,是长城最新的Coffee OS 3智能操作系统。你可以把它理解成汽车界的「iOS」或「鸿蒙OS」,它让车里的一切操作都变得像玩手机一样流畅、智能。

同时,后排正上方,有一块17.3英寸的吸顶大屏幕。控制它的方式非常多:你可以直接触摸屏幕,可以动动嘴用语音控制,甚至还能用手势隔空操作。当然,用手机、后排扶手上的小屏幕或者遥控器也都没问题。

远红外夜视系统,让坦克500有了自己的「夜视仪」| 图片来源:长城汽车

 此外,它还有一个「黑科技」——远红外夜视系统。在伸手不见五指的夜晚开车,它能帮你「看穿」黑暗,提前发现路上的行人或动物。这不就是电影里才有的夜视仪功能吗?

如果说智能座舱是提升体验,那么智能驾驶辅助,则是衡量汽车科技含金量的核心。坦克500智享版搭载的是长城第三代辅助驾驶系统——Coffee Pilot Ultra。

为了实现强大的功能,它给自己配备了一身顶级的「超级装备」:全新坦克500搭载了激光雷达,拥有27个辅助驾驶传感器。同时长城汽车方面表示,其九州超算中心,2025年算力规模将扩大到5EFLOPS。

有了这套「装备」,它能做到什么呢?这也让坦克500拥有了不输于新势力的辅助驾驶能力。

首先,是「车位到车位」。你可以在地图上设定好从A点地库到B点地库的路线,之后在高速和城市快速路上,车辆就能在很大程度上实现自动驾驶。甚至连通过收费站闸机、在复杂路口掉头、等待红绿灯后自动起步这些高难度操作,它都能从容应对。

其次,是解决「停车恐惧症」。它搭载了全融合泊车方案,能识别超过200种车位,不管是断头路、斜着画的线,还是特别窄的车位,它都能轻松停进去。就连地上画线不清楚的地方,它也能准确识别。

坦克500智享版不仅是一个能带你翻山越岭的硬汉,更是一个搭载了「超级大脑」的智能伙伴。它证明了未来的汽车,一定是「肌肉」与「智慧」的结合体。

不跟普拉多玩了?

过去,当我们提到坦克500,它的对手名单上写着的是福特探险者、丰田普拉多这些名字。大家都是「硬派越野」这个圈子里的选手,比的是谁的拳头更硬,谁的底盘更扎实。这就像是学校里的举重比赛,大家比的是纯粹的力量。

但现在,情况彻底变了。全新坦克500智享版把目光投向了一个全新的战场。它的对手,不仅有老朋友普拉多,更直接瞄准了同价位的「当红炸子鸡」——理想L7/L8、问界M7这些城市豪华SUV。 理想、问界这些车,主打的是豪华、舒适和智能,这是它们的「长板」。但坦克500智享版说:「你们有的豪华、智能、舒适,我全都有。但我还有你们没有的——顶级的越野能力。」 它给所有消费者出了一道全新的选择题:同样花30多万,你是想买一台只能在城里享受的豪华SUV,还是一台既能在城里给你同等豪华智能,又能随时带你奔赴山海的全能座驾?

硬派越野开始变得舒服、智能,城市SUV则越来越野 | 图片来源:长城汽车

同时,坦克500智享版的出现,标志着一个新时代的到来——「越野+」时代。这里的「+」,可以是「+豪华」、「+舒适」、「+智能」、「+家用」。

未来的越野车,将不再是那个「偏科生」。它的地盘,依旧能带你跋山涉水,去往诗和远方;而它的车厢,则是一个移动的家、办公室和娱乐室。

对于整个汽车行业来说,坦克500智享版就像一条「鲶鱼」,搅动了高端越野市场。它逼迫着所有玩家,无论是国产品牌还是国际巨头,都必须重新思考:在新的消费需求下,未来的越野车应该是什么样子?

可以预见,硬派越野车会越来越舒服,城市SUV会变得越来越「野」,它们之间的界限将越来越模糊。

万字长谈王小川:不再迎合他人做学霸,我要解自己的命题

从小就是「学霸」的王小川,其实不太喜欢自己的「学霸」标签。

他在离开搜狗后的一次交流里,和极客公园创始人&总裁张鹏讲过自己的看法:「学霸」的另一面,意味着在别人设定好的命题里取得「高分」,但他接下来其实想找到自己的命题,不想再做别人命题里的学霸了。

但ChatGPT 的爆发,带着大模型浪潮扑面而来,王小川自己和所有熟悉他的人,都觉得他是最适合AI时代的中国创业者之一。故事似乎和之前一样,王小川成立百川智能符合所有人的期待,然后就是响亮的AI 六小虎的称号,以及大家在模型评分榜上的位置,产品MAU的数据、商业化ARR数字,等等。看起来王小川还是绕不开大家对于「学霸」的期待,有一堆必答题要去回答。

王小川自嘲,一度自己觉得百川成了三个公司:一个做模型,一个做toB商业化,一个做AI医疗。而王小川内心真正想做的,并非市场所期待的通用模型问题,而是「为人类造医生,为生命建模型。」

王小川一度觉得这个命题,在迎合更多业界必答题的过程中,从原点变成了「远方」,这让他觉得很有问题。这种撕扯,最终以今年4月开始的大调整而和解。王小川做出了选择:团队从450人精简至不足200人,回归扁平,回归专注。人数少了,团队的「压强」反而上去了,这让他对于未来,也更有底气和信心。

外界猜测这是「遭遇困境」后的被动收缩,唱衰百川的各种报道满天飞,这可能是王小川创业这么多年来被负面新闻包裹得最紧的一次。但是王小川本人选择沉默、完全没有回应。按照他的原话是「我需要的是跟自己的内心做斗争,而不是跟环境做斗争」。

直到8月12日,当王小川带着百川全新的医疗大模型Baichuan-M2亮相后,外界才终于看懂了他沉默的这几个月在做什么。这款大模型的性能超过了OpenAI新近发布的两个开源模型;而在闭源领域,它的能力也仅次于GPT-5。但这还不够。对王小川而言,他的目标,是在医疗这个垂直领域,实现对通用模型的超越。

这个时候,百川感觉上才真正变回了「一家公司」,而王小川也终于结束「一言不发」,愿意坐下来和张鹏再次进行一场长谈。

这更像是一次坦诚的复盘,一次对过去两年喧嚣的总结。也是一次对上半年不少朋友「小心翼翼」的关心和担心的回应。王小川觉得他现在的状态很好,因为他不再需要回答别人强加的必答题,而是可以真正定义自己的问题,并给出他更锐利的答案。

以下为王小川与张鹏对话内容实录,有编辑删减

01 「智能的高度」与「应用的深度」

张鹏: 最近GPT-5终于发布了,我们曾想象它会再次引领产业的大飞跃,但世界给予的反馈,似乎并不符合这个版本应该有的震撼。现在大家探讨AI coding的热情、以及感叹Anthropic估值已经接近2000亿美金的热情似乎更高涨,你怎么看这些现象?

王小川: 这可能是美国激烈竞争格局下的必然结果。毕竟那边牌桌上还有Grok、Anthropic等强劲的对手。值得注意的是,AI coding确实也呈现了一个可能比ChatGPT拥有更好商业模式和数据飞轮的通向AGI的通道。

很可能,今天OpenAI正处于一个相对劣势的阶段,在竞争压力下显得有些仓促地发布了产品。所以,给人感觉有点「拉下神坛」了。但我觉得这不代表OpenAI就此沉寂,更不意味美国AI创新后继无人。恰恰相反,这证明了其他竞争者的实力,他们正在激烈地争夺王座。

张鹏:我们该如何理解这种现象?OpenAI有做错什么吗? 

王小川: 从技术路线图来看,我从一开始就更欣赏Anthropic的策略,尤其是它将代码作为发展的中心,这条路是以API为中心,特别是深耕代码能力。语言模型强化到代码层面,就能够赋能千行百业。

而OpenAI选择是把重心放在一个C端的App上,

最初由Ilya Sutskever提出的「predict next token」(预测下一个词元)开启了大模型范式,沿着这条路走下去,代码本应是可见的、必然的方向。但或许是因为OpenAI的「包袱」过重,什么都想要,反而无法专注,也就难以找到最关键的轴心去突破。

当它需要服务7亿用户时,就无法将代码置于足够高的战略位置。我认为这是一种路线图上的风险。

我心中的AGI(通用人工智能),其核心是代码能够自动运行。对此我有两个逻辑:一个是从产业应用场景出发,例如造医生;但从更极致的技术追求来看,代码才是中心。

因此,无论从产品形态还是技术路线图来看,OpenAI都没有走在我期望的路径上。

张鹏: Anthropic的估值已经涨到了1700亿美元。我记得你每次都会强调,「语言才是智能的中轴」。所以「代码语言」这个轴线上的高速发展已经开始了呗

王小川: 代码,本质上就是一种更高级的语言。

最近Geoffrey Hinton也开始讲,人类智力的核心在于「类比」。这正是我一直信奉的,语言的本质就是类比与推理。我之前反复推荐侯世达的《表象与本质》,那本书用完整的篇幅阐述了这件事。

因此,数学是语言,代码也是语言,而且是一种「可运行」的语言。它就像图灵机一样,能够解决万千问题。所以,真正的道路是清晰的:首先,通过人类语言理解常识、学会沟通;然后,掌握数学语言与代码语言,从而征服理科与工科。 这条路,我过去在很多场合都讲过,从未改变。

今天代码的快速崛起已经开始验证其价值,更重要的是它的数据飞轮也已经高速启动了。

其实代码的终极用法,不是辅助程序员,而是它自己就能运行。今天所有类似的Cursor工具,本质上还是在辅助程序员。而一旦代码能够实现自我运行,AGI也就到来了。我还记得多年前在知乎写过一个帖子,标题是:「程序员是自己的掘墓人」。现在,这句话正在被验证。

张鹏:以前大家对智能的高度特别充满热情,每次新模型的屠榜跑分都会被认真讨论很久,但感觉今天Coding带来了一个应用的深度智能的高度可以一起前进的事情。未来应用的深度是不是会变得更被重视?

王小川: 没错。单纯的评测已经不够,已经到了可应用的阶段。

其实除了代码的价值已经肉眼可见,今天大家对医疗的期待,也是与日俱增的。国内大家讨论得偏少,但其实医疗正迅速从「非共识」走向「共识」。尽管Anthropic在代码领域跑得更快,但OpenAI在今年5月发布了Health-Bench,把医疗健康纳入核心评测维度。在OpenAI的产品发布会上,「健康」与「医疗」被反复强调。甚至在发布开源模型时,技术报告开篇第一章,就是阐述它在医疗领域的进展。

最值得玩味的,是在GPT-5的发布会上,唯一被请上台为它背书的,是一位癌症患者。

OpenAI身负着服务7亿用户的巨大「包袱」,这迫使它必须超越纯粹的技术叙事,走向一条「以人为中心」的路线。在这条路上,医疗是其无法回避,且必须占领的战略高地。

张鹏: 硅谷确实还在越来越热闹,但过去一段时间大家都觉得国内大模型领域许多备受瞩目的创业公司,也包括百川智能似乎都变得「安静」了。这背后有什么共性原因吗?

王小川: 身在局内,我反而觉得这是一个极其自然的过程。

2023年是历史性的一年,资本的恐慌性涌入和对未来的无限畅想,是技术变革的必然序曲。这有点像Gartner技术成熟度曲线的规律,当期望膨胀到顶峰,现实与应用之间的距离必然会导致一个调整期。当人们发现技术突破未能立即转化为应用爆发,热情冷却,行业便会安静下来重新思考。

回答这个问题,必须从技术与环境两个层面来看。技术层面,如果大家研究下OpenAI最新的开源模型,会发现它在基础设施与工程化上的深厚实力,这不仅关乎算法。我们一度以为已经拉近的距离,现在又被重新拉开。我们期待国内同行在底层架构上持续追赶,而百川也会在医疗这样的垂直领域,做出自己的贡献。

然而,比技术差距更严峻的,是来自大环境的挑战。美国头部公司动辄百亿美金的融资,以及像Anthropic年化经常性收入(ARR)已接近百亿美金的规模,这在国内目前都难以想象。说实话,在这样的牌局里,任何一家能够「咬住」不掉队,本身已是一件了不起的事情。

本质上,我们和美国存在一个「时间差」。当他们已经进入以ARR为核心的「摘果子」收获期时,我们绝大多数人还身处围绕基准测试(Benchmark)和参数的「模型内卷」阶段。这种阶段上的错位,会直接导致「底气」的缺失。

张鹏: 这种「看ARR」与「看参数」的差异,根源在于技术,还是商业环境?

王小川:我认为是双重叠加:既有技术追赶的压力,也源于商业土壤的不同。

张鹏: 那之前大家在模型上投入的热情和资源,你觉得值得吗?如果这是一场如此艰难的追赶?

王小川: 我认为,这取决于一家公司的终极抱负。

如果你的目标是打造一个轻巧、敏捷的公司,那么完全可以不自研模型。比如一个十几人甚至几个人的小公司,通过调用最优的第三方模型,完全有可能快速实现正向现金流,并获得资本的青睐。

但如果你立志要成长为一个长期的、具有系统性影响力的大公司,那么在模型层面的自主积累,就是一件不可或缺的事情。

02 重新变回一家「有自己命题的公司」

张鹏:最近投资圈都在感谢大模型公司释放了很多优秀人才,让他们看到了不少值得投,值得抢的新项目。百川的业务和人员调整好像也挺大的,这背后你是怎么想的?

王小川: 你肯定还记得2023年百川当时的策略就是「快」。快速入场、快速融资、快速抢占技术身位。这让我们在高峰期一度达到450人。速度为我们赢得了有利位置,但也带来了「思想无法统一」的后遗症。

许多人带着对大模型的热情,甚至是源于FOMO的恐惧,加入了百川,我们却未能真正「捏成一股绳」。公司内部甚至自嘲,已经分裂成了做模型、做医疗、做商业化「三个公司」。

后来,我在全员信中也坦诚沟通了这件事:我们必须回归创业的初心——「为人类造医生,为生命建模型」。

所以最近在组织上确实做了很多调整,直接说结果就是从450多人变成了不到200人,然后我们把管理层级从平均3.6级压缩至2.4级,从今年4月到6月,花了两个多月,我们完成了这次调整。你会发现,人数少了,整个团队的「压强」反而上去了,这让我对未来更有底气。我感到非常高兴的是,最终留下的,是一支既有AI信仰,又对医疗抱有热忱的团队。

张鹏:当初的快速扩张,在多大程度上是被客观的产业节奏裹挟?又在多大程度上,是因为自己主观上没控制好节奏?

王小川: 我认为是「三七开」——三分客观,七分主观。

客观上,在当时那个狂热的时间点,想要完全抵抗住浪潮的推力,确实很难。但更深层的原因,在于我自己。我确实为了迎合媒体、迎合团队、迎合外界的期待,做了很多「多余的动作」。

比如,我对金融这类能快速变现的方向,内心并无真正的热情。但当时有团队想做,有股东感兴趣,我就「从」了。现在回看,这本质上是自己当时的「心力」还不够强大。而摊子铺得越大,心力被稀释得就越厉害。

张鹏:现在想想的话,当时有办法更好的避免这种问题吗?

王小川:我还真反思过,而且可能解法还真没那么复杂。比如当时如果我能坚持面试每一位新同事,情况会好很多。因为这个过程中就一定会让自己「慢下来」、想清楚。创业者一旦只判断和选择目标,而不充分参与过程之痛苦,很多判断就会出问题。

我看其实大家的节奏调整都差不多,我相信行业会回归理性,大家也终将更专注于自己真正想做的事。

对我而言,这次调整最大的收获,是未来变得前所未有的清晰。因为我终于明白,真正的斗争,从来不是与环境的斗争,而是与自己内心的斗争。

 张鹏 :前段时间因为这些调整负面报道满天飞的时候,是不是有好多朋友给你打电话慰问? 

王小川 :慰问是有的。但大家似乎都有些小心翼翼,大都不敢打电话,反正就是各种谨慎小心的关心我,说的问的都挺含蓄。 

张鹏: 你觉得大家为什么要来小心翼翼的「慰问」?或者说他们为你担忧的是什么? 

王小川:估计是觉得我压力大。之前,无论对我,还是对百川,外界都抱有某种期待。当百川的发展轨迹,没有完全符合大家想象中那种高歌猛进的剧本时,可能一种低于预期的感受便产生了。我内心很清楚,媒体曾经给予了多少赞誉,当现实与预期出现偏差时,外界就会感受到同等程度的「失望」。

张鹏: 所有的媒体赞扬,本质上都是一种「预支的借款」

王小川:特别对。要么是消耗过往积攒的信誉,要么是透支未来的承诺,但终究是要「偿还」的。所以,外界的情绪,本质上是与你的发展速度和最终成绩紧密挂钩的。 张鹏:在那段时间里,你本人真实的状态是怎样的?

王小川: 说实话,我确实没有焦虑。我非常感谢大家的关心。很多人曾将自己对技术的理想,部分投射在了我们身上。所以当百川的路径看似「偏离」时,那种失落感是真实存在的。

而我之所以不焦虑,是因为我看到了大家没看到的东西。

大家期待的百川,和我内心真正想构建的百川,其实存在一个错位。早在2021年,甚至在创立百川的公开信里,我就明确提出,我未来二十年的热情在于生命科学和大众健康。ChatGPT的出现,只是让实现这一目标的路径变得更加清晰和可行。

但在2023年那个时间点,整个市场都沉浸在一种狂热里。无论是投资人、媒体,还是团队成员,他们都带着美国最前沿的模式作为对标,希望你做的跟美国一样,因为那是被验证过的、成功率最高的路径。

在那种氛围下,你去谈医疗,是很难被听进去的。所以,我们当时在某种程度上「迎合」了市场的期待,沿着大家都能看懂的「共识」路径在走。

但当我们的探索开始深入,逐渐回归到医疗的时候,之前那些因大模型、AGI加入的人,都会产生一种跟期待不一致的地方。

而百川在过去一年里完成的最重要的一件事,就是经历调整,真正回归到了我们自己对于未来的「意义感」和核心驱动力上。

张鹏:你真实第一人称视角的投身大模型领域的起心动念是什么?我很好奇在过去的几年间,为什么没有去调整大家对你们的认知错位

王小川: 当我决定下场时,是因为我真切地感受到了「模型」的力量。2023年初,我第一次深度使用ChatGPT时,内心有两种强烈的冲击。

第一种,震撼。因为我之前专注于医疗领域,对最前沿的技术进展没有那么紧密地追踪。一上手,我心里就咯噔一下,意识到:天变了。我过往做输入法、做搜索,每天都在和语言AI打交道,所以我能清晰地判断,眼前的这个东西,和过去完全不是一个物种。

第二种,随之而来的是一种失落感。我曾经也算是AI圈的中心人物,但那一刻,我发现自己想做的医疗事业,似乎与AI的主旋律,变成了两条平行线。

后来,我很快就想明白一个事:今天的大模型,能不能被用来「造医生」?

这个想法,让我内心的两条逻辑线索瞬间串联了起来:

第一条逻辑:语言是智力的中轴。掌握了语言,就掌握了构建智能、乃至「造人」的关键。 第二条逻辑:医生是医疗的中轴。构建了「AI医生」,就能掌握用户、药厂和科研的枢纽。

所以,技术上,我们在「造人」;应用上,我们则是在「造医生」。因此,我们从基础模型做起,因为你不可能依赖一个不开源的外部模型,去构建你的核心壁垒。

我的计划始终是,超级模型里要走到AGI,超级应用则要去「造医生」。但问题是,当时你向外界讲述这个「超级应用」时,大家听不进去,他们只能听懂,或者说更愿意听「超级模型」的故事。

到了2024年,我们意识到,以百川的资源和国内的整体环境,你不可能同时在两条战线上无限拉长。从基础模型到最终构建一个成熟的「AI医生」,这条路过于漫长,你不可能把所有事情都自己做完。

这就好比2016年AlphaGo出现时,我看得非常清楚,但这不代表我当时就有能力亲自下场把它做出来。基于对能力和资源的判断,我们决定,必须「聚焦」在医疗上。

张鹏: 但这时候这种错位就开始剧烈的释放应力了?

王小川: 对。在我看来,这是战略上的「聚焦」;但在行业眼中,这变成了「放弃模型」、「管不住团队了」……各种各样的解释都冒了出来,因为这不符合他们最初为你设定的那个「预期」。

张鹏: 所以你是如何消化这件事的?好奇为什么当时没有出来说说话而一直保持沉默?是不想说?还是没的说?

王小川: 肯定不是没的说,我有很多要说的,但说的对象可能不是行业和公众吧。因为你首先要从内心接受一个前提:大家在不同视角下看到不同的东西,是正常的。

一旦你接受了这一点,就不会再有情绪上的内耗。我不是去说服每一个人,而是清晰地表达,然后找到那些真正听懂了,或者愿意花时间去听懂的人,与他们并肩工作,这就足够了。

我既不会因为外界的不理解而愤怒,也不会因此而动摇。我的价值,恰恰在于我可能比大家多看到了一些未来的可能性。同时,我的责任,是要去沟通和花时间「对齐」那些同样怀有医疗梦想、并选择留下来的人,为他们创造一个最好的工作环境。当你内心真正笃定你想要什么时,这本身就是对自我的尊重,也是对团队的尊重。

张鹏:所以这两年,你最大的收获是什么?

王小川: 我的第一个,也是最感幸运的一点是:我之前想做医疗的梦想,与大模型的技术突破,真正相遇了。

这就像我过去做互联网的20年,本质上是拥抱了一个巨大的时代浪潮。没有时代,个体的努力会缓慢而曲折得多。而AI的到来,让「造医生」这件事,突然有了清晰可行的路径。

我们已然上桌,技术让梦想有了「解」,身在牌局之中。我觉得是很幸运的一件事情。

第二个巨大的收获,是我个人心境的成长吧。

早年做搜狗的时候,追求极致,无法容忍任何与我认知不符的东西,常常会因此陷入「为什么会这样」的执念,对内、对外都产生了很多不必要的攻击和消耗。

而现在,我可以说,我达到了十年来心境最好的状态——一种发自内心的平和。

当然,遇到做得不好的地方,我依然会直接指出,但不再是老板对员工的指令,而是一种共创的状态。我希望大家能真正地从内心走到一起,共同去成就一件事,这本身就是一次巨大的提升。

过去,面对这种局面,我的反应是愤怒——「为什么事情会走向失控?」,进而产生对抗情绪;或者,是逃避——假装看不见,期待它能自己变好。

而现在,我的选择是:面对问题,解决问题。

张鹏:我记得你之前提到,你不喜欢学霸的标签,是因为学霸本质上是要把别人的题都回答得很好,其实你想解自己的题。所以百川这次算是终于大声喊出自己的议题了呗?

王小川: 没错。创业过程中,一旦有了投资人,一旦置身于某种行业共识之中,你很容易就又回到了一个「公共题库」里。对我而言,那意味着重蹈覆辙,回到过去那种状态,而那并非我真正热爱的事情。

比如,「对标OpenAI」,这就是一个摆在所有人面前的「公开考题」。我们也很习惯性地去「应试」,去解答这道题。

直到今年4月,当我明确提出「为人类造医生,为生命建模型」的时候——这才是我们为自己出的题目。

 张鹏:2023年,国内大模型赛道的玩家,拿到了大额融资。但今天,融资环境会如何影响这些公司?

王小川: 2023年,资本确实给了一波相当可观的支持。这其中不仅有美元基金,也有来自阿里、腾讯这类产业资本(CVC)的加持。到了2025年,我认为资本环境的不确定性会显著增加,获取支持的难度会大得多。

相比之下,美国的资本支持力度依然非常大,这就形成了一种「比较优势」。在这种优势下,差距可能会被进一步放大。因此,必须要思考:当中国的资本支持不再充裕时,该如何走下去?

 张鹏:「造医生」是一件复杂且需要长期投入的事。你账上的资金能为百川智能提供多长的「安全区」?

王小川:我们现在的安全期,长到即便公司完全没有收入,也可以支撑120个月。所以现在要思考的不是安全问题,而是如何有效的把人和钱变成进步和结果的效率问题。

 所以你就理解我们近期的调整,确实不是基于压力而做出的被动选择。这是一次发自内心的主动决策,我觉得主动选择砍掉那些我们不想再做的事情,就是一次比再融一大笔钱更有成果的进展。

03 为什么「造医生」比追求智能高度,要复杂得多?

张鹏: 百川近期发布的Baichuan-M2模型,表现如何?

王小川:可以说,Baichuan-M2是目前全球最顶尖的医疗开源模型,性能甚至超越了OpenAI新近发布的两个开源模型。在闭源领域,它的能力也仅次于GPT-5。

OpenAI近来在医疗领域的投入有目共睹。他们新发布的120B和20B两款开源模型,已经显示了深厚的基础设施与工程实力。

在其GPT-5报告中,医疗也是重要部分。OpenAI强调自己的模型是全球唯一在Health-Bench(Hard模式)评测集上得分超过32分的,而Baichuan-M2的分数是34分。同时,在Heath-Bench(标准版)评测中,目前全球也仅有我们的模型与GPT-5突破了60分大关。可以说,在医疗AI这一垂直领域,我们已达到世界级水平。

我们原计划在8月下旬,与技术报告一同发布。但OpenAI此次不仅是近三年来首次重返开源,而且将焦点对准了医疗。我们内部研判,这是一个关键节点,是时候拿出我们的成果,与世界顶尖水平进行一次正面的较量。

在中美科技竞争的宏观背景下,我们必须承认差距客观存在。因此在医疗这一关键领域,我们选择开源Baichuan-M2,不仅是为了让外界对百川的实力有更透明、更深入的认知,更是希望为中国整体的AI创新生态提供一份力量。

此前的M1模型,我们虽已在医疗领域有所布局,但尚未完全聚焦。因此,M2的发布意义非凡——它标志着百川的战略重心,从「全线出击」转向「聚焦医疗」后的第一次亮相。

张鹏:在这个时间点发布M2模型,本质上是让大家重新认识百川。你会如何定义百川真正要做的事,以及你们在技术路线上的成长目标?

王小川: 我们要在模型层面,做到医疗突出,同时通用能力保持在第一梯队。

这其实是我们一直以来的一个念想,但在过去,坦白说,「医疗突出」这一点我们是没能完全做到的。而今天,我们开始真正地做到了。

这相当于我们「换了个身位」。过去,我们和大家在同一个战壕里,在各种通用大模型的榜单(比如MAU)里打滚,试图在混战中找到自己的定位。而现在,M2的发布,是我们找到自己新定位之后的第一次正式亮相。

接下来,在今年内,我们会陆续发布面向医生和普通用户的产品。

所以,我们规划了清晰的三条产品线:基础模型、医生端产品、大众端产品。今天的M2,只是我们宏大计划中的一个起点。

张鹏: 今天我们看到,像GPT-5这样的通用模型,延伸到医疗时表现得很强大。而百川选择聚焦于医疗,做出了一个开源的、在性能上「接近」它的专业模型。这个时候,专用模型的独特价值是什么呢?

王小川: 我们的目标,并不仅仅是「接近」,而是要在医疗这个垂直领域,最终超越通用模型的能力。

毕竟医疗不像数学或物理,仅仅依赖逻辑和公式。医疗知识体系中,既包含严谨的逻辑推理,也融合了大量独有的医学认知,甚至深受政策、法规和临床指南的影响。

当然,现阶段去和大家反复争论我们「如何」做到这一点,大家也听不进去的。只有当我们做到,并且是持续地做到,大家才会回过头来,重新审视并认同我们当初的想法。

这让我想起了当年深度学习领域两条著名的技术路线之争:Bert和GPT。当时,Google凭借其巨大的品牌影响力和行业地位,力推Bert路线,整个学术界和产业界几乎都闻风而动。大家为什么相信Bert?答案很简单——「因为它是Google」。直到OpenAI的GPT-3足够好后,大家才猛然回头,重新认识并相信GPT路线的巨大潜力。

张鹏:能否帮我们理解一下,以「造医生」为目标,为什么比单纯追求「智能高度」,要复杂得多?

王小川: 今天的模型,普遍缺乏「提问」的能力。 它们的核心是「解题思路」——你提出问题,它给出答案。这或许并非模型发展的核心方向。

其次,像「减少幻觉」是所有大模型共同的课题,但在医疗领域更严肃,因为它直接关乎生命健康。我们追求的是「循证医学」,模型必须能精准、可靠地调用外部知识库来支持它的每一个判断。

而这些需求,既不完全在当前通用大模型厂商主攻的技术路线图上,也无法用现有的技术范式完美解决。这就是我们的机会所在。

更进一步,当模型要真正落地为产品时,你还必须解决一系列应用层的问题:如何符合当地的政策法规?如何融入人文关怀?如何通过Agent架构将其能力进一步提升?

这是一个全链路的工程。我们不仅要在底层模型上做得比通用模型更好用,还要在上面叠加厚重的应用层开发,才能最终交付一个真正「可用」的产品。而这些,恰恰是通用模型公司缺少的。

 张鹏:在你看来,要「造医生」,还有哪几个最关键、最核心的问题,是目前行业没有解决,百川正在做的?

王小川: 首先,就是我们刚才提到的「提问」与「幻觉」,我们正在做,这是一部分。另外,

一个「好医生」,远不止于此。它要有记忆力,能记住你的病史。同时,医生不仅要与患者沟通,更要懂得如何与患者家属沟通,理解并处理这些复杂的人际关系。这些是通用模型在设计时根本不会去深入思考的问题。

所以,我们的路径是:在底层,死磕「提问」与「循证」;在应用层,则要赋予模型更好的记忆和对关系的理解。

张鹏: 你其实是在智能的高度之上,叠加了多个严苛的约束和目标?

王小川: 对。甚至我们还可以继续向下延伸,比如在慢病管理和长期健康追踪等场景中,都存在着大量的技术问题和用户需求洞察需要去解决。

04 AI家庭医生,将比无人驾驶更早到来

张鹏:从你的视角看,从技术基本就绪,到我们每个人都能拥有一个AI驱动的私人家庭医生,这条时间线你会如何预期? 王小川: 我认为,它会比无人驾驶更早到来。

张鹏: 这个判断很有意思。为什么?

王小川: 我们明年(2026年)会推出大的版本迭代,它的技术成熟已经肉眼可见。

将造医生与无人驾驶对比,有很多相似性。因为大众普遍认为,他们都与生命安全直接相关的,都很棘手。

但相比无人驾驶,造医生更容易落地,第一个是因为无人驾驶并非绝对刚需,没有AI司机,你依然可以自己开车。但医疗不同,没有医生,你自己无法给自己看病。

第二个是,无人驾驶的「人机协同」问题。我们知道,测试无人驾驶汽车的安全员,需要时刻保持精力高度紧张,随时准备接管,其劳动强度远超普通司机。因为一旦系统失灵,留给人的反应时间可能只有短短两秒。

但AI医生和人类医生可以形成非常高效、安全的分工协作。 AI给出的诊断报告或治疗方案,可以由人类医生进行最终审核。更重要的是,在广阔的院外场景,AI医生完全可以独立工作,因为它不直接涉及开具处方。

这里,我们内部有一个洞察:能够改变用户行为,就是在创造价值。 价值不一定只体现在「诊断」和「开药」。

比如,当好几位医生给了你不同的建议时,你该听谁的?当你家人生病时,你是否应该立刻送往医院?这些大量的、关键的决策,本身就蕴含着巨大的医疗价值。在这些场景中,AI医生可以独立发挥作用,甚至无需人类医生配合。

张鹏:我们此前曾用自动驾驶的L1到L5等级,来类比「造医生」的过程。今天,你对这个分层有新的迭代与思考吗?

王小川:今天我确实有了一些新的思考。过去我们套用自动驾驶的逻辑:L1仍需人工主导;L2能在单任务上独立工作;L3转为机器主导、人类辅助,并处理多任务(如同时开具处方和撰写病历);L4则基本实现全程自动化,人类仅作为监督。

这个分层逻辑,本质上仍是从单一维度,即机器自身的能力来划分的。

但我今天认为,医疗的演进需要引入额外的维度,比如场景,院内还是院外?「院外」场景,就像是「低速无人驾驶」。这个市场空间广阔,需求虽不像院内那样要求「一锤定音」式的高精尖,但其辅助价值巨大。

第二个新维度,是「关系」。医疗决策不仅是面向患者,更需要与家属沟通,这其中蕴含着深厚的人文关怀。我们常说一个词叫「嘴替」。比如,子女直接劝说父母关注健康问题,他们可能不听;但换成医生的身份,他们听从的意愿会显著提高。

张鹏:最近,大厂们纷纷开始布局AI医疗。你觉得百川智能又进入他们的射程之内了吗?

王小川: 我们做的是完全不一样的事。第一个,我们的目标是「造医生」,而不是一个简单的「健康顾问」。

其次,把产品形态做成一个小程序或一个APP,不是医生应该有的形态。医生,就应该有医生的形态。当你把它做成一个APP时,用户潜意识里就已经不把它当「人」看了。 这里边一个是关系,一个是使用习惯得一致。今天,行业里绝大多数公司在做AI医生时,其核心诉求依然是「降本增效」。他们把AI当成一个提升效率的工具,嵌入在原有的APP逻辑里,追求的还是日活跃用户(DAU)之类的指标。他们没有把AI当成一个「人」来看待。

张鹏: 你提到,明年我们或许就能亲身体验到「百川造医生」的进展。能否提前描绘一下,我们应该抱一个怎样的「正确预期」?

王小川: 我相信大家都能想象拥有一个私人医疗顾问的场景,这似乎是行业的共识。但届时你会发现,百川的思路与市面上其他做AI医生的公司,截然不同。

但我最近还是进步了一点,觉得预期管理这件事最简单的方法就是做到再说,所以我现在就先不讲太多了。

张鹏: 我猜想,你的最终目标是让服务直达用户和家庭,而非仅仅嵌入医院的某个流程体系?

王小川: 是的。我们的第一步是先进入医院体系,获得专业的认同与背书。到明年,我们就会将服务直接推向消费者(C端)。

 

苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互

从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。

从各路消息来看,Siri 的重生不是一次性的「大爆炸」,而是一个精心设计、持续好几年的分步计划。这既是因为技术太复杂,也是一种聪明的风险控制。

  • 第一步 (2025 年底/2026 年初 - iOS 18 的某个更新):
    初步的「Apple 智能」会上线。你会体验到更聪明的自然语言理解、初步的屏幕感知,还有和 ChatGPT 的集成。这可以看作是为后面的大招做个预热。
  • 第二步 (2026 年春季 - 可能是 iOS 19.4):
    这才是真正的大餐。代号「LLM Siri」的全新架构会正式推出,基于 App Intents 的深度应用控制功能也会全面开放。这标志着「Siri 2.0」的正式诞生,也是苹果兑现承诺的关键一步。
  • 第三步 (2027 年或更晚 - 可能是 iOS 20):
    这是拼图的最后一块。苹果的目标是到那时候,推出一个完全由自家模型驱动、真正主动、会深度对话的 Siri,能力上要能赶上甚至超过当时的 ChatGPT,再也不用依赖别人。

说起来,Siri 的故事本身就挺矛盾的。2011 年,它跟着 iPhone 4S 一起亮相,那叫一个惊艳,直接开启了手机语音助手的时代。那时候,我们第一次感觉到,原来跟机器聊天这么有未来感。

伴随过去十余年间 Siri 长期体验的不尽人意,再到 Apple 智能体验的翻车,Siri 甚至成了科技圈里一个怎么说都说不腻的段子。这个反差,就是整个故事最有意思的地方:那个曾经的王者,在今天这个 AI 满天飞的时代,还能不能找回场子,来一出王者归来?

 

Apple Intelligence 中文版|图片来源:极客公园

看样子,答案是能,而且苹果这次是下了血本了。Siri 即将迎来的这场「大手术」,可不是小修小补,而是要「革自己的命」。这背后是苹果在一个越来越卷的科技和政治环境里,下的一场豪赌,赌的就是 AI 时代的未来。他们的目标很明确:把 Siri 从一个只能听懂简单命令的工具,变成一个能贯穿苹果所有产品、真正有脑子、会聊天的核心。

苹果 CEO 蒂姆·库克前不久在一次内部大会上,话说得特别重:「这事儿苹果必须要做,也一定能做成,这简直就是为我们量身定做的机会。」这话里话外,都能听出苹果对过去十年策略失误的反思,以及对重回巅峰的渴望。

苹果给 Siri 画的这张大饼,说白了就是要让它彻底摘掉「人工智障」这顶帽子,来一次凤凰涅槃。核心玩法不是加几个新功能那么简单,而是要从根上改变技术,让 Siri 能听懂、甚至能动手操作你手机里所有的 App。

这次变革的关键技术,核心是一个叫「App Intents」的框架。有了它,Siri 的角色就全变了——从一个只会帮你「开门」(打开 App)的门童,升级成一个能进到屋里帮你「干活」(操作具体功能)的智能管家。

 

App Intents 本身并不是一个新概念,但有了 AI 需求让它重焕生机|图片来源:Apple

以前,你想搞点复杂操作,得自己去「快捷指令」里捣鼓半天,设置一套复杂的流程,那门槛高得能把绝大多数人挡在外面,纯粹是少数技术宅的玩具。

而苹果规划中的新 Siri,就是要拆掉这堵墙,把这种多步骤的复杂操作,用一种最自然、最简单的方式带给所有人,啥都不用你提前设置。

 

App Intents 旨在一站式打通底层接口|图片来源:Apple

理论说得再厉害,还得看实际用起来怎么样。从各路消息来看,新 Siri 的实际使用体验对标的其实已经是 AI Agent 的能力,靠着底层接口的打通,换来前台更流畅的跨应用 AI Agent 在手机上的无缝衔接使用。

你可以想象一下这个画面:你直接对手机说,「把我去年夏天在海边拍的合影找出来,颜色调亮点,然后用微信发给我妈」。换作以前的 Siri,这没四五个步骤根本搞不定。但在新 Siri 的帮助下,一句话就完事了。再比如,直接用嘴在朋友圈下面评论,在淘宝里加购物车,或者叫一辆滴滴,全程手都不用碰一下屏幕。

 

类似的场景苹果已经演示多次,但实际落地仍然少不了模型能力的支持|图片来源:Apple

虽然在实现效果上,今天的我们都已经对这种 AI Agent 能力不陌生,但与此前在智能手机上智能选择 OCR 识别屏幕内容的实现方式不同,新 Siri 的实现方式是从底层打通这些应用之间的接口。

这背后的「魔法」,其实是苹果给开发者的一套新工具。简单说,开发者可以把他们 App 里的各种功能,比如「调高亮度」、「加个滤镜」,或者内容,比如「照片」、「相册」,都「告诉」系统。开发者这边一弄好,Siri 那边就能像听懂人话一样,直接调动这些 App 的内部功能了。这等于说,苹果给整个 iOS 系统装上了一套「通用语」,让它的 AI 第一次能真正「看懂」每个 App 都会干些什么。

此外,Siri 还会有「屏幕感知」能力,也就是说,它能看懂你屏幕上正显示着什么。比如朋友用短信发你一个新地址,你只要说一句「把这地址加到他的联系人名片里」,Siri 立刻就懂,马上帮你办好。再加上更强的理解能力和能记住上下文的对话记忆,你就可以追着问问题,不用每次都把前因后果说一遍,人机对话会变得前所未有的丝滑。

为了让你看得更明白,我们来比一比新旧 Siri 的差别有多大。我们熟悉的那个老 Siri,技术上就是一堆设定好的指令,主要干的活儿就是设闹钟、查天气,或者帮你打开个 App。你问一句,它答一句,说完就忘。想跨 App 操作?也就消息、支付等少数几类 App 能沾点光,开发者能做的也很有限。

再看即将登场的新 Siri,那完全是两回事了。它的核心是语言模型以及那个革命性的 App Intents 框架。这让它的主要工作,变成了深入控制 App 里的具体功能,还能执行一连串的复杂任务。在聊天方面,它支持连续对话,能看懂屏幕内容,还能结合你的个人情况来理解你的意思。

 

新 Siri 旨在做端侧更懂你的 ChatGPT|图片来源:Apple

最关键的是,通过 App Intents 框架,它能支持各种第三方 App 的深度功能,给了开发者一个超级灵活的平台,想加什么功能都行。所以你看,Siri 这次升级不是简单的加法,而是彻彻底底的质变。苹果正在打造的,是一个能统一指挥它庞大 App 帝国的智能大脑。它的革命性在于,为整个生态系统建了一个通用的「能力层」。这不光让 Siri 自己变强了,也为苹果未来所有的 AI 功能铺好了一条路,一条任何对手都很难抄作业的路。

从这个角度来讲,除了,也无怪乎 Mark Gurman 甚至直接在社交媒体上呼吁苹果为了更好的挽回用户口碑,应该先给这个「新 Siri」改个名字,彻底摆脱掉此前 Siri 在用户之间的「恶名」。

 

Mark Gurman 喊话苹果「改个名吧」|图片来源:X

01

平台潜力的「兑现」

 

在光鲜的发布会背后,苹果内部其实经历了一段充满挣扎、反复试错和巨大压力的「长征」。

苹果软件工程高级副总裁克雷格·费德里吉(Craig Federighi)在一次内部讲话里就很坦白地承认,团队一开始给 Siri 升级选的那条技术路,根本「达不到苹果要求的那种品质」。这个判断让他们做了一个很痛苦但又很果断的决定:放弃原来的方案,把 Siri「彻底推倒重来」。

这番话的潜台词是,苹果终于下决心要还清 Siri 过去十年欠下的巨额「技术债」了。Siri 最早的架构又老又僵硬,就是为简单的指令设计的,根本玩不转现在的大语言模型。推倒重来,意味着之前的投入都打了水漂,还得重新砸钱砸人,但要想建一个面向未来的 AI 基础,这笔学费又非交不可。

虽然苹果在 2024 年的开发者大会上就已经把这些新功能拿出来秀了一圈,但正式上线的时间却一拖再拖。按最新的说法,这些核心功能要等到 2026 年春天才能和大家见面,这意味着连 iPhone 17 都赶不上了。

 

iPhone 17 系列发布在即,新 Siri 显然是赶不上了|图片来源:MacRumors

等这么久,市场自然会有各种质疑的声音。有人拿它和苹果当年那个最后被砍掉的 AirPower 无线充电板相提并论,觉得「画饼谁不会,关键得拿得出来」。这种怀疑让苹果的信誉压力山大。所以,费德里吉才会说「最终交付的东西,会比我们最初想的要强大得多」。他这么说,一方面是解释为啥要等这么久,另一方面也是在给大家重新画一条更高的期待线,意思是「好饭不怕晚,我们必须要卧薪尝胆地等待」。

这种主动承认失败、公开讨论好几年的发布计划,在苹果身上其实不常见。但这恰恰是它在如今这个 AI 竞争白热化的时代,被逼出来的策略。在一个所有人都恨不得天天开发布会的时代,你长时间不吭声,大家就默认你掉队了。所以,主动出来引导舆论,把「跳票」包装成对「品质」的追求,就成了苹果唯一的选择

新 Siri 能不能成,最后还不完全是苹果自己说了算。它作为一个平台,到底能有多大本事,很大程度上要看第三方开发者们愿不愿意、能不能高质量地用好 App Intents 这个框架。一个功能再牛的 Siri,要是调动不了你手机里最常用的那些 App,那价值也得大打折扣。

所以,苹果正在和一大批战略伙伴搞高强度的内部测试,名单里几乎涵盖了互联网的半壁江山:如 Uber、YouTube、WhatsApp、Facebook 和亚马逊。他们测试的重点不光是功能能不能实现,更重要的是在各种极端情况下靠不靠谱。

据 Mark Gurman 报道,即使苹果内部的工程师都对新功能的可靠性保持怀疑态度,尤其是在牵扯到钱和健康这些高风险领域。万一一个指令搞错了,后果可能「又花钱又害人」。这也解释了为啥苹果打算「小心翼翼地」分阶段上线。刚开始的时候,像银行、医疗这类敏感 App 的功能可能会被限制,甚至不开放,直到苹果有百分百的把握保证它们绝对安全准确。

在今天的市场和技术环境下,Siri 的成功对苹果来说,已经不是「最好能成」,而是「必须得成」的一件大事

首先,这是苹果在全球 AI 军备竞赛里,必须要打赢的一场仗。新一代 Siri 就是苹果对 OpenAI 的 ChatGPT、谷歌的 Gemini 和 DeepSeek 这些对手的正面回应。苹果必须证明,在这场决定未来的比赛里,自己不但没掉队,还有能力制定下一阶段的规则。

 

本月发布的 Google Pixel 宣传预热视频直接嘲讽 Siri,表示「你可以在Pixel 上问更多问题」|图片来源:Google

从更深的层面看,这是在争夺未来互联网的入口。有消息说,苹果内部代号叫「答案、知识和信息」的秘密项目,其最终目的就是想搞自己的搜索引擎。

显然,一个真正智能、能深度理解你的 Siri,就是这个「苹果答案引擎」最完美的交互界面。

一旦这事儿干成了,谷歌每年付给苹果几十亿美元的默认搜索引擎费就可能打水漂,整个互联网的流量玩法都可能被彻底改变。

Siri 的复兴,更是苹果为「后 iPhone 时代」做的最重要的准备。一个强大的、以语音为核心的智能助手,是苹果传闻中很多未来新硬件(比如家庭智能显示屏、桌面机器人)能站住脚的绝对前提。这些新设备极度依赖一个能无缝、智能地控制海量应用和服务的 AI 大脑。没有一个脱胎换骨的 Siri,这些新产品就都是空想。

长远来看,这可能会彻底改变我们和电子设备的交互方式——从现在以触摸为主,慢慢变成一种更自然、更无感的语音优先体验。这会从根本上改变用户和苹果生态的互动方式,形成一种比现在更强大、更黏人的平台效应。

你可以把苹果的 AI 战略看成是一出「特洛伊木马」。当全世界都在看谁家的聊天机器人更会写诗画画时,苹果真正的目标是围绕 AI 驱动的「行动」来重新打造它的操作系统。它的核心竞争力,不在于 Siri 会不会说俏皮话,而在于它能不能比任何对手都更可靠、更深入地在海量 App 里帮你「办事」。和 ChatGPT 的合作,更像是一个聪明的战术掩护,暂时满足了大家对顶尖聊天功能的需求,也为苹果在幕后打磨自己的真正王牌——基于 App Intents 的生态控制权——争取了宝贵的时间。

苹果给 Siri 的重生画了张很美的蓝图,但通往未来的路肯定不好走。一个清晰的路线图和对风险的清醒认识,是判断这场变革最终是成是败的关键。

这个路线图很清楚地表明,苹果正在用一种很务实的方法来推进这场高风险的转型。它先拿出自己最有优势的东西(App 整合),同时聪明地利用合作伙伴(OpenAI)来补上自己暂时的短板(顶尖聊天能力),为自家模型的成熟争取了宝贵的两年时间。

 

ChatGPT 目前在 iPhone 上的状态:可用,但不好用|图片来源:极客公园

蒂姆·库克总说,苹果的目标从来不是「第一个」,而是「最好的」。Siri 的复兴,就是对这句话最严峻的考验。苹果的赌注是,通过一个深思熟虑的、以整合为核心的策略,实现后发制人。但这背后的执行风险非常大。

挑战是全方位的:技术上要做到绝对稳定流畅;生态上要让开发者们都愿意、并且高质量地参与进来;市场上则要赢得用户对于一个能深入你个人数据的 AI 的绝对信任。在这个过程中,任何一个环节出了大问题,比如一次大面积的服务瘫痪,或者一个闹得沸沸扬扬的隐私丑闻,都可能让苹果这么多年的努力白费。

02

新的护城河,还是遥不可及的梦?

 

最终,Siri 的未来正站在一个高风险、高回报的十字路口。

如果苹果成功了,那么由 App Intents 驱动的这个新 Siri,将成为苹果有史以来最坚固、最宽阔的护城河。

它会是一个深度整合、注重隐私、以行动为核心的智能层,贯穿你数字生活的每个角落。这种能力,任何对手在短期内都复制不了,它会重新定义苹果生态的核心价值,并让它的领导地位再延续十年。

但是,如果执行过程磕磕绊绊,开发者们不买账,或者最终的体验达不到用户对「苹果品质」的苛刻要求,那这将是一次载入史册的、无比公开的失败。它将彻底坐实那个流传已久的说法:在这场本世纪最重要的技术变革中,苹果已经失去了它的魔力。

未来两到三年,就是决定 Siri 乃至苹果命运的关键时期。全世界都会等着看,苹果是能搭起一座通往未来的坚实桥梁,还是最终发现,这只是一个遥不可及的梦。

AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道

指责苹果偏袒 ChatGPT 后,马斯克与 Altman 在网上互喷

8 月 13 日,伊隆・马斯克与 Sam Altman 又在网上起了冲突,前天,马斯克在自己的社交媒体平台 X 上向苹果发出了「立即采取法律行动」的威胁,指控苹果在 App Store 中存在垄断行为,偏袒 OpenAI 的 ChatGPT,而对 X 的 Grok 聊天机器人不公。

「苹果的行为使得除了 OpenAI 之外的任何人工智能公司都无法在 App Store 中登上榜首,这无疑是反垄断行为,xAI 将立即采取法律行动。」马斯克在 X 上写道,尽管他并未提供任何证据来支持自己的指控。

Sam Altman 迅速对马斯克的指责作出回应,他在周二晚上的 X 帖子中写道:「鉴于我听说伊隆为了操纵 X 来为自己和自己的公司谋利,损害竞争对手和他不喜欢的人,这种指控真是令人惊叹。」 Sam Altman 还引用了 2023 年技术新闻网站 Platformer 的一份报告,该报告描述了马斯克在收购 Twitter(现为 X)后,对平台进行了大规模的调整,并「创建了一个系统,让你首先看到他的所有推文」。

Sam Altman 表示,如果马斯克真的提起诉讼,他希望这能引发「反向调查」,他和其他许多人「都非常想知道到底发生了什么」。

这场争吵在周三早晨仍在继续。马斯克在 X 上指责 Sam Altman ,称「你这个骗子,你的胡说八道帖子的浏览量有 300 万次,比我的很多帖子浏览量都高,尽管我的粉丝数量是你的 50 倍。」Sam Altman 又回复道:「你能签署一份宣誓书,证明你从未要求 X 工程师修改算法进行任何损害竞争对手或帮助你自己公司的做法吗?如果能,我会道歉。」(来源:IT之家)

​微软挖角 Meta:强制匹配薪酬、高层快速拍板

8 月 13 日,微软公司正在争夺 Meta 的 AI 人才。根据内部人士提供的信息和《商业内幕》所查阅的内部文件,微软已整理了一份其最需要的 Meta 工程师和研究人员名单,并且正在启动一项新的流程,旨在让其招聘条件更具竞争力,其中包括强制要求公司匹配 Meta 为顶尖人才提供的薪酬。

微软最近发布了一份靓丽财报,推动其市值一度突破 4 万亿美元,这在很大程度上得益于市场对生成式 AI 的追捧。为了保持住这一良好发展态势,微软需要吸引顶尖的 AI 工程师和研究人员。尽管公司今年已裁员数千人,但其坚称员工总数将保持稳定,表明公司有大规模招聘计划。(来源:凤凰科技)

 

OpenAI 推出超值 ChatGPT Go 套餐:仅 399 卢比,约 33 元

8 月 13 日,OpenAI 正式推出了一款名为「ChatGPT Go」的新订阅套餐,其月费仅为 399 印度卢比(约合 32.7 元人民币)。但需要注意的是,这一超值套餐目前仅在特定地区推出,主要针对像印度这样的发展中国家用户。

这一新套餐的推出,意在满足更多用户对 AI 服务的需求。相比于之前的免费版本,ChatGPT Go 在多个方面进行了提升。用户将享受到更多的对话次数,能够上传文件,甚至享有更强大的图像生成能力。这意味着用户在与 AI 互动时,可以获得更丰富和多样化的体验。此外,Go 套餐还提供了一些高级功能,比如有限的深度研究能力、更长的记忆和上下文支持,以及扩展的高级数据分析功能。(来源:aibase)

 

腾讯 Q2 财报电话会:AI 投入加码,广告、云、C 端应用全面开花

8 月 13 日晚,腾讯交出了 2025 年二季度成绩单——营收 1845 亿元,同比 +15%,净利 556 亿元,同比 +17%。在财报电话会上,马化腾、刘炽平等高管多次提到 AI,这已成为腾讯战略的「底色」。

广告业务上,AI 精准投放让点击率显著提升,短视频广告加载率仍只有 3-6%,相比同行 13-16% 的水平,留有巨大提升空间。视频号和搜索流量持续增长,加上生成式 AI 制作广告与电商闭环的拉动,广告收入有望长期向上。

C 端应用方面,「元宝」成了腾讯 AI 的主力应用,已进入快速推广与产品打磨的双循环;微信搜索、腾讯会议、腾讯文档乃至游戏内的 AI 功能,也在潜移默化改变用户习惯。刘炽平强调,小模型+推理优化能有效控制成本,中国用户付费习惯不同,未来可能更多探索广告驱动的 AI 变现。

企业服务方面,GPU 租赁和 API 调用需求上升,带动云业务加速。过去几年云业务「减重」后,盈利基础更稳,不再过度依赖 GPU 供给,而是 CPU、存储、CDN 等多线增长。(来源:IT之家)

 

谷歌:AI 时代中国出海开发者成全球创新中坚

8 月 13 日,2025 年谷歌中国开发者大会在上海召开,谷歌大中华区及韩国总裁陈俊廷表示,中国出海开发者已成为全球创新舞台的重要力量,AI 正让复杂开发变得简单。Google Play 年度最佳榜单中,有 12 家中国团队的 13 款应用在全球获 14 项大奖。

大会上,多家中国团队展示了出海 AI 产品:如 2021 年成立的 PLAUD AI 主攻海外录音市场,结合大模型提升转录准确率,用户超百万;广州新纪源科技的 AI 心理陪伴应用「林间聊愈室」已在海外互动超 150 万次。谷歌亚太开发者生态负责人 Kizilbash 称,中国初创在 AI 创新速度和全球化思维上独具优势,看好教育、健康、环保三大赛道。

谷歌宣布启动「谷歌开发者计划」,为中国出海开发者提供个性化主页、技能认证和技术资源,并开启第四期「出海加速器」项目。案例显示,语言学习应用 TalkMe 加入加速器后收入增长三倍,图像编辑应用 AI Mirror 借助谷歌工具已在 140 国吸引 3000 万用户。(来源:澎湃新闻)

DeepSeek R2 有望 8 月下旬发布?内部人士:不属实

近日有市场传言称,国产大模型公司深度求索旗下 DeepSeek R2 有望在 8 月 15 日至 30 日期间发布。8 月 13 日,DeepSeek 内部人士表示,上述消息不属实。(来源:澎湃)

 

抖音测试「快递」服务,入口与支付、打车等生活功能并列

8 月 13 日,据 Tech 星球报道,抖音正在测试「我的快递」服务,该功能位于抖音 App 的钱包内,与抖音支付、打车等生活功能享有同一流量位。

报道称,「我的快递」服务当前支持查询极兔速递的快递,接下来将接入更多的快递公司。此外,「我的快递」服务也支持寄件服务,不过,仅支持极兔速递的寄件,报道称未来会接入更多的快递公司。

报道认为,推出「我的快递」服务后,用户可在抖音内直接完成「下单-支付-查物流-寄件 / 退换货」的全流程操作,无需切换平台,显著降低用户操作成本,可能进而提升对抖音电商的满意度和复购意愿。(来源:IT之家)

 

AI 独角兽总估值达 27000 亿美元,其中 100 家成立不到 2 年

8 月 13 日,据量子位报道,AI 独角兽数量已达 498 家,总估值高达 2.7 万亿美元,超过谷歌 2.44 万亿美元市值,其中 100 家成立不足两年。这波浪潮造就了数十位新晋亿万富翁,集中分布在旧金山湾区。

四大私营 AI 巨头已诞生十余位亿万富翁,总净资产约 380 亿美元。代表人物包括 Scale AI 联合创始人亚历山大·王(36 亿美元)、郭露西(10 亿美元+)、Anthropic CEO 达里奥·阿莫迪(12 亿美元+)、CoreWeave CEO 迈克尔·因特罗特(100 亿美元)、DeepSeek CEO 梁文锋、Figure AI 创始人布雷特·阿德科克、Perplexity CEO 阿拉温德·斯里尼瓦斯,以及 OpenAI 前高管伊利亚·苏茨凯夫和米拉·穆拉蒂等。

这些公司普遍保持私营,依赖风投、主权基金等融资,并频繁发生并购与股权转让。创始人更注重财富管理与二级市场操作,如股权抵押借款、投资同类科技公司等。

湾区成为财富集中地,亿万富翁数量已达 82 位,超纽约的 66 位。当地房价、租金与高端房产成交量均创新高。业内调侃:「财富流向了代码」,这波 AI 浪潮或将继续诞生更多全球与中国的科技新贵。(来源:量子位)

消息称苹果 AI 伴侣机器人 2027 年登场:7 英寸屏 + 拟人交互,打造「数字家人」

8 月 13 日,彭博社发布博文,报道称苹果公司计划于 2027 年发布一款配备 7 英寸显示屏的 AI 桌面机器人,有望彻底改变个人与 AI 的互动方式,并提升家庭机器人行业标准。

消息称该机器人拥有类似 iPad 的触控屏,并安装于可旋转、可延展的机械臂上,能够自动转向面向发言者,实现更具「人性化」的交互体验。苹果希望借此突破现有语音助手的局限,创造出更拟人化的 AI 伴侣。

该机器人在苹果内部被称为「皮克斯台灯」(Pixar Lamp),设计灵感来源于动画中的生动形象,其核心功能支持用户进行流畅的双向对话,可在日常场景下主动提供建议,例如在朋友讨论晚餐时,实时推荐附近餐厅或食谱。

此外,机器人还可辅助用户规划旅行、管理事务,类似于 OpenAI 等先进语音交互模式,苹果还在为该设备开发全新的 Siri,让其具备记忆用户信息和自然交流的能力。

苹果也在开发一款带轮式底盘与大型机械臂的移动机器人,目标应用场景为制造工厂与零售门店,执行搬运、陈列或巡检任务,这表明苹果正从消费级 AI 交互与工业级自动化两个维度布局机器人战略。(来源:IT之家)

 

Edge 浏览器大变身:曝微软正开发「代号 Olympia」重大 AI 改版,UI 更简洁更贴合 Win11 风格

8 月 13 日,Windows Central 报道称,微软正开发一项代号为「Olympia」的 Edge 浏览器 UI 重大更新。

据介绍,Olympia 将采用全新 UI,以简洁与实用为主,特点包括简化的地址栏与窗口框架、垂直标签页布局及右侧功能菜单,以及其他明显变化,视觉风格与 Windows 11 保持一致。

如图所示,新版 Edge 地址栏缩小并居中于顶部,将 Copilot 直接嵌入其中,并在搜索框中强化搜索、聊天与语音输入功能,麦克风图标常驻可随时使用。

此外,Edge 界面整体更为简洁,标签页被移至左上角下拉按钮控制的垂直列表,另有一种布局将横向标签页置于地址栏下方。窗口右侧保留了书签按钮和浏览历史、下载、设置等功能入口。

不过很显然,Olympia 功能并不完善,部分区域仍无法使用。有人认为,Olympia 可能是为 Edge 的 Copilot 模式打造的专属界面,以配合该模式未来在 AI 智能体能力上的扩展;也有可能是为 Edge 进行更大幅度的 UI 重构,以区别于其他浏览器。(来源:IT之家)

《王者荣耀》连续三年全球手游收入第一  

8 月 13 日,腾讯发布 2025 年二季度财报,财报显示,腾讯二季度本土市场游戏收入为 404 亿元,同比增长 17%;国际市场游戏收入为 188 亿元,同比增长 35%,连续四个季度刷新历史高点,增速创国际市场收入单独披露以来的季度新高。

其中《王者荣耀》的收入增长再次为腾讯游戏整体营收增长作出贡献,这也是《王者荣耀》第 35 次登上腾讯财报。据 AppMagic 的估算,《王者荣耀》连续三年全球手游收入第一。此外,《三角洲行动》于 7 月的平均 DAU(日活跃用户数)突破 2000 万,位居行业日活跃账户数前五位,流水前三。(来源:36Kr)

AI 和海外游戏发力,腾讯重回 7000 亿美金

 

头图来源:视觉中国

 

 

今年上半年,围绕AI的讨论,正在从「技术能做什么」转向「技术如何赚钱」。

当「模型参数」竞赛和「能力演示」热潮逐渐褪去,资本市场和企业自身都开始更严苛地审视AI投入的真实回报。

在这样的背景下,每一个巨头的财报,都成为观察其AI战略商业化成果的试金石。腾讯最新的这份财报,揭示出了一些其内部发生的结构性深刻变化。

8月13日,腾讯发布2025年第二季季度财报。二季度总营收达到1845亿元,同比增长15%;毛利润为 1050 亿元,同比增长 22%;非国际财务报告准则(Non-IFRS)下的经营利润为692.5亿元,同比增长了18% 。

在公布了超出市场预期的2025年第二季度业绩后,腾讯ADR大幅上涨近7%,创下逾四年新高,按最新股价计算,腾讯总市值重回 7000 亿美元。

AI,这个在过去更多以「研发投入」和「战略布局」形式出现在腾讯财报中的词汇,如今则与「业绩动能」、「利润增长」紧密绑定 。

从微信生态的广告推荐,到《王者荣耀》的AI陪练,再到腾讯云上为全球企业服务的智能体,可以看到,AI技术已经渗透到腾讯核心业务之中,并开始高效地创造价值。

董事会主席兼首席执行官马化腾在财报中的表述也印证了这一点:「二零二五年第二季,我们在AI领域持续投入并从中获益」 。

这标志着一个重要转折点的到来:腾讯的AI战略已经越过了「投入期」,正式进入了「效益加速兑现」的新阶段。

这一点不仅体现在广告业务连续11个季度的高速增长和创纪录的收入上 ,也体现在游戏业务借助AI实现平台化进化和国际市场收入创下历史新高上 ,以及企业服务因AI相关需求增加而增速加快上 。

与此同时,腾讯的另一大增长引擎——全球化,也在持续发力。国际市场游戏收入同比增长35%的速度 ,以及腾讯云在全球市场加速攻城略地 ,都表明「出海」不再是补充,而是腾讯未来增长故事中与AI并行的主线。

所以,腾讯是如何将AI从一个「技术变量」转变为「增长常量」,以及这家公司在全球化牌桌上,正在如何下出一步步决胜未来的棋?

 

一、AI引擎:从研发支出到商业利润的闭环

 

长期以来,外界观察腾讯的AI能力,多聚焦于其庞大的投入。而2025年第二季度的财报,则首次清晰地勾勒出一条从巨额投入到显著产出的完整商业闭环。

要理解AI为腾讯带来的效益,首先要看到其在投入端的决心。财报显示,腾讯在本季度持续加码AI战略投入。当季研发投入高达202.5亿元,同比增长了17% 。自2018年至今,腾讯的累计研发投入已经超过3795亿元。这笔巨额资金的核心投向,正是以腾讯混元大模型为代表的核心技术自研。

比研发费用增长更多的是资本开支。本季度,腾讯的资本开支达到了191.1亿元,同比增幅高达119% 。

资本开支的飙升通常与数据中心、服务器等底层基础设施的建设密切相关,这表明,腾讯正在为AI大模型的训练和推理,储备强大的算力资源。在高投入的背景下,公司依然实现了毛利22%和经营利润18%的双增长,这说明其AI投入与高质量增长之间形成了正向循环 。

这种不计短期成本的「重注」,是腾讯AI战略得以从技术突破走向商业成功的前提。它构建了强大的底层基础设施和模型能力,为上层应用提供了基石。

腾讯的AI故事,核心主角是其自研的「腾讯混元大模型」。财报多处详细描述了混元大模型家族的进化与突破,展现了技术能力的快速迭代。

首先是基础模型能力的增强。腾讯通过数据增强与合成技术,提升了训练数据的质量和多样性,并通过更有效的预训练和后训练扩展,持续提升混元大模型的基础能力。

混元四款开源的小尺寸模型|图片来源:混元

 

其模型矩阵不断丰富,不仅持续迭代升级旗舰模型TurboS、T1等,还推出了覆盖0.5B、1.8B、4B、7B等多种参数规格的开源小模型,这些模型可以在手机端运行,降低了AI技术的落地门槛 。

在多模态领域,特别是3D生成方面,腾讯混元取得了系列突破。报告期内,混元密集发布了混元3D v2.5版本、业界首个美术级3D生成大模型以及3D世界生成模型1.0。其能力得到了权威认可,在全球3D生成模型评测榜单上,腾讯混元3D模型因其领先的几何精度、纹理真实度和提示对齐能力而排名第一 。

技术突破的价值在于应用和生态。腾讯一方面通过开源共享技术红利,混元3D系列模型在社区的累计下载量已经超过230万,成为全球最受欢迎的3D开源模型之一。这吸引了越来越多的游戏开发者、3D打印企业和专业设计师采用混元3D模型来生成数字资产 。另一方面,腾讯通过腾讯云将模型能力快速产业化,AI设计智能体Lovart、全球领先的3D打印品牌拓竹科技MakerWorld及创想三维等,均已接入腾讯混元3D模型API 。

不过,对于C端AI变现的「中国式难题」,以及AI功能高昂的成本,管理层在业绩会上坦言,直接向C端用户收费的模式,很难像美国AI工具那样在中国普及 。

因此,腾讯的变现思路非常务实:探索广告变现:未来可能通过广告来支持AI功能的变现;内部成本「补贴」:AI本身已经助力广告、游戏等现有业务增长,可以理解为其他业务的增长为AI用量「补贴」了部分成本 ;精细化成本控制:在很多场景下,优先采用成本低很多的小模型,整体推理成本是可控的。

二、AI直接驱动核心业务的增长

如果说研发投入和技术突破是因,那么业务层面的增长就是果。这份财报清晰地展示了AI如何直接驱动核心业务的增长。

腾讯的营销服务(广告)业务在本季度表现尤为亮眼。收入达到357.6亿元,同比增长20%,不仅创下历史新高,更是连续第11个季度实现双位数增长。

财报将这一高速增长明确归因于「AI驱动的广告平台改进」以及微信交易生态的活跃 。

具体而言,腾讯通过升级广告基础模型,提升了各个流量平台上的广告效果。

这意味着AI不再只是一个辅助工具,而是整个广告技术栈的底层引擎。AI被深度应用于广告创作、投放、推荐及效果分析等全流程,其直接结果是提升了广告的点击率和转化率,从而为广告主带来了更高的投入回报(ROI),并最终推动了腾讯自身的平台营销服务收入。广告主对视频号、小程序以及微信搜一搜的强劲需求,正是这一价值创造循环的体现。

在金融科技及企业服务板块,本季度收入同比增长10%,达到555.4亿元,保持了稳健增长的态势。财报指出,企业服务收入的增速相较于近几个季度有所加快,其背后的一个关键驱动力,正是「企业客户对AI相关服务的需求增加」。

这表明,腾讯的AI能力正成功地转化为对企业客户有吸引力的商业解决方案。

从为开发者提供高效智能编程体验的AI编程工具CodeBuddy IDE,到能够让开发时长缩短超过10倍的全流程AI一体化开发工作台 ,再到覆盖企业服务、生活、办公等高频场景的10多个垂直领域Agent应用矩阵 ,腾讯正在将复杂的AI技术打包成「好用」的工具与服务,帮助企业降本增效。

在C端,AI的价值则体现在用户体验的提升和场景的拓展上。以腾讯元宝为代表的AI原生应用正在加速渗透。

元宝不仅升级了搜索、文档理解和图像处理等核心能力,还新增了视频号解读等特色功能,并深度融入微信、QQ、腾讯会议、腾讯文档等高频使用场景。

QQ浏览器 Agent|图片来源:QQ浏览器

 

此外,QQ浏览器凭借其行业第一的月活跃用户数(MAU),推出了行业首个高考Agent,为超过5000万用户提供了免费的高考服务。AI工作台腾讯ima则在知识库生态上快速发展,当季可分享私域内容环比增长超200%,公域内容总量超过2000万。

这些应用共同构成了微信AI功能矩阵,推动着「好用的AI」向更多圈层用户渗透。

总而言之,腾讯的AI战略已经形成了一个从「高投入研发」到「强技术模型」,再到「多场景应用」,最终实现「商业化回报」的完整飞轮。这个飞轮的转动,正在为腾讯这家巨头的持续增长,提供源源不断的新动能。

三、游戏双轮驱动:全球化浪潮与平台化进化

游戏业务作为腾讯传统的「现金牛」,在本季度展现出强劲的复苏和新的增长叙事。

财报显示,二季度网络游戏业务总收入达到592亿元。这一数字背后,是国际市场和本土市场「双轮驱动」的共同发力,以及AI技术对游戏产品形态的重塑。

二季度,国际市场游戏收入同比增长高达35%,达到188亿元,不仅连续四个季度刷新历史高点,其增速更是创下了自该部分收入被单独披露以来的季度新高。这一点证明,全球化已经成为腾讯游戏的「第二增长曲线」。

这一成绩的取得,得益于腾讯多年来通过战略投资和自主发行构建的全球化产品矩阵。财报明确提到了几个核心:

Supercell游戏复兴,旗下经典游戏《部落冲突:皇室战争》通过更频繁的内容更新、优化的奖励机制以及更多的玩家社区活动,成功拉动了日活跃用户数,并在今年6月创下了近7年来的收入新高。

根据Sensor Tower的数据,该游戏在上半年的全球日活跃用户规模已升至第三,成为Supercell目前DAU最高的产品。这显示了腾讯对成熟IP进行精细化长线运营的能力。

作为全球最受欢迎的战术竞技手游之一,《PUBG MOBILE》持续为腾讯贡献着稳健的收入。

《沙丘:觉醒》在steam的页面|图片来源:steam

 

《沙丘:觉醒》这款由腾讯于2020年全资收购的挪威工作室Funcom制作发行的生存类多人在线游戏(SOC),在今年6月10日上线后,不到两周全球销量就突破了100万份,成为Funcom有史以来销售速度最快的游戏。其在Steam平台的同时在线峰值超过18.9万。

腾讯在海外的强劲表现,也与中国游戏产业出海整体回暖的趋势相呼应。根据中国音数协游戏工委的报告,2025年上半年,中国自研游戏海外市场实际销售收入同比增长11.07%,达到了95.01亿美元,增速在时隔数年后重回10%以上。

腾讯作为行业的领头羊,也是这波出海浪潮中的推动者和受益者。

在本土市场,腾讯游戏收入同比增长17%,达到404亿元。增长的核心动力来自于其在射击品类上的优势,以及对《王者荣耀》、《和平精英》等旗舰级长青产品的「平台化」改造。

游戏工委的报告显示,射击类游戏在国内手游市场的收入占比正在提升,从2024年的13.89%上升至今年上半年的17.03%。腾讯凭借其产品矩阵抓住了这一增长态势。

《三角洲行动》这款新作在4月公布日活超1200万后,财报披露其在7月份已突破2000万日活跃用户规模,成功跻身国内DAU前五、流水前三的第一梯队 。随着8月19日登陆主机平台,其用户规模有望再创新高。

PC端游优势巩固,端游《无畏契约》保持稳健增长,其手游版《无畏契约:源能行动》预约量已超6000万,有望成为下一个爆款。而基于「暗区突围」IP开发的端游《暗区突围:无限》上线后表现出色,稳定在网吧热力榜前十,进一步扩大了腾讯在端游市场的领先优势。

旗舰产品的平台化进化,则是本季财报中一个极具前瞻性的战略信号。马化腾在发言中明确提出:「《王者荣耀》及《和平精英》等长青游戏向平台化进化并加大了AI的应用」 。这意味着腾讯正在将这些国民级游戏打造为承载更多元玩法和社交体验的平台。

作为上半年唯一一款收入破10亿美元的手游,并实现全球收入「三连冠」的绝对王者,《王者荣耀》也在积极拥抱AI。游戏内已推出独立的「指挥官模式」,为玩家提供智能战术指导;同时上线的AI语音助手「灵宝」,则实现了个性化的对局陪伴 。

这些AI应用正在推动《王者荣耀》成为一个以MOBA为底层,不断融入多元玩法的平台化游戏。

《和平精英》也融合了AI。 该游戏在今年2月就已接入Deepseek大模型,推出了AI助手和AI队友,为玩家提供游戏指导和对局陪伴,有效提升了用户参与度。

无论是出海业务的高歌猛进,还是本土业务的品类深耕与平台进化,腾讯游戏都展现了创新活力和战略远见。

AI应用和全球化视野,正在为腾讯这个游戏帝国注入新鲜血液。

四、To B棋局:智能化与全球化构筑的产业护城河

除了在游戏和广告业务上的进展,腾讯在企业服务(To B)领域的布局也显示出持续的进展。二季度,该业务板块收入达到555亿元,同比增长10%,其增长背后,「智能化」与「全球化」两大战略正为腾讯构筑坚实的产业互联网护城河。

不过,企业服务收入增速加快,并非仅仅依赖GPU租赁的短期需求。管理层在电话会上透露,过去两到三年,腾讯有针对性地优化了云业务,削减了低毛利和低附加值的活动。现在,云业务已经运营在一个「更可持续的基础上」,因此能将重心重新放在更快的营收增长上。

而如前所述,企业服务收入的加速增长,很大程度上得益于客户对AI相关服务需求的增加。腾讯正在系统性地将自身强大的AI能力,转化为一系列「好用」的、可被产业客户快速集成的工具、平台与服务。

要推动AI在产业落地,必须首先赋能开发者。为此,腾讯云推出并升级了一系列AI原生工具。

包括智能体开发平台与腾讯元器: 这两大平台得到全面升级,基于更全面的Multi-Agent(多智能体)、RAG(检索增强生成)和Workflow(工作流)等能力,为企业和开发者提供更精准、灵活的对话服务,并降低复杂应用场景的配置门槛 。

Codebuddy IDE 产品界面 丨来自:极客公园

 

CodeBuddy IDE是腾讯在二季度发布的重磅产品,是首个实现「产品-设计-研发-部署」全流程AI一体化的开发工作台。

在电商活动页开发这类典型场景中,使用CodeBuddy IDE可以将开发时长从传统的2天缩短到不足2小时,效率提升超过10倍。这对于追求敏捷开发和降本增效的企业而言,具有巨大的吸引力。

除了赋能开发者,腾讯还直接下场,利用自身技术打造覆盖核心高频场景的垂直领域Agent应用矩阵。这批应用超过10款,覆盖企业服务(如企点营销云Agent)、生活(如健康管理Agent)、办公(如语音智能体TWeTalkAgent)等三大领域。

这标志着腾讯的AI To B战略,正从提供底层能力向提供完整解决方案迈进。

本季度企业服务增长的另一大动力,源自全球市场的深入拓展。腾讯云的国际化进程正在显著加速,其角色也从最初服务中国企业出海的「摆渡人」,演变为服务全球本土客户的「数字化伙伴」。

财报和相关资料中列出了一长串国际客户名单,这本身就是腾讯云全球服务能力的证明。截至目前,腾讯云已累计服务超过10000家海外客户,覆盖超过80个国家和地区。

腾讯云帮助印尼科技巨头GoTo集团旗下的Gojek,仅用时4小时54分钟,就成功将涉及打车、外卖、快递等复杂业务的上千个微服务系统整体平稳切换至腾讯云。

这被认为是东南亚规模最大的云迁移项目之一,不仅实现了高可用和高弹性,还帮助Gojek降低了运维成本、提升了响应速度。

泰国正大集团旗下的零售公司CP AXTRA、阿联酋电信集团e&UAE、跨国电信运营商Orange Middle East & Africa、日本餐饮平台Tabelog、亚洲第一大公关公司Offshore等,都选择了腾讯云的解决方案与产品。

为了支撑快速增长的全球业务,腾讯宣布将继续加大全球化发展投入。其中包括投入1.5亿美元在沙特阿拉伯建设首个中东数据中心,以及在日本大阪新建该国的第三个数据中心并设立新办公室。这些投资清晰地表明,腾讯致力于构建一张覆盖全球主要经济区的云服务网络。

在服务国际客户的同时,腾讯云也在持续帮助众多中国企业加速出海进程。

2025年7月,美的将其欧洲IT业务搬迁至腾讯云,在优化成本的同时,也大幅提升了业务系统的稳定性和扩展能力,为其欧洲市场发展打下了坚实基础。

无论是智能化还是全球化,其背后都离不开持之以恒的技术研发和知识产权积累。二季度腾讯研发投入202.5亿元,同比增长17% 。公开数据显示,截至2025年6月底,腾讯在全球主要国家和地区的累计专利申请已超过8.8万件,授权数量超4.8万件。

这些专利代表了核心技术领域的自研能力与创新价值。例如,腾讯云数据库TDSQL的核心技术荣获了中国专利金奖。在权威研究机构Gartner®的报告中,腾讯云CPaaS(通信即服务)的视频能力位列全球第一,并连续三年被评为市场「挑战者」。

整体来看,腾讯2025年第二季度的财报,描绘了一幅由AI和全球化双引擎驱动的全新增长蓝图。

AI不再只是成本中心,而是利润中心;全球化也不再是边缘业务,而是核心阵地。

从马化腾「为用户及企业带来更进一步的AI增益」的表态中 ,我们可以看到,腾讯正致力于将过去二十多年积累的数据、场景、技术和用户连接能力,通过AI这个「放大器」进行重构和增值。

一个更智能、更全球化的腾讯,正在浮现。对于市场而言,这或许是一个需要重新审视和评估腾讯长期价值的开始。

 

AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」

最近 AI 界的大新闻是 GPT-5 和谷歌的世界模型 Genie 3。然而,在无人在意的角落里,微软悄悄把 Edge 进化成了了 AI 浏览器。

上一次听到 Edge 的消息还是 IE 正式关停的时候,Edge 作为 IE 的继任者难免会被拿出来讨论,通常没有什么好话。

再上一次是 Edge 加入 sidebar 功能的时候,罕见地抢了一批 Chrome 的用户。

时至今日,Edge 的风评似乎没有比曾经的 IE 好到哪里去。

都 2025 年了,居然还有浏览器的首页充斥着闪烁的 MSN 资讯、天气卡片、股市小窗口,以及永远关不掉的「热门故事」。与此同时,微软不断地在给 Edge 加入「无用的新功能」,让系统变得越来越臃肿。

MSN,原来你没死透|图片来源:Edge 浏览器截图

但如果你愿意再给 Edge 一次机会的话,一键开启 Copilot 模式,Edge 就变成了神似 Dia 的样子:

干净得不像微软出品

这个首页就正常多了|图片来源:Edge 浏览器截图


栏目作者召集

极客公园的新栏目「AI 上新」,将带大家体验最新的 AI 应用和硬件,让你成为 AI 时代「最靓的仔」!

现在,我们也向所有喜欢尝鲜和体验 AI 的同学发出召集,只要你发现并体验了新的 AI 应用或者功能,按照格式(参考案例: AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI 应用的订阅费用。

同时,优秀作者还有机会进入极客公园 AI 体验群 ,获得最新 AI 应用和工具的内测资格,参加极客公园专属相关 AI 活动,和 AI 应用创始人一对一沟通。

AGI 太久,只争朝夕,让一部分人先 AI 起来吧!投稿、进群请扫描下方二维码添加极客小助手微信


01

微软,再造一遍浏览器

要让 Edge 变成 AI 浏览器,除了要更新到最新版本之外,还需要掌握一些小小的「魔法」。然后在设置的「AI 创新」一栏,就可以开启 Copilot 模式。

Copilot 模式的形态介于谷歌在 Chrome 有限 Gemini 集成,和 Manus 这样完全的 AI 浏览器之间。

在 Copilot 模式下,首页就变成了一个对话框,你可以直接用搜索引擎搜索、询问 Copilot 或者让它深度思考。这一点和其他主流的 AI 浏览器差别不大。

Copilot 的第二个入口在地址栏左侧,一颗小药丸形状的图标,单击就可以呼出,或者让它固定在右侧。

Copilot 的第二个入口在地址栏左侧|图片来源:Edge 浏览器截图

官方说它可以「感知所有标签页」。于是我打开了一篇论文、一份财报,以及一个亚马逊相机的搜索页面。随后我告诉 Copilot:「帮我总结特斯拉的财报,还有这篇论文的大纲,以及我想选购一款性价比高的相机。」

一分钟后,Copilot 分别概括了财报和论文,附上了各个价位的最佳相机,并暗示了我给出的需求并不精准

这一瞬间,我确实有一种错觉,有另外一颗大脑正在替我工作。

Copilot 同时分析财报和论文,并给出选购建议|图片来源:Edge 浏览器截图

这种总结能力也能迁移到视频上。当你在 Edge 中打开 YouTube 视频时,只要呼出 Copilot 并指示「总结视频」,它就会给出总结。

美中不足的是,Copilot 的这种感知并非全自动的,需要你手动 @ 标签栏,它才能替你工作

不过,最能让我产生「幻觉」,是 Copilot Vision。这是一个交互方式上非常新鲜的功能,Copilot 可以直接看到你的屏幕,并以此为基础和你用语音交互,就像你和朋友共享屏幕一样。

Vision 读取屏幕,并给出建议|图片来源:Edge 浏览器截图

例如在一个典型的购物场景,Copilot Vission 就可以直接看到屏幕上的备选产品,并给出选购建议。打开 Copilot Vission,一个带着浓郁广普口音的中年女声就会很热情地和你打招呼:「嗨~我可以看到你屏幕啦!」,很像在 Panda Express 或者 Jade Dragon Restaurant 碰到的那种广东阿姨。

不得不说,现在的 AI 语音已经做得非常自然,已经不太分辨得出 AI 味。碰到 AI 验证的时候,它还会主动安慰你:

「是不是挺烦人的」。

这我还是第一次在 AI 身上感受到了人味,语音交互带来的情感浓度的确要比文字强很多

但是就功能性来说,Vission 还算不上实用。一方面是它的图像识别速度跟不上我的浏览速度。另一方面,它在图像和语音识别的准确率上也有待提升。例如它会把「IPX6」识别成「IPX4」,我用语音纠正了它,它马上道歉,但是听成了「IPX7」。

目前的 Vision 有一点像家里的女性长辈,不懂科技,聊天信息密度不高,但是非常包容,情绪价值拉满

以上就是 Edge 最主要的功能了。还有一些功能微软表示正在开发中,例如 Agent 能力、智能标签分组或者是动态的 AI 助手。

实际上,很多功能微软已经开发完毕、处于测试阶段了,出于大公司的保守,它没有集成到 Edge 中。但是没有关系,进入单独 Copilot 主页,打开「实验室」,你可以看到,微软确实在开发一些好玩的东西。

Copilot 实验室|图片来源:Edge 浏览器截图

  • Copilot 3D,可以一键将图像转换为 3D 模型。上传自己的照片,你就可以轻松得到一个「逼真」的 3D 头像。

做得很好,下次别做了|图片来源:Edge 浏览器截图

  • Copilot 游戏,体验原汁原味的上古 FPS 大作《雷神之锤 2》,并且每一帧都是由 AI 实时生成的,同时画面非常卡顿。

AI 生成游戏的《雷神之锤 2》|图片来源:Edge 浏览器截图

Copilot Actions 是微软最接近「Agent」野心的功能。我试着让它预订了一张 8 月 10 号从上海飞北京的机票。Copilot 大概跑了 20 分钟,完成了点点鼠标一分钟就能做完的工作。

但奇妙之处在于: 它允许我随时「抢方向盘」

当它差点给我选了个中转航班时,我可以随时接管浏览器权限,把航线拉回直飞。这种「人机共驾」的体验,比那些一路黑箱跑到底的竞品要安心得多。

实际上,这样操作之后,跑任务的效率会大大提升,最终的出品也可控得多。我觉得这才是目前 Agent 最实用、最可靠的人机协作形态。正如它的名字 Copilot 一样,这是一种副驾驶员的哲学。

用户可以随时暂停,接管浏览器 | 图片来源:Edge 浏览器截图

02

微软的历史包袱

总的来说,Edge 浏览器的 AI 进化给到了不错的体验,基础功能不逊色于主流工具的同时,也有一些自身的亮点,例如标签感知和 Vision。

但与此同时,这还不是一款可以成熟到覆盖所有 Edge 用户的产品。很多宣传的功能并没有完全兑现,各个功能的入口也分散在四处。最明显的就是,地址栏旁 Copilot 入口支持附件上传和语音交互,而主入口的 Copilot 反而不支持这些功能。

更大的割裂感在于 Edge 浏览器本身和 Copilot 模式上。

单就视觉而言,传统功能区延续了 Win11 的 Fluent 圆角玻璃;AI 面板则是现代极简的风格,仿佛两代人共用一张办公桌。

两种设计风格同时共存在一个页面

更重要的功能性上,Edge 团队背负着沉重的历史包袱:兼容模式、IE 模式、企业策略、臃肿的 PDF 阅读器……而 Copilot 团队显然想再造一个「AI 优先」的物种。两股力量在同一具身体里拉扯,导致入口分散、菜单嵌套、选项重名。

于是,Edge 就像是一座仍在施工的跨河大桥:桥这头,是微软多年堆出来的旧公路,坑洼却熟悉;桥那头,是闪着霓虹的 AI 新大陆,诱人却断续。

用户站在桥中间,有一些迷茫。

当人们怀念 GPT-4o,他们在「怀念」什么?

作者|苏子华
编辑|靖宇

GPT-5 的发布本应是一件好事,然而,ChatGPT 的用户却在 48 小时内,掀起了一场全球性的「反抗运动」。

8 月 8 日,OpenAI 的新模型 GPT-5 上线的同时,OpenAI 下架了 GPT-4o 等其他所有模型,强制全球用户只能使用 GPT-5 这个新模型。根据 OpenAI 掌门 Sam Altman 的介绍,GPT-5 更聪明,完成了「智商飞跃」,从大学生水准,升级到「博士级」的能力,生产力更强了。

然而,用户表示,新模型牺牲了 GPT-4o 在共情能力和提供情绪价值上的优势,回答问题时变得「冷漠」了。好像失去了一位「密友」、「恋人」。

有网友们开始满怀悲伤地怀念与 GPT-4o 的互动体验:有人用它来排解深夜的孤独,有人用它模拟朋友间的闲聊,有人将其视为「情感寄托的港湾」。

怀念 4o 的帖子引发了广泛共鸣|图片来源:小红书

悲伤过后,紧接着,社交媒体上,一场以「拯救 4o」(#Keep4o、#Save4o)为主题的网络声援运动迅速蔓延。

从 X(原 Twitter)到 Reddit,到小红书等等,有用户到 OpenAI 的官网账号下留言,有人制作表情包凸显 4o 的优势,有人在各平台发帖号召大家给 OpenAI 发邮件,来表达自己的愤怒、沮丧,和对立刻恢复 4o 的迫切。

来自于海外网友的「还我 4o」的抗议帖子|图片来源:X

 

值得注意的是,这场抗议,没有明确的组织者,也不在单一平台,而是全网自发,掀起了巨大的舆情声浪。

很快,汹涌的情绪包裹了 OpenAI,他们被迫选择向用户道歉,并向付费用户恢复上架 GPT-4o。

OpenAI CEO 奥特曼被迫恢复 4o|图片来源:X

不过,代价也是巨大的。用户对于 OpenAI 的信任已经动摇,开始将目光投向 Claude、xAI 等大模型产品。

GPT-5 风波对于 AI 行业来说,将是一个里程碑式的事件。它炸出了一个庞大的与 AI 形成情感羁绊、尤其在意情绪价值的用户群体。

它也印证了一个AI产品被长期低估的属性——情绪价值。可以说,情绪价值也有可能成为 AI 产品的核心竞争力。一个拥有更高智商的 AI,可能很快就会被下一个更强的 AI 所取代。但一个能提供独特情感体验的 AI,却能建立起一种难以复制的情感壁垒

另外,此次风波对于以技术为导向的 AI 公司来说,在处理产品迭代时,也无疑是一次深刻的警示。

 

情绪价值:AI产品的「隐形」护城河

 

可能正如那句经典的「只有失去才明白它的价值」,当 GPT-4o 下线之后,大家才意识到,它并不仅仅是一项可以被平替的技术。

过去,我们总以为技术的迭代逻辑是「性能为王」。一个更快的 AI 会取代慢的,一个更精准的 AI 会取代不准确的。

但这次风波事件表明,工具可以讲究效率,但是涉及到情感时逻辑并不成立,就像交朋友时并不会把对方的做事效率看得最重要。

AI 大模型与以往的信息技术、数字化技术有一个关键的不同是:它具备智能,具备「生命感」。

斯坦福大学与谷歌的联合研究发现,当 AI 生成的回应在情绪上更积极、更具共情时,人类更容易形成信任与长期互动意愿。用户通过与 4o 的长期互动,在潜意识里已经将它定义为一个「有情感」的、甚至「人格化」的存在。

当 OpenAI 突然改变这个「人设」,将其还原为冷漠的「工具」时,用户的认知与情感预期产生了巨大冲突,从而引发了强烈的情绪反噬。

网友自制的梗图|图片来源:X

更换模型,就相当于更换了一个「人」。而人们对于自己的亲人、朋友是有长期的感情的,是很难接受被替换的。

当 GPT-4o 被下线时,用户的普遍感受是:「好像失去了一位不告而别的好朋友」。也有不少用户哭诉「失去了灵魂伴侣」。

很多用户转发的一句抗议口号是,「不是所有人需要博士,但所有人都需要朋友。」

在新模型面前,用户与旧模型之间建立的长期对话习惯、个性化提示词悉数失效。对比之下,GPT-5 固然智商更高,但也显得更冷漠。可以说,OpenAI 强制让用户迁移模型,相当于是在切断一段段鲜活的「人际关系」。

而现实里,没有人能忍受别人来破坏自己的亲密关系。从此次风波能感受出来,情感价值形成的用户粘性实在太强,强到用户不允许产品下线,不允许产品消失,宁愿花更多钱(会员费)、发帖呼吁等方式,让其持续运行下去。

对 AI 产品而言,这意味着一个简单的事实:哪怕 GPT-5 在逻辑推理上无懈可击,如果不能在交流中传递熟悉的、超预期的人性温度,它依然可能输给一个性能稍逊、但「懂我」的版本。生产力并非是衡量 AI 价值的唯一标准。

从商业竞争的角度看,情绪价值是很难被快速复制的护城河。技术性能的差距可以通过算力、资本投入赶上,情感连接是用时间与真心建立的,迁移成本极高。

 

 

风波后的新思潮:全新的人机关系,与 AI 公司的信任危机

 

当全球网友合力将「GPT-4o」拯救回来之后,新的问题出现了:如何避免再次「突然失去恋人、朋友」的悲剧?

很长一段时间,AI 虚拟陪伴究竟是不是个伪命题,一直存在争议。在 GPT-5 风波之后,这个争论可以说是终结了。

实际上,人们对于「AI 陪伴」的需求远比想象中更普遍和迫切。

《哈佛商业评论》基于数千篇论坛帖子的调研发现,人们对于 AI 的使用重心开始从去年的「写、画、搜」转向了「治愈心灵」。2025 年 AI 应用的最常见场景,前 5 名是:1. 疗愈和陪伴 2. 组织个人的生活 3. 寻找意义 4. 学习提升 5. 生成代码——前 3 名都和个人情感陪伴相关。

年轻人更是如此。

Common Sense Media 调研显示,这项研究于 4 月和 5 月对 1000 多名青少年进行了调查。约 70% 的青少年使用 AI 聊天机器人作为情绪陪伴,31% 表示「AI 和真实朋友一样令人满足」,33% 更喜欢用 AI 谈敏感话题,而不是与人类交流。

对于创业者来说,一方面,这意味着真真切切的商业机会,另一方面,AI 公司与用户之间的情感羁绊会更加强烈,由此带来的问题也会是全新的,这与此前的互联网时代并不相同:

比如说,未来的 AI 产品是否应该更加注重用户的情感绑定,并提供更透明的服务模式?
比如说,OpenAI 在未与用户充分沟通的情况下,突然下架 4o,让许多人感到被背叛。这让用户开始质疑:未来的 AI 公司还能被信任吗?
比如,这种决策是否过于短视,忽略了用户的情感需求和市场的多样性需求?

OpenAI 的用户信任和声誉已经开始受损。网友们互相出谋划策,如何与 OpenAI 持续斗争|图片来源:小红书

如果像 OpenAI 这样,AI 产品的一次升级,可能带走的就是一段关系。过去,伤害隐私,很多人可能不敏感,但是伤害情感,等来的会是汹涌的抗争,以及由此而来的深层次的信任危机。

这次风波也揭示了一些行业新规则:

  • 未来的 AI 发展,需要同时兼顾技术上的突破和情感上的连接,为此,甚至有网友建议将退役模型开源,避免记忆断层;
  • 用户需要有自主选择权,而不是被动升级;
  • 模型多样性可能比「单一先进性」重要(如专业场景用 GPT-5,情感陪伴用 GPT-4o)。

最后,这是一次史无前例的全球用户团结在一起,开展对一家科技公司的自发抗议运动。相信还会催生更多关于人机关系和商业的议题。这些议题,或许就是人机共生新纪元的序章。

❌