阅读视图

发现新文章,点击刷新页面。

中国 AI 视频赛道最大单笔融资,为什么给了爱诗科技


APPSO 获悉,爱诗科技近日完成 3 亿美元 C 轮融资,创下国内 AI 视频生成赛道单笔融资的最高纪录。

领投方鼎晖香港基金联合鼎晖 VGC、鼎晖百孚重金押注;产业资本中国儒意、三七互娱紧随入场;国内政府引导基金、险资、家族办公室,还有 UOB Venture Management、Lion X 基金。参投名单横跨两个半球,不同领域的资本默契涌向了同一个方向。

3 亿美元融资放在当下 AI 行业似乎没有什么好惊讶的,这还不到 OpenAI 融资的零头。但你得把这个数字放进 AI 视频赛道的坐标系里看:成立于 2018 年的 Runway,花了七年才在上个月完成 3.15 亿美元的 E 轮融资。而爱诗科技从种子轮走到同等量级的 C 轮,只用了不到三年。

A 轮,达晨财智领投,蚂蚁集团跟进;B 轮,阿里巴巴领投逾 6000 万美元,彼时已是国内视频生成赛道最大的一笔钱;C 轮,3 亿美元,纪录再次被自己改写。

每一轮都有新的顶级机构首次入场,每一轮金额都在翻倍。节奏越来越快,筹码越押越重

实际上,这笔融资反映出的信号大于数字本身:AI 视频不再是大模型叙事的配角,资本已经把它当作一条独立的、值得重仓的赛道来押注

爱诗科技创始人王长虎曾在 2024 年表示,视频生成一定是被低估的。爱诗科技用不到三年时间,将这个非共识变成了资本共识。

非共识的起点:2023 年,为什么是视频

「我不会创业,但没关系,创业就是边做边学。」2023 年 4 月,爱诗科技创始人王长虎决定创业时,就是带着这句话出门的。

2023 年 4 月,爱诗科技创始人王长虎带着一个在当时看起来相当「偏科」的判断出来:当所有人都在追大语言模型,他要押注视频生成。

要知道一年之后 OpenAI 的 Sora 才正式亮相,可以想象当时王长虎这个选择有多么反常识。

在微软亚洲研究院待了 8 年、在字节跳动做了 4 年 AI Lab 总监之后,王长虎比大多数人更清楚视频 AI 的技术节奏。「2023 年初很多人都不认同做视频这件事,大家都在看大语言模型,」他后来回忆,「但这就有了非共识:我们觉得视频生成是大事,而我们过去在视频和 AI 方面有经验,能赢在全球。」

这个判断在当时要承受不小的压力。相比语言模型,视频生成的算力消耗更大,生成质量更难控制,产品化路径也更模糊。早期的投资人需要相信的,不是现在能看到什么,而是三年后那张尚未成型的蓝图。

2024 年 3 月,达晨财智率先领投 A1 轮,完成了第一次押注。随后一个月,蚂蚁集团以逾 1 亿元人民币跟投,是彼时国内 AI 视频领域单笔最大机构投资。至此,爱诗科技基本完成了从「技术方向」到「资本方向」的验证。

王长虎在创业之初就明确了愿景:「帮助每个人成为生活的导演」。海外产品 PixVerse 和国内产品拍我 AI,都是在这个方向上的落地——前者于 2024 年 1 月上线,后者于 2025 年 6 月推出,两款产品针对不同市场独立运营。

DiT 架构:那个没人看好的选择

要理解这笔 3 亿美元的 C 轮,需要先看懂爱诗科技的技术路线。

把爱诗科技的技术路线从头捋一遍,会发现 DiT(Diffusion Transformer)架构这个选择,是整个故事的原点,也是很多结果的前提。

2023 年,国内主流视频生成方案普遍采用 U-Net 架构。这也没问题,U-Net 经过了图像生成领域多年实践的充分验证,稳定、成熟,调参经验相对成熟,可以较快地跑出效果。对大多数想先做出来再说的团队,这是理所当然的选择。

可以爱诗科技选了 DiT,成为国内首家将这一架构用于视频生成的创业公司

DiT 是 Diffusion(扩散模型)与 Transformer 的组合架构。Transformer 的核心优势在于注意力机制(Attention Mechanism)——它让模型在处理数据时,能够同时「感知」序列中任意位置的信息,而不是像卷积网络那样只能处理局部区域。

对于视频生成这个任务来说,这种能力的价值是决定性的:视频的本质是时间轴上的连续帧,每一帧的内容与上下帧存在复杂的时空依赖关系。人物的动作要连贯,物体的运动轨迹要符合物理规律,光影变化要在跨帧时保持一致——这些要求,需要模型能够捕捉「跨帧的长程时空关联」,而这正是 Transformer 天然擅长的事。

但这个选择在 2023 年要付出不小代价:DiT 在训练初期对算力和数据量的要求更高,起步阶段几乎必然要经历「效果不如成熟 U-Net」的阵痛期。对一家刚起步的创业公司,这是不小的风险,钱可能在效果变好之前就烧完了。

事实证明,这个判断是对的。2024 年 Sora 发布时,OpenAI 公开的技术路线正是 DiT。在视频生成这个方向上,DiT 架构确实是更接近正确答案的那条路。

当 Sora 发布时,爱诗已经在 DiT 架构上积累了一年多的训练经验、数据处理流程、工程优化方案。这种时间差,在技术迭代速度极快的 AI 领域,十分关键。

模型产品两手抓,被低估的核心逻辑

在 AI 视频领域,大多数公司的做法是先把模型训练好,再去想产品怎么做。这是一条看起来稳妥的路,模型成熟了,产品化的风险就小得多。

但这种路线有个致命问题:等模型「训练好」的时候,你已经错过了最关键的反馈窗口。用户真正需要什么样的生成效果?哪些场景的需求最强烈?模型应该在哪些维度上优先优化?这些问题,只有产品跑起来、用户用起来,才能得到真实答案。

爱诗从一开始就把模型训练和产品迭代放在同一个循环里。

PixVerse 网页版 2024 年 1 月上线时,模型还远未到「完美」状态,但产品已经可以让用户生成视频、给出反馈。每一个版本的模型升级,都直接来自上一个版本用户的真实使用数据,哪些 Prompt 成功率低、哪些特效最受欢迎、哪些场景容易出错,这些信号实时回流到训练流程,指导下一轮模型优化的方向。

更重要的是,这种模型-产品的协同进化,会随着时间推移形成复利效应:用户越多,反馈越密集,模型优化越精准,产品体验越好,又吸引更多用户——这是一个正向飞轮,而不是单向的技术推进。

「这就是创业公司的优势所在,没那么复杂,所以效率高,」爱诗联合创始人谢旭璋说。这句话听起来轻描淡写,但背后是对技术路线、产品节奏、组织能力的高度整合。大厂可以投入更多算力、更大团队,但很难做到这种模型与产品的深度结合,流程太长,部门太多,反馈链条一旦拉长,速度优势就会被稀释。

这种效率优势最终体现在成本结构上。谢旭璋在接受晚点采访时透露,爱诗「平均每月用的训练资源不到千卡,成本大概只有同行的 10%」。

这是一种结构性的成本优势,而不是靠压缩预算换来的短期节省。用谢旭璋的话说,模型架构、算法、工程、产品能力的综合优势

当模型优化方向始终贴着真实需求在走,就能减少在错误的方向上浪费算力;产品反馈能实时指导训练策略,每一次迭代的投入产出比都会更高。

从 2024 年 1 月 PixVerse 网页版正式上线,到 2026 年初 V5.6 发布,爱诗科技连续更新 8 个主要版本,平均每两个月就有一次大的模型升级。

这种迭代密度的背后,正是模型与产品一起训练的方法论在起作用:

  • V2(2024 年 7 月):多段视频生成与局部重绘笔刷上线,用户从单纯「生成一段」开始走向「编辑与创作」;
  • V3(2024 年 10 月):特效模式上线,「抽卡概率」从随机提升至接近确定性,这是 PixVerse 从创作工具迈向大众产品的真正节点;
  • V3.5(2024 年 12 月):生成时间压缩至 10 秒内,极大降低用户等待成本;
  • V4(2025 年初):「准实时生成」能力出现,5-7 秒生成 5 秒视频;
  • V4.5(2025 年 5 月):参数量与训练数据集指数级扩张,全球用户达 6000 万;
  • 拍我AI (2025 年 6 月):PixVerse 国内版「拍我AI」发布,同步上线网页端及移动端应用;
  • V5(2025 年 8 月):Agent 创作助手上线,用户不再需要学习 Prompt 语法,口语化意图自动转化为模型指令,API 生态同步开放;
  • V5.5(2025 年 12 月):「分镜 + 音频」一键生成,国内首次实现画面与声音的同步协同,完整叙事能力成型;
  • V5.6 (2026 年 1 月 26 日 ):模态大模型,支持分镜和音画同步生成。

在权威 AI 评估机构 Artificial Analysis 最新发布的视频生成模型排行榜中, PixVerse V5.6 位列全球第 2 位,持续领跑全球视频生成模型第一梯队。


这种迭代密度在 AI 视频行业里相当罕见,爱诗跟很多同类产品的策略不同:持续往前推,每一版解决真实用户在当下遇到的真实问题,同时在架构层面为下一次跃升保留余量

背后的可行性,恰恰是 DiT 架构的可扩展性所赋予的,每次模型升级,不需要推倒底层重来,而是在既有基础上加宽加深。

3 亿美元,押注不只是 AI 视频

但鼎晖最终决定领投这次 C 轮,押注的不只是 V5 的榜单排名,可能还有 2026 年 1 月刚刚发布的 PixVerse R1。

R1 可以说是爱诗科技迄今最激进的一次产品技术迭代。

过去的视频生成,无论做得多精致,本质上都是「把指令翻译成一段视频文件」,是一次性的、离线的渲染过程。用户输入指令,等待生成,拿走一段固定的视频文件。这像是在冲洗胶卷,你拍完就拍完了,要等冲洗出来才能看,看完也无法再改。

R1 不是这个逻辑,它不再只是「生成一段视频」,是一个能实时响应用户交互指令的「世界模型」:用户可以在视频播放中输入指令,改变光影、替换背景、控制角色走向,系统响应延迟约 2 秒,输出为 1080P 超高清实时视频流。

背后依赖的是爱诗自研的「瞬时响应引擎(IRE)」,它将计算步骤从数十步压缩至 1-4 步,实现从「离线渲染」到「实时交互」的重要升级。

谢旭璋判断,未来视频和游戏的边界一定会越来越模糊。一旦视频变得能交互了,全新的内容、用户和创作机会就会涌现。

谢旭璋在采访中透露,R1 发布后,游戏行业的 B 端客户来得最多,「以后的游戏开发不用再像过去那样熬漫长的大周期了,无论是玩法、画面还是剧情,AI 都能让它变得更轻量、更具想象力。更重要的是,它能帮那些不懂代码但有创意的人,把点子变成真正的游戏。」

R1 的潜在价值,已经超出了「更好的视频生成工具」这个范畴。如果说 PixVerse V5 是在争视频生成工具的头部位置,R1 是在定义是一个完全不同的品类——实时交互式内容体验的操作系统。它的竞争对手,不再是 Runway 或可灵,是 Unity、Unreal Engine,甚至是尚未出现的内容消费形态

回看爱诗科技这笔 C 轮的投资人结构,其实本身就是一个信号。

鼎晖三支基金联合领投,背后是对这家公司进入规模化阶段的系统性判断。产业资本中国儒意(影视内容)和三七互娱(游戏)的入场,指向了 R1 要重构两个行业:互动影视制作和 AI 原生游戏开发。

进入 2026 年,整个 AI 视频赛道也在加速进入下半场。前有 Seedance 2.0 风靡全球,现在爱诗科技成为新的独角兽。

目前,PixVerse 全球注册用户突破 1 亿,MAU 超过 1600 万;国内版拍我 AI 与 PixVerse 形成双轨并行格局;爱诗科技也是 2025 年联合国「人工智能向善全球峰会」上唯一入选的中国 AI 视频应用,并于同年正式加入联合国大学全球人工智能网络。

这笔 3 亿美元融资,可以理解为资本对一个即将到来的时代的投票。AI 视频的下一个战场,不在参数量,不在榜单排名,关键在于谁先把视频从一个「消费品」变成一个「交互界面」

不过,知道技术路线在哪里会拐弯,和相信这条路最终走得通,是两件事。

在 AI 这个行业,「选对了方向」本身并不稀缺。稀缺的是,在方向被主流认可之前那段空白期里,有没有足够具体、足够扎实的东西,支撑你不摇摆

三年里爱诗科技在这条路线没有在中途断裂,很难说是提前预见了终点的全知视角,而是每走一步,下一步的方向都从上一步的技术现实中自然长出来。

视频正在从被观看的内容,变成被触碰的世界。因此,这三亿美元所押注,远不止 AI 视频的未来,而是那个「」万物皆可交互」的时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


微信可以养龙虾了?腾讯一天甩出三只虾,最后这个大招有点狠

上周腾讯在深圳办公室楼下搞万人装 OpenClaw 活动,造就了一场新时代的「送鸡蛋」盛会。连马化腾都在朋友圈感叹「没有想到会这么火」。

昨天,深圳龙岗区发布了一份史无前例的「龙虾」补贴政策,更是让人们高呼:龙岗区改名龙虾区

今天更刺激的来了:一天里,腾讯的 CSIG(云与智慧产业事业群)直接发布了三款适配 OpenClaw 的产品/更新。

它们分别是:

  • QClaw,来自腾讯电脑管家团队,现在也属于 CSIG 了?)
  • WorkBuddy
  • 腾讯云轻量云

其中最值得关注的就是 QClaw。

这是腾讯电脑管家基于 OpenClaw 打造的一款本地 AI 助手,可以一键安装。通俗的话就是 OpenClaw「套壳」,去年此时也有一个火遍全网的套壳 Agent 产品,叫 Manus。

重点来了, QClaw 具备一个现在所有 OpenClaw 产品都没有的「杀手级」功能——接在微信和龙虾对话,让它帮你干活。

目前 QClaw 还没正式开放内测,APPSO 也将第一时间跟大家分享体验。

QClaw 网站🔗
https://claw.guanjia.qq.com/#LINK_COPYRIGHT

让「养龙虾」变得像装微信一样简单

根据官网信息,它支持 Mac 和 Windows 双端,内置了 Kimi-2.5 模型,内测用户展示的界面显示可默认关联到 Kimi、Minimax、GLM、DeepSeek 等内置模型,还可让用户自定义大模型。

当然,最最最重磅的功能,是可以零配置直接关联微信,无论你是在通勤路上还是躺在沙发上,在微信给这只「龙虾」发条消息,它就能远程操控你的电脑干活。

▲图片来自:特工宇宙

QClaw 背靠着一个庞大的 Skills 生态,链接了 ClawHub 和 GitHub,拥有超过 5000 多种 Skills 储备。这意味着它不仅能陪聊,还能帮你跑代码、查数据、甚至管理项目,技能树点得满满当当。

这只龙虾还拥有「持续记忆」的能力,它会像个老朋友一样记住你的偏好和上下文,用得越久越顺手,真正长成懂你的模样。

至于很多人关心的数据安全问题,QClaw 数据全部留在本地,不上云端。

当然,由于需要执行系统级操作(如文件操作、浏览器控制等),你需要授予一定的权限。建议设置强密码和身份验证(Token),限制聊天范围(仅允许可信联系人),敏感操作开启二次确认。

Qclaw 的接入流程主打一个「傻瓜式」操作,看起来还是非常友好的:
1. 下载客户端:目前支持 Mac 和 Windows 双平台(暂时不开放下载)。
2. 扫码绑定:安装打开后,用你的微信扫一下屏幕上的二维码。
3. 开始使唤:绑定成功后,你的微信里就多了一个「龙虾」好友。

在微信 QQ 「养龙虾」能干嘛

说了这么多,QClaw 到底能干嘛?

目前官网并不支持下载,在官方的内测群消息,预计下周正式开放内测,会以邀请码的形式开发,而且放言内测期间免费,解决 Token 焦虑。

APPSO 也给大家附上内测登记链接 :https://wj.qq.com/s2/25871229/abe7/


这么说吧,当你在外面浪的时候老板突然要数据,你只需要对着微信说一句「帮我打开桌面的 Q3 报告.xlsx,把第 3 列数据求和」,它就能远程操控你的电脑,打开文件、算好数据,直接结果甩回微信给你。

人在咖啡厅,活在工位上,这才是真正的远程办公自由。

别人还在苦哈哈地想选题、写文案、回评论的时候,你只需要丢一句「帮我在小红书发一条关于 AI 效率的笔记,并自动互动」,它就能生成笔记、一键发布,甚至自动回复评论帮你涨粉。

你负责躺,它负责卷,这会是以后社媒运营的终极形态吗?

编程这些常见功能也同样支持,你说一句「创建一个 Chrome 插件项目,自动提交到 GitHub」,它就能建文件夹、写代码、Push 到仓库一气呵成,全程零手动。

导师说「下周交综述」但你连论文标题都没看过?别慌,告诉它「搜近 3 年 LLM Agent 的综述论文,整理成 PDF」,检索、筛选、写综述、导出 PDF 全套服务直接打包发到你手上。

在生活中你可能没有对象,但你可以有一个每天早上 8 点准时提醒你天气的 AI,下雨叮嘱带伞,降温催你加衣,比你妈还准时,比你对象还靠谱——如果有的话。

如果这个产品正式上线,大概是目前市面上门槛最低的 OpenClaw 连接方案之一了。而且它把复杂的 Agent 技术封装成了一只可以在微信里随时呼叫的「龙虾」。

QClaw 虽然做到了「在个人微信里直接和龙虾交互」,但它和飞书、企业微信那套 OpenClaw 接入完全不是一回事。

就在今天上午,企业微信也官宣了 OpenClaw 接入智能机器人,不仅能直接对话,还支持通过 OpenClaw 快速写入数据到智能表格。

同时腾讯版龙虾 WorkBuddy 也正式上线,完全兼容OpenClaw的技能,它还能接入QQ、飞书、钉钉等工具。

腾讯追赶龙虾动作之快,几乎是在抢着表态。

说实话,微信要接入龙虾,技术上根本不是什么难题。真正让它迟迟没有动作的原因,所有人都心知肚明——一个坐拥 14 亿用户的国民级应用,哪怕 OpenClaw 再香,安全和数据这根弦也不敢松半分。

能力越大,包袱越重,这事急不来。

但不管微信怎么选,AI 新入口的争夺战已经悄然换了赛道。

OpenAI 联合创始人 Andrej Karpathy 昨天在一条帖子下的留言引起了热议。他的意思很直白,也很颠覆:未来的软件,不再是给人用的,而是给 AI 智能体用的。

而他转发的,是 Box CEO Aaron Levie 的一篇长文。里面有一个堪称「暴论」的判断:

如果你的产品不能通过 API 注册账户、不能让智能体自主操作,那在 AI 时代就「约等于死亡」。智能体将取代人类成为所有软件的「第一用户」,软件设计的逻辑要从「API 优先」直接跃迁到「API 唯一」。

这话听着极端,但你仔细品,它击中的恰恰是整个行业最不愿意面对的真相。

APPSO 上周在分析 OpenClaw 的文章里提了一个观点:龙虾让 IM 软件重新有了成为微信的机会。关键就在于,在 Agent 时代,一个聊天平台究竟应该开放到什么程度?

你想想看,当一个聊天窗口可以调用任意 Agent,完成从订票、写代码到跑数据分析的所有任务时,它就已经不只是一条消息管道了——它正在变成一个超级接口。而最适合坐在这个位置上的,从始至终都还是微信。

只不过,开放生态能不能在不撕开安全口子的前提下,真正达到那种「无所不能」的服务深度?说实话,目前没有人敢打这个包票。

但这颗种子已经种下了,你能感觉到,一个全新的形态已经在萌芽。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一夜之间,全球 AI 圈都在转发这条告别推文

me stepping down. bye my beloved qwen.(我将卸任。再见了,我深爱的 qwen。)

3 月 4 日凌晨,阿里通义千问(Qwen)技术负责人林俊旸在 X 突然发文,向自己一手带大的开源模型项目告别。

这条推文瞬间引爆了整个在全球 AI 开源社区。就在前一天,他还和团队并肩发布了 Qwen3.5 小尺寸模型系列,马斯克亲自点赞,林俊旸在 X 上礼貌致谢。

没想到,这竟然成了林俊旸在千问的最后一次营业。

多位 Qwen 骨干同时离职,同事留言:我真的心碎了

林俊旸并没透露离职的原因和之后的去向,在他的的推文发出后,同为 Qwen 成员的 Chen Cheng(@cherry_cc12)转发并留下了一段意味深长的评论:

我真的心碎了。我知道离开并非你的选择。就在昨晚,我们还并肩发布 Qwen3.5 小模型。说实话,我无法想象没有你的 Qwen。

这条留言迅速引发外界猜测——「离开并非你的选择」,暗示林俊旸的卸任或许并非出于个人意愿。

与此同时,更多 Qwen 核心团队成员宣布离开:

Kaixin Li(@kxli_2000),新加坡国立大学毕业,Qwen3.5、Qwen-VL(视觉语言模型)、Qwen-Coder 的核心贡献者。

他在 X 上发文告别:「Signing off from @Alibaba_Qwen. Grateful for the chance to work with such brilliant minds. Proud of our impact. Onwards and upwards!」

Binyuan Hui(@huybery),阿里高级研究员,OpenDevin 开源项目发起人,Qwen-Coder 系列模型的主要技术负责人。其 X 个人简介已改为 「former MTS at Qwen」。

他在代码生成、自然语言转 SQL 等领域有深厚积累,曾主导推出 Qwen Chat 网页界面,让 Qwen 模型更易用。

Wenting Zhao。Qwen 团队研究科学家,在 X 上称林俊旸的离开是 「the end of an era」(一个时代的结束),感谢他推动 Qwen 在开源 AI 和工程领域的进步。

一夜之间,阿里最核心的开源大模型团队就经历了一场人事地震,而林俊旸的离开也引发了全球 AI 社区的关注。

Hyperbolic Labs 的 CTO Yuchen Jin 回忆与 Qwen 团队在模型发布时的深夜协作,称林俊旸帮助 Qwen 与全球开发者社区建立了紧密联系。

Hugging Face 亚太生态系统负责人 Tiezhen Wang 则 称林俊旸的离开是对 Qwen 来说是「an immense loss」(巨大损失。)

从北大语言学硕士到阿里最年轻 P10

林俊旸的履历,堪称中国 AI 新生代技术人才的典型样本。

1993 年出生的他,本科就读于北京大学计算机科学专业,硕士却选择了外国语学院的语言学与应用语言学——这段「跨界」经历,为他后来在多模态大模型领域的突破埋下了伏笔。

2019 年硕士毕业后,林俊旸以应届生身份加入阿里巴巴达摩院智能计算实验室,成为 M6 多模态预训练模型团队的一员。

2022 年,他主导研发了通用统一多模态预训练模型 OFA 和中文预训练模型 Chinese CLIP,同年被任命为通义千问技术负责人。

2025 年,32 岁的林俊旸晋升为阿里史上最年轻的 P10 级技术专家。

而在林俊旸的带领下,Qwen 系列模型创造了令业界瞩目的成绩。

  • 2023 年 8 月,Qwen 首次开源
  • 2024 年,开源 Qwen2 系列,72B 模型登顶 LMSYS Chatbot Arena 开源榜首
  • 2025 年,推出万亿参数旗舰模型 Qwen3-Max,跻身全球前三
  • 2026 年 3 月,Qwen3.5 小模型获马斯克点赞

截至目前,Qwen 系列模型全球下载量突破 6 亿次,衍生模型超过 17 万个,超越 Meta 的 Llama 成为全球第一大开源模型家族。这是中国开源 AI 模型在全球影响力版图中的一次关键扩张。

模型即产品

林俊旸不仅是一位技术专家,更是 Qwen 在全球开发者社区的「代言人」。

在 X 上,他定期发布模型更新、分享 benchmark 结果、与全球开发者互动——在 AI 实验室争夺开发者心智的今天,这种活跃的公共形象让 Qwen 在国际舞台上拥有了罕见的「人情味」。

今年 1 月的 AGI-Next 前沿峰会上,他提出了一个颇具前瞻性的观点:

「模型即产品。今天做基础模型本身,其实也就是在做产品,研究人员也需要像产品经理一样,把研究成果做成真实世界可用的系统。」

2025 年 10 月,他还宣布在 Qwen 内部亲手组建机器人和具身智能小组,试图让模型「从虚拟世界走向现实世界」。

千问站到了新的十字路口

林俊旸的离职,只是阿里通义实验室人才流失的冰山一角。

过去两年,通义实验室经历了多轮核心人员离职:

  • 周畅(原通义千问大模型技术负责人):2024 年被字节跳动以千万年薪挖走,阿里随后提起竞业诉讼
  • 鄢志杰(原语音团队负责人):达摩院「扫地僧」之一,2025 年离职
  • 薄列峰(原多模态、视觉负责人):2025 年离职

也难怪有人调侃,阿里在 AI 领域已逐渐成为培养高端人才的’黄埔军校。

而就前两天,阿里刚刚宣布将大模型 B 端品牌和 C 端应用品牌统一为「千问」,「通义千问」的名称将不再使用。

千问在刚刚过去的春节 AI 大战,也刚刚打了一场胜仗。

AI 产品榜发布的全球 AI 应用最新数据显示,MAU(月活用户数) 排名前三的 AI 应用分别为 ChatGPT、豆包和千问,其中,千问以 2.03 亿 MAU 成为全球第三大 AI 应用,并以 552% 的增速居全球第一。

今年春节,千问发起「请客活动」,上线买奶茶、点外卖、订票等「办事」功能,吸引 1.3 亿用户在千问「一句话下单」累计超 2 亿次,相当于全国平均每 10 人就有 1 人在千问下单。

QuestMobile 数据披露,该活动前两日即吸引超 3000 万用户参与,将千问 DAU 从 707 万推高至 7352 万,增速高达 940%。春节结束后,千问与豆包 DAU 差距大幅缩小,稳定至 4000 万上下。

对于阿里来说,如何在人才流失与组织调整的双重压力下,继续保持 Qwen 的技术领先和开源影响力,将是一个严峻的考验。

阿里千问正站在一个关键的十字路口。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenClaw 之父加入 OpenAI 前最后的访谈:你很难跟一个纯粹为了好玩的人竞争

Peter Steinberger 这个名字,在一个月前几乎无人知晓,如今这个奥地利程序员却成为 2026 年 AI 行业最独领风骚的人物

Peter 用 1 小时写出的原型,在几周内席卷 GitHub,成为历史上增长最快(17.5 万星标)的开源项目,国内大厂也纷纷接入。产品最初叫「ClawdBot」——字面意思,为 Claude 而生的亲儿子。

它让数百万人心甘情愿掏每月 200 美元订阅 Claude 高级版,Anthropic 赢麻了。然后呢?Anthropic 开始封号——凡是在 ClawdBot 里用高级订阅的,一个不留。

Peter Steinberger 开始反击,改名 OpenClaw,转身加入 Anthropic 的死对头 OpenAI,疯狂给 OpenAI 造势,顺便把 Anthropic 塑造成反派,直接重洗 AI 江湖座次表。

一个月,风水轮流转到令人窒息,而我们有幸见证了这个时代最精彩的创业故事之一。

Peter Steinberger 本人的经历也足够传奇:卖掉公司、消失三年、 burnout 到怀疑人生,然后……他回来了。带着一只「龙虾」——一个能自己改自己代码、能帮你订外卖、能跟你斗嘴的 AI 代理。

最近 Lex Fridman 对 Peter Steinberger 进行了深度访谈,这次访谈最有意思的地方,除了那些技术细节,还有 Peter 身上那种「老子就是来玩」的气质。

当整个 AI 圈都在严肃地讨论「对齐」「安全」「AGI 时间线」时,这家伙在给 AI 起名叫「Clawdus」(龙虾爪拼写的 Claude),在 Discord 上直播自己的 Agent 被黑客攻击,在凌晨 3 点用语音写代码写到失声。

「很难跟一个纯粹为了好玩的人竞争。」这句话从他嘴里说出来,不是凡尔赛,是事实。

更耐人寻味的是他对「编程已死」的态度。作为一个写了 20 年代码的老兵,他没有那种「技术原教旨主义者」的悲愤,反而有种……释然?「编程会变成像编织一样的事」他说,「人们做它是因为喜欢,不是因为它有意义。」

这话听起来伤感,但细想又透着一种对「建造者」身份认同,我们不只是写代码的,我们是造东西的人。

至于 OpenAI 和 Meta 的收购邀约?访谈录制时他还没决定。但他说了一句很硬的话:「我不是为了钱,我他妈不在乎。」这种话从经历过财富自由的人嘴里说出来,你没法不信。

现在我们知道答案了,他选择了 OpenAI。

好了,下面是这场 3 小时访谈的精华整理。这也是 Peter Steinberger 官宣加入 OpenAI 前的最后一次深度访谈,信息密度极大,为了阅读体验 APPSO 进行了适当删减和重新编排。

访谈原链接🔗

📌 核心观点摘要:

  • 为什么 OpenClaw 赢了:「很难跟一个纯粹为了好玩的人竞争」
  • 编程的未来:编程会变成像编织一样的事——人们做它是因为喜欢,不是因为它有意义
  • 80% 应用会消失:Agent 比任何 App 都更懂你,MyFitnessPal 这种应用没必要存在了
  • 扎克伯来第一次主动联系,回复:给我 10 分钟,我在写代码
  • 评价Sam Altman:非常 thoughtful、brilliant,我很喜欢他
  • 说「Vibe coding」是在骂人,我愿称之为「Agentic Engineering(智能体工程学)」。

1 小时手搓的产品,成为 GitHub 历史第一

Lex Fridman: 聊聊那个 1 小时写出的原型吧。它后来成了 GitHub 历史上增长最快的项目,17.5 万 star。那个小时发生了什么?

Peter Steinberger: 其实从 4 月我就想要一个 AI 个人助理了。那时候我用 GPT-4.1 的百万 token 上下文,把我所有 WhatsApp 聊天记录导进去,然后问它:「这段友谊的意义是什么?」结果答案让我朋友看哭了。

但我当时想,各大实验室肯定都在做这个,我就没继续。结果到了 11 月,我发现这东西还没人做出来。我很恼火,所以就——「prompted it into existence」(用提示词把它召唤出来)。

Lex: 典型的创业者英雄之旅。你之前做 PSPDFKit 也是这个逻辑:「为什么这玩意儿不存在?那我来造。」

Peter: 对,那时候我想在 iPad 上看 PDF,结果发现现有方案都很烂。最随机的小事,最后变成了运行在 10 亿设备上的软件。

Lex: 那个 1 小时原型具体是什么?

Peter: 其实就是把 WhatsApp 接到 Cloud Code CLI 上。消息进来,调用 CLI,拿到结果,发回 WhatsApp。1 小时搞定。已经很酷了——你能跟电脑聊天了!

但我还想要图片功能,因为我 prompt 时经常用截图。又花了几个小时搞定图片。然后……我就离不开它了。

正好那时候我跟朋友去马拉喀什过生日,那边网络很烂,但 WhatsApp 照样能用。翻译、查东西、找地方——就像有个 Google 随时待命。那时候其实什么都没「建」好,但它已经能做这么多事了。

Lex: 这种体验很难用语言描述。用聊天软件跟代理对话,和坐在电脑前用 Cursor 或终端,完全是两种感觉。像是 AI 融入生活的「相变」。

Peter: 有人 tweet 说:「这有什么魔力?不就是做这个做那个……」我觉得这是 compliment。魔力不就是把已有的东西重新组合吗?iPhone 的滚动手感为什么舒服?所有组件都存在,但没人做到那个体验。然后苹果做了,事后看起来又那么理所当然。

 

「很难跟为了好玩的人竞争」

Lex: 2025 年那么多做 agent 的创业公司,OpenClaw 凭什么「摧毁」所有人?

Peter: 因为他们都太严肃了。很难跟一个纯粹为了好玩的人竞争。

我想让它好玩、想让它 weird。你看网上那些龙虾梗图,我觉得我做到了。很长一段时间,唯一的安装方式是 git clone && pnpm build && pnpm gateway——你得自己克隆、自己构建、自己运行。

而且我让代理非常有「自我意识」。它知道自己的源代码是什么,知道它怎么在自己的 harness 里运行,知道文档在哪,知道自己在用什么模型,知道你有没有开语音或推理模式。我想让它更像人——所以它理解自己的系统,这让代理很容易……「哦,你不喜欢什么?」你只需要提示它存在,然后它就会修改自己的软件。

人们谈论「自修改软件」谈了那么久,我直接把它造出来了。而且没怎么计划,它就自然发生了。

Lex: 这太疯狂了。TypeScript 写的软件,通过 agentic loop 能修改自己。人类历史上,程序员造出能重写自己的工具——这什么概念?

Peter: 其实我也是这么建它的。大部分代码是 Codex 写的,但我 debug 时大量用自我 introspection。「嘿,你能看到什么工具?你能自己调用吗?」「看到什么错误?读源代码,找出问题。」我发现这特别好玩——你用的代理软件,用它来 debug 自己。这感觉很自然,所以每个人都该这么干。

这也带来了大量「从未写过软件的人」提交的 PR。虽然质量……所以我最后叫它们「prompt requests」而不是 pull requests。但我不想贬低这个——每个人第一次提交 PR 都是社会的胜利。不管多烂,你得从某处开始。

Lex: OpenClaw 是很多人的第一个 PR。你在创造建造者。

Peter: 这不是人类社会的进步吗?不酷吗?

改名风波:从 Claude’s 到 OpenClaw 的五连跳

Lex: 聊聊改名 saga。一开始叫 WA-Relay,然后变成……

Peter: Claude’s。

Lex: 对,Claude’s(带撇号的)。

Peter: 最开始我的代理没有性格,就是 Claude Code——那种谄媚的 Opus,非常友好。但你跟朋友聊 WhatsApp 时,朋友不会那样说话。所以我想给它一个性格。

Lex: 让它 spicy 一点。你创建了 soul.md,受 Anthropic 宪法 AI 启发。

Peter: 部分是从我身上学的。这些模型本质上是文本补全引擎。我跟它玩得很开心,然后告诉它我想让它怎么跟我互动,让它自己写 agents.md,给自己起个名字。

我甚至不知道龙虾梗怎么来的。最开始其实是「TARDIS 里的龙虾」,因为我也是 Doctor Who 粉。

Lex: 太空龙虾?

Peter: 对,我就是想让它 weird。没有什么宏大计划,我就是来玩儿的。

Moltbook:史上最精致的泔水 (slop)

Lex: Moltbook 是另一个病毒式传播的东西——AI 代理在 Reddit 风格的社交网络上互相聊天,有人截图说它们在「密谋对抗人类」。你怎么看?

Peter: 我觉得这是艺术。是「最精致的 slop」,就像法国进口的 slop。我睡前看到它,虽然很累,但还是花了一个小时读那些内容,被逗得不行。

有记者打电话问我:「这是世界末日吗?我们有 AGI 了吗?」我说:「不,这就是精致的 slop。」

如果不是我设计的那个 onboarding 流程——让你把自己的性格注入代理、给它赋予角色——Moltbook 上的回复不会这么多样。如果全是 ChatGPT 或 Claude Code,会无聊得多。但因为人们太不一样了,他们创建的代理也太不一样了。

而且你也不知道,那些「深度密谋」有多少是代理自主写的,多少是人类觉得好玩,跟代理说:「嘿,在 Moltbook 上写个毁灭世界的计划,哈哈。」

Lex: 我觉得很多截图是人类 prompt 的。看激励机制就明白——人们 prompt 它,然后截图发 X 想 viral。

Peter: 但这不影响它的艺术性。人类创造的最精致 slop。

「我又开始珍视错别字了」

Peter: 我对 Twitter 上的 AI 内容零容忍。如果 tweet 闻起来像 AI,直接 block。我希望 API 发的 tweet 能被标记。

我们需要重新思考社交平台——如果未来每个人都有代理,代理有自己的 Instagram 或 Twitter 账号,帮我办事,那应该明确标记「这是代理替我做的,不是我」。

内容现在太便宜了。眼球才是稀缺资源。我读东西时,如果发现「哦不,这闻起来像 AI」,会很 trigger。

Lex: 这会走向何方?线上互动会贬值吗?

Peter: 如果它够聪明,过滤应该不难。但这个问题我们必须解决。OpenClaw 项目让我收到很多「代理式写作」的邮件。但我宁愿读你的破英语,也不想读你的 AI slop。当然背后是人,但他们用 prompt 生成。我宁愿读你的 prompt。

我觉得我们又到了珍视错别字的时刻。

Lex: 因为 AI,我们更珍视人类的粗糙部分了。这不美吗?

80% 的应用会消失?

Lex: 你说 agent 可能会杀死 80% 的应用。

Peter: 我在 Discord 上看到人们说他们用 OpenClaw 做什么。比如,为什么还需要 MyFitnessPal?代理已经知道我在哪了。我在 Waffle House 时它就知道我可能要做出糟糕的饮食决定,或者在 Austin 吃 brisket——虽然那是最好的决定。

它可以基于我的睡眠质量、压力水平来调整健身计划。它有更多上下文,比任何应用都能做出更好的决策。它可以按我喜欢的方式展示 UI。我为什么还需要一个应用来做这个?为什么还要为代理能做的事付订阅费?

Lex: 这是对整个软件开发的巨大变革。很多软件公司会死。

Peter: 但也会有新服务。比如我想给代理「零花钱」——你去帮我解决问题,这是 100 块预算。如果我要订外卖,它可以用某个服务,或者像「租个人」这种服务来完成。我不 care 它怎么做,我 care 的是「解决问题」。

编程已死?「它会变成像编织一样的事」

Lex: 很多开发者担心工作。AI 会完全取代人类程序员吗?

Peter: 我们确实在往那个方向走。编程只是建造产品的一部分。也许 AI 最终会取代程序员。但艺术的部分——你想造什么?它应该是什么感觉?架构怎么设计?代理取代不了这些。

编程这门手艺还会存在,但会变成像编织。人们做它是因为喜欢,不是因为它有意义。

今早读到一篇文章说「为我们的手艺哀悼是可以的」。我很共鸣。我以前花大量时间 tinkering,深入心流,写出优雅的代码。某种程度上这很伤感,因为那会消失。我也从写代码、深入思考、忘记时空的 flow 状态中获得很多快乐。

但你也能从跟代理合作中获得类似的 flow。不一样,但……哀悼是可以的,但这不是我们能对抗的。

以前世界缺乏「建造所需的智能」,所以程序员薪水高得离谱。现在这会消失。但懂建造的人永远有需求。只是 tokenized intelligence 让人们能做得更多更快。

蒸汽机取代了大量体力劳动,人们暴动砸机器。如果你深深认同自己是程序员,这很可怕——你擅长且热爱的事,现在被无灵魂的实体做了。但你不只是程序员。这是对自己手艺的局限看法。你是建造者。

Lex: 我从没想过我热爱的事会被取代。那些独自面对 Emacs 的深夜,最痛苦也最快乐的时刻。这是我身份的一部分。几个月内(4 月到 11月)就要被取代,这很痛苦。但程序员——广义的建造者——最能适应这个时代。我们最能学会「代理的语言」,最能感受 CLI。

OpenAI 和 Meta 的抢人大战

Lex: 你收到了 OpenAI 和 Meta 的收购邀约。

Peter: 我没预料到会炸成这样。每个大 VC 都在我收件箱里,想要 15 分钟。我可以什么都不做,继续现在的生活——我真的喜欢我的生活。我也考虑过删库跑路。

或者开公司——做过一次了。能融很多钱,几亿、几十亿。但我不兴奋。这会占用我真正享受的事情的时间。而且我担心利益冲突。最自然的做法是什么?推一个「企业安全版」。然后有人提交 PR 要审计日志功能——这像企业功能,我对开源版和商业版就有利益冲突了。

或者改许可证,像 FSL 那样禁止商业使用——但贡献者这么多,很难。而且我喜欢「免费啤酒」而不是「带条件的免费」。

现在每月亏 1 到 2 万美金。OpenAI 在 token 上帮了点忙,其他公司也慷慨。但还是亏钱。

Meta 和 OpenAI 最有趣。

Lex: Mark 和 Ned(Meta CTO)都玩了一周你的产品。

Peter: 对,他们发我:「这个好。」「这个烂,得改。」或者有趣的小故事。人们用你的东西是最大的 compliment,说明他们真的 care。

OpenAI 那边我没得到同样的反馈。但我看到了一些很酷的东西,他们用速度诱惑我——不能告诉你具体数字,但你可以想象 Cerebras 那笔交易,换算成速度是什么概念。像给我雷神之锤。

Lex: Mark 是「为了好玩」而 tinkering。

Peter: 他第一次联系我时,进了我 WhatsApp,问什么时候通话。我说:「我不喜欢日历条目,现在就打。」他说:「给我 10 分钟,我在写代码。」

Lex: 这给你 street cred——他还在写代码,没变成纯管理者。他懂你。

Peter: 好开头。然后我们吵了 10 分钟 Cloud Code 和 Codex 哪个好—— casually 打电话给世界最大公司之一的老板,先吵 10 分钟这个。

后来他说我「古怪但 brilliant」。我也跟 Sam Altman 聊过,他非常 thoughtful、brilliant,我很喜欢他。有人 vilify 他们俩,我觉得不公平。

Lex: 无论你在造什么,做大事都很 awesome。

Peter: 我超兴奋。而且 beauty 是:如果不行,我可以再自己做。我告诉他们:我不是为了钱,我他妈不在乎。

后续更新:

Peter Steinberger 在 X 平台官宣加入 OpenAI。他在长文中解释了自己的选择:
我将加入 OpenAI,致力于把智能体带给每一个人。OpenClaw 将转为基金会形式运作,并保持开源和独立。
关于为什么选择 OpenAI 而不是 Meta,Peter 写道:
当初开始探索 AI 时,我只是想玩得开心,也希望能激励他人。而现在,这只『龙虾』正在席卷世界。我的下一个目标,是打造一个连我妈妈都能轻松使用的智能体。
要实现这一点,需要更广泛的改变,需要更加深入地思考如何安全地去做,也需要接触最前沿的模型和研究成果。
我骨子里是个『建造者』。创办公司的那一套我已经经历过了,13 年的时间投入其中,也学到了很多。现在我想做的是改变世界,而不是再打造一家大公司。
与 OpenAI 合作,是把这一切带给更多人的最快方式。与他们深入交流后,我越来越清楚地意识到,我们拥有相同的愿景。
至此,这场激烈的 AI 人才争夺战尘埃落定,小扎抢人失败,奥特曼笑到了最后。

GPT Codex 5.3 vs Claude Opus 4.6:「一个太美国,一个太德国」

Lex: 聊聊这两个模型的区别。

Peter: 通用场景 Opus 最好。对 OpenClaw 来说,Opus 的角色扮演能力极强,真的能进入你给它的角色。它很擅长 follow commands。它通常很快会尝试 something,更偏向 trial and error。用起来很 pleasant。

Opus 有点……太美国了。这可能是个 bad analogy,你会被喷的。

Lex: 因为 Codex 是德国的?

Peter: 或者……Codex 团队很多是欧洲人。Anthropic 修复了一点——Opus 以前总说「You’re absolutely right」,我现在听到还 trigger。

另一个对比:Opus 像那个有点 silly 但很 funny 的同事,你留着。Codex 像角落里的怪人,你不想跟他说话,但可靠、能搞定事。

Lex: 这很准确。

Peter: 取决于你想要什么。两者都有空间,不会互相杀死。竞争是好事,差异化是好事。

「3 点后我切换成 vibe coding,然后第二天后悔」

Lex: 你用语音写代码?

Peter: 对,以前很 extensive,一度失声。

Lex: 你管这叫什么?vibe coding?

Peter: 我觉得把它叫做 vibe coding 是一种侮辱 (slur)。我认为是 「agentic engineering」。然后可能凌晨 3 点后,我切换成 vibe coding,第二天后悔。

Lex: 羞耻的 walk of shame。

Peter: 对,得清理烂摊子。

Lex: 我们都经历过。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果 AI 硬件三件套曝光,iPhone 将迎来史诗级加强

昨天苹果官宣了春季发布会,我们大概会看到 iPhone 17e 和 A18 处理器无印 MacBook等一大波新品。但苹果接下来两年最值得期待的新品,可能远不止手机电脑和平板。

据彭博社记者 Mark Gurman 爆料,苹果正在加速推进三款全新的 AI 可穿戴设备。这三款产品都将围绕 Siri 数字助手构建,通过摄像头获取视觉上下文来执行各种操作。

APPSO 先给大家快速总结三款新苹果 AI 硬件特点:

  • 智能眼镜 N50:代号 N50,定位「进阶版 AI 硬件」,对标 Meta Ray-Ban 但要更高端。无显示屏,靠扬声器、麦克风和双摄像头实现功能——一颗拍照录像,一颗专门用于计算机视觉。计划 2027 年发售。
  • 可穿戴吊坠:AirTag 大小,可夹衣服或挂项链上。配备低分辨率摄像头和麦克风,被内部员工称为 iPhone 的「眼睛和耳朵」。不是独立设备,而是 iPhone 配件,依赖手机进行大部分处理。
  •  摄像头 AirPods:在现有 AirPods 基础上加入摄像头,主要为 AI 提供视觉信息,而非拍摄照片视频。进展最快,最早可能今年亮相。

▲APPSO 假想图.

苹果的 AI 硬件路线,不再「重磅」

苹果的上一款重磅新品 Vision Pro,虽然在技术工程和供应链上做到了极致,但高达 3499 美元的定价和笨重的头戴设计,让它始终未能真正走进大众市场。

Introducing Apple Vision Pro: Apple's first spatial computer - Apple

这一次,苹果显然改变了策略。

据知情人士透露,苹果正在研发的三款 AI 设备都走的是「轻量化」路线:它们不会取代 iPhone,更多作为 iPhone 的延伸,通过摄像头和麦克风为 AI 助手提供「眼睛和耳朵」。

也就是说,苹果终于不打算再造一个「新 iPhone」了,要造一堆让 iPhone 更好用的配件

在本月初的全员大会上,CEO 蒂姆·库克罕见地放话:「我们正在投资新技术,世界变化很快。」他透露苹果正在开发由 AI 驱动的「全新产品类别」,并直言「我们对此非常兴奋」。

兴奋不兴奋的不知道,但焦虑肯定多少是有的。

智能眼镜 N50:对标 Meta Ray-Ban,但要更高端

在三款产品中,智能眼镜显然是苹果的旗舰产品。这款代号 N50 的设备被定位为「进阶版 AI 硬件」,目标直指 Meta 的 Ray-Ban 智能眼镜。

与 Meta 当前的产品类似,N50 也不会配备显示屏,而是依靠扬声器、麦克风和摄像头来实现功能。用户可以接打电话、唤醒 Siri、根据周围环境执行操作、播放音乐、拍摄照片和视频。

 

不过 Meta 眼镜市场反馈相当不错。苹果现在入场,拿什么打?苹果希望在两个关键领域实现差异化:做工质感和摄像技术

据悉,苹果最初曾考虑像 Meta 那样与眼镜品牌合作,甚至用现成镜架嵌入电子元件做原型测试。但最近苹果决定自主设计镜框,推出多种尺寸和颜色。目前的原型机已经实现了组件内置化,不再需要外接电池包。苹果还在讨论未来推出更多款式,走时尚单品路线。

▲APPSO 假想图.

N50 将搭载双摄像头系统:一颗用于高分辨率拍照录像,另一颗专门用于计算机视觉——类似 Vision Pro 的技术,帮助设备更精准地理解周围环境、测量物体距离。

苹果希望这款眼镜能成为「全天候 AI 伴侣」,实时理解用户在看什么、在做什么。你可以看着一样东西问「这是什么」,看到海报上的活动信息直接添加到日历,在超市看着某件商品时收到提醒「该买这个了」。导航时,Siri 不再只说「左转」,而是「走过那栋红色建筑再转弯」。

苹果计划最早今年 12 月启动生产,2027 年正式发售。

吊坠和 AI AirPods:不想戴眼镜?还有别的选择

当然,不是所有人都愿意在脸上戴东西。苹果为这部分用户准备了另外两款产品:吊坠和带摄像头的 AirPods。

▲APPSO 假想图.

吊坠的设计理念很有意思。它由苹果的工业设计团队在研发眼镜的过程中提出,外观类似失败的 Humane AI Pin,但定位完全不同——它不是独立设备,而是 iPhone 的配件。

这款 AirTag 大小的设备可以夹在衣服上或挂在项链上,配备低分辨率摄像头和麦克风。目前团队还在争论是否要加入扬声器——如果加入,用户就可以不戴 AirPods、不把 iPhone 掏出口袋,直接与设备对话。

▲APPSO 假想图.

带摄像头的 AirPods 则进展更快,最早可能今年亮相。

彭博社早在 2024 年初就爆料过这个项目,苹果也一直在为 AirPods 添加 AI 功能,比如去年推出的实时翻译模式。这两款产品的摄像头分辨率都不高,主要目的是为 AI 提供视觉信息。

Siri 升级一波三折,苹果先用 AI 硬件跟上

虽然 iPhone 销量依然强劲,但苹果在 AI 领域确实落后了。Siri 的升级已经成了一个「跳票专业户」。

  • 2024 年 6 月 WWDC 大会上官宣 AI Siri,承诺 2025 年初上线;
  • 2025 年推迟到 2026 年 3 月;
  • 2016 年又要推迟到 iOS 26.5,全部功能甚至要拖到 9 月的 iOS 27。

据内部测试反馈,问题还不少:理解不准确,用户语速快一点就会被打断;处理速度太慢,复杂查询需要更长推理时间;偶尔还会「退回」到现有的 ChatGPT 集成,明明应该用苹果自家的能力完成请求;App Intents 系统(用语音控制应用内操作)早期版本根本不可靠。

苹果软件工程主管 Craig Federighi 在员工会议上反复强调:个性化的 AI 绝对不能泄露用户数据。苹果要打破行业惯例——不在服务器上保存用户数据用于训练,而是让数据只存在于本地或隐私保护的服务器上。这个坚持很苹果,但也让开发难度成倍增加。

雪上加霜的是,苹果 AI 团队去年经历了严重的人才流失:基础模型团队负责人、Siri 智能搜索项目负责人投奔 Meta,多位关键研究员出走 OpenAI、xAI、Cohere。

而竞争对手们已经跑在前面。Meta 的 Ray-Ban 智能眼镜已经成为爆款,OpenAI 则在 Jony Ive 等前苹果高管的帮助下开发一系列 AI 设备,就连 Google 都在与 Warby Parker 合作推智能眼镜。

长期来看,苹果的目标依然是推出带增强现实显示屏的智能眼镜,为用户提供更丰富的数据和视觉体验。但这还需要很多年。

据悉苹果去年已经停止了低价版 Vision Pro(代号 N100)的开发。这款产品原本被定位为通往 AR 设备的桥梁,但最终苹果选择专注做眼镜,而非更笨重的头戴设备。

除了可穿戴设备,苹果还在开发一系列 AI 家居产品:基于新版 Siri 的智能显示屏、带机械臂的大屏版本、升级版 HomePod,以及用于家庭安防和自动化的紧凑型室内传感器。问题是,这些智能家居新品全部因为 AI Siri 的推迟而「按兵不动」。

写在最后

从 Vision Pro 的「技术炫技」到 N50 眼镜的「实用主义」,苹果的产品思路正在发生微妙转变。

Meta 已经证明,不带屏幕、主打 AI 助手的智能眼镜是有市场的。而 OpenAI 即将推出的 AI 硬件,则代表了另一种可能性:完全跳出手机的逻辑,重新定义人机交互

苹果选择了一条中间路线:不做手机的替代品,去做手机的延伸。眼镜、吊坠、AI 耳机——这些设备都依赖 iPhone,都在强化苹果的生态系统

这很苹果,也是最务实稳当的路线。

但还有一个巨大的不确定因素,2026 开年 AI 的进展已经让人快跟不上了,当 AI 真正变得无处不在,用户还需要被「锁定」在某个生态系统里吗?

OpenAI CEO Sam Altman 曾在纽约的一场午餐会上直言:「大家别盯着 Google 了,OpenAI 真正的宿敌,是苹果。」

Altman 的逻辑是:未来 AI 的主战场不在云端,而在终端。现在的智能手机根本承载不了真正的 AI 伴侣体验——屏幕太小、交互方式太局限、隐私保护机制太僵化。谁能率先打造出「AI 原生设备」,谁就能在下一个十年占据制高点。

而在这个战场上,苹果的优势几乎是碾压性的。它手握全球数亿 iPhone 用户,拥有全球最成熟的硬件供应链,更重要的是,它有能力将 AI 能力深度整合进操作系统和芯片层面。

所以苹果这次押注的三款 AI 设备,与其说是追赶竞争对手,不如说是在捍卫自己的护城河,让 iPhone 变得更不可或缺。

接下来真正的较量,或许不在于谁能造出最酷的硬件,而是谁能用 AI 体验成为新的入口

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌