阅读视图

发现新文章,点击刷新页面。

黄仁勋的 Token 经济,李彦宏的 DAA,AI 度量衡之争才刚开始

两个月前在圣何塞,黄仁勋穿着皮衣站在 GTC 的舞台上,告诉全世界:Token 是新的大宗商品,生成 Token 的成本与效率,决定科技企业的营收与生死。

昨天,李彦宏站在 Create 2026 的开幕式上,说了一句看似拆台的话:「Token 只是代表成本,并不代表收益。它衡量的是投入,而不是产出。」

然后他抛出了一个新概念,DAA,Daily Active Agents,日活智能体数

卖铲子的人说,看铲子消耗量就知道金矿的繁荣程度。挖矿的人说,你倒是看看我挖出了多少金子。

他们都没说错。但同一座金矿,用不同方式去称量,得出的故事完全不同。

真正有意思的地方不在于谁对谁错,在于一个事实:AI 跑得太快了,快到这个行业连怎么给自己记账都还没想清楚。

DAA :从「烧了多少」到「干了多少」

李彦宏的 DAA 逻辑并不复杂。移动互联网时代,衡量平台看 DAU,日活用户数。微信 13 亿,抖音 7 亿,Meta 34 亿。进入智能体时代,对应的指标应该是 DAA,有多少 Agent 每天在给人类干活,并交付结果。

「交付结果」四个字是重点。

Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书,还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元?这两种场景消耗的 Token 可能差不多,创造的价值天差地别。

李彦宏说,「这比无谓的 Token 消耗,更接近价值,也更接近本质。」

他还给了个大胆的预测:未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务,你是一个 DAU,但贡献了三五个 DAA。

Agent 数量远超人口,技术上已经可以想象。

李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局,是需要点勇气的。

当然,也需要点动机。

Token 经济学:一种极其性感的叙事

Token 经济学的性感之处在于,它有大量数据支撑。

截至今年 3 月,中国日均 Token 调用量超过 140 万亿,相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。

一条陡峭到让人眩晕的增长曲线,核心驱动力恰恰是 Agent。

过去 Chatbot 时代,单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后,一个完整任务触发几十上百次模型调用,中等任务吃掉 10 万 Token,复杂任务上百万。

Agent 越多,Token 消耗越大,算力需求越高,芯片卖得越好

这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元,净利润 1170 亿美元。黄仁勋有充分的理由说:Token 就是新的石油

企业也在用脚投票。阿里成立 Token Hub 事业群,吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好,不计成本。昆仑万维发内部信强制 AI Coding,达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。

Token 消耗量作为指标,最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿,谁看都一样。

但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅,未必是一家好餐厅。

共识大于分歧

把 Token 经济学和 DAA 放在一起看,你会发现它们的共识其实大于分歧。

这两个判断都基于 AI 正从对话阶段走向 Agent 阶段,而且都认为这是万亿级的产业重塑

分歧在哪?在于谁的账本更能代表这个行业的健康程度。

Token 量的是投入侧:消耗了多少算力,工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。

DAA 量的是产出侧:有多少 Agent 在运行,完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜,卖点全是「帮你把事做完」。只有用「结果交付」来记账,应用层的价值才浮得出水面。

屁股决定脑袋,但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。

有意思的是,腾讯也站到了应用侧。腾讯云副总裁杨晨说过:「我们认为 Token 不是一个多么健康的生意,它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景,它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反,吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。

同一个行业,同一批聪明人,看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。

Token 消耗量像 GDP,量总规模,不管建了一座桥还是挖了个坑再填上。DAA 像就业率,量的是有多少「劳动力」在创造价值。GDP 高但就业率低,那叫空转。就业率高但产出质量差,那叫虚胖。一个健康的经济体两个数字都要看。

但对普通用户来说坦率地讲,这两个指标都是术语。

用户只在乎一个朴素的问题:好不好用?帮我省了多少时间?花了我多少钱?

Token 经济学叙事下的 AI 产品,对用户其实不太友好。

你用打车软件,起步价多少、每公里多少、堵车怎么算,一清二楚。你用 AI Agent,到底消耗了多少 Token,是哪个模型在跑,Agent「反思」了几轮导致费用翻倍,很多普通用户还搞不明白。

DAA 至少提供了另一种视角:用户不该关心 Agent 烧了多少 Token,该关心它有没有帮你把事做完。前者是水表读数,后者是水龙头出不出水。

造词运动的背后

2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月,140 万亿。1000 倍。这种速度下,任何已有的框架和认知都会瞬间过时。

于是,每个玩家只能从自己的位置出发,尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」,李彦宏造了「DAA」,阿里造了「Token Hub」……

Token 衡量的是基础设施的繁荣程度,DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行,没有 Agent 交付结果 Token 消耗就只是空转。

对用户来说,最好的度量衡是那个你根本不需要知道的。你打开水龙头,水来了。你把活交给 Agent,事做完了。你看一眼账单,觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层,留给黄仁勋和李彦宏去争论就好。

从 DAU 到 DAA,从「人在用产品」到「产品在帮人干活」,AI 时代的价值坐标正在被重建

争论是好事。当一个行业只有一种记账方式的时候,所有人都会围绕同一个数字做优化,不管那个数字是否真的通向价值。

多一种衡量的维度,至少多一个纠偏的机会。

至于最后哪套度量衡能留下来,答案可能不在黄仁勋和李彦宏手里,在你手里。

你每天用 Agent 做了什么,做得好不好,愿不愿意继续付费。这些真实发生的选择,才是 AI 时代最诚实的投票。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

独家|苹果带摄像头的AirPods或被迫暂停,部分产线「原地解散」

今天凌晨彭博社 Mark Gurman 最新爆料称,苹果内置摄像头的 AirPods 已进入 DVT(设计验证测试)阶段,原型机接近最终设计,最快有望于今年 9 月随新 iPhone 一同发布。


这也是苹果第一个真正意义上的 AI 可穿戴设备,这个被内部视为「给 Siri 装上眼睛」的产品,在供应链体系中的代号为 H90,研发周期已长达约 4 年。

但据接近供应链的知情人士向 APPSO 透露,代号 H90 的项目近期在供应链端出现了异动:部分产线已经「原地解散」,项目可能已被暂时搁置

知情人士将原因指向同一个方向:欧盟隐私法规的合规风险

需要说明的是,供应链动态的解读存在多种可能。产线调整、供应商切换、设计方案迭代,都可能造成类似信号。

但考虑到苹果对核心组件供应商的强管控传统,以及这款产品在苹果 AI 战略中的核心地位,因合规问题导致项目节奏调整是目前最有可能的推测。

换句话说,苹果可能不是做不出这个产品,很可能暂时过不了欧盟这一关。

苹果第一个 AI 可穿戴产品,是什么样的

在展开搁置原因之前,有必要先讲清楚新 AirPods 到底是什么。因为它和大多数人想象中的「带摄像头的耳机」很不一样。

外观上,新款 AirPods 和你现在用的 AirPods Pro 3 长得非常像。最明显的区别在耳机柄:因为要容纳摄像头模组,H90 的柄体略微加长。

如果不仔细看,可能很难一眼发现它和普通 AirPods 的区别。苹果显然在设计上克制了「异物感」,没有像光帆科技那样把摄像头直接裸露在耳机外壳上。

摄像头的类型是理解这款产品的关键。 新 AirPods 搭载的是低分辨率红外传感器,技术原理和 iPhone 上用于 Face ID 的模组属于同一家族。

▲图片由 AI 生成

这个摄像头不拍照和录像,也不生成任何你能打开查看的图像文件。它的工作方式更接近一种「环境扫描」:通过发射和接收红外光感知周围空间的深度信息、物体轮廓和运动状态,然后把这些数据喂给 AI 处理。

简单来说,这个摄像头是专门给 AI 加上的「眼睛」。

H90 预计搭载苹果新一代 H3 芯片。目前AirPods Pro 2 使用的 H2 芯片已经能处理自适应降噪、空间音频计算等任务,H3 则需要额外承载视觉数据的端侧 AI 推理,算力需求提升了一个量级。

产品内置微型 LED 指示灯,摄像头工作时自动亮起,会向周围人发出工作中的的提示,这和 Meta Ray-Ban 的设计类似。

在苹果的设想里,戴上这款 AirPods 走在路上,你不用掏出手机,耳机上的传感器能实时获取视觉上下文,让 AI 识别处理,你只需要说话就行。

▲图片由 AI 生成.

这种体验被称为「环境智能」(ambient intelligence):AI 不再被局限在手机屏幕里等你手动操作,可以随时感知你所处的环境,主动提供帮助。

理解了这个定位,才能理解这个产品为什么可能被欧盟的隐私法规会精准命中。

欧盟为什么能卡住这款耳机

一个不拍照、不录像、用红外线而非可见光的小传感器,为什么无法通过欧盟的隐私监管体系?

因为在欧盟的法律框架里,「采集」这个动作本身就是敏感的,不管你拿采集到的东西干了什么,欧盟拥有全球最严格的隐私监管体系,已经不止一次让苹果碰壁。

欧盟有三部法律构成了对摄像头版 AirPods 的包围圈。GDPR(通用数据保护条例)管数据处理、ePrivacy Directive(隐私与电子通信指令)管终端设备访问、EU AI Act(人工智能法案)管 AI 应用的伦理边界。三部法律从不同角度切入,但指向同一个结论:一个在公共空间持续感知环境的设备,在现行法律下几乎无法完美合规。

▲图片由 AI 生成.

具体来说,H90 面临的核心难题是这样的:

GDPR 第九条把生物识别数据列为「特殊类别个人数据」,原则上禁止处理。H90 的红外传感器生成的深度图和运动轨迹数据,如果通过算法分析能识别出特定个人(比如通过耳部轮廓或头部运动模式),就直接触发这条禁令。

例外只有一个:获得用户的「明确同意」,而且这个同意必须是具体的、知情的、自由给予的,不能是一个被埋在 50 页服务条款里的勾选框。

但真正致命的问题不在用户,在旁观者。

2025 年 12 月,欧盟法院(CJEU)在 C-422/24 号案件中做出了一个影响深远的判决:通过可穿戴摄像头收集的数据,即使是路人的数据,也视为「直接从数据主体收集」,必须适用即时告知义务。法院明确说了,如果允许延迟告知,就等于给「隐蔽监控」开了口子。

也就是说,当你戴着它走进一家餐厅,法律要求你立即告知在场所有可能被传感器感知到的人,告诉他们数据正在被采集、采集目的是什么、数据会被如何处理。
这在实际操作中当然是不可能的,但法律就是这么规定的。

Meta Ray-Ban 智能眼镜已经替苹果趟过了这个雷区,结果并不美好。爱尔兰数据保护委员会(DPC)批评 Meta 眼镜的 LED 指示灯「非常小」,不足以有效告知被拍摄者。德国联邦网络管理局直接禁止了能在他人不知情时录音录像的智能设备。

意大利的数据保护机构 Garante 对 Meta 在儿童数据保护上的不足提出严厉警告。瑞典媒体还曝出 Meta 眼镜录制的视频被送到肯尼亚的第三方公司做 AI 训练标注,引发一场跨国隐私丑闻。

苹果的处境比 Meta 更微妙。过去十年,「隐私」是苹果和 Google、Meta 打差异化竞争的核心人设。

「Privacy. That’s iPhone.」这句话出现在全球数万块广告牌上。一家把隐私当品牌基石的公司,推出一款可能引发系统性隐私争议的产品,承受的压力远不只是罚款,还有品牌叙事的自相矛盾。说到罚款:GDPR 下最高可达全球年营收的 4%。以苹果 2025 财年约 4000 亿美元的营收算,理论上限是 160 亿美元。EU AI Act 更狠,违反禁止性条款的罚款上限是年营收的 7%。

更直接的威胁是上市前禁令。如果欧盟数据保护机构认定苹果的风险评估不充分,完全可以在产品发布前直接叫停。对一家习惯全球同步发布的公司来说,欧盟一个市场的缺席就足以打乱整个发布节奏和供应链计划。

所以苹果面对的选择题很清楚:强行发布,冒着高额罚款且品牌人设崩塌的风险;或者暂停,等到找到合规解法再说。

从目前的信号看,苹果选了后者,这也很苹果。

苹果 AI 硬件全家桶,本要在 2027 爆发

带摄像头的 AirPods 的搁置不是一个孤立事件,这将影响苹果 AI 硬件的整个发布节奏。

2026 年初,彭博社曝光苹果正在同步推进三款 AI 可穿戴设备:
代号 N50 的智能眼镜,对标 Meta Ray-Ban,搭载双摄像头(一颗拍照录像、一颗专用于计算机视觉),计划 2027 年发售。

一款 AirTag 大小的可穿戴吊坠,配备低分辨率摄像头和麦克风,被内部员工称为 iPhone 的「眼睛和耳朵」。

以及进展最快的 H90 摄像头 AirPods。

▲APPSO 假想图,AI 生成.

三款产品的核心逻辑一样:都不试图替代 iPhone,都作为 iPhone 的感知延伸存在。用户不用掏出手机,AI 就能通过这些外设获取视觉和听觉信息。

这标志着苹果硬件策略的重要转向。Vision Pro 3499 美元的定价加上笨重的头戴设计,技术再极致也走不进大众市场。苹果现在的路线是「不造新 iPhone,造一堆让 iPhone 更好用的 AI 配件」。

库克在今年初的全员大会上罕见表态:「我们正在开发由 AI 驱动的全新产品类别。」

Vision Pro 低价版(代号 N100)也已停止开发,苹果选择跳过「便宜但笨重的头戴设备」这个中间态,直接瞄准轻量化眼镜。

在这个布局里,带摄像头的 AirPods原本是最有可能率先落地的棋子。它进展最快、技术最成熟、供应链准备最充分。它的搁置意味着苹果 AI 硬件的整体节奏需要重排,下一个窗口是 2027 年的 N50 智能眼镜。

▲APPSO 假想图,AI 生成.

但问题在于,N50 面临和 H90 完全一样的欧盟隐私挑战,甚至更严峻,眼镜的摄像头分辨率更高、更容易拍到清晰人脸。苹果需要的不是逐产品应对,而是找到一套系统性的合规方案。

这可能也是苹果新任 CEO 约翰·特努斯接任苹果后,面临的最大挑战之一。

AI 个人终端,不会停下来

除了苹果,市场不止一家公司已经跑了起来。

高通在 2026 年 MWC 大会上发出了一个明确信号。CEO Cristiano Amon 宣布「2026 年将是 AI Agent 之年」,并描述了一个名为「Ecosystem of You」的战略愿景:未来所有设备围绕 AI Agent 运转,手机不再是中心,每个穿戴设备都是 Agent 的传感器和执行器

这个愿景和苹果的 H90 方向本质一样。区别在于,高通是平台供应商,它不需要自己面对欧盟消费者,它只需要让合作伙伴有能力做出这些产品。

而高通确实已经把芯片准备好了。

3 月发布的 Snapdragon Wear Elite,3nm 制程,10 TOPS NPU 性能,可以在手表大小的设备上本地运行最高 20 亿参数的 AI 模型。三星已确认下一代 Galaxy Watch 将采用这颗芯片。

Snapdragon AR1+ Gen 1,专为智能眼镜设计,比前代小 26%,能在完全离线状态下独立运行 1B 参数的小语言模型。

高通在 AWE 2025 大会展示过,一位工程师戴着智能眼镜在模拟超市里问 AI 助手怎么做意大利面,全程没有网络连接,语音识别、推理、回答全在眼镜上完成。Meta Ray-Ban 和 XReal 也都确认将用 AR1+ Gen 1 开发下一代产品。

另外还有面向 AI 音频设备的 Snapdragon S7 Pro,NPU 性能比前代提升近 100 倍,让耳机从纯音频播放设备进化为具备情境感知能力的 AI 交互入口。

高通移动业务总经理 Alex Katouzian 在描述「Ecosystem of You」时,明确将「带摄像头的耳塞(earbuds with cameras)」列为个人 AI 设备网络中的关键形态

可见在高通的规划里,摄像头耳机已经是确定会存在的品类,问题只是谁做、什么时候做、怎么过合规关。

AI 需要视觉,设备需要成为 AI 的眼睛,这在行业也逐渐形成共识。苹果的节奏可以被欧盟法规打断,但 AI 终端这个趋势大概不会因此改变。

苹果选择暂停 H90,与其说是退缩,不如说是在等一个时间窗口:等 Siri 的能力准备好、等端侧芯片的算力再上一个台阶、等欧盟的监管态度在实践中逐渐清晰化。

这三个变量同时就绪的窗口,可能在 2027 年底到 2028 年之间打开。届时苹果大概率会带着 N50 智能眼镜和 H90 摄像头 AirPods 一起亮相,配合一个完整的、通过了 DPIA 审查的合规方案。所有人都知道新的终点在哪,不会轻易放弃率先冲线的机会。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

千问电脑版上线语音输入法:打工人终于可以用嘴干活了

Vibe Coding 火了之后,越来越多的人选择对着屏幕口述,而不是敲键盘,不少网友甚至为此整出 AI 语音键盘。

今年 3 月,Anthropic 也给 Claude Code 加了语音模式,在终端输入 /voice,按住空格说话,松手执行。很难想象,连「写代码」这种最依赖键盘输入的场景,都开始支持语音了。

既然写代码的人都开始用嘴干活了,那我一个每天写文章、写方案、做 PPT、整表格的打工人,还在一个字一个字敲键盘,显然也不够高效,尤其是查数据要切三个页面,做个汇报 PPT 要从找模板开始花三小时,整理会议纪要边听边记还漏一半。

究其原因,不是每个人的口头表达都那么好。哪怕也有一些 AI 输入法能解决,比如我们之前介绍过的 Typeless,每年光订阅费每年就得花 1000 块。

在真正干活的电脑端,至今没有和深度 AI 办公能力打通的语音入口。刚好,千问电脑版/网页版最近也上线了千问语音输入法,据说奔着「用嘴干活」而来。而且千问电脑版还是全免费——不只是语音免费,它内置的所有 AI 办公能力,全部敞开用。

别被输入法这个名字骗了

一开始,看到千问语音输入法这个名字,我下意识以为这就是一个识别准确率更好的 AI 输入法,结果我发现完全不是一回事。

千问语音输入法上手几乎没有门槛。两个快捷键搞定一切,按住是语音输入,双击是让 AI 干活。Win 是右 Alt,Mac 是右 Command,你可以根据使用习惯来设置唤起的快捷键。

你在 Word 里写文档也好,浏览器里看资料也好,钉钉里回消息也好,快捷键一按,语音入口浮出来。不用切到千问客户端,不用打开额外窗口。想问就问,想说就说。

千问语音输入法主要就两种使用姿势:按住开始语音输入,想到什么直接说就行,千问帮你自动去口水话、纠正口误、生成结构化表达。双击唤起语音指令,这时候你是在给 AI 派任务,比如查个东西、帮你回消息、生成文档。

打从一开始,它就不只是打算只做一个「帮你打字更快」的输入法。你的嘴负责下达指令,它是一个中枢接口,负责听懂、翻译、调度,让 AI 把活儿干完交给你。

说话就是比打字好使

2026 年,我对一款语音输入法的要求,已经远远不止是识别准确率。「听得清」的逐字听写都是基操,更重要的是理解我想表达什么,再帮我组织好。

比如口述一段想法,它能保留我的意图,帮同事把废话全部过滤掉,口误也顺手修正,吐出来出来的是干净、精炼、可以直接发出去的文字。

比如碰到方案延期这种事,也可以交给千问整理成一段清晰的书面表达,而我只需要直接按住快捷键,随口反馈给千问:

关于这个项目的延期,我… 啊不对,我想说的是关于这个方案的调整,其实原定计划是本周五交付,但是… 呃… 因为客户那边临时加了三个需求点,我们评估了一下大概需要多两天,所以… 不对,我的最终意思是:方案交付时间从本周五调整至下周三,原因是客户新增三个功能点,需要补充技术评估,我们承诺下周三前一定提交初版方案。

松手后结果就出来了,可以看到它自动删除所有「啊不对」「呃」「但是」等语气词,把我表达的核心清晰整理了出来;对比常规的语音输入,只能逐字记录,还要自己手动编辑,千问语音输入法基本无需手动调整,就能直接发出去。

在一些更专业和复杂的项目沟通中,千问语音输入法就更加实用了。

比如下面这个沟通需求,注意看,我长按说了一大堆话后,最后还补了一句:将关于数据部分提前。

这次产品改版的核心目标是提升新用户的留存率。我们在 onboarding 流程里增加了三个引导步骤,把原来的五步走改成了三步走,还在每个节点加了进度提示。另外,我们发现很多用户在第二步就流失了,所以把第二步的表单从 8 个字段缩减到 3 个必填字段。数据方面,改版后一周的留存率从 35% 提升到了 48%,次日留存提升了 12 个百分点。不过也有一个风险,就是表单精简后收集的用户信息变少了,可能会影响后续精准推荐的效果,这个需要持续观察。最后是团队层面的配合,设计部在两周内出了两版方案,开发部用了三天完成上线,整体节奏还是很快的。嗯把数据那段放到最前面,然后分段给我

这里结果对比就更明显了,只有千问听懂了「把数据那段放前面「」的指令,自动重排段落,我用嘴就完成了原本需要鼠标+键盘的操作。

▲ 常规语音输入结果

▲ 千问语音输入法结果

体验过程我还发现了一个让我惊喜的细节,千问语音输入法对于中英文夹杂的口述内容,识别特别到位。

这个函数的主要作用是处理用户登录时的 token 验证,首先会调用 validateToken 方法检查 token 是否过期,如果 expired 的话就返回 401,然后如果是 valid 的话,再调用 getUserInfo 接口去拉取用户信息,最后把 userId 和 role 写进 session 里面。注意一下,这里有一个 edge case,就是当 token 是 refresh token 的时候,要走另外一条逻辑分支。

千问不只把所有的英文术语都识别对了,而且还自动根据我的话分点输出,一目了然。

▲ 千问语音输入法结果

我还想分享一个对于内容创作者特别有帮助的用法,APPSO 每天早上都要开选题会,大家会有很多碎片想法,一个热点现象、一个行业观察、一个趋势判断……

之前有些想法是散装的,不成体系,现在我可以直接在会上按住唤出千问语音输入法,让它将这些想法整理成大纲。比如这一大段我在会上对编辑选题的反馈意见,如下图所示:

▲ 千问语音输入法结果

松开手后,一段详细的选题大纲就出来了,编辑能稳稳接住我的反馈,稍微扩充就能写出一篇深度分析稿件。最后的成文也附上给大家看看:苹果悄悄砍掉丐版 Mac mini,人人都要交「AI 税」的时代来了 。

单就语音输入这个维度,千问给我最大感受是,真就说多快多乱都没关系,反正输出的质量 AI 会兜底。

万物皆可 Vibe,一句话的事

语音输入只是第一步,千问语音输入法更大的价值是还能帮你干活。

上面提到了整理选题大纲,然后我就需要沉浸式写作,但每次要查个数据和报告,都得切到其他网页和应用。这里千问语音输入法就很自然地出现了——它支持在任意软件、桌面全局唤起,不用切换窗口,动动嘴就能直接查。

比如我在写一篇关于 OpenAI 的文章时,刚好有一段要引用最近的融资金额和投资方。我双击唤起语音指令,说一句:「帮我找一下 OpenAI 最新融资背景。」

思考一两秒,千问小窗就直接弹出把详细结果发我了,我看着引用继续写,心流就不会被打断。

假期刚回来,一大堆工作等着推进,我需要整理一个清晰的周报,但又没时间慢慢敲字,于是双击并随口将把需求说了出来,里面夹杂着带着大量口头表达:

诶那个,我汇报下这周进度哈……A 项目目前跟进到第三阶段了,中间遇到了供应商交付延迟,大概迟了三天,后来通过加班把进度赶回来了……B 项目还在需求评审,产品那边原型图有点模糊,约了下周一早上十点对齐……下周还要申请两台测试服务器……你帮我整理为周报 word 文档,语气专业一点,条理清楚。

此外,千问语音输入法还有一个更有意思的功能——帮你回消息。

我每天往往需要在微信、钉钉、飞书等各种项目群里穿梭,回复各种消息。非常消耗精力,这时候我就能让千问让我的「嘴替」了。

比如假期还没过完就被同事催交文章,我就双击让它帮我来一段高情商回复。

▲ 我无需给它介绍背景,它就能根据屏幕内容补充上下文,给我一个「聪明」的回复

而在一些面对客户或者更正式的场合里,我也可以双击让它给我拟一个得体的回复。

这是因为千问语音输入法支持了「场景感知」。它自动识别你当前在什么应用里,看到你屏幕上的内容,据此调整输出的风格。你不用告诉它更多背景,它自己就能看懂。

下周要出差,我直接双击,在微信让它帮我根据聊天信息,整理成一个出行指南便签。

最后给我的这份出行指南,除了航班信息,还贴心地给我整理了待办事项,并根据当地天气和交通情况给了我一些具体建议,这对于常常出差的媒体人来说十分友好。

开周会的时候我还发现了一个实用的小技巧,会议开始,我双击两下唤起千问语音输入法,结束后一句:「帮我把刚才的内容整理成会议纪要。」它就自动帮我整理好了。

这很适合一些快速拉通的临时会议,不用再单独打开会议记录类的应用,随手双击马上记。

对着电脑说话,活儿 AI 自己就干完了

别误会,对着电脑喊「帮我查资料」「写个邮件」,现在只能算 AI 的基本操作。

千问 电脑端这次真正亮出的底牌,是把语音输入和 PPT 创作、AI 表格、文档处理等功能组合起来,这也是真正能帮打工人实现「每天早下班一小时」的实用功能。

拿最折磨人的 PPT 来说,千问不是去素材库里给你拼凑烂大街的野生模板,而是直接用大模型的代码能力动态生成复杂排版。如果你觉得哪里不够完美?直接多轮对话让它接着改,改到你满意为止。

为了探探底,我先让它帮我做个视频号运营课程 PPT,几乎在语音落地的瞬间,AI 就进入了光速消化模式:填充血肉、匹配逻辑一气呵成。

最令人惊喜的是,千问对「图文穿插」的理解并非生搬硬套,而是根据内容深度匹配了差异化的版式,整份 PPT 拿出来,几乎就是可以直接交付的成稿。

这还没完,你还能一次性给千问喂最多 39 种不同格式的参考文件,让它自动梳理逻辑、提炼重点,帮你省去了来回翻资料的麻烦。至于配图,它也能根据上下文自动匹配,找不着合适的甚至能当场给你生图,全程都不需要你切出界面去求助搜索引擎、或者下载下来用 office 处理。

表格处理方面,千问的 Excel Agent 主打一个高水准。

不管是格式随意的聊天截图、手写笔记,还是大段的纯文本,丢给它就能快速生成标准的 Excel 表格。如果后续还要算算增长率、画个趋势图,也不用再去头疼怎么写函数公式了,直接用自然语言吩咐它就能搞定。

我试了一个稍微有点复杂的需求:让它根据 2026 广州最新版初中英语教材,把各句型的语法结构、时态变化和参考例句整理成 Excel 表格,格式要适合一页纸打印,方便拿来背诵。

换以前,这种事得自己一条条查资料、手动录入、再调格式,至少要折腾半小时。现在说一句话,它直接把表格生成好,列名、行距、例句填充,基本不需要再动手改。

文档处理这边,Word/PDF Agent 支持图文数据混合上传,能自动排版并输出直接可交付的文件。

更有意思的是,传完长文档你不需要自己去翻阅找重点,直接张嘴问,它就能快速定位给出答案;想修改哪里也是一句话的事儿,省去了自己去对照原文件一点点改的麻烦。

我试着传了一份繁杂的合同 PDF,直接问它:「独家授权内容是哪些?」它并没有傻傻地把全文复述一遍,而是精准定位到了授权条款,把独家范围、授权期限和限制事项一条条列得清清楚楚。

目前,这个语音指令甚至还能和 AI 写代码、手搓网页等任务助理功能组合使用,照这个架势下去,未来的办公形态,大概真的就是「动动嘴皮子就把活儿干了」。

和 AI 说话的人,会比键盘打字的人更早下班

用了一段时间千问语音输入法,我想到一件事。

过去几年「AI 提升办公效率」喊得震天响,但大部分人的体验是:我跟 AI 说了半天,它给我的东西根本不能用。然后就觉得 AI 也不过如此。

问题出在哪?出在沟通方式上。你用键盘跟 AI 对话,40% 的精力花在组织文字上,只剩 60% 在想你到底要什么。给出去的指令信息密度低、上下文薄,AI 当然输出垃圾。这不是 AI 不行,是你喂给它的东西不行。

语音把这个死结解开了。说话时你不会给自己设字数限制,细节会自然地冒出来,上下文会自动变厚。它能把嘴里说出的自然语言需求梳理得井井有条,让 AI 精确执行。

纽约销售平台 Clay 的教育负责人 Yash Tekriwal 提到,他用语音输入的速度是每分钟 205 个词,打字只有 110 到 120 个。但速度还不是最关键的,他发现口述的 prompt 质量更高。

AI 圈最近有个词特别火,叫 harness。它的意思大概是:你有一匹马(AI 的能力),但你得有一套缰绳才能驾驭它,让它往你要的方向跑。没有 harness,马再强壮也只是在原地打转。

千问电脑版的语音输入法就是这套 harness。

它连接的一端是你的嘴,另一端是 AI 的全套办公能力:PPT、表格、文档、搜索、分析、格式转换。你说一句话,它把你的意图翻译成 AI 能执行的指令,然后调度对应的 Agent 去跑腿。它不是输入法,是缰绳。是你驾驭 AI 办公能力的那套 harness。

而别的「带 AI 功能的输入法」解决的是什么?是入口问题,帮你找到 AI 在哪里。千问解决的是驾驭问题,帮你把 AI 的能力精确地用起来。一个是给你指路,一个是帮你套好缰绳直接上路。差距就在这。

在 Agent 时代,语音本来是驱动 AI 工作的最自然和高效的方式。千问语音输入法,就是率先在桌面入口端出了这套 harness 的产品 ,这也是为什么我期待,未来在更多终端上,能看到这种真正能驾驭 AI 的语音入口。

去年这个时候,如果你在办公室突然对着电脑说话,一次两次会被当成在打电话,三番五次就不禁让人怀疑,工作压力是不是太大了,精神状态还好吗?

今年开始,那些对着电脑自言自语的,可能就是全公司最早下班 (摸鱼) 的人。

附客户端下载地址:
https://www.qianwen.com/download?ch=tongyi_redirect
网页版体验地址:
https://www.qianwen.com/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

这届年轻人用 AI 造的「新物种」:活过来的画框、会叹气的台灯、会写信的龟背竹……

2026 年的 AI 行业不断加速,仿佛只有一个正确答案:卷 Agent,卷效率,卷生产力。跑得慢的人都在补课,跑得快的人已经在找下一个风口了。

但在京东 JoyInside 首届「AI 终端新物种」硬件创新大赛的现场,几个与提升效率完全无关的产品,却让我十分好奇。

一盏分得清你是在心流里还是发呆、从而决定要不要出声的台灯;一台以「数字孙辈」身份陪老人慢慢讲故事的口述史终端;一支插进盆土的传感笔,每周替一株植物写一封信……而最终拿下前三甲的项目同样没有「班味」:清华本科学生独立开发的儿童 AI 交互画框「画伴」、几个大学生打造的 CoCube 桌面 AI 陪伴机器人,还有一款 00 后连续创业者带来的学龄前「AI 放大镜」。

他们在做的事,用一句话很难解释给投资人听。但把这些项目放在一起看,你会发现一个有意思的巧合:没有一个团队在做效率工具,也没有一个团队的出发点是「技术多强」。

他们的出发点都是某个人、某个来自生活日常,甚至说不太清楚的时刻。

让孩子的画,活起来

有一次,偶然之间刷到一个视频:一个小学老师在课堂上通过 AI 工具让孩子的画动起来,展示在大屏幕上,视频里当孩子们看到自己画笔下的角色动起来的时候都非常开心,整个班里都充满「哇」的声音。

这件事让刘海丰决定为这些孩子们在绘画这个场景做一个产品——画伴,一款 AI 儿童绘画互动相框,也是本届大赛的冠军项目。

产品瞄准了 5-7 岁的孩子,这个年龄段的孩子语言表达能力还没成熟,绘画是他们表达内心世界重要的方式。刘海丰调研了 11 户家庭,里边8 户的孩子每天都在画画。

中国 5-7 岁的孩子有3700 万,少儿美术市场有 850 亿,但绘画领域的现有产品还停留在机械性的绘画机器人和绘画投影。儿童绘画领域有诞生AI Native硬件的机会,这是他的洞察。

产品的交互并不复杂,孩子把画插进相框底板的凹槽,设备自动拍摄识别;按下按钮,AI 引导孩子描述画面背后的故事和情绪;然后,画作变成专属的动画。配套软件记录完整的绘画成长轨迹,并基于绘画心理学分析画面,帮家长读懂孩子的内心世界。

「动画化」解决了参与感,但留不住用户。刘海丰研究了乐高、Minecraft、Roblox,这些产品为什么能让孩子玩那么久?因为它们满足了创造欲,给了无限的创造空间。

于是刘海丰给画伴加入了「世界系统」,系统会给每个孩子笔下的角色做性格和背景设定,然后把这些角色放进一个类似「斯坦福小镇」的互动平台,系统每天自动生成新的故事,然后把这些故事讲给孩子。

比如,孩子前天画了一只调皮的猫,昨天画了一个农夫和小鸡,可能今天系统讲给孩子的故事是:调皮猫叼走了农夫的小鸡,农夫在后边追赶。

孩子每画一笔,这个世界就多一个角色。

JoyInside 在这里扮演的是整个产品的 Agent 决策内核与语音交互桥梁。刘海丰在路演上说得很直接:「不需要自己去造语音对话和调度系统,可以把全部精力投入到产品的创新当中。

刘海丰在本次比赛里,是一个真正意义上「独立」开发者,他是全场唯一以 OPC(One Person Company)身份参赛的选手。软件、硬件结构、产品建模、设计宣传,全部一人完成,「团队」是他和一系列的 CodingAgent。

如果没有现成的语音对话和调度系统,光搭这套基础设施就能把他锁在里面数周。JoyInside 帮他补上了最耗时的那块,他把省出来的时间全用在了产品本身。

以前需要一支队伍才能推进的事,现在一个人加一堆 Agent 可以做到,这就是 AI 硬件创业新的浪潮。

把皮克斯跳跳灯搬进现实

凌晨三点的书房,绞尽脑汁也没想出好方案。猫睡了,狗睡了,对象也睡了。唯一还在 work 的,是书桌旁的台灯。

于是 Mira Light 诞生了,一盏真正的皮克斯跳跳灯。外壳下面藏着摄像头、麦克风和三个舵机关节,能转头、能低头、能蹭你。

王健乐说,Mira 不是一个「没有“眼力劲”,随意打扰你的玩具」,「而是一个要在长期相处里学会读懂你、并且拿捏分寸的伙伴」。

5 个 00 后加 1 个硬件老兵组成的团队,48 小时极限完成了第一版 Demo。

和过去的黑客松比赛不同,JoyInside 大赛最吸引他们的一点是:做出来的东西不只是拿个奖,京东能帮你把产品真正卖出去。从打样到上架,供应链是现成的。对一个学生团队来说,这意味着 Demo 有机会变成商品,接受真实用户的检验。

但比起商业化路径,Mira Light 的产品性格更值得聊。团队成员王健乐在采访里引了设计师 Nod Young 的一句话:

有些光是用来看清东西的,有些光是用来陪你的。

你工作了一小时没动,灯头先低下去再往上顶,蹭蹭你。你对着屏幕叹了口气,灯头缓缓转过来看你,灯光从冷白慢慢切到暖黄。你在认真写代码,进入心流状态,它什么都不做,完全安静。同一个空间里,你叹气和室友叹气,Mira 的反应不一样,因为它记得你们的不同。

要做到王健乐口中的这种分寸感,光靠写规则是不够的。团队没有从头自建 AI 中台,JoyInside 把语音识别、情绪理解、长期记忆、角色化表达和硬件动作联动打包在了同一个平台里,他们可以把精力集中在 Mira 真正不一样的地方:动作语言、灯光表达和陪伴节奏。

JoyInside 的情感计算让 Mira 分得清你叹气是累了还是只是随手按了暂停键;长期记忆让它对你和室友建立不同的用户画像,同一个动作,对不同的人做出不同的回应。每台 Mira Light 还有独立的性格参数——好奇度、活跃度、害羞度、调皮度各不相同,世界上没有两台完全一样的 Mira。

它第一次动起来的时候, Mira 团队告诉 APPSO,「你能感觉到它对你的好奇,以及紧张害怕的情绪」。他们第一次在一个机器上感受到了「爱」。

所有人都在追年轻用户,她选择听老人讲故事

在中国传媒大学,有一个叫「银发记忆工程」的学生团队,成员横跨计算语言学、数字媒体、表演、工商管理。

他们做了一个叫「记忆小舟」的产品:一台老人摸得着就能用的硬件终端,背后连着语音采集、智能转写和记忆整理的整套系统,以「数字孙辈」的身份陪老人把人生故事慢慢讲出来。

团队成员张怡卓含在路演现场进一步解释开发这个产品的初衷,子女想要留住长辈一生的故事,却没有时间、不会问;老人想讲述人生,却没有人倾听、容易紧张。

陆新蕊一直在帮家里老人整理自传故事。她所在的中国传媒大学有全国最大的口述史研究中心,接触口述史是天然的事。真正让她下定决心的,是家人患上阿尔茨海默症。

我亲眼看到记忆一点点消失。语言是连接人心的纽带,技术不该只是冰冷的工具,它应该像砖石一样,架起过去与现在、人心与人心之间的桥。

产品的核心不是「采集信息」,是让老人感到「我的故事有人想听」

它以「数字孙辈」的身份和老人自然对话,不填表格、不做问卷、不打断。团队把这当成伦理底线,不只是交互设计。老人讲话有自己的节奏:停顿、绕回去说一半、忘了前面在讲什么、突然跳到另一年。这些在普通语音系统里会被当成错误处理,这个产品的设计是全部保留,让 AI 跟着老人走,事后再在后端把线索拼起来。

团队把 JoyInside 接入产品之后,有两件事是他们没料到的。

第二次调试的时候,AI 把上一轮聊天里提到的一位长辈当成了线索,没有像通常那样开启新话题,而是自己顺着追问下去了。用户后来说:「它记得我之前说的话,它不是机器,它是在和我真正聊天。」

还有一次,测试的时候聊到了家人去世。JoyInside 没有刻意追问或转移话题,它说了一句:「我可以静静陪着你,我们可以不问了。

记忆小舟团队认为这种分寸「JoyInside 做得非常得体」。

团队还发现方言的功能让不少用户惊喜,有用户试完之后说「没想到能用方言和 AI 聊自己的故事」。老年用户不光自己用,还往老同事、老朋友群里转。

到 2035 年,中国 60 岁以上人口将突破 4 亿,但城镇孙辈对祖辈生平的完整认知率不到三成。传统口述史靠人工访谈,成本高,覆盖不了普通家庭。

陆新蕊说,就算这个产品最后没做起来,她也会继续做:「积累的结构化语料库和记忆档案,哪怕微末,也会作为文化学术资产,继续服务于民族记忆的保存与传承。」

她希望「记忆小舟」这样的产品能成为一种家庭仪式。「它可以是夜雨寄北里的烛火,也可以是家人闲坐的灯火。」

就像张怡卓含在路演现场最后说的,「科技最感人的地方,其实不在它有多么伟大,而是让我们每个人都知道,自己的故事是值得被记录、被记忆的。」

一株龟背竹,也值得每周收到一封信

吴绍恒读书时在植物园标本馆打工,最深的印象是:一株植物死之前,其实已经用很多种方式告诉过你了,叶片角度、叶色、新芽位置、根区气味,只是这些信号没人翻译。

后来在城里租房养绿植,养死了十几盆。他看到过一款犬语翻译器,想:如果动物的语言可以被 AI 翻译,植物为什么不行?

绝大多数家庭盆栽不是死于知识不够,而是死于没人帮它把话翻译出来。

他的反应不是做一个监测 App,而是把关系反过来:让植物主动告诉人它近况如何。产品的名字「草木信」,也是它最核心的交互方式——写信。

产品的硬件组成并不复杂,一支传感笔插进盆土,默默收集数据。一张轻薄厚的电子墨水卡片放在花盆后面,白天靠自然光就能读,没有屏幕背光。

传感笔一天采集上百次数据,但输出只允许一周一次。每周一早上七点,过去七天的数据被压缩成120字左右的拟人化短信,渲染到卡片上。

从想法到初版 Demo,只花了四天。物料到了就开始搓。他自己也是第一次做硬件,「为了路演 Demo 的落地,我对很多立项之初的设计做了取舍,减少传感器集成的数量,把芯片从笔内迁移到笔外」。

▲初版 demo.

过去十年,屏幕已经占领了我们的生活,通知栏的红点让我们应接不暇甚至焦虑。

草木信反了过来,开发者管这叫「慢媒介化」。比如周三晚上气温骤降,鹿角蕨根区温度跌到 13 度。系统判断「有点不对,但还不危险」,没有跳出来打扰你。

它到了下周一的信里,才轻描淡写地提了一句,卡片角落悄悄点亮一枚星号。

吴绍恒也跟我们分享了,他心目中一封好的信是什么样的:「它可以不完美,没有绚丽的文字,但它是真实的,我喜欢那种老友和你娓娓道来的感觉,没有压力但告诉你它一直都在。」

他们把传感器采回来的数字变成一封让人愿意读的信,得搞清楚植物现在怎么样、急不急、该用什么口气说。JoyInside 的轻量级模型在手机端离线运行,不联网就能干这件事。

但比起「会说话」,AI 更难的是知道什么时候该闭嘴。在信息爆炸的时代,他们却用了写信这样的方式来作为一个硬件产品的交互方式。

一周一封,刚好是一株植物真实的生命节奏

AI 的下半场,在物理世界

把这四个项目放在一起,我最先跳出来的感觉是:这些东西都不像正经的产品需求。

「让光来陪伴用户」不会出现在任何一份用户痛点调研报告里。「想知道阳台上那盆龟背竹过得好不好」也不是需求文档里的条目。它们更像是某种渴望,某种你不好意思说出口但始终在意的东西。

这四个团队都不在主流的硬件赛道上。但他们做的产品有一个共性:AI 不是被「加」上去的功能标签,而是长在各自的物理场景里。

画伴的「画伴的世界」脱离了孩子自己画的那些画就什么都没有,Mira Light 的沉默只在你进入心流时才有价值。记忆小舟更是如此,它的耐心只有对着一个说话断断续续的老人时才被需要。脱离了场景,这些产品就什么都不是。

行业里有一个心照不宣的事实:90% 的所谓「AI 硬件」,把 AI 拿掉也能用。 拿一个开源模型塞进去,喊两声「你好小 X」,就可以叫做 AI 硬件了。

这类产品的 AI 是贴上去的标签,不是长在场景里的神经系统。

这也是京东 JoyInside创新大赛与过去的黑客松或开发者大赛最本质的区别。软件赛事比算法精度,发完奖就结束了。

大模型的上半场在云端已告一段落,下半场的战场在物理世界。我们需要让 AI 真正「附身」到一台台摸得着的设备上,在画纸上、在花盆边、在老人的客厅里,变成一个生活中有价值的存在。

从路演项目也能看出来,京东举办 AI硬件赛事考虑的是产品能不能走进真实生活场景,真正走向商业化和规模化市场,这件事光有模型不够,还得懂场景、懂硬件、懂怎么把东西卖到用户手里。

这恰好是京东最擅长的事。十几年零售、物流、健康领域的实体场景积累,让 JoyInside 不只是给硬件「加一个大脑」,而是从场景理解到供应链交付,都能串成一线。

这也是京东聚焦发力 AI 硬件的野心,进入你生活中的每一终端。

而让这些「长在场景里」的 AI 成为可能的,是一层大多数用户不会注意到的底座。

记忆小舟的陆新蕊说,接入 JoyInside 之后产品最大的变化是「使用门槛大大降低,我们有了真实可触摸、可感知的终端」。画伴的刘海丰在路演上说:「我们通过 JoyInside 搭建完善了整个 Pipeline,不需要自己去造语音对话和调度系统,可以把全部精力投入到产品的创新当中。」

没有人在说「赋能」「革命性」「重新定义」。他们说的都是一个东西能不能用、好不好搞定。这两个标准,对三个人的小团队来说,就是一切。

JoyInside 给的是一套完整的感知-回应链路:语音识别、合成、长期记忆、情感计算,四块都在。端云协同让 80% 的常规任务在端侧处理,响应延时压到 2 秒以内。你对它说话,它不会让你干等。

但技术底座只是故事的一半。

画伴的刘海丰一个人做了整个产品,Mira Light 48 小时造出原型但量产是另一个世界,草木信的吴绍恒也是第一次做硬件。

JoyInside 提供了三种接入方式降低技术门槛,但对小微团队真正有意义的是后面那条链:京东的供应链,从硬件打样、模具开模、元器件采购到质量检测、仓储物流、主站销售,全链路走通。

截至现在,JoyInside 已接入超过近 200 家家电家居、机器人、AI玩具头部硬件品牌,接入后,显示硬件的对话轮次平均提升超 120%,这意味着用户更愿意和这些 AI 硬件聊天了。

大赛结束之后,京东的超级供应链还在运转,参赛产品就有机会真正触达消费者

京东采销 Boss 们在大赛中直接拍板认领走了画伴、Mira Light等多款AI硬件,他们说,最快618期间,就要把这些产品上架到京东新品频道销售。

这届年轻人在用 AI 做什么

写这篇稿子的过程中,我反复在想一个问题:做这几个产品,不去做提升效率的工具,到底算不算「正经事」?

路演现场,有评委给了刘海丰一个建议。那位评委说,他的母亲特别愿意收藏孩子的画,从老大一直收到老二,但现在母亲回了老家,和孩子不在一个城市。他建议做一个「子母款」——孩子这边有一台,老家的长辈那边也有一台,画完了,对方那里也能收到。

这让我想到,画伴装着的,不只是孩子当下那些画,也是某个大人想要留住的什么。

同样的问题,我也问了陆新蕊。她没犹豫:「这个项目依然有不可替代的价值。」她在帮家里的老人整理人生故事,这件事本身就是她做这个产品的原因,也是产品如果失败之后她依然会继续做的事。

说实话,我自己也说不清楚这个问题。四个还没上市的产品,四段还没结局的创业故事,放在一个效率至上的行业语境里,它能证明什么?

但就像吴绍恒说的,一封让人愿意读的信不需要绚丽的文字,「它是真实的,没有压力但告诉你它一直都在」。

这几个年轻人做的事情或许就是这样,不惊艳,不高效,甚至有点笨拙。

但在一个所有人都在追问「AI 能做什么」的年份里,他们安安静静地坐下来,做了几个能陪人待一会儿的东西。京东 JoyInside 恰好给了他们一块可以安心搭积木的地基。

孩子的画有了生命,台灯有了脾气,一封写给龟背竹的信有了温度。 AI 产品带给我们生活的变化,不一定就得让某个工作效率提升 N 倍。

采访 Mira Light 的那天,他们的原型机刚做完没多久。他给我演示了一遍灯头的动作:先低下去,像在打量你,然后慢慢抬起来。他说团队第一次看到这个动作的时候都愣住了,「你能感觉到它对你的好奇,以及紧张害怕的情绪」。

我问他如果没拿奖怎么办。他没怎么想就答了:「有没有获奖都会推向市场。」

他今年二十出头,觉得自己能让世界扭转一点点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,OpenAI 手机曝光!2028 年量产

我们之前提过,接下来两年苹果的新 iPhone 数量,要赶上小米了。而在苹果 AI Siri 在今年 WWDC 上线后,AI 手机也会成为苹果新的主线。

不过很快 AI 手机很快就会迎来一个新的搅局者,那就是 OpenAI。

天风国际证券分析师郭明錤今天发布最新产业调查称,OpenAI 正在与联发科、高通合作开发手机处理器,立讯精密拿下独家系统协力设计与制造合同,预计 2028 年量产。

音箱、眼镜、耳机、台灯、笔……OpenAI 的硬件全家桶还嫌不够,这次直接把手伸向了手机。

先看看 OpenAI 手机目前为数不多的产品信息,处理器方面,联发科和高通同时参与合作开发,预计 2026 年底或 2027 年一季度敲定最终规格和供应商。制造端,立讯精密拿到了独家协力设计与制造的位置。

郭明錤还给了一组数据参考:以联发科和 Google 合作的 TPU Zebrafish 为例,单颗 AI 芯片的营收大约相当于 30 到 40 颗 AI agent 手机处理器。而 OpenAI 初期瞄准的是全球每年 3 到 4 亿台高端手机市场,换机潮带来的增量会是实打实的营收动能。

对立讯来说,这个项目的战略意义可能比短期营收更大。在苹果供应链里,立讯的组装地位很难超越鸿海,但 OpenAI 手机给了它一张「下一代手机主力制造商」的入场券。

为什么 OpenAI 非要自己做手机?

Sam Altman 可能终于想通了一件事:光做软件,AI 永远是别人家的客人。

郭明錤在分析中给出了三条理由,条条都指向同一个结论。

只有完全掌控操作系统和硬件,AI agent 才能做到真正的「全面服务」。 现在 ChatGPT 跑在 iPhone 上,受限于苹果的权限沙箱,想帮你订个外卖都得绕好几道弯。自己做手机意味着从底层开始,AI 想调用什么就调用什么,没人拦着。

手机是唯一一个随时拥有用户全部当下状态的设备。 你的位置、日程、聊天记录、身体数据、支付习惯,这些实时信息是 AI agent 推理服务最关键的输入。没有这些 input,AI 就像一个只能听但看不见摸不着的助手,聪明但使不上劲。

可预见的未来里,手机仍然是数量最大的终端设备。 音箱再好卖也是家里的事,眼镜再酷也还在早期用户圈里转,但全球每年十几亿台手机出货量摆在那里,谁拿下手机,谁就拿下了 AI 的最大分发渠道。

OpenAI 手机长什么样?

郭明錤做了一张概念设计图:把它和现在的 iPhone 主屏放在一起对比,差异一目了然。

传统手机的主屏是一堆 App 图标的「货架」,你得自己找、自己点、自己操作。而 OpenAI 手机的逻辑完全反过来,用户的目的不再是打开某个 App,而是直接告诉手机「我要干什么」,剩下的事情由 AI agent 去调度完成。

换句话说,App 还在,但你可能再也不用亲手点开它们了。

技术实现上,OpenAI 的方案是云端和端侧 AI 高度整合。手机处理器需要持续理解用户的上下文信息,耗电管理、内存分层、小模型本地运行,这些都是芯片设计的关键考量。复杂或高强度的任务则交给云端 AI 来跑。

商业模式方面,郭明錤预测 OpenAI 可能会把订阅制和硬件捆绑销售。买手机送 ChatGPT Plus?或者反过来,ChatGPT 订阅用户享受硬件补贴?具体方案未知,但方向很清晰:围绕 AI agent 建立一个全新的生态系统,拉开发者进来一起玩。

音箱、眼镜、耳机,手机才是最后一块拼图

其实 OpenAI 的硬件野心早就不是秘密了。

今年早些时候,据 The Information 爆料,OpenAI 内部已经组建了一支 200 人的硬件团队,由前苹果首席设计官 Jony Ive 的 LoveFrom 工作室操刀产品设计。团队「含果量」极高:Tang Tan 是苹果 25 年老将,曾主管 iPhone 和 Apple Watch 的产品设计;Evans Hankey 是苹果前工业设计负责人,Jony Ive 离开后曾接管整个设计团队。

这支豪华班底交出的第一份作业是一台智能音箱,定价 200 到 300 美元,内置摄像头,支持 Face ID 级别的人脸识别,最早 2027 年 2 月出货。后面排队的还有 AI 耳机(代号「甜豌豆」)、智能眼镜(2028 年量产)、智能台灯,甚至还有 Sam Altman 多次暗示的「AI 笔」。

但仔细看这个产品矩阵就会发现,音箱管的是家庭场景,眼镜管的是出行场景,耳机管的是碎片时间,每一个品类都在覆盖手机「不方便掏出来」的空隙。而手机本身,作为用户身上信息密度最高、使用时间最长的设备,一直是这张拼图里缺失的那块。

现在 OpenAI 把这块补上了。

Sam Altman 之前接受采访时说过一句话:「智能手机是时代广场,信息轰炸、注意力粉碎。OpenAI 要做的是一间湖畔小屋,让你在需要专注时能关上门。」

从音箱到手机,OpenAI 的硬件逻辑逐渐清晰:它不想在苹果的地盘上做一个寄人篱下的 App,而是要从头搭建一整套 AI 原生的硬件生态。音箱是客厅里的中枢,手机是随身的入口,眼镜和耳机是延伸的触角。每一个设备都在收集数据、理解用户、执行任务。

为此 OpenAI 也没少挖苹果墙角。据 The Information 报道,仅去年一年 OpenAI 就从苹果挖走了 20 多位硬件大牛。苹果被挖得有点急眼,甚至因此取消了原定在中国举办的年度闭门会议,理由是「防止更多高管跳槽到 OpenAI」。

供应链端同样在加速绑定。立讯精密已拿下至少一款 OpenAI 设备的组装合同,歌尔股份也在接洽中,可能会为未来产品提供扬声器模组等零部件。这两家,一个是 iPhone 和 AirPods 的主力代工厂,一个组装过 AirPods、HomePod 和 Apple Watch。OpenAI 等于在用苹果的人、苹果的供应链,造自己的东西。

豆包手机和 OpenAI 手机,殊途同归

OpenAI 手机估计要 2028 年才会面世,但在中国,AI 厂商和手机厂商的联姻已经先跑了一步。

去年底,字节跳动与中兴合作推出了豆包手机第一代(努比亚 M153),工程样机上线即秒空,原价 3499 元一度被炒到 3.6 万元,带动中兴股价涨停。它的玩法很激进,大模型通过 GUI Agent 直接识别屏幕内容、模拟人手操作,绕开了传统 API 的限制,让 AI 真正能替你点外卖、发消息、订机票。

代价也很直接,微信、支付宝、淘宝、银行 App 先后对豆包手机进行了安全封堵。毕竟 AI 绕过了 App 沙箱和权限控制,等于在安全机制上开了个口子,主流平台不可能坐视不管。

眼下豆包手机 2.0 已启动研发,有望今年二季度中后期发布。更值得关注的是,这场合作正在向更多手机厂商蔓延。

据蓝鲸新闻援引知情人士透露,字节跳动最早接触的手机厂商其实是荣耀,但荣耀态度谨慎。一位知情人士的说法颇有代表性:「豆包手机作为探索性工程机可以更激进,但荣耀拥有亿级用户体量,一旦新服务在稳定性、兼容性或安全性上出问题,极有可能引发大规模功能异常与用户投诉。」

此前有报道称荣耀正与字节就豆包手机合作展开接洽,但荣耀方面予以否认,回应称「经内部确认,相关传闻并不属实。荣耀始终致力于通过技术创新为消费者提供优质产品,如有任何战略合作进展,将第一时间通过官方渠道同步。」

不过据博主「数码闲聊站」消息,vivo 目前也在接洽豆包,还有其他国产 TOP5 厂商在排队。用他的话说,「一大波 AI OS,一大波豆包 AI 手机靠拢中」。

就像一位知情人士说的:「对于主流手机厂商来说,AI 手机的推进只能循序渐进,无法一步到位。」

回头看 OpenAI 和豆包走的其实是两条完全不同的路。

豆包选择和现有手机厂商合作,在安卓体系上做底层服务方案,好处是速度快,去年底就已经有了可以上手的产品;代价是受制于别人的系统和生态,安全性和兼容性问题不断。

OpenAI 则选择了更慢但更彻底的方路线,自研操作系统、自研处理器规格、自建供应链,2028 年才量产。慢是慢了点,但一旦做出来,从芯片到系统到 AI 模型全部自己说了算,不用看任何人脸色。

两条路殊途同归,指向的是同一个判断:AI 如果只停留在 App 层面,永远只是手机上的「新功能」。要想让 AI 成为灵魂,要么改造现有手机,要么从头造一台新的。

2028 年,当 OpenAI 手机真正面世的时候,你的手机主屏上可能已经没有那一排排整齐的 App 图标了。

取而代之的,是一个安静等待你开口的 AI。你会让它替你「刷手机」了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋

今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配,性能比肩顶级闭源模型,首发适配华为昇腾芯片,随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器

这个技术名词,怎么看着这么眼熟呢?

原来是前两天发布的 Kimi 2.6 里,就是通过 Muon优化器,在相同的训练量下实现了2倍的效率提升,并在 1 万亿参数规模上解决了训练不稳定的难题。

早在上个月杨植麟站在英伟达 GTC 2026 的舞台上,花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。
(附APPSO解读文章链接)

杨植麟是这样说的:「用 MuonClip 而非 Adam 训练 Transformer 大模型,效果会好得多。」正确实现后,token 效率提升 2 倍。在数据墙面前,这相当于把 50 万亿 token 用出了 100 万亿的效果。

现在,这项技术出现在了 DeepSeek V4 的训练方案里。

我又回来翻了一下 Kimi K2 的架构底层,又发现了一个更有意思的细节:它用的是 DeepSeek-V3 提出的 MLA(Multi-head Latent Attention)。

DeepSeek 的技术报告写着 Kimi 的名字,Kimi 的架构底座写着 DeepSeek 的名字。 你中有我,我中有你。

这大概是中国 AI 圈最魔幻的一幕:两家被外界反复对比的开源双子星,技术底层早就长到了一起。

而且,Kimi 类似这样的巧合,已经不是第一次了。

五次「撞车」,五个拐点

算上 V4 和 K2.6 前后脚上线,这已经是 Kimi 和 DeepSeek 过去一年里的第五次「撞车」了。

▲ 图片由 image-2 制作.

五次「撞车」,如果只是时间重合,那叫巧合。但把每次发布的内容拉出来看,你会发现一条清晰的暗线:每次撞车恰好对应一个 AI 行业拐点的到来

第一次是最戏剧性的。2025 年 1 月 20 日晚 8 点 10 分,DeepSeek R1 发布并以 MIT 协议完全开源。不到两小时后,Kimi k1.5 亮相。

两者都瞄准同一件事:让模型从「张嘴就来」变成「先想后说」,用强化学习跑通 Long-CoT 长思维链推理。

在这之后,中国的开源力量就彻底改变了整个全球 AI 的格局。

后来 OpenAI 在一篇论文中点名指出:Kimi 和 DeepSeek 是「最早复现 OpenAI-o1 Long-CoT」的两家公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么,并且用自己的方式做了出来

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

最近这次就是今天。四天之内,K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力,V4 把百万上下文做成了所有服务的标配,输出长度拉到 384K tokens。

两家同时推进国产芯片适配:V4 下半年支持华为昇腾 950,寒武纪已完成 Day 0 适配;K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态,全齐了。

从「学会思考」到「学会干活」,从「改 Transformer」到「改算力底座」,五次撞车其实展现出来的,是中国 AI 不再一味对标 OpenAI ,逐渐不再依赖英伟达,在开源上走出属于自己的路。

撞车背后的必然

发布撞车的巧合固然有意思,但更值得关注的,其实是巧合背后的一些必然。

让我们先回到 DeepSeek 架构里的 Muon 。

杨植麟在 GTC 演讲中讲了一个技术困难:当 Kimi 把 Muon 扩展到 1 万亿参数时,训练不稳定性成了拦路虎。最大 logits 爆炸超过 1000,正常值只有 50 到 100。

损失先降后炸,根本无法收敛。他们的解法是 QK-Clip,对每个注意力头计算最大 logit 的裁剪值,把查询和键限制在合理范围内。训练损失不受影响,但稳定性问题消失了。

K2 模型用这套技术完成了训练,创下机器学习史上最大规模 Muon 训练的纪录。

而 DeepSeek V4 的技术报告里,Muon 被直接写进了训练方案。大多数模块用 Muon 加速收敛,嵌入层和预测头仍用 AdamW,混合使用。这是对 Kimi 底层创新的一次直接引用。

反过来,Kimi K2 的底层架构采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention,通过压缩 KV 缓存大幅降低推理成本,是 V3 最核心的架构创新之一。

你的论文成了我的基础设施,我的创新成了你的底座。 写在引用列表里的互相成就。

在硅谷,你很难看到这种事。OpenAI 和 Anthropic 之间的技术是「护城河」,能藏则藏。但 Kimi 和 DeepSeek 之间长出了一种更原始也更健康的关系:开源社区里的正向循环

Kimi 和 DeepSeek 是中国首批开源万亿参数模型的玩家,都相信 Scaling Law。技术路线上,DeepSeek 以推理模型见长,Kimi 以 Agent 能力著称。

底层架构上,两家都在挑战同一批「古老」的基础设施。Kimi 发了「注意力残差」论文,DeepSeek 做了 mHC 残差连接,都在改 ResNet 时代留下来的残差连接方式。

在长文本这条线,Kimi 探索线性注意力(Kimi Linear),DeepSeek 探索稀疏注意力(DSA),殊途同归。

所以当它们撞车时,与其说是巧合,不如说是对同一个方向的必然趋同。

用中国的芯片,跑中国的模型,对全世界开源

在 OpenRouter 上,Kimi 和 DeepSeek 稳居中国模型调用量前两名。

Cursor 接入了 Kimi,日本乐天 Rakuten AI 3.0 基于 DeepSeek 开发。被海外产品「套壳」这件事,放在两年前是耻辱,现在是勋章。

Meta 新模型 Muse Spark 发布时,官方 Blog 做的对比基准线里,Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站着。英伟达 GTC 上,黄仁勋用来展示芯片性能的中国模型就是这两家。

海外认可之外,更值得注意的是国产芯片这条线。H20 芯片已断供一年,高端推理芯片短期内只有国产一个选项。两家公司同时在做同一件事:让中国模型跑在中国芯片上。

上周黄仁勋在播客访谈里说了一句话:「如果当初 DeepSeek 先在华为平台上发布,那对我们来说非常可怕。

今天,V4真的首发适配华为昇腾,工程团队把整个技术栈从 CUDA 迁移到了华为 CANN 框架,从算子库到通信原语到内存管理,V4 的混合注意力、MoE 专家并行、FP4 量化训练,几乎每层从头实现。寒武纪也在 Day 0 完成了 V4 全系列的 vLLM 推理适配,代码已开源。

黄仁勋一语成谶。

而 Kimi 在国产芯片上走的路更早,也更深。为了给国产芯片「铺路」,Kimi 在架构创新上掏出了两个杀手锏。

Kimi Linear 混合注意力架构把线性注意力层与全注意力层以 7:1 配比混合,将 KV 缓存体积压缩到极低水平。实测数据很直观:32K 上下文下,混合架构模型 KV 吞吐量仅 4.66 Gbps,同规模稠密模型高达 59.93 Gbps。

KV 缓存传输需求被压到了普通以太网可承载的范围,RDMA 高速网络从「必选项」变成了「可选项」。

在此基础上,Kimi 联合清华大学发布了 PrFaaS(预填充即服务)论文,把推理的 Prefill 阶段和 Decode 阶段彻底解耦,调度到不同异构硬件集群上。实测吞吐量提升 54%,首词延迟降低 64%。

这套方案打破了「大模型推理必须绑定同一种高端 GPU」的前提:算力强的国产卡做 Prefill,带宽强的国产卡做 Decode,各司其职。

DeepSeek 用 V4 证明了国产芯片能跑万亿参数的旗舰模型,Kimi 用架构创新证明了国产芯片可以跑得好、跑得省。

一个从工程适配切入,一个从架构设计切入,终点都是同一个:让英伟达不再是唯一选项

以前的国产 AI 叙事是「用英伟达的卡,追 OpenAI 的模型」。现在这对双子星同时在写另一个剧本:用中国的芯片,跑中国的模型,服务全世界的开发者

你的 MLA 是我的基础,我的 Muon 是你的加速器

回看这一周AI 行业的疯狂更新,我们已经处在了一个新的转折点。

同一周内,两个中国团队各自发布了万亿参数级开源模型,性能逼近甚至持平美国顶级闭源模型。这在一年前是不可想象的。

当闭源模型的价格是开源模型的 50 倍,开源阵营每隔几个月就推出一个新的万亿参数选手,竞争天平正在发生微妙的倾斜。

这不是「赢了」或「超越」这么简单的胜负之分。闭源模型在复杂推理和系统可靠性上仍然有明显优势,Opus 4.6 的思考模式依然是 V4-Pro 追赶的目标。但开源阵营的速度、成本优势和生态覆盖面,正在改变这场竞赛的规则本身。

除了这五次撞车发布,这两家公司还有一个巧合。梁文锋来自广东湛江,杨植麟来自广东汕头。两个广东人,撑起全球开源 AI 半边天

梁文锋像工程师哲学家,相信开源和底层创新,V4 发布公告结尾引的是荀子,「不诱于誉,不恐于诽,率道而行,端然正己。」

至于杨植麟在我看来像产品科学家,他认为用户体验和技术突破可以兼得,在 K2.6 发布时他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一个古典,一个极客。就是这两个风格迥异的创始人,一起定位了中国开源模型在世界坐标系的位置。

你的 MLA 是我的基础,我的 Muon 是你的加速器。这大概也是中国在能在短时间内引领全球开源 AI 的重要原因之一

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我和 AI 搭子工作了一周,再也回不去了

龙虾还没装上,朋友圈已经开始「养马」了。今年 OpenClaw 和 Hermes 火了之后,AI 能干活这件事算是彻底坐实了。

不过虽然 AI 圈的朋友熬夜「养龙虾」,已经跑通了各种自动化流程,但很多人大多在配置环节就劝退了。

就算跑通了,可能干得也是查查资讯写个报告的活,Token 消耗也非常吓人,干一个稍微复杂点的任务,账单可能会吓你一跳。

目前国内很多 「龙虾类」和 Cowork 类的产品也如潮水般涌来,作为一个 AI 媒体编辑,在体验了一堆产品后,我发现了一个有点意思的产品, 搭子DuMate

这是百度智能云做的桌面端 Agent,这次名字看似平平无奇很容易略过,但它给自己取的中文名「搭子」,反而引起了我的好奇

在大厂小厂都在贴近热点定义 AI 产品的时候,它不叫 Agent,不叫 Claw,不叫 Copilot,反而叫搭子这个有点接地气的名字。

在体验一段时间后,我发现当 AI 成为我的工作生活搭子,它更接近理想中 Agent 的模样。

值得一提的是,搭子DuMate 目前每天免费赠送 1000 积分,基本够一天正常使用。在 搭子DuMate 中输入 APPSO 专属邀请码「appso12」,还能额外领取大额永久积分。

让 AI 收拾我的电脑,比龙虾更轻松

搭子DuMate 的安装过程基本非常简单,下载客户端,一键装到本地,不需要配置任何开发环境。打开之后授权一个工作文件夹,用自然语言告诉它你想干什么就行。

跟 OpenClaw 那套「养龙虾」的折腾比起来,搭子DuMate 的上手门槛,基本是会打字就行。

我们先从最基础的场景开始小试牛刀。

我有个坏习惯,从来不整理分类电脑的各种文件,结果一段时间后合同 PDF、项目 Excel、会议录音、论文报告、半年前的截图,全堆在一起。

每次想整理都觉得工程太大,然后继续拖下去,无限循环。

这次我对搭子DuMate 说了一句:「按日期和文件类型,帮我把下载文件夹里的东西分类归档。」

 

说完我就去倒水了。回来的时候,下载文件夹已经被分成了十几个子目录:文档类按年月归档,图片单独一个文件夹,音频归音频,顺便让它清理重复和无效文件。


几年的积灰文档,几分钟搞定。

说到这里要插一句。让一个 AI 碰你真实的工作文件,第一反应肯定是:安全吗?比较之前 OpenClaw 出现过不少误删文件的事故。

搭子DuMate 的处理方式是这样的。它运行在本地,文件在你自己电脑上处理,不上传云端。它只能访问你授权的文件夹,第一次要动一个新目录会先弹窗问你是否允许。

删除、移动这类风险操作有二次确认,整个执行过程在屏幕上实时展示,你随时可以叫停。

数据不出设备,权限你说了算,操作也是全程透明。 这也是我后来敢把真实工作文章资料交给它的前提。

确认了安全没问题之后,我试了一个真正有业务含量的任务,给它上点难度。

做运营的人都知道渠道投放数据有多烦。光是天猫、京东、抖音、小红书四个平台,后台数据格式也不一样,每周要手动下载、清洗空值和重复项、统一格式、算 ROI、做透视表,最后还得整成一份给领导看的 PPT。

这套流程顺利的话要半天,不顺利的话加班没跑了。

我把四个平台的投放数据丢到桌面一个文件夹里,然后对搭子DuMate 说:「整合这四个平台的投放数据,清洗空值和重复项,计算各渠道 ROI,做透视表,最后生成一份汇报 PPT。」

它开始逐个读取 Excel,自动识别不同平台的字段差异,统一列名,剔除空行和重复记录,按渠道计算投入产出比,生成了一份带透视表的汇总 Excel。然后基于这些数据,自己搭了一份 PPT:封面、各渠道 ROI 对比柱状图、投放趋势折线图、问题渠道标红、末尾一页总结和建议。

说实话,排版比我自己做的好看。数据准确度我逐项核对了,没发现错误,它甚至自己纠正了一些表格的错误,比我还要细心。

它读了你的 Excel,分析整理这些的数据,生成了你要的 PPT 和表格,存到了你指定的文件夹。输入需求后,从头到尾我没打开过一次 Excel,没动过一次鼠标。

它边执行边思考,直接把成品给你,像一个聪明且执行力强的同事。

我和我的搭子,「搭」出了一套 AI 工作流

上面两个场景,说白了还是「你给任务,它干活」。真正让我感受到「搭子」,是它自己找活干的时候。

APPSO 聚焦 AI 方向的内容,这是个资讯爆炸更新飞快的行业,每天要盯大量行业和产品动态。以前的做法是早上花一两小时刷各种信息源,手动整理成当天的选题池。

现在我在搭子DuMate 建立了一套热点监控,并设了一条定时任务:每天早上 8 点,自动抓取主要科技媒体和社交平台的 AI 相关热点,整理成结构化的热点清单,并发送给我。

每天早上醒来,当天的热点已经整整齐齐躺在那里了。哪些重要性和热度更高,哪条是突发新闻,哪条是深度分析,哪条适合跟进做选题,它都帮我分了类。

热点抓取靠的是搭子DuMate 内置的百度搜索 Skill,这个 Skill 在 ClawHUB 上全球下载量超 8 万次,确实有点东西。

说到 Skill 多提一句。搭子DuMate 兼容 OpenClaw 标准,ClawHUB 里的第三方 Skill 可以直接导入。OpenClaw 社区积累的那些扩展资源,拿来就能用。它自己的技能广场里也有一堆现成的可以选装,腾讯文档、飞猪、滴滴都在。

对我来说这意味着想加什么能力,装个 Skill 就行,不用等官方更新。

搭子DuMate 打通了微信、飞书、如流、钉钉等主流的 IM 软件,基本也是一键绑定。然后接下来发生的事让我觉得AI 在我的工作流里真正跑通了。

昨天我让它给我整理热度资讯,搭子DuMate 给出头条就是:荣耀机器人「闪电」包揽 2026 北京亦庄人形机器人半程马拉松冠亚季军。这条消息到处刷屏,我判断值得赶一条短视频蹭热点。

以前的流程是:找素材、写脚本、打开软件、导出、上传,快的话两小时,慢的话半天。

这次我没有切到任何别的应用,直接在微信里回了搭子一条消息:「我是 AI 媒体 APPSO 的编辑,刚才那条机器人半马的热点我想跟,做一个 10 秒的短视频。我桌面的一个文件夹里有机器人半马素材相关的视频剪辑方案和几张参考图,帮我生成一个视频。」

它读了我桌面的剪辑方案和参考图,自动生成了一条 10 秒短视频,带旁白和背景音。

早上 8 点搭子推热点,8 点 10 分我在微信里回一句话,8 点半视频就生成了。 从发现热点到产出内容,全程在微信里完成,视频制作这样的活,我在路上就能完成。

最后一个场景可能是最让我惊喜的。

黄仁勋最近有一期很火的视频播客,我想把它变成一份可以内部分享的材料。我对搭子说:「整理这个视频播客,生成一个极客苹果风的 PPT,把黄仁勋的核心观点和金句提炼出来,内容尽量详细。同时根据视频内容测试一些适合科技媒体的选题方向,给我一个详细的报告。」

它先访问了视频链接,提取了完整的语音内容并转写,然后逐段分析,把黄仁勋的核心论点整理成结构化的 PPT,将访谈划分章节并整理出黄仁勋的金句。

风格确实是那种简洁的苹果范儿。同时它另外生成了一份选题报告,从视频内容里提炼出五六个适合科技媒体跟进的角度,每个角度附上切入点和参考素材。

两份文件,PPT 加报告,一共花了不到十分钟。

我核对了一下内容,金句提取准确,观点归纳基本到位,选题角度里有两个我已经在考虑的方向,还有一个我没想到但确实值得做。

除此之外,内容排版、小红书微博的撰写发布、各个平台的爆款分析,其实都可以一起完成,我和这个「搭子」,就能搭起来一条完整的内容生产流水线,我跟它的协作方式,真的就和跟团队得力的同事共事没太多区别。

搭子,一种新的人机关系

用了一段时间后,我对 搭子DuMate 的感受不再是「这个工具好用」,更接近一种新的「同事关系」。

它帮我整理文件的时候,我发现自己不紧张。因为我知道它只碰我授权的文件夹,风险操作会问我,做了什么全程可看。信任不是它承诺「我不会乱来」,是它的机制让它没法乱来。用了几天,我和它之间自然形成了分工:它负责重复劳动,我聚焦决策方向。

再往后是默契,第一次纠正了它,往往第二次它端出来就是我要的味道。这跟它的记忆能力有很大关系,会随着使用的时间不断了解你的审美风格偏好。

你细想一下,信任、分工、默契。这三个词,一般不是用来描述人和工具的关系,你不会说你跟 Excel 有默契,它说的是人和人(搭子)的关系。

AI 行业给产品取名这件事,其实很像相亲时的自我介绍。你怎么介绍自己,暴露的是你怎么理解这段关系。

搭子的逻辑是什么?你约饭搭子吃饭,谁先看菜单谁先点,没人在乎。搭子关系里没有机长和副驾驶,只有「你干你的,我干我的,干完一起收工」。

「搭子」这个词真正指向的,不只是一个更聪明的 AI ,是一种新的人机关系。你负责判断和决策,它负责执行和交付。你们平等协作,不是主仆。活干完了各自散去,下次有事再来。

AI 不再是你身边被动待命的角色。搭子是两个人在干活,只是其中一个不需要喝咖啡

想试试什么叫真 AI 搭子的,可以去勾搭一下搭子DuMate 了。

APPSO 还了解到,在5 月 13 日-14 日的百度 Create 大会,搭子DuMate 将会发布一系列更新。

这次 Create 大会除了面向企业、开发者和合作伙伴的 AI 底座更新,重头戏放在了 Agent 基础设施的最新进展上,怎么搭、怎么落地,可能是全场最值得蹲的干货。

届时 APPSO 也会第一时间带来现场报道,敬请期待。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌