普通视图

发现新文章,点击刷新页面。
昨天以前首页

讯飞首款 AI 眼镜,用 40 克撬动 AI 工作流

作者 李超凡
2026年5月28日 17:27

2026 还没过半,已经有 30 多款 AI 眼镜亮相了。

除了华为、阿里千问、Rokid、雷鸟、小米这些老玩家,连老板电器都推出 AI 烹饪眼镜,京东方也做了骑行眼镜……百镜齐放,但大体上在围着三件事卷:谁能做得更轻、谁的摄像头更清晰、谁的镜片上能塞进更大更好的显示屏。

热闹之下,有一个数据通常会被忽略。

目前主流电商平台上,AI 眼镜的退货率高得惊人,普遍在 30% 左右,在冲动消费占大头的直播渠道,退货率甚至能飙到 40% 到 50%

用户因为新鲜感下单,戴了几天,默默点了退货。销量高开低走、退货率居高不下,就是众多 AI 眼镜的「生命周期」。

说白了,尝鲜期过去后,消费者就会开始产生这样的疑惑:戴上之后它到底能帮我干什么。

就在今天,科大讯飞在澳门发布了旗下首款 AI 眼镜。这副 40 克的眼镜没有卷像素、卷全彩大屏、卷时尚联名,把核心能力押注在一个看起来十分常见的能力上——翻译

但翻译只是它的入口,不是终点。

发布会前夕,APPSO 和科大讯飞副总裁王玮、穿戴设备业务部总经理林会杰聊了聊。聊到后半段,话题从具体的产品技术转移到了一个更大的命题上:AI 眼镜下半场的关键,到底在硬件层面还是在 AI 工作流?

AI 眼镜的「奇点」,是让人愿意一直戴

百镜大战之后,在现有供应链里攒出一款智能眼镜真不难,华强北两周就能给你出一个样机。但难的是,你怎么给用户一个「一直佩戴」的理由。

对于第一次做 AI 眼镜的讯飞来说,这也是个绕不开的坎。

王玮跟 APPSO 聊起讯飞做 AI 眼镜的起点,其实源于一个非常具体的画面:你想啊,翻译机在展会、小型商务洽谈这些场景里是很好用的,甚至公司共用一台就够。但总有一些时刻,当你在国外旅游或者某些场合,你不方便掏出设备和低头看屏幕,不想等翻译结果打断说话的自然节奏。

你希望交流是「沉浸式」的,眼神始终对着彼此,对话顺畅流动,翻译像空气一样感受不到存在。这副眼镜的起点,就是用户对那种「无感」体验的期待。

这种「物理中断」,是讯飞看了无数个翻译机用户的真实反馈后,攒下来的痛点。做 AI 眼镜的公司可以一夜之间冒出来,但做翻译的底子,真的没法速成。

讯飞翻译机卖了 100 万台、翻译了 10 亿次。讯飞同传跑了 42 万场国际会议,覆盖 50 多个国家,触达 4 亿观众,连续 8 年服务全国两会。

这些数字沉淀下来的不只是算法,还有对真实场景里那些琐碎问题的感知:什么时候用户会嫌翻译慢,什么场景下手持设备让人尴尬,什么噪音条件会让准确率断崖……

去年 10 月讯飞已经推出了一款翻译耳机。耳机验证了两件事:用户确实需要释放双手的穿戴式翻译;端到端的同传在穿戴设备上是跑得通的,反应速度能掐在 2 秒以内。

但耳机只管耳朵,在林会杰看来,耳机的局限在于它是一个「听觉」设备(现在也开始加摄像头了),眼镜则可以增加视觉的模态,多种模态叠加在一起,跨语言沟通的信息输入就丰富多了。

说白了,眼镜上有摄像头可以拍照翻译,有显示可以投射字幕让你不用低头看手机,还能放更多的麦克风做定向降噪。

用王玮的话说就是,「眼镜离人的眼睛、耳朵、嘴巴最近,它是物理世界与数字世界天然的桥梁,让翻译像呼吸一样自然发生。」

而到了 2026 年,供应链成本开始被拉下来了,国补也首次把智能眼镜纳了进来,再加上星火 X2 大模型云端翻译能力的提升,天时地利凑齐了。

林会杰倒挺坦率:「我们选择这个节点,是因为看到了增速才刚刚开始。」王玮更直接:我们不想用「iPhone 时刻」这个词,但实际上就是这个意思,眼镜马上到了奇点临近的时候。

40 克,一道系统工程题

讯飞这款 AI 眼镜,我戴上之后第一反应是比想象中轻。它集成了微型显示屏、摄像头、5+1 麦克风矩阵、喇叭,但整机重量被死死卡在了 40 克。

这个数字可能很多人没概念,我们来横向对比一下:

  • Meta Ray-Ban 是 49 克,但它没有显示屏;
  • Rokid Glasses 也是 49 克,带显示,但比讯飞重了将近 25%;
  • 华为 AI 眼镜确实轻,35.5 克,但它没有显示屏。

在「带显示屏」的智能眼镜阵营里,讯飞目前几乎做到了行业最轻。

为什么非得是 40 克?林会杰说,这个数字是他们用模拟仿真和海量调研死磕出来的。欧美人的头型和体型对重量的钝感力比较强,Meta 做到 50 多克他们依然觉得能接受。但亚洲人的颅骨结构和鼻梁高度不同,对重量极度敏感。

对于中国用户来说,45 克是一道分水岭,超过这个分量,戴久了就会有明显的压迫感。40 克,是长时间佩戴的「舒适阈值」。

为了抠掉这几克,团队在工程上跟供应链磨了很久。最关键的一招,是用树脂镜片替代了传统的玻璃镜片。

传统近视眼镜早就是树脂的天下了,但为什么智能眼镜一直不用?因为工艺太搞心态了。智能眼镜的镜片需要做「全贴合」,把显示层和镜片压在一起。树脂材料在成型和加热时极易产生微小的气泡,胶水一旦有一丝一毫的空隙,光线的折射曲率就偏了,整个镜片就废了,良率控制比玻璃难得多。

林会杰透露,讯飞应该是行业里第一个在带显示的智能眼镜上把全贴合树脂工艺跑通的。研发过程中经历了非常多尝试和失败,才最终把树脂材料用在了显示镜片上,但回报是巨大的,单靠镜片这一项,就比玻璃方案轻了 30% 到 40%。

再加上定制的 0.15CC 微型光机、微型摄像头模组,镜框镜腿一体成型。芯片选型和算法做了深度耦合:同样的功能别家可能要 100mAh 电池,讯飞可能 50mAh 就够了。

所以最后我们看到的讯飞 AI 眼镜,整机重量更轻,续航却没打折。

这是一道系统工程题,没有捷径,每一环都要跟供应链反复磨合良品率。树脂镜片、微型光机、低功耗芯片、算法-硬件耦合,哪一环掉链子,重量都得回到 50 克以上。

唇动识别降噪,用眼睛帮耳朵听

翻译固然是讯飞的舒适区,但这副眼镜上,讯飞还首发了一个有点科幻的技术——唇动识别降噪,这是多模态降噪系统的核心部分

这是唇动识别降噪首次搭载到 AI 眼镜上,实现逻辑是眼镜的前置摄像头会死死锁定对面说话人的嘴唇。同时,眼镜上的 5 颗气导麦克风和 1 颗骨传导麦克风组成了一个六通道的音频流。

系统实时通过「看到谁的嘴在动」,来辅助判断「该听谁的声音」, 从而在嘈杂的多人混声中,精准地把目标人物的语音「抠」出来。

这就实现了「看谁翻谁」的效果,你的眼镜盯着谁,耳边响起的、镜片上跳出来的,就是谁的翻译字幕。

这个技术直接决定很多场景的翻译质量,因为翻译准不准,有一个重要的前提听得清不清。

安静的会议室里,其实目前的翻译软硬件都可以较好处理交流问题。但讯飞 AI 眼镜重要的一个用户群是商务人士,他们真正需要用到的翻译场景是什么?是展会、商务酒会、机场,环境噪音随便都能 80 到 90 分贝。传统翻译工具在这种环境下,准确率直接掉进马里亚纳海沟。

高噪场景下,唇动识别降噪让识别准确率提升了 50% 以上。林会杰解释说,这并不是单纯看口型,它融合了声源位置增强、目标人锁定等一整套多模态降噪系统,各路信号在实际使用中自动协同。

这个能力也不是拍脑袋想出来的。讯飞在大型会议系统和汽车智能座舱里,搞这种多通道语音分离和多模态降噪已经很多年了,在 CHiME 国际语音分离大赛上拿过 6 连冠。

王玮还给我们分享了一个几年前的内部 Demo:几个研究员同时讲话,人耳完全分不清,系统把每个人的声音干净利落分离出来,谁说了什么都清清楚楚。

这事儿有趣的地方在于,以前开大会,你有足够的物理空间塞麦克风,有服务器的算力,有插座供电。现在,你要把这套复杂的视觉-音频融合算法,塞进一副 40 克、算力和功耗被极度压榨的眼镜里。

王玮觉得,这恰恰是讯飞在硬件上秀出的「肌肉」:怎么把大设备上的硬核算法做高倍率的压缩,移植到小尺寸、轻量化的移动端侧,而且还能离线实时处理多路语音数据

讯飞做硬件的路径是「大设备验证、小设备迁移」。在会议系统和汽车上跑通的算法压缩到眼镜端侧。唇动识别降噪需要视觉-音频配对数据、端侧实时处理能力、多麦克风硬件的联合调优,单靠现成算法集成难以实现。

降噪的准确性直接决定翻译的准确性,这也是整条工作流的第一道关卡。

「全能翻译」背后的基础设施

听得清之后,才是译得准的问题。

讯飞 AI 眼镜支持 122 种语言的实时互译,划分了同声传译(听演讲)、面对面翻译(商务洽谈)、通话翻译(跨国电话)和线上同传(接腾讯会议或 Zoom)等四种模式,摄像头还能直接拍 PPT, 做外文资料翻译。

在现场体验中最让我觉得有意思的是通话翻译

这大概是目前市面上唯一一款能在你打电话时,同时帮你做跨国翻译和记录的眼镜。它的路径是这样的:眼镜通过蓝牙挂载在手机上,捕捉到电话那头的英语,端到端同传模型全自动翻译,再把你的中文回答翻译成英文顶回去,延迟在秒级。

也就是说,你在电话这头说中文,老外在那头听到的是你的音色克隆出来的英文。电话一挂,眼镜甚至能帮你把一份结构化的会议纪要发你。

过去,传统的翻译系统是「老三样」:语音识别(ASR)→文本翻译(MT)→语音合成(TTS)。这套方案最大的毛病就是延迟大,而且每过一个环节,信息的「语义损失」就多一层。

讯飞这次在眼镜上搭载端到端的语音同传大模型,跳过了中间的文本转译步骤,直接实现「语音进、语音出」,把首字响应时间压进了 2 秒。云端撑腰的是星火 X2 模型(293B 参数的 MoE 架构,基于华为昇腾训练)。

林会杰说,他们把翻译场景切分得极其细微,因为不同场景下需要的行业知识库和降噪模式是完全不一样的。

讯飞这款眼镜在翻译功能上花的功夫,这有点像手机行业卷影像,拍照功能谁都有,但我有 2 亿像素,有10 倍长焦,有4K live 图,甚至能覆盖专业摄影场景。

翻译之后,AI 工作流才开始

到了这一步,你会发现,讯飞想做的已经不只是「翻译工具」了。这大概也是为什么它不叫「翻译眼镜」,而被视「眼前的超级 AI 助理」。

林会杰认为,「眼镜更像是一个戴在眼前的超级计算机,带有显示、摄像头、语音能力,它的配置跟手机、PC 基本一样。

承载这层能力的是讯飞的 GlassClaw,这个 Agent 能调用大模型能力、接入生态服务、做多模态理解,把从听懂到干活的整个过程打通,同时也支持 OpenClaw 等第三方 Agent 接入。

你没看错,这还是一副「龙虾」眼镜。

林会杰分享了他自己使用 GlassClaw 的日常工作流:他出门不用频繁掏手机。在路上走着,可以直接用语音唤醒 GlassClaw,让它调取手机通讯录、找客户拨号,电话接通自动开翻译。

跟客户面对面聊天时,突然需要查阅之前的某份合同纪要,直接盲操吩咐眼镜,眼镜会去检索他的电脑资料,提取出要点并同步到镜片上。

甚至开完会后,眼镜自动做完多模态的角色区分(谁说了什么),输出结构化纪要,他直接语音:「把纪要以邮件形式发给项目组,并把下周三的复盘会同步到日历上。」

如果你也养过虾对这些功能肯定不陌生,只不过这次交互发生在你的脸上。

当初让AI 眼镜出圈的提词器功能,在这款眼镜里也迎来升级。

讯飞 AI 眼镜的智能提词器功能做到了语义跟随,说到哪跟到哪,不再是机械按速度滚动,可以做自然的智能语义理解和跟随。配套的充电胶囊可以当遥控器,按键切换和暂停文稿。

这就是 AstronClaw 架构在底层玩的「端-边-云」三级协同:眼镜端侧负责环境感知和预处理,边缘侧做决策,复杂的推理丢给云端的星火 X2。GlassClaw 基于讯飞自研的 Agent 能力,同时也支持 OpenClaw 等第三方 Agent 接入。

王玮的判断是,未来的眼镜不再只是很简单的一副眼镜,而是你穿戴最方便的一个随身助理

市场上单做翻译或单做 AI 助手的产品不少,但把「翻译 + 记录 + 纪要 + 跨端执行」串成顺滑的工作流,需要语音、翻译、大模型、智能体(Agent)四种底层能力同时在线,且环环相扣

讯飞这种全栈的技术能力,恰好在眼镜这个载体上找到了合适的闭环。

AI 眼镜的下半场,拼的是什么

过去两年,AI 浪潮裹挟着整个硬件行业寻找那个所谓的「Next Gen」入口。

AI Pin 翻车了,各种智能吊坠无疾而终,虽然 AI 硬件的产品形态和技术路线各异,但行业也逐渐形成一些共识: AI 需要眼睛,它必须能实时感知人类所处的三维物理世界。

AI 眼镜未必不是最终形态,但它是目前唯一能够全天候、第一视角承载视觉与听觉输入的形态。

王玮在采访里提到一个挺有意思的预判:「未来的数字生活三件套,大概率是电脑、手机和眼镜。眼镜不是手机的配件,它自己就是一台架在鼻梁上的独立主机。」

眼镜天然适合做连接物理世界和数字世界的设备。而且硬件本身还有很长的迭代空间:显示会从单色走向全彩、从 2K 走向 4K;摄像头和麦克风还会向 AI 原生的 token 编码方式升级。王玮说这些技术路径已经开始有比较明晰的发展方向了。

林会杰透露,讯飞的第二代 AI 眼镜已经在规划中,最快 2026 年秋季能看到,面向更多不同人群,也在摸索一些细分的垂直场景。

过去一年 APPSO 测过、写过不少 AI 眼镜。回头看百镜大战,行业其实已经分化出了两条不同的路:

一条是「做最好的眼镜,让 AI 成为加分项」。 Meta Ray-Ban 是这个逻辑:用时尚设计和品牌文化来对冲用户对 AI 能力的低频刚需。

另一条是「做更深的 AI 工作流,让眼镜成为新的电脑」。 讯飞选择的就是这条路。两条路指向不同的竞争维度,但后一条更难走,因为它要求你同时具备硬件工程能力和 AI 全栈能力,缺一不可。

AI 眼镜的下半场,真正的分水岭在于,谁能把 AI 揉进高度细分的真实场景里,替用户把一件件琐碎任务给办了。

让眼镜回归眼镜, AI 老老实实当「牛马」。

最后能留下来的设备,我想大概是这样的:当你摘下它的时候,会突然觉得眼前的世界变得沉重而低效。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Vidu Claw 开启「百元出百万级大片」时代:微信说句话,视频就出片

作者 艾 梵
2026年5月7日 19:34

42 年前,苹果向世界抛出了《1984》的广告,一锤子砸开了个人电脑的未来。这则广告,也被《电视指南》和《广告时代》评为有史以来最伟大的商业广告。

这种级别的广告创意想要落地,少不了金钱与顶级专业资源的支撑。为了这一分钟的画面,乔布斯不惜在 80 年代豪掷 90 万美元,并请来了著名电影导演雷德利·斯科特亲手操刀。

然而现实是,并不是所有人都有苹果的资金与资源。直到生成式 AI 拆掉了视频制作高耸的门槛,普通人才有了比肩大师的工具。

但用了却发现,它们并没有实现我理想中的「创作自由」。就算打通了技术的难关,更核心的矛盾在于,AI 视频生成原本昂贵的计费逻辑,天生就与广告行业海量的试错与落地需求相悖。

这种真实存在的痛点应当被正视。站在曾经广告从业者的立场,我长期渴求的并非一个单纯的视频生成器,而是一个能听懂 Brief、精准锚定「营销目标」的数字协作伙伴。终于,生数科技这次正式上线的 Vidu Claw,填补了这个长久以来的行业缺口,让我曾经的「职场幻想」变成了可落地的生产力。

比起过去的视频 Agent,Vidu Claw 更进一步,像是为你雇佣了一位全能的「创意员工」。不用写复杂的提示词、不用全新学习去使用无限画布,丢给它一句产品卖点、一个营销目标,它就能自主完成从创意理解、脚本策划到视频生成的全链路闭环,直接交付给你一个完整的成片。

例如这个 CyberTruck 的广告,无论是画面车身细节的微距特写,还配合最后疾驰时的扬尘,整套镜头语言显得非常老道。

要是按照传统视频制作工业的流程,把「硬核」、「科技感」和「未来」这些模糊的视觉意象转换为极具画面感的成片,所耗费的人力物力,通常都需要百万级。但现在,这种百万级别的广告片,百元价格就能「拍」出来。

因为这次,Vidu 直接把计费模式的桌子掀了:推出了全球首个 Claw 工具的「创作者计划」,一口价包干,每天最高 40 分钟生成额度(视频/图片/音频等),模型消耗加剪辑成本全包。不用再算积分、不用再纠结要不要重新生成,在对话框里敲一句话就开工,用过去十分之一的投入换回海量成片。

🎁 如果你也迫不及待想让这个全能的龙虾员工进驻,APPSO 特地为你准备了福利:登录 vidu.cn,输入邀请码APPSON4,注册即送 500 积分,快一起来体验吧。

聊着天,就把视频做了

以往的 AI 视频生成工作流,需要你不停在脚本、图片与视频生成的窗口来回切换,但 Vidu Claw 换了一种思路:它不再满足于扮演一个被动的「生成器」,而是将多种底层能力深度整合,变成了一个全天候待命的「数字创意雇员」。

这种从工具到角色的转变,意味着它开始承担起原本需要多人协作才能完成的策略理解与执行。

而为了让这种生产力真正融入日常,Vidu Claw 支持了微信、飞书和钉钉扫码直接接入。这彻底消解了专业设备与软件带来的隔离感,你不再需要打开沉重的专业应用,只要在对话框里像平时沟通 Brief 一样输入想法,视频创作的齿轮就开始旋转了。

这种极低的操作门槛,让视频创作从特定岗位的「专权」变成了创作者的「通才」。无论是急需素材的品牌方,还是追求极速周转的电商运营,甚至是对技术积累较浅的中小商家,都能在最熟悉的聊天界面里,用最直观的沟通,完成一次成品级的视频交付。

在扫码接入微信后,Vidu Claw 便正式入驻了我的聊天窗口。

比起过去一贯深黑色的 AI 视频生成工具界面,Vidu Claw 更像是我在与一位资深广告人的日常对话。当我试探性地抛出一个「制作男士香水广告」的需求时,它展现出了一种近乎职业本能的严谨:它会像经验丰富的广告策划一样,主动对我「毫无头绪」的 Brief 进行多维度的反向推敲 —— 从品牌调性到投放渠道,甚至还精确到具体的传播人群。

这种先厘清逻辑再切入执行的思考方式,确实具备了一个广告人该有的职业素养。

在随后的素材填充环节,这种协作感也让我感受到了它的专业。你可以事无巨细地交待每一处细节,也可以只提供一个模糊的直觉,把剩下的逻辑补全与视觉延展,放心地交给这个被昵称为「V 龙」的拍档去润色。

很快,三个风格迥异的创意方向便会出现在对话框中。在敲定心仪路径后,它还会主动复盘现有方案的完整度,并实时给出补全建议。这种「多想一步」的主动性,让它在众多被动响应的工具中显得格外扎实。

一句话,就出百万级广告大片

改变了制片方式的 Vidu Claw,具体的成片效果如何?光说不练假把式。先来看一条男士香水大片:

冲杯咖啡的五分钟空档里,V 龙就甩给我完成度如此之高的成片。这种改变以往视频创作逻辑和近乎瞬时的响应速度,让整个过程被简化到了近乎直觉的程度:我仅仅是提供了一个模糊的意图,它便能自主梳理出严谨的分镜逻辑,并将其迅速转化为一支质感成熟的商业广告。

既然说到了咖啡,那不妨再让 Vidu Claw 来做一条咖啡广告。

同样的,我只需要提供素材,告诉 Vidu Claw「我想要一个高大上的咖啡广告」,等上几分钟就好。画面中氤氲的蒸汽与精美的拉花,香气如同穿透屏幕扑鼻而来,让我感觉这杯咖啡就在手边一般。

时尚太阳镜大片也是不在话下。这真实的质感和表现力,让我恨不得火速下单同款眼镜,仿佛下一秒我就要 Like Jennie 一样出席今年的 Met Gala。

高端化妆品的质感也是轻松拿捏。

而对于需要口播的电商广告,Vidu Claw 也毫不费力。先来看个英文版的:

充满质感的画面、准确的配音和动感的 BGM,一气呵成。我要做的,只是在 Vidu Claw 里和它说一句「做一个 25s 的信息流广告,英文的,带口播」。

当然,中文的种草视频也难不倒它 ——

画面表现出的一致性极高,尤其是音频与口型之间的精准咬合,彻底告别了早期生成工具那种支离破碎的生涩感。我完全不需要顾虑过去 AI 视频里有的那些坑,一句话就能让 Vidu Claw 出广告成片,效果好到让熬夜写稿的我都想去入手一瓶。

终于不用再盯着 Token 创作了

广告视频的制作一直有个不可能三角:要质量就得砸时间,要速度就得牺牲品质。一条普通的商业短片,从 Brief 到成片,执行周期基本都是按周算了。

现在,Vidu Claw 让我感觉到这个三角正在瓦解。上面这些新品种草、电商广告和产品介绍视频,过去需要一个团队好几天的工作量,现在一个人不到一天就能干完收工。

但效率提升只是表面,先来看 Google 报告一个数字:美国接近 40% 的员工已经用上了 AI,但真正把它转化成实际生产力的只有 5%。

问题出在哪儿了?

广告行业有个公开的秘密:一条 15 秒的片子,拍摄可能只花一天,但前期的沟通、修改、对齐认知,才是最磨人的。

真正杀死中小团队的从来不只是制作费,还有协调成本。策划和导演的理解偏差、客户第七版修改意见、美术和剪辑之间的反复拉扯,这些才是把一个好想法拖到烂尾的元凶。

Vidu Claw 干了一件很狠的事:它把策略理解、脚本生成、视频交付这三个原本分属不同工种的活儿,塞进了一个微信聊天窗口。你在对话框里丢一句「做个高级感的香水广告」,几分钟后收到成片。一个人,一句话,完成过去一个五人小组折腾一周的产出。

它无疑改变了整个行业的创作生态:当试错成本被包干制压到几乎可以忽略,你甚至可以同时跑三个方向,哪个好用哪个。创作者们终于可以摆脱束手束脚的心态,放心大胆地去尝试

过去创意行业的筛选机制是「谁有预算谁说了算」,现在变成了「谁的想法好谁先出牌」。制作能力一旦充裕到不值钱,审美和洞察就成了唯一的硬通货

以前拦住你的是「拍不出来」,现在拦住你的是「想不出来」。 Vidu Claw 把门槛从钱包挪到了脑子里,至于这扇门你能推多开,取决于你到底有多少创意和故事想对这个世界讲。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenClaw Memory Wiki 技术文档

作者 唐巧
2026年4月9日 06:56

OpenClaw Memory Wiki 技术文档

基于 OpenClaw v2026.4.7 最新版本整理,更新日期:2026-04-08

目录


概述

OpenClaw 是一个开源的个人 AI 代理框架,其记忆系统采用 基于文件的记忆模型——所有持久化信息以 Markdown 文件形式存储在代理工作空间中(默认路径:~/.openclaw/workspace)。系统不维护任何隐藏状态,只有显式写入磁盘的内容才计入记忆。

Memory Wiki 是 OpenClaw 记忆体系中的高级层,作为可选的伴生插件(memory-wiki),将持久化记忆编译为一个具有溯源能力的知识库(vault),支持确定性页面布局、结构化声明(claims)、矛盾追踪和机器可读摘要。


核心架构

OpenClaw 的记忆系统由三层文件构成:

文件 作用 加载时机
MEMORY.md 长期持久存储:事实、偏好、决策 每次会话开始自动加载
memory/YYYY-MM-DD.md 每日笔记:运行中的上下文与观察 当日及前一日自动加载
DREAMS.md 实验性:梦境日记与巩固摘要 可选,供人工审阅

核心记忆工具:

  • memory_search:语义搜索,匹配概念含义而非精确措辞
  • memory_get:检索特定的记忆文件或指定行范围

Memory Wiki 作为补充层叠加在核心记忆之上,不替换核心记忆插件。


Memory Wiki 插件

Vault 模式

Memory Wiki 支持两种运行模式:

1. Isolated(隔离)模式

1
2
3
4
5
memory-wiki:
vaultMode: "isolated"
vault:
path: "~/.openclaw/wiki/main"
renderMode: "obsidian"
  • Wiki 拥有独立的 vault 和数据源
  • 不依赖 memory-core
  • 适用于:希望 wiki 作为独立的、经过策展的知识库

2. Bridge(桥接)模式

1
2
memory-wiki:
vaultMode: "bridge"
  • 通过公共插件 SDK 接口读取活跃记忆插件的公开记忆 artifacts 和事件
  • 不直接访问私有插件内部实现
  • 适用于:希望 wiki 编译和组织核心记忆插件导出的 artifacts

建议:除非明确需要桥接模式,否则优先选择 isolated 模式。

页面组织结构

Wiki vault 采用确定性目录布局:

1
2
3
4
5
6
7
8
9
10
11
~/.openclaw/wiki/main/
├── sources/ # 导入的原始材料、桥接页面
├── entities/ # 持久对象:人物、系统、项目
├── concepts/ # 观念、抽象、模式、策略
├── syntheses/ # 编译摘要、维护性汇总
├── reports/ # 生成的报告
├── _attachments/ # 附件资源
├── _views/ # 视图定义
└── .openclaw-wiki/ # 托管内容与缓存
└── cache/
└── claims.jsonl # 编译后的声明摘要

关键目录说明

目录 内容 示例
sources/ 原始导入材料与桥接页面 论文摘录、会议纪要
entities/ 持久对象——人、系统、项目 entity.kubernetesentity.alice
concepts/ 抽象概念与模式 concept.event-sourcing
syntheses/ 编译摘要与汇总 synthesis.q1-review

结构化 Claim/Evidence 模型

Memory Wiki 的核心创新是将知识从自由文本升级为 结构化声明。每个页面可在 frontmatter 中携带结构化的 claims:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
---
id: entity.kubernetes
claims:
- claim: "Kubernetes 默认调度器使用 bin-packing 策略"
confidence: 0.85
source: "sources/k8s-scheduler-doc"
updated: 2026-03-15
status: active
- claim: "Helm v4 已移除 Tiller 依赖"
confidence: 0.95
source: "sources/helm-release-notes"
updated: 2026-04-01
status: active
---

# Kubernetes

正文内容...

Claim 字段说明

字段 类型 说明
claim string 声明内容
confidence float 置信度(0-1)
source string 溯源引用(指向 sources/ 下的页面)
updated date 最后更新日期
status enum active / contested / resolved / stale

Claims 可被追踪、评分、质疑和溯源,使 wiki 的行为更像一个 信念层(belief layer) 而非被动的笔记堆。


关键能力

矛盾检测与聚类

wiki_lint 工具能自动扫描 vault 中的结构性问题:

  • 矛盾检测:发现语义上互相冲突的 claims
  • 矛盾聚类(Contradiction Clustering):将相关的矛盾声明分组,便于集中解决
  • 溯源缺口:标记缺少 source 引用的 claims
  • 开放问题:识别尚未解决的疑问

新鲜度加权搜索

wiki_search 的搜索排序综合考虑:

  • 语义相关性:基于向量相似度的概念匹配
  • 关键词匹配:精确标识符和代码符号的 BM25 匹配
  • 新鲜度权重(Freshness Weighting):最近更新的 claims 获得更高排名
  • 置信度得分:高置信度的声明优先展示

编译摘要(Compiled Digests)

为避免代理和运行时代码在查询时解析 Markdown 页面,Memory Wiki 维护编译后的摘要:

1
.openclaw-wiki/cache/claims.jsonl

每行为一个 JSON 对象,包含 claim 的完整元数据。代理可直接读取此文件进行高效查询,无需遍历页面。

过时性仪表盘

Memory Wiki 内置 Staleness Dashboard,可视化展示:

  • 各 claim 的最后更新时间
  • 过时(stale)声明的数量与分布
  • 需要审查的知识区域

Wiki 工具集

Memory Wiki 插件注册以下工具供代理使用:

工具 功能
wiki_status 显示当前 vault 模式、健康状态、Obsidian CLI 可用性
wiki_search 搜索 wiki 页面,支持共享记忆语料库
wiki_get 按 id/path 读取 wiki 页面,可回退至共享记忆语料库
wiki_apply 执行窄范围的综合/元数据变更,无需全页编辑
wiki_lint 结构检查:溯源缺口、矛盾、开放问题

使用建议

  • 当溯源(provenance)重要时,使用 wiki_search / wiki_get 而非通用 memory_search
  • 对元数据更新使用 wiki_apply,避免自由编辑页面
  • 有意义的变更后运行 wiki_lint

CLI 命令参考

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 状态与诊断
openclaw wiki status # 查看 vault 状态
openclaw wiki doctor # 诊断 vault 健康问题

# 初始化与数据导入
openclaw wiki init # 初始化新 vault
openclaw wiki ingest ./notes/alpha.md # 导入外部文档

# 编译与质量检查
openclaw wiki compile # 重新编译 claims 摘要
openclaw wiki lint # 结构检查与矛盾检测

# 搜索与检索
openclaw wiki search "kubernetes" # 搜索 wiki 内容
openclaw wiki get entity.alpha # 获取指定页面

# 综合与应用
openclaw wiki apply synthesis # 应用综合更新

# Obsidian 集成
openclaw wiki obsidian status # 检查 Obsidian 集成状态

Obsidian 集成

Memory Wiki 支持与 Obsidian 笔记软件深度集成:

1
2
3
4
5
6
memory-wiki:
obsidian:
enabled: true
useOfficialCli: true # 使用 Obsidian 官方 CLI (v1.12+)
vaultName: "openclaw-wiki"
openAfterWrite: false

官方 Obsidian CLI(v1.12+)提供完整的 vault 自动化能力,包括:文件管理、每日笔记、搜索、任务、标签、属性、链接、书签、模板、主题、插件、同步与发布。

renderMode 设为 "obsidian" 时,Wiki 页面输出为 Obsidian 兼容格式,可直接在 Obsidian 中浏览和编辑。


Dreaming 系统(实验性)

Dreaming 是一个可选的后台巩固流程,与 Memory Wiki 配合工作:

  1. 收集(Collect):从每日笔记中提取短期信号
  2. 评分(Score):基于阈值(得分、召回频率、查询多样性)筛选候选项
  3. 晋升(Promote):将合格项目提升至长期记忆(MEMORY.md
  4. 记录(Document):在 DREAMS.md 中写入阶段性摘要

v2026.4.7 中 Dreaming 系统的改进:

  • 支持将脱敏的会话转录导入 dreaming 语料库
  • 按天生成 session-corpus 笔记
  • 游标检查点与晋升/诊断支持
  • 在每日笔记导入前剥离托管的 Light Sleep 和 REM 块

搜索后端与混合检索

Memory Wiki 的搜索依托 OpenClaw 的混合检索架构:

后端 特点
Builtin(默认) 基于 SQLite,支持关键词、向量和混合搜索
QMD 本地优先,支持 reranking 和外部目录索引
Honcho AI 原生跨会话记忆,支持用户建模

当配置了 embedding provider 时(支持 OpenAI、Gemini、Voyage、Mistral),wiki_search 采用 混合搜索 策略:

  • 向量相似度:语义理解层面的概念匹配
  • BM25 关键词匹配:精确标识符与代码符号匹配
  • 新鲜度加权:近期更新的内容获得排名提升

v2026.4.7 新增了当 sqlite-vec 不可用或向量写入降级时的显式警告。


配置参考

完整的 Memory Wiki 插件配置示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
plugins:
memory-wiki:
enabled: true
vaultMode: "isolated" # "isolated" | "bridge"
vault:
path: "~/.openclaw/wiki/main"
renderMode: "obsidian" # "obsidian" | "plain"
obsidian:
enabled: true
useOfficialCli: true
vaultName: "openclaw-wiki"
openAfterWrite: false
ingest:
autoIndex: true
search:
backend: "builtin" # "builtin" | "qmd" | "honcho"
freshnessWeight: 0.3 # 新鲜度权重系数
lint:
contradictionClustering: true
stalenessThresholdDays: 30
dashboard:
enabled: true

v2026.4.7 更新要点

OpenClaw v2026.4.7 是 Memory Wiki 的重要里程碑版本,恢复了完整的 memory-wiki 栈:

Memory Wiki 核心恢复

  • 插件 + CLI + sync/query/apply 工具链
  • Memory-host 集成
  • 结构化 claim/evidence 字段
  • 编译摘要检索
  • Claim 健康度 linting
  • 矛盾聚类
  • 过时性仪表盘
  • 新鲜度加权搜索

其他相关更新

  • 推理中心:新增 openclaw infer hub,支持跨 model/media/web/embedding 的 provider 推理工作流
  • 媒体生成:工具/媒体生成支持跨 provider 自动降级,保留意图
  • Webhook 集成:内置 webhook ingress 插件,支持外部自动化创建和驱动 TaskFlow
  • 向量召回警告sqlite-vec 不可用时显式提醒
  • Dreams 配置感知:Dreams 配置读写现在尊重选定的 memory slot 插件

参考资料

❌
❌