普通视图

发现新文章,点击刷新页面。
昨天以前首页

如何让 Kimi 的新 Agent 给我做国庆攻略,跟着 AI 旅游会踩雷吗?

作者 张子豪
2025年10月3日 20:22

国庆长假,AI 大模型献礼的方式是一波接一波的更新。

OpenAI 突然发布 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,Kimi 则是更新了 App,然后默默在自己的版本记录里面,写下了这句话。

Kimi 当然也有「献礼」,上周四,他们开启了Agent 模式的测试,推出了一项名为「OK Computer」的智能体。

和之前我们分享过的深度研究不同,OK Computer 能做的不止是一份可视化报告,而是直接给了我们一台电脑。我们用电脑能完成的事情,OK Computer 智能体都可以做到。

但能做,和做得好,还是有很大的区别。和之前一样,我们用实测带你来看看,Kimi 全新的 OK Computer 到底在 Agent 品类里面,表现如何。

AI 帮你策划一份国庆游玩攻略

首先是看看它的网站部署能力,速度比深度研究快上不少,但这个效果,我觉得还是比较「大众化 Agent」的水平,尤其是,部分页面的背景颜色,依然渐变紫。

▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/

内容上,布局和图片的选择很合理;但是推荐的地点,北京、杭州,而且还是西湖,国庆节去西湖,应该只能看到人吧,所以这个「国庆旅游网站」的开发,我认为是不能算出色。

而如果是让 OK Computer 直接帮我生成一份旅游路线,告诉他要扮演一个顶级的旅行定制师,设计两条彻底避开国庆黄金周的旅游路线。OK Computer 这次交付的成果,看起来很不错。

▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/

审美相当在线,这个字体、背景图片,颜色,都选的非常好,奈何我还是觉得内容稍显空洞,真正能帮到我旅行的内容,不算多。

大多数时候,我可能只是知道了有这些地方,但是我不知道我为什么要去,以及怎么去。而且,总是对这些内容,有一些不信任感,可能把一个 AI 推荐的景点和一张小红书滤镜的景点,同时摆在我眼前,我还是会选择小红书用户发布的帖子。

OK Computer 完成这两个项目都非常快,我们也用 Kimi 的深度研究尝试了一波,结果是,它花了快有一个小时的时间,最后生产了一份超过 50 页的预览报告。

▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

由于深度研究和 OK Computer 不同,深度研究只有一个预览报告,且不能对报告再进行修改。

最近千问也更新了一大波新的模型,在他们的官方博客,我看到一个「旅行规划师」的智能助手,同样的需求丢给它,结果会比 Kimi 的 OK Computer 要更好吗?

▲10 页的 PDF,把时间段、活动类型、可能要消耗的油费都清楚地列举出来。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

答案是真的更好。Qwen 这个旅行规划师,完全利用了阿里的庞大生态系统,它不是简单的给几个景点,然后连成一条路线,而是会实际地调用高德地图,用明确的经纬度来确定合适的行程。这一点很像前段时间的飞猪 AI 旅行规划,毕竟也是一家公司。

其他 agent 产品的效果,和 Kimi 的 OK Computer 其实差不太多,ChatGPT agent 生成了一个 10 页的 PPT,一如从前的精简;而 Manus 也是一样,好看,但实用价值不多。

▲ ChatGPT agent 生成的内容,基于同样的提示词

不过 Kimi 的好处是,能产出类似结果的同时,不需要额外的网络设置。

此外,他们最近上线了付费会员方案,还可以将之前的打赏金额,全部抵扣为会员费,免费用户也能获得有限次数的 OK Computer 试用机会。

iPhone 和小米的 17 Pro Max 对比

同样基于 Kimi K2 的 Agentic 能力,OK Computer 会自动的浏览网页,进行相关内容的搜索,生成图片,来完成网页的设计。

这次的信息更加全面和准确,OK Computer 在搜索网页内容的时候,我看到基本上都是采用 the Verge 等国际科技媒体的信源,而在使用 Kimi 深度研究的过程中,使用的信息源大部分是简体中文的网页。

▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求: 联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax 和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/

此外,OK Computer 也有图片音频生成的功能,像这张手机摄像头的拆解图,我第一眼看到觉得非常惊艳。

Agent 的交付:一个很惊艳的 Demo,但难落地

经过这些测试,倒不是说 Kimi K2 的 Agentic 能力不行,只是觉得 Agent 这类产品,大多数都还停留在「我可以做出来一个东西,但是这个东西不一定有用」的阶段。

做 PPT、商业分析报告、旅游路线规划、网页开发和部署等等,几乎所有的 Agent 都宣传自己能做这些;但是最后的成果,真正可以放心使用的,我想目前是很难找到。

▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现

前几天 OpenAI 新发布了一项基准测试,GDPval。它被称为是 AI Agent 举办的一场「职业技能大赛」。考题不再是学术问答,而是直接选取了,来自对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业。

这些任务由平均拥有 14 年经验的资深专家(如律师、工程师、护士)设计,交付的内容也并不是纯文本,而是包含了幻灯片、电子表格、CAD 设计文件等在内的复杂格式,就像现在 Agent 交付的成品一样。

GDPval 的出现,其实就是要开始去解决,从「我能做」到「我能做好」这个阶段的问题。

▲ 专业评估员将对应模型的交付成果,与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。

虽然是 OpenAI 的研究,但第一名还是 Claude Opus 4.1,我想这也是为什么 Claude 模型在编程领域能够广受好评,Claude 能写代码,但是也可以写出好代码。

关于 Agent 不能做好的原因,之前 OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab ,发布了一篇博客文章。在里面提到,大语言模型目前出现的不确定性问题,不是由于 GPU 随机性的计算,而是处理训练数据时,缺少批次不变性。

而另一个原因则是可用训练数据的不足。和训练一个 AI 生成一张图片、一个视频、一段文本不同,Agent 要交付的内容复杂,现实世界中的任务繁多,无法归类到某个单一的媒体类型。

▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境

目前我们经常看到的 Agent 任务,也大多数是集中在做一个 PPT、做一个网页、预订餐厅、代替我们刷社交媒体、自动购物等等,这仅仅只是现实世界里非常小的一部分,更不用说这些任务,没有明确的评估标准。

知名科技媒体 TechCrunch 最近报道,整个硅谷正在豪掷千金,为 Agent 构建名为「强化学习环境」(RL Environments)的模拟训练场。这些「环境」被一些 AI 公司创始人形容是非常无聊的电子游戏,一个模拟的浏览器、一个模拟的购物网站、一个模拟的代码编辑器。

▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

AI Agent 在这样的「环境」里面,像一个新手玩家,通过一次次尝试、失败、获得奖励,来学习如何独立完成购买商品、修复代码等一系列,多步骤的复杂任务 。

当年李飞飞靠着海量标注的数据集 ImageNet,让计算机视觉往前迈了一大步,她也被大家称为「AI 教母」。

现在 Agent 的发展,看起来也是这样,如果没有大量标注的「强化学习环境」任务,Agent 很难成为,像人脸识别这样可靠的深度学习技术;尤其是在「炼丹」这个本质没有改变的情况下。

▲OK Computer 专辑封面,这是英国摇滚乐团电台司令 Radiohead,1997 年发行的第三张录音室专辑,距离现在已经快三十年的时间了,曾获得百大专辑等多个奖项

Kimi一如既往地喜欢摇滚。从公司名 Moonshot(致敬 Pink Floyd)到这次的 OK Computer(致敬 Radiohead)。
在 Apple Music 的专辑介绍语里面,形容 OK Computer 这张专辑,表达了人们在千禧年前夕,对新技术的探索和反思。

尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。

 

如果你对因科技而加快的生活节奏,感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。

今天 Kimi 推出的 OK Computer,似乎也是表达科技正在改变我们的工作习惯、加快我们的生活节奏。但很显然,目前市场上的 Agent 产品,很难真正做到让我们难以招架。

无论是 Kimi 还是 ChatGPT,还有更多的同类 Agent 产品,他们在发布的时候,往往都会说,我们的 Agent 有这些功能,能做什么,却很少说,我们的 Agent 能做成什么。

不用放慢脚步,真正的 OK Computer 还在用力追上我们。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

作者 张子豪
2025年9月30日 16:03

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


海外卖爆的 AI 卡片在中国发售,入口比模型本身更重要

作者 张子豪
2025年9月26日 18:38

在 AI 硬件圈,有一张「小卡片」悄悄火了很久。

它像一张银行卡,厚度不到 3mm,能吸附在手机背面。这枚名为 Plaud Note 的设备,只为一件事,记录对话,并用 AI 帮助用户挖掘对话中的价值。这个简单直接的思路,让它在全球积累了超过 100 万用户。

9 月 22 日,这张小卡片背后的团队 Plaud,终于带着它和功能更强的升级版 Plaud Note Pro,在深圳召开了中国内地的首场发布会。

在国内,记录对话的 AI 产品现在看来是一片红海,前有科大讯飞这样的巨头一直深耕该领域,后有层出不穷的公司跟进,像是钉钉、Anker、360 等。

Plaud 的回归,不仅是一个产品发布,更像是新一代硬件创业浪潮的一个缩影。这些企业,它们从诞生之初就拥有全球化视野,在海外市场证明自己后,再带着技术与理念进入中国。

这份技术和理念,能否经得起国内用户的检验,一起看看他们发布了什么产品。

和 AI 的实时协同,从一张卡片开始

「意图」,这是整场发布会我听到最多的词,大模型如何理解我们的意图,大模型最想要什么,我们为什么设计这个产品?

答案都回到了「意图(intention)」,Plaud 合伙人兼中国区 CEO Peter 不断重复这个词,来解释大模型时代,不仅仅是处理原始数据,而是要理解我们的意图,才能真正突破智能的边界。

▲ Plaud 合伙人兼中国区 CEO Peter(莫子皓)

Plaud 此次的旗舰新品 Plaud Note Pro,最大的亮点在于首次实现了「人与 AI 的实时协同」 (Human-AI alignment in real time)。

想象一下,在会议中,当讨论到关键决策或重要数据时,不需要打断对话,只需轻轻一按机身上的按钮,就能实时将这个时间点,和相关信息同步给背后的大模型。

这等于在告诉 AI:「注意,这里是重点」。而通过这种方式,大模型能够更好地理解,对话的语境和我们的意图,从而生成更精准、更具洞察力的摘要。

这跟平时我们和大模型沟通,写了一大堆 prompt,是不一样的;因为我们输入的文本,是没有时间维度的。

Plaud 则是让 AI 从一个录音结束后,被动整理信息的工具,变成了在对话发生时的智能伙伴,实时地与我们的意图对齐。

为了实现高效的记录,Plaud Note Pro 在硬件上的亮点,也集中在了更丝滑和无缝的体验上。

当被问及产品为何「能用且好用」时,Peter 显得颇为自信,他提到 Plaud 创始人团队,有做手机、造机器人的,做现在的产品属于「降维打击」。

这种经验,也的确保证了基础体验的可靠,Peter 分享其他用户的体验评价,「连蓝牙那一刻,就知道这个团队不简单」,因为 Plaud 的蓝牙连接体验,同样非常丝滑。

首先是轻薄,机身是银行卡般的大小,厚度仅为 2.99mm,重量 30g。这种对极致轻薄的追求,也带来了妥协。在沟通会上,当被问到充电接口,并非通用 Type-C 的问题。

团队坦言,这是为了保证产品极致轻薄而做的取舍,但也收到了很多用户的反馈,正在努力寻找解决方案。目前采用的充电方案,是类似大部分手环的触点充电。

第二是专业的收音,Plaud Note Pro 内置 4 个全向 MEMS 麦克风阵列,配合 AI 声学波束成型技术,可在最远 5 米的范围内,实现录音棚级的音频捕捉。

对比前代产品,Plaud Note Pro 还可以通过算法自动识别,录音环境是电话通话,还是面对面对话,而不需要手动切换录音模式。续航方面,单次充电可支持最长 50 小时的连续录音,满足一周的工作需求。

硬件作入口,软件是核心

「能不能不买你们的硬件,只用你们的软件?」

面对这个问题,Peter 的回答很坚决:「我们不做这种事情。」

他认为,做单纯的软件服务会分散精力,更重要的是,Plaud 坚信软硬件结合才能提供最佳的智能体验。

这背后,是 Plaud 「AI 原生科技公司」的自我定位。硬件只是捕捉信息的入口,真正的处理和价值生成,都发生在云端的 AI 引擎 Plaud Intelligence 中。

▲ Plaud 网页版首页

对比前代,除了音频,现在还可以捕捉文本、图片信息,并结合「一键标记」功能,为 AI 提供更丰富的上下文,具备多模态能力。

其次就是和大部分 AI 纪要产品、以及通义听悟类似的功能,通过优化整合 DeepSeek R1、千问、豆包等多个大模型,将语音转写成文字,还能区分不同的发言人,并支持多达 112 种语言。

在模型的选择上,Plaud 的策略并非「兼容并包」,而是「只支持最好」。

Peter 坦言,在中文转写上,国内模型表现更好;但在更深层的因果关系和深度思考上,海外顶尖模型仍有优势。但他们仍然坚持使用「最贵、最好」的模型和服务,因为「更好的价值」本身就是产品的核心,而非成本。

基于在海外的两年运营,Plaud 内置了从全球 3000 多个模板中优选出的专业模板,覆盖不同行业和领域。它可以根据你的角色和习惯进行智能推荐,从多个视角分析对话,提供更丰富的总结。

▲ 模版社区

最后一项是 Ask Plaud,和知识库的 AI 问答一样。我们可以基于录音的完整上下文,向 AI 进行深度提问,所有答案都能追溯到录音文件具体的信息来源。新版本还增加了智能建议追问、跨文件查询等功能。

以上所有功能,用户都可以通过 Plaud APP(支持 iOS 和 Android)及网页端来实现。

多款海外产品首次在中国区推出

除了旗舰 Plaud Note Pro,Plaud 还带来了另外两款针对不同场景的产品,它们都支持全新升级的 Plaud Intelligence,也同样是需要配合手机 App 使用。

Plaud NotePin S,可穿戴的 AI 纪要产品,它的前代是已经在海外发售的 Plaud NotePin,目前这款在中国区首发的新品,主打「解放双手,随心记录」。

主要的特点是,它可以通过项链、手环、背夹、磁吸片等多种方式佩戴。同时,它的重量只有 17.6g,拇指般大小,但续航也做到了 40 天待机,和 20 小时连续录音,并配备 64GB 存储。

Plaud Note,卡片式 AI 纪要开创者,这是一款在 2023 年就推出的产品,而到现在,市面上已经有相当多的公司,在做同样类型的卡片式 AI 纪要产品。

尽管 Plaud Note Pro 在性能上提升明显,但据 Plaud 合伙人兼全球销售负责人 Raymond 介绍,经典款 Plaud Note 在海外依然维持着非常高的销量,因为「有很多消费者,还是喜欢这种机械拨动的形态」。

▲ Plaud 合伙人兼中国区 CEO Peter 莫子皓(左);Plaud 合伙人兼全球销售负责人 Raymond 孙驰(右)

当被问到如何在国内众多同类产品中脱颖而出时,「用户价值」是创始人提到最多的词。他认为,为用户带去 SOTA(最佳)的体验,是 Plaud 应对竞争的态度 。

目前,Plaud Note Pro、Plaud Note、Plaud NotePin S 三款产品,已经在国内主要电商平台发售,具体的发售价格如下。

▲ Plaud Note 1149 元,Plaud Note Pro 1299 元,Plaud NotePin S 1249 元

而针对每款设备都能用上的 Plaud Intelligence,也有标准版、专业版、和卓越版三个会员计划,主要的区别体现在,可录音的时长限制,分别是 300 分钟、1200 分钟、和无限时长,对应的价格是免费、339/年、和 1099/年。

而国内版和国外版的 Plaud Intelligence 订阅价格也有所不同,国际版配置了像 Gemini 2.5 Pro、GPT-5、以及 Claude 4 这些模型,所以专业会员的订阅价格是在 99.99 美元(人民币 700 多),而国内版则是 DeepSeek、豆包、千问等模型。

APPSO 也第一时间拿到了 Plaud Note Pro 产品,根据发布会现场透露的信息,Plaud Intelligence 将在下个月更新跨平台同步、多维度解读等多项功能。我们也会在更新之后,同步分享我们的使用体验。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

作者 张子豪
2025年9月19日 14:00

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌