普通视图

发现新文章，点击刷新页面。

昨天以前首页

终于能听 GPT-5 给我说人话了

爱范儿

作者莫崇宇

2026年5月8日 08:08

不知道大家平时有没有这种经历。

每次遇到点急事，打给各大公司的智能客服，电话那头永远是那个字正腔圆但毫无感情的声音：「查询服务请按 1，人工服务请按 0……」接着就是漫长的音乐，以及那句让人抓狂的「对不起，我没听懂，请再说一遍」。

但就在刚刚，OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示，这回，他们是真心想让机器说「人话」，办「人事」。

省流版如下：

GPT-Realtime-2：构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断，并让对话持续自然地进行。
GPT-Realtime-Translate：支持 70 多种输入语言和 13 种输出语言的实时翻译，打破语言障碍，帮助人们更自然地交流。
GPT-Realtime-Whisper：实时转录音频流，生成字幕和注释。

终于，AI 学会了「稍等片刻」

如果说拟人化是面子，那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属，基准测试结果显示，GPT-Realtime-2 在 Big Bench Audio（音频智能测试）上比上一代高了 15.2%，在 Audio MultiChallenge（多轮对话指令跟随测试）上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍，调用成功率从 69% 跳到了 95%，提升了 26 个百分点。

以前的语音助手，脑回路其实很直。你说「放首歌」，它放一首歌；你说「关灯」，它把灯关了。如果你一口气给它布置三个任务，顺便还改了两次主意，它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于，OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里，给我一种 GPT-5「说人话」的即视感。

举个很实在的例子，假设你正在开车，随口吩咐它：「帮我找个离地铁站近的房子，租金别太贵，避开那些主干道，如果可以的话，周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD（产品需求文档）写作流程：先口述需求，AI 生成文档，再用语音要求改格式，AI 随即更新，全程对话驱动，没有动过键盘。 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了，这需要它听懂你的各种限制条件，去地图上筛位置，去对比价格，最后还要去匹配中介的时间表。为了干好这种复杂的活，OpenAI 给它点亮了两个非常特别的技能树。

第一个技能，叫「Parallel tool calls（并行工具调用）」。它现在可以多线程操作，一边跟你讲着话，脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕：「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话，你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话，借助 OpenClaw 用语音驱动 AI 操控浏览器，先打开 Google，再跳转到华尔街日报网站。整个过程中，AI 一边执行操作，一边主动说明自己在没有浏览器权限时还能帮上哪些忙。 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个，也是我觉得最有人情味的一个更新——「Preambles（开场白）」。

人在思考或者处理复杂事情的时候，是做不到秒回的，我们通常会说「呃，让我想想」或者「稍等啊，我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候，它会非常自然地对你说：「好的，没问题，给我一小会儿时间我来核实一下。」
这种看似「废话」的设计，反而最大程度缓解了我们等待时的焦虑感。

有意思的是，开发者现在能控制它的推理强度（从极简到极高：minimal、low、 medium、high、xhigh）。你要是问它今天下不下雨，它就用最快速度回你；要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题，它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价？

除了 GPT-Realtime-2，这次还有个非常抢眼的配角：GPT-Realtime-Translate（实时翻译）。

咱们平时用的翻译软件，大部分是「回合制」的。你按住说话，松手，等几秒，机器再字正腔圆地播报出来。如果是旅游问个路还行，要是真拿来开跨国会议，那种互相大眼瞪小眼的停顿，尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型，主打就是一个「实时翻译」。

它支持 70 多种语言输入，能做到你在那边滔滔不绝，它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它，结果发现这模型不仅没被绕晕，准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件，直接接入 YouTube 视频，边播边把内容实时翻译成多种语言，中文表现不错，但多少还是有点口音， https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程，或者听某些没有同传的海外发布会，直接把这个插件一开，它就能顺着原视频的节奏，稳稳当当把你熟悉的母语送到你耳朵里。

除此之外，加上刚刚发布的 GPT-Realtime-Whisper（极低延迟的语音转文字）功能，以后遇到开会的场景，领导在说话，你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面，GPT-Realtime-Whisper 是每分钟 0.017 美元，GPT-Realtime-Translate 是每分钟 0.034 美元，GPT-Realtime-2 按 token 计费，音频输入 32 美元 / 百万 token，音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看，我们会发现软件的逻辑正在发生根本性的变化。
以前，我们要学习怎么用键盘敲代码，怎么在复杂的菜单栏里找功能，怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是，

AI 反过来开始迁就我们了。

语音，正在从一个笨拙的「辅助功能」，变成我们掌控数字世界最自然的接口。因为说话，本来就是人类最不需要学习的本能。

技术发展的尽头，总是倾向于把复杂的东西藏起来，把最简单、最自然的一面留给普通人。或许就在不久的将来，你出门真的只需要带个耳机，靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来，这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后，我们还能忍受现实世界里，人类之间那充满误解和低效的沟通吗？

附上博客地址：
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

千问电脑版上线语音输入法：打工人终于可以用嘴干活了

爱范儿

作者李超凡

2026年5月7日 10:04

Vibe Coding 火了之后，越来越多的人选择对着屏幕口述，而不是敲键盘，不少网友甚至为此整出 AI 语音键盘。

今年 3 月，Anthropic 也给 Claude Code 加了语音模式，在终端输入 /voice，按住空格说话，松手执行。很难想象，连「写代码」这种最依赖键盘输入的场景，都开始支持语音了。

既然写代码的人都开始用嘴干活了，那我一个每天写文章、写方案、做 PPT、整表格的打工人，还在一个字一个字敲键盘，显然也不够高效，尤其是查数据要切三个页面，做个汇报 PPT 要从找模板开始花三小时，整理会议纪要边听边记还漏一半。

究其原因，不是每个人的口头表达都那么好。哪怕也有一些 AI 输入法能解决，比如我们之前介绍过的 Typeless，每年光订阅费每年就得花 1000 块。

在真正干活的电脑端，至今没有和深度 AI 办公能力打通的语音入口。刚好，千问电脑版/网页版最近也上线了千问语音输入法，据说奔着「用嘴干活」而来。而且千问电脑版还是全免费——不只是语音免费，它内置的所有 AI 办公能力，全部敞开用。

别被输入法这个名字骗了

一开始，看到千问语音输入法这个名字，我下意识以为这就是一个识别准确率更好的 AI 输入法，结果我发现完全不是一回事。

千问语音输入法上手几乎没有门槛。两个快捷键搞定一切，按住是语音输入，双击是让 AI 干活。Win 是右 Alt，Mac 是右 Command，你可以根据使用习惯来设置唤起的快捷键。

你在 Word 里写文档也好，浏览器里看资料也好，钉钉里回消息也好，快捷键一按，语音入口浮出来。不用切到千问客户端，不用打开额外窗口。想问就问，想说就说。

千问语音输入法主要就两种使用姿势：按住开始语音输入，想到什么直接说就行，千问帮你自动去口水话、纠正口误、生成结构化表达。双击唤起语音指令，这时候你是在给 AI 派任务，比如查个东西、帮你回消息、生成文档。

打从一开始，它就不只是打算只做一个「帮你打字更快」的输入法。你的嘴负责下达指令，它是一个中枢接口，负责听懂、翻译、调度，让 AI 把活儿干完交给你。

说话就是比打字好使

2026 年，我对一款语音输入法的要求，已经远远不止是识别准确率。「听得清」的逐字听写都是基操，更重要的是理解我想表达什么，再帮我组织好。

比如口述一段想法，它能保留我的意图，帮同事把废话全部过滤掉，口误也顺手修正，吐出来出来的是干净、精炼、可以直接发出去的文字。

比如碰到方案延期这种事，也可以交给千问整理成一段清晰的书面表达，而我只需要直接按住快捷键，随口反馈给千问：

关于这个项目的延期，我… 啊不对，我想说的是关于这个方案的调整，其实原定计划是本周五交付，但是… 呃… 因为客户那边临时加了三个需求点，我们评估了一下大概需要多两天，所以… 不对，我的最终意思是：方案交付时间从本周五调整至下周三，原因是客户新增三个功能点，需要补充技术评估，我们承诺下周三前一定提交初版方案。

松手后结果就出来了，可以看到它自动删除所有「啊不对」「呃」「但是」等语气词，把我表达的核心清晰整理了出来；对比常规的语音输入，只能逐字记录，还要自己手动编辑，千问语音输入法基本无需手动调整，就能直接发出去。

在一些更专业和复杂的项目沟通中，千问语音输入法就更加实用了。

比如下面这个沟通需求，注意看，我长按说了一大堆话后，最后还补了一句：将关于数据部分提前。

这次产品改版的核心目标是提升新用户的留存率。我们在 onboarding 流程里增加了三个引导步骤，把原来的五步走改成了三步走，还在每个节点加了进度提示。另外，我们发现很多用户在第二步就流失了，所以把第二步的表单从 8 个字段缩减到 3 个必填字段。数据方面，改版后一周的留存率从 35% 提升到了 48%，次日留存提升了 12 个百分点。不过也有一个风险，就是表单精简后收集的用户信息变少了，可能会影响后续精准推荐的效果，这个需要持续观察。最后是团队层面的配合，设计部在两周内出了两版方案，开发部用了三天完成上线，整体节奏还是很快的。嗯把数据那段放到最前面，然后分段给我

这里结果对比就更明显了，只有千问听懂了「把数据那段放前面「」的指令，自动重排段落，我用嘴就完成了原本需要鼠标+键盘的操作。

▲ 常规语音输入结果

▲ 千问语音输入法结果

体验过程我还发现了一个让我惊喜的细节，千问语音输入法对于中英文夹杂的口述内容，识别特别到位。

这个函数的主要作用是处理用户登录时的 token 验证，首先会调用 validateToken 方法检查 token 是否过期，如果 expired 的话就返回 401，然后如果是 valid 的话，再调用 getUserInfo 接口去拉取用户信息，最后把 userId 和 role 写进 session 里面。注意一下，这里有一个 edge case，就是当 token 是 refresh token 的时候，要走另外一条逻辑分支。

千问不只把所有的英文术语都识别对了，而且还自动根据我的话分点输出，一目了然。

▲ 千问语音输入法结果

我还想分享一个对于内容创作者特别有帮助的用法，APPSO 每天早上都要开选题会，大家会有很多碎片想法，一个热点现象、一个行业观察、一个趋势判断……

之前有些想法是散装的，不成体系，现在我可以直接在会上按住唤出千问语音输入法，让它将这些想法整理成大纲。比如这一大段我在会上对编辑选题的反馈意见，如下图所示：

▲ 千问语音输入法结果

松开手后，一段详细的选题大纲就出来了，编辑能稳稳接住我的反馈，稍微扩充就能写出一篇深度分析稿件。最后的成文也附上给大家看看：苹果悄悄砍掉丐版 Mac mini，人人都要交「AI 税」的时代来了。

单就语音输入这个维度，千问给我最大感受是，真就说多快多乱都没关系，反正输出的质量 AI 会兜底。

万物皆可 Vibe，一句话的事

语音输入只是第一步，千问语音输入法更大的价值是还能帮你干活。

上面提到了整理选题大纲，然后我就需要沉浸式写作，但每次要查个数据和报告，都得切到其他网页和应用。这里千问语音输入法就很自然地出现了——它支持在任意软件、桌面全局唤起，不用切换窗口，动动嘴就能直接查。

比如我在写一篇关于 OpenAI 的文章时，刚好有一段要引用最近的融资金额和投资方。我双击唤起语音指令，说一句：「帮我找一下 OpenAI 最新融资背景。」

思考一两秒，千问小窗就直接弹出把详细结果发我了，我看着引用继续写，心流就不会被打断。

假期刚回来，一大堆工作等着推进，我需要整理一个清晰的周报，但又没时间慢慢敲字，于是双击并随口将把需求说了出来，里面夹杂着带着大量口头表达：

诶那个，我汇报下这周进度哈……A 项目目前跟进到第三阶段了，中间遇到了供应商交付延迟，大概迟了三天，后来通过加班把进度赶回来了……B 项目还在需求评审，产品那边原型图有点模糊，约了下周一早上十点对齐……下周还要申请两台测试服务器……你帮我整理为周报 word 文档，语气专业一点，条理清楚。

此外，千问语音输入法还有一个更有意思的功能——帮你回消息。

我每天往往需要在微信、钉钉、飞书等各种项目群里穿梭，回复各种消息。非常消耗精力，这时候我就能让千问让我的「嘴替」了。

比如假期还没过完就被同事催交文章，我就双击让它帮我来一段高情商回复。

▲ 我无需给它介绍背景，它就能根据屏幕内容补充上下文，给我一个「聪明」的回复

而在一些面对客户或者更正式的场合里，我也可以双击让它给我拟一个得体的回复。

这是因为千问语音输入法支持了「场景感知」。它自动识别你当前在什么应用里，看到你屏幕上的内容，据此调整输出的风格。你不用告诉它更多背景，它自己就能看懂。

下周要出差，我直接双击，在微信让它帮我根据聊天信息，整理成一个出行指南便签。

最后给我的这份出行指南，除了航班信息，还贴心地给我整理了待办事项，并根据当地天气和交通情况给了我一些具体建议，这对于常常出差的媒体人来说十分友好。

开周会的时候我还发现了一个实用的小技巧，会议开始，我双击两下唤起千问语音输入法，结束后一句：「帮我把刚才的内容整理成会议纪要。」它就自动帮我整理好了。

这很适合一些快速拉通的临时会议，不用再单独打开会议记录类的应用，随手双击马上记。

对着电脑说话，活儿 AI 自己就干完了

别误会，对着电脑喊「帮我查资料」「写个邮件」，现在只能算 AI 的基本操作。

千问电脑端这次真正亮出的底牌，是把语音输入和 PPT 创作、AI 表格、文档处理等功能组合起来，这也是真正能帮打工人实现「每天早下班一小时」的实用功能。

拿最折磨人的 PPT 来说，千问不是去素材库里给你拼凑烂大街的野生模板，而是直接用大模型的代码能力动态生成复杂排版。如果你觉得哪里不够完美？直接多轮对话让它接着改，改到你满意为止。

为了探探底，我先让它帮我做个视频号运营课程 PPT，几乎在语音落地的瞬间，AI 就进入了光速消化模式：填充血肉、匹配逻辑一气呵成。

最令人惊喜的是，千问对「图文穿插」的理解并非生搬硬套，而是根据内容深度匹配了差异化的版式，整份 PPT 拿出来，几乎就是可以直接交付的成稿。

这还没完，你还能一次性给千问喂最多 39 种不同格式的参考文件，让它自动梳理逻辑、提炼重点，帮你省去了来回翻资料的麻烦。至于配图，它也能根据上下文自动匹配，找不着合适的甚至能当场给你生图，全程都不需要你切出界面去求助搜索引擎、或者下载下来用 office 处理。

表格处理方面，千问的 Excel Agent 主打一个高水准。

不管是格式随意的聊天截图、手写笔记，还是大段的纯文本，丢给它就能快速生成标准的 Excel 表格。如果后续还要算算增长率、画个趋势图，也不用再去头疼怎么写函数公式了，直接用自然语言吩咐它就能搞定。

我试了一个稍微有点复杂的需求：让它根据 2026 广州最新版初中英语教材，把各句型的语法结构、时态变化和参考例句整理成 Excel 表格，格式要适合一页纸打印，方便拿来背诵。

换以前，这种事得自己一条条查资料、手动录入、再调格式，至少要折腾半小时。现在说一句话，它直接把表格生成好，列名、行距、例句填充，基本不需要再动手改。

文档处理这边，Word/PDF Agent 支持图文数据混合上传，能自动排版并输出直接可交付的文件。

更有意思的是，传完长文档你不需要自己去翻阅找重点，直接张嘴问，它就能快速定位给出答案；想修改哪里也是一句话的事儿，省去了自己去对照原文件一点点改的麻烦。

我试着传了一份繁杂的合同 PDF，直接问它：「独家授权内容是哪些？」它并没有傻傻地把全文复述一遍，而是精准定位到了授权条款，把独家范围、授权期限和限制事项一条条列得清清楚楚。

目前，这个语音指令甚至还能和 AI 写代码、手搓网页等任务助理功能组合使用，照这个架势下去，未来的办公形态，大概真的就是「动动嘴皮子就把活儿干了」。

和 AI 说话的人，会比键盘打字的人更早下班

用了一段时间千问语音输入法，我想到一件事。

过去几年「AI 提升办公效率」喊得震天响，但大部分人的体验是：我跟 AI 说了半天，它给我的东西根本不能用。然后就觉得 AI 也不过如此。

问题出在哪？出在沟通方式上。你用键盘跟 AI 对话，40% 的精力花在组织文字上，只剩 60% 在想你到底要什么。给出去的指令信息密度低、上下文薄，AI 当然输出垃圾。这不是 AI 不行，是你喂给它的东西不行。

语音把这个死结解开了。说话时你不会给自己设字数限制，细节会自然地冒出来，上下文会自动变厚。它能把嘴里说出的自然语言需求梳理得井井有条，让 AI 精确执行。

纽约销售平台 Clay 的教育负责人 Yash Tekriwal 提到，他用语音输入的速度是每分钟 205 个词，打字只有 110 到 120 个。但速度还不是最关键的，他发现口述的 prompt 质量更高。

AI 圈最近有个词特别火，叫 harness。它的意思大概是：你有一匹马（AI 的能力），但你得有一套缰绳才能驾驭它，让它往你要的方向跑。没有 harness，马再强壮也只是在原地打转。

千问电脑版的语音输入法就是这套 harness。

它连接的一端是你的嘴，另一端是 AI 的全套办公能力：PPT、表格、文档、搜索、分析、格式转换。你说一句话，它把你的意图翻译成 AI 能执行的指令，然后调度对应的 Agent 去跑腿。它不是输入法，是缰绳。是你驾驭 AI 办公能力的那套 harness。

而别的「带 AI 功能的输入法」解决的是什么？是入口问题，帮你找到 AI 在哪里。千问解决的是驾驭问题，帮你把 AI 的能力精确地用起来。一个是给你指路，一个是帮你套好缰绳直接上路。差距就在这。

在 Agent 时代，语音本来是驱动 AI 工作的最自然和高效的方式。千问语音输入法，就是率先在桌面入口端出了这套 harness 的产品，这也是为什么我期待，未来在更多终端上，能看到这种真正能驾驭 AI 的语音入口。

去年这个时候，如果你在办公室突然对着电脑说话，一次两次会被当成在打电话，三番五次就不禁让人怀疑，工作压力是不是太大了，精神状态还好吗？

今年开始，那些对着电脑自言自语的，可能就是全公司最早下班 (摸鱼) 的人。

附客户端下载地址：
https://www.qianwen.com/download?ch=tongyi_redirect
网页版体验地址：
https://www.qianwen.com/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。