普通视图

发现新文章，点击刷新页面。

昨天 — 2025年8月21日首页

马斯克奥特曼中文对喷， AI 视频终于从「玩具」变成「工具」

爱范儿

作者张子豪

2025年8月21日 20:48

现在刷社交媒体，你会发现一些画面精良的爆款视频，其实已经是 AI 制作的。但作为一个创作者，除了要像「抽卡」，在画面之外，有一个问题一直没有得到很好的解决。

这个问题就是对白。

比如我让 AI 生成一段「唯美雨景」，这不难。但要让 AI 生成一段有情节、有对话的「雨中分手戏」，对白还得是地道的中文，这就很棘手了。

AI 生成的要么是完全的「哑剧」，需要创作者后期对口型、配音；要么是能开口说话，但语音语调不自然，充满了「人机感」和「翻译腔」，让本该感伤的剧情瞬间出戏。

这也是当下 AI 视频生成最大的挑战之一：如何处理包含对白，尤其是带有复杂情绪的中文对白。

可以说，能否搞定自然流畅的中文对话，是 AI 视频能否从一个「看个乐子」的玩具，变成真正生产力工具的关键。

百度今天发布的蒸汽机（MuseSteamer）视频模型2.0，似乎就是冲着这个核心痛点来的。它最让我关注的一个点，是全球首个中文音视频一体化生成技术，号称是吃「中文语料」长大的，能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

为了验证它到底是真正解决了创作者的难题，还是又一次停留在宣传片里的技术展示，我决定绕开那些官方的精选案例（Demo），设计几个更接近普通人日常创作需求的「刁钻」场景，亲自探探它的虚实。

体验地址：https://huixiang.baidu.com/

从一张图，到一场有声的对手戏

百度蒸汽机这次提供了 4 款生成模型，都是从一张图生成一个视频，分别是蒸汽机 2.0 turbo、pro、lite、以及有声版；不同的模型会消耗不同数量的积分，免费用户每月登录可以获得有限额度的想象力值（积分）。

有声版可以生成 5s 或者 10s 的视频，而 Turbo 等三个版本是 5s，像素方面除了 Pro 版本支持 1080p，其他三个版本都是 720p 高清画质。

我们直接给他一张图，然后按照视频生成页面的提示，输入想要生成的视频内容和主题台词；5s 的视频，将台词控制在 20 字以内，10s 的视频字数控制在 35 字以内。

▲ 我们上传了一张马斯克和奥特曼的合照，配上提示词：两个人针锋相对，左边的人先说，「你做的AI毫无底线」；右边的人说，「你的营销才是没有底线」；由蒸汽机 2.0 有声版生成。

首先，静态照片里的马斯克和奥特曼被自然地驱动了起来，面部表情和肢体动作都相当流畅，并且和上传的图片基本保持一致，图生视频的基础能力还是很扎实的。

更关键的是对话部分，这个表现，必须承认，在中文口型同步上，百度蒸汽机确实做到了目前的第一梯队。嘴唇的开合，与「底线」、「营销」等一些词语的发音匹配度很高，没有明显的延迟或错位。

▲ 一张浪浪山小妖怪的首帧图，配合提示词：画面中，手持干草叉的野猪小妖抬头，满怀期待地看向身边身材魁梧的熊教头。台词：（第0-5秒）手持干草叉的野猪小妖说：「教头，咱们把盔甲擦亮点，打起来更有气势！」（第5-10秒）身材魁梧的熊教头向下瞥了他一眼，不耐烦地打断道：「有那工夫？先给我削一千支箭出来！」

在发布会上，百度特别提到，这是来自「音视频一体化」的底层生成逻辑，声音和画面是同步构思的，而非后期匹配，他们在训练时就把画面和声音放在一个模型里同步学习。

此外，还有一个「多模态潜在空间规划器」（Latent Multi Modal Planner）的首创技术；多模态很好理解，就是文本、画面、音频，Latent 是深度学习里面术语，主要是学习潜在的特征，这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等。

通俗来讲，我们可以把它想象成一个内置在 AI 里的导演，当给出「让两个人吵架」的指令时，它不会傻傻地让两人同时说话，而是会自主规划吵架剧本。

我们还尝试了一些东北话这样的方言，想看看在多人对话里，是不是也完全没有问题。

▲ 提示词：画面左边的蓝衣女子耳语急促而冰冷，用东北话说：「姐姐，真心是咱们的炭，也是烧死咱们的火」；画面右边的紫粉衣女子决绝地用东北话回应：「那不如，就烧得干净些」；由蒸汽机 2.0 有声版生成。

让甄嬛和沈眉庄在音视频一体化生产的模型里，说东北话确实为难了点，但是人物表情，嘴唇的动作，耳环、头饰等运动都非常自然。中文语音的细节还原度也很高，我觉得是真正做到了中文语境的深度适配。

还有这张经典的梗图，终于不是「快来品尝我新鲜的肉体」了。

▲ 一张万万没想到短片截图，提示词：画面左边带着红色帽子的唐僧，用手指着牛角的人的鼻子，非常生气的说:「还想品尝我新鲜的肉体，没门！」

百度蒸汽机确实精准地击中了，让一张图开口说话演一出对手戏，这个创作痛点。它将过去繁琐的多工具流程，简化为「一张图+一句话」的一步操作，这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说，无疑是一次生产力的解放。

如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果，还是有些差距。但看现在的 AI 视频生成技术发展，AI 能表达更细腻、更矛盾的人类情感，我想也只是时间上的问题，毕竟蒸汽机 1.0 模型还是上个月初发布的。

运镜和大场面，它能驾驭吗？

除了在中文场景下，双人有声的音视频一体化生成首创，百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜。

之前的对话视频里，情绪、表情以及 3D 面部生成，都算得上展示了真实细腻的人物表现力。我们继续测试了广告和短剧中常见的转场、空镜，这些可以说是 AI 视频，除了对话的另一个刚需。

▲ 提供首帧图，并附上提示词：一个镜头，从书桌上的翻开的书本特写开始，慢慢向上拉起，最终定格在窗外下着雨的街景上；由蒸汽机 2.0 Pro 生成。

从生成的视频效果来看，蒸汽机把指令的遵循做得非常好。整个运镜过程，特写、向上拉、定格，执行得相当流畅，没有出现镜头乱晃或指令理解错误的问题。这也说明它对摄影术语的理解是到位的。

当 AI 学会地道中文，视频创作新的转折点来了

经过这番测试，我认为百度蒸汽机 2.0 的定位非常清晰：它并非要成为一个无所不包的 Sora 式模型，而是选择了一条更务实的路径：以「中文对话」为核心突破口，将 AI 视频从一个有趣的「玩具」，推进到了一个可以交付成片的「工具」。

它绕开了单纯比拼画质和时长的内卷，把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」，而且说得比真人还溜。

这种从「玩具」到「工具」的转变，已经在真实的创作和商业领域得到了验证。

好莱坞级视效指导姚骐，曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作，在国产科幻剧《三体》中打造了经典的古筝行动画面特效。这次，他就用百度蒸汽机创作了一支高品质科幻短片，其中包含 40 多个宏大复杂的特效镜头，每个镜头生成 3 次，总计生成了 120 多个片段素材，累计仅花费了 330.6 元。

▲ 发布会视频《归途》

当一个过去需要百万元级别预算的短片，其视觉生成成本被压缩到难以想象的低位时，被颠覆的不仅仅是预算，更是创作的门槛和权利。

这背后，解决的不仅是成本的问题，更是从生成一个酷炫片段到讲述一个完整故事的转变。当宏大视效可以与叙事和对白无缝结合时，AI 才真正从一个特效插件，升级为创作者手里的高效率工具。

在品牌营销场景，这种模式也打破了常规的视频制作流程。比如伊利倍畅需要为一款羊奶粉制作宣传片《漂「羊」过海来看你》，传统方式不仅周期一般需要 4-6 周，而且要用实拍呈现「小羊莎莎」坐热气球环游荷兰草原和高科技工厂的奇幻之旅，成本和难度都极高。

但这次制作团队利用蒸汽机，将这些实拍难以完成的奇幻场景，通过风格化的 AI 渲染来实现。更重要的是，AI 将荷兰奶源、益生菌配方等硬核卖点，流畅融入了叙事中，制作周期缩短到了几天之内，画面不违和，同时表达了品牌的理念。

无论是专业大神，还是无数中小创作者与品牌方，相当于都获得了「赛博神笔」。你只需要「一张图+一句话」，就能让静态的兵马俑活过来打电话，或者让张飞一边绣花一边跟你唠嗑。这种创作门槛的消失，正在重塑内容行业的成本公式和竞争规则。

当然，它也不是完美的瑞士军刀。目前它在非对话的纯视觉特效上，生成视频的时长也还有限制，音色风格的选择也可以更丰富。

但在快速迭代 AI 产品浪潮中，也没有真正完美的产品，反而能更快落地解决用户的实际需求，才更有意义。百度蒸汽机没有陷入技术军备竞赛的虚荣，而是选择了一条更务实、更贴近市场的路。它就像一个专注于把钉子敲好的锤子，虽然不能刨木头，但在「敲钉子」这件事上，它做到了极致。

看着 AI 生成的角色在我面前侃侃而谈，却没什么「人机感」，那种奇妙还是会忍不住涌上来。工具终将隐形，而创意永远闪耀。蒸汽机所做的，就是把那个曾经无比昂贵、属于少数人的导演梦，还给了每一个有话想说的人。

现在，我们已经不缺好的工具，只是缺少新鲜的创意；而与众不同的创意，来自一次次的尝试。

文｜李超凡、张子豪

文章内视频浏览点击此链接访问：https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

昨天以前首页

爱范儿
「兔子蹦床」播放超 5 亿！这条全网最火 AI 视频，是人类爱被「骗」的结果张子豪
2025年8月4日 14:32

「兔子蹦床」播放超 5 亿！这条全网最火 AI 视频，是人类爱被「骗」的结果

爱范儿

作者张子豪

2025年8月4日 14:32

一段看起来像是夜视监控拍到的「兔子蹦床」视频，在 TikTok 上爆火，全网收获了有 5 亿次播放。

视频看上去像是某户人家的安防摄像头拍到的，灯光昏黄、画面模糊，但恰到好处地捕捉到几只兔子轮番起跳，活像在开夜间演出。

视频的标题写着：「刚查看了家庭监控，我想我们家后院来了几位特邀嘉宾！@Ring」。

监控的模糊画质、几只看似在狂欢的兔子，这可爱又略带一丝真实感的画面迅速吸引了人们的眼球。

在社交媒体平台 X 上坐拥百万粉丝的名人 @Greg 也评论说，「我从没意识到自己需要一群蹦床兔子，直到今天」。

然而，这份可爱是虚假的。视频中的兔子并非真实存在，有人发现，它是AI生成的。

第 5 到第 6 秒之间，左上角的兔子忽然「消失」。回头再看，细节确实有点怪。

但和大多数「AI 穿帮」视频不同，这次几乎没人第一时间认出来。哪怕是刷视频经验老到的年轻人，也直呼「完了，我居然被骗了」。

但这不是一场骗局，更像是一种小型社交媒体的灾难：不是「我们被骗了」，而是「我们居然愿意被骗」。

看似糊得刚刚好，其实「骗」得刚刚好

这段 AI 视频之所以能成功「欺骗」大众，很大程度上并非因为 AI 视频生成技术已经完美，而在于它「骗得刚刚好」。

它精准地利用了我们对监控视频的固有印象，也踩中了最能让我们放下戒备的那些流量密码。

模糊的夜视画质和静态背景，刚好遮住 AI 的弱点

我们习惯于认为夜晚监控录像就是模糊、黑暗且充满噪点的。这种先入为主的印象，完美掩护了 AI 视频的技术硬伤，例如在动作连贯性、阴影细节和背景动态上容易穿帮等问题。

所以当它以「夜晚监控录像」的方式出现时，画质本身的低清模糊反倒成了障眼法，帮它遮住了真实感缺口。

▲ 视频画质符合夜间监控特点，且背景是完全静止。

此外，尽管一些 AI 视频生成模型在处理前景主体方面已经相当出色，但背景的渲染往往会显得非常超现实。

而这段视频的背景是静止的，这又为 AI 规避了一个技术难题。

带「@Ring」的文案增强了来源可信度

视频发布者在标题中聪明地标记了家庭安防摄像头品牌「Ring」，一下子就让这视频的来源显得有理有据，让人感觉更真了。

▲ Ring 是家庭摄像头品牌

这个小细节营造出「这视频是别人家门铃拍到的」错觉，让人自动归类为「生活记录」而非「创作内容」。

「动物夜间搞事情」是互联网用户默认接受的 meme

无数次病毒式传播的视频，已经训练我们相信这个场景是真实的。猫晚上偷吃泡面、浣熊夜闯泳池、郊狼在蹦床玩耍，动物们总爱在人类不在时「犯规」一下。兔子蹦床这种事，怎么看都合理。

▲ 熊闯入游泳池

最重要的：它太可爱了！谁会去质疑这么温柔的一幕呢？当一段内容足够甜、足够轻，它就很容易让我们「选择相信」。

尽管视频中间，左上角的兔子突然消失，暴露了 AI 生成的本质。但对于绝大多数刷短视频，快速滑动的观众来说，这一瞬间的破绽极易被忽略。

就在兔子视频引发热议的同时，马斯克也分享了 AI 视频技术的惊人进展。

10 天前，一段 6 秒的视频渲染需要 60 秒，之后降至 45 秒，再到 30 秒，现在已缩短至 15 秒。

本周我们或许能将时间控制在 12 秒以内。

他同时表示，实时视频渲染技术有望在 3 到 6 个月内实现。

▲ 马斯克推特截图

这意味着，今天我们还能看到的「兔子消失」这类穿帮镜头，在几个月后可能就几乎很难发现里面的 bug。

当 AI 视频在技术上无懈可击时，再去讨论「如何分辨真假」就失去了意义。

这也让我们不得不把目光从技术本身，转移到更核心的问题上。

让我们被骗和狂欢的，其实不是 AI

视频的真相揭晓后，许多用户表达了一种「信仰崩塌」的感觉。

一位 TikTok 用户说，「这是第一个我相信是真的 AI 视频，等我老了肯定完蛋了」。另一位用户则表示，「现在我觉得我以后就会是那种被骗的老年人」。

这种从自信到恐慌的情绪转变，成了一个新的网络热点。

然而，将问题仅仅归咎于「AI 发展得太快」或「我们太容易被骗」，可能忽略了更深层次的原因。这一事件的核心，或许不在于 AI 技术本身，其实在于社交媒体平台本身的那一套玩法。

通过翻看视频的评论记录，我们发现人们在评论区的反应，呈现出来的几乎是同样的一个心理剧本。

首先是「天啊，这也太可爱了」；

然后，「等等，好像不太对劲？」；

第三步，「我被骗了？完了，我要变成会被骗的老年人了吗」；

最后还是回到了，「但……我不怪它」

我们正在和 AI 视频建立一种全新的「互动逻辑」。

我们不是完全相信它，而是默认它可能是假的，但我们依然愿意停下来看看、点个赞、转发给朋友猜一猜，就像一个游戏。

▲ 短视频平台推荐系统

而平台的算法，也深知这种心理结构。

在这个过程中，「AI 视频是真是假」不再是重点，它更像一种参与门槛：你看懂了没？你能分辨出来吗？你被骗了吗？

AI 爆发的这两年，我们总是感叹 AI 视频图片已经能以假乱真，因此感到恐慌，担心自己未来会更容易被虚假信息蒙蔽。

然而，这个视频的病毒式传播，并非完全源于 AI 技术的「欺骗性」，而是源于人类观众内心深处对「被欺骗」的需求。

这些网友不都是被动地被骗，而有不少是主动地、心照不宣地参与了一场名为「假装相信」的集体游戏。

这场狂欢的主角不是 AI，而是我们自己。

正是视频中那「一闪而过」的兔子消失 bug，才让整个事件升级为一场全网参与的「找茬游戏」。如果视频完美的天衣无缝，它可能只会然后迅速被下一个视频淹没。

▲ 电影「致命魔术」

这就像观众明知道魔术师在「欺骗」他们，但他们享受的恰恰是那种「明明知道是假的，却看不出破绽」的认知挑战。

AI 兔子的「穿帮」，就是这个魔术被揭穿的时刻，它让所有人加入讨论，从而引爆了传播。

缺陷创造了争议，争议驱动了参与。视频的真假不再重要，它所引发的混乱和讨论本身，就是流量的保证。

这种「我竟然也被骗了」的自嘲，迅速拉近了陌生网友间的心理距离，形成了一种「我们都是容易被骗的笨蛋」的社群认同感。由「共同被骗」而产生的连接，其社交价值远大于视频内容本身的真实性。

理想的情况是，我们学会有意识地享受这种「虚假内容」带来的乐趣，同时保持一份清醒的认知，但这可能对大多数人来说并不容易。

潜在的危险不只在于 AI 的逼真程度，而在于当这种「集体欺骗」被用于恶意时，比如制造谣言或骗局。我们需要建立的，是对信息「意图」的识别，而非仅仅对「真伪」的判断。

我们可以多问问自己：这个内容想让我产生什么感觉？它最终想让我做什么？

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博