普通视图

发现新文章,点击刷新页面。
今天 — 2025年12月26日首页

笑拥了,现在打王者都在用腾讯会议,AI 这波操作是在大气层

作者 张子豪
2025年12月26日 12:03

用腾讯会议打王者,谁看到不会说一句「离谱」。

以前在群里看到在线会议那串链接,条件反射就是工作和学习。我脑子里都是上课、开会、面试还有永无止境的「收到请扣 1」。

但最近我发现,这软件的风评正在发生一种诡异的逆转。

这段时间以来,在小红书和朋友圈里,一种名为腾讯会议开黑的「行为艺术」,正在悄悄人传人。

当我第一次看到那些打着王者荣耀,却挂着腾讯会议界面的截图时,我的心情还是挺复杂的。你们是有多爱上班?连打游戏都要搞个会议纪要?

原本以为他们是要搞什么高端的远程协作,结果点进去一看,还是打游戏里,那些狂叫的「救救救」、「别送了」、「不讲武德」。

▲ 双方情绪明显失控|腾讯会议开黑 + AI会议纪要记录了玩家实时的状态

于是乎,带着批判,其实更多是猎奇的心态,我也拉着我的怨种朋友亲自体验了一把后,我悟了。

谁懂,原来是我们的格局小了。说腾讯会议是办公软件,完全低估了它,这分明是比我队友更懂阴阳怪气的互联网嘴替,还是专门记录各种人类迷惑行为的荒诞派作家。

我们玩游戏「癫狂」,腾讯会议里面的 AI 纪要更炸裂。

就这种用最严肃的工具,干最不正经的事的反差感,真的很绝。尤其是腾讯会议,里面那个本该用来记录会议纪要的 AI,现在是硬生生地被玩家们,逼成了一个峡谷战地记者。

腾讯会议说,我成了你们 Play 的一环

我们首先要搞清楚,腾讯会议的 AI 纪要是怎么工作的。AI 纪要,原本是开发出来让我们在职场上提升效率的。

但它最厉害的地方,其实是把情绪识别的天赋直接拉满了。

作为会议软件 AI,本来是用这套天赋,对商务谈判、技术评审、周报汇报等工作场景,进行专门的优化;主打一个还原真实氛围,捕捉和记录工作中,各种需要对齐的东西。

在它的世界观里,人类的对话应该是有逻辑的、有目的和有结论的。

然而,随时组的一场游戏局,能有什么目的,里面充斥着的无非是情绪的宣泄、无意义的重复、还有根本不讲语法的破碎。

但恰恰是这个识别我们的语气和情绪的功能,让它在面对游戏组局里这些「废话」时,反而能更精准地抓住我们崩溃的瞬间。

于是当这个功能到了游戏玩家手里,两种逻辑正面相撞,AI 开始对我们说的每句话强制格式化。万万没想到,腾讯会议,直接变成了一台冷面吐槽机器。

其中,各种喜剧效果拉满的「商务翻译腔」,直接让打王者这件事快乐加倍,成了最期待的游戏体验。

我们一起来感受一下这个画风。

有网友在小红书上分享,在腾讯会议里开黑,明明是打游戏打急眼了,在那互相甩锅。结果 AI 纪要一出,瞬间给升华成了各种职场官方话。

看着 AI 一本正经地说「配合出现明显脱节,暴露出战术执行混乱的问题」、还有「李元芳的姗姗来迟,更凸显出团队中的协同漏洞」……莫名有种在批奏折的感觉。

在游戏的实时过程中,腾讯会议会每隔两分钟,就自动推送最新的会议纪要。我们只需要开启会议,把它放在一边,它就能实时把我们的对话全部整理好。

但这个整理,相当有仪式感。听听这词儿,「生存压力巨大」、「明显的挫败感」。 哪怕玩家们在麦里吵翻了天,在腾讯会议的 AI 眼里,这可能仍然是一场关于战术执行,与团队配合的「高层对话」。

还有更损的,有大学生在打比赛的过程中,吐槽了一波学校网速不行,还聊到了拼多多取快递。

换做以前,这些游戏过程中随口一说的东西,说完就随风飘散了。但现在,腾讯会议这个 AI 纪要,它居然给记下来了!甚至把取快递、驿站都跟游戏失败联系上了。

会议结论: 「两人将游戏的失败归咎于……学术流放政策和各种问题所导致的操作瘫痪,并陷入了对游戏角色压制力的集体焦虑。」

真的很离谱,AI 总有一天是会被这些玩家给逼疯的。

文字记录本来是莫得感情,但被情绪崩溃的玩家碰上了,产生的喜剧效果简直拉满。过去输了游戏可能是真生气,现在输了游戏,看到这份纪要,只想说,这把虽然没赢,但 AI 判我嘴硬赢了

我的「潜台词」,AI 比我队友更懂

说实话,笑完之后,我发现腾讯会议这波操作有点东西。

那个打通了元宝的 AI 纪要,是有点「活人味儿」在身上的。一般的语音顶多做个文字转录,再不济根据文字内容,生成一些个思维导图、会议摘要。

但腾讯会议这个,它独特的智能情绪识别能力,不光听清了我们说什么,还听懂了我们是什么态度。

拉上我的朋友十二,APPSO 今天带薪打游戏,也来体验一波用腾讯会议来开黑的快乐。

▲ Hi,我是你的元宝会议助手,请安心开会

我(xxxx)平时不怎么打王者,因为技术实在是有点菜,有时候打完一局,输掉了,不光队友气,自己也悔。

但这局游戏结束,回头看这些 AI 纪要,说它是一个游戏复盘,完全不准确。

电脑放在旁边,我一边打,一边偷瞄几眼,当时就笑出声。「为当前的冲突埋下伏笔」、「感到明显的挫败感」;AI 这是比我都离谱。

我觉得自己就像个 CEO,等着 AI 来伺候我这个打游戏的菜鸟。AI 也丝毫不敢怠慢我, 小心翼翼地记录下,我每一次愚蠢的走位,和无脑的冲锋。

一开始,我的电脑麦克风没设置好,我说要对方先等等。然后 AI 纪要给我记录的情绪是「我抱怨技术问题、网络卡顿、双方情绪明显升级。」

接着到了正式的游戏阶段,朋友跟我说游戏里有人在喷我了,我确实打的很菜,我自称人机。结果元宝给我们的画像是,朋友透露出了对胜负的强烈焦虑,而我已经失去了信心。

虽然我还是那个送对方人头最多的菜鸟,但我把这些腾讯会议生成的 AI 纪要分享给他看时,他觉得 AI 特别好,把他的真心话全说出来了。

以前打完一局,想分锅可能要再吵吵个半天。现在好了,也不需要我们手动整理,一边看乐子,一边手直接把纪要甩给元宝。

我们甚至可以直接问它,「帮我分析一下,这局谁的心态最先崩的?」然后元宝给我的回答是。

十二(游戏昵称)全程表现出更强的求胜欲,即使劣势仍反复尝试调整策略(如中路推进、拿风暴龙王),心态崩溃较晚。

xxxx(游戏昵称)在游戏开始不久即抱怨网络卡顿,语气焦躁,并与其他玩家相互指责技术问题。此时已显露出对局面的失控感。

xxxx(游戏昵称)自嘲「才知道我是人机」,公开承认自己操作像人机,这种自我贬低是心态崩溃的典型表现。

元宝会基于全网信息和我们提供的上下文,生成一份比教练还专业的战术甩锅报告。

但报告准不准确,是不是真能分析出有用的东西,一点都不重要。AI 纪要的存在,更像是一个目击证人,证明了我们这 30 分钟,不仅仅是手指在屏幕上的滑动,更是一件真实发生的事情。

这是友谊的「时光机」

体验完这波,再返回去看网上那些分享,我开始明白为什么现在的网友,宁愿麻烦一点,也要拉个腾讯会议打游戏了。

除了找乐子,大家图的,可能就是这种被郑重记录的感觉。无论是王者还是其他游戏,它们自带的结算界面太冷冰冰了,全是 KDA、伤害转化率。

最后的结果就是一个排位,谁死了多少次,谁贡献、击杀最多,它们只在乎玩家赢没赢,而我们玩游戏过程的那些情绪,它完全没办法给出反馈。

但腾讯会议 AI 纪要不一样,它完全就是一个情感容器,我们开心了,愤怒了,它全都记下来。

它记录的是,「A 玩家的我真服了,折射出战术执行已陷入恶性循环」、「B 玩家直接批评队友操作水平,语气激烈显示团队协作已出现裂痕」、「成败在此一举的紧迫感贯穿对话」……

AI 如何解读我,如何解读我的朋友,它生成的那些看起来荒谬的记录,像是变成了一个剧本,能演一出我们的友谊大戏。

试想一下,等到 2026 年,甚至更久以后,我们再翻开这份会议纪要。没有一堆枯燥的数据,有的还是那些让我们哄堂大笑的,一起嘴炮和犯蠢的证据。

某年某月,张三因为抢了李四的兵线,导致团队协作氛围一度紧张……

离谱,大概只是用腾讯会议开黑,这件事能被觉得好玩的某一部分原因。

一把王者结束,游戏只会告诉你输赢、数据和排名,但这三十分钟里留下的紧张氛围,很快就会被下一局覆盖掉。

腾讯会议的 AI 纪要,却把这些全部保留了下来,用一种有点过分认真的方式。它不需要急着证明自己有多有用,只是帮我们,把一次原本会被迅速遗忘的游戏过程,变成一段可以被回看的记录就行。

等哪天当你上班上得想发疯,随手翻到某天和你朋友们的开黑记录,会议纪要:因打野位缺乏大局观导致满盘皆输,团队五人均陷入集体焦虑。

信我,那一刻你绝对会笑出声来。

这哪里是会议纪要,这分明是 AI 给我们的「时光机」。虽然没赢,但咱们嘴硬赢了;虽然很菜,但咱们快乐真的在。

不过有点小遗憾的是,腾讯会议之前是,只支持两个人不限时的会议,我想多找几个朋友一起,让它来记录这波欢乐,免费时间就有限了。

▲ 活动参与链接:https://meeting.tencent.com/v2/wzry-meeting-activity

好在腾讯会议和王者送来了福利,在周末最多 5 人的开黑直接不限时长。等不及了,我得再拉上我的冤种队友们去开会了(送两把)。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


昨天以前首页

字节 92% 工程师都在用的 TRAE,这次瞄准了企业级市场

作者 张子豪
2025年12月19日 14:29

AI Coding 的「元年」还没落幕,在即将迈入 2026 之际,这个赛道就加速进入更加残酷的下半场了。

之所以残酷,是因为规则变了,如果说上半场比的是「速度」,那么下半场拼的就是「落地」。

这带来的变化或许远超开发者想象,最近OpenAI 披露了一个颠覆性的工程案例:Sora 的 Android 团队曾面临极度紧迫的上线任务。

为此,他们组建了一支仅有四名工程师的「特种部队」。通过 AI coding 的方式,这支四人小队在 18 天内就发布了内部版本,10 天后即公开发布。这并非牺牲质量的狂奔,相反,他们在极短周期内依然保持了高标准的可维护性。

可见,AI 不仅在写代码,更在定义软件架构。而 Gartner 预测,到 2028 年,90% 的企业软件工程师将使用 AI Coding,开发效率将提升 30%。

在中国,这种转变甚至更为激进。数据显示,84% 的开发者正在使用 AI Coding 产品,其中 51% 每天都在使用。

但热闹背后,CTO 们的焦虑其实更深了。

因为 AI Coding 正在经历最痛苦的「祛魅时刻」: 从单纯验证「能不能写出一段 Python」,到要求「能不能搞定复杂的企业工程」。

问题早已从「要不要做」,变成了「怎么做得更好」

说白了,企业引入 AI Coding 必须先解决四大挑战:安全合规、性能适配、管理透明和流程集成。解决不了这些,AI 就不仅无法提效,反而会变成一个吞噬维护成本和带来安全隐患的无底洞。

昨天,一家中国大厂也交出了自己的答卷,在火山冬季 Force 大会上,字节正式发布 TRAE CN 企业版,拥有 600万开发者、市占率第一的 TRAE ,正式进军 B 端市场,它的目标很明确:啃下挡在企业应用 AI Coding 前的几座大山。

TRAE CN 企业版,让 AI Coding 进入「工程轨道」

如果 AI Coding 仅仅意味着代码能跑通,其他全凭运气,那它永远无法真正进入企业开发的核心工作流。

这本质上是一场关于「控制权」的博弈。

企业需要的 AI Coding ,应当监控自己的训练过程,甚至为自己编写测试框架,但最终的「决定权」和「迭代方向」,始终掌握在人类手中。这是一种微妙的人机协作关系:让 AI 负责干活和制定初步计划,人类负责审查、讨论并迭代计划。

在TRAE CN 企业版里,各处都是这种「可控协作」的细节。

它拒绝让开发者陷入盲目的「抽卡式」编程,而是通过配置企业规则、知识库与 Agent,强迫 AI 进入团队协作的严谨轨道。在这个轨道里,TRAE 不仅生成代码,更在生成一种「懂业务、守规矩」的工程资产。

通用大模型最大的软肋,其实并非算力限制,而是「上下文窗口与工具调用次数的限制」。

它们通常只能盯着当前打开的文件,面对企业级数亿行代码的超大仓库(Monorepo)时,这种能力简直是个笑话。

所以,TRAE CN 企业版针对大仓库场景,专门对上下文与索引性能进行了深度优化,直接构建了资深架构师般的「上帝视角」

它支持 10 万文件、1.5 亿行代码的超大仓库索引,配合超长上下文窗口,能适配最复杂的编程场景。比起简单的文本检索,TRAE 实现了亿行级代码的极速检索与实时增量索引。依靠企业级 GPU 集群的优化,它能在处理如此海量信息时依然保持毫秒级响应

这意味着,当你敲下需求的那一瞬间,TRAE 已经「看」完了你整个项目,给出的不再是孤立的代码片段,是基于完整上下文的深思熟虑。

为什么我们需要这种能力?因为传统软件工程的物理定律正在失效。

图灵奖得主、曾撰写软件工程圣经《人月神话》的架构师 Fred Brooks 有句名言:「在一个已经延期的软件项目中增加更多人手,只会让项目更晚完成。」

▲ Fred Brooks

刚刚发布的 TRAE CN 企业版,正在试图打破这个魔咒。

要知道很多稍有底蕴的技术团队,都有自己的一套「黑话」和「规矩」。这些宝贵的知识往往分散在 Wiki 文档、CI/CD 流程或者特定的工具链中。通用的 AI 对此一无所知,生成的代码往往充满了「外行感」,需要大量的人工修正。

TRAE 企业版的解法是:全场景适配,让 AI 学会团队「语言」

它允许企业直接接入知识库与规范,并基于 MCP 协议统一调用企业的工具与数据源。这相当于给 AI 装上了企业的「大脑」和「手脚」。

当 Agent 接收到指令时,它会基于企业规则和知识库进行校准。所以,TRAE 生成的代码自带「规矩」:它更懂业务逻辑,代码生成更准确,甚至能集成现有的 CI/CD 和 DevOps 体系,实现 AI 开发的一体化。

更关键的是,它让所谓的「管理黑盒」变得更加透明。

以前老板不敢推 AI,是因为不知道员工用 AI 干了什么,也不知道 ROI 到底是多少。TRAE CN 企业版直接把效能做成了看板。它可以追踪 AI 生成率、代码量等关键指标,让整体 ROI 清晰可见;同时还能设置费用上限、实时监控消耗,把成本算得明明白白。

当然,这一切的前提是守住安全的「红线」。

TRAE 企业版给出了的承诺是,数据不训练。官方隐私协议明确规定,企业代码永远不用于 AI 训练。配合代码全链路加密传输、云端零存储(代码文件默认本地存储)以及云端数据用后即焚机制,让企业代码资产「滴水不漏」。

TRAE 企业版扎扎实实地解决了三个最要命的工程问题:让 AI 看得全(全库索引)、懂规矩(规则内化)、能闭环(Agent 协作)。

正因为啃下了这三块硬骨头,TRAE 企业版才能将 AI Coding 从一个「有时好用、有时捣乱」的玩具,转变为企业研发的确定性生产力

在字节最真实的业务里,验证「确定性」

2025 年我们已经习惯了 AI 产品在 PPT 上各种参数的天花乱坠,但真正能让 CTO 们信服的,只有在极限业务场景下跑出来的数据。

最好的试金石,莫过于承载字节自家泼天流量的产品。毕竟在这种大量并发协作的真实业务考验里摸爬滚打出来,比任何关于「提效」的承诺都更有力,目前字节 92% 的工程师都在用 TRAE 进行开发。

就拿抖音生活服务来说,这个业务迭代速度快得惊人,过去面对的最大挑战,是需求到上线的链路冗长且人力投入巨大。从产品经理写下的自然语言需求(Brief),到工程师敲下的第一行代码,中间横亘着巨大的「沟通折损」。

工程师不仅要理解业务逻辑,还要在大脑中检索与之匹配的中间件、熔断规则和数不清的隐藏依赖。

而企业希望 AI 带来的生产力拐点,往往并不是推倒重来的「颠覆」,是要像水一样渗入到企业已有的流程里,去填补那些效率的洼地。

而 TRAE CN 企业版在这里给出的解法,就是一种不同的「全链路深度嵌入 」,透着一股老练的「懂行」

当工程师把一段飞书文档投喂给 TRAE 时,它没有机械地把中文翻译成代码。它不仅读懂了「团购券核销」这个业务动作,更扫描了当前服务的上下文,自动匹配了团队最新的 RPC 调用规范。它甚至指出了文档中未提及的兜底逻辑缺失。

如果问研发同学最讨厌干什么,写单元测试(Unit Test)绝对榜上有名。

这是一件苦差事。为了赶业务进度,单测往往是第一个被牺牲的环节;而一旦系统挂了,缺乏单测又是第一个被拉出来背锅的理由。这种死循环,折磨了无数技术团队。

TRAE 干了一件极其漂亮的事:单测自动生成与修复

据内部研发团队测试,在接入 TRAE 后,单测生成时间被压缩到了 18 分钟以内,而且首编译通过率高达 70% 以上。请注意,这 70% 不是生成的伪代码,而是实打实能跑通逻辑的测试用例。

TRAE 默默扛下了这些枯燥、重复但又至关重要的脏活累活,让工程师能把宝贵的脑力留给架构设计和业务创新。

这套在字节内部跑通的逻辑,也正在外部企业中复制

在一家头部的 PC 硬件厂商业务系统中, 80% 是旧代码迭代,多年的代码堆积让维护变得异常困难,每一次改动都像是在排雷。

引入 TRAE CN 企业版后,它充当了企业知识库的「守门人」。在 Java 后端场景中,TRAE 能准确识别陈旧的架构问题,甚至精准定位重复查询等性能瓶颈,给出优化方案。

而在前端,它直接打通了 Figma,让原型图瞬间转化为代码,被研发团队评价为「省去了切图环节,提速非常明显」。

能够处理那些逻辑盘根错节、充满历史包袱的存量老系统(Legacy Code),这意味着它不挑食,不嫌脏,具备极强的代码理解和上下文穿透力。

对于金融科技企业汇付天下,对代码的准确性和交付效率有着金融级的要求。在他们的支付 PaaS 平台「斗拱」的研发中,下游开发者理解接口文档耗时、环境部署排查困难一直是阻塞交付的顽疾。

他们在利用 TRAE 企业版的 Agent 能力后,实现了智能环境诊断和测试用例自动生成。它能分析下游环境日志,快速定位问题,直接将沟通成本降至最低。

效果是立竿见影的,从最初 10 个席位的谨慎试点,迅速扩展到 100 个席位,高峰期活跃率高达 70%。这种自下而上的高频使用,说明 TRAE 真正嵌入了工程师的核心工作流,而非一个可有可无的辅助插件。

字节跳动的高并发场景,到 PC 巨头的存量维护,再到金融科技的交付提效,TRAE 企业版这种转变,也是 AI Coding 更加成熟的标志,对于那些追求确定性、不仅要快更要稳的企业级研发来说,才有真正的应用价值。

AI Coding 的下半场,要成为确定性生产力

尽管行业普遍预测 AI Coding 还有巨大的增长空间,但背后依然是无数企业从观望到试水的艰难跨越。

企业需要的不是随机的 Vibe,而是确定的 Spec(规范)。

所以,AI Coding 的下一阶段,从「人指挥人」,转向「人定义 Spec(规范),AI 落地执行」

TRAE CN 企业版正是基于这种判断,将字节在 C 端极其复杂的海量场景经验,内化为解决问题的能力,确立了一种全新的生产关系。

TRAE 并不满足于生成 Demo 级代码,而是试图陪伴开发者走完从构思到落地的全链条。它让工程师从重复劳动中抽身,去定义架构、去洞察业务,给出企业可用的生产级代码。

不过,这场生产关系的进化注定不会轻松。传统的研发惯性、复杂的存量系统以及对安全合规的顾虑,依然是横亘在企业面前的现实高墙。

TRAE 的出现,或许只是给这堵高墙凿开了一个缺口。否持续证明这种「确定性」价值,能否让更多企业像字节内部一样信任 AI,将是决定其能否真正撬动企业级市场的关键。

这场关于 AI Coding 的长跑才刚刚起步,TRAE 抢到了一个不错的身位,但真正的较量还在后头。

文|李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测豆包 Seedance 1.5 Pro:哪吒朱迪在线飙戏,复刻名场面,AI台词、音效水平大更新

作者 张子豪
2025年12月18日 21:10

AI 视频最近的玩法特别多,颇有上半年 AI 生图火起来的那种感觉。

▲ 视频来源:https://x.com/pabloprompt/status/2000706593579573301/

之前火过一遍的 AI 探班视频,随着模型能力的提升,现在又开始变成了社交媒体上的热门玩法。

不过彻底摒弃了以往复杂的工作流,有更好用的模型,甚至是简单几句提示词就能复刻,视频里的同款真实感。

视频生成模型的优化,不断地在降低,对我们人类提示词工程的依赖,同时还带来了更稳定的一致性保持。

豆包最近更新了新一代的音视频生成模型,豆包 Seedance 1.5 Pro,在音视频的生成上也有了明显的改善。现在它生成的视频,支持中文、英文、日文、韩语、西班牙语等语种的不同声韵,同时针对中文场景,还能生成四川话、粤语等方言。

不仅能说,而且还能模仿不同语言的口音。有声视频是 Seedance 1.5 Pro 的一大突破,在视频生成本身,结合音频的音画同步,以及电影级的运镜两项优化,让 AI 视频看起来更真实、更细致。

目前该模型已上线豆包 APP,只需要打开豆包,点击「照片动起来」,选择 1.5 Pro 模型,就能体验到 AI 生视频的快乐。此外,在火山引擎体验中心、即梦 AI 也可以体验。

我们也提前测试了一波,Seedance 1.5 Pro 完全可以说,是现在手边能拿起来直接用,能同时融合声音,表现最好的视频生成模型。

听听「臣妾做不到啊」的原音重现

《疯狂动物城 2 》上映之前,网友们对配音演员的选择,有很大的争议。现在 Seedance 1.5 Pro 的语音生成有多牛,我们可以看看之前网上很火的甄嬛传和让子弹飞,两个视频的配音,让它来完成是什么样。

从网上找了一张影视剧的截图,然后丢给豆包,我们甚至什么提示词都没有输入,它就能做到自动识别视频画面,生成一段有感情的台词戏。

▲在豆包 App 内,使用「照片动起来」,上传首帧,生成视频

皇后和张麻子都演得太像了,这和几个月前的视频生成模型,完全不是一个 Level。 以前那些 AI 视频,口型对不上,或者声音有机械感的问题,现在都解决了。

但普通话对它来说都是基本操作,方言的表现才是 Seedance 1.5 Pro 打败那些国外模型的独门秘籍。就像 Sora 2 和 Google Veo 3.1 虽然在画面生成上被认为是行业领先,但如果把上面这两张首帧图片丢给它们。Sora 和 Veo 3 都理解不了甄嬛传的经典台词,和张麻子这流利的四川话口音。

全运会刚结束,如果你也在广州,一定忘不了「活力大湾区,魅力新广州」这句魔性的口号。我们生成了一张站在广州塔前面的照片,然后在豆包「照片动起来」里面输入提示词。

画面里的这个男生正在面向镜头,向大家介绍他身后的广州塔,他用粤语说「活力大湾区,魅力新广州,我身后面嗰个就系广州塔喇!」

这个粤语水平怎么样,比多邻国里面的早茶四件套,虾饺、肠粉、烧卖、豉汁排骨,听着是不是要舒服一点。

而且,Seedance 1.5 Pro 有一个好处是「视听一致性」,意思是它能根据画面的内容,理解视频想要表达的故事,来自动生成对应的配音。

举个例子,当我们上传了一张明显是外国人的图片时,我们不输入任何提示词,它会自动使用英文来配音,并且让画面里的角色,说合适的台词。

即便是在中餐厅面馆里吃面的威尔·史密斯,Seedance 1.5 Pro 还是让他自动用英文来说话,而且这个吃面姿势也完全对了。

同样地,我们用它复刻了 AI 片场探班的视频,直接上传一张图片给豆包,不输入任何提示词,它会自动用中文来生成视频,还配上了台词,「哇,跟阿凡达合影啦!」

当我们重新生成时,Seedance 1.5 Pro 还把照片里的男生识别成韩国人,然后生成了一段讲韩语的视频。不过,说实话,他确实是有点韩国欧巴的感觉。

豆包视频生成还有一点特别好,是我们可以直接把生成的视频,下载为动图保存在手机。配合现在模型更强大的多模态理解能力,以及能生成更真实的画面,手机里那些静态的图片,让它们「真实地」动起来,然后发到微信朋友圈,可能真的会有人看不出来。

AI 巨人照加上无人机运镜,太酷啦

叙事是 Seedance 1.5 Pro 更新的一个关键词,它的意思是这些 AI 视频不只是单纯的生成,而是有了一定的故事感,能够对要表达的内容进行理解,让 AI 生成的视频,更像是一个有血肉的作品。

一个好的视频作品,灯光色彩、音效要出色。技术性的工作也少不了,运镜就是在音画之外,不可忽视的镜头语言。

Seedance 1.5 Pro 在这次更新里,在长镜头跟随、希区柯克变焦这些电影级运镜都有了大幅度的提升。

像是之前我们做的子弹时间,现在上传一张图片到豆包,调整一下提示词,子弹时间特效也自由了。

▲提示词:子弹时间效果。时间完全冻结。舞者悬浮在半空中,对抗重力。[定格画面]:舞者、她的头发和她的蓝色裙子绝对静止,就像时间冻结中的 3D 雕像。摄像机围绕悬浮的舞者水平轨道运行。背景建筑物改变透视(视差),而舞者保持锁定在中心。头发保持僵硬并指向上方,没有飘动。裙子布料是固体的并冻结保持不动。 电影级照明,高质量。

我们把同样的照片交给 Veo 3.1 处理时,它生成的子弹时间也很难做到保持角色一动不动。因为对大多数视频生成模型来说,识别到头发,就一定要飘动;看到裙边也要摆动;所以精准的运镜控制和调度,也是区分不同模型的一项重要能力。

还有这个前段时间很火的 AI 巨人照,现在我们也可以用超酷炫的无人机俯冲和穿越运镜,来凸显视频里的巨人。

▲提示词:电影级 FPV 无人机镜头,极致动态运镜:从高空鸟瞰开始,无人机急速俯冲向一位坐在城市街道中央的巨人,红砖建筑环绕两侧。巨人保持完全静止的姿势,身体、头部、四肢均不移动,如同雕塑般定格。无人机以特技飞行动作环绕巨人静止的身体——盘旋绕腿、从手臂下穿越、沿躯干螺旋上升,然后拉远展现巨人与微小车辆(红色双层巴士、黑色出租车)和行人的尺寸对比。超写实合成。比例 16:9,时长 5s,模型 1.5 Pro。

从参考图转视频,能更好的控制视频的输出效果。但 Seedance 1.5 Pro 的文生视频能力也毫不逊色。

根据字节公开的 Seedance 1.5 pro,在内部基准测试 SeedVideoBench-1.5 的模型表现结果,显示无论是 T2V 文生视频,还是 I2V 首帧转视频,和可灵 2.6、Google Veo 3.1 等模型对比,Seedance 1.5 Pro 的表现都有一定优势。

尤其是在音频生成和音画同步上,Seedance 1.5 Pro 几乎是碾压性的存在。

我们尝试让疯狂动物城朱迪和哪吒一起,一个普通话,一个四川话,演了一出 10s 的小剧场。

▲提示词:[0s-4s] 朱迪指着哪吒说(普通话,语速快,严肃): “那个小孩!站住!双手抱头!根据《动物城交通法》,你刚才风火轮超速了!” • [5s-10s] 哪吒(四川话,翻白眼,语速慢,拖长音): “哎呀,莫挨老子!我是踩的风火轮,又没烧你的油。瓜娃子,管得宽!”

这个视频的风格和内容,和我们平时看的动画片风格真的很类似。当义正辞严的兔朱迪警官,抓到哪吒的时候,那严肃的表情和语气;还有哪吒用四川话说台词,也能对上嘴型。

APPSO 今年前前后后也测试了有十多款 AI 视频生成的模型,我们在使用的过程中,发现很多以前的测试案例,放到现在已经是 Out 了。

一开始是鲁迅来了,都得让他说两句英文;能生成一个 5s 流畅播放的视频,就谢天谢地。现在的模型,不仅支持中、英、日、韩等多语种,广东话、四川话这些特色方言都能同步生成。

恍然间,AI 视频的进化,已经从按年计算变成了按月计算。昨天的突破,今天就是及格线。

▲ Seedance 1.5 Pro 案例截图|来源:字节跳动 Seed 官网

Seedance 1.5 Pro 这次更新,可能又会变成新的及格线。但至少现在我们看到了,有了音画同步后更有感染力的视频;多语种和方言的支持,也让 AI 视频更有「生活味」;专业的电影级运镜和智能理解能力,让一些高难度的复杂场景,也有机会通过 AI 生成。

当技术能够理解画面背后的故事,自动匹配合适的语言和情绪,我们距离想象力和创作自由的时代,又近了一大步。

实现这一切需要什么? 一张图片或者一句提示词。

打开豆包 APP,上传/输入,生成,就这么简单。每张照片都是待激活的故事,每次上传都是创作的开始。

步骤越少,门槛越低,创作者越多,用 AI 视频实现创意就该是这样。

文章内视频可点击该链接前往观看:https://mp.weixin.qq.com/s/em_E90Q7AdydHsNwVkAMTQ

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌