普通视图

发现新文章,点击刷新页面。
昨天以前首页

中国 AI 视频赛道最大单笔融资,为什么给了爱诗科技

作者 李超凡
2026年3月13日 10:00


APPSO 获悉,爱诗科技近日完成 3 亿美元 C 轮融资,创下国内 AI 视频生成赛道单笔融资的最高纪录。

领投方鼎晖香港基金联合鼎晖 VGC、鼎晖百孚重金押注;产业资本中国儒意、三七互娱紧随入场;国内政府引导基金、险资、家族办公室,还有 UOB Venture Management、Lion X 基金。参投名单横跨两个半球,不同领域的资本默契涌向了同一个方向。

3 亿美元融资放在当下 AI 行业似乎没有什么好惊讶的,这还不到 OpenAI 融资的零头。但你得把这个数字放进 AI 视频赛道的坐标系里看:成立于 2018 年的 Runway,花了七年才在上个月完成 3.15 亿美元的 E 轮融资。而爱诗科技从种子轮走到同等量级的 C 轮,只用了不到三年。

A 轮,达晨财智领投,蚂蚁集团跟进;B 轮,阿里巴巴领投逾 6000 万美元,彼时已是国内视频生成赛道最大的一笔钱;C 轮,3 亿美元,纪录再次被自己改写。

每一轮都有新的顶级机构首次入场,每一轮金额都在翻倍。节奏越来越快,筹码越押越重

实际上,这笔融资反映出的信号大于数字本身:AI 视频不再是大模型叙事的配角,资本已经把它当作一条独立的、值得重仓的赛道来押注

爱诗科技创始人王长虎曾在 2024 年表示,视频生成一定是被低估的。爱诗科技用不到三年时间,将这个非共识变成了资本共识。

非共识的起点:2023 年,为什么是视频

「我不会创业,但没关系,创业就是边做边学。」2023 年 4 月,爱诗科技创始人王长虎决定创业时,就是带着这句话出门的。

2023 年 4 月,爱诗科技创始人王长虎带着一个在当时看起来相当「偏科」的判断出来:当所有人都在追大语言模型,他要押注视频生成。

要知道一年之后 OpenAI 的 Sora 才正式亮相,可以想象当时王长虎这个选择有多么反常识。

在微软亚洲研究院待了 8 年、在字节跳动做了 4 年 AI Lab 总监之后,王长虎比大多数人更清楚视频 AI 的技术节奏。「2023 年初很多人都不认同做视频这件事,大家都在看大语言模型,」他后来回忆,「但这就有了非共识:我们觉得视频生成是大事,而我们过去在视频和 AI 方面有经验,能赢在全球。」

这个判断在当时要承受不小的压力。相比语言模型,视频生成的算力消耗更大,生成质量更难控制,产品化路径也更模糊。早期的投资人需要相信的,不是现在能看到什么,而是三年后那张尚未成型的蓝图。

2024 年 3 月,达晨财智率先领投 A1 轮,完成了第一次押注。随后一个月,蚂蚁集团以逾 1 亿元人民币跟投,是彼时国内 AI 视频领域单笔最大机构投资。至此,爱诗科技基本完成了从「技术方向」到「资本方向」的验证。

王长虎在创业之初就明确了愿景:「帮助每个人成为生活的导演」。海外产品 PixVerse 和国内产品拍我 AI,都是在这个方向上的落地——前者于 2024 年 1 月上线,后者于 2025 年 6 月推出,两款产品针对不同市场独立运营。

DiT 架构:那个没人看好的选择

要理解这笔 3 亿美元的 C 轮,需要先看懂爱诗科技的技术路线。

把爱诗科技的技术路线从头捋一遍,会发现 DiT(Diffusion Transformer)架构这个选择,是整个故事的原点,也是很多结果的前提。

2023 年,国内主流视频生成方案普遍采用 U-Net 架构。这也没问题,U-Net 经过了图像生成领域多年实践的充分验证,稳定、成熟,调参经验相对成熟,可以较快地跑出效果。对大多数想先做出来再说的团队,这是理所当然的选择。

可以爱诗科技选了 DiT,成为国内首家将这一架构用于视频生成的创业公司

DiT 是 Diffusion(扩散模型)与 Transformer 的组合架构。Transformer 的核心优势在于注意力机制(Attention Mechanism)——它让模型在处理数据时,能够同时「感知」序列中任意位置的信息,而不是像卷积网络那样只能处理局部区域。

对于视频生成这个任务来说,这种能力的价值是决定性的:视频的本质是时间轴上的连续帧,每一帧的内容与上下帧存在复杂的时空依赖关系。人物的动作要连贯,物体的运动轨迹要符合物理规律,光影变化要在跨帧时保持一致——这些要求,需要模型能够捕捉「跨帧的长程时空关联」,而这正是 Transformer 天然擅长的事。

但这个选择在 2023 年要付出不小代价:DiT 在训练初期对算力和数据量的要求更高,起步阶段几乎必然要经历「效果不如成熟 U-Net」的阵痛期。对一家刚起步的创业公司,这是不小的风险,钱可能在效果变好之前就烧完了。

事实证明,这个判断是对的。2024 年 Sora 发布时,OpenAI 公开的技术路线正是 DiT。在视频生成这个方向上,DiT 架构确实是更接近正确答案的那条路。

当 Sora 发布时,爱诗已经在 DiT 架构上积累了一年多的训练经验、数据处理流程、工程优化方案。这种时间差,在技术迭代速度极快的 AI 领域,十分关键。

模型产品两手抓,被低估的核心逻辑

在 AI 视频领域,大多数公司的做法是先把模型训练好,再去想产品怎么做。这是一条看起来稳妥的路,模型成熟了,产品化的风险就小得多。

但这种路线有个致命问题:等模型「训练好」的时候,你已经错过了最关键的反馈窗口。用户真正需要什么样的生成效果?哪些场景的需求最强烈?模型应该在哪些维度上优先优化?这些问题,只有产品跑起来、用户用起来,才能得到真实答案。

爱诗从一开始就把模型训练和产品迭代放在同一个循环里。

PixVerse 网页版 2024 年 1 月上线时,模型还远未到「完美」状态,但产品已经可以让用户生成视频、给出反馈。每一个版本的模型升级,都直接来自上一个版本用户的真实使用数据,哪些 Prompt 成功率低、哪些特效最受欢迎、哪些场景容易出错,这些信号实时回流到训练流程,指导下一轮模型优化的方向。

更重要的是,这种模型-产品的协同进化,会随着时间推移形成复利效应:用户越多,反馈越密集,模型优化越精准,产品体验越好,又吸引更多用户——这是一个正向飞轮,而不是单向的技术推进。

「这就是创业公司的优势所在,没那么复杂,所以效率高,」爱诗联合创始人谢旭璋说。这句话听起来轻描淡写,但背后是对技术路线、产品节奏、组织能力的高度整合。大厂可以投入更多算力、更大团队,但很难做到这种模型与产品的深度结合,流程太长,部门太多,反馈链条一旦拉长,速度优势就会被稀释。

这种效率优势最终体现在成本结构上。谢旭璋在接受晚点采访时透露,爱诗「平均每月用的训练资源不到千卡,成本大概只有同行的 10%」。

这是一种结构性的成本优势,而不是靠压缩预算换来的短期节省。用谢旭璋的话说,模型架构、算法、工程、产品能力的综合优势

当模型优化方向始终贴着真实需求在走,就能减少在错误的方向上浪费算力;产品反馈能实时指导训练策略,每一次迭代的投入产出比都会更高。

从 2024 年 1 月 PixVerse 网页版正式上线,到 2026 年初 V5.6 发布,爱诗科技连续更新 8 个主要版本,平均每两个月就有一次大的模型升级。

这种迭代密度的背后,正是模型与产品一起训练的方法论在起作用:

  • V2(2024 年 7 月):多段视频生成与局部重绘笔刷上线,用户从单纯「生成一段」开始走向「编辑与创作」;
  • V3(2024 年 10 月):特效模式上线,「抽卡概率」从随机提升至接近确定性,这是 PixVerse 从创作工具迈向大众产品的真正节点;
  • V3.5(2024 年 12 月):生成时间压缩至 10 秒内,极大降低用户等待成本;
  • V4(2025 年初):「准实时生成」能力出现,5-7 秒生成 5 秒视频;
  • V4.5(2025 年 5 月):参数量与训练数据集指数级扩张,全球用户达 6000 万;
  • 拍我AI (2025 年 6 月):PixVerse 国内版「拍我AI」发布,同步上线网页端及移动端应用;
  • V5(2025 年 8 月):Agent 创作助手上线,用户不再需要学习 Prompt 语法,口语化意图自动转化为模型指令,API 生态同步开放;
  • V5.5(2025 年 12 月):「分镜 + 音频」一键生成,国内首次实现画面与声音的同步协同,完整叙事能力成型;
  • V5.6 (2026 年 1 月 26 日 ):模态大模型,支持分镜和音画同步生成。

在权威 AI 评估机构 Artificial Analysis 最新发布的视频生成模型排行榜中, PixVerse V5.6 位列全球第 2 位,持续领跑全球视频生成模型第一梯队。


这种迭代密度在 AI 视频行业里相当罕见,爱诗跟很多同类产品的策略不同:持续往前推,每一版解决真实用户在当下遇到的真实问题,同时在架构层面为下一次跃升保留余量

背后的可行性,恰恰是 DiT 架构的可扩展性所赋予的,每次模型升级,不需要推倒底层重来,而是在既有基础上加宽加深。

3 亿美元,押注不只是 AI 视频

但鼎晖最终决定领投这次 C 轮,押注的不只是 V5 的榜单排名,可能还有 2026 年 1 月刚刚发布的 PixVerse R1。

R1 可以说是爱诗科技迄今最激进的一次产品技术迭代。

过去的视频生成,无论做得多精致,本质上都是「把指令翻译成一段视频文件」,是一次性的、离线的渲染过程。用户输入指令,等待生成,拿走一段固定的视频文件。这像是在冲洗胶卷,你拍完就拍完了,要等冲洗出来才能看,看完也无法再改。

R1 不是这个逻辑,它不再只是「生成一段视频」,是一个能实时响应用户交互指令的「世界模型」:用户可以在视频播放中输入指令,改变光影、替换背景、控制角色走向,系统响应延迟约 2 秒,输出为 1080P 超高清实时视频流。

背后依赖的是爱诗自研的「瞬时响应引擎(IRE)」,它将计算步骤从数十步压缩至 1-4 步,实现从「离线渲染」到「实时交互」的重要升级。

谢旭璋判断,未来视频和游戏的边界一定会越来越模糊。一旦视频变得能交互了,全新的内容、用户和创作机会就会涌现。

谢旭璋在采访中透露,R1 发布后,游戏行业的 B 端客户来得最多,「以后的游戏开发不用再像过去那样熬漫长的大周期了,无论是玩法、画面还是剧情,AI 都能让它变得更轻量、更具想象力。更重要的是,它能帮那些不懂代码但有创意的人,把点子变成真正的游戏。」

R1 的潜在价值,已经超出了「更好的视频生成工具」这个范畴。如果说 PixVerse V5 是在争视频生成工具的头部位置,R1 是在定义是一个完全不同的品类——实时交互式内容体验的操作系统。它的竞争对手,不再是 Runway 或可灵,是 Unity、Unreal Engine,甚至是尚未出现的内容消费形态

回看爱诗科技这笔 C 轮的投资人结构,其实本身就是一个信号。

鼎晖三支基金联合领投,背后是对这家公司进入规模化阶段的系统性判断。产业资本中国儒意(影视内容)和三七互娱(游戏)的入场,指向了 R1 要重构两个行业:互动影视制作和 AI 原生游戏开发。

进入 2026 年,整个 AI 视频赛道也在加速进入下半场。前有 Seedance 2.0 风靡全球,现在爱诗科技成为新的独角兽。

目前,PixVerse 全球注册用户突破 1 亿,MAU 超过 1600 万;国内版拍我 AI 与 PixVerse 形成双轨并行格局;爱诗科技也是 2025 年联合国「人工智能向善全球峰会」上唯一入选的中国 AI 视频应用,并于同年正式加入联合国大学全球人工智能网络。

这笔 3 亿美元融资,可以理解为资本对一个即将到来的时代的投票。AI 视频的下一个战场,不在参数量,不在榜单排名,关键在于谁先把视频从一个「消费品」变成一个「交互界面」

不过,知道技术路线在哪里会拐弯,和相信这条路最终走得通,是两件事。

在 AI 这个行业,「选对了方向」本身并不稀缺。稀缺的是,在方向被主流认可之前那段空白期里,有没有足够具体、足够扎实的东西,支撑你不摇摆

三年里爱诗科技在这条路线没有在中途断裂,很难说是提前预见了终点的全知视角,而是每走一步,下一步的方向都从上一步的技术现实中自然长出来。

视频正在从被观看的内容,变成被触碰的世界。因此,这三亿美元所押注,远不止 AI 视频的未来,而是那个「」万物皆可交互」的时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

人在美国,下飞机八年,贾跃亭也抢在春晚前发布三款机器人

作者 张子豪
2026年2月5日 17:03

一觉醒来,又有机器人加入到春节这波「混战」了。

这并不意外,毕竟大厂、车企都在跨界造机器人。但让人没想到的是,昨天还在为造车焦头烂额的贾跃亭,今天一口气发了三款机器人。

今天上午,在美国汽车经销商协会的 NADA Show 的展会上,贾跃亭发布了 FF 三款 EAI(Embodied AI)具身智能机器人,全尺寸人形机器人 FF Futurist、运动型人形机器人 FF Master、以及四足机器人 FX Aegis。

结合在今年年初 CES 上,贾跃亭带着他的 MPV 新车 FX Super one,这款在亮相之际,就被爆料说抄袭长城魏牌高山。网友们对他发布的机器人,不用拿着放大镜看,都闻到了熟悉的味道,直接神吐槽「车我们都知道,这机器人是从哪家进的货啊?

▲贾跃亭在今年 CES 上展示的新车|图片来自互联网

我们也随便丢张图问个 AI,豆包都说这是稚晖君的智元机器人。你别说,还真的有点像,尤其是这两个眼睛,还有身体关节,就像是直接复制过来。

▲右边为智元机器人,左边是贾跃亭发布的机器人 FF Master 系列

具体看看,这款机器人是其中的 Master 系列,跟他的 Title 一样,运动型人形机器人,主要应用的场景,贾跃亭把它定位在「全能的表演者和比赛大师、首席互动官、私人健身教练,以及家庭互动伙伴」这几个方面。

身高、算力各个方面和智元机器人对比,两款机器人确实差不多。Master 系列是 131cm 高,39kg 重,30 个主动自由度关节;使用的芯片是性能稍弱一点的 Nvidia Jetson Orin NX 计算平台,AI 性能是 157 TOPS(每秒万亿次操作);续航方面,连续步行时间大约两个小时。

智元灵犀 X2 身高 131cm,重量 39kg,续航时间也是 2h,主动自由度是 30 DoF,高算力板也是来自英伟达的 Orin NX 157 TOPS。最大行走速度方面,智元灵犀 X2 的实验室数据,也来到了和主打运动的 Master 一样,最快都能达到 2 m/s。

▲灵犀 X2 参数情况

贾跃亭还真有可能就是照这个参数来做的。

其他方面,Master 系列主打运动型,支持丰富的网络连接,Wi-Fi/蓝牙/4G/5G,以及移动应用,或者虚拟现实远程操作等。感知系统上,也有好几个 RGB 摄像头,交互式 RGB 摄像头,RGB-D 摄像头、激光雷达等;这些都是普通人形机器人的标配。

虽然官网写着,也有自主决策的能力,但贾跃亭的机器人本质上,还是一个需要遥控操作的机器人。

这一点,可能也是目前大多数机器人厂商面临的最大问题,就是需要远程操控,甚至是要 VR 操控。和我们之前分享过的一款能做家务的机器人 1X Neo 一样,没想到背后还得靠一个真人,戴着 VR 眼镜,来实时操控机器人的行动。

贾跃亭表示,能力有限,我先发布了再说。

另一款机器人叫 Futurist,未来家系列,它是这次发布机器人里面最贵的一个,身高 169cm,体重 69kg,是一款全尺寸真人比例的人形机器人,并且还支持自定义皮肤;脸也能自定义,因为 Futurist 的面部还是一块显示屏,能用作交互式面部显示。

这块显示屏,倒是又让我想到了小米的 Cyber One,全尺寸人形仿生机器人。

灵活度方面,Futurist 拥有 40 个自由度关节,其中包括脖子两个,单臂 7 个,单腿 6 个。对比宇树的第四款人形机器人 H2,180cm 身高,70kg 重量,31 个自由度关节,除了身高不行,好像又有的一拼。

和宇树宣传片视频里,跳芭蕾舞、打中国功夫;贾跃亭在展会现场,也让他的这几个机器人表演了一波。

在这段 20 秒的展示视频,贾跃亭展示了其人形机器人与四足机器人,能进行简单的动作示范和交互展示;人形机器人能够行走、挥手等,四足机器人则展示了行进和转弯等基本运动;但也只是能证明机器人具备这些基础的运动能力,更多的就看不到了。

根据官网的介绍,机器人的内核也有点料,NVIDIA Jetson Orin 的计算平台,200 TOPS 的算力,以及支持升级扩展的 AI 大脑。全身有一个 3D 激光雷达摄像头,两个 RGB-D,一个鱼眼相机,还有一双能感知触觉的灵巧手。

驱动力上,Futurist 的连续站立时间在 3 小时左右,全身有 28 个电机,峰值扭矩在 500N·m,最快移动速度为 1.2米/秒。但移动,只支持 VR 远程操作遥控,甚至不能用 App 操作。

贾总对这款机器人信心满满,介绍里提到它能支持的场景,既是多语种超级礼宾员、专业超级销售顾问、沉着冷静且多才多艺的超级房东、睿智的品牌大使、具有前瞻性的研究和教学助理……

还可以是工业流水线上的高效的产业合作伙伴,和家庭服务里友善的家政助手。

这种把所有热门场景一锅乱炖的 PPT 风格,实在是太「贾跃亭」了。波士顿动力专注工业,1X Neo 专注家庭,宇树专注运动控制,而贾跃亭专注「全都要」。在他看来,未来是「360 行,行行都有 FF 机器人」。

一个值得玩味的细节是:无论是 Master 还是 Futurist,搭载的最高算力仅为 200 TOPS(基于 NVIDIA Jetson Orin NX)。

作为对比,宇树 H2 搭载的高算力模组,最高可选 Jetson AGX Thor(2070 TOPS 算力),或许这才是当下运行复杂具身智能大模型的入场券。贾跃亭之所以选择「低配版」,除了技术考量,单纯是因为那块高性能的 Thor 芯片太贵了。毕竟,FF 的现金流状况,大家心照不宣。

至于最后那款四足机器人 Aegis,无论是形态还是功能,都与国内逐际动力等厂商的产品高度重合,大概率是供应链现成方案的整合品。

再一次让梦想窒息?

贾跃亭这次几乎把市面上主流的机器人形态「遍历」了一遍。网友戏称:造车、造机器人都有了,贾总下一步是不是该进军商业航天,直接对标马斯克的 SpaceX 了?

虽然他在双重上市公司结构周报里信誓旦旦地表示,首款机器人已完成美国监管认证,目标「发布当月交付」。甚至已经开启了 100 美元的预售,定价在 1.75 万到 25 万元人民币之间。

但这一切,都让人感到一种强烈的「既视感」。

拿他曾经的乐视来说,流媒体视频业务还没成熟,就去做了乐视手机、乐视超级电视、后面还涉足了商业地产、大文娱等;到现在 FF 造车,贾跃亭总是拥有惊人的行业嗅觉。哪里有热度,哪里就有他的身影;什么概念火,他就把什么概念装进他的「生态化反」大旗里。

▲ 小米机器人产品

如今,国内车企纷纷布局具身智能,马斯克甚至为了 Optimus 停掉了 Model S/X 的部分产能。在这个 AI 的关键节点,贾跃亭显然不想缺席。他声称要将 FF 在电动车领域积累的 AI 算法「迁移」到机器人上。

话术很完美,现实很骨感。连 FF 91 的量产都还是一场漫长的拉锯战,这些拼凑感极强的机器人,究竟是具身智能的百花齐放,还是为了给投资人讲出的又一个「窒息」的新故事?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌