阅读视图
谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
Genie 3是有史以来最先进的世界模型之一。
仅通过文本,它能够实时生成完全互动、高度一致的世界。
它不仅是DeepMind积累的结晶,还是通向AGI和具身智能体的关键一步。
但Genie 3是如何构建的?未来的世界模型又是什么样?
刚刚,谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter,在a16z的访谈中,分享了他们的观点。
谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter
这次对话提供了对Genie 3的第一手洞察。
主持人Justine Moore发推表示:「Genie 3在网络上引发热潮」。
主持人Justine Moore发文
他总结了深入探讨的要点:
Genie3是由两个DeepMind项目(Veo 2和Genie 2)合作完成的成果。
实时、互动的世界模型有很多潜在应用。
但应用并不是推动研究的主要动力——它们是从用户使用模型的过程中自然涌现出来的。
Genie 3可以保留最长达一分钟的空间记忆。
物理规律是模型的「自然产物」,并会随着训练数据的规模和深度而不断提升。
目前还没有一个「终极模型」能够同时具备Veo 3和Genie 3的所有能力。
Genie 3:AI新魔法
如果说LLM的原生图像编辑功能,「动动嘴PS」是「言出法随」,那Genie 3这次的新特性叫什么?
只需输入文本提示,Genie 3即可生成动态世界。用户可以实时进行探索,每秒高达24帧,分辨率为720p。
十多年来,谷歌DeepMind一直致力于模拟环境的研究。
Genie 3是他们最新最强的「世界模型」,是通向通用人工智能(AGI)的关键一步,因为它能让AI智能体在无限丰富的模拟环境中进行训练。
去年,他们推出了首批基础世界模型Genie 1和Genie 2,它们能为智能体生成全新的环境。此外,他们还通过Veo 2和Veo 3等视频生成模型,不断提升对直观物理的理解能力。
这些模型在世界模拟的不同能力上都取得了进展。Genie 3是谷歌首个支持实时交互的世界模型,同时提升了一致性和真实感。
Genie 3在多个方面实现突破
在生成视频时长、世界一致性、内容的多样性、特殊记忆等多个方面,Genie 3都实现了突破。
它甚至可以让个人创造自己的游戏世界、训练强化学习的智能体、机器人研究等。
所有这些应用基本上都源于一个核心能力:只用几句话就能生成一个完整的世界。
最关键的新特性是:特殊记忆。
比如:一个角色拿着刷子在墙上刷漆,然后他移动到墙的另一边去刷,接着又回到原来的位置,结果之前刷的痕迹还在。
特殊记忆(special memory)是DeepMind团队有意设计的目标,但最终的效果好得出乎意料。
即便是参与Genie 3的内部成员,第一次看到上面刷墙的示例时也不敢相信,需要再三观看、逐帧检查,才确定这真的是模型生成的。
Genie 3的一致性非常高:建筑物左侧的树木在整个交互过程中始终保持一致,即使它们时而进入视野时而消失
其实,Genie 2就已经具备了一些「记忆能力」。但当时,整个AI界太多令人激动的模型发布,比如Veo 2模型几天后也发布了。而且,当时谷歌主打的卖点是「可以生成新的世界」,所以记忆能力就没被强调出来。
到了Genie 3,在「记忆」上,谷歌DeepMind下了更大的决心,明确地把「增强记忆能力」作为核心目标之一。
当时设定的目标是:
超过一分钟的记忆、
支持「实时生成」、
还能提升「分辨率」。
其实,这几个目标本身是互相矛盾的,但谷歌无所畏惧。
说实话,直到项目快结束时,在看到最终样本的那一刻,他们依然感到震撼。这种成果即使是预期中的,真的实现的时候还是非常令人兴奋。毕竟,研究项目永远不会有百分百的确定性。
在设计上,他们还有一个明确的方向,就是不采用「显式表示法」。市面上已有一些方法,比如用NeRF或Gaussian Splatting等技术,通过构建明确的3D世界结构,来达到一致性。这些方法很好,在某些应用上效果不错。
但他们坚持让模型「逐帧生成」,这种方式对模型的泛化能力、适应多样世界的能力更有帮助。
智能涌现,惊喜不断
就像其他生成式模型一样,随着Scaling,效果确实会提升,这已经不是什么秘密了。
尽管不如语言模型在推理能力上的涌现表现,Genie 3依然涌现出一些令人惊讶的行为。比如说,如果一个角色靠近一扇门,模型可能就会「推测」角色应该打开门;这类符合人类直觉的行为,模型现在能在一定程度上表现出来了。
还有就是对语言的理解在不断变好,生成的内容也越来越真实,视觉效果更自然。
从Genie 2到Genie 3的提升非常明显,特别是在「模拟现实世界能力」上有巨大飞跃。
比如物理效果的表现——像水的模拟、光照的变化,都非常惊艳。
现在已经到了一个地步,哪怕是非专业人士,看了之后也会觉得是真实拍摄的视频。
这太惊人了。而在Genie 2时代,模型虽然大致能表现出物体该有的行为,但你还是一眼能看出「这是AI生成的,不是真的」。
现在的视频真假难辨,进步真的很大了。
在「地形多样性」问题:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,这些动作和物理反馈应该是不一样的。
谷歌团队发现这些行为很多都是规模和数据广度所带来的「涌现能力」。
换句话说,他们并没有为这些行为做专门的训练或设计,而是模型自己「学」出来的。它通过足够丰富的训练数据,掌握了这个「世界」的通用常识。大多数时候,它表现非常不错。
比如下面的例子:
在滑雪时,角色在下坡时速度会变快,而试图上坡时就会变慢,甚至爬不上去;
下水后,角色一般会开始游泳或溅起水花;
靠近水坑时,模型通常也会让角色穿上雨靴。
这些行为都非常自然,和人类对真实世界的理解非常一致,而这些都是模型自己学会的,真的让人觉得像魔法一样。
这里还有一个有趣的权衡:既能保持世界的「物理一致性」,同时也能忠实地执行用户的提示词。
对视频模型来说,「低概率事件」本来很难,但Genie 3依然能有不错的表现。
这正是它的魅力所在:
即便是一些现实中不太可能发生的场景,Genie 3也能让你如临其境,而不是仅仅生成一个和你身边环境一样的无聊视频。
在「指令跟随/文本对齐」,Genie 3也得到了提升,这主要得益于DeepMind内部不同项目(特别是Veo项目)的经验迁移和知识共享。这种跨团队协作是DeepMind的优势。
世界模型是让智能体走向现实世界最快的路径。Genie 3朝着这个目标迈出了一大步。
那Genie 4、Genie 5的新特性有哪些设想?
未来的关键,真实感和交互性
但总的来说,Genie 3团队最关注的始终是一件事:让模型本身变得尽可能强大,让它能产生更广泛的影响,然后把创造应用的机会交给其他团队。
他们表示最终会开放Genie 3模型。
未来确实让人特别兴奋,但也必须承认,世界模型距离真正「准确模拟现实世界」还有很大差距。
比如,把一个人放进生成的世界里,让他随心所欲地做任何事情,我们还远远做不到。
还有很多工作要做,才能让虚拟世界的真实感和自由度接近现实。
应用还有很多,关键在于能否准确模拟世界,并把人放进其中。也许还能从「第三视角」观察自己,或者与虚拟智能体互动。
他们还透露真实感和交互性是未来的关键。
现在机器人领域最大的瓶颈之一就是数据:能收集到的数据非常有限。
而Genie 3能生成几乎无限的场景,这样一来机器人就能在虚拟世界里学习,而不再局限于现实中能采集到的视频。这个想法真的很令人兴奋。
最后一个问题:人类是不是生活在某种模拟中?
这个问题被问过很多次,得到了「哲学化」的回答:如果真是模拟,那它运行在完全不同的硬件之上
如果人类真的生活在一个模拟世界里,那它绝对不是运行在现在的硬件上的。因为我们的世界是连续的,而不是数字化的。
所有的感知都是连续的信号。
也许,在量子层面会有一些「硬件限制」,但至少和我们现在的计算机完全不同。
或许未来量子计算机,才是运行我们这个模拟世界的真正平台。
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
李家超晤李彦宏,听取百度对自动驾驶产业发展意见
骑手升级为“城市骑士”,饿了么淘宝闪购全面提升骑士保障激励体系
南微医学:中科招商拟减持不超过2%公司股份
我国首个搭载气象雷达的海上升压站完成安装
光库科技:上半年净利润5187万元,同比增长70.96%
三峡新材:上半年净亏损2699万元
华虹公司:筹划购买华力微控股权,股票停牌
罗永浩曝董宇辉独立后年收入二三十亿,与辉同行官方否认
600亿BD大单,美元LP突然想给GP投钱了
今年以来,中国创新药持续火爆。跟踪医疗板块的恒生医疗ETF,从年初到现在涨了90%多,港股通创新药指数更是上涨130%,这意味着中国创新药实力已得到全球认可,跻身第一梯队。
行业里有个趋势:投资人不再死等IPO,而是主动做BD交易。最近这一趋势又有了新动作——一些国际资本(LP)想通过国际合作,给国内生物医药的投资机构注资,一起挖掘中国有潜力的新药研发项目。简单来说,国内GP有机会募集美元基金,并有望走进国际供应链进行BD交易了。
一位负责做交易首付款投资的人士透露,目前美元LP正在寻找三类国内GP,核心目标很也明确:借助近水楼台先得月的优势,提前锁定优质的药物研发“管线”。
该位人士解释称,过去国内GP赚钱主要靠“IPO”,而创新药是典型的“双十定律”,即耗时10年,耗资10亿美元。在LP更在意“回报时间更短”的背景下,两种思路不合拍,导致钱花得效率不高,出现了很多重复研发的药物项目。
但现在不一样了:中国创新药的实力被认可后,投资模式也发生变化——市场开始关注“药物研发项目”的直接投资,甚至是供应链管理,想通过成立一家新公司(NewCo)专门运作某个项目。所以,国际LP才主动找过来。
美元LP正在寻找这三类投资人
从年初至今,管线的BD交易已成为行业主流。特别是那些金额超10亿美元的BD大单,大多与管线海外授权相关。
以三生制药与辉瑞的合作为例,三生制药将其自主研发的PD-1/VEGF双特异性抗体SSGJ-707在全球(不包括中国内地)的独家权益授予辉瑞,潜在交易总额超60亿美元,其中首付款就给了12.5亿美元。
先为达生物也有类似操作,将其一款降糖药(GLP-1类)和胰淀素受体激动剂AmylinRA授权给Verdiva Bio公司,交易金额达24.7亿美元……
诸多类似交易,以及达成的金额表明,BD交易已成为药企获取新现金流的重要方式。
一位生物医药投资人表示:“过去,BD交易不太重视,主要是首付金额较小,GP很难从中获取现金回报,更多的还是依赖IPO。但当前形势已发生显著变化,上半年中国创新药BD交易总额突破600亿美元,这么大的金额没人能忽视。”
“所以,像把创新药海外权卖掉、把研发各阶段能拿到的费用提前打包、变现的国际合作方式(BD),是国际LP最想参与的方式,这也成了GP募资的机会。”上述负责投资首付款交易的人士补充道。
据该人士透露:现在,美元LP想找三类投资机构,一起在创新药项目中淘金。
一是,投资美国的生物医药公司。国内GP只做跟投,核心是把中国的新药项目推给他们,赚合作分成的钱;
二是,投资国外的公司。这些公司要么是新成立,要么是拿到中国药物授权,可以跟投,或者通过特殊方式入股分利;
三是,主导投资“国内新成立的公司(NewCo)”,专门负责中国新药的海外销售。通过把没上市部分的管线权益出售、靠国际合作赚现金流,或者投AI制药公司或分拆部门等,甚至把新药未来的收益打包成“金融产品”,即管线证券化等。
从某种程度来说,这些投资与合作,目的都是国际资本为了与跨国药企(MNC)、大型药企(big pharma)抢管线,以便在后续国际BD操作中获取更多收益。
NewCo成GP提升话语权新途径?
对于这三类目标GP,另一位生物医药投资人称,国内GP与国际LP合作时,能不能把“国际运营”的管理能力做好是关键,“尤其是第一类,投资美国运营的生物医药企业。”
“在美国运营的生物医药企业中,通常由海外基金占据主导。国内GP由于缺乏国际商务拓展(BD)的经验和资源,很难深度参与中国药企和国外的交易设计,话语权微弱。”该投资人说道,随着这类纯欧美新公司的融资或运营调整,国内GP的股权还有可能会被稀释,最终极易被踢出局。
过去,国内GP就因为话语权问题,而常吃亏。比如有个PD-1抗癌药项目,当年把海外权益卖给国外公司时,对方只给了5600万美元首付,且没说清楚“欧美卖药赚的钱怎么分”。结果国外公司慢慢卖,国内这边既没拿到后续分成,还被笑话“不会做生意”。
说到国际合作能力,一位接触过国际合作交易的人士坦言,现在企业普遍认为国内机构缺乏这方面的经验,且学习曲线较长,“尤其是最后股份可能被摊薄、扫地出门,使得很多国内机构都心有余悸。”
在某招聘网站上,“商务拓展负责人”成了创新药企招聘的关键词,核心是想找能“对接跨国大药厂、国外生物公司和行业巨头,推动合作落地、把生意做起来”的人。
“这种招人背后,反映的是国内投资机构缺乏国际资源和人脉能力。”上述投资人说。
那么,在国内成立NewCo,能改变这一局面吗?上述负责做交易首付款投资的人士认为,这种模式的设计,能解决“国外机构不带国内机构玩、国内药企也不带国内机构做国际合作”的尴尬。
究其原因,国内GP可以通过成立的新公司(NewCo),决定自身能在海外权益中分到多少收益,选择哪些国际化团队来管理,这样话语权就大多了。
最为重要的是,NewCo是新成立的,估值低,国内GP能够以较低成本撬动,也方便向国内LP“交代”。
不过,也有部分投资人士认为,这种方式虽然能提升话语权,但最终情况如何,还得看条款的具体设计,尤其是分成时间节点、比例、分配顺序等等,“说白了,就是对供应链能力的一种把控,是对GP综合能力的考验。”
中国创新药研发需“匹配”国外需求
从合作设计来看,在国内运营NewCo的模式,可能解决过去投资机构在国际合作中遇到的问题,但挑战也存在。比如,新公司刚成立时,国际LP投的第一笔钱可能不多,甚至只是承诺款,后续把公司转手,还需等待进一步数据。
所以,在整个项目或者供应链管理的筛选中,仍绕不开一个核心问题——“管线价值”。
“不管交易层面如何设计,最终还得看创新药项目够不够好,对不对应需求。如果有需求,项目又好,国外大药厂才愿意出高价买;项目不行,再怎么折腾也卖不上价。”上述接触过国际合作的人士说。
截至目前,国外LP已经意识到,国内GP有近水楼台先得月的优势,与其一起合作抢好的项目,才有机会和跨国公司、大型药企的竞争中占优,但创新药项目是否符合国际大药厂的发展需求,比如填补产品线空白、在竞争中占优势;以及由美国哪个团队负责推进临床试验、上市等环节,让药的价值最大化,依然是整个链条中最核心的逻辑。
也正因如此,国际LP给国内机构投钱时,看重对方供应链层面上的三个能力:能不能找到中国的好项目;能不能找到美国的好团队;懂不懂跨国公司和大型药企的发展需求和竞争思路。
上述接触过国际合作的人士也提到:现在,国内药企研了很多发项目,但和美国市场的需求不一致。“很多中国药企还没搞明白美国买家想要什么,也没按国际合作的思路来定研发,国内投资机构也暂时帮不了企业找准方向,这都是双方存在的盲点。”
“目前,国内GP的海外策略才刚刚起步,后续仍需深入研究美国的‘生态’和‘玩法’。”上述人士补充道,未来,国内GP需要从国内药企的“立项”阶段就介入,以便助推其实现市场化和国际化。这是一条漫长的道路,尤其在推动国内药企科学家和企业家思维维度上的迭代。
对此,有业内人士透露:正通过AI“牵线”帮忙,把中国的新药项目和国外买家的需求进行匹配,以最大限度提高合作成功率。
近期,国内某AI制药龙头达成的470亿港元BD大单,正是这一逻辑的体现。这位业内人士说,这家AI龙头正在“按需抓药”,在国内寻找有潜力的创新药项目,给药企“下订单”的同时,又匹配了后端需求。
此外,上述专门做交易首付款投资的人士还表示,国际LP找国内GP时,还有几个核心方向:投资AI制药公司及可能拆出来的独立团队、业务,或者特定类型的研发项目;投资“以一家核心公司为中心,孵化出多个项目”的平台及旗下企业;投资平台型公司和拆出来的新药项目等。
“这些需求看似是生物医药投资交易上的重新设计,但本质上都与GP的供应链管理能力有关。”该人士最后说道。
本文来自微信公众号“投中网”,作者:陈美,36氪经授权发布。