普通视图

发现新文章,点击刷新页面。
昨天以前品玩

在获得算力之后

作者 薛良Neil
2023年8月29日 17:40

只有算力是不够的

AI 服务器是大模型战争中兵家必争之地,因为它代表了最为紧俏和稀缺的算力资源。浪潮信息则正是中国大陆最大的服务器提供商。

每两台AI服务器就有一台出自浪潮信息——将AI算力芯片经过系统化的整机设计,最终变成包括计算单元、存储单元、散热单元和供电系统等在内的完整产品交付给客户。

在大模型出现之前,算力资源可以直接用服务器的数量来表示,需要多少算力,就购买多少台服务器就可以了,彼此的换算关系几乎是透明的。正因如此,浪潮信息所做的事情一度被认为非常简单——卖尽可能多的服务器就好。

但大模型的出现改变了这一切。

尽管每个人都在谈论算力和它的紧缺,但许多人不知道的是,即便有了充分的 GPU 芯片供应,训练大模型依然是一个非常复杂和艰困的过程。

比如仅仅是把几千张卡串联起来就是一个工程学上的大问题,国内有现成经验的只有几家最大的云厂商。再比如,相比传统的分布式训练,大模型训练过程更复杂,周期也更长,这就要求服务器集群在充分运用算力资源、提升性能的同时保证整个系统的稳定性,在这个领域几乎全行业都处于摸索阶段。

一个现实的数字是,未经工程优化的情况下,许多企业的服务器效率甚至只有 20%-30%,考虑到大模型算力的高昂成本,这种浪费无疑十分惊人。

但这一关又是不得不过的。

百模大战中,许多大模型是通过 API 调用或者云的方式训练出来的,为了追求速度这本无可厚非,但要想让大模型变得真正落地、可用,则必须进行算力的本地化部署,因为商业化能力的构建是离不开本地算力资源作为后盾的。

这很像是十年前公有云计算发展的脉络,在起步阶段第一波应用过后,公有云的普适化能力开始逐步落地到场景和行业中,于是本地化就随之开始了。

然而本地化又谈何容易呢?除了上面提到的服务器部署这种直接相关的痛点外,大模型训练实际上是一个冰冷的系统性工程问题,从数据清洗到算力适配,从性能兼容适配到软硬件协同,这些实践中的一个个坑所带来的挑战丝毫不逊于算力本身,它们共同影响着大模型的性能与落地的速度。

“客户最关心的就是本地化部署应用。”一位接近浪潮信息客户侧服务的人士向品玩表示。根据公开数据的粗略统计,参与百模大战的企业中有高达 80%都是浪潮信息的客户,因而企业本地化部署的问题,几乎也成了浪潮信息的问题。

仅仅是单纯卖硬件算力已经不够了,人工智能行业的极速变化要求浪潮信息也随之变化。

OGAI:针对大模型的五层解法

在 2021 年,也就是GPT 爆发之前,浪潮信息就推出了名为“源”的大模型,这个有 2457 亿参数的中文大模型,从数据搜集到千卡集群算力支撑的模型训练和推理都是浪潮信息自己完成的,也就是说,早在大模型成为一个现象级词汇之前,浪潮信息已经有了切实的第一手关于大模型开发、训练和微调的经验。

这让浪潮信息收获颇丰,比如在数据侧,从公开数据爬取、清洗到格式转化和质量评估,浪潮信息最终拥有了一个高达 5TB 的原创中文数据集,而在最重要的计算效率方面,浪潮信息已经可以达至50%左右。

从某种意义上说,这种行业 know how 经验甚至是奢侈的,只有浪潮信息这种算力供应商才能负担得起——要知道“源”模型的参数量比 GPT3 还多了 700 亿。

这些经验最终成为了浪潮信息在 8 月 24 号发布的元脑生智:大模型智算软件栈 OGAI(Open GenAI Infra) 的一部分。如果用一句话解释OGAI 是什么的话,浪潮信息希望你把它理解为一个生长在浪潮信息服务器硬件上的,专门基于大模型开发的全栈全流程能软件套组。在硬件侧,它能够最大化实现对 GPU 算力的调用,软件方面则从炼大模型的一开始就帮助开发者提升效率。

OGAI一共分为五层,从 L0 到 L2主要针对的是大模型基础算力环境的效率提升。其中 L0 层是浪潮信息的智算中心OS,负责直接管理和分配算力资源,可以提供多租户的无损裸机算力环境。这有点像本地版本的云调度平台,宛如最底层的操作系统一样,面向大模型的算力需求实现对硬件的集中管理。

第二层 PODsys 是一个开源项目,它集成了系统环境部署的工具链。PODsys  有点像是长在初始化操作系统上的驱动程序,针对不同的环境和需求,实现从环境部署、系统监控和和资源调度的参数自动化配置。由于是开源项目,PODsys软件包大量集合了业界广泛使用的主流开源工具和框架,用户只需要执行非常简单的命令就能完成对整个算力集群的配置。

PODsys工具链是浪潮信息的首创,它实现的功能在过去是由人力来提供的,打个不太恰当的比方,它有点像是买组合台式电脑时工程师上门进行的驱动安装服务。随着整个数据中心行业向加速计算转型,对专家服务的需求也随之扩大,PODsys 这位“专家”的出现省去了用户在环境配置和优化上花费的成本。

L2 层是基础环境配置的最后一层,名为 AIStation ,它已经迭代到了4.0 版本,简单来说,它是浪潮信息研发的一款商业化软件,聚焦于对 AI 算力资源的精准调度。

大模型训练所花费的时间往往高达数十甚至上百天,因此对系统的算力、存储和网络的统一调度就显得十分重要。AIStation 支持单一集群数万个GPU 以及计算节点的介入和调度,有效把 L0 层已经池化的算力资源进行恰当分配以实现最大限度的调用效率,特别是它的断点自动续训能力,可以有效保证大模型训练的稳定性。

第四层名为 YLink。在基础环境构建完毕后,YLink精准对标大模型训练的 know how 问题。模型开发的两个环节,数据处理和模型训练在这一层都能找到对应的工具包,因此你可以把YLink当做浪潮信息专门为模型开发设计的能力支持层,标准化的数据处理工具、分布式训练框架和对应脚本以及微调用到的参数和指令调整都被集合在了一起,模型预训练的效率和微调的质量都将因此得到提升。

最后一层则是 MModel,它可以对各种版本和类型模型进行评估和管理,甚至还可以把它看做一个模型商店——开发者可以通过 MModel 分享自己的模型和数据集。

根据浪潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu的介绍,由五层架构组合起来的 OGAI 内部每一层的功能都是解耦的,不同的用户根据自身的场景可以按照需要独立选择每一层的功能。

潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu
潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu

当硬件厂商向上兼容

OGAI 可以被看作由硬件厂商基于硬件和自身经验所设计的一种端到端的大模型解决方案。

“OGAI 等于是把浪潮信息的模型能力平台化构建出的一种解决方案。”发布会现场的一位厂商如此向品玩表示。五层架构完整地覆盖了从最底层的算力调度到模型发布的全流程,理想情况下,开发者基于浪潮信息的硬件环境就能实现大模型开发的“开箱即用”。

在这五层架构中,PODsys 和 YLink 层都属于业界首创,尤其是 PODsys 层,在此之前没有人用一套完整工具链实现对算力基础环境配置的能力。或者你可以这样理解,只有类似浪潮信息这样的硬件提供商才有能力和动机提供这种一揽子套件,因为浪潮信息不仅足够了解硬件,同时也积累了足够丰富的商业化落地经验。

在分秒必争的大模型竞赛中,这种经验成为了浪潮信息十分独特的优势,它极大缩短了服务器集群设置所需要的时间,等于间接为模型开发提速。

我们可以看到,由硬件厂商和算力提供商,而不是软件服务集成商,主动推出大模型解决方案实际上已经成为了一种趋势。国内百度云和阿里云都各自上线了相关的模型服务和社区,国外的云厂商,从巨头如微软 Azure 到初创公司 CoreWeave 都在努力降低算力的使用门槛,用户使用浏览器就能方便地一键调用其算力用于大模型训练。

而依靠在 GPU 领域享有几乎垄断地位,进而在 AI 时代大赚特赚的英伟达实际上也在通过密集发布各种软件方案来促进大模型技术的广泛落地,比如和DGX 等英伟达服务器集成在一起的由几千个加速库和工具套件以及集群管理软件组成的英伟达 AI Enterprise ,以及 8 月刚刚由黄仁勋亲自发布的,整合了原本分散在各处的大模型开发工具与流程的英伟达 AI Workbench,这些方案的最终目的都是尽可能让开发者聚焦于高效训练模型本身。

但无论云厂商也好,英伟达也罢,它们的解决方案都有各自的弱点,云的方案在非常强调本地化的中国市场有各种水土不服的情况,尤其是在数据和隐私安全性方面。英伟达的解决方案尽管是同它的硬件能力结合的最好的,但一方面CUDA 生态本身是闭源的,而另一方面,不管是出于成本还是地缘政治现实的考虑,更多的用户实际上更需要的是跨多种硬件的,开源的解决方案。

由此,浪潮信息的 OGAI 站在了一个独特的位置上。一方面它满足了本地化部署的需求,另一方面这套解决方案并不是如行业最近热炒的“AI 一体机”一样与硬件进行了深度绑定,实际上这套方案本身都是解耦的,也就是说,尽管OGAI 是一套端到端的,囊括了产品和工具链的完整服务,但在具体使用的过程中,它完全可以依照开发者的需求进行非常自由的搭配,浪潮信息只是提供了一个解法,足够可靠,但并不唯一。

它是一个最懂大模型商业化落地场景的基础设施提供商,为这场百模大战贡献的独一无二的答案。

工业机器人,引而待发

作者 薛良Neil
2023年8月28日 16:34

说起工业机器人你会想到什么?恐怕许多人的第一反应都是那种庞然复杂,充满着赛博风格的机械工厂,人形机器面无表情的指挥、挪动各种复杂机械结构,然后变魔术地生产出各种产品,从显示器、汽车到手机和电脑不一而足。

显然,这种科幻风格还不能立刻变成现实,尽管人们已经在很多地方,比如汽车加工和半导体制造领域,实现了相当程度的自动化流程整合,但这些领域,尽管大多自带高科技光环,生产的产品附加值高、利润丰厚,但它们其实只占庞大驳杂的工业产业链中非常微小的部分,在纯粹的制造业产品生产线之外,还有包括物流转运、仓储管理等许多泛工业领域,它们都还广泛处于自动化兴起的前夜。有业内人士向品玩指出,全球物流的自动化率都尚不足 5%,中国则更低。更何况,就算是在所谓先进制造领域,完全的自动化生产同样也处于刚刚起步的阶段。

事实上,就连工业机器人具体指的是什么,长什么样,不同的人给出的答案也不完全相同——这再次需要回归到复杂的工业流程本身。不同的场景,不同的需求,这些过去都有赖于人来完成的复杂调度和流程衔接,现在都需要自动化的机器来完成——这让机器的形态变得千变万化,甚至它往往不单纯是一个物理的实体,还同时存在于数据的洪流、预设的算法以及协同的软件中,它们一同演变成了工业生态的一个环节,力图实现商业社会中人所永恒追逐的东西——效率的最大化。

一切都在蓄势待发。

一、四面墙内

旷视科技把自己的工业机器人场景设定在所谓的四面墙以内,也就是封闭空间的货物储存区域。

旷视科技智慧微仓示意图
旷视科技智慧微仓示意图

在国外,这种自动化物流项目已经非常成熟,旷视物流业务事业部产品业务解决方案负责人李帅给我们用冷链配送举了个例子:国外每万人拥有冷链配送车辆是国内的十倍以上。这背后是整个冷链物流产业链在中国发展羸弱的结果,反映出国内物流自动化水平的落后。

在旷视看来,当然意味着机会。旷视是做计算机视觉识别算法出身的,在由软算法转向硬的设备中,物流恰好成为最契合旷视技能点的场景之一。

整个物流业占据了 GDP 10% 15%的份额,李帅介绍到,而旷视所对准的四面墙物流场景,尽管在整个物流中——如果你把干线物流也算进去——占比不大,但却是亟待提升效率的地方。

在机器人介入之前,四面墙物料的储存与物流都依靠人来执行,这不仅是一笔连年增长的成本开支,由人介入的物流实际上还面临着复杂的管理问题:一方面仓储领域的人员流动性颇高,还很容易受到季节性因素的影响,比如农忙和传统节日会带来定期的用工荒,这直接干扰了物流的效率。

另一方面,由人主导和介入的物流无法实现规模效率——当仓库的 SKU即存货单位多到一定程度时候,仅仅靠人是无法实现对物料的精准的操控与盘点整合的。

换而言之,在四面墙内,人力所能及的部分是有天花板的,到了一定程度,规模和效率都无法扩大了。然而这却恰好是机器人所擅长的地方。

旷视的解决方案包含了自研的托盘四向车、料箱式堆垛机以及各种物料自主移动机器人,组合起来全面替代了仓库中人所出现的所有地方,而从接收物料、传递物料到堆放和取货这些对物料的精准识别都依赖于算法,这又恰好是旷视最擅长的领域。

旷视开发的名为河图的软件平台能同时控制几十台游离在仓库中的物料搬运机器人,加上输送线系统,整个四面墙内都能实现无人化

旷视认为通过软硬件配合,这套解决方案能用更高的效率调度

3 5 年内,布置这些工业机器人的成本就会被抹平,随后,传统上被认为是花钱的后勤部门甚至可以转化为一个营收项目,靠生产就可以持续盈利了。李帅说到。

更重要的是,这些封闭区域里互相衔接、协同配合机器人突破了人力效率的天花板:2020 年,旷视对广州一家规模庞大的药品物流中心进行了无缝升级,在不停工的情况下实现了整体效率25%的提升。

当然,这不是说工业机器人的开发是一套放之四海而皆准的通用方案,当这种全自动化的仓储物流方案嵌入大型物料的配送中心或者生产物流线边仓库,成为了制造流程的一个环节时,强烈的行业属性就自动凸显了出来,这意味着你需要针对每个行业独特的特点而进行优化。

冷链物流是一个经典的例子,要让机器人能在零下 20 度环境顺利运行,那么所有的零件都要进行宽温设计,特别是要能经受巨大的温度变化——有人作业的区域平均气温往往是零上 10 15 度,这意味着机器人穿行不同的区域要能经受几十度的温差。

而仅仅是硬件上的设计还不够,有些行业 know how 只有深入场景,换句话说,实地操作才会懂得。比如在冷链物流中,两个不同温度区之间的过渡地带往往充斥着水蒸气和小液滴形成的水雾,这会直接影响摄像头的精准度。

再比如,冷链严格的温控要求意味着系统设计机器人行进路线的时候连它们本身的发热都要考虑在内——旷视的方案是通过算法让机器人的运动轨迹分散化,从而防止聚集形成的高温突破冷链的温控要求。

当然,所有针对场景的设计优化中,旷视最擅长的还是自己的老本行——AI 视觉算法。

众所周知,药品的流通有着严格的监管规范,仓库里出去一盒药至少要经过两个独立环节的核对,而旷视在其中一个环节实现了对人工的完全替代——用摄像头就能精确实现对药品名称、种类、批次的检验,旷视的算法优势在这种环节中显露无遗,据李帅透露,前期的算法适配只需要三五个人就可以完成。

不仅是对人力的替代,算法辅助下四面墙内的物流要素,在机器人的帮助下都实现了人力所不能及的效率提升——比如对整个库房的快速盘点。价值几个亿的货物,上万个托盘堆叠的货架,机器人可以在很短的时间内就完成所有的盘点,省掉所有的人工环节。

旷视也把算法看做自己最大的优势,用旷视内部人的说法,这被称之为从软切硬,尽管 2019 年才正式涉足物流领域,但在更早的 2015 年旷视就已经在进行硬件的开发。

外挂 AI 算法的软硬件协同能力根本不能跟自研软硬件解决方案相比。而这种协同能力在四面墙围绕的仓储物流领域的想象空间还十分巨大,甚至,旷视认为它将会占据自己整个业务量的四分之一乃至三分之一。

二、一个运筹学问题

如果粗疏的对工业仓储物流领域进行区分,大致可以分为制造业领域和商业领域,后者聚焦于产品本身的流转——它不再是生产过程的一个环节,而是对生产结果的物流分配,在一个综合仓库——比如物流中心和核心仓,物流分配的效率直接决定了品牌的经营效率。

最典型的场景是电商仓库,如何准确、快速、高效的让千差万别的货物从仓库顺利进入干线物流就是这个细分场景需要解决的痛点。

我们都有过这样的经验,在 618 或者双十一来临的时候,物流系统爆仓了,所谓爆仓,也就是仓库中的货物无法及时传递到干线物流网络中去——这往往是由于人手不足所导致的。在巨大的仓库中用最短的时间和路线找到对应的货物这个过程,过去是由仓库工作人员凭借经验来执行的,当客户的订单蜂拥而至时,这些经验显然不足以覆盖电商场景井喷式的需求。

灵动科技致力于解决这个问题。这家经历过多轮、累计融资近 10 亿人民币的移动机器人公司,是京东最大的第三方机器人提供商,有数百台 AMR 移动机器人游走在京东的库房。灵动的机器人策略被称为订单到人,也就是说机器人根据订单量和库房物料的分布情况自动到对应位置备货,过去仓库中需要许多人在固定动线上重复走动的情况被机器代劳,现在只需要少量的人在相对固定的区域和机器人配合装备货物就能实现比过去高得多的物流效率——2020年底在京东上线的第一个月,效率就提升了30%,第二个月则来到了50%

由于依然需要人的参与和搬运,这种解决方案适用的仓库物流更多是非标品的小件和中小件,也就是边长小于 72 公分,重量小于 30 公斤的货物——这几乎覆盖了绝大部分电商和高端物流场景,它们仓库中的货物种类繁杂多样,许多甚至连摆放方式都不相同,而由于人和机器人要在巨大的货仓中协同工作,这对机器人的自动化水平提出了很高的要求。

灵动采用的方案是所谓第四代技术,也就是基于深度学习的视觉导航。机器人身上的传感器不只有激光雷达,还有摄像头,灵动的算法让机器人通过深度学习采集到的信息来识别货仓这样的封闭空间中的所有东西——无论是人,货架还是行进路线中出现的其他机器人,并自由穿行其中。

这种技术和乘用车上用来实现自动驾驶的技术本质上是一样的,因此你甚至可以把它当做一种区域限定版的工业自动驾驶。

只有我们的四代机可以。灵动科技的CEO齐欧说到,在这里他指的是限定区域内的自动混行。不要小看这种混行能力背后的技术含量,这意味着它不仅能和别的机器人共同运行,还能与仓库中的其它由人操控的设备,乃至人一起协同运行,这就让过往非常复杂的中小件精准物流动线规划,变成了一个纯粹的运筹学问题——系统只需要从理论上得出运动路线的最优解,剩下的机器人可以自主自动完成。

灵动科技“订单到人”解决方案示意图
灵动科技“订单到人”解决方案示意图

这非常像是滴滴或者美团对于运力资源的调配,本质上后台系统在实时监测每一辆车、每一个外卖员的运行轨迹和每一个客户、每一个店家的运力需求,最终,算法会得出一个全局运力分配的最优解,它会随着交通状况、运力需求变化等随时变化,灵动的方案也是如此。

当巨量的电商订单涌入时,灵动的系统会根据需求实时测算机器人行进的最佳路线,显而易见,这是道复杂的数学问题,仅仅是这种调度策略的开发,灵动就用了超过一年的时间,但它带来了巨大的回报,因为同制造业机器人不同,流通领域仓储物流对工业机器人来说是一片蓝海。

中国是全球制造业的中心,这种中心地位很大程度上来自低成本优势——中国拥有大量廉价劳动力,从某种程度上讲,这阻碍了机器人在制造领域的扩张——如果用人力和用机器人差不多价格(甚至更便宜),为什么要用机器人呢?

但对电商仓储物流来说,情况完全不是这么回事。中件仓的传统工作模式是由人拉着搬运车在仓库中游走。搬运车的负重是200公斤,而由于行进路线事实上是靠人的经验来规划的,每天人步行的距离甚至堪比一个马拉松!在没有空调的库房里,这种近乎极端的工作强度让它的流动率高达30%,也就是每三个月所有的员工都会换一波,因此,低成本、快速收益的自动化方案对他们来说几乎是一个必选项——仓库运营中有45%的成本都来自人工。

灵动科技的机器人系列
灵动科技的机器人系列

这是一个自动化率不到5%的行业,而灵动是国内目前唯一拥有完整订单到人解决方案的移动机器人提供商。

三、突破数据孤岛

关于机器人,优艾智合的定义与别家不同,他们扩大了机器人这个定义的外延,把它设想成了一种接近于独立的完整生产力形态,而不再仅仅是一个酷炫的先进生产工具这么简单。

这种机器人独立形态的标志是完全不需要人的介入,因此从外部看来,这种机器人更像一个完全独立自动运行的智能工厂,用优艾智合机器人联合创始人兼工业物流总经理许瑨的话说,在这里,物质流和数据流形成了一个完善的闭环,这突破了工业生产过程中的数据孤岛问题,也是机器人相对人工来说最大的优势。

可以想见,这种高度自动化、智能化的机器人形态意味着要打通制造业生产流程中的所有环节,不仅技术门槛高,成本也更昂贵,让它天然就更适合于单位产品价值更高的先进制造业,比如半导体晶圆制造和新能源电池。

许瑨举了个例子,晶圆制造有7道标准的工序,每一道工序本身已经非常成熟且实现了自动化,但工序之间的物料搬运,过去都是依赖人力。

优艾智合半导体车间无人化生产流程示意图
优艾智合半导体车间无人化生产流程示意图

这正是数据孤岛形成的原因,每道工序本身是独立且分离的,但整个制造过程又需要高度的流程化,因此人不得不参与其中,但人力辅助的工艺流程让数据流又充满了断点,这带来的直接后果是工厂不得不大量囤积原材料来保证生产过程的效率不会受到影响。

很多生产企业,库存水平居高不下就是因为这一点。许瑨说道。

解决的方式就是用机器人去打通全部原本孤立的环节,从原料仓到各级生产线的串联再到最后的成品仓,最终数据流的断点将不复存在。

这种精细程度已经不能用打通最后一公里来概括,恐怕最后一米更贴切。

继续用晶圆制造来举例,每道工序之间,就连简单的上料和下料也有固定的标准,更不必说还有半导体行业广为人知的对洁净度的极致要求——优艾智合的机器人需要运行在 Classes 100 的环境中,也就是说每立方英尺内,灰尘颗粒不能超过100颗。

为了打通这最后一米,需要实现对行业 know how 的深入理解,优艾智合的10多个研发工程师在客户现场旁租了房子住了一年半,先后迭代了4个工程版本的解决方案。

哪怕机器在物理层面已经完成了90%的转运,只要有人的介入,从数据层面上讲,它依然没有突破,它还是创造了一个个的数据孤岛。优艾智合最终的解决方案是复合型的,除了移动机器人,还加上机械手臂,传送滚轮等各种机械结构以及视觉算法和传感器,它们共同建立一个完整端到端的工艺流程闭环,它已经成为了优艾智合在半导体自动化领域最强的企业护城河。

如果你去问行内人对目前工业机器人发展的前景,恐怕会得到很多五花八门的答案。一方面,不确定的大环境与消费的疲弱显然波及了整个制造业与物流行业,每个企业在花钱的时候都要仔细的计算ROI,但另一方面,这或许意味着更廉价的智能替代方案将会成为主流——依赖低成本劳动力的时代正在过去,工业机器人的企业都在试图说服客户,单笔投入高,但长远来看回报率优异的机器人是一个好的选择。

我们现在就正站在这样的时间节点上,面前的是一个驳杂庞大,又蓄势待发的工业机器人江湖。

坚定不移地同浪潮站在一处

作者 薛良Neil
2023年8月25日 18:58

某种意义上说,大模型产业陷入了一种“平静”。

平静甚至是一种委婉的说法,很多人更直白的表述是大模型“熄火”了。百模大战推出了眼花缭乱的各种大模型,摩拳擦掌的投资人和拥有顶级资源的创业者们纷纷就位,然后烈火烹油的状态变得慢了下来,冷了下来。

这与品玩在三个月前举办第一场大模型产业主题论坛时的情况形成了一种有趣鲜明的对比。当时所有人摩拳擦掌,蠢蠢欲动,不少人都表达出了一种乐观和自信。大家会认为,按照中国的速度,通用大模型出现后,应用层,产业链上下游都会随之发生剧烈的变化。

现在三个月过去了。许多问题变得有趣起来。比如,这么多的模型,究竟有哪些可以比肩或者接近GPT4和Llama2的水平?应用层的突破进展,杀手级的应用会是什么形态,会在什么时候出现?在训练之后,大模型大规模推理所需要的算力资源更多,我们的产业链做好准备了吗?

这些问题归结起来就是,中国的大模型产业现在到底处于什么阶段,喧嚣的百模大战之后,下一步的方向又在哪里。

我们想用一场论坛回答这个问题。8 月 23 日,由品玩及旗下内容品牌未来科技力主办的【模型思辨:大模型产业生态论坛:沸腾的资本、踏浪的 AGI】在上海举行,我们围绕大模型的 iPhone 时刻、垂直大模型的爆发,AIGC 产业落地应用和算力架构设计,同产业链上下游、学界和投资界的好朋友们进行了深入的讨论。

中国 AI 大模型的 iPhone 时刻来了吗?

论坛上半场的主题演讲,嘉宾们围绕着一个核心问题展开,那就是如何理解大模型的革命性。

技术上的飞跃如何变为切实的落地实践是每个有志于这场竞赛的玩家都需要思考的问题。

品玩创始人兼CEO骆轶航在开场致辞《大语言模型不是一场绚烂的烟花秀》中表示,“大语言模型不应该成为一种绚丽的烟火秀,从上半年的热到下半年的冷,应该是转向生产,转向落地,而不是过去一个热闹的东西,我同意,他们讲大语言模型不应该成为一场绚丽的烟火秀,其实大语言模型不能说是绚丽的烟火秀,这个行业也在发展,我们现在经历的这种顿挫的冷静,是我们必须要去拥抱的。”

猎豹移动董事长兼CEO、猎户星空董事长傅盛以《大模型到底是不是创造了iPhone时刻》为题发表主旨演讲。傅盛指出,大模型带来了一场交互革命和生产力革命,未来的生态依赖行业内的人一起努力。

针对大模型时代企业的机会,傅盛认为,“一个企业它的竞争力不在于以人力资源为核心,而是以智能资源为核心,硅谷很多创业企业以前都是在雇人,天使AB轮,到C轮,或者B轮开始买设备,现在就是三件套,大模型,数据库等,这件事会带来社会变革,以后在电脑面前工作越久的人工作越简单。”

易观智慧院院长、首席分析师李智分享了主题演讲《大模型对于产业数智化的影响分析》,高质量发展当中最重要的事情是全要素生产率的提升,而在今天我们要依赖于技术和数据要素实现创新的驱动。

浪潮信息 AI&HPC 应用软件首席架构师Allen ,做了《模型时代的算力之道》的主题分享,他表示,“大模型首先是一个工程挑战非常巨大的系统,同时一些模型能力还要源于实践,怎么构建一个万卡AI平台,对于不同的厂商,或者对于不同的客户来说是一个很大的挑战,大规模的训练同时还会有各种硬件的问题,包括在训练过程当中,在网络设计上等,在之前小模型的训练过程当中不会遇到的,GPT4带来大量的工程实验,闭源阻碍的业界的复现。”

网易伏羲用户画像组技术负责人吴润泽则表示,大模型落地应用的高效人类对齐是一项潜力巨大的工作,同时为游戏产业带来颠覆影响。人工智能跟游戏的交叉实践,有望用游戏的海量数据和它的仿真环境助推人工智能的发展。

驶向落地的最后一公里

论坛的下半场,我们更加聚焦于大模型的落地应用侧。如何真正训好、用好大模型,在产业侧实现完美落地闭环是我们关注的重点。

IDEA研究院认知计算与自然语言研究中心讲席科学家张家兴分享了“封神榜”大模型的最新研发状态,并透露子牙模型在全能力模型的基础上对单一能力进行了加强。他表示,“可以形成专用的模型,搭建自己不同的AI产品真正地应用好,或者在不同的场景中应用模型,这或许是我们整个大模型产业的图像。”

竹间智能创始人兼CEO 简仁贤则把大模型的出现视作“个人从业30多年来最兴奋的时刻”,竹间智能致力于帮助企业完成大模型落地最后一公里路:“大语言模型带来了软件新的范式革新,这将是未来最重要的工作。”

除了主旨演讲外,针对大模型商业化的具体实践,我们还特别设立了三个圆桌论坛,主题围绕垂直大模型的领域应用、生成式 AI 对设计行业的颠覆以及 AIGC 领域涌现的新机遇。

垂直大模型是下一个井喷点吗?

垂直大模型的优势在于定制化、深度的行业know how 背景以及相对小的算力规模。基于这些优势,目前的垂直大模型能达到什么样的水平?未来又会对所在的领域产生怎样的颠覆影响?

星环科技副总裁杨一帆表示,“我们需要提供一个从应用层面,还是底层的IT系统,都是从上至下为B端企业服务提供的能力,真正在做的事情,也是我们联合所有的各位一起做的事情。”

达观数据CSO首席战略官刘江贤认为,人工智能往前推进的话要解决三个要素,第一个要素算力,第二是算法,第三是数据。企业需要特别高质量的数据的同时还要注意别破坏模型智能的产生。

中科闻歌上海公司总经理王琛例举了自身企业的生动例子,“凡是国际级的赛事最后都有闻歌的影子,我们的大模型覆盖42个语种,182个国家的信息,通过关键词提取新闻亮点,大模型在新闻舆论领域可以极大提高劳动效率。”

虎博科技副总裁朱俊杰同样对大模型的潜力表示认可:“几乎所有的智能化场景,比如汽车、教育领域等,跟智能化相关的重叠的能力都会被大模型颠覆,只要跟智能搭边的领域,将来都会被大模型重构。”

设计师能用语言模型做什么?

生成式 AI 最先对设计视觉行业产生明显的冲击,大模型究竟是助力设计行业探索更广阔的创意边界还是将整体性颠覆现有的设计行业格局?带着这些问题,品玩创始人兼CEO 骆轶航和灵动 AI 创始人雷海波、蘑菇街、WeShop创始人陈琪、资深 AI 从业者陈亦新展开了讨论。

灵动 AI 创始人雷海波对未来设计师的工作是否会被AI所替代进行了展望,他相信“在创造一些新的分割的时候人类智慧还是非常重要的,我们设计圈也是这么认为,大模型可以替代一些基础工作,但是做一些技术性的分割还是需要人类,这是我们人类活在这个世界上唯一的价值。”

蘑菇街、WeShop创始人陈琪表示,未来 AI 影响下的视觉设计将会往两个相反的方向走去,一个是“极端地跟现实世界结合”,为现实世界的各种日常功能服务;另一个极端就是在虚拟世界进行充分的延展。

资深 AI 从业者陈亦新认为AIGC 最重大的使命就是把人们的想象世界——也就是元宇宙,用很低的成本画出来。创建能够让人沉浸的视觉设计这是 AIGC 能够解决的问题。

AIGC的创业挑战和投资机遇

论坛最后的一场圆桌对话由品玩内容中心负责人王兆洋主持;线性资本副总裁白则人,元境科技创始人兼CEO,王智武;Fabarta联合创始人兼 CPO仲光庆;造物云创始人邱懿武作为对话嘉宾,针对AIGC的创业挑战和投资机遇展开讨论。

线性资本副总裁白则人认为,大模型垂直应用出现的过程是相对缓慢的,这意味着它不是一个“风口型”的机会,而是一个相对更长久的发展的过程。

元境科技创始人兼CEO王智武透露了在虚拟数字人方面的进展。“我们在虚拟人数字人两个方向的赛道上做了非常多的尝试,打造了一些智能前台、智能接待的概念。而虚拟人如何跟C端做结合这是我们今年下半年最重要的使命。我们希望打造有记忆、有灵魂、多情感,多感知的服务型虚拟人。”

Fabarta联合创始人兼 CPO仲光庆分享了大模型产业链基础设施建设的进展。如何更好的把大模型、数据和业务结合起来是目前企业面对大模型时一个亟需解决的痛点问题。尽管大模型数量不少,但它的效果、落地过程中的可用性和精度都还有很大的提升空间,目前不管是学界还是业界都在聚焦于这个问题。

造物云创始人邱懿武作为一个连续创业者,分享了自己对AIGC 行业出现的新机遇的看法,也就是把大模型代表的技术设计和创新能力变成一个平台,给产业链中的制造型企业和品牌型企业提供产品创新的能力。AIGC 的这一轮爆发特别有利于没有被工业化过的行业,像珠宝首饰加工等这种一贯较为依赖人工的行业反而有可能率先进入 AI 时代。

作为全球化视野的科技内容平台和创新连接器,品玩始终密切关注中国大模型产业的发展,在这次论坛上,品玩还启动了面向各大企业和投资机构的2023年度 AI 产业榜单评选征集活动,完整榜单将在2023年11月的品玩科技创新者大会上正式发布。

任何对大模型“降温”的论调,在这场论坛之后都可以终结了。实际上我们更愿意把眼下中国大模型发展的“静默”当做它正向着纵深领域发展的标志。无论是算力的构建还是面向垂直行业的深耕,这同训练一个超越 GPT 的大模型一样,注定不是朝夕之功,但品玩怀着无比乐观的心情看待中国大模型的发展,我们深信,中国的人工智能行业最终将走出一条属于自己的创新与突破之路。

英伟达业绩冲天,看来只有黄仁勋能打败黄仁勋了!

作者 薛良Neil
2023年8月24日 19:38

Key Points

1、英伟达本季营收135亿美元,不仅远超5月份发布的业绩指引,也比分析师普遍预期的业绩要好,受此利好,英伟达股价一度抬升超过8%。

2、英伟达强劲增长的势头将延续,下一季营收预计高达160亿美元。英伟达强劲业绩表明,生成式AI带来的影响或许比一般人想象的更大,可预见范围内看不到需求下降趋势。

3、之前普遍预计的产能问题并没有拖累英伟达营收,黄仁勋表示英伟达正在通过和其他公司合作等手段力图提升产量,本年度剩下的时间和明年英伟达产品的供应将“大幅增加”。

4、英伟达提供了完整的加速计算解决方案,既包括硬件,也包括各种软件服务。这维护了英伟达在市场中的领先地位。短时间内还看不到任何竞争对手能系统性挑战这一点。

以任何标准看,英伟达的最新财报都让人震惊。

截止 7 月,英伟达本季收入同比增长翻倍达到 135 亿美元,贡献了 103 亿收入的数据中心业务营收暴增 171%。利润同比增长超过 800%,环比也超过 200%。

上述指标每一项都高于华尔街分析师的预期,与此同时,英伟达给出下一季营收预测更让市场震惊,160 亿美元的营收预测意味着高达 170%的同比增长,在如此重大利好消息的推动下,英伟达股价强劲上涨 8%,冲破 510 美元关口。

这份财报意味着英伟达的增长远没有到尽头,市场对于生成式 AI 爆发意味着什么的理解可能还不够充分。

英伟达 GH200 Grace Hopper超级芯片
英伟达 GH200 Grace Hopper超级芯片

一、超越所有预期

财报发布前,英伟达的股价大致在 460 美元附近,而主要券商和分析机构对英伟达股价的预测大致位于 500 到 520 美元之间。随着财报的发布,英伟达股价极速上扬,直接冲破了 510 美元关口。这让分析师们给出的预测显得过于保守。

这还不是英伟达打败的唯一预期。本季度135 亿美元的营收比英伟达自己在 5 月底给出的指引高了 25 亿美元,也比分析师们平均预计的 125 亿美元多了 10 亿。

换而言之,大家想到了英伟达的业绩或许会很好,但未曾预料到会好到这种地步。毕竟上个季度英伟达的总收入只有不到 72 亿美元(数据中心业务则是 42.8 亿美元)。指望一个硬件公司,一个季度的营收提升一倍(如果只算数据中心业务的话,提升超过 145%)这看上去当然不太符合常理,过去 11 个财年,英伟达的季度收入都没有超过 100 亿。

然而事实已经雄辩证明,你显然不能用常理去理解英伟达和黄仁勋,实际上,本季度的营收是历史性的突破,是整个半导体业界史上最大的单季增幅。

换而言之,整个市场都低估了生成式 AI 的爆发带来的影响。

黄仁勋
黄仁勋

二、避险情绪与对需求的理解

市场相对的保守态度,一方面体现出了对生成式 AI 爆发理解的不充分,另一方面代表了一种避险情绪。

先说避险情绪。除了 AI 芯片外,整个半导体需求都在走弱。英伟达在整个半导体行业和科技股中几乎处于一枝独秀的状态,它是标普 500 指数成分股中表现最佳的股票,今年美股上涨的主要推手,起到几乎定海神针般的作用。

整个市场依赖一只股票的表现这显然不太正常,因此在业绩发布前的一个月英伟达的股价涨跌互现,显示市场游移不定的情绪,因为英伟达的业绩哪怕只是稍不如意,恐怕就会引发整个股市剧烈震荡。

更何况英伟达还有产能的问题无法解决,更长期看,对 AI 芯片的需求在何时见顶也是个问题。

在财报发布前,市场上已经开始有把英伟达同思科相提并论的论调,思科是上个世纪末互联网泡沫中跌幅最大的股票之一,而在泡沫破裂前,它的增长曲线和英伟达如出一辙,而它们俩恰好还都是硬件公司——推高思科股价的原因是人们当时认为思科提供的基础设施对建设互联网来说是必不可少的,这也很像大家目前对英伟达的理解。

这就回到了对生成式 AI 需求的解读上,也是财报电话会上黄仁勋被问到的一个核心问题——生成式 AI 带来的增长在多大程度上是可持续的?

黄仁勋给出的逻辑是这样的。全球目前的数据中心规模是 1 万亿美元,而每年的资本支出规模在 2500 亿美元左右,这些支出在整个经济大环境下行的背景下,都倾向于导向最为经济、最有性价比的方向,也就是加速计算,英伟达在这方面拥有优势,包括 H100、A100 在内的整个HGX 系统是营收最大的驱动力。

因此,对需求的可预见性至少在明年是充分无疑的,当然如果你完全接受老黄的理论的话,数据中心更新换代的周期将长达 10 年。

趋势非常明显,平台正在转变。英伟达不遗余力为市场的预期带来充分确定性,这种确定性从财报的营收上反映了出来,截至目前所有的信号都是高度乐观的。

黄仁勋在 SIGGRAPH 2023 大会上展示最新的基于 GH200 的超级计算机。
黄仁勋在 SIGGRAPH 2023 大会上展示最新的基于 GH200 的超级计算机。

三、解决产能

在这份财报击碎了市场有关需求泡沫的任何不确定性后,人们的另一个关注点就来到了更实际的层面——产能。

英伟达不直接生产芯片,HGX 系统中最重要的芯片 H100 采用了名为 CoWoS 先进封装技术,目前只有台积电能够提供。

换而言之,目前 H100 供应如此紧缺的最大原因就是 CoWoS 产能不足,它也是市场上某些悲观论调的来源,决定英伟达产能的很大程度上并不是英伟达自己,而是台积电。

根据品玩了解到的情况,台积电已经在台湾多地布局了先进封装产线,公开报道中最新的一个位于台湾新竹科学园区,但量产时间预计要到 2027 年第三季度。

这种进度的缓慢除了技术工艺上的复杂性之外,台积电对CoWoS 产能扩充缓慢也和其自身运营逻辑有关,尽管 AI 需求未来五年将以 50%年均增长率成长,但它的总需求只占台积电营收的一成左右。在整个半导体行业需求不振的情况下,台积电产能扩张步伐显然只能循序渐进。

英伟达解决产能瓶颈的办法是扩大供应商范围,在电话会议上黄仁勋表示英伟达会“与其他公司合作以补充台积电的封装能力”,尽管一如既往,英伟达没有给出任何明确的数字,但总体来看,今年下半年和明年,芯片的供应量将“大幅增加”。

这符合半导体产业周期,一般来说芯片产能都会提前6 个月左右规划,这个季度是订单反映到财报中的第一个季度,随着计划好的产能逐步扩张,下个季度营收势必会相应提振,这正是英伟达给出 160 亿美元下季度营收预测的基础逻辑。

英伟达另一个旨在解决 CoWoS 产能问题的对策是推出 L40S 芯片,尽管它同样适用的生成式 AI,但却没有采用CoWoS 技术和高性能内存,这意味着它的产能更好提升。

在 8 月的 SIGGRAPH 2023 上刚刚推出的时候,有人一度认为L40S将会打乱英伟达的产品线——L40S 在大模型性能方面比 A100 还强。但黄仁勋在电话会议上明确否认了这种观点:L40S 的定位更倾向于对预训练模型进行微调,同时它采用了标准化设计,因此很容易安装和进行超大规模的扩展,这和 H100 构建的专门的大规模语言模型训练的系统是不同的。

英伟达 L40S GPU
英伟达 L40S GPU

四、是产品,更是解决方案

对 L40S 产品定位的诠释,充分展现了英伟达对整个加速计算产品线的布局与理解。

首先是迭代迅速,黄仁勋几度谈到了英伟达产品的更新周期——不是 2 年,而是 6 个月。这种黄仁勋速度本身就让人印象深刻,5 月在台北电脑展上介绍的DGX GH200年底就会上线,GH200 芯片则在本季度就会出货,它的升级款,8 月刚刚发布的采用更先进内存的 GH200 芯片则在明年 2 季度出货。

就像每两年升级架构一样,有规律的更新速度实际上稳定了所有人对英伟达产品性能的预期。

另一方面值得指出的是,英伟达的产品线实际上不是围绕算力,而是围绕加速计算本身展开的。它本质上是一种软硬件协同的解决方案。

H100、A100、L40S 以及RTX 系列 GPU 以及 DGX Cloud,它们涵盖了从训练大模型,到微调,再到数据科学工作流,以及三维设计和数字内容创建等各种需求,算力布局从本地到服务器再到云端无一遗漏。

但这不是英伟达加速计算解决方案的全部,名为 InfiniBand 的网络技术可以大幅提升网络吞吐量从而更好提升扩展 GPU 的性能,针对传统的以太网,英伟达也能用 Spectrum-X 技术来加速优化。实际上英伟达的技术储备涵盖了加速计算的多个方面。其中许多技术被放在了产品中,并没有单独售卖。

英伟达 Spectrum-X 
英伟达 Spectrum-X 

软件方面也是如此。仅就大模型来说,英伟达还有开发大语言模型的 NeMo 平台,名为 Picasso 的生成式视觉模型,为游戏角色提供智能对话能力的 Avatar Cloud Engines,以及 AI Enterprise 等加速库和预训练模型套件等等一系列工具,它们基本上也都集成在了英伟达的硬件产品线中。这些软硬件协同起来不仅可以实现对加速计算的端到端优化,而且强化了英伟达在加速计算领域的优势。

竞争对手或许可以在某些硬件指标上领先英伟达,但无法在整个生态层面同英伟达竞争。

五、对手还未出现

英伟达在发布财报时宣布了 250 亿美元的股票回购,这意味着英伟达自己对股价的展望也趋向乐观。

最激进的分析师已经给英伟达的股价给出了 1000 美元的估计,整个市场都因这份出色的财报弥漫着一股显而易见的乐观和兴奋情绪。目前看,包括 AMD 和英特尔在内的竞争对手都没有对英伟达形成真正的挑战:AMD 的 MI300系列产品要到第四季度才出货,根据品玩从供应链了解到的情况,也采用了CoWoS 技术的AMD 新GPU不仅同样受困于产能瓶颈,而且在良率提升方面进度远远落后。至于英特尔的 Gaudi2 芯片,它在软件层面的优化升级要到四季度才能完成。

因此,这份出色财报发布的时间点,恰好落在了英伟达独享生成式 AI 爆发红利的区间,目前看,这波增长还没有任何慢下来的趋势,站在独孤求败位置的英伟达真正的对手或许只有自己。

❌
❌