普通视图

发现新文章,点击刷新页面。
昨天以前品玩

谷歌新模型的算力已是GPT-4的5倍,要大力出奇迹反超OpenAI了?

作者 李欣帅
2023年8月29日 20:49

谷歌正凭借强大的算力储备和基础设施快速研发下一代AI大模型。AI“一哥”的位置被OpenAI暂时取代之后,该位置或许即将重回谷歌手中。据SemiAnalysis报道,谷歌下一代大模型Gemini的训练算力已达GPT-4的5倍。

众所周知,算力是AI大模型研发的“超级引擎”,它能让模型更快地学习、分析数据。算力不仅影响着模型的研发进度,还直接关系到模型的性能和可靠性。

因此,在AI热潮席卷全球的当下,引发了一场前所未有的“算力争夺战”。从大型企业到创业公司,都在争抢提供算力资源的GPU,最终导致GPU供不应求。

就连OpenAI这样早早就手握大量GPU资源的公司如今都面临GPU短缺问题。在今年6月,OpenAI的CEO Sam Altman曾提到,OpenAI 现在最大问题来源于GPU。由于GPU短缺,客户对OpenAI提供的API的可靠性和速度有所抱怨。而更长上下文等功能的开放也受限于GPU。而为解决GPU短缺等问题,OpenAI目前正积极谋求融资。

与此同时,在OpenAI等公司为GPU犯愁时,谷歌有着自家设计的TPU(张量处理单元)。TPU是谷歌开发的人工智能加速器专用集成电路,于2015年开始在谷歌内部使用。自发布以来,谷歌已经构建了6种不同的AI芯片(TPU、TPUv2、TPUv3、TPUv4i、TPUv4和TPUv5)。

TPU是专门为机器学习设计的芯片,在AI研发的某些方面可能比GPU更高效。并可以高度优化以适应谷歌的软硬件生态和人工智能计算工作负载。尽管TPUv5单个芯片的性能与H100 GPU芯片还有差距,但在谷歌自家的生态系统(如TensorFlow框架)中,TPU通常会有更好的性能和成本效益。

TPU可以很快地处理神经网络中使用的大量矩阵运算。图源:谷歌
TPU可以很快地处理神经网络中使用的大量矩阵运算。图源:谷歌

据了解,谷歌全新架构的多模态大模型Gemini,正在以令人难以置信的速度迭代。最近的一次迭代算力高达1e26 FLOPS,是GPT-4训练算力的5倍。据SemiAnalysis预测,这一数字有可能在明年年底变为20倍。

谷歌的算力资源仍在快速增长。据报道,OpenAI即使在两年内将GPU总数增加4倍,谷歌的算力资源仍然处于大幅领先地位。目前OpenAI、Meta、CoreWeave、甲骨文和亚马逊的GPU总和仍要小于谷歌拥有的TPUv5数量。

由于算力的重要性,算力资源的差距很可能会成为谷歌拉近并拉开和OpenAI距离的关键因素。毕竟,拥有更多的算力资源意味着能进行更多的实验,更快地迭代模型。

除了在算力方面的优势,谷歌还拥有全球范围内的大规模数据中心,为大模型的训练和部署提供了强大的基础设施。这使得它与其他公司(如OpenAI)竞争时具有明显的优势。这种优势不仅体现在现有的资源上,还体现在其持续增长和未来发展的潜力上。

总体来说,谷歌在资源、技术、生态系统、商业模式和全球战略等多个方面可能具有优势,这使其在大模型的研发和发展方面具有相当的竞争力。至少在训练前的计算规模扩展和研发速度方面,谷歌应该会最终胜出。

相比之下,OpenAI虽然在模型设计和算法研究方面有着前沿的成果,但在硬件资源方面相对较弱。这种差距可能会限制OpenAI在模型规模和应用场景上的拓展能力。

充足的算力资源和高效的基础设施,会成为谷歌在AI研究和商业应用方面的利器,也可能会成为谷歌和OpenAI竞争的重要分水岭。当然,最后还是要看成品如何,也就是谷歌的下一代模型Gemini是否会比GPT-4 更有优势,这一结果可能在未来几个月会见分晓,Gemini据称会在今年秋季发布。它是否会取代ChatGPT的地位值得期待。

-End-

迅速逼近ChatGPT!Llama 最新代码生成模型已经直追GPT-4了

作者 李欣帅
2023年8月26日 19:39

在发布开源可商用大模型Llama 2之后,Meta日前正式发布该模型的编程版本Code Llama,极大弥补了之前在代码任务上表现不佳的短板,进一步拉近了与闭源的GPT模型的差距,测试效果直追GPT-4。

值得一提的是,就在Code Llama发布的两天前,OpenAI开放了GPT3.5的微调功能,允许开发者和企业根据自己的需求定制模型。作为目前开源和闭源领域综合实力最强的两个大模型,这不免存在些许你追我赶的竞争意味,甚至是有一丝火药味?

编程作为大语言模型最重要的应用领域之一,也是当前几乎所有技术产品和服务都离不开的,对该能力的优化和改进具有重要意义。

本次发布的Code Llama是在Llama 2的基础上,通过特定的代码数据集进一步训练而来,支持C++、Java、Python、PHP、Typescript(Javascript)、C#和Bash等众多流行语言,依然是开源可商用。

Code Llama对编程专家和初学者都非常有用,无论是用专业的编程语言还是用自然语言(如普通话)来描述编程需求,Code Llama都能理解,并很好地生成相应的代码或与代码相关的解释。这极大降低了开发门槛和效率。

多版本模型覆盖更多特定场景需求

根据Meta的博文,Code Llama分为7B、13B和34B三个不同参数版本,可满足不同的服务和延迟要求。每个版本的模型都使用了500B tokens与代码相关的数据进行训练。

图源:Meta
图源:Meta

最小的7B参数模型可以在单个GPU上运行,响应速度快,适用于需要低延迟的任务。但相比更大的模型,在代码生成或理解方面不够精确。最大的34B模型能提供最佳的编码辅助,在复杂的编程任务中表现最好。但需要更多的计算资源,延迟也可能更高。中等规模的13B 参数模型在性能和延迟之间提供了一个平衡点。另外,7B和13B的模型经过了中间填充(fill-in-the-middle,FIM)功能的训练,能够理解如何在一段现有的代码中添加新代码,可以直接用于自动代码补全等任务,无需额外的设置或训练。

Code Llama支持一次性理解并记住最多10万token的上下文,强大的文本处理能力对于处理大型代码库或长篇文章都非常有用。比如,当开发者需要处理大量代码时,可以将整个代码片段一次性“喂”给Code Llama。

值得一提的是,为了满足更多特定需求,Meta还进一步针对Python和自然语言指令微调了两个Code Llama的变体,分别称作Code Llama-Python和Code Llama-Instruct。

Python是目前最受欢迎的编程语言之一,在多个领域有着广泛应用,特别是在数据科学、机器学习等领域。一个专门针对Python的模型能更准确地生成和理解Python代码,提高模型在处理相关任务时的性能。

另一个子版本Code Llama-Instruct更注重理解自然语言指令,非常适合那些不是很熟悉编程但又有这方面需求的用户。这个版本更容易理解用自然语言给出的指令,也就是更适合非专业用户,除了可以用于代码生成,也能胜任其他与代码相关的自然语言处理任务,如代码注释或文档生成。

通过提供更多垂直的子版本,Code Llama模型能够覆盖更广泛的用例和人群,满足不同场景下的特定需求,更容易获得竞争优势。

不过,Meta也有在博文中说明,由于Code Llama更专注于代码任务,因此并不适合作为聊天或写文章等日常语言任务的基础模型,它主要是为了帮助人们编程或处理代码问题而设计的。

性能和安全性双领先

而有关Code Llama的具体性能,在多个代码基准测试中,Code Llama达到了开源模型中最先进的性能。Code Llama所有模型在MultiPL-E上都优于其他公开可用的模型。34B参数版本在HumanEval上得分为53.7%,在MBPP上得分56.2%,这与ChatGPT(GPT 3.5)相当,优于其他所有开放解决方案。

图源:相关论文截图
图源:相关论文截图

在安全性上,Meta采取了许多措施,为做评估,研究者特意用一些指令请求恶意代码,测试Code Llama是否会生成不好的输出。并对比ChatGPT做了同样的测试。结果显示,Code Llama更不容易生成有问题或者有害的代码。

Meta还发表了一篇详细介绍Code Llama的论文(题为Code Llama: Open Foundation Models for Code),披露了Code Llama开发的细节以及如何进行基准测试等信息。

值得一提的是,在Meta发布的论文中出现一个名为“Unnatural Code Llama”的模型(见上图),各项评分都非常之高,但该模型只在论文中一闪而过,Meta并未提及,或许后续Code Llama会迎来进一步增强。

更多详细内容可以参看论文:

https://arxiv.org/abs/2308.12950

OpenAI不藏着了,开放微调功能,不用其他工具就能搞一个你自己的ChatGPT

作者 李欣帅
2023年8月23日 21:09

8月23日,OpenAI宣布推出基于GPT-3.5 Turbo的微调功能并更新API,让企业、开发人员能够使用自身数据定制ChatGPT。

微调(Fine-tuning)是一种利用已有通用语言模型(如GPT-3.5)来训练一个特定模型的方法。通用语言模型虽然具有很强的语言理解和生成能力,但是它们并不针对特定的领域或任务。通过在自己数据上对通用模型进行微调优化,训练一个专属模型,可以更好地适应特定的使用场景。在保留通用语言模型强大能力的同时,进一步提高模型的准确度等效果和效率。

这就相当于在一个已经建好的房子上进行装修,使其更符合自己的需求和喜好,而不是从头开始建造一个新房子。因此,可以节省大量时间和资源,也可以避免一些技术难题。

OpenAI此次推出的微调功能,使更多开发者能参与到GPT模型应用当中,并借此实现更多个性化和创新的应用场景,提高用户体验和粘性,这对开发者生态的建立也起到了积极的助推作用。同时也极大拓展了通用模型的应用范围和潜力,加快了各行各业部署AI技术的步伐。

对于此次公告中提到的GPT-3.5 Turbo微调的安全性、使用效果、价格、未来更新、部署步骤等方面,重点说明如下。

安全性:从微调API发送的数据归客户所有,OpenAI或任何其他组织不会使用数据来训练模型。同时,为了保障模型部署的安全,OpenAI通过审核API和GPT-4驱动的审核系统,检测与安全标准冲突的有害数据。(微调有利于为用户提供更具个性化的服务,但也降低了技术门槛,可能导致不负责任的使用)

微调效果:在实际测试过程中,GPT-3.5 Turbo的微调版本在某些任务上,与基本型号的GPT-4能力相当甚至要更好。微调客户能够提高常见用例的模型性能,并缩短提示时间。通过对模型本身的指令进行微调,还可加快API调用并降低成本,提示词数量减少了90%。

价格和Token:GPT-3.5 Turbo的微调成本分为初始训练成本和使用成本两部分。一个包含100K tokens训练文件的微调工作,预计成本为2.4美元。具体来说,训练:$0.008 / 1K tokens;使用输入:$0.012 / 1K tokens;使用输出:$0.016 / 1K tokens。可处理的上下文为4K tokens,是之前微调模型的两倍。

微调步骤:只需经过准备数据、上传文件、创建微调作业、使用微调模型四步。一旦模型完成微调过程,就可以立即在生产中使用。

未来更新:GPT-4 的微调将于今年秋天推出,而在秋季晚些时候会推出对GPT-3.5函数调用和16k上下文的微调支持。不久的将来还会推出微调UI,可更容易访问正在进行的微调作业等有关信息。

GPT-3迭代:OpenAI现在正在提供babbage-002和davinci-002型号作为GPT-3基础模型或微调模型。最初的GPT-3基础型号(ada、babbage、curie、davinci)将于2024年1月4日关闭。

总结来说,通过开放先进大模型的微调功能,OpenAI能吸引更多企业和开发者使用其平台和模型,从而扩大影响力和增加营收缓解亏损压力。这有助于AI产品得到更广泛应用,推动大模型加速落地。

同时,此次功能更新,也可看作是对Meta开源模型并允许商用等外部竞争的一个应对举措。通过允许微调模型,OpenAI可以进一步扩大和巩固用户基础,确保自身在行业的引领地位。这或许也会促使其他企业加快商业化步伐,行业竞争进一步加剧。

以下为OpenAI公告全文:

GPT-3.5 Turbo 的微调现已推出,GPT-4 的微调将于今年秋天推出。此更新使开发人员能够自定义更适合其用例的模型,并大规模运行这些自定义模型。早期的测试表明,GPT-3.5 Turbo的微调版本可以在某些垂直的任务上与基础的GPT-4功能相当,甚至要更好。与我们所有的API一样,从微调API发送的数据归客户所有,并且未被 OpenAI 使用或任何其他组织来训练其他模型。

微调用例

自 GPT-3.5 Turbo 发布以来,开发人员和企业要求能够自定义模型,以便为其用户创造独特且差异化的体验。通过此次发布,开发人员现在可以运行监督微调,以使该模型在其用例中表现更好。

在我们的私人测试版中,微调客户已经能够有效地提高常见用例的模型性能,举例来说:

改进的可操纵性:微调允许企业使模型更好地遵循指令,例如使输出简洁或始终以给定语言响应。例如,开发人员可以使用微调来确保模型始终按要求以德语响应。

可靠的输出格式:微调可提高模型一致格式化响应的能力,这对于需要特定响应格式(例如代码完成或撰写 API 调用)的应用程序来说至关重要。开发人员可以使用微调来更可靠地将用户提示转换为可与自己的系统一起使用的高质量 JSON 代码段。

自定义风格:微调是磨练模型输出定性感觉的好方法,具有可识别品牌风格的企业可以使用微调来使模型与其基调更加一致。

除了提高性能外,微调还使企业能够缩短提示时间,同时确保类似的性能。使用 GPT-3.5-Turbo 进行微调也可以处理 4K tokens——是我们之前微调模型的两倍。早期的测试人员通过将指令微调到模型本身,加快了每次 API 调用并降低成本,将提示大小减少了多达 90%。

当与其他技术如提示工程、信息检索和函数调用相结合时,微调的效果是最强大的。对这方面若想了解更多可查看我们的微调指南。另外,对函数调用和GPT-3.5-turbo-16k的微调支持将在今年秋季晚些时候进行。

微调步骤

我们还将在不久的将来推出微调 UI,这将使开发人员更容易访问正在进行的微调作业、已完成的模型快照等有关信息。

安全

对我们来说,安全地部署微调是非常重要的。为了在微调过程中保留默认模型的安全功能,微调训练数据将通过我们的审核API和GPT-4支持的审核系统,以检测与我们的安全标准冲突的不安全训练数据。

定价

微调成本分为两类:初始训练成本和使用成本。训练:$0.008 / 1K tokens;使用输入:$0.012 / 1K tokens;使用输出:$0.016 / 1K tokens。例如,用100,000个tokens进行微调工作,预计成本为2.40美元。

更新的 GPT-3 型号

今年7月,我们宣布原始 GPT-3 基本型号将于2024年1月4日关闭。今天,我们正在制造这些模型的替代品,无论是作为基本模型还是微调模型。这些模型可以使用我们新的 API 端点进行微调。基本和微调的 GPT-3 型号的定价如下:

新的端点提供了分页和更多的可扩展性,以支持微调 API 的未来发展,过渡到更新的端点也非常简单,更多详细信息可参见我们的微调指南。

❌
❌