事实上,当今市场上没有任何硬件可以运行完整的 GPT-4。
当前的大型语言模型 (LLM) 开发重点,是创建更小但更专业的、可以在现有硬件上运行的 LLM,这是一种偏离。
GenAI 行业需要计算方法和架构方面的半导体创新,这些创新能够提供数个petaFLOPS 的性能,效率高于 50%,将每次查询的延迟时间缩短到 2 秒以内,限制能源消耗,并将每次查询的成本降低到 0.2 美分。
一旦实现(这只是时间问题),transformers在边缘设备上的应用前景将得到充分发挥。
【编辑注:GPT,Generative Pre-trained Transformer,通常大家中文翻译为生成式预训练转换模型,本文中将Transformer保留英文】
然而,在Transformer驱动的软件算法方面取得进步的同时,执行这些算法的计算硬件却没有取得类似的进展。
例如,GPT-4 的 LLM 非常庞大,超过一万亿个参数。巨量的参数对存储和性能要求提出了挑战。内存存储已经达到数百GB。处理吞吐量需要多个 petaops(每秒 1,000,000,000,000 次运算),才能在可接受的时间内(通常少于几秒)提供查询响应。
虽然模型训练和推理对性能的要求相同,但它们在内存、延迟、功耗和成本这四个方面存在差异。见表 1。
属性 | 训练 | 推理 |
存储 | FP32或FP64 | FP8 |
高吞吐量 | 关键 | 关键 |
低延迟 | 重要 | 关键 |
受限的功耗 | 重要 | 关键 |
可承受的成本 | 重要 | 关键 |
表 1:算法训练和推理部分关键属性相同,但并非全部。(来源:Vsora)
今天的模型训练和推理场景是在广泛的计算农场(farm,或称计算集群)上进行的。这项工作需要运行很长时间,消耗大量电力,并以令人难以置信的成本产生大量热量。尽管如此,这些农场还是达到了人们的预期。
就任务规模而言,在 fp32 或 fp64 算法上训练GPT -4 模型,可能需要在最快版本的高带宽内存 (HBM) DRAM 上存储超过一万亿比特。训练如此庞大的模型所需的性能需要数十个 petaops 运行数周——这虽然令人烦恼,但并不是障碍。为了完成这项工作,计算农场消耗数兆瓦电量,总拥有成本高达数千亿美元。
不,这不是一个完美的方案,只是一个可行的解决方案。
Via-a-vis 模型训练-模型推理,通常在 fp8 算法上执行,该算法仍然会产生数千亿比特的大量数据,因此必须在不超过几秒钟的延迟内提供查询响应,才能保持用户的关注度和接受度。此外,考虑到推理的巨大潜在市场包括边缘移动应用,可行的解决方案必须提供超过 1 petaops 的高吞吐量,并且实施效率超过 50%。
此外,为满足移动性的要求,解决方案必须最大限度地降低能耗,每 petaops 的能耗可能低于 50 瓦,购置/部署成本约为几百美元。
对于在边缘设备上运行的可行推理方案来说,这些都是很高的要求。
问题的症结在于内存瓶颈,即内存墙,它增加了延迟,对实施效率产生有害影响,增并扩大了能耗和成本。
内存墙对生成式人工智能的影响
在内存和计算元件之间高速传输 TB 级数据,需要 TB 级/秒的数据传输带宽,这几乎是不现实的。如果处理器不能及时接收数据,就会处于闲置状态,影响其效率。
最近有报道称,在最先进的硬件上运行 GPT-4 的效率已降至 3% 或更低。一个标称性能为 1 petaops、实际效率为 3% 的 GenAI 加速器只能提供区区 30 teraops 的微弱性能。基本上,为运行这些算法而设计的昂贵处理器在 97% 的时间内都处于不活动状态。
为了弥补数据中心处理模型训练和推理的低效率,云提供商增加了更多硬件来执行相同的任务。这种方法不仅增加了成本,还成倍增加了能耗。显然,这种方法不适用于边缘推理。
GenAI 在数据中心处理 ChatGPT-4 的成本估算分析
麦肯锡估计,到 2022 年,谷歌搜索将处理 3.3 万亿次查询(约每秒 100,000 次查询),每次查询的成本为 0.2 美分,这被认为是基准成本。年度总成本达66亿美元。谷歌不收取搜索服务费用。相反,它通过广告收入来支付成本。暂时如此。
麦肯锡的同一份分析报告指出,ChatGPT-3 每次查询的成本徘徊在 3 美分左右,比基准高 15 倍。若一年里每秒 10 万次查询计算,总成本将超过 1000 亿美元。
让我们评估一下基准对基于一流 GenAI 加速器支持 ChatGPT-4 的数据中心拥有成本的影响,包括采购、运营和系统维护费用。
每次查询的成本包括两个方面:采购成本和能耗成本。
预计硬件购置成本
假设:
硬件更新:三年
- 前沿 GenAI 加速器(包含 8 个加速器芯片,以 3% 的效率处理 ChatGPT-4 时的总计算能力为 16 petaops@fp8)的采购成本:每个系统约 500,000 美元
- 处理 ChatGPT-4 的一个领先 GenAI 系统的理论吞吐量:~0.055 个查询/秒
- 满足每秒 100,000 次查询的处理能力所需的系统数量:~1,800,000 (100,000 / 0.055)
- 总购置成本:约 900,000,000,000 美元(1,800,000 * 500,000),接近 1 万亿美元。
每日折旧额约为 8.2 亿美元(900,000,000,000 / 1,095)。
执行硬件的估计能源成本
假设:
- 每个芯片的平均功耗:25 W,基于标称功率、效率、内存带宽
- 每个芯片的吞吐量:~0.007 查询/秒 (0.055/ 8)
- 每个查询的能耗:3,637 J(25 W / 每秒 0.007 个查询)
- 总能源成本:每千瓦时 0.11 美元
- 每个查询的能源成本:$1.2e-4
- 每秒 100,000 次查询的总功耗:~ 363.7 MW
能源成本约为 100 万美元/天(芯片功耗 * 24 小时 * 0.11)。
显然,成本主要来自硬件采购。上面估算的每日总成本约为 8.2 亿美元。
上述计算得出,对于每秒运行 100,000 次查询的系统,每次查询的 GPT-4 成本为 9.5 美分 (820,000,000 / (100,000 * 24 * 60 * 60)) ,即[(每日成本) / (查询数 * 小时数) * 秒数)]。见表2。
属性 | 谷歌查询 | GPT-3 | GPT-4 |
每次查询成本(单位:美分) | 0.2 | 3 | 10 |
表 2:将 GPT3 和 GPT-4 与 Google 搜索的每次查询成本对比。(来源:Vsora)
本文翻译自《电子工程专辑》英文版,原文链接:Parsing the Mindboggling Cost of Ownership of Generative AI