生成式AI成本大剖析！比谷歌搜索贵50倍的瓶颈在哪里？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

GPT-4 等最新算法对当前最先进的处理硬件构成了挑战，GenAI 加速器跟不上。

事实上，当今市场上没有任何硬件可以运行完整的 GPT-4。

当前的大型语言模型 (LLM) 开发重点，是创建更小但更专业的、可以在现有硬件上运行的 LLM，这是一种偏离。

GenAI 行业需要计算方法和架构方面的半导体创新，这些创新能够提供数个petaFLOPS 的性能，效率高于 50%，将每次查询的延迟时间缩短到 2 秒以内，限制能源消耗，并将每次查询的成本降低到 0.2 美分。

一旦实现（这只是时间问题），transformers在边缘设备上的应用前景将得到充分发挥。

【编辑注：GPT，Generative Pre-trained Transformer，通常大家中文翻译为生成式预训练转换模型，本文中将Transformer保留英文】

然而，在Transformer驱动的软件算法方面取得进步的同时，执行这些算法的计算硬件却没有取得类似的进展。

例如，GPT-4 的 LLM 非常庞大，超过一万亿个参数。巨量的参数对存储和性能要求提出了挑战。内存存储已经达到数百GB。处理吞吐量需要多个 petaops（每秒 1,000,000,000,000 次运算），才能在可接受的时间内（通常少于几秒）提供查询响应。

虽然模型训练和推理对性能的要求相同，但它们在内存、延迟、功耗和成本这四个方面存在差异。见表 1。

属性	训练	推理
存储	FP32或FP64	FP8
高吞吐量	关键	关键
低延迟	重要	关键
受限的功耗	重要	关键
可承受的成本	重要	关键

表 1：算法训练和推理部分关键属性相同，但并非全部。（来源：Vsora）

今天的模型训练和推理场景是在广泛的计算农场(farm，或称计算集群)上进行的。这项工作需要运行很长时间，消耗大量电力，并以令人难以置信的成本产生大量热量。尽管如此，这些农场还是达到了人们的预期。

就任务规模而言，在 fp32 或 fp64 算法上训练GPT -4 模型，可能需要在最快版本的高带宽内存 (HBM) DRAM 上存储超过一万亿比特。训练如此庞大的模型所需的性能需要数十个 petaops 运行数周——这虽然令人烦恼，但并不是障碍。为了完成这项工作，计算农场消耗数兆瓦电量，总拥有成本高达数千亿美元。

不，这不是一个完美的方案，只是一个可行的解决方案。

Via-a-vis 模型训练-模型推理，通常在 fp8 算法上执行，该算法仍然会产生数千亿比特的大量数据，因此必须在不超过几秒钟的延迟内提供查询响应，才能保持用户的关注度和接受度。此外，考虑到推理的巨大潜在市场包括边缘移动应用，可行的解决方案必须提供超过 1 petaops 的高吞吐量，并且实施效率超过 50%。

此外，为满足移动性的要求，解决方案必须最大限度地降低能耗，每 petaops 的能耗可能低于 50 瓦，购置/部署成本约为几百美元。

对于在边缘设备上运行的可行推理方案来说，这些都是很高的要求。

问题的症结在于内存瓶颈，即内存墙，它增加了延迟，对实施效率产生有害影响，增并扩大了能耗和成本。

内存墙对生成式人工智能的影响

在内存和计算元件之间高速传输 TB 级数据，需要 TB 级/秒的数据传输带宽，这几乎是不现实的。如果处理器不能及时接收数据，就会处于闲置状态，影响其效率。

最近有报道称，在最先进的硬件上运行 GPT-4 的效率已降至 3% 或更低。一个标称性能为 1 petaops、实际效率为 3% 的 GenAI 加速器只能提供区区 30 teraops 的微弱性能。基本上，为运行这些算法而设计的昂贵处理器在 97% 的时间内都处于不活动状态。

为了弥补数据中心处理模型训练和推理的低效率，云提供商增加了更多硬件来执行相同的任务。这种方法不仅增加了成本，还成倍增加了能耗。显然，这种方法不适用于边缘推理。

GenAI 在数据中心处理 ChatGPT-4 的成本估算分析

麦肯锡估计，到 2022 年，谷歌搜索将处理 3.3 万亿次查询（约每秒 100,000 次查询），每次查询的成本为 0.2 美分，这被认为是基准成本。年度总成本达66亿美元。谷歌不收取搜索服务费用。相反，它通过广告收入来支付成本。暂时如此。

麦肯锡的同一份分析报告指出，ChatGPT-3 每次查询的成本徘徊在 3 美分左右，比基准高 15 倍。若一年里每秒 10 万次查询计算，总成本将超过 1000 亿美元。

让我们评估一下基准对基于一流 GenAI 加速器支持 ChatGPT-4 的数据中心拥有成本的影响，包括采购、运营和系统维护费用。

每次查询的成本包括两个方面：采购成本和能耗成本。

预计硬件购置成本

假设：

硬件更新：三年

前沿 GenAI 加速器（包含 8 个加速器芯片，以 3% 的效率处理 ChatGPT-4 时的总计算能力为 16 petaops@fp8）的采购成本：每个系统约 500,000 美元
处理 ChatGPT-4 的一个领先 GenAI 系统的理论吞吐量：~0.055 个查询/秒
满足每秒 100,000 次查询的处理能力所需的系统数量：~1,800,000 (100,000 / 0.055)
总购置成本：约 900,000,000,000 美元（1,800,000 * 500,000），接近 1 万亿美元。

每日折旧额约为 8.2 亿美元（900,000,000,000 / 1,095）。

执行硬件的估计能源成本

假设：

每个芯片的平均功耗：25 W，基于标称功率、效率、内存带宽
每个芯片的吞吐量：~0.007 查询/秒 (0.055/ 8)
每个查询的能耗：3,637 J（25 W / 每秒 0.007 个查询）
总能源成本：每千瓦时 0.11 美元
每个查询的能源成本：$1.2e-4
每秒 100,000 次查询的总功耗：~ 363.7 MW

能源成本约为 100 万美元/天（芯片功耗 * 24 小时 * 0.11）。

显然，成本主要来自硬件采购。上面估算的每日总成本约为 8.2 亿美元。

上述计算得出，对于每秒运行 100,000 次查询的系统，每次查询的 GPT-4 成本为 9.5 美分 (820,000,000 / (100,000 * 24 * 60 * 60)) ，即[(每日成本) / (查询数 * 小时数) * 秒数）]。见表2。

属性	谷歌查询	GPT-3	GPT-4
每次查询成本(单位：美分)	0.2	3	10

表 2：将 GPT3 和 GPT-4 与 Google 搜索的每次查询成本对比。（来源：Vsora）

本文翻译自《电子工程专辑》英文版，原文链接：Parsing the Mindboggling Cost of Ownership of Generative AI

责编：Echo

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

生成式AI成本大剖析！比谷歌搜索贵50倍的瓶颈在哪里？

内存墙对生成式人工智能的影响

GenAI 在数据中心处理 ChatGPT-4 的成本估算分析

预计硬件购置成本

假设：

执行硬件的估计能源成本

假设：

杂志声明