GPT-4 等最新算法对当前最先进的处理硬件构成了挑战,GenAI 加速器跟不上。

事实上,当今市场上没有任何硬件可以运行完整的 GPT-4

当前的大型语言模型 (LLM) 开发重点,是创建更小但更专业的、可以在现有硬件上运行的 LLM,这是一种偏离。

GenAI 行业需要计算方法和架构方面的半导体创新,这些创新能够提供数个petaFLOPS 的性能,效率高于 50%,将每次查询的延迟时间缩短到 2 秒以内,限制能源消耗,并将每次查询的成本降低到 0.2 美分。

一旦实现(这只是时间问题),transformers在边缘设备上的应用前景将得到充分发挥。

【编辑注:GPT,Generative Pre-trained Transformer,通常大家中文翻译为生成式预训练转换模型,本文中将Transformer保留英文】

然而,在Transformer驱动的软件算法方面取得进步的同时,执行这些算法的计算硬件却没有取得类似的进展。

例如,GPT-4 的 LLM 非常庞大,超过一万亿个参数。巨量的参数对存储和性能要求提出了挑战。内存存储已经达到数百GB。处理吞吐量需要多个 petaops(每秒 1,000,000,000,000 次运算),才能在可接受的时间内(通常少于几秒)提供查询响应。

虽然模型训练和推理对性能的要求相同,但它们在内存、延迟、功耗和成本这四个方面存在差异。见表 1。

属性 训练 推理
存储 FP32或FP64 FP8
高吞吐量 关键 关键
低延迟 重要 关键
受限的功耗 重要 关键
可承受的成本 重要 关键

表 1:算法训练和推理部分关键属性相同,但并非全部。(来源:Vsora)

今天的模型训练和推理场景是在广泛的计算农场(farm,或称计算集群)上进行的。这项工作需要运行很长时间,消耗大量电力,并以令人难以置信的成本产生大量热量。尽管如此,这些农场还是达到了人们的预期。

就任务规模而言,在 fp32 或 fp64 算法上训练GPT -4 模型,可能需要在最快版本的高带宽内存 (HBM) DRAM 上存储超过一万亿比特。训练如此庞大的模型所需的性能需要数十个 petaops 运行数周——这虽然令人烦恼,但并不是障碍。为了完成这项工作,计算农场消耗数兆瓦电量,总拥有成本高达数千亿美元。

不,这不是一个完美的方案,只是一个可行的解决方案。

Via-a-vis 模型训练-模型推理,通常在 fp8 算法上执行,该算法仍然会产生数千亿比特的大量数据,因此必须在不超过几秒钟的延迟内提供查询响应,才能保持用户的关注度和接受度。此外,考虑到推理的巨大潜在市场包括边缘移动应用,可行的解决方案必须提供超过 1 petaops 的高吞吐量,并且实施效率超过 50%。

此外,为满足移动性的要求,解决方案必须最大限度地降低能耗,每 petaops 的能耗可能低于 50 瓦,购置/部署成本约为几百美元。

对于在边缘设备上运行的可行推理方案来说,这些都是很高的要求。

问题的症结在于内存瓶颈,即内存墙,它增加了延迟,对实施效率产生有害影响,增并扩大了能耗和成本。

内存墙对生成式人工智能的影响

在内存和计算元件之间高速传输 TB 级数据,需要 TB 级/秒的数据传输带宽,这几乎是不现实的。如果处理器不能及时接收数据,就会处于闲置状态,影响其效率。

最近有报道称,在最先进的硬件上运行 GPT-4 的效率已降至 3% 或更低。一个标称性能为 1 petaops、实际效率为 3% 的 GenAI 加速器只能提供区区 30 teraops 的微弱性能。基本上,为运行这些算法而设计的昂贵处理器在 97% 的时间内都处于不活动状态。

为了弥补数据中心处理模型训练和推理的低效率,云提供商增加了更多硬件来执行相同的任务。这种方法不仅增加了成本,还成倍增加了能耗。显然,这种方法不适用于边缘推理。

GenAI 在数据中心处理 ChatGPT-4 的成本估算分析

麦肯锡估计,到 2022 年,谷歌搜索将处理 3.3 万亿次查询(约每秒 100,000 次查询),每次查询的成本为 0.2 美分,这被认为是基准成本。年度总成本达66亿美元。谷歌不收取搜索服务费用。相反,它通过广告收入来支付成本。暂时如此。

麦肯锡的同一份分析报告指出,ChatGPT-3 每次查询的成本徘徊在 3 美分左右,比基准高 15 倍。若一年里每秒 10 万次查询计算,总成本将超过 1000 亿美元。

让我们评估一下基准对基于一流 GenAI 加速器支持 ChatGPT-4 的数据中心拥有成本的影响,包括采购、运营和系统维护费用。

每次查询的成本包括两个方面:采购成本和能耗成本。

预计硬件购置成本

假设:

硬件更新:三年

  • 前沿 GenAI 加速器(包含 8 个加速器芯片,以 3% 的效率处理 ChatGPT-4 时的总计算能力为 16 petaops@fp8)的采购成本:每个系统约 500,000 美元
  • 处理 ChatGPT-4 的一个领先 GenAI 系统的理论吞吐量:~0.055 个查询/秒
  • 满足每秒 100,000 次查询的处理能力所需的系统数量:~1,800,000 (100,000 / 0.055)
  • 总购置成本:约 900,000,000,000 美元(1,800,000 * 500,000),接近 1 万亿美元。

每日折旧额约为 8.2 亿美元(900,000,000,000 / 1,095)

执行硬件的估计能源成本

假设:

  • 每个芯片的平均功耗:25 W,基于标称功率、效率、内存带宽
  • 每个芯片的吞吐量:~0.007 查询/秒 (0.055/ 8)
  • 每个查询的能耗:3,637 J(25 W / 每秒 0.007 个查询)
  • 总能源成本:每千瓦时 0.11 美元
  • 每个查询的能源成本:$1.2e-4
  • 每秒 100,000 次查询的总功耗:~ 363.7 MW

能源成本约为 100 万美元/天(芯片功耗 * 24 小时 * 0.11)

显然,成本主要来自硬件采购。上面估算的每日总成本约为 8.2 亿美元。

上述计算得出,对于每秒运行 100,000 次查询的系统,每次查询的 GPT-4 成本为 9.5 美分 (820,000,000 / (100,000 * 24 * 60 * 60)) ,即[(每日成本) / (查询数 * 小时数) * 秒数)]。见表2。 

属性 谷歌查询 GPT-3 GPT-4
每次查询成本(单位:美分) 0.2 3 10

表 2:将 GPT3 和 GPT-4 与 Google 搜索的每次查询成本对比。(来源:Vsora)

本文翻译自《电子工程专辑》英文版,原文链接:Parsing the Mindboggling Cost of Ownership of Generative AI 

责编:Echo
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅又一地
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----图1 采用自上而下方法实
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
市值一夜蒸发2900亿”作者|王磊编辑|秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大,但特斯拉的股价却跌得越来越惨。就在昨天,特斯拉股价又下跌了4.43%,一天之内蒸发406亿美元,约合人民币295
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
前不久,“行家说三代半”报道了长安汽车采用氮化镓OBC车载电源(点击查看)。近期,比亚迪、广汽埃安两家车企又相继公布了氮化镓应用进展:比亚迪&大疆:车载无人机采用氮化镓技术3月2日,比亚迪、大疆共同发
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm