GPT-4 等最新算法对当前最先进的处理硬件构成了挑战,GenAI 加速器跟不上。

事实上,当今市场上没有任何硬件可以运行完整的 GPT-4

当前的大型语言模型 (LLM) 开发重点,是创建更小但更专业的、可以在现有硬件上运行的 LLM,这是一种偏离。

GenAI 行业需要计算方法和架构方面的半导体创新,这些创新能够提供数个petaFLOPS 的性能,效率高于 50%,将每次查询的延迟时间缩短到 2 秒以内,限制能源消耗,并将每次查询的成本降低到 0.2 美分。

一旦实现(这只是时间问题),transformers在边缘设备上的应用前景将得到充分发挥。

【编辑注:GPT,Generative Pre-trained Transformer,通常大家中文翻译为生成式预训练转换模型,本文中将Transformer保留英文】

然而,在Transformer驱动的软件算法方面取得进步的同时,执行这些算法的计算硬件却没有取得类似的进展。

例如,GPT-4 的 LLM 非常庞大,超过一万亿个参数。巨量的参数对存储和性能要求提出了挑战。内存存储已经达到数百GB。处理吞吐量需要多个 petaops(每秒 1,000,000,000,000 次运算),才能在可接受的时间内(通常少于几秒)提供查询响应。

虽然模型训练和推理对性能的要求相同,但它们在内存、延迟、功耗和成本这四个方面存在差异。见表 1。

属性 训练 推理
存储 FP32或FP64 FP8
高吞吐量 关键 关键
低延迟 重要 关键
受限的功耗 重要 关键
可承受的成本 重要 关键

表 1:算法训练和推理部分关键属性相同,但并非全部。(来源:Vsora)

今天的模型训练和推理场景是在广泛的计算农场(farm,或称计算集群)上进行的。这项工作需要运行很长时间,消耗大量电力,并以令人难以置信的成本产生大量热量。尽管如此,这些农场还是达到了人们的预期。

就任务规模而言,在 fp32 或 fp64 算法上训练GPT -4 模型,可能需要在最快版本的高带宽内存 (HBM) DRAM 上存储超过一万亿比特。训练如此庞大的模型所需的性能需要数十个 petaops 运行数周——这虽然令人烦恼,但并不是障碍。为了完成这项工作,计算农场消耗数兆瓦电量,总拥有成本高达数千亿美元。

不,这不是一个完美的方案,只是一个可行的解决方案。

Via-a-vis 模型训练-模型推理,通常在 fp8 算法上执行,该算法仍然会产生数千亿比特的大量数据,因此必须在不超过几秒钟的延迟内提供查询响应,才能保持用户的关注度和接受度。此外,考虑到推理的巨大潜在市场包括边缘移动应用,可行的解决方案必须提供超过 1 petaops 的高吞吐量,并且实施效率超过 50%。

此外,为满足移动性的要求,解决方案必须最大限度地降低能耗,每 petaops 的能耗可能低于 50 瓦,购置/部署成本约为几百美元。

对于在边缘设备上运行的可行推理方案来说,这些都是很高的要求。

问题的症结在于内存瓶颈,即内存墙,它增加了延迟,对实施效率产生有害影响,增并扩大了能耗和成本。

内存墙对生成式人工智能的影响

在内存和计算元件之间高速传输 TB 级数据,需要 TB 级/秒的数据传输带宽,这几乎是不现实的。如果处理器不能及时接收数据,就会处于闲置状态,影响其效率。

最近有报道称,在最先进的硬件上运行 GPT-4 的效率已降至 3% 或更低。一个标称性能为 1 petaops、实际效率为 3% 的 GenAI 加速器只能提供区区 30 teraops 的微弱性能。基本上,为运行这些算法而设计的昂贵处理器在 97% 的时间内都处于不活动状态。

为了弥补数据中心处理模型训练和推理的低效率,云提供商增加了更多硬件来执行相同的任务。这种方法不仅增加了成本,还成倍增加了能耗。显然,这种方法不适用于边缘推理。

GenAI 在数据中心处理 ChatGPT-4 的成本估算分析

麦肯锡估计,到 2022 年,谷歌搜索将处理 3.3 万亿次查询(约每秒 100,000 次查询),每次查询的成本为 0.2 美分,这被认为是基准成本。年度总成本达66亿美元。谷歌不收取搜索服务费用。相反,它通过广告收入来支付成本。暂时如此。

麦肯锡的同一份分析报告指出,ChatGPT-3 每次查询的成本徘徊在 3 美分左右,比基准高 15 倍。若一年里每秒 10 万次查询计算,总成本将超过 1000 亿美元。

让我们评估一下基准对基于一流 GenAI 加速器支持 ChatGPT-4 的数据中心拥有成本的影响,包括采购、运营和系统维护费用。

每次查询的成本包括两个方面:采购成本和能耗成本。

预计硬件购置成本

假设:

硬件更新:三年

  • 前沿 GenAI 加速器(包含 8 个加速器芯片,以 3% 的效率处理 ChatGPT-4 时的总计算能力为 16 petaops@fp8)的采购成本:每个系统约 500,000 美元
  • 处理 ChatGPT-4 的一个领先 GenAI 系统的理论吞吐量:~0.055 个查询/秒
  • 满足每秒 100,000 次查询的处理能力所需的系统数量:~1,800,000 (100,000 / 0.055)
  • 总购置成本:约 900,000,000,000 美元(1,800,000 * 500,000),接近 1 万亿美元。

每日折旧额约为 8.2 亿美元(900,000,000,000 / 1,095)

执行硬件的估计能源成本

假设:

  • 每个芯片的平均功耗:25 W,基于标称功率、效率、内存带宽
  • 每个芯片的吞吐量:~0.007 查询/秒 (0.055/ 8)
  • 每个查询的能耗:3,637 J(25 W / 每秒 0.007 个查询)
  • 总能源成本:每千瓦时 0.11 美元
  • 每个查询的能源成本:$1.2e-4
  • 每秒 100,000 次查询的总功耗:~ 363.7 MW

能源成本约为 100 万美元/天(芯片功耗 * 24 小时 * 0.11)

显然,成本主要来自硬件采购。上面估算的每日总成本约为 8.2 亿美元。

上述计算得出,对于每秒运行 100,000 次查询的系统,每次查询的 GPT-4 成本为 9.5 美分 (820,000,000 / (100,000 * 24 * 60 * 60)) ,即[(每日成本) / (查询数 * 小时数) * 秒数)]。见表2。 

属性 谷歌查询 GPT-3 GPT-4
每次查询成本(单位:美分) 0.2 3 10

表 2:将 GPT3 和 GPT-4 与 Google 搜索的每次查询成本对比。(来源:Vsora)

本文翻译自《电子工程专辑》英文版,原文链接:Parsing the Mindboggling Cost of Ownership of Generative AI 

责编:Echo
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件,对员工福利政策进行微调。包括:2026年将停止发放春节红包(今年发放);2025年度不再发放端午、中秋节礼品;
电影《金陵十三钗》剧照上周,一向低调的轻舟智航举办了一场媒体交流会,联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场,讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024,成绩斐然
据央视新闻报道,北京汽车集团有限公司党委书记、董事长张建勇 1 月 23 日介绍,2024 年中国新能源汽车产销量超过了 1000 万辆,连续 10 年保持了全球第一的位置。在自动驾驶方面,北汽集团今
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
上周SemiAccurate 曾报道称,一家神秘公司正在探索全面收购英特尔的可能性。表示有 90% 的把握认为有关英特尔被收购的消息是“真实的”,已从另一位“地位很高的消息人士”处获得了证实。虽然没有
有猜测称,三星显示器将很快开始采用红、绿、蓝 (RGB) OLEDoS(硅基 OLED)方法商业化下一代显示器。据专利信息搜索服务Kipris 1月24日报道,三星显示器近期申请了一个名为Arcpix
高端自动驾驶与物流需求带动激光雷达市场,预估2029年产值达53.52亿美元根据TrendForce集邦咨询最新《2025红外线感测应用市场与品牌策略》报告,目前激光雷达(LiDAR)在车用市场主要用
寒假到来,你是否已经计划好带着孩子来一场说走就走的旅行?无论是山川湖海,还是古城小镇,每一次旅行都充满了未知和惊喜。在这场旅行中,相机或手机将成为你记录美好瞬间的得力助手。当旅行结束,面对着一堆照片,
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠
昨天的时钟音箱的拆解文章:拆解时钟蓝牙插卡音箱-用单个LED直接代替数码管是个非常不错的降本设计思路我给电路板提了个建议,就是说上面2个2P排座,一个插电池,一个插喇叭的排座没必要区分红白色,就一种颜