GPT-4 等最新算法对当前最先进的处理硬件构成了挑战,GenAI 加速器跟不上。

事实上,当今市场上没有任何硬件可以运行完整的 GPT-4

当前的大型语言模型 (LLM) 开发重点,是创建更小但更专业的、可以在现有硬件上运行的 LLM,这是一种偏离。

GenAI 行业需要计算方法和架构方面的半导体创新,这些创新能够提供数个petaFLOPS 的性能,效率高于 50%,将每次查询的延迟时间缩短到 2 秒以内,限制能源消耗,并将每次查询的成本降低到 0.2 美分。

一旦实现(这只是时间问题),transformers在边缘设备上的应用前景将得到充分发挥。

【编辑注:GPT,Generative Pre-trained Transformer,通常大家中文翻译为生成式预训练转换模型,本文中将Transformer保留英文】

然而,在Transformer驱动的软件算法方面取得进步的同时,执行这些算法的计算硬件却没有取得类似的进展。

例如,GPT-4 的 LLM 非常庞大,超过一万亿个参数。巨量的参数对存储和性能要求提出了挑战。内存存储已经达到数百GB。处理吞吐量需要多个 petaops(每秒 1,000,000,000,000 次运算),才能在可接受的时间内(通常少于几秒)提供查询响应。

虽然模型训练和推理对性能的要求相同,但它们在内存、延迟、功耗和成本这四个方面存在差异。见表 1。

属性 训练 推理
存储 FP32或FP64 FP8
高吞吐量 关键 关键
低延迟 重要 关键
受限的功耗 重要 关键
可承受的成本 重要 关键

表 1:算法训练和推理部分关键属性相同,但并非全部。(来源:Vsora)

今天的模型训练和推理场景是在广泛的计算农场(farm,或称计算集群)上进行的。这项工作需要运行很长时间,消耗大量电力,并以令人难以置信的成本产生大量热量。尽管如此,这些农场还是达到了人们的预期。

就任务规模而言,在 fp32 或 fp64 算法上训练GPT -4 模型,可能需要在最快版本的高带宽内存 (HBM) DRAM 上存储超过一万亿比特。训练如此庞大的模型所需的性能需要数十个 petaops 运行数周——这虽然令人烦恼,但并不是障碍。为了完成这项工作,计算农场消耗数兆瓦电量,总拥有成本高达数千亿美元。

不,这不是一个完美的方案,只是一个可行的解决方案。

Via-a-vis 模型训练-模型推理,通常在 fp8 算法上执行,该算法仍然会产生数千亿比特的大量数据,因此必须在不超过几秒钟的延迟内提供查询响应,才能保持用户的关注度和接受度。此外,考虑到推理的巨大潜在市场包括边缘移动应用,可行的解决方案必须提供超过 1 petaops 的高吞吐量,并且实施效率超过 50%。

此外,为满足移动性的要求,解决方案必须最大限度地降低能耗,每 petaops 的能耗可能低于 50 瓦,购置/部署成本约为几百美元。

对于在边缘设备上运行的可行推理方案来说,这些都是很高的要求。

问题的症结在于内存瓶颈,即内存墙,它增加了延迟,对实施效率产生有害影响,增并扩大了能耗和成本。

内存墙对生成式人工智能的影响

在内存和计算元件之间高速传输 TB 级数据,需要 TB 级/秒的数据传输带宽,这几乎是不现实的。如果处理器不能及时接收数据,就会处于闲置状态,影响其效率。

最近有报道称,在最先进的硬件上运行 GPT-4 的效率已降至 3% 或更低。一个标称性能为 1 petaops、实际效率为 3% 的 GenAI 加速器只能提供区区 30 teraops 的微弱性能。基本上,为运行这些算法而设计的昂贵处理器在 97% 的时间内都处于不活动状态。

为了弥补数据中心处理模型训练和推理的低效率,云提供商增加了更多硬件来执行相同的任务。这种方法不仅增加了成本,还成倍增加了能耗。显然,这种方法不适用于边缘推理。

GenAI 在数据中心处理 ChatGPT-4 的成本估算分析

麦肯锡估计,到 2022 年,谷歌搜索将处理 3.3 万亿次查询(约每秒 100,000 次查询),每次查询的成本为 0.2 美分,这被认为是基准成本。年度总成本达66亿美元。谷歌不收取搜索服务费用。相反,它通过广告收入来支付成本。暂时如此。

麦肯锡的同一份分析报告指出,ChatGPT-3 每次查询的成本徘徊在 3 美分左右,比基准高 15 倍。若一年里每秒 10 万次查询计算,总成本将超过 1000 亿美元。

让我们评估一下基准对基于一流 GenAI 加速器支持 ChatGPT-4 的数据中心拥有成本的影响,包括采购、运营和系统维护费用。

每次查询的成本包括两个方面:采购成本和能耗成本。

预计硬件购置成本

假设:

硬件更新:三年

  • 前沿 GenAI 加速器(包含 8 个加速器芯片,以 3% 的效率处理 ChatGPT-4 时的总计算能力为 16 petaops@fp8)的采购成本:每个系统约 500,000 美元
  • 处理 ChatGPT-4 的一个领先 GenAI 系统的理论吞吐量:~0.055 个查询/秒
  • 满足每秒 100,000 次查询的处理能力所需的系统数量:~1,800,000 (100,000 / 0.055)
  • 总购置成本:约 900,000,000,000 美元(1,800,000 * 500,000),接近 1 万亿美元。

每日折旧额约为 8.2 亿美元(900,000,000,000 / 1,095)

执行硬件的估计能源成本

假设:

  • 每个芯片的平均功耗:25 W,基于标称功率、效率、内存带宽
  • 每个芯片的吞吐量:~0.007 查询/秒 (0.055/ 8)
  • 每个查询的能耗:3,637 J(25 W / 每秒 0.007 个查询)
  • 总能源成本:每千瓦时 0.11 美元
  • 每个查询的能源成本:$1.2e-4
  • 每秒 100,000 次查询的总功耗:~ 363.7 MW

能源成本约为 100 万美元/天(芯片功耗 * 24 小时 * 0.11)

显然,成本主要来自硬件采购。上面估算的每日总成本约为 8.2 亿美元。

上述计算得出,对于每秒运行 100,000 次查询的系统,每次查询的 GPT-4 成本为 9.5 美分 (820,000,000 / (100,000 * 24 * 60 * 60)) ,即[(每日成本) / (查询数 * 小时数) * 秒数)]。见表2。 

属性 谷歌查询 GPT-3 GPT-4
每次查询成本(单位:美分) 0.2 3 10

表 2:将 GPT3 和 GPT-4 与 Google 搜索的每次查询成本对比。(来源:Vsora)

本文翻译自《电子工程专辑》英文版,原文链接:Parsing the Mindboggling Cost of Ownership of Generative AI 

责编:Echo
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
10月31日消息,据报道,一名在华韩国人A某因涉嫌违反《中华人民共和国反间谍法》被逮捕!我外交部29日证实,确有一名涉嫌从事间谍活动的韩国公民被依法逮捕,并表示已通知韩国驻华大使馆,但并未透露涉事人员
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据报道,一名在华韩国人A某因涉嫌违反《中华人民共和国反间谍法》被逮捕!我外交部29
近日,网友爆料曾经厦门最大的宝马经销商厦门中宝已停产停工!公司通告称,由于2024年9月宝马取消了对我司的经销授权,公司面临着极其严峻的经营困境,公司的业务受到了多方面重大挑战,资金流紧张,市场环境变
10月30日,备受瞩目的iQOO最新旗舰机——被誉为“性能之光”的iQOO 13在深圳震撼发布。该款机型由BOE(京东方)独供6.82英寸超旗舰2K LTPO直屏,行业首发搭载全新一代Q10发光器件,
10月30日,上汽集团发布第三季度财报。财报显示,第三季度上汽集团营业收入1425.60亿元,同比下滑25.58%;净利润仅2.80亿元,同比下降93.53%。归属于上市公司股东的扣除非经常性损益的净
论坛信息名称:2024先进封装技术与材料论坛时间:2024年12月26日地点:江苏苏州联合主办:亚化咨询日程安排12月25日16:00~20:00   会议注册12月26日09:00~12:00   
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,荣耀引入了中国电信、中金资本旗下基金、基石旗下基金、特发基金,以及新一轮代理商投资
10月29日,诺基亚与惠普宣布签署了一项多年专利授权协议,允许惠普公司在其设备中使用诺基亚的视频技术。诺基亚一年前曾表示,已在美国对惠普提起法律诉讼,指控惠普未经授权使用诺基亚专利的视频相关技术,但本
市场传出消息称,荣耀公司近期引入了包括中国电信、中金资本旗下基金、基石旗下基金、特发基金及新一轮代理商投资平台(金石星耀)等在内的多个投资者。           对于本轮融资,荣耀表示始终坚持公开透
本文来源:智能通信定位圈01蜂窝物联网行业寡头效应正加剧表:历年蜂窝物联网模组Top5企业在全球范围内的市场份额(按出货量)数据来源:Counterpoint Research在总的出货量上,2022