数据中心中的AI推理:打破效率与成本的权衡

原创 EETOP 2025-02-13 12:19

训练和推理包括数据中心 AI 处理的两个关键方面。了解两者之间的区别,以及所涉及的成本效益问题。

在数据中心执行人工智能 (AI) 工作负载(图 1)涉及两个关键过程:训练和推理。乍一看,这些过程似乎很相似 — 都涉及读取数据、处理数据和生成输出。仔细检查会发现它们之间存在显着差异。 

图 1.在 AI 工作负载需求的推动下,数据中心的计算需求持续飙升。

数据中心中的训练与推理:主要差异

以具有数千亿甚至数万亿个参数的大型语言模型 (LLM) 为例,AI 模型的复杂性呈爆炸式增长,这推动了对训练和推理的前所未有的计算需求。然而,它们的运营要求和优先事项却大相径庭。

计算性能

训练是一个计算量非常大的过程,需要 ExaFLOPS 的能力来分析和提取大量(通常是非结构化数据集)中的模式。此过程可能持续数周甚至数月,因为模型会进行迭代优化以实现高精度。

推理虽然对计算要求也很高,但通常在较小的规模上运行,通常以 PetaFLOPS 为单位。它的关注点更窄,将经过训练的模型应用于特定任务,例如响应用户查询,使其更具针对性和简化性。

响应时间

对于训练,准确性优先于速度。该过程涉及长时间运行,模型持续运行以微调输出并减少幻觉的可能性。

另一方面,推理优先考虑速度。它必须几乎即时提供结果以满足用户期望,响应时间通常以毫秒到几秒钟为单位。

延迟

延迟是训练期间的次要问题,因为重点是获得精确可靠的结果,而不是立竿见影的结果。

相反,推理依赖于低延迟来保持流畅的用户体验。高延迟响应可能会中断交互,使延迟成为性能的关键指标。

精度

训练需要高精度,通常使用 fp32 或 fp64 等格式,以确保模型可靠并最大限度地减少错误。这种高精度水平需要强大的处理能力和连续运行。

Inference 通过为许多应用程序采用 fp8 等较低精度的格式来平衡准确性与效率。

这些格式显著降低了计算需求,而不会影响有效结果所需的质量。

表 1 说明了五个关键属性的这些区别,强调了训练和推理如何优化性能、精度和效率,以满足 AI 工作负载的独特要求。

算法训练和推理共享一些关键计算属性,但不是全部。

表 1.算法训练和推理共享一些关键计算属性,但不是全部。

基础设施挑战:电力和成本

数据中心的巨大计算需求需要将一排排专用硬件安装在坚固的重型机柜中,这些机柜旨在容纳大型高性能系统。这些装置会大规模消耗能源,通常以吉瓦为单位,这会产生大量热量,并且需要大量的冷却系统以及定期的专门维护,以确保最佳运行。

为 AI 处理量身定制的数据中心成本非常高。这些费用源于多种因素:购买尖端硬件、对设施建设的大量投资、由技术人员进行的定期维护以及全年 24/7 运行所需的无情能源消耗。

在训练中,重点仍然是生成准确的模型,通常忽略了成本考虑。普遍的心态是“不惜一切代价完成工作”。

相比之下,推理对成本高度敏感。每次查询的成本成为一个重要的指标,特别是对于每天管理数百万甚至数十亿个查询的应用程序。麦肯锡 2022 年的一项分析说明了高吞吐量 AI 系统的制约因素。例如,Google 搜索每秒处理大约 100000 个查询,为了保持经济可行性,每个查询的目标成本约为 0.002 USD。相比之下,ChatGPT-3 的每次查询成本,虽然由于通用和专业用例的差异而无法直接比较,但估计每次查询约为 0.03 美元,凸显了达到 Google 级别查询经济性所需的效率差距。

电源效率是一个关键的平衡行为。虽然推理通常比训练消耗更少的功率,但提高推理的能源效率可以显著降低成本并减少对环境的影响。此领域的增强功能使数据中心能够在现有能源限制内提供更强大的计算能力,或者通过减少冷却和基础设施要求来降低每个计算单元的成本。

这种形势凸显了对创新解决方案的迫切需求,这些解决方案必须超越传统的计算效率和成本之间的权衡。通过应对这些挑战,数据中心的下一代 AI 进步可以在性能、可扩展性和可持续性方面实现突破。

用于训练和推理的 AI 加速器的现状

当前的数据中心 AI 加速器主要由图形处理单元 (GPU) 提供支持,用于训练和推理。虽然单个 GPU 设备可以提供 PetaFLOPS 规模的性能,但其设计架构(最初针对图形加速进行了优化)难以满足推理所需的延迟、功耗和成本效率的严格要求。

GPU 在训练和推理中的可互换使用是问题的核心。尽管 GPU 具有计算能力,但无法达到经济可扩展的 AI 解决方案所需的每次查询成本基准。

植根于物理和技术的限制

GPU 可以提高数据处理性能,但不会提高数据移动吞吐量。差距源于基本的物理和技术限制:

  1. 导体中的能量耗散:当电力流过导体时,能量耗散是不可避免的。较长的导体会导致更大的能量损失,从而加剧效率低下。

  2. Memory versus Logic Power Dissipation:该规则的推论假设 memory作耗散的能量可以达到用于处理数据的 logic 消耗的能量的 1,000 倍。这种差异被简洁地描述为内存墙,它突出了内存和数据访问策略创新以优化电源效率的必要性。

征服内存墙的尝试

内存墙是指处理器性能和内存带宽之间越来越大的差距,这一差距在过去 30 年中显著扩大。这种不平衡会降低处理器效率,增加功耗并限制可扩展性。

一种常用的解决方案,随着时间的推移而改进,包括通过引入多级分层缓存来缓冲处理器附近的内存通道。通过缓存经常访问的数据,数据路径显著缩短,从而提高性能。

沿着内存层次结构向下移动,存储结构从单个位可寻址寄存器过渡到紧密耦合的内存 (TCM)、暂存器内存和高速缓存。虽然这种进展会增加存储容量,但也会降低执行速度,因为需要更多的周期来将数据移入和移出内存。

内存层次结构越深,对延迟的影响就越大,最终会降低处理器效率。

人工智能的内在潜力,特别是生成式人工智能,尤其是代理人工智能,受到记忆带宽有限度的严重阻碍。虽然 GPU 是数据中心 AI 训练的首选,但它们的效率因算法而异。例如,据报道,GPT-4 MoE(专家混合)的效率下降到仅 3-5%,但在 Llama3-7B 上可以达到 30% 左右。

弥合差距:前进之路

在理想情况下,用 registers 替换 TCM、scratchpad memory 和 cache 将彻底改变性能。这种方法会将 hierarchical memory structure 转换为单个大型高带宽 memory,可在一个 clock cycle中直接访问。

这样的架构将提供高执行速度、低延迟和低功耗,同时最大限度地减少硅面积。至关重要的是,在处理过程中将新数据从外部存储器加载到 registers 不会中断系统吞吐量。

这种先进的设计有可能显著提高处理器效率,特别是对于处理资源密集型任务。当前的 GPU 可能难以跟上,在处理超过 1 万亿个参数的 LLM 时可能会耗尽容量。然而,这种创新的内存架构确保了对类似高需求工作负载的无缝处理,提供卓越的性能,而不会出现阻碍传统 GPU 设置的瓶颈。这一突破可能会重新定义复杂计算的处理方式,为 AI 及其他领域带来新的可能性。

平衡计算能力和经济可行性

为了确保可扩展的 AI 解决方案,必须在原始计算能力和成本考虑之间取得平衡。到 2028 年,LLM 推理将主导数据中心工作负载的预测强调了这一挑战。穆迪和贝莱德的分析师预测,生成式 AI 和自然语言处理的快速增长将推动数据中心基础设施的大幅升级。

这种增长需要制定策略来减少对昂贵加速器的依赖,同时提高性能。专用集成电路 (ASIC) 和张量处理单元 (TPU) 等新兴技术提供了一条充满希望的前进道路。这些专用架构旨在优化推理工作负载,优先考虑延迟、功耗和成本方面的效率。

重新思考 AI 的硬件和软件

满足 AI 推理的独特需求需要硬件和系统设计的范式转变。通过集成创新架构和重新构想支持软件生态系统,数据中心可以克服计算效率和经济可行性之间的传统权衡。

随着推理工作负载越来越多地塑造 AI 的未来,克服延迟和功耗方面的挑战至关重要。通过专注于经济高效和高性能的解决方案,该行业可以确保 AI 技术的可持续部署。这将为未来铺平道路,让 AI 驱动的洞察在全球范围内都能获得且负担得起,从而实现变革性的实际应用。


向大家推荐几个半导体圈必读的公众号

半导体创芯网

半导体行业一手资讯、技术、热点爆料及分享!

特别提示:关注半导体创芯网公众号并回复“芯片”,

直接获取1000篇芯片相关精品文章链接!

点击关注

创芯英才网 

EETOP 旗下半导体人才招聘服务平台,关注公众号,可以搜索职位。

点击关注

创芯大讲堂

创芯大讲堂:EETOP旗下在线教育平台,定期发布微电子行业在线课程培训

特别提示:点击关注创芯大讲堂,后台输入“isscc”,

获取2008~2024 ISSCC全部PPT下载链接

点击关注

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 109浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 157浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 148浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 188浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 189浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 90浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 157浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 85浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 109浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 151浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 206浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 146浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦