2024智算中心基础设施演进

智能计算芯世界 2024-10-27 13:49

过去的十几年是通算中心(传统数据中心)快速发展的阶段,主要以云计算为主。随着生成式人工智能(AIDC)的横空出世,人工智能(AI)在医疗、金融、制造业、零售业和交通运输等领域产生了广泛的应用需求,通算中心(传统数据中心)已经逐渐无法满足日益增长的计算需求。

下载链接:
《2024智算中心算力技术白皮书合集》
1、2024智算中心基础设施演进白皮书 2、2024年中国智能算力行业白皮书
2024年智能传感器产业:前景机遇与技术趋势探析报告
《2024年AI算力“卖水人”系列报告合集》
1、AI算力“卖水人”系列(1):2024年互联网AI开支持续提升 2、AI算力“卖水人”系列(2):芯片散热从风冷到液冷,AI驱动产业革新
3、AI算力“卖水人”系列(3):NVIDIA GB200:重塑服务器、铜缆、液冷、HBM分析
《数据中心技术与趋势合集》
1、中伦互联网数据中心全解读 2、中国第三方数据中心服务商分析报告 3、面向AI 智算数据中心网络架构与连接技术的发展路线展望 4、新一代智算数据中心基础设施技术白皮书 5、中国数据中心产业发展白皮书
《2024全球人工智能开发与应用大会》
1、大语言模型在计算机视觉领域的应用 2、大模型的异构计算和加速 3、大模型辅助需求代码开发 4、大模型在华为推荐场景中的探索和应用 5、大模型在推荐系统中的落地实践 6、大语言模型的幻觉检测 7、大语言模型在法律领域的应用探索
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》


智算中心(AIDC)应运而生,它支持大规模的数据处理、机器学习、深度学习和其他智能算法的运算需求,得益于人工智能的革命性发展,智算中心的规模和处理能力正在呈指数级增长,以满足日益增长的算力需求。智算中心已成为通算中心(传统数据中心)升级发展的必然趋势。

算力分类:按照系统构成、技术特征和应用领域的差异,算力可分为三类:通用算力、超算算力和智能算力。

由于超算中心属于高度定制化的算力中心,不在本白皮书的讨论范围内。本白皮书将重点讨论通用算力中心(简称通算中心,即传统数据中心)向人工智能(AI)算力中心(简称智算中心)的演进。

智算业务:智算业务在应用中包括两个环节:训练和推理。

智算业务发展趋势:根据IDC的统计数据,2022年部署的智算算力里,训练算力占比为41.5%,推理算力占比达到58.5%;预计到2026年,推理算力的占比将会提升到62.2%,训练算力降低到37.8%。这种趋势也符合智算被广泛应用的科学的比例变化,而随着推理算力的普及,生成式人工智能(AIGC)的应用将引起范式革命。

智算芯片结构演进

智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。

通用算力芯片架构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提供的相关云服务,通常由多个物理服务器组成,通过网络连接形成一个虚拟化的计算环境。

智算算力则通常采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等多种芯片,形成高并发的分布式计算系统,应用于神经网络模型的训练及推理等。

除算力芯片外,智算中心的存储芯片也存在差异化的需求,例如更大的DRAM和NAND容量,以及存算一体技术的应用,以解决冯·诺依曼架构中的存储墙问题等。

从芯片结构演进来看,通算中心(传统数据中心)侧重于通用计算任务的性价比和灵活性,而智算中心注重人工智能(AI)类型的特定计算需求及运算效率,并要求具有强大的图形处理功能,需要制定人工智能(AI)算力硬件和存储解决方案,以满足其人工智能(AI)高性能计算需求。

智算用户诉求演进

智算中心的用户诉求则来自于智算训练业务。为确保大模型训练的效率和成本最优,智算训练业务需要建立高度集中化的GPU集群。这是因为,基于GPU的分布式工作原理,如果需要在减少训练时间的同时降低训练的成本,那么,必须在更小的物理空间内部署更多的GPU服务器,从而突破分布式计算因带宽和传输距离产生的运算瓶颈,提高集群算效,因此,智算训练业务需要建立高度集中化的GPU集群。

风冷机柜

  • 国产GPU,以华为910B为例,单机柜部署2台风冷智算服务器,功耗约11.2kW。

  • 英伟达(NVIDIA)以HGX服务器为例,HGX是NVIDIA的高性能服务器,通常一台机器包含8个或4个GPU,以8个H100为例,单台服务器功耗约10.2kW,若选用B200芯片,单台服务器设计功耗14.3kW。在智算中心的规划中,通常会考虑到IB线缆等综合成本,单机柜部署2台HGX风冷智算服务器,含上IB交换机等,单机柜功耗高达24kW左右

液冷机柜

  • 国产GPU,单机柜8台液冷智算服务器,总功耗约42.4kW。

  • 英伟达(NVIDIA)GPU,从NVL32机柜到NVL72机柜,单机柜部署4台服务器至9台服务器,GPU数量从32颗到72颗,总功耗也从44kW(为推测的数据)增加到120kW。

因此,单机柜功耗从通算中心(传统数据中心)的4~6KW的逐渐增加至智算中心(AIDC)的20~40kW,未来逐步发展至40~120kW甚至还要更高,智算中心机柜呈现高密度化趋势。这将导致智算中心在IT负载和市电引入规模上大大高于通算中心,也意味着将消耗更多的能源,同时也对资源产生众多新的需求,这些内容在接下来的章节中将会进行详细描述。

智算中心选址

通算中心(传统数据中心)的选址通常选在经济发达的城市及周边区域,靠近终端客户,可以有效降低网络时延。智算中心的选址会趋向于靠近终端客户的核心城市还是资源丰富的偏远地区?

这些偏远地区在能源、电价、气候和政策方面的优势,可以降低智算中心的建设和运营成本,提高智算中心的市场竞争力。另外,智算中心选址的决策,并非只关注电价,还需全面考量整体资源设施(如水资源是否充沛)、政策环境、市场需求等多重因素,以寻找经济活动丰富与能源费用的平衡点。

网络规划和部署,目前已成为智算中心应用的趋势。当然,这样做法的同时必须满足当地消防要求,并采取相应的漏水封堵措施。另外,在层高和承重方面,智算中心也提出了相应的提升要求。

层高方面,采用风冷或风液混合制冷方案的智算中心,由于智算中心的功率密度更高,单位空间内需要部署更多的管线,因此对层高提出更高要求,通常智算中心的层高普遍在5.0~6.5米。

承重方面,TIA-942-C标准对Rated-3和Rated-4级对数据中心楼层活载荷的要求是不低于12KN/M²,而对于智算中心来说,对楼层活载荷的要求可能会更高,例如为部署液冷,楼层活载荷的要求达到18KN/M²甚至更高。

智算中心制冷系统架构

智算中心的单机柜功耗已经有大幅提升。从单机柜20~30KW,到单机柜40~50kW,到单机柜70132kW以及未来可能达到的的200kW超高功率密度单机柜智算中心呈现加速高密化的趋势

房间级风冷空调远端送风型式的散热能力上限为单机柜25kW,当单机柜功耗超过25kW时,房间级风冷空调很难满足服务器的散热需求。

对于单机柜功耗在25~80kW的高密度散热需求,可采用列间空调、背板式风冷、薄板风墙等近端送风或冷板液冷技术,其中液冷技术因具有高效散热、低能耗、低噪声、占地面积小等突出的优势,成为智算中心制冷系统的优先选择。

现阶段风冷高密和液冷高密方案并存,液冷采用冷板式液冷的型式居多,至于选择风液混合还是全风冷则取决于不同的需求及项目条件。

智算中心预制模块化技术发展趋势

从智算中心的业务启动开始,如何对其近期和长期成本曲线做到更多的掌控,以便能选择最适合其业务需求的运营成本模型并在新的算力上线时提供可预测和透明的成本结构是智算中心重点考虑的问题因此成本确定性及灵活

可扩容性将是衡量智算中心业务可行性及可持续发展的的重要标准之一。

预制模块化技术在智算中心项目中大范围的使用,可有效加快建设进度。预制模块化技术将建造过程从现场搭建转移到工厂生产线进行因其不受场地空间及设备现场安装工序的限制可实现多模块的并行生产和流水线式的撬装总成以批量化和标准化的方式生产数据中心模块功能设备模块例如电力模块空调模块等)、软件环境等组件通过标准化生产和工程化管理大幅缩短智算中心的建设周期

这种多系统融合的预制模块化解决方案(见图28),按规模可分为:

  • 机柜级推理与边缘人工智能(AI)(70kW/柜),适用于需要快速设置且空间有限的场景,例如远程办公室、分支机构、边缘计算站点等

  • 行级&房间级企业和数据中心(40~100kW/柜),适用于人工智能(AI)实验室、推理及模型训练以及既有数据中心的空白间

  • 基础设施&数据中心级(132kW/柜),为整体预制模块化数据中心,适用于人工智能(AI)大模型训练及人工智能(AI)数据中心

人工智能(AI)的快速发展,使得智算中心(主要是训练业务)的机柜功率密度和集群规模迅速增加,这些变化呈指数级增长正在颠覆性的改变通算中心传统数据中心在选址和空间规划机电系统方面的设计方法和理念
下载链接:
大模型技术的重要特性与发展趋势
权威科普:CPU处理器通识课
《AI系列深度报告合集》
1、AI系列深度报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、AI系列深度报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、AI系列深度报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
大模型领域适配原理与实战
万卡级超大规模智算集群网络运维挑战及实战
3D DRAM行业报告:3D DRAM时代或将到来,国产DRAM有望迎来变革契机
2024年中国AI大模型场景探索及产业应用调研报告:大模型“引爆”行业新一轮变革
算力知识普惠系列一:AI芯片的基础关键参数
光芯片研究报告:高速互联需求驱动光通信行业发展,国产光芯片有望加速渗透
《2024年中国信创产业发展白皮书合集》
1、艾媒咨询:2024年中国信创产业发展白皮书(精简版) 2、艾媒咨询:2023年中国信创产业发展白皮书(精简版)
中国AIOps现状调查报告(2024)
中国算力中心服务商分析报告(2024)
分布式异构智能算力的管理和调度技术研究报告
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 在海洋监测领域,基于无人艇能够实现高效、实时、自动化的海洋数据采集,从而为海洋环境保护、资源开发等提供有力支持。其中,无人艇的控制算法训练往往需要大量高质量的数据支持。然而,海洋数据采集也面临数据噪声和误差、数据融合与协同和复杂海洋环境适应等诸多挑战,制约着无人艇技术的发展。针对这些挑战,我们探索并推出一套基于多传感器融合的海洋数据采集系统,能够高效地采集和处理海洋环境中的多维度数据,为无人艇的自主航行和控制算法训练提供高质量的数据支持。一、方案架构无人艇要在复杂海上环境中实现自主导航,尤其是完
    康谋 2025-03-13 09:53 44浏览
  • DeepSeek自成立之初就散发着大胆创新的气息。明明核心开发团队只有一百多人,却能以惊人的效率实现许多大厂望尘莫及的技术成果,原因不仅在于资金或硬件,而是在于扁平架构携手塑造的蜂窝创新生态。创办人梁文锋多次强调,与其与大厂竞争一时的人才风潮,不如全力培养自家的优质员工,形成不可替代的内部生态。正因这样,他对DeepSeek内部人才体系有着一套别具一格的见解。他十分重视中式教育价值,因而DeepSeek团队几乎清一色都是中国式学霸。许多人来自北大清华,或者在各种数据比赛中多次获奖,可谓百里挑一。
    优思学院 2025-03-13 12:15 47浏览
  • 文/Leon编辑/cc孙聪颖作为全球AI领域的黑马,DeepSeek成功搅乱了中国AI大模型市场的格局。科技大厂们选择合作,接入其模型疯抢用户;而AI独角兽们则陷入两难境地,上演了“Do Or Die”的抉择。其中,有着“大模型六小虎”之称的六家AI独角兽公司(智谱AI、百川智能、月之暗面、MiniMax、阶跃星辰及零一万物),纷纷开始转型:2025年伊始,李开复的零一万物宣布转型,不再追逐超大模型,而是聚焦AI商业化应用;紧接着,消息称百川智能放弃B端金融市场,聚焦AI医疗;月之暗面开始削减K
    华尔街科技眼 2025-03-12 17:37 145浏览
  • 曾经听过一个“隐形经理”的故事:有家公司,新人进来后,会惊讶地发现老板几乎从不在办公室。可大家依旧各司其职,还能在关键时刻自发协作,把项目完成得滴水不漏。新员工起初以为老板是“放羊式”管理,结果去茶水间和老员工聊过才发现,这位看似“隐形”的管理者其实“无处不在”,他提前铺好了企业文化、制度和激励机制,让一切运行自如。我的观点很简单:管理者的最高境界就是——“无为而治”。也就是说,你的存在感不需要每天都凸显,但你的思路、愿景、机制早已渗透到组织血液里。为什么呢?因为真正高明的管理,不在于事必躬亲,
    优思学院 2025-03-12 18:24 81浏览
  • 一、行业背景与用户需求随着健康消费升级,智能眼部按摩仪逐渐成为缓解眼疲劳、改善睡眠的热门产品。用户对这类设备的需求不再局限于基础按摩功能,而是追求更智能化、人性化的体验,例如:语音交互:实时反馈按摩模式、操作提示、安全提醒。环境感知:通过传感器检测佩戴状态、温度、压力等,提升安全性与舒适度。低功耗长续航:适应便携场景,延长设备使用时间。高性价比方案:在控制成本的同时实现功能多样化。针对这些需求,WTV380-8S语音芯片凭借其高性能、多传感器扩展能力及超高性价比,成为眼部按摩仪智能化升级的理想选
    广州唯创电子 2025-03-13 09:26 33浏览
  • 文/杜杰编辑/cc孙聪颖‍主打影像功能的小米15 Ultra手机,成为2025开年的第一款旗舰机型。从发布节奏上来看,小米历代Ultra机型,几乎都选择在开年发布,远远早于其他厂商秋季主力机型的发布时间。这毫无疑问会掀起“Ultra旗舰大战”,今年影像手机将再次被卷上新高度。无意臆断小米是否有意“领跑”一场“军备竞赛”,但各种复杂的情绪难以掩盖。岁岁年年机不同,但将2-3年内记忆中那些关于旗舰机的发布会拼凑起来,会发现,包括小米在内,旗舰机的革新点,除了摄影参数的不同,似乎没什么明显变化。贵为旗
    华尔街科技眼 2025-03-13 12:30 60浏览
  • 一、行业背景与需求痛点智能电子指纹锁作为智能家居的核心入口,近年来市场规模持续增长,用户对产品的功能性、安全性和设计紧凑性提出更高要求:极致空间利用率:锁体内部PCB空间有限,需高度集成化设计。语音交互需求:操作引导(如指纹识别状态、低电量提醒)、安全告警(防撬、试错报警)等语音反馈。智能化扩展能力:集成传感器以增强安全性(如温度监测、防撬检测)和用户体验。成本与可靠性平衡:在复杂环境下确保低功耗、高稳定性,同时控制硬件成本。WTV380-P(QFN32)语音芯片凭借4mm×4mm超小封装、多传
    广州唯创电子 2025-03-13 09:24 41浏览
  •        随着人工智能算力集群的爆发式增长,以及5.5G/6G通信技术的演进,网络数据传输速率的需求正以每年30%的速度递增。万兆以太网(10G Base-T)作为支撑下一代数据中心、高端交换机的核心组件,其性能直接决定了网络设备的稳定性与效率。然而,万兆网络变压器的技术门槛极高:回波损耗需低于-20dB(比千兆产品严格30%),耐压值需突破1500V(传统产品仅为1000V),且需在高频信号下抑制电磁干扰。全球仅有6家企业具备规模化量产能力,而美信科
    中科领创 2025-03-13 11:24 40浏览
  • 前言在快速迭代的科技浪潮中,汽车电子技术的飞速发展不仅重塑了行业的面貌,也对测试工具提出了更高的挑战与要求。作为汽车电子测试领域的先锋,TPT软件始终致力于为用户提供高效、精准、可靠的测试解决方案。新思科技出品的TPT软件迎来了又一次重大更新,最新版本TPT 2024.12将进一步满足汽车行业日益增长的测试需求,推动汽车电子技术的持续革新。基于当前汽车客户的实际需求与痛点,结合最新的技术趋势,对TPT软件进行了全面的优化与升级。从模型故障注入测试到服务器函数替代C代码函数,从更准确的需求链接到P
    北汇信息 2025-03-13 14:43 37浏览
  • 在追求更快、更稳的无线通信路上,传统射频架构深陷带宽-功耗-成本的“不可能三角”:带宽每翻倍,系统复杂度与功耗增幅远超线性增长。传统方案通过“分立式功放+多级变频链路+JESD204B 接口”的组合试图平衡性能与成本,却难以满足实时性严苛的超大规模 MIMO 通信等场景需求。在此背景下,AXW49 射频开发板以“直采+异构”重构射频范式:基于 AMD Zynq UltraScale+™ RFSoC Gen3XCZU49DR 芯片的 16 通道 14 位 2.5GSPS ADC 与 16
    ALINX 2025-03-13 09:27 32浏览
  • 北京时间3月11日,国内领先的二手消费电子产品交易和服务平台万物新生(爱回收)集团(纽交所股票代码:RERE)发布2024财年第四季度和全年业绩报告。财报显示,2024年第四季度万物新生集团总收入48.5亿元,超出业绩指引,同比增长25.2%。单季non-GAAP经营利润1.3亿元(non-GAAP口径,即经调整口径,均不含员工股权激励费用、无形资产摊销及因收购产生的递延成本,下同),并汇报创历史新高的GAAP净利润7742万元,同比增长近27倍。总览全年,万物新生总收入同比增长25.9%达到1
    华尔街科技眼 2025-03-13 12:23 47浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦