2024智算中心基础设施演进

智能计算芯世界 2024-10-27 13:49

过去的十几年是通算中心(传统数据中心)快速发展的阶段,主要以云计算为主。随着生成式人工智能(AIDC)的横空出世,人工智能(AI)在医疗、金融、制造业、零售业和交通运输等领域产生了广泛的应用需求,通算中心(传统数据中心)已经逐渐无法满足日益增长的计算需求。

下载链接:
《2024智算中心算力技术白皮书合集》
1、2024智算中心基础设施演进白皮书 2、2024年中国智能算力行业白皮书
2024年智能传感器产业:前景机遇与技术趋势探析报告
《2024年AI算力“卖水人”系列报告合集》
1、AI算力“卖水人”系列(1):2024年互联网AI开支持续提升 2、AI算力“卖水人”系列(2):芯片散热从风冷到液冷,AI驱动产业革新
3、AI算力“卖水人”系列(3):NVIDIA GB200:重塑服务器、铜缆、液冷、HBM分析
《数据中心技术与趋势合集》
1、中伦互联网数据中心全解读 2、中国第三方数据中心服务商分析报告 3、面向AI 智算数据中心网络架构与连接技术的发展路线展望 4、新一代智算数据中心基础设施技术白皮书 5、中国数据中心产业发展白皮书
《2024全球人工智能开发与应用大会》
1、大语言模型在计算机视觉领域的应用 2、大模型的异构计算和加速 3、大模型辅助需求代码开发 4、大模型在华为推荐场景中的探索和应用 5、大模型在推荐系统中的落地实践 6、大语言模型的幻觉检测 7、大语言模型在法律领域的应用探索
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》


智算中心(AIDC)应运而生,它支持大规模的数据处理、机器学习、深度学习和其他智能算法的运算需求,得益于人工智能的革命性发展,智算中心的规模和处理能力正在呈指数级增长,以满足日益增长的算力需求。智算中心已成为通算中心(传统数据中心)升级发展的必然趋势。

算力分类:按照系统构成、技术特征和应用领域的差异,算力可分为三类:通用算力、超算算力和智能算力。

由于超算中心属于高度定制化的算力中心,不在本白皮书的讨论范围内。本白皮书将重点讨论通用算力中心(简称通算中心,即传统数据中心)向人工智能(AI)算力中心(简称智算中心)的演进。

智算业务:智算业务在应用中包括两个环节:训练和推理。

智算业务发展趋势:根据IDC的统计数据,2022年部署的智算算力里,训练算力占比为41.5%,推理算力占比达到58.5%;预计到2026年,推理算力的占比将会提升到62.2%,训练算力降低到37.8%。这种趋势也符合智算被广泛应用的科学的比例变化,而随着推理算力的普及,生成式人工智能(AIGC)的应用将引起范式革命。

智算芯片结构演进

智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。

通用算力芯片架构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提供的相关云服务,通常由多个物理服务器组成,通过网络连接形成一个虚拟化的计算环境。

智算算力则通常采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等多种芯片,形成高并发的分布式计算系统,应用于神经网络模型的训练及推理等。

除算力芯片外,智算中心的存储芯片也存在差异化的需求,例如更大的DRAM和NAND容量,以及存算一体技术的应用,以解决冯·诺依曼架构中的存储墙问题等。

从芯片结构演进来看,通算中心(传统数据中心)侧重于通用计算任务的性价比和灵活性,而智算中心注重人工智能(AI)类型的特定计算需求及运算效率,并要求具有强大的图形处理功能,需要制定人工智能(AI)算力硬件和存储解决方案,以满足其人工智能(AI)高性能计算需求。

智算用户诉求演进

智算中心的用户诉求则来自于智算训练业务。为确保大模型训练的效率和成本最优,智算训练业务需要建立高度集中化的GPU集群。这是因为,基于GPU的分布式工作原理,如果需要在减少训练时间的同时降低训练的成本,那么,必须在更小的物理空间内部署更多的GPU服务器,从而突破分布式计算因带宽和传输距离产生的运算瓶颈,提高集群算效,因此,智算训练业务需要建立高度集中化的GPU集群。

风冷机柜

  • 国产GPU,以华为910B为例,单机柜部署2台风冷智算服务器,功耗约11.2kW。

  • 英伟达(NVIDIA)以HGX服务器为例,HGX是NVIDIA的高性能服务器,通常一台机器包含8个或4个GPU,以8个H100为例,单台服务器功耗约10.2kW,若选用B200芯片,单台服务器设计功耗14.3kW。在智算中心的规划中,通常会考虑到IB线缆等综合成本,单机柜部署2台HGX风冷智算服务器,含上IB交换机等,单机柜功耗高达24kW左右

液冷机柜

  • 国产GPU,单机柜8台液冷智算服务器,总功耗约42.4kW。

  • 英伟达(NVIDIA)GPU,从NVL32机柜到NVL72机柜,单机柜部署4台服务器至9台服务器,GPU数量从32颗到72颗,总功耗也从44kW(为推测的数据)增加到120kW。

因此,单机柜功耗从通算中心(传统数据中心)的4~6KW的逐渐增加至智算中心(AIDC)的20~40kW,未来逐步发展至40~120kW甚至还要更高,智算中心机柜呈现高密度化趋势。这将导致智算中心在IT负载和市电引入规模上大大高于通算中心,也意味着将消耗更多的能源,同时也对资源产生众多新的需求,这些内容在接下来的章节中将会进行详细描述。

智算中心选址

通算中心(传统数据中心)的选址通常选在经济发达的城市及周边区域,靠近终端客户,可以有效降低网络时延。智算中心的选址会趋向于靠近终端客户的核心城市还是资源丰富的偏远地区?

这些偏远地区在能源、电价、气候和政策方面的优势,可以降低智算中心的建设和运营成本,提高智算中心的市场竞争力。另外,智算中心选址的决策,并非只关注电价,还需全面考量整体资源设施(如水资源是否充沛)、政策环境、市场需求等多重因素,以寻找经济活动丰富与能源费用的平衡点。

网络规划和部署,目前已成为智算中心应用的趋势。当然,这样做法的同时必须满足当地消防要求,并采取相应的漏水封堵措施。另外,在层高和承重方面,智算中心也提出了相应的提升要求。

层高方面,采用风冷或风液混合制冷方案的智算中心,由于智算中心的功率密度更高,单位空间内需要部署更多的管线,因此对层高提出更高要求,通常智算中心的层高普遍在5.0~6.5米。

承重方面,TIA-942-C标准对Rated-3和Rated-4级对数据中心楼层活载荷的要求是不低于12KN/M²,而对于智算中心来说,对楼层活载荷的要求可能会更高,例如为部署液冷,楼层活载荷的要求达到18KN/M²甚至更高。

智算中心制冷系统架构

智算中心的单机柜功耗已经有大幅提升。从单机柜20~30KW,到单机柜40~50kW,到单机柜70132kW以及未来可能达到的的200kW超高功率密度单机柜智算中心呈现加速高密化的趋势

房间级风冷空调远端送风型式的散热能力上限为单机柜25kW,当单机柜功耗超过25kW时,房间级风冷空调很难满足服务器的散热需求。

对于单机柜功耗在25~80kW的高密度散热需求,可采用列间空调、背板式风冷、薄板风墙等近端送风或冷板液冷技术,其中液冷技术因具有高效散热、低能耗、低噪声、占地面积小等突出的优势,成为智算中心制冷系统的优先选择。

现阶段风冷高密和液冷高密方案并存,液冷采用冷板式液冷的型式居多,至于选择风液混合还是全风冷则取决于不同的需求及项目条件。

智算中心预制模块化技术发展趋势

从智算中心的业务启动开始,如何对其近期和长期成本曲线做到更多的掌控,以便能选择最适合其业务需求的运营成本模型并在新的算力上线时提供可预测和透明的成本结构是智算中心重点考虑的问题因此成本确定性及灵活

可扩容性将是衡量智算中心业务可行性及可持续发展的的重要标准之一。

预制模块化技术在智算中心项目中大范围的使用,可有效加快建设进度。预制模块化技术将建造过程从现场搭建转移到工厂生产线进行因其不受场地空间及设备现场安装工序的限制可实现多模块的并行生产和流水线式的撬装总成以批量化和标准化的方式生产数据中心模块功能设备模块例如电力模块空调模块等)、软件环境等组件通过标准化生产和工程化管理大幅缩短智算中心的建设周期

这种多系统融合的预制模块化解决方案(见图28),按规模可分为:

  • 机柜级推理与边缘人工智能(AI)(70kW/柜),适用于需要快速设置且空间有限的场景,例如远程办公室、分支机构、边缘计算站点等

  • 行级&房间级企业和数据中心(40~100kW/柜),适用于人工智能(AI)实验室、推理及模型训练以及既有数据中心的空白间

  • 基础设施&数据中心级(132kW/柜),为整体预制模块化数据中心,适用于人工智能(AI)大模型训练及人工智能(AI)数据中心

人工智能(AI)的快速发展,使得智算中心(主要是训练业务)的机柜功率密度和集群规模迅速增加,这些变化呈指数级增长正在颠覆性的改变通算中心传统数据中心在选址和空间规划机电系统方面的设计方法和理念
下载链接:
大模型技术的重要特性与发展趋势
权威科普:CPU处理器通识课
《AI系列深度报告合集》
1、AI系列深度报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、AI系列深度报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、AI系列深度报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
大模型领域适配原理与实战
万卡级超大规模智算集群网络运维挑战及实战
3D DRAM行业报告:3D DRAM时代或将到来,国产DRAM有望迎来变革契机
2024年中国AI大模型场景探索及产业应用调研报告:大模型“引爆”行业新一轮变革
算力知识普惠系列一:AI芯片的基础关键参数
光芯片研究报告:高速互联需求驱动光通信行业发展,国产光芯片有望加速渗透
《2024年中国信创产业发展白皮书合集》
1、艾媒咨询:2024年中国信创产业发展白皮书(精简版) 2、艾媒咨询:2023年中国信创产业发展白皮书(精简版)
中国AIOps现状调查报告(2024)
中国算力中心服务商分析报告(2024)
分布式异构智能算力的管理和调度技术研究报告
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 104浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 140浏览
  • Matter 协议,原名 CHIP(Connected Home over IP),是由苹果、谷歌、亚马逊和三星等科技巨头联合ZigBee联盟(现连接标准联盟CSA)共同推出的一套基于IP协议的智能家居连接标准,旨在打破智能家居设备之间的 “语言障碍”,实现真正的互联互通。然而,目标与现实之间总有落差,前期阶段的Matter 协议由于设备支持类型有限、设备生态协同滞后以及设备通信协议割裂等原因,并未能彻底消除智能家居中的“设备孤岛”现象,但随着2025年的到来,这些现象都将得到完美的解决。近期,
    华普微HOPERF 2025-02-27 10:32 227浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 226浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 261浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 107浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 415浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 156浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 143浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 148浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 132浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦