本文来自“基于标准PCIe接口的人工智能加速卡液冷设计白皮书(2024)”,液冷技术成为解决人工智能服务器高功耗散热问题、降低数据中心PUE的关键,其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。
目前标准PCIe接口形态的人工智能加速卡仍然是业界主流,国内外部分厂商已经推出了相应的冷板式人工智能加速卡,但均是按照自身产品形态特征进行设计,未考虑同行业其他厂商情况,不能作为标准化设计。
虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用,但在标准PCIe接口形态的人工智能加速卡上的应用仍然很少,业界迫切需要一个针对标准PCIe接口形态人工智能加速卡的液冷设计指导,来推动冷板式散热技术在人工智能加速卡应用的普及。
4、报告(四):大模型篇—大模型发展迈入爆发期,开启AI新纪元
冷板式人工智能服务器组成
人工智能服务器主要包括通用计算子系统、异构加速子系统、存储子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统、输入输出设备等组成。其中异构加速子系统配备了面向人工智能应用的加速器,例如GPGPU卡、AI ASIC卡、FPGA卡等,可为人工智能应用提供高效能计算处理能力。
人工智能服务器基于散热子系统实现方式的不同,可分为风冷式人工智能服务器和冷板式人工智能服务器,其中冷板式人工智能服务器是本文研究的重点。
冷板式人工智能服务器CPU和人工智能加速卡应采用冷板进行散热,内存等其它高功耗部件宜采用冷板散热,以进一步提升液冷散热的占比,降低数据中心PUE。设计上需要应减少机箱内的管路,并采用漏液检测机制,以提升服务器的可靠性。
冷板式人工智能加速卡组成
冷板式液冷加速卡由人工智能加速板卡、液冷板、加速卡外壳结构件组成。
冷板覆盖加速卡上的主芯片及其他发热元件(包括但不限于VR、显存等),提高板卡封装狭小空间内人工智能芯片散热效率。加速卡对外提供一对流体快插接头(两个公头),用于连接服务器内部集/分水结构或RCM。
冷板式人工智能加速卡能够有效避免局部热点,降低服务器系统风扇功耗,降低数据中心整体PUE,是未来绿色数据中心发展的必然趋势。
人工智能加速卡液冷设计要求如下:
a) 应根据AI芯片的型号尺寸和发热特点及电子信息设备的内部结构进行设计,以获得更好的换热效率,在满足芯片整个使用周期内的壳温要求下,应优化流道设计,减小冷板模块的流阻;
b) 应保障满足AI芯片插座的载荷及其他结构性要求;
c) 应考虑配管位置及方向,液体进出口位置,避免与电子信息设备产生干涉;
d) 冷板基板和流道宜采用铜或铝合金材质,一个系统中冷却工质直接接触的部件不应有两种电极电位差较大的金属;
e) 冷却工质的选用应考虑与二次侧循环回路中所有直接接触的固体表面材质间的相容性;
f) 漏液检测装置的泄漏量感应基准应不高于0.5ml;
g) 应符合芯片对散热器重量的要求;
h) 应考虑冷板的安装及拆卸顺序,满足芯片的操作规范;
i)应满足芯片的扣合力技术要求,安装拆除后散热基板底面满足平面度技术要求。
标准PCIe接口的人工智能加速卡挡片宜不开孔,冷板全覆盖加速卡进行全液冷设计。加速卡对外液冷接口需要考虑和服务器系统或RCM的对接方式,有利于加速卡和外界液冷系统对接。板卡尺寸符合PCIe CEM规范,为单槽或者双槽、全高形态,卡长(不含快插接头)宜不大于266.7mm。加速卡的进出水口快插接头可根据应用场景放置于加速卡挡片侧或者加速卡尾端。
加速卡冷板的设计要求如下:
a) 冷板的材料需要考虑导热性及与冷却液的化学兼容性,例如可选择紫铜。冷板对板卡上热源的全覆盖;
b) 固定方式宜使用4个弹簧螺丝固定的方式进行固定;
c) 主芯片和冷板之间的压力应保证满足散热性能需求;
d) 冷板散热基板底部和主芯片接触区域要求光滑,且平面度不大于0.05mm, 粗糙度Ra不大于1.6um。
人工智能加速卡热性能参数
人工智能加速卡流体快插接头选型主要考虑结构兼容性,需要保证在加速板卡侧面正常连接冷板和封装,同时组装在服务器上不发生结构干涉。
冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求,服务器针对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配,耗费大量人力、物力。本技术白皮书主要制定标准PCIe接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能设计、可靠性设计方面的要求,用于指导冷板式人工智能加速卡的设计。
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。