开放加速AI服务器规范设计(2023)

智能计算芯世界 2023-08-31 07:25

当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。
下载链接:
开放加速规范AI服务器设计指南(2023)
《未来网络白皮书(2023)合集》
1、未来网络白皮书(2023):算网操作系统白皮书 
2、未来网络白皮书(2023):以网络IO为中心的无服务器数据中心白皮书 
3、未来网络白皮书(2023):光电融合服务定制广域网白皮书

人工智能专题报告:智算中心—赋能AI产业化、产业AI化(2023)

中国超导体行业:立足科技前沿,满足能源战略需求(2023)
行业报告:大模型推理算力知多少?
艾瑞咨询:2023年中国AIGC产业全景报告
体系化人工智能与大模型(2023)

多样性算力:新一代计算架构超异构计算

聚力“高广深”打造先进算力网络

生成式AI:产业变革与机会(2023论坛合集)

400+份重磅ChatGPT专业报告(合集)


参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。
2019年OCP成立OAI小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态,同时为了解决多元AI加速卡形态和接口不统一的问题。随后,为了进一步促进OAI生态的建立,OAI小组在OAM的基础上统一了AI加速卡基板OAI-UBB设计规范。OAI-UBB规范以8张OAM为一个整体,进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。
2019年底,OCP正式发布了OAI-UBB1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。
面向生成式AI的大模型算力系统的构建是一项复杂的系统工程,基于上述设计原则,以提高适配部署效率、提高系统稳定性、提高系统可用性为目标,进一步归纳总结出开放加速规范AI服务器的设计方法。

面向AIGC的计算系统交付模式不再是单一服务器,绝大多数情况最终部署的形式是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。

(1)系统架构

为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战,系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。OAM 是 OCP-OAI 小组制定的 AI加速模块接口规范,现已发布 OAM v1.5 规范,OAM 模块承担起单个 GPU 节点的 AI 加速计算能力,通过符合 UBB v1.5 base 规范的基板完成OAM间的 7P × 8 FC(Fully Connect,全互连)、6P × 8 HCM(Hybrid cubic mesh,混合立方互连)等高速互连拓扑实现多OAM数据低延时共享,利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连,突破了服务器集群在GPU计算资源、通信效率上的瓶颈,最大程度发挥OAM计算性能并降低通信带宽限制。OAM模块透过 PCIe Switch 通过4条PCIe x 16与高性能CPU建立起高速高带宽数据通道,并支持搭配32条RDIMM或LRDIMM内存,以最大程度的保障OAM与CPU之间的数据通信处理需求。

(2)OAM模块

OAM规范由OCP-OAI建立,定义了开放硬件计算加速模块的结构形态及互连接口,简化了OAM模块间高速通信链路互连,以此促进跨加速器通信的可扩展性。CPU与OAM 间的连接是透过 PCIe Switch 上行与CPU 4条PCIe x16带宽完成,极大程度增加CPU与OAM之间的数据通信数量,避免大数据量AI训练场景中CPU与OAM间数据通信出现瓶颈。支持节点内及节点间OAMP2P高速互连,OAM之间全互连拓扑改善了多OAM数据共享的延迟情况,为计算提供更高效的性能。

(3)UBB基板

UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.7×21英寸,搭配UBB的机型可以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以被拆分为×8链路,如果所有7个端口对配置成×16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在×8以内,并默认设计端口1的后半部分(×8,通常称为1H端口)被用作对外拓展端口。

4)硬件设计

UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM布局的规范。

OAM 互连拓扑损耗评估标准。对 OAM 互连所涉及的56Gbps PAM信号进行信号完整性设计,包括高速走线参考平面设计、高噪声电源区域走线、过孔stub及层面规划、走线间距、过孔间串扰控制等。OAM之间互连信号,整体损耗在基频处要求在30dB 以内,其中OAM 的 TX & RX 模组损耗需 控 制 在 8dB 以 内 , C a b l e 拓 扑 要 求QSFP-DD assembly 线缆损耗在5dB以内,PCB 损耗根据拓扑具体计算即可。

(5)散热设计

风冷散热:服务器节点风冷散热使用高效能风扇墙设计,并采用侧边防回流设计以增大相同风扇转速下的系统风量。采用导风罩设计的基础上增加OAM、CPU区域多风道隔离设计,能够结合区域感温能力实现分区散热。风扇全部支持热插拔,支持N+1转子冗余,支持风扇速度智能调节。针对UBB基板及OAM模块,进行散热器性能的热阻值参数设计。

(6)系统管理

OAM模块的系统管理方面的设计包含提供资产信息、规范寄存器,并支持满足FW更新、带外监控要求功能。资产信息提供对OAM模块PN、SN、FW版本等信息的访问;寄存器信息提供对电压、功耗、温度、ECC状态及错误、外设错误、PCIe错误、Memory错误等信息的访问;带外监控提供温度、功耗、OAM模块信息、异常告警、OAM状态、卡复位等功能。

(7)故障诊断

故障诊断功能包含OAM卡内部Uncorrect able Error、PCIe 总线错误、ESL 连接异常、卡丢失等功能。通过BMC可监控系统PCIeSwitch模块、UBB基板及OAM模块的ECC状态及错误、外设错误、PCIe错误、Memory错误等。支持链路级别的高级故障诊断功能,通过全时监测PCIe Switch运行日志获取OAM卡故障信息。

(8)软件平台

针对大模型开发过程中存在的调度难、部署慢、效率低、集群异常等问题,构建具备高性能、高可靠、可扩展的AI算力资源统一管理和人工智能作业调度平台,通过计算资源池化和容器化技术,屏蔽底层硬件差异,以标准算力模式面向用户直接提供计算资源,并通过适应性策略及敏捷框架对算力进行精准调度配给。

本文来自“开放加速规范AI服务器设计指南(2023)”,以上分享了系统架构、OAM模块、UBB基板、硬件设计、散热设计、系统管理、故障诊断、软件平台;集群网络与存储、整机柜、液冷、制冷、运维等相关规范详情,请下指南原文。

下载链接:
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
1、海光信息:国产巨无霸,引领“中国芯” 
2、国产CPU厂商领军者,进入快速增长期 
3、国产CPU领军,加速突破高端市场 
4、国产CPU领军,受益于行业信创加速,成长空间广阔 
5、国产高端处理器龙头,CPU+DCU齐赋能 
6、国产微处理器产业的领军者"
《海光CPU+DCU技术研究报告合集(下)》 
1、达梦与海光:聚焦信创新股中的软硬龙头 
2、计算机行业深度报告:曙光很近,海光不远,国产x86算力生态崛起 
3、进击的国产CPU和GPU领航者 
4、信创硬件龙头 
5、行业信创龙头,国产 CPU 之光 
6、专注服务器与数据中心,高端处理器企业乘风国产替代
基于鲲鹏处理器的国产高性能计算集群实践
算力大时代,AI算力产业链全景梳理(2023)
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
液冷技术要点汇总

《数据中心液冷技术合集(2023)》

1、电信运营商液冷技术白皮书(2023) 

2、浸没式液冷数据中心运维白皮书 

3、运营商力推液冷,中兴液冷技术领先(2023)

《2023年液冷技术白皮书汇总》

1、浸没式液冷数据中心热回收白皮书(2023) 2、数据中心绿色设计白皮书(2023)

《数据中心液冷技术合集》

1、集装箱冷板式液冷数据中心技术规范 

2、浸没式液冷发展迅速,“巨芯冷却液”实现国产突破 

3、两相浸没式液冷—系统制造的理想实践 

4、AIGC加速芯片级液冷散热市场爆发

《液冷技术专题》

1、中国液冷数据中心发展白皮书 

2、全浸没式液冷数据中心解决方案 

3、浸没液冷数据中心规范 

4、喷淋式直接液冷数据中心设计规范 

5、单相浸没式直接液冷数据中心设计规范

《液冷服务器技术合集》

1、某液冷服务器性能测试台的液冷系统设计

2、浸没液冷服务器可靠性白皮书 

3、天蝎5.0浸没式液冷整机柜技术规范

《Chiplet延续摩尔定律系列合集》
1、Chiplet延续摩尔定律:先进制程替代之路
2、Chiplet延续摩尔定律,芯片测试与封装有望获益
3、半导体Chiplet引领封测行业新机遇
4、破局后摩尔时代:Chiplet重塑半导体产业链价值
5、后摩尔时代:Chiplet与先进封装
UCIe白皮书(终版)
Chiplet:延续摩尔定律的新技术,芯片测试与先进封装有望获益
Chiplet:延续摩尔定律—先进制程替代之路
《Chiplet接口和标准介绍》
1、小芯片(Chiplet)接口标准.pdf
2、为什么chiplet需要标准.pdf
《全球OCP峰会Chiplet资料汇总》
华为鲲鹏处理器介绍
鲲鹏计算产业发展白皮书
华为鲲鹏生态研究框架

《“东数西算”技术分析合集》

《2023年液冷技术白皮书汇总》

1、浸没式液冷数据中心热回收白皮书(2023) 2、数据中心绿色设计白皮书(2023)
2022年算力强基行动产品目录(2023)

世界AI大会系列:数据为核,迈向多模态AI大模型时代

AI精华系列报告:AMD发布MI300,指引Chiplet等AI芯片新方向
《CXL论坛:CXL全球厂商方案合集》
1、CXL-Forum AMD技术方案.pdf 
2、CXL-Forum CXL-Consortium技术方案.pdf
3、CXL-Forum Elastics cloud技术方案.pdf 
4、CXL-Forum Intel技术方案.pdf 
5、CXL-Forum Marvell技术方案.pdf 
6、CXL-Forum MemVerge技术方案.pdf 
7、CXL-Forum Micron技术方案.pdf
玄铁RISC-V处理器入门及实战
《芯来科技RISC-V设计与实现合集》
1、芯来科技:基于RISC-V的MCU软硬件解决方案
2、芯来科技:高可靠高安全性RISC-V处理器设计与实现


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 在电子制造领域,PCB(印刷电路板)的使用寿命直接决定了产品的长期稳定性和可靠性。捷多邦作为全球领先的PCB制造商,始终将质量放在首位,致力于为客户提供高可靠性、高性能的PCB解决方案。以下是捷多邦如何确保PCB使用寿命超过20年的核心技术与优势。 1. ​高品质原材料:从源头保障耐用性捷多邦采用国际认证的优质基材,如FR4、高频材料和高TG板材,确保PCB在高温、高湿等极端环境下的稳定性。通过严格的原材料筛选和入库检验,捷多邦从源头控制质量,避免因材料缺陷导致的失效问题。 
    捷多邦 2025-03-20 11:22 92浏览
  • 为有效降低人为疏失导致交通事故发生的发生率,各大汽车制造厂及系统厂近年来持续开发「先进驾驶辅助系统」ADAS, Advanced Driver Assistance Systems。在众多车辆安全辅助系统之中,「紧急刹车辅助系统」功能(AEB, Autonomous Emergency Braking)对于行车安全性的提升便有着相当大的帮助。AEB透过镜头影像模块与毫米波雷达感测前方目标,可在发生碰撞前警示或自动刹车以降低车辆损伤以及乘员伤害。面临的挑战以本次分享的客户个案为例,该车厂客户预计在
    百佳泰测试实验室 2025-03-20 15:07 72浏览
  • 流感季急诊室外彻夜排起的长队,手机屏幕里不断闪烁的重症数据,深夜此起彼伏的剧烈咳嗽声——当病毒以更狡猾的姿态席卷全球,守护健康的战争早已从医院前移到每个人的身上。在医学界公认的「72小时黄金预警期」里,可穿戴设备闪烁的光芒正穿透皮肤组织,持续捕捉血氧浓度、心率变异性和体温波动数据。这不是科幻电影的末日警报,而是光电传感器发出的生命预警,当体温监测精度精确到±0.0℃,当动态血氧检测突破运动伪影干扰……科技正在重新定义健康监护的时空边界。从智能手表到耳机,再到智能戒指和智能衣物,这些小巧的设备通过
    艾迈斯欧司朗 2025-03-20 15:45 129浏览
  • 家电“以旧换新”政策的覆盖范围已从传统的八大类家电(冰箱、洗衣机、电视、空调、电脑、热水器、家用灶具、吸油烟机)扩展至各地根据本地特色和需求定制的“8+N”新品类。这一政策的补贴再叠加各大电商平台的优惠,家电销售规模显著增长,消费潜力得到进一步释放。晶尊微方案为升级换代的智能家电提供了高效且稳定的触摸感应和水位检测功能,使得操作更加便捷和可靠!主要体现在:水位检测1健康家电:养生壶、温奶器、加湿器的缺水保护安全2清洁电器:洗地机、扫地机器人的低液位和溢液提醒3宠物家电:宠物饮水机的缺水提醒/满水
    ICMAN 2025-03-20 15:23 106浏览
  • 近日,保定飞凌嵌入式技术有限公司(以下简称“飞凌嵌入式”)携手瑞芯微电子股份有限公司(以下简称“瑞芯微”)正式加入2025年全国大学生嵌入式芯片与系统设计竞赛(以下简称“嵌入式大赛”),并在应用赛道中设立专属赛题。本次嵌入式大赛,双方选用基于瑞芯微RK3588芯片设计的ELF 2开发板作为参赛平台,旨在通过此次合作,促进产教融合,共同推动嵌入式系统创新人才的培养。全国大学生嵌入式芯片与系统设计竞赛是一项A类电子设计竞赛,同时也是被教育部列入白名单的赛事,由中国电子学会主办,是学生保研、求职的公认
    飞凌嵌入式 2025-03-20 11:53 62浏览
  • PCIe 5.0应用环境逐步成形,潜在风险却蠢蠢欲动?随着人工智能、云端运算蓬勃发展,系统对于高速数据传输的需求不断上升,PCI Express(PCIe)成为服务器应用最广的传输技术,尤其在高效能运算HPC(High Performance Computing)及AI服务器几乎皆导入了最新的PCIe 5.0规格,使得数据传输的双向吞吐量达到了128GB/s,让这两类的服务器能够发挥最大的效能。不过随着PCIe 5.0的频率达到16GHz,PCB板因为高频而导致讯号衰减加剧的特性,使得厂商面临很
    百佳泰测试实验室 2025-03-20 13:47 72浏览
  • 贞光科技代理的品牌-光颉科技高精密薄膜电阻凭借0.01%的超高精度,在AI服务器电源模块中实现了精确电压分配、优化功率因数和减少热损耗,显著提升系统能效和可靠性。在当今的数字时代,人工智能(AI)服务器已成为数据中心的核心。随着AI应用的激增,服务器的性能和能效需求也在不断提高。电源模块作为服务器的关键组件,其性能直接影响整个系统的效率和可靠性。本文将探讨光颉科技高精密薄膜电阻,特别是其0.01%的精度,如何在AI服务器电源模块中提升能效。电源模块在AI服务器中的重要性电源模块负责将输入电源转换
    贞光科技 2025-03-20 16:55 112浏览
  • 本文内容来自微信公众号【工程师进阶笔记】,以工程师的第一视角分析了飞凌嵌入式OK3506J-S开发板的产品优势,感谢原作者温老师的专业分享。前两周,有一位老朋友联系我,他想找人开发一款数据采集器,用来采集工业现场的设备数据,并且可以根据不同的业务场景,通过不同的接口把这些数据分发出去。我把他提的需求总结了一下,这款产品方案大概有以下功能接口,妥妥地一款工业网关,在网上也能找到很多类似的产品方案,为啥他不直接买来用?再跟朋友深入地聊了一下,他之所以联系我,是因为看到我在公众号介绍过一款由飞凌嵌入式
    飞凌嵌入式 2025-03-20 11:51 104浏览
  •         在当今电子设备高度集成的时代,电路保护显得尤为重要。TVS管(瞬态电压抑制二极管)和压敏电阻作为一种高效的电路保护器件,被广泛应用于各种电子设备中,用以吸收突波,抑制瞬态过电压,从而保护后续电路免受损坏。而箝位电压,作为TVS管和压敏电阻的核心参数之一,直接关系到其保护性能的优劣。箝位电压的定义        箝位电压指瞬态保护器件(如TVS二极管、压敏电阻)在遭遇过压时,将电路电压限制在安全范围内的
    广电计量 2025-03-20 14:05 74浏览
  • 4月8-11日,第91届中国国际医疗器械博览会(CMEF)将在国家会展中心(上海)举办。这场全球瞩目的医疗科技盛宴以“创新科技,智领未来”为主题,旨在全方位展示医疗科技的最新成果,与来自全球的行业同仁一道,为全球医疗健康领域带来一场科技与商贸交融的产业“盛宴”。飞凌嵌入式作为专业的嵌入式技术解决方案提供商,一直致力于为医疗器械行业提供丰富的、高可靠性的嵌入式硬件主控解决方案。届时,飞凌嵌入式将为来自全球的观众带来适用于IVD、医疗影像、生命体征监测等医疗设备的嵌入式板卡、显控一体屏产品以及多款动
    飞凌嵌入式 2025-03-20 11:46 33浏览
  • 如同任何对我们工作方式的改变,新的工作方式必然会遇到许多必须面对的挑战。如果不解决组织在实施精益六西格玛过程中面临的障碍以及如何克服它们的问题,那么关于精益六西格玛的讨论就不算完整。以下列举了组织在成功实施精益六西格玛时常见的几个障碍,以及克服它们的方法:1)对精益六西格玛方法论缺乏理解。抵触情绪通常源于对精益六西格玛方法论的不了解,以及不相信它能真正发挥作用。这种情况在所有层级的人员中都会出现,包括管理层。虽然教育培训可以帮助改善这一问题,但成功的项目往往是打消疑虑的最佳方式。归根结底,这是一
    优思学院 2025-03-20 12:35 78浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,凭借AS1163独立智能驱动器(SAID)成为中国领先的智能集成系统产品汽车制造商宁波福尔达智能科技股份有限公司(“福尔达”)环境动态照明应用的关键供应商。此次合作标志着汽车技术发展的一个重要时刻,充分展现了AS1163在优化动态照明应用系统成本方面的多功能性和先进性能。该产品支持传感器集成,拥有专为车顶照明设计的超薄外形,并能提升车内照明系统的性能。AS1163是一款先进的智能LED驱动器,能够与开放系统协议(OSP)网络无缝
    艾迈斯欧司朗 2025-03-20 14:26 78浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦