今年6月,英特尔发布了有史以来最强大的至强处理器——至强6“能效核(E-Core)”和“性能核(P-Core)”,按照英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立的说法,尽管现在很多的AI负载并不是跑在CPU,而是跑在GPU上面,但是有一个事实是,现在所有的AI服务器或者加速系统,绝大部分的机头使用的都是英特尔CPU处理器。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立
因此,与主流GPU厂商、AI生态合作伙伴建立良好的合作关系,共同定义至强规格以提供最佳的机头体验,成为了英特尔和至强6处理器的“新使命”。
性能,可以更加“强悍”
英特尔® 至强® 6性能核处理器专为计算密集型工作负载而设计。已上市的至强6900P系列处理器(代号Granite Rapids-AP)最高配备128个内核,而在2年前,市场上一个主流服务器所搭配的至强处理器大约为24-48核。大幅提升的CPU内核数量和整体性能,让至强6900P平台在数据库、科学计算等关键应用负载领域实现了相比上一代产品2.31倍-2.5倍的“跨越式表现”;而在AI应用中,至强6900P平台则实现了1.83倍-2.4倍的提升。
除了内核数量外,至强6900P还支持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率高达每秒24GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存,支持FP16数据格式的英特尔®高级矩阵扩展(英特尔® AMX),可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择,且新增对CXL 2.0的支持。
这其中,对MRDIMM和CXL的支持尤其值得关注。据陈葆立介绍,MRDIMM利用数据缓冲区,实现了两个列的同步操作,从而允许一次向CPU传输128字节的数据;而传统DRAM 模块一次只能传输64字节。英特尔至强6性能核处理器通过使用标配6400MT/s和更快的MRDIMM内存结合的方式,可以处理对内存非常敏感的工作负载,包括科学计算、AI等。
而继第五代至强正式引入CXL 2.0用以扩展内存容量和带宽以来,至强6已经可以支持3种CXL内存扩展模式:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。
芯片架构是至强6性能核处理器的独特之处,它采用了计算芯片单元(compute die)与I/O芯片单元(I/O die)解耦的分离式模块化设计,以Chiplet的形式封装在一起。计算单元中包含了x86内核、内存控制器和缓存,I/O单元中包含了PCle、CXL、UPI等通用协议,也包括了英特尔独有的加速器。通过不同的排列组合,使得它可以灵活组合不同数量的计算单元,实现核心数量的扩展及内存和I/O的同步强化,保证更优的整体性能和能效。
在AI加速方面,从第四代至强处理器开始,英特尔就为AI加速推出了专属指令集——高级矩阵扩展(英特尔AMX)。通过这个指令集,CPU能够更好地支持大模型推理计算。在最新一代的至强处理器中,该指令集也进行了升级。AI工作负载方面,至强6性能核处理器可运行12种工作负载,覆盖通用计算、数据库、科学计算等,其中包括Llama2、Llama3大模型等。
综合来看,在云计算领域,英特尔至强6处理器在每路核心数、单核性能、每瓦性能方面,相比上一代处理器均有显著提升。测试数据显示,与第五代英特尔®至强®可扩展处理器相比,至强6处理器拥有多达2倍的每路核心数,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍,同等性能水平下平均节省30%的TCO。
生态,可以更加“丰富”
算力作为新型生产要素,结合数据和算法,通过智能化引发经济范式的转变,为新质生产力的爆发提供了关键驱动力,是新质生产力的重要构成。IDC数据显示,15个重点国家的计算力指数平均每提高一个点,国家的数字经济和GDP就分别会增长千分之3.6和千分之1.7,并且算力指数在发展到一定阶段后呈放大效应。
“作为算力的载体,数据中心在过去近20年中,通过不断地演进与重构见证和推动了科技的发展。”英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉表示,“英特尔通过平台和产品的迭代升级,不断优化数据中心架构。在算力需求日益多样化和海量化发展的当下,英特尔通过至强6性能核处理器的发布,与生态伙伴共同探索数据中心系统架构的升级,进一步释放算力价值。”
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉
发布会上,一众生态伙伴分享了其基于英特尔至强6性能核产品的最新解决方案,并分别从计算密度、内存带宽、数据处理、能效优化四个方面阐述了其卓越的性能表现。其中:
- 浪潮信息联合英特尔及客户伙伴发布了国内领先的服务器计算模组设计规范(OCM),基于最新至强平台率先推出松耦合开源架构,满足多样化算力部署需求。
- 阿里云方升架构协同英特尔至强处理器持续迭代演进,推出最新一代磐久计算型服务器,以及基于至强6性能核的第九代阿里云英特尔平台企业级计算实例产品。
- 超聚变则带来了其首款支持CXL2.0+的内存池,可通过灵活分配与共享内存以充分提升系统效能。
- 火山引擎基于英特尔至强6性能核处理器进行了架构和性能优化,CPU核心数翻倍并采用双单路架构设计,使其第四代云服务器实例在保障稳定性的同时大幅提升了计算密度和应用性能。
- 新华三与英特尔联合打造“G-Flow”油类单相浸没液冷技术,通过突破性设计大幅提高液体流速,在保持系统性价比的同时,提高整体冷却效率。
计算,可以更加“绿色”
如今,更强算力需求让数据中心面临着前所未有的能耗和散热挑战。立足于此,英特尔发起了英特尔中国数据中心液冷创新加速计划,不仅携手行业伙伴突破油类单相浸没散热能力有限的技术难题,也进一步推动冷板式液冷整体解决方案验证,同时还联合生态力量推动UQD互换验证测试,从技术创新、构建统一行业标准两方面“双管齐下”,降低数据中心液冷使用成本、增强可靠性,为液冷技术的规模化应用保驾护航。
新华三集团计算存储产品线的副总裁刘宏程分享了新华三携手英特尔推出的G-Flow油类单相浸没液冷方案。该方案使用臭氧消耗潜值ODP为0的绝缘油,并针对处理器设计了独特的流道,为高功耗部件增加了强制对流,这样所有由CDU(冷却分配单元)提供的流量都可以通过芯片散热器而不经过旁路,通过控制液面高度差,利用重力强制流体通过处理器区域。
目前,服务器的流道深度约为800mm,通过处理器的流速可以达到每秒3.95米,与自然对流引起的流量相比,即使受到流体粘性的影响,但散热器的流速得到了显著提升,从而极大的提升了散热效率。通过实测,G-Flow方案可以解决千瓦级的芯片散热需求,提升能效的同时让用户在选择冷却液方面具有更大的灵活性。
宁畅副总裁兼首席技术官赵雷谈到,随着CPU算力越来越强,核数从上一代64核升级到现在128核,它的能耗也相应从300瓦增加到500瓦,这也客观推动了液冷的发展和快速落地。以往350瓦以下的CPU可以通过风冷解决散热问题,但新一代CPU则需要更高效的散热方案,如液冷。这一转变不仅推动了液冷技术的进步,包括冷板、浸没式冷却等,还带动了整个液冷基础设施的发展。
他强调说,液冷技术的普及将对电力基础设施提出新的要求,因为随着散热系统的升级,供电能力可能成为新的瓶颈。因此,电力系统的改进也将成为必要。