ChatGPT的风靡,让大众知道了‘算力’这个词。那什么是算力,通俗来讲,算力就是计算能力,即处理数据的能力。算力存在于各种智能硬件设备中。可以说,算力是大数据时代的关键‘基石’,它的重要性就如水利时代的‘水’,石器时代的‘石’。
随着数据中心、人工智能以及元宇宙等概念的兴起,以及数字化、智能化浪潮的袭来,对于算力的需求也不断增长。例如,人工智能所需的计算能力每100天翻一番,则未来五年内预计将增加超过100万倍。
为了更好应对大数据时代的来临,2022年2月,国家五大部委印发通知,全面启动‘东数西算’工程,通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。
数据显示,目前仅贵州省累积落地大型、超大型数据中心就达18个,其中超大型数据中心8个。全省服务器承载能力达到225万台,平均上架率为56.5%。
而CPU芯片则是这些数据中心的‘心脏’。今年年初,英特尔面向全球数据中心客户推出了第四代至强可扩展处理器(代号Sapphire Rapids)以及至强CPU Max系列(代号“Sapphire Rapids HBM”)。
据之前英特尔发布的相关数据,第四代至强可扩展处理器是一个高度创新的平台。该芯片采用了Intel 7制程工艺制造,具有全新的芯片架构。通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器,以及业界领先的DDR5、CXL1.1、PCIe 5.0等。
而此次发布的第四代至强可扩展处理器最特别之处则是提出了一个新的概念,即加速器。英特尔市场营销集团副总裁,中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰解释道:“之前如果要处理一个工作负载,可能需要堆叠好几个核,而在新的第四代至强可扩展处理器平台上,通过这些加速器的加持,可以以较少的核数就可以处理相同的任务。”
在第四代至强可扩展处理器刚刚发布时,英特尔强调了该CPU产品集成了七大‘神器’,即AMX(高级矩阵扩展)、DLB(动态负载均衡器)、DSA(数据流加速器)、IAA(存内分析加速器)、QAT(数据保护与压缩加速技术)、Security(安全技术)以及英特尔至强CPU MAX系列。据庄秉翰介绍,英特尔最近又进行了创新,即集成vRAN Boost的第四代至强可扩展处理器,这样可以帮助运营商能够在通用虚拟化平台上整合所有基站层,从而带来性价比的很大提升。
图:具备加速‘神器’的第四代至强可扩展处理器
此前的CPU上的计算单元多为向量运算,此次英特尔的第四代至强可扩展处理器集成的AMX计算单元则将矩阵运算首次应用到CPU平台。第四代至强可扩展处理器除了都支持前代所有的指令外,还引入了新的AMX计算单元。AMX计算单元支持两种数据精度,一种是8bit的整形数据(INT8),还有16bit的浮点数据(BF16)。
在将第四代至强可扩展处理器应用于淘宝搜索时,希望硬件每秒能够提供的查询数量越多越好。在AMX、BF16混合精度、高效的内核到内核通信和软件优化的配合下,相对于第三代英特尔至强可扩展处理器,可以将代理模型的吞吐量提高近3倍。
另外,针对目前较为流行的AIGC——一种深度学习模型,主要有两种典型应用场景,一种为输入文本生成高清图片,另外一种是输入图片和一些提示用语生成另外一张图片。这种模型不管是基于Stable Diffusion还是大语言模型,它都使用了Attention机制,需要矩阵相乘的运算以及大量的指数运算。而英特尔第四代至强可扩展处理器的AMX BF16则可以用来加速矩阵运算,而AVX-512指令则可以用来加速指数运算。据英特尔技术专家介绍,在使用了英特尔PyTorch扩展插件的情况下,可以在生成512×512图片时,获得3.82倍的吞吐提升,生成720P的图片时则可以获得5.26倍的吞吐提升。
对于一些需要进行大数据分析的数据库,都存在一个普遍的痛点,即它们都需要对数据进行压缩/解压缩,这样势必会带来性能的损失,或者压缩/解压缩的操作会占用CPU的资源,导致CPU的速度下降。基于此,英特尔第四代至强可扩展处理器的另一大‘神器’IAA就很好解决了这一问题。
IAA可以帮助对数据进行压缩/解压缩、查询以及过滤等操作,从而释放CPU的计算资源,最终提升能效比。将IAA-Deflate应用于Clickhouse里最为广泛的LZ4算法,可以提升42%的压缩比,这一可以大大节省磁盘和带宽成本,同时也能节省对带宽和内存的使用。
第四代至强可扩展处理器的DSA加速器则主要帮助CPU进行内存的搬移和传输操作,让CPU可以进行其它业务上的处理,提高使用效率。
如在进行直播转播时,通过一端设备进行视频录制,然后将视频通过网络传输至数据中心进行处理。而数据中心在接收到数据包后,就需要把视频内容释放出来,即从网络端将视频内容拷贝到自己的程序中再进行处理,在没有DSA的情况下,这些操作需要CPU完成,而集成了DSA后,这些操作都可以交由DSA进行操作。在CPU核心数相同的情况下,集成了DSA后带宽占用提升了2.25倍;而在网络带宽一致的情况下,集成DSA后则节省了66%的CPU资源。
之前在进行数据中心建构时,CPU的核心数都是越变越多,而英特尔此次之所以在第四代至强可扩展处理器产品中首次提出了加速器概念,英特尔的技术专家表示,对于互联网来说,它们在数据中心的一些应用中很多时候会有一些特殊的需求,如前所述的压缩/解压缩、内存搬移等,单纯地增加CPU核心数可能并不一定是最高效的,但如果能针对这一操作提供一个专门的加速器,反而会很高效。这也符合英特尔一直秉持的打造可持续的数据中心处理器的理念。
END