Intel独立GPU虽然是后起之秀,但正在无处不在!
今天,Intel正式发布了全新的数据中心GPU Flex系列(曾用代号Arctic Sound-M),主要用于视频转码与传输、视觉AI推理、云游戏、桌面虚拟化等领域。
早在2020年11月,Intel就发布了首款面向服务器和数据中心的独立GPU,基于Xe LP低功耗架构的DG1核心,面向的就是高密度、低时延的安卓云游戏、流媒体服务。
全新的Flex系列则是基于Arc A系列独立显卡同款的Xe HPG高性能架构、DG2核心,支持H.264、H.265(HEVC)、AV1硬件编解码,VP4解码与传输。
该系列包括两款型号:
一是Flex 170,满血的32个Xe核心(512个执行单元/512个XMX引擎)、32个光追核心,基准频率1950MHz,最高加速2050MHz,搭配256-bit 16GB GDDR6显存,等效频率18GHz,带宽576GB/s。
整卡功耗150W,单插槽设计,PCIe 4.0 x16系统接口。
二是Flex 140,一半的16个Xe核心(256个执行单元/256个XMX引擎)、16个光追单元,基准频率、最高加速分别降低至1600MHz、1950MHz,搭配192-bit 12GB GDDR6显存,等效频率14GHz,带宽336GB/s。
整卡功耗也减半来到75W,系统接口同样减半至PCIe 4.0 x8。
这样的规格,应该分别对应桌面顶级型号Arc A770、主流型号Arc A580的水平,当然它们俩是没有视频输出接口的,频率、功耗估计也会不太一样。
Flex GPU系列集成最多四个Xe媒体引擎,相比于NVIDIA A10,可提供5倍的媒体转码吞吐性能、2倍的媒体解码吞吐量,而且只需要一半的功耗,开源的AV1硬件编码器还能节省30%以上的带宽。
它单卡即可支持多达36路视频流的1080p60转码吞吐量、8路视频流的4K60转码吞吐量。
在4U服务器中扩展到10卡配置时,可以支持多达360路视频流的H.265-H.265 1080p60转码吞吐量。
搭配Deep Link超级编码功能,Flex 140可在单卡上配备两套编解码设备,满足“一秒时延”要求,同时提供8K60实时转码,适用于AV1、H.265 HDR格式。
安卓云游戏方面,Flex 170、140分别支持多达68路、46路720p30数据流,Flex 140 6卡可以做到216路720p30数据流。
目前,Google Play商店中热门的近90款游戏都已经得到支持。
另外,Intel还提供了一整套开放式、包括开源组件和工具的软件堆栈(Open Software Stack),以有效实现Flex GPU面向视觉云工作负载的功能,包括对oneAPI、OpenVINO的支持。
戴尔、慧与(HPE)、新华三、浪潮、联想、超微等将陆续推出搭载Flex GPU的系统。
应用方面,首先从媒体传输、安卓云游戏开始,随后扩展到Windows云游戏、AI、VDI(虚拟桌面基础架构)。
Hot Chips 34大会上,Intel又公布了Ponte Vecchio GPU高性能计算卡的更多细节,包括性能数据。
Ponte Vecchio GPU基于全新的Xe HPC高性能计算架构,使用5种不同制造工艺(Intel 7和台积电N7/N5等)、多种封装技术,整合了多达47个不同计算模块,晶体管数量超1000亿个。
它一个模块有128个Xe核心、128个光追单元、64MB一级缓存、408MB二级缓存、128GB HBM2e高带宽内存,支持PCIe 5.0,可以四路甚至八路并联。
Intel给出的最新数据声称,Ponte Vecchio FP32单精度、FP64双精度性能可达52TFlops,TF3.2浮点性能可达419TFlops,BF16、PF16浮点性能可达839TFlops,INT8整数性能则可达1678Tops。
Data Parallel C++ (DPC++)测试项目中,Ponte Vecchio的性能相比于NVIDIA A100可以领先1.4-2.5倍。
另外,ExaSMR OpenMC计算性能可领先2倍,NekRS性能则领先0.3-1.7倍。
当然,NVIDIA新一代的H100都已经发布了……
Ponte Vecchio的使命是将联合下一代可扩展至强Sapphire Rapids,用于美国的首批三台百亿亿次超算之一Aorura,但不幸的是,Sapphire Rapids一再推迟,预计明年第二季度才能发布,Ponte Vecchio也一直没有量产上市。
相比之下,AMD三代霄龙处理器、Instinct MI250X加速卡组成的Frontier已经上线运行,并以1.6EFlops的性能,成为当今(公开的)超算之王。
同样是在本次HotChips 34大会上,NVIDIA公布了自研 CPUGrace的更多详情,感兴趣的不妨了解下。
NVIDIA设计CPU产品已经有段时间了,不过Tegra从手机、平板到盒子折腾一番后,最终发现自己的归宿在汽车自动驾驶以及任天堂Switch游戏机上。
抛开Tegra,NVIDIA在今年的GTC 2022上还公布了名为Grace的处理器,主要用于服务器、高性能计算等领域。
据悉,Grace处理器采用台积电4nm工艺制造,72核ARM v9指令集架构。注意,NV不是直接套用的ARM Cortex公版(比如X1/X2、A710等),而是和苹果一样,纯自行研制CPU核。
因为NVIDIA只卖两种Grace处理器集成方案,一是两颗CPU的双芯平台,一是Grace CPU+Hopper GPU的联合平台,所以一套系统就能做到144核规模。
此外,处理器还支持最大512GB的LPDDR5X内存(ECC),提供68条PCIe 5.0通道,三级缓存多达117MB。
性能方面,72核在Spec_Int中可拿到370分,大约是AMD EPYC 7742的一半水平(128核Zen2)。