Intel发布全新GPU：性能5倍于NVIDIA！功耗仅一半

原创硬件世界 2022-08-25 23:29 1600浏览 0评论 0点赞

芯片现货市场行情分析 示波器里的故事，分享赢好礼！

Intel独立GPU虽然是后起之秀，但正在无处不在！

今天，Intel正式发布了全新的数据中心GPU Flex系列(曾用代号Arctic Sound-M)，主要用于视频转码与传输、视觉AI推理、云游戏、桌面虚拟化等领域。

早在2020年11月，Intel就发布了首款面向服务器和数据中心的独立GPU，基于Xe LP低功耗架构的DG1核心，面向的就是高密度、低时延的安卓云游戏、流媒体服务。

全新的Flex系列则是基于Arc A系列独立显卡同款的Xe HPG高性能架构、DG2核心，支持H.264、H.265(HEVC)、AV1硬件编解码，VP4解码与传输。

该系列包括两款型号：

一是Flex 170，满血的32个Xe核心(512个执行单元/512个XMX引擎)、32个光追核心，基准频率1950MHz，最高加速2050MHz，搭配256-bit 16GB GDDR6显存，等效频率18GHz，带宽576GB/s。

整卡功耗150W，单插槽设计，PCIe 4.0 x16系统接口。

二是Flex 140，一半的16个Xe核心(256个执行单元/256个XMX引擎)、16个光追单元，基准频率、最高加速分别降低至1600MHz、1950MHz，搭配192-bit 12GB GDDR6显存，等效频率14GHz，带宽336GB/s。

整卡功耗也减半来到75W，系统接口同样减半至PCIe 4.0 x8。

这样的规格，应该分别对应桌面顶级型号Arc A770、主流型号Arc A580的水平，当然它们俩是没有视频输出接口的，频率、功耗估计也会不太一样。

Flex GPU系列集成最多四个Xe媒体引擎，相比于NVIDIA A10，可提供5倍的媒体转码吞吐性能、2倍的媒体解码吞吐量，而且只需要一半的功耗，开源的AV1硬件编码器还能节省30％以上的带宽。

它单卡即可支持多达36路视频流的1080p60转码吞吐量、8路视频流的4K60转码吞吐量。

在4U服务器中扩展到10卡配置时，可以支持多达360路视频流的H.265-H.265 1080p60转码吞吐量。

搭配Deep Link超级编码功能，Flex 140可在单卡上配备两套编解码设备，满足“一秒时延”要求，同时提供8K60实时转码，适用于AV1、H.265 HDR格式。

安卓云游戏方面，Flex 170、140分别支持多达68路、46路720p30数据流，Flex 140 6卡可以做到216路720p30数据流。

目前，Google Play商店中热门的近90款游戏都已经得到支持。

另外，Intel还提供了一整套开放式、包括开源组件和工具的软件堆栈(Open Software Stack)，以有效实现Flex GPU面向视觉云工作负载的功能，包括对oneAPI、OpenVINO的支持。

戴尔、慧与(HPE)、新华三、浪潮、联想、超微等将陆续推出搭载Flex GPU的系统。

应用方面，首先从媒体传输、安卓云游戏开始，随后扩展到Windows云游戏、AI、VDI(虚拟桌面基础架构)。

Hot Chips 34大会上，Intel又公布了Ponte Vecchio GPU高性能计算卡的更多细节，包括性能数据。

Ponte Vecchio GPU基于全新的Xe HPC高性能计算架构，使用5种不同制造工艺(Intel 7和台积电N7/N5等)、多种封装技术，整合了多达47个不同计算模块，晶体管数量超1000亿个。

它一个模块有128个Xe核心、128个光追单元、64MB一级缓存、408MB二级缓存、128GB HBM2e高带宽内存，支持PCIe 5.0，可以四路甚至八路并联。

Intel给出的最新数据声称，Ponte Vecchio FP32单精度、FP64双精度性能可达52TFlops，TF3.2浮点性能可达419TFlops，BF16、PF16浮点性能可达839TFlops，INT8整数性能则可达1678Tops。

Data Parallel C++ (DPC++)测试项目中，Ponte Vecchio的性能相比于NVIDIA A100可以领先1.4-2.5倍。

另外，ExaSMR OpenMC计算性能可领先2倍，NekRS性能则领先0.3-1.7倍。

当然，NVIDIA新一代的H100都已经发布了……

Ponte Vecchio的使命是将联合下一代可扩展至强Sapphire Rapids，用于美国的首批三台百亿亿次超算之一Aorura，但不幸的是，Sapphire Rapids一再推迟，预计明年第二季度才能发布，Ponte Vecchio也一直没有量产上市。

相比之下，AMD三代霄龙处理器、Instinct MI250X加速卡组成的Frontier已经上线运行，并以1.6EFlops的性能，成为当今(公开的)超算之王。

同样是在本次HotChips 34大会上，NVIDIA公布了自研 CPUGrace的更多详情，感兴趣的不妨了解下。

NVIDIA设计CPU产品已经有段时间了，不过Tegra从手机、平板到盒子折腾一番后，最终发现自己的归宿在汽车自动驾驶以及任天堂Switch游戏机上。

抛开Tegra，NVIDIA在今年的GTC 2022上还公布了名为Grace的处理器，主要用于服务器、高性能计算等领域。

据悉，Grace处理器采用台积电4nm工艺制造，72核ARM v9指令集架构。注意，NV不是直接套用的ARM Cortex公版（比如X1/X2、A710等），而是和苹果一样，纯自行研制CPU核。

因为NVIDIA只卖两种Grace处理器集成方案，一是两颗CPU的双芯平台，一是Grace CPU+Hopper GPU的联合平台，所以一套系统就能做到144核规模。

此外，处理器还支持最大512GB的LPDDR5X内存（ECC），提供68条PCIe 5.0通道，三级缓存多达117MB。

性能方面，72核在Spec_Int中可拿到370分，大约是AMD EPYC 7742的一半水平（128核Zen2）。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

硬件世界共同研究探讨硬件知识及相关信息

进入专栏

硬件世界共同研究探讨硬件知识及相关信息

文章：3935篇粉丝：18人

关注  私信

Intel发布全新GPU：性能5倍于NVIDIA！功耗仅一半

最近文章

热门文章

推荐

最新资讯