7nm+HBM+800G带宽，AMD V80豪华配置突破计算密集型负载瓶颈-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

与前代产品AMD Alveo U55C计算加速卡相比，Alveo V80的逻辑密度至高翻倍、存储器带宽至高翻倍，且网络带宽可高至4倍，可以实现强大的计算集群，也不再需要DDR4或其他外部芯片，从而优化了卡、服务器数量以及机架空间。

对于“大型数据集和内存密集型工作负载”处理来说，最佳性能不仅取决于原始计算能力，还取决于高存储器和网络接口带宽。

那么，什么是“大型数据集和内存密集型工作负载”呢？目前来看，主要是指高性能计算应用，包括基因组测序、分子动力学和传感器处理；网络安全领域的线速数据包检测和AI支持的异常检测；金融科技应用，包括策略回测、期权定价以及金融建模与仿真；AI计算领域，包括推荐引擎和大语言模型等等。

AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Shyam Chander日前在Alveo™ V80计算加速卡发布会上，用下图对“大数据集工作负载通常受限于内存和网络访问”进行了形象的比喻。可以看到，在传统处理器架构中，CPU+FPGA和PCIe的带宽远高于DDR内存和网络接口可以提供的带宽，导致无论是内存还是网络，都会出现瓶颈。

大规模加速计算密集型内存受限工作负载

专为大型数据集和内存密集型工作负载打造

Alveo™ V80计算加速卡是AMD提供的破局之道。该卡采用全高、3/4长(FH¾L)尺寸规格，由AMD Versal™ HBM自适应SoC提供支持，具备2,600,000个LUT逻辑单元的FPGA架构、10,848个DSP计算逻辑片以及820GB/s的存储器带宽，专为具有大型数据集的内存受限型应用而设计。此外，V80还包括一个32GB的DDR4 DIMM扩展插槽，并支持PCle Gen5接口，64G传输速率是第四代的2倍。整卡功率300W，采用被动散热，总热设计功耗TDP则取决于器件和服务器。

了解加速卡的人士应该比较清楚，通常情况下使用加速卡时都需要和本地CPU进行连接，但这会限制加速卡的数量。而如果采用类似V80这样的网络附接加速卡，相较于传统加速器，能够在以下四方面带来优势：低时延处理传入的网络数据、避开至加速器的瓶颈、消除分立式网络接口卡、并实现每服务器的卡数和计算密度最大化。

如果映射到架构层面，这其实就是CPU/GPU拥有的传统架构和自适应计算拥有的灵活应变架构之间的不同。“传统架构是固定的缓存层次结构，用于数据的读写和输入，在这个过程中不规则的访问模式会引起潜在的低效率。”Shyam Chander指出，灵活应变的存储器层次架构是在计算附近分配内存，实现降低延迟和低功耗，而且可以灵活适应自定义的数据设计和数据建议。

从“射电天文天线阵列”到“金融建模”

联邦科学与工业研究组织(CSIRO )是澳大利亚的国立研究组织，其参与建造了世界上最大的射电天文学天线阵列，该天线阵列目前包含420张Alveo U55C加速器卡用于处理无线电波，以研究早期宇宙并探索星系演化。

CSIRO计划借助Alveo V80加速卡缩减占板面积与成本，并将所需加速卡的数量精简多达66%，同时应对来自望远镜131,000个天线的新信号处理任务。考虑到卡、服务器、机架空间和功耗的潜在减少，每卡算力的跃升预计可带来至高20%总拥有成本(TCO)下降。

下图呈现了总拥有成本降低的估算情况——左侧是420张AMD Alveo U55C加速卡，需要21台服务器，每年约是520千瓦时；右侧是140张AMD Alveo V80加速卡，服务器数量缩减为14台，每年大概是236千瓦时。加速器数量减少至高66%，服务器减少至高33%，功耗降低至高55%，总拥有成本也降低至高21%。

AMD Alveo V80加速卡实现的预估传感器处理和TCO节省

另外一个用例来自压缩与数据分析功能的服务器存储节点，主要功能就是利用FPGA架构和AMD压缩IP可扩展存储节点，并可解压缩，查询加速等。从总拥有成本的角度来分析，比如10Pb数据存储，没有压缩时需要55台服务器，1303个SSD驱动器，每年约427千瓦时的功耗。如果进行压缩，同样是10Pb数据只需要21台服务器，504个SSD驱动器，每年能耗约233千瓦时，使用42张AMD AlveoTM V80卡进行压缩，总拥有成本三年以上至高可以达到56%的降低，而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。

金融科技领域的金融建模和算法交易，是现在很多企业趋之若鹜的一种用例。简单而言，用户在建模、仿真与回测的用例场景中，主要依靠FPGA架构和DSP用于密集计算，HBM用于大数据集、历史定价数据。而在低时延算法交易中，752Mb的RAM用于定价数据、交易记录，HBM则用于订单信息。

一切为了简化开发

Alveo V80加速卡经由Alveo Versal示例设计(AVED)完全可为传统硬件开发人员使用，现已在GitHub上提供。AVED利用传统FPGA和RTL流程简化了硬件启动，并且基于常见的Vivado工具流程。示例设计采用在AMD Versal自适应SoC上实现并专门针对Alveo V80加速器卡的预构建子系统，提供了高效的起点。

在系统层面，Alveo V80计算加速卡简化了系统集成并提供了快速的量产路径。通过使用预先验证的部署卡，设计团队可以避开PCB集成、库存管理和产品生命周期管理任务。

总体而言，与其它类型的加速卡相比，Alveo系列主要针对内联网络、实时处理类型的应用，低时延、灵活应变、各个节点的可扩展性是主要诉求，FPGA的自适应SoC就是极好的解决方案，用户可以像面对乐高玩具一样，对非常丰富的存储器架构资源进行自定义拼装和使用。

责编：Lefeng.shao

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

FPGAs/PLDs

7nm+HBM+800G带宽，AMD V80豪华配置突破计算密集型负载瓶颈

专为大型数据集和内存密集型工作负载打造

从“射电天文天线阵列”到“金融建模”

一切为了简化开发

杂志声明