继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal™ Premium系列,使得第二代Versal系列的版图更趋完整。
Versal的名字来源于两个词,一个是多样性,一个是通用性。第一代产品组合包括Versal基础系列(Versal Prime)、Versal旗舰系列(Versal Premium)系列和HBM系列。此外,还包括AI核心系列(AI Core)、AI边缘系列(AI Edge)和AI射频系列(AI RF)。
2020年推出的Versal Premium是当时业界带宽最高、计算密度最高的自适应平台。其系统逻辑单元从最小160万个到最高740万个,自适应引擎LUT数量从最低72万个到最高340万个,可提供比主流FPGA高3倍的吞吐量和2倍的计算密度,并内置以太网、Interlaken和加密引擎,专为在散热条件和空间受限的环境下运行最高带宽网络,以及那些需要可扩展、灵活应变应用加速的云提供商而设计。
而第二代Versal Premium系列则是FPGA行业首款在硬IP中采用Compute Express Link(CXL)3.11与PCIe Gen6并支持LPDDR5存储器的器件。这些下一代接口和存储器技术能够在处理器和加速器之间快速且高效地访问和迁移数据,能更快速地释放更多内存,以满足数据中心、通信以及测试测量市场中数据密集型应用日益增长的实时处理和存储需求。
加速主机连接
当前,在AI的迅速发展和重度使用趋势下,计算架构中的内存和存储标准和技术也在不断发展。AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Mike Rather援引相关机构的数据表示,DDR5已成为主流DRAM标准,预计将在未来几年继续主导市场。同时,作为连接存储与主机的创新技术,CXL技术正以212%的年均复合增长率快速普及。预计到2029年,支持CXL技术的服务器比例将接近100%,大大增强了数据中心的内存扩展能力与资源共享灵活性。
因此,第二代Versal Premium器件支持业界最快的主机接口CXL 3.1和PCIe Gen6,可实现行业领先的高带宽主机CPU到加速器连接。与支持PCIe Gen4或Gen5的FPGA相比,PCIe Gen6能提供了2-4倍的线速率,而运行PCIe Gen6的CXL 3.1在类似时延下则能提供使用CXL 2.1器件的双倍带宽,以及增强的架构和一致性功能。
“与第一代Versal Premium系列产品更多关注高安全性、高通量和高带宽情况下的网络加速不同,第二代产品中增加的CXL内存分享和池化技术,是充分考虑到随着大语言模型的兴起,数据中心需要更多内存来支持的情况。”Mike说,简单理解的话,就是第二代Versal Premium系列是助力计算,主要是通过更好地来管理系统内存,因为这正是现在人工智能模型以及各种数据集成最需要的。
此外,通过将第二代Versal Premium系列搭配AMD EPYC™ CPU,系统架构师能够利用经CXL或PCIe连接到高性能CPU的最新AMD FPGA 的器件,以加速数据密集型应用并满足快速的数据增长需求。CXL还能提供内存一致性的额外益处,有助于实现真正的异构加速计算。
Mike特别强调了利用GTM2收发器实现数据流最大化的特性。据介绍,GTM2集成了上一代产品中的GTM和GTM1收发器,支持1.25 Gb/s至128 Gb/s的广泛数据速率,并兼容NRZ与PAM4编码格式。与此同时,GTM2延续了上一代成熟的设计流程,使开发者能够轻松上手,并在系统的各个阶段确保高度的可靠性。这一新型收发器的引入,进一步强化了Versal Premium的高速数据传输能力,为开发者带来了可靠、灵活且强大的解决方案。
提高存储器带宽及利用率
第二代AMD Versal Premium系列自适应SoC能以至高8533Mb/s的最快速 LPDDR5存储器连接加速存储器带宽,带来更快速的数据传输和实时响应。与采用 LPDDR4/5存储器的同类器件相比,这种超快的增强型DDR存储器可将主机连接速度提升至高2.7倍。而且,与DDR4和LPDDR4相比,DDR5和LPDDR5的功耗降低了20%到30%。为了进一步保障内存安全,在第二代Versal Premium还增加了硬内联ECC和加密功能。
与CXL存储器扩展模块进行连接可使总带宽较之单独使用LPDDR5X存储器高出至多 2.7倍。因此,第二代Versal Premium系列允许为多个加速器实现可扩展的内存池和扩展,进而优化存储器利用率并增加带宽和容量。例如,使用LPDDR5X内存时可以实现高达256比特的传输带宽,通过两个8通道CXL连接,速率可达64 Gb/s,从外部存储器获取的带宽超过500 Gb/s,为高效数据处理提供了强大的支持。
通过为多个器件动态分配内存池,第二代Versal Premium系列自适应SoC旨在提高多头单逻辑器件(MH-SLD)的存储器利用率,使其无需架构或交换机即可运行,同时支持至多两个CXL主机。
加强数据安全
增强的安全功能有助于第二代Versal Premium系列在传输和静态状态下均可快速、安全地传输数据。作为业界首款在硬IP中提供集成PCIe®完整性和数据加密(IDE)支持的FPGA器件,第二代Versal Premium系列配置了硬核DDR内存控制器,其内置的内联加密可助力保护静态数据。
而400G高速加密引擎则能帮助器件以至高2倍的线速率保护用户数据,从而实现更快速的安全数据事务。该引擎具备高达800Gb/s的吞吐量,采用AES-GCM-256/128算法进行加密和解密,并支持从40x10G到1x400G的多种通道配置,适应不同的网络需求。
同时,它还兼容MACsec和IPsec协议,其中MACsec适用于保护端到端或共享的以太网链路,常用于广域网(WAN)和数据中心互联(DCI);IPsec则保障了IP网络的连接安全,适用于VPN等场景。通过集成这些先进的安全技术,Versal Premium系列为数据中心、云计算和高性能网络应用提供了灵活且可靠的安全解决方案。
专属应用场景
大数据量与高计算密度场景,是第二代Versal Premium系列最主要的应用目标。
在数据中心中,CXL内存池和单节点通过高带宽的交换结构连接,实现了各机架之间的资源共享和统一管理。基于PCIe Gen6技术的CXL 3.1与CXL 2.0相比,具备两倍带宽,并通过NUMA架构实现与现有软件的轻松集成。Versal Premium在操作模式上支持CXL.io、CXL.mem和CXL.cache三种模式,提供全面的内存管理功能;在器件模式下,Versal Premium可以作为内存控制器运行,同时在主机模式下可连接CXL扩展模块,以实现系统的灵活扩展。此外,Versal Premium还支持多主机单逻辑设备(MH-SLD)架构和系统可组合性,为多主机共享资源提供了硬件支持。
在高性能GPU集群与自适应网络方面,mike解释说,目前越来越多的客户购买并部署大规模GPU集群,但传统的标准网络接口未必能满足其性能与扩展需求。但第二代Versal Premium能够通过单个网络适配器支持两个400G接口,显著提升了GPU集群的数据传输能力,确保其在复杂计算场景中的稳定性与高效性。虽然这一功能此前在Virtex UltraScale+和第一代Versal Premium中已有应用,但第二代Versal Premium在带宽支持和集群灵活性上更进一步。
在测试与测量领域,研发人员对PCIe Gen7标准的开发愈加感兴趣,但分析器、控制器和练习器等组件需要相关测试设备支持高达128 Gb/s的数据收发速率。为此,第二代Versal Premium不仅集成了高效的DSP引擎和内存带宽,还支持多种重要的接口协议,包括C-PHY和D-PHY,满足了测试设备制造商的严苛需求。这一架构设计使Versal Premium在支持先进协议和高带宽测试需求方面具备独特的优势,为下一代高速接口的开发与测试提供了理想的解决方案。
Vivado仍然是所有Versal器件统一的设计环境。在最新版本中,AMD减少了编译时间,包括采用新的P&R算法、改善了多线程性能、以及增强的增量流;通过引入用于顶层设计的RTL流程,以及用于NoC2和GTM2的RTL流程,使得设计入口对开发人员更加友好;同时改善的还有QoR与易用性,主要是通过工具引导的时序收敛、改进的DFX流程、以及分段配置以便加快CPU启动时间和PCIe的唤醒。
目前,第二代AMD Versal™ Premium系列提供四种不同型号,逻辑单元从140万到330万不等,包含3300到7600个DSP引擎。并集成了片上内存、内存控制器、双核A72应用处理器、双核R5F实时处理器、32至72个GTM2收发器、PCIe和CXL支持模块、100G和600G以太网MAC、400G高速加密引擎以及LDPC解码器。
该系列将于2024年第四季度推出功率估算工具,2025年下半年提供完整的Vivado工具,2026年上半年发布芯片样片和开发套件,并在2026年中实现量产出货。