继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal Premium系列,使得第二代Versal系列的版图更趋完整。

继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal™ Premium系列,使得第二代Versal系列的版图更趋完整。

Versal的名字来源于两个词,一个是多样性,一个是通用性。第一代产品组合包括Versal基础系列(Versal Prime)、Versal旗舰系列(Versal Premium)系列和HBM系列。此外,还包括AI核心系列(AI Core)、AI边缘系列(AI Edge)和AI射频系列(AI RF)。

2020年推出的Versal Premium是当时业界带宽最高、计算密度最高的自适应平台。其系统逻辑单元从最小160万个到最高740万个,自适应引擎LUT数量从最低72万个到最高340万个,可提供比主流FPGA高3倍的吞吐量和2倍的计算密度,并内置以太网、Interlaken和加密引擎,专为在散热条件和空间受限的环境下运行最高带宽网络,以及那些需要可扩展、灵活应变应用加速的云提供商而设计。

而第二代Versal Premium系列则是FPGA行业首款在硬IP中采用Compute Express Link(CXL)3.11与PCIe Gen6并支持LPDDR5存储器的器件。这些下一代接口和存储器技术能够在处理器和加速器之间快速且高效地访问和迁移数据,能更快速地释放更多内存,以满足数据中心、通信以及测试测量市场中数据密集型应用日益增长的实时处理和存储需求。

加速主机连接 

当前,在AI的迅速发展和重度使用趋势下,计算架构中的内存和存储标准和技术也在不断发展。AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Mike Rather援引相关机构的数据表示,DDR5已成为主流DRAM标准,预计将在未来几年继续主导市场。同时,作为连接存储与主机的创新技术,CXL技术正以212%的年均复合增长率快速普及。预计到2029年,支持CXL技术的服务器比例将接近100%,大大增强了数据中心的内存扩展能力与资源共享灵活性。

因此,第二代Versal Premium器件支持业界最快的主机接口CXL 3.1和PCIe Gen6,可实现行业领先的高带宽主机CPU到加速器连接。与支持PCIe Gen4或Gen5的FPGA相比,PCIe Gen6能提供了2-4倍的线速率,而运行PCIe Gen6的CXL 3.1在类似时延下则能提供使用CXL 2.1器件的双倍带宽,以及增强的架构和一致性功能。

“与第一代Versal Premium系列产品更多关注高安全性、高通量和高带宽情况下的网络加速不同,第二代产品中增加的CXL内存分享和池化技术,是充分考虑到随着大语言模型的兴起,数据中心需要更多内存来支持的情况。”Mike说,简单理解的话,就是第二代Versal Premium系列是助力计算,主要是通过更好地来管理系统内存,因为这正是现在人工智能模型以及各种数据集成最需要的。

此外,通过将第二代Versal Premium系列搭配AMD EPYC™ CPU,系统架构师能够利用经CXL或PCIe连接到高性能CPU的最新AMD FPGA 的器件,以加速数据密集型应用并满足快速的数据增长需求。CXL还能提供内存一致性的额外益处,有助于实现真正的异构加速计算。  

Mike特别强调了利用GTM2收发器实现数据流最大化的特性。据介绍,GTM2集成了上一代产品中的GTM和GTM1收发器,支持1.25 Gb/s至128 Gb/s的广泛数据速率,并兼容NRZ与PAM4编码格式。与此同时,GTM2延续了上一代成熟的设计流程,使开发者能够轻松上手,并在系统的各个阶段确保高度的可靠性。这一新型收发器的引入,进一步强化了Versal Premium的高速数据传输能力,为开发者带来了可靠、灵活且强大的解决方案。

提高存储器带宽及利用率

第二代AMD Versal Premium系列自适应SoC能以至高8533Mb/s的最快速 LPDDR5存储器连接加速存储器带宽,带来更快速的数据传输和实时响应。与采用 LPDDR4/5存储器的同类器件相比,这种超快的增强型DDR存储器可将主机连接速度提升至高2.7倍。而且,与DDR4和LPDDR4相比,DDR5和LPDDR5的功耗降低了20%到30%。为了进一步保障内存安全,在第二代Versal Premium还增加了硬内联ECC和加密功能。

与CXL存储器扩展模块进行连接可使总带宽较之单独使用LPDDR5X存储器高出至多 2.7倍。因此,第二代Versal Premium系列允许为多个加速器实现可扩展的内存池和扩展,进而优化存储器利用率并增加带宽和容量。例如,使用LPDDR5X内存时可以实现高达256比特的传输带宽,通过两个8通道CXL连接,速率可达64 Gb/s,从外部存储器获取的带宽超过500 Gb/s,为高效数据处理提供了强大的支持。

通过为多个器件动态分配内存池,第二代Versal Premium系列自适应SoC旨在提高多头单逻辑器件(MH-SLD)的存储器利用率,使其无需架构或交换机即可运行,同时支持至多两个CXL主机。

加强数据安全 

增强的安全功能有助于第二代Versal Premium系列在传输和静态状态下均可快速、安全地传输数据。作为业界首款在硬IP中提供集成PCIe®完整性和数据加密(IDE)支持的FPGA器件,第二代Versal Premium系列配置了硬核DDR内存控制器,其内置的内联加密可助力保护静态数据。

而400G高速加密引擎则能帮助器件以至高2倍的线速率保护用户数据,从而实现更快速的安全数据事务。该引擎具备高达800Gb/s的吞吐量,采用AES-GCM-256/128算法进行加密和解密,并支持从40x10G到1x400G的多种通道配置,适应不同的网络需求。

同时,它还兼容MACsec和IPsec协议,其中MACsec适用于保护端到端或共享的以太网链路,常用于广域网(WAN)和数据中心互联(DCI);IPsec则保障了IP网络的连接安全,适用于VPN等场景。通过集成这些先进的安全技术,Versal Premium系列为数据中心、云计算和高性能网络应用提供了灵活且可靠的安全解决方案。

属应用场景

大数据量与高计算密度场景,是第二代Versal Premium系列最主要的应用目标。

在数据中心中,CXL内存池和单节点通过高带宽的交换结构连接,实现了各机架之间的资源共享和统一管理。基于PCIe Gen6技术的CXL 3.1与CXL 2.0相比,具备两倍带宽,并通过NUMA架构实现与现有软件的轻松集成。Versal Premium在操作模式上支持CXL.io、CXL.mem和CXL.cache三种模式,提供全面的内存管理功能;在器件模式下,Versal Premium可以作为内存控制器运行,同时在主机模式下可连接CXL扩展模块,以实现系统的灵活扩展。此外,Versal Premium还支持多主机单逻辑设备(MH-SLD)架构和系统可组合性,为多主机共享资源提供了硬件支持。

在高性能GPU集群与自适应网络方面,mike解释说,目前越来越多的客户购买并部署大规模GPU集群,但传统的标准网络接口未必能满足其性能与扩展需求。但第二代Versal Premium能够通过单个网络适配器支持两个400G接口,显著提升了GPU集群的数据传输能力,确保其在复杂计算场景中的稳定性与高效性。虽然这一功能此前在Virtex UltraScale+和第一代Versal Premium中已有应用,但第二代Versal Premium在带宽支持和集群灵活性上更进一步。

在测试与测量领域,研发人员对PCIe Gen7标准的开发愈加感兴趣,但分析器、控制器和练习器等组件需要相关测试设备支持高达128 Gb/s的数据收发速率。为此,第二代Versal Premium不仅集成了高效的DSP引擎和内存带宽,还支持多种重要的接口协议,包括C-PHY和D-PHY,满足了测试设备制造商的严苛需求。这一架构设计使Versal Premium在支持先进协议和高带宽测试需求方面具备独特的优势,为下一代高速接口的开发与测试提供了理想的解决方案。

Vivado仍然是所有Versal器件统一的设计环境。在最新版本中,AMD减少了编译时间,包括采用新的P&R算法、改善了多线程性能、以及增强的增量流;通过引入用于顶层设计的RTL流程,以及用于NoC2和GTM2的RTL流程,使得设计入口对开发人员更加友好;同时改善的还有QoR与易用性,主要是通过工具引导的时序收敛、改进的DFX流程、以及分段配置以便加快CPU启动时间和PCIe的唤醒。

目前,第二代AMD Versal™ Premium系列提供四种不同型号,逻辑单元从140万到330万不等,包含3300到7600个DSP引擎。并集成了片上内存、内存控制器、双核A72应用处理器、双核R5F实时处理器、32至72个GTM2收发器、PCIe和CXL支持模块、100G和600G以太网MAC、400G高速加密引擎以及LDPC解码器。

该系列将于2024年第四季度推出功率估算工具,2025年下半年提供完整的Vivado工具,2026年上半年发布芯片样片和开发套件,并在2026年中实现量产出货。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
莱迪思(Lattice)正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言,这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距,但近年来国产FPGA的发展势头不容小觑……
在金融行业的高频交易中,每一纳秒都至关重要,会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下,AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求,还以其独特的优势引领着金融交易的新时代。
中国市场对于Lattice而言不仅是至关重要的战略市场,更是其全球业务不可或缺的一部分。他提到,Lattice在中国的业务历史已超过30年,作为首批进入中国市场的半导体企业之一,Lattice已经建立了专门的本地团队,这些团队不仅深入理解并服务中国市场,还致力于为中国客户量身打造解决方案。
TI最近刚刚发布了新款PLD(可编程逻辑)产品系列,据说不需要编程知识,就能在十分钟内完成设计、仿真和配置...
Altera的首席执行官Sandra Rivera明确表示,英特尔没有改变其既定计划,即在2026年推动Altera完成首次公开募股(IPO)并出售部分在Altera的持股。
以市值860亿美元计算,英特尔已跌出全球十大芯片制造商之列。它是今年费城芯片指数中表现第二差的公司……
尽管以人工智能为代表的智算中心对运维成本和节能减排的需求非常强烈,也是液冷技术发展和进步的重要推动力,但是由于目前中国在高端芯片或高能耗设备的获取上受到一定的制约……
目前工艺建模主要采用的是数据驱动模型和半物理模型两大方法。数据驱动模型在提高预测精度方面表现出色,但需要大量的量测数据支持,且容易出现过拟合或模型不收敛情况……
提供超低RDS(on)和超高的电流与热管理能力
相较于上一代Graviton3处理器,基于Arm Neoverse V2平台的AWS Graviton4处理器在计算性能上提升了30%,核心数增加了50%,内存带宽提高了75%。
星海情报局 系统研究中国制造与国产替代专注中国产业崛起故事▲关注产业资讯,破解科技密码追赶先进技术风口,看中国制造的星辰大海
12月12日,华为官微消息显示,当日阿维塔科技有限公司与华为技术有限公司在深圳华为总部签署全面深化战略合作协议,以新模式推动合作迈入新阶段。          图片来源:华为官微          根
泰国投资委员会(BOI)周三表示,已批准富士康旗下子公司的一项3.06亿美元(约合人民币22.22亿元)投资,用于生产芯片行业的机械零部件和设备。该投资通过富士康的子公司Unique Integrat
“从传统OLED到印刷OLED这并非技术迭代,而是技术路线的选择。”12月11日,在TCL全球技术创新大会期间,TCL华星副总裁、研发中台总经理赵斌接受采访,分享了TCL华星在量子点技术、MicroL
这是科技行业著名观察者庄明浩写的AI行业年度总结PPT,干货极多,信息量极大,如果想听他对这个PPT的完整讲解,欢迎关注小宇宙“屠龙之术”。如果喜欢音频的版本,也可以去播客收听。以下,enjoy。
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
2024年12月9日,继大陆集团执行董事会于 8 月初宣布就汽车子集团拆分事项进行详细评估后,现已正式决定实施该拆分计划。该计划预计将于2025年3月获得监事会批准,并于2025年4月25日提交至年度
据外媒调查报道,俄罗斯在没有得到美国芯片制造商德州仪器(TI)的许可下,自己已经成功地建立了该公司零部件的供应链。调查报告称,流出的文件显示,采购流程可谓出奇地简单,一些俄罗斯分销商已将德州仪器网上商
12月12日,证券界有观测认为,LG Display将成功扭转明年的业绩。SK证券预测明年LG Display的年业绩为销售额25.5万亿韩元,营业利润4009亿韩元,Kiwoom证券预测销售额27.
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质