近期Xilinx 宣布扩展其 Versal 系列,专注于低功耗和边缘设备。 Xilinx Versal 是多种不同处理器技术组合的产物:FPGA、Arm 内核、快速存储器、AI 引擎、可编程 DSP、硬化存储控制器和 IO;所有这些技术的优势意味着 Versal 可以扩展到高端 Premium(2020 年推出)以及低端边缘设备,所有产品都基于台积电的 7nm 工艺。
ACAP
几年前,Xilinx 发现其客户需求发生了变化:尽管是 FPGA 供应商,但客户想要更类似于常规处理器的产品,同时具有 FPGA 的灵活性。 2018 年,该公司引入了 ACAP(Adaptive Computing Acceleration Platform) 的概念,这是一种自适应计算加速平台,可像传统处理器一样提供强化计算、内存和 IO,同时也提供 FPGA 的大量可编程逻辑和加速引擎。第一款基于 TSMC N7 的高端 ACAP 处理器于 2020 年推出,其中一些带有 HBM,用于高性能工作负载。
可以看出Xilinx 的 ACAP 设计不是采用 100% FPGA的设计,而是将部分芯片面积诸如处理器内核或内存之类的逻辑硬化,允许以更低的功耗和更小的芯片面积提供全系列专用标准化 IP 模块,同时仍然保留了很大一部分芯片面积用于 FPGA ,允许客户部署自定义逻辑解决方案。这对于 AI 来说至关重要,因为算法在不断发展,新框架也在不断形成,不同的计算网络需要不同的资源平衡;芯片上有 FPGA,再加上标准的硬化 IP,这样可以使安装单个产品能够服务多年。
Xilinx Versal AI Edge
关于安装产品十年并必须更新算法这一点,没有什么比使用传统的“边缘”设备更真实的场景了。在“边缘”,我们谈论的是传感器、摄像头、工业系统、商业系统——设备必须在其长安装寿命内使用它所拥有的任何硬件。今天有一些基于 2000 年之前的硬件构建的边缘系统,可以为我们展示这个市场范畴;可以看到随着需求和用例的变化,边缘设备必须更具扩展性。这就是Xilinx的全新 Versal AI Edge 产品组合的目标——不断更新相机、机器人、自动化、医疗和其他市场等设备中的“智能”功能的能力。
Xilinx 的传统 Versal 器件包含多个标量引擎(用于应用的 Arm A72 内核,用于实时的 Arm R5 内核)、智能引擎(AI 模块、DSP)、自适应引擎(FPGA)和 IO(PCIe、DDR、以太网、 MIPI)。对于最大的 Versal 产品而言,它们既庞大又强大,并由可编程的片上网络提供支持;对于 Versal 的 AI Edge 平台,混合了两个新功能。
首先是使用非常靠近标量引擎的加速SRAM。它不是传统的缓存,而是一个带有密集 SRAM 的专用可配置暂存器,访问无需穿越内存总线,可以实现低延迟访问。传统的缓存使用预测算法从主内存中提取数据,但如果程序员知道工作负载,他们可以确保在预测器知道要做什么之前,延迟关键点所需的数据已经被放置在靠近处理器的地方。这个 4 MB 块具有确定性延迟,使实时 R5 也能参与进来,并为 R5 提供 12.8 GB/s 的带宽;它还为 AI 引擎提供 35 GB/s 的带宽,用于需要在该方向上处理的数据。
另一个更新是在 AI 引擎中。最初的 Xilinx Versal 硬件支持两种类型的机器学习:训练和推理。这两种工作负载在计算和内存方面具有不同的优化点,虽然在大型芯片上支持两者很重要,但 Edge 处理器几乎专门用于推理。因此,Xilinx重新配置了内核,并将这些新引擎称为“AIE-ML”。
最简单的 AIE-ML 配置有 8 个 AIE-ML 引擎(在 6W 处理器上),而最大的有 304 个。使它们与普通引擎不同的是每个引擎的本地数据缓存翻倍,额外的内存块用于全局 SRAM 访问,以及对推理特定数据类型的原生支持,例如 INT4 和 BF16。除此之外,乘法器数量也加倍,使 INT8 性能翻倍。
正由于这两个特性的结合,Xilinx声称每瓦性能比传统 GPU 解决方案(与 AGX Xavier 相比)提高 4 倍,计算密度(与 Zynq Ultrascale 相比)提高 10 倍,并且随着 AI 工作负载的变化具有更高的适应性。与此相结合的将是额外的验证,支持垂直行业的多种安全标准。
在Xilinx 的简报中,鉴于当前全球芯片短缺,有一点令我们印象深刻。下图中Xilinx将自己当前的 3 级驾驶汽车解决方案与其新的解决方案进行了比较。
为了实现 3 级驱动,当前的解决方案使用三个处理器,总共 1259 平方毫米的硅面积,同时每个处理器还需要内存等。新的 Versal AI Edge 解决方案取代了所有三个 Zynq FPGA,将 3 个处理器减少到 1 个,在相同功率下面积减少到 529平方毫米,但其计算能力提高了 4 倍。即使汽车制造商为了冗余加倍芯片数量,新的解决方案仍然比以前的解决方案面积更小。
这将成为处理器解决方案的一个关键特性——实际需要多少芯片才能使平台正常工作。更少的硅通常意味着更低的成本和更少的半导体供应压力,从而能够在固定的时间内生产更多产品。虽然大硅片的产能可能不会那么紧张,或者结合其工艺对应的功耗或成本并不是最优,但是如果该行业最终受到硅片产能和封装的限制,这将是一个值得考虑的因素。
虽然Xilinx已经发出公告,其样片需要等到 2022 年上半年才会发布;完整的测试和评估套件将于 2022 年下半年推出。Xilinx 建议如果客户对 AI Edge 平台感兴趣,现在可以使用 Versal AI ACAP VCK190 评估套件开始原型设计,后面对其进行迁移。
AI Edge 处理器的完整规格如下所示, 新的加速器 SRAM 位于前四个处理器上,而AIE-ML 则位于所有 2000 系列部件上。Xilinx表示,所有 AI Edge 处理器都将基于台积电的 N7+ 工艺。
原文链接:
https://www.anandtech.com/show/16750/xilinx-expands-versal-ai-to-the-edge-helping-solve-the-silicon-shortage
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |
< 长按识别二维码添加好友 >
加入上述群聊
带你走进万物存储、万物智能、
万物互联信息革命新时代