AMD两篇论文入选可编程逻辑顶会FPL2022

FPGA开发圈 2022-08-26 12:03

8月 29 日至 9 月 2 日,可编程逻辑领域的顶级会议之一——“现场可编程逻辑与应用国际会议”(简称FPL) 将在英国贝尔法斯特举行,AMD北京 AI 研发团队的两篇论文成功入选本届会议,分别为《XVDPU:基于 Versal 平台 AI 引擎的高性能 CNN 加速器设计》和《A-U3D: 基于 Versal 平台统一 2D/3D CNN 加速器设计以及针对视差估计应用的优化》。FPL 会议注重硬件架构设计和硬件工具领域的研究。此次 AMD AI 研发团队入选的两篇论文侧重基于 Versal 异构计算平台的 AI 处理器架构设计,充分发挥 Versal 平台的算力和灵活性优势。


今年 CVPR 会议上,AMD AI 研发团队的两篇论文成功入选。在同期举办的计算机图像恢复领域最具影响力的全球赛事 NTIRE 2022 挑战赛上,团队获得高效超分辨率(Efficient Super-Resolution)精度赛道第一的佳绩,相关技术报告也被 CVPR Workshop 接收。


数据、算法和算力是 AI 的三大基石。AMD AI研发团队在顶级学术会议上取得的一系列成绩,不仅展现了团队在算法和算力提升方面的研究成果,也源于团队在创新研究和客户需求双重驱动下的不懈探索,通过前沿研发更好地提升产品核心竞争力,从而助力客户打造更卓越的解决方案。”

单羿博士

AMD公司副总裁、AI研发团队负责人



论文第一作者:贾希杰,AMD高级开发经理


当前,卷积神经网络广泛应用于计算机视觉领域。更高精度和分辨率的需求引入了更复杂的神经网络,算力和数据读写 I/O 因而日益成为瓶颈。AMD 7nm Versal ACAP 具备 AI 引擎核(AIE 核),与传统 FPGA 解决方案相比,能够以 50% 的能耗提供8倍的算力。



上图展示了论文中 XVDPU 加速器的架构设计,它具有以下特征:

⬇️上下滑动查看更多内容⬇️

1

基于 Versal 平台芯片,卷积运算由片内 AIE 核执行,支持 int8 量化精度;

2

支持 AIE 核数从 16 到 320 之间按 16 整数倍灵活配置,320 个 AIE 核可提供 109.2 TOPs 的峰值算力;

3

采用一系列技术优化手段解决I/O瓶颈,包括多 batch 设计(MB)、共享权重(SHRWGT)、片上存储中间层数据(FMS)和单指令权重加载(LLW)技术等,力求增加数据复用率并减少带宽需求;

4

为平衡计算资源、扩展新功能和提升整体性能,设计了通用计算单元 ALU 模块来执行神经网络中的非卷积计算,包括DepthWise Conv、Pooling、ElementWise 和 Non-linear 等功能;

5

支持 100 余个 CNN 模型,加速器在 VCK190 板卡上进行了多个配置的实现,其中,仅使用 96 核配置(C32B3,Peak:32.76TOPs)运行 resnet50 帧率 1653FPS,9.8 倍于ZCU102 上的 168.5FPS。仅使用 256 核配置(C32B8, Peak:87.36TOPs)更充分地利用了 AIE 算力,运行帧率达 4050FPS。


实验表明,仅使用 96个AIE 核的配置,XVDPU 具有 9.8 倍于 ZCU102 ZU9 MPSoC 的计算能力和更高的计算效率,对于非 I/O 瓶颈的网络,如 MLPerf_resnet50_v1.5_tf 和 vgg_16_tf,可以获得 9 倍多的 FPS 性能,限于板卡的 DDR 带宽(68.3GB/s),所支持的网络中可以获得 1 倍多到 9 倍多的 FPS 性能。


XVDPU 是一个“AI 引擎 + PL 逻辑 + PS CPU”的混合异构计算系统:AI 引擎具有强大的并行计算能力,应用于推理计算可以获得高能效比;PL 逻辑的在线可编程特性提供了灵活性,可以根据网络模型的变化进行升级,支持最新的网络模型;借助 PS ARM核中的Linux系统,灵活支持应用软件。异构计算系统各部分发挥各自优势,合力构建了高性能CNN加速器。


得益于强大的计算性能和计算效率、新型网络模型的广泛支持,XVDPU 上已经成功部署超过 100 个CNN模型,从低时延数据中心到高阶自动驾驶、再到复杂机器人系统等广泛的嵌入式系统,都能够从中受益。



论文第一作者:张天宇,AMD高级工程师


视差估计是一项基本的计算机视觉任务,它在给定一对校正立体图像的情况下预测每个像素的视差,在自动驾驶、机器人等领域具有广泛的应用。最近基于 CNN 的方法将 3D 卷积和视差回归用于视差估计。PSMNet 是流行的基于 3D CNN 的解决方案之一,具有良好的保真度结果,但部署网络消耗算力大。在这项工作中,团队以 PSMNet 为例,旨在为嵌入式设备上的一般视差估计任务提供参考解决方案。论文中介绍的加速器架构设计如下图所示。



本论文研究的独特价值在于以下3方面:

⬇️上下滑动查看更多内容⬇️

1

针对 PSMNet 模型的大算力需求团队进行了一系列优化,优化前其算力为 2.16T FLOPs。通过对模型进行修剪和量化,将其算力需求压缩为 696GOPs,量化精度为 8bit,以降低计算复杂度和内存占用。

2

针对 PSMNet 的复杂模型结构。将模型中的 3D 标准/转置卷积分别整合统一为 2D 标准卷积,计算单元可以在相同模式下执行 2D 和 3D 卷积操作,而无需额外的结构。设计了基于 Versal 平台的混合计算架构,在 CPU(ARM)的调度下,AIE 核、PL中的DSP、PS的 ARM 核可以并行计算,以应对各种计算需求。

3

提出了基于A-U3D的视差估计解决方案,在 VCK190 板卡上仅使用 96 个 AIE 核,系统运行 8bit 剪枝 PSMNet 网络的时延为 0.289s,E2E 性能可以达到 10.1FPS。


与不同平台相比,团队的工作实现了更高的能量效率、0.289s的延迟和10.1FPS的帧率。在轻量级工作负载模型中,该解决方案展示了超过 10,000 GOP/s E2E 吞吐量。因此,这种解决方案具备更高的实用性,非常适合应用于自动驾驶、机器人和其它机器视觉相关领域。



人才招聘 2022

AMD AI 研发团队位于北京,聚焦 AI 领域的前沿研究,涵盖 AI 算法、编译器、软件和 IP 开发等方向,服务于众多数据中心、自动驾驶和机器人等企业客户。

这里有窗明几净的工作环境,浓厚的工程师氛围,充满竞争力的薪酬福利,欢迎相关方向的小伙伴加入,简历可发送至:xijie.jia@amd.com

2022FPGA生态峰会开启在即!

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 在现代科技浪潮中,精准定位技术已成为推动众多关键领域前进的核心力量。虹科PCAN-GPS FD 作为一款多功能可编程传感器模块,专为精确捕捉位置和方向而设计。该模块集成了先进的卫星接收器、磁场传感器、加速计和陀螺仪,能够通过 CAN/CAN FD 总线实时传输采样数据,并具备内部存储卡记录功能。本篇文章带你深入虹科PCAN-GPS FD的技术亮点、多场景应用实例,并展示其如何与PCAN-Explorer6软件结合,实现数据解析与可视化。虹科PCAN-GPS FD虹科PCAN-GPS FD的数据处
    虹科汽车智能互联 2024-11-29 14:35 149浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 75浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 151浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 62浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 119浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 65浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 63浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 161浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-29 14:30 118浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦