AMD两篇论文入选可编程逻辑顶会FPL2022

FPGA开发圈 2022-08-26 12:03

8月 29 日至 9 月 2 日,可编程逻辑领域的顶级会议之一——“现场可编程逻辑与应用国际会议”(简称FPL) 将在英国贝尔法斯特举行,AMD北京 AI 研发团队的两篇论文成功入选本届会议,分别为《XVDPU:基于 Versal 平台 AI 引擎的高性能 CNN 加速器设计》和《A-U3D: 基于 Versal 平台统一 2D/3D CNN 加速器设计以及针对视差估计应用的优化》。FPL 会议注重硬件架构设计和硬件工具领域的研究。此次 AMD AI 研发团队入选的两篇论文侧重基于 Versal 异构计算平台的 AI 处理器架构设计,充分发挥 Versal 平台的算力和灵活性优势。


今年 CVPR 会议上,AMD AI 研发团队的两篇论文成功入选。在同期举办的计算机图像恢复领域最具影响力的全球赛事 NTIRE 2022 挑战赛上,团队获得高效超分辨率(Efficient Super-Resolution)精度赛道第一的佳绩,相关技术报告也被 CVPR Workshop 接收。


数据、算法和算力是 AI 的三大基石。AMD AI研发团队在顶级学术会议上取得的一系列成绩,不仅展现了团队在算法和算力提升方面的研究成果,也源于团队在创新研究和客户需求双重驱动下的不懈探索,通过前沿研发更好地提升产品核心竞争力,从而助力客户打造更卓越的解决方案。”

单羿博士

AMD公司副总裁、AI研发团队负责人



论文第一作者:贾希杰,AMD高级开发经理


当前,卷积神经网络广泛应用于计算机视觉领域。更高精度和分辨率的需求引入了更复杂的神经网络,算力和数据读写 I/O 因而日益成为瓶颈。AMD 7nm Versal ACAP 具备 AI 引擎核(AIE 核),与传统 FPGA 解决方案相比,能够以 50% 的能耗提供8倍的算力。



上图展示了论文中 XVDPU 加速器的架构设计,它具有以下特征:

⬇️上下滑动查看更多内容⬇️

1

基于 Versal 平台芯片,卷积运算由片内 AIE 核执行,支持 int8 量化精度;

2

支持 AIE 核数从 16 到 320 之间按 16 整数倍灵活配置,320 个 AIE 核可提供 109.2 TOPs 的峰值算力;

3

采用一系列技术优化手段解决I/O瓶颈,包括多 batch 设计(MB)、共享权重(SHRWGT)、片上存储中间层数据(FMS)和单指令权重加载(LLW)技术等,力求增加数据复用率并减少带宽需求;

4

为平衡计算资源、扩展新功能和提升整体性能,设计了通用计算单元 ALU 模块来执行神经网络中的非卷积计算,包括DepthWise Conv、Pooling、ElementWise 和 Non-linear 等功能;

5

支持 100 余个 CNN 模型,加速器在 VCK190 板卡上进行了多个配置的实现,其中,仅使用 96 核配置(C32B3,Peak:32.76TOPs)运行 resnet50 帧率 1653FPS,9.8 倍于ZCU102 上的 168.5FPS。仅使用 256 核配置(C32B8, Peak:87.36TOPs)更充分地利用了 AIE 算力,运行帧率达 4050FPS。


实验表明,仅使用 96个AIE 核的配置,XVDPU 具有 9.8 倍于 ZCU102 ZU9 MPSoC 的计算能力和更高的计算效率,对于非 I/O 瓶颈的网络,如 MLPerf_resnet50_v1.5_tf 和 vgg_16_tf,可以获得 9 倍多的 FPS 性能,限于板卡的 DDR 带宽(68.3GB/s),所支持的网络中可以获得 1 倍多到 9 倍多的 FPS 性能。


XVDPU 是一个“AI 引擎 + PL 逻辑 + PS CPU”的混合异构计算系统:AI 引擎具有强大的并行计算能力,应用于推理计算可以获得高能效比;PL 逻辑的在线可编程特性提供了灵活性,可以根据网络模型的变化进行升级,支持最新的网络模型;借助 PS ARM核中的Linux系统,灵活支持应用软件。异构计算系统各部分发挥各自优势,合力构建了高性能CNN加速器。


得益于强大的计算性能和计算效率、新型网络模型的广泛支持,XVDPU 上已经成功部署超过 100 个CNN模型,从低时延数据中心到高阶自动驾驶、再到复杂机器人系统等广泛的嵌入式系统,都能够从中受益。



论文第一作者:张天宇,AMD高级工程师


视差估计是一项基本的计算机视觉任务,它在给定一对校正立体图像的情况下预测每个像素的视差,在自动驾驶、机器人等领域具有广泛的应用。最近基于 CNN 的方法将 3D 卷积和视差回归用于视差估计。PSMNet 是流行的基于 3D CNN 的解决方案之一,具有良好的保真度结果,但部署网络消耗算力大。在这项工作中,团队以 PSMNet 为例,旨在为嵌入式设备上的一般视差估计任务提供参考解决方案。论文中介绍的加速器架构设计如下图所示。



本论文研究的独特价值在于以下3方面:

⬇️上下滑动查看更多内容⬇️

1

针对 PSMNet 模型的大算力需求团队进行了一系列优化,优化前其算力为 2.16T FLOPs。通过对模型进行修剪和量化,将其算力需求压缩为 696GOPs,量化精度为 8bit,以降低计算复杂度和内存占用。

2

针对 PSMNet 的复杂模型结构。将模型中的 3D 标准/转置卷积分别整合统一为 2D 标准卷积,计算单元可以在相同模式下执行 2D 和 3D 卷积操作,而无需额外的结构。设计了基于 Versal 平台的混合计算架构,在 CPU(ARM)的调度下,AIE 核、PL中的DSP、PS的 ARM 核可以并行计算,以应对各种计算需求。

3

提出了基于A-U3D的视差估计解决方案,在 VCK190 板卡上仅使用 96 个 AIE 核,系统运行 8bit 剪枝 PSMNet 网络的时延为 0.289s,E2E 性能可以达到 10.1FPS。


与不同平台相比,团队的工作实现了更高的能量效率、0.289s的延迟和10.1FPS的帧率。在轻量级工作负载模型中,该解决方案展示了超过 10,000 GOP/s E2E 吞吐量。因此,这种解决方案具备更高的实用性,非常适合应用于自动驾驶、机器人和其它机器视觉相关领域。



人才招聘 2022

AMD AI 研发团队位于北京,聚焦 AI 领域的前沿研究,涵盖 AI 算法、编译器、软件和 IP 开发等方向,服务于众多数据中心、自动驾驶和机器人等企业客户。

这里有窗明几净的工作环境,浓厚的工程师氛围,充满竞争力的薪酬福利,欢迎相关方向的小伙伴加入,简历可发送至:xijie.jia@amd.com

2022FPGA生态峰会开启在即!

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论 (0)
  • 深圳触觉智能RK3506开发板现已上市,开启预售!搭载瑞芯微RK3506B/J超低功耗工业处理器(1.5GHz三核A7+M0,主频1.5GHz);支持1280×1280显示、双百兆网口、星闪无线三模,板载高达2路CAN FD与5路串口。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机交互等应用场景。其多核异构架构(3xCortex-A7+Cortex-M0)和外设接口丰富,支持Buildroot、Yocto系统,适合轻量级HMI应用‌。‌工业通信‌:RK3506均支
    Industio_触觉智能 2025-03-07 10:04 136浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 165浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 134浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 162浏览
  • 随着自动驾驶技术的迅猛发展,构建高保真、动态的仿真场景成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下,3D高斯点阵渲染(3DGS)技术应运而生,成为自动驾驶仿真场景重建的关键突破。一、3DGS技术概述与原理1、3DGS的技术概述3DGS是一种基于3D高斯分布的三维场景表示方法。通过将场景中的对象转化为多个3D高斯点,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的几何形状和光照特性。与传统的神经辐射场(NeRF)方法相比,
    康谋 2025-03-06 13:17 320浏览
  • 概述随着工业4.0的深入推进,制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题,尤其在现有工厂改造项目中,如何在有限空间内实现高效自动化成为一大挑战。此次项目的客户需要在现有工厂基础上进行改造,空间有限。为此,客户选择了SCARA型线性轴机器人作为执行设备。然而,SCARA机器人的高效运行离不开强大的控制系统支持。宏集凭借其先进的智能控制系统,为客户提供了高效、灵活的自动化解决方案,确保SCARA机器人在有限空间内发挥最大效能。一、客户需求在此次改造项目中,
    宏集科技 2025-03-06 11:27 205浏览
  • ​CS6212是一款可分别用于USB Type-C主机/显示端口源应用的带重定时的有源开关。这设备符合USB 3.2标准版本1.0和USB Type-C标准上的VESA DisplayPort Alt模式 1.0版,支持通过GPIO或12C进行灵活的模式切换。此设备支持USB 3.2第2x1代 运行速度高达10Gbps,DisplayPort 1.4运行速度高达HBR3 8.1Gbps。CS6212管脚分布及功能定义:CS6212支持重定时器训练,并支持USB 3.2标准中定义的状态状态机(RT
    QQ1540182856 2025-03-07 10:09 162浏览
  • Sub-GHz,即工作频段低于1GHz的无线通信技术,常见频段有315MHz、433MHz、868MHz与915MHz等。其可借助无线电波在自由空间传播的特性,把数据调制到射频载波上进行传输,达成物联网设备间的无线通信,是物联网设备实现高效、稳定、无缝交互的“通信基石”。典型射频信号(无线电波)收发电路简示在工业自动化、智慧城市、智慧农业与智能家居等物联网领域中,LoRa、Wi-SUN、Z-Wave、Sigfox等工业级通信协议大多运行在Sub-GHz频段。而正是通过Sub-GHz射频技术,传感
    华普微HOPERF 2025-03-07 11:39 159浏览
  • 在企业管理和职场环境中,权力是一个常被提及却又让人感到微妙的话题。有人觉得它充满吸引力,有人却对它避之不及。然而,不管你对权力的态度如何,理解它、掌握它,甚至善用它,都是职场成功的重要一环。今天,我们就来深入探讨权力的本质,特别是个人权力和社会权力的区别,以及如何在职场中逐步建立属于自己的影响力。权力的两种面貌:你掌控自己,还是掌控他人?说到权力,首先要区分它的两种类型。个人权力是你对自己生活的掌控感。比如,你能自由决定自己的职业方向,不用总是请示他人。这种权力让人感到踏实和满足,是我们在生活中
    优思学院 2025-03-07 15:56 209浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 143浏览
  • 在六西格玛项目中,团队的选择往往决定了最终的成败。合适的团队成员不仅能推动项目顺利进行,更能确保最终成果符合预期。因此,组建六西格玛团队时,必须挑选最合适的人才,确保他们具备必要的能力和特质。团队主管的关键特质每个精益六西格玛项目都需要一位主管来带领团队。他们不仅需要具备领导力,还要能够分析数据、制定策略,并与管理层和团队成员高效沟通。团队主管的核心职责包括:领导团队行动:能够激励成员,确保团队朝着既定目标前进。数据分析能力:精通数据处理和分析,能基于数据做出决策。沟通协调:能够在管理层和团队之
    优思学院 2025-03-06 12:51 132浏览
  • 近年来,越来越多的企业在5S管理的基础上,开始追求6S、7S甚至8S管理,仿佛S越多,管理就越先进,企业就越优秀。于是,6S增加了“安全”,7S又加上了“节约”,8S甚至引入了“学习”……看似更加全面,实则很多企业只是机械地增加S,却忽略了管理的核心目标:提升效率、降低浪费、优化工作环境。优思学院认为,5S本身已经是一套成熟的精益管理工具,它的核心理念不仅简单高效,而且易于实施和推广。如果企业只是为了赶时髦,盲目增加S,而没有真正理解5S的本质,那么这些额外的“S”很可能会变成管理上的负担,而不
    优思学院 2025-03-07 12:43 205浏览
  •        深夜的公园里,当路灯熄灭后,传统监控摄像头只能拍出模糊的黑白画面,仿佛老式胶片电影里的场景。而搭载为旌瑶光ISP的摄像头,却能像猫科动物一样,在几乎全黑的环境中捕捉到行人衣服的颜色、树叶的纹理,甚至快速跑动的宠物狗毛发细节。这种从“黑白默片”到“全彩4K电影”的跨越,背后是为旌瑶光ISP对传统红外补光技术的颠覆性创新。一、传统方案之困:被红外光“绑架”的夜视世界        传统安防摄像头依赖红外
    中科领创 2025-03-07 16:50 319浏览
  • 一、系统概述MYD-LD25X搭载的Debian系统包含以太网、WIFI/BT、USB、RS485、RS232、CAN、AUDIO、HDMI显示和摄像头等功能,同时也集成了XFCE轻量化桌面、VNC远程操控、SWITCH网络交换和TSN时间敏感网络功能,为工业设备赋予“超强算力+实时响应+极简运维”的体验!类别名称描述源码TF-AArm Trusted Firmware 2.8OP-TEEOP-TEE 3.19BootloaderU-boot 2022.10KernelLinux Ke
    米尔电子嵌入式 2025-03-07 14:08 241浏览
  • 深圳触觉智能SOM3506核心板现已上市,搭载瑞芯微RK3506B/J超低功耗处理器(1.5GHz三核A7+M0),低功耗满载仅0.7W,支持40℃~85℃工作环境,即日起宽温级59元/工业级68元,特价开售!芯片介绍RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机
    Industio_触觉智能 2025-03-07 10:03 159浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦