8月 29 日至 9 月 2 日,可编程逻辑领域的顶级会议之一——“现场可编程逻辑与应用国际会议”(简称FPL) 将在英国贝尔法斯特举行,AMD北京 AI 研发团队的两篇论文成功入选本届会议,分别为《XVDPU:基于 Versal 平台 AI 引擎的高性能 CNN 加速器设计》和《A-U3D: 基于 Versal 平台统一 2D/3D CNN 加速器设计以及针对视差估计应用的优化》。FPL 会议注重硬件架构设计和硬件工具领域的研究。此次 AMD AI 研发团队入选的两篇论文侧重基于 Versal 异构计算平台的 AI 处理器架构设计,充分发挥 Versal 平台的算力和灵活性优势。
今年 CVPR 会议上,AMD AI 研发团队的两篇论文成功入选。在同期举办的计算机图像恢复领域最具影响力的全球赛事 NTIRE 2022 挑战赛上,团队获得高效超分辨率(Efficient Super-Resolution)精度赛道第一的佳绩,相关技术报告也被 CVPR Workshop 接收。
“数据、算法和算力是 AI 的三大基石。AMD AI研发团队在顶级学术会议上取得的一系列成绩,不仅展现了团队在算法和算力提升方面的研究成果,也源于团队在创新研究和客户需求双重驱动下的不懈探索,通过前沿研发更好地提升产品核心竞争力,从而助力客户打造更卓越的解决方案。”
单羿博士
AMD公司副总裁、AI研发团队负责人
论文第一作者:贾希杰,AMD高级开发经理
当前,卷积神经网络广泛应用于计算机视觉领域。更高精度和分辨率的需求引入了更复杂的神经网络,算力和数据读写 I/O 因而日益成为瓶颈。AMD 7nm Versal ACAP 具备 AI 引擎核(AIE 核),与传统 FPGA 解决方案相比,能够以 50% 的能耗提供8倍的算力。
上图展示了论文中 XVDPU 加速器的架构设计,它具有以下特征:
⬇️上下滑动查看更多内容⬇️
实验表明,仅使用 96个AIE 核的配置,XVDPU 具有 9.8 倍于 ZCU102 ZU9 MPSoC 的计算能力和更高的计算效率,对于非 I/O 瓶颈的网络,如 MLPerf_resnet50_v1.5_tf 和 vgg_16_tf,可以获得 9 倍多的 FPS 性能,限于板卡的 DDR 带宽(68.3GB/s),所支持的网络中可以获得 1 倍多到 9 倍多的 FPS 性能。
XVDPU 是一个“AI 引擎 + PL 逻辑 + PS CPU”的混合异构计算系统:AI 引擎具有强大的并行计算能力,应用于推理计算可以获得高能效比;PL 逻辑的在线可编程特性提供了灵活性,可以根据网络模型的变化进行升级,支持最新的网络模型;借助 PS ARM核中的Linux系统,灵活支持应用软件。异构计算系统各部分发挥各自优势,合力构建了高性能CNN加速器。
得益于强大的计算性能和计算效率、新型网络模型的广泛支持,XVDPU 上已经成功部署超过 100 个CNN模型,从低时延数据中心到高阶自动驾驶、再到复杂机器人系统等广泛的嵌入式系统,都能够从中受益。
论文第一作者:张天宇,AMD高级工程师
视差估计是一项基本的计算机视觉任务,它在给定一对校正立体图像的情况下预测每个像素的视差,在自动驾驶、机器人等领域具有广泛的应用。最近基于 CNN 的方法将 3D 卷积和视差回归用于视差估计。PSMNet 是流行的基于 3D CNN 的解决方案之一,具有良好的保真度结果,但部署网络消耗算力大。在这项工作中,团队以 PSMNet 为例,旨在为嵌入式设备上的一般视差估计任务提供参考解决方案。论文中介绍的加速器架构设计如下图所示。
本论文研究的独特价值在于以下3方面:
⬇️上下滑动查看更多内容⬇️
与不同平台相比,团队的工作实现了更高的能量效率、0.289s的延迟和10.1FPS的帧率。在轻量级工作负载模型中,该解决方案展示了超过 10,000 GOP/s E2E 吞吐量。因此,这种解决方案具备更高的实用性,非常适合应用于自动驾驶、机器人和其它机器视觉相关领域。
人才招聘 2022
AMD AI 研发团队位于北京,聚焦 AI 领域的前沿研究,涵盖 AI 算法、编译器、软件和 IP 开发等方向,服务于众多数据中心、自动驾驶和机器人等企业客户。
这里有窗明几净的工作环境,浓厚的工程师氛围,充满竞争力的薪酬福利,欢迎相关方向的小伙伴加入,简历可发送至:xijie.jia@amd.com。