实测！AlexNet卷积核在FPGA占90%资源仍跑750MHz|算力达288万张图像/秒-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

本文将重点描述基于AlexNet的2D卷积核的实例应用。

MLP_Conv2D是功能齐全的设计，可将2D输入图像与多个内核同时进行卷积。该设计充分利用了MLP和BRAM模块，每个MLP一个周期执行12个int8乘法。此外，MLP列和BRAM块均等级联以有效地将图像数据传递，从而允许同时处理多个内核。

该设计使用NoC接入点（NAP）从片上网络（NoC）读取或写入数据。NoC连接到Speedster7t器件中的GDDR6控制器再到外部存储器。

AlexNet

尽管最初为AlexNet图像和内核大小配置了MLP_Conv2D设计，但是2D卷积是一个通用过程，因此可以重新配置该设计并使其适应许多不同的2D方法。

2D卷积的一般原理是在图像（实际上是另一个2D矩阵）上传递内核（2D矩阵）。对于每次计算，内核均以输入图像的像素为中心，并对每个内核值（称为权重）与其当前对齐的像素执行乘法运算。这些乘法的总和给出了原始图像像素的特定卷积结果。然后将内核移至下一个像素，并重复该过程。

经过训练的内核，2D卷积生成一个输出结果图像，突出显示输入图像的特定特征，例如垂直线，水平线，变化角度的对角线和变化半径的曲线。然后可以将这些特征输入到其他处理层（包括其他2D卷积），然后可以将其标识为（通常在软件中）为特定对象。

因此，二维卷积处理不应被视为图像识别的完整解决方案，而应被视为处理操作链中的单个关键组件。

乘法密度

2D卷积的挑战是所需的乘法数量，这就是MLP中专用的乘法器阵列。对于AlexNet配置，每个内核为11×11= 121个权重值。但是，卷积实际上是3D的，因为输入图像具有三层（RGB），因此一组内核有121×3 = 363个乘法来产生单个输出结果。AlexNet输入图像为227×227;但是，此图像的stride为4（在计算之间内核移动了四个像素）。此过程导致输出结果矩阵为54×54 = 2916个结果。因此，对于一幅图像需要363×2916 = 1,058,508次乘法；即处理一个图像需要进行一百万次以上的累加运算。其中单个Kernel进行2D卷积的动态示意图如下：

图表 1 单个Kernel进行2D卷积的动态示意图

对于MLP_Conv2D，其设计旨在一次处理一幅图像中的60个内核，单次执行超过6000万次乘法累加操作。

性能

MLP_Conv2D设计可以以750 MHz的频率运行。单个MLP能够在137 µs内对具有11×11内核的单个227×227 RGB输入图像进行卷积，相当于每秒15.4GOPS（包含乘和加）。但一个MLP_Conv2D实例由60个并行运行的MLP构成，可以同时对60个输入图像进行卷积，相当于924GOPS。最后，将多达40个MLP_Conv2D实例化到单个器件中，每个实例都通过自己的NAP将数据传输到GDDR6存储器，从而实现了组合高达37 TOPS的性能-相当于每秒处理28,8000张图像（本设计主要针对卷积核）。

资源

MLP_Conv2D围绕MLP和BRAM块功能而设计，并使用它们各自的内部级联走线。同样，NAP允许直接从外部存储器路由数据互联。这些功能可实现最小的附加逻辑或路由要求，利用率表如下：

图表 2 单个MLP_Conv2D实例资源使用

图表 3 并行40个MLP_Conv2D实例资源使用

图表 4 MLP_Conv2D框图

数据流：单个MLP

每个MLP都有一个邻近的BRAM。在此设计中BRAM用于存储内核并将其多次传递到MLP。初始化时，将从输入NAP中读取不同的内核，并将其写入相应的BRAM。 BRAM在写侧配置为72位，而读取设置为144位。在操作期间，仅将96位用作内核权重，即读取为4个权重×3层×8位。初始图像数据从NAP读取到输入FIFO中，该输入FIFO用于将图像存储为一系列行。尽管此输入存储器被列为FIFO，但仍可作为可重复读取的FIFO，因为可以多次从中读取行。该存储器配置为144位宽，仅使用96位，由两个BRAM72K组成。每个字由4个像素×3层×8位组成。初始化时，将读取足够的行以匹配内核中的行数加上垂直跨步所需的行数。即

一旦加载了初始数据和内核，便开始计算。

从输入FIFO中读取第一条图像行，并读取与内核水平大小匹配的图像数据像素数量。在读取这些像素时，将读取匹配的内核权重。MLP将这些96位流的每一个乘以12个int8值并累加结果。输入FIFO前进到第二行，重复此过程，直到内核的所有行都与输入图像左上角的适当像素相乘。在此过程中，MLP积累了结果；现在，该结果是图像与内核卷积的左上角的2D卷积。该结果以16位结果的形式从MLP输出。重复此过程，输入FIFO跨行超前STRIDE参数设置的像素数（对于当前设计，STRIDE固定为4）。在每个处理周期包括在内时，都会生成另一个结果，直到水平地获取了适当数量的结果为止。

然后，将输入FIFO下移STRIDE行数，然后重复该过程以生成输入图像中下一组线的卷积结果。当输入FIFO向下移动时，不再需要FIFO中的初始行，因此与MLP计算并行时，将加载下一组用于输入图像的STRIDE行。考虑外部存储源的带宽要求时，可以看到映像和内核仅从内存中读取一次。然后，它们可以从各自的BRAM中重新使用，从而减少了外部存储器带宽的总体负担，其过程参考图表1。

数据流：多个MLP

MLP的一个显著特点是能够将数据和结果从一个MLP或BRAM级联到同一列中。 MLP_Conv2D通过将MLP及其关联的BRAM放在列组中来利用这些级联路径。在将BRAM加载到内核时，级联路径用于将数据流水线传输到每个BRAM，并且使用BRAM块地址模式选择要写入内核的BRAM。

在计算过程中，输入的图像数据将在MLP的列中级联，以便每个MLP在其下一个邻居之后的一个周期接收到图像数据。同时，控制内核读取的BRAM读取地址以一个周期的延迟级联到BRAM列中。这样，每个MLP在其先前的MLP之后一个周期接收相同的图像数据和相同的内核读取地址。每个MLP的计算差异在于，其关联的BRAM将具有不同的内核数据。结果是一个图像并行地与多个内核卷积。并行卷积的数量称为BATCH。

数据流：计算结果

如前所述，每个MLP为内核和图像部分的每个卷积生成16位结果。

MLP排列在16列中，因此从该列中生成一个256位字，该字由该列中每个MLP的结果组成。然后将此256位字写入输出NAP。这种安排导致卷积结果作为同一图像的图层存储在内存中；因此，当三层或RGB存储在单个输入字中时，匹配输入字排列。

然后，由于可以在完整的256位结果上的16个并行实例中执行激活功能，因此该安排允许将涉及的结果并行处理到激活层中。同样，一旦256位结果通过输出NAP写回到存储器中，则可以将结果读回到另一个2D卷积电路中。

图表 5 MLP_Conv2D布局示意图

布局

在Speedster7t架构中，每个NAP对应32个MLP。该设计经过优化，可使用两个NAP，一个用于读取，一个用于写入，因此可以对应64个MLP。

但是，输入和输出FIFO需要两个BRAM 72K存储块才能创建一个256位宽的组合存储器。因此，这些存储器将消耗64个可用位置中的四个用于数据I / O。

设计被安排为使用与两个NAP相关联的四列MLP。但是，第一列和最后一列都使用14个MLP，剩下两个MLP位置分别用于输入和输出FIFO。中间两列使用所有16个可用的MLP。在平面图中，各列的排列方式是使第一列（底部具有输入FIFO存储器）与NAP相邻，以改善时序。

下面显示了一个实例，即使用了60个MLP（Batch=60）的设计实际布局图（突出显示了路线）：

图表 6 60个MLP布局图

在全芯片构建中使用40个实例时，尽力使每个实例都使用NAP与内存进行通信。结果，FMax仍能达到750MHz，并使用掉芯片中的所有80个NAP以及94％的MLP和BRAM72K。

图表 7 2400个MLP布局图

下一期将举例介绍MLP的浮点架构和性能，敬请期待。

责编：Yvonne Geng

(本文由Achronix供稿，电子工程专辑对文中陈述、观点保持中立)

阅读全文，请先

技术文章人工智能

您可能感兴趣

开启更绿色的未来：氮化镓技术引领能源效率革命

过去几十年来，全球能源消耗稳步增长，预计还会进一步增长。

下一代半导体氧化镓基光电探测器的应用与测试研究

光电探测器的性能因材料不同、结构不同、制备工艺及应用场景的不同而存在较大的差异。性能指标之间往往存在制约，如暗电流与输出电流、灵敏度与响应度、可靠性与灵敏度等需要权衡。对于性能表征也是如此，例如高响应度与高精度电流表征无法同时进行。

通过优化栅极驱动器充分提高SiC MOSFET性能

SiC的特定特性要求对MOSFET器件和栅极驱动电路进行仔细选择，以确保安全地满足应用需求，并尽可能提高效率。在本文中，我们将讨论为SiC MOSFET选择栅极驱动器时应考虑的标准。

将电流感应集成到宽禁带电源转换器的挑战

由于在满足所有要求方面存在不同的权衡，因此很难采用一种适用于所有情况的电流检测方法。

宽禁带半导体技术综述

宽禁带半导体(例如SiC和GaN)在可靠性、能效、功率密度和降低成本方面具有重要优势。

直连V2X与网联V2X对比：竞争还是互补？

ITSA报告对当前的V2X应用进行了分析，并对两个关键的V2X部分进行了展望——使用5.9GHz频谱的直连V2X和使用4G LTE和5G蜂窝通信的网联V2X。此外，该报告还对未来在5.9GHz当前30MHz带宽限制之外的扩展进行了展望。

为什么翻新机的价格在上涨？

• 目前，iPhone在翻新市场中是最热门的商品，并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展，其平均销售价格（ASP）现已超过新手机。 • 新兴市场是增长的最大驱动力，消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年，这些翻新机平均销售价格将首次超过新手机。

2024三季度全球扫地机器人市场出货增长持续，卷势不减

从全球厂商竞争来看，三季度凭借多个新品发布，石头科技市场份额提升至16.4%,连续两季度排名全球第一……

摩尔斯微电子推出MM8108：全球体积最小、速度最快、功耗最低、传输距离最远的Wi-Fi芯片

最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准，配套USB网关，可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成

移远通信再扩短距离通信模组版图：Wi-Fi 7/6、Wi-Fi Halow等六款新品助力无线连接升级

其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……

亚化咨询推出《中国半导体大硅片年度报告2024》，欢迎索取目录！

来源：《中国半导体大硅片年度报告2024》2016 年至 2023 年间，全球半导体硅片（不含 SOI）销售额从 72.09 亿美元上升至121.29 亿美元，年均复合增长率达 7.72%。2016

视频：实时控制解决方案的正确选择——数字信号控制器（DSC）或通用MCU

今天推荐的视频介绍了单片机（MCU）和数字信号控制器（DSC）之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch

2024年全球智能手机面板出货量突破22亿片，创历史新高

1月9日，市场研究机构CINNO Research发布2024年全球智能手机面板出货报告称，2024年全球智能手机面板出货量或将同比增长8.7%至22.7亿片，达到历史新高。主流手机品牌全球面板采购量

武当系列开发生态扩容，黑芝麻智能与Elektrobit联合推出解决方案

CES 2025，黑芝麻智能携旗下华山系列、武当系列芯片参展，并带来与产业链伙伴的合作新进展。1月8日，黑芝麻智能与汽车嵌入式互联软件产品和解决方案供应商Elektrobit联合发布了基于武当系列C1

手机充电器icU6773S助推充电便利好享受

手机充电器ic U6773S助推充电便利好享受面对手机存储空间不足的问题，我们可以从多个方面入手，清理缓存、卸载不必要的应用、移动文件至外部存储、使用云存储服务等等。面对手机充电器充电速度慢、效率低的

天马创新显示技术闪耀CES2025，引领未来科技潮流

当地时间2025年1月7日，全球备受期待的技术盛宴——国际消费电子展（CES 2025）在美国拉斯维加斯盛大开幕。作为显示领域的领军企业，天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场，带来手

里程碑！这家上市企业自制FCC技术，有望2-3年取代大部分电池连接系统用FPC

△广告与正文无关日前，苏州西典新能源电气股份有限公司（股票代码：603312，以下简称“西典新能”）发布公告称，公司经过3年多的产品和工艺研发及设备攻关，信号采集组件FCC技术取得重大进展，公司

戴尔科技集团以全新设计的PC产品组合驱动行业创新

戴尔科技AI PC产品组合助力终端用户释放创造力并提高工作效率。戴尔科技统一旗下产品组合品牌命名，旨在帮助用户更轻松、快速地找到相匹配的PC、配件及服务。搭载英

深度伪造的好处？一项有争议技术的意外潜力

点击蓝字关注我们SUBSCRIBE to US如果你听说过深度伪造（deepfakes），即人们做着从未做过的事或者说着从未说过的话的高度逼真视频，你可能会认为这是一种可疑的技术发展成果。例如，它们

奥康皮鞋公司跨界半导体失败：终止收购存储芯片企业股权

日前，奥康国际发布公告表示终止发行股份购买资产。根据公告，2024 年 12 月 24 日，奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》，公司拟筹划以发行股份或支付现金的方式购买联和存储科技

文章评论

最新
热门

换一换

EE直播

更多>

实测！AlexNet卷积核在FPGA占90%资源仍跑750MHz|算力达288万张图像/秒

AlexNet

乘法密度

性能

资源

数据流：单个MLP

数据流：多个MLP

数据流：计算结果

布局

杂志声明