基于FPGA的一维卷积神经网络(1D-CNN)算法加速

原创 FPGA技术江湖 2024-12-05 08:22

大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。“煮酒言欢”进入IC技术圈,这里有近100个IC技术公众号。


今天给大侠带来在FPAG技术交流群里平时讨论的问题答疑合集,以后还会多推出本系列,话不多说,上货。


FPGA技术交流群目前已有十多个群,QQ和微信均覆盖,人数达数万人,有需要的大侠可以进群,一起交流学习,共同进步。


欢迎加入FPGA技术微信交流群14群!



交流问题



Q大佬们,谁做过FPGA 的一维卷积神经网络(1D-CNN)算法加速么?除了1D-CNN,还有哪些神经网络算法可以在FPGA上加速?


A以下是一个基于 FPGA 的一维卷积神经网络(1D-CNN)算法加速实现的案例,仅供参考:


项目案例概述:

该项目旨在通过 FPGA 实现 1D-CNN 的加速,以提高对一维序列数据的处理速度。项目先使用 Python 代码实现训练和推理过程获得权重,再将推理过程移植到 FPGA 上进行 。


网络结构:

具体网络结构包含了卷积层、池化层、批标准化层、全局池化、二值化卷积、全连接层、激活函数层等,一共分为 17 层,在 FPGA 实现时将其划分为 7 个大层。


FPGA 架构:

包含按键消抖、串口接收、串口发送、卷积算法等模块。


FPGA 端口定义:

module fpga_top(    input sys_clk, //外部50M时钟    input sys_rst_n, //外部复位信号,低有效    input [1:0] key, //按键,低有效    output [1:0] led, //LED,低有效-未使用    input uart_rxd, //UART接收端口    output uart_txd //UART发送端口);


操作步骤:

加载程序,打开串口,波特率:9600。

按下 key0,将串口 RAM 地址清零。

将准备好的输入数据通过串口下发给 FPGA(以 16 进制格式发送)。

按下 key1,启动卷积推理运算。

运算完成后,结果将以串口形式返回。

串口接收端:设置为 ASCII 码格式接收,将返回最大值对应的索引值。


以下是一个简单的卷积层的 Verilog 代码示例,用于说明如何在 FPGA 中实现卷积操作:

module convolution_layer #(parameter DATA_WIDTH = 8, parameter KERNEL_SIZE = 3, parameter INPUT_SIZE = 16, parameter OUTPUT_SIZE = 14)(    input clk,    input reset,    input signed [DATA_WIDTH-1:0] input_data [INPUT_SIZE-1:0],    input signed [DATA_WIDTH-1:0] kernel [KERNEL_SIZE-1:0],    output reg signed [DATA_WIDTH-1:0] output_data [OUTPUT_SIZE-1:0]);
reg signed [DATA_WIDTH-1:0] temp_result [OUTPUT_SIZE-1:0]; integer i, j, k;
always @(posedge clk or posedge reset) begin if(reset) begin for(i = 0; i < OUTPUT_SIZE; i = i + 1) begin output_data[i] <= 0; temp_result[i] <= 0; end end else begin for(i = 0; i < OUTPUT_SIZE; i = i + 1) begin temp_result[i] <= 0; for(j = 0; j < KERNEL_SIZE; j = j + 1) begin temp_result[i] <= temp_result[i] + input_data[i + j] * kernel[j]; end end for(i = 0; i < OUTPUT_SIZE; i = i + 1) begin output_data[i] <= temp_result[i]; end end end
endmodule

在上述代码中,convolution_layer 模块实现了一个简单的一维卷积层。

clk 为时钟信号,reset 为复位信号,input_data 为输入数据,kernel 为卷积核,output_data 为输出数据 。

模块内部使用了两个数组 temp_result 来临时存储中间结果。在时钟上升沿或复位信号有效时,根据复位信号的状态对输出数据和临时结果进行初始化或执行卷积计算。卷积计算通过嵌套的循环实现,将输入数据与卷积核对应元素相乘并累加,得到卷积结果。最后将临时结果赋值给输出数据。


以下是一个简单的池化层的 Verilog 代码示例:

module pooling_layer #(parameter DATA_WIDTH = 8, parameter POOL_SIZE = 2, parameter INPUT_SIZE = 14, parameter OUTPUT_SIZE = 7)(    input clk,    input reset,    input signed [DATA_WIDTH-1:0] input_data [INPUT_SIZE-1:0],    output reg signed [DATA_WIDTH-1:0] output_data [OUTPUT_SIZE-1:0]);
integer i, j;
always @(posedge clk or posedge reset) begin if(reset) begin for(i = 0; i < OUTPUT_SIZE; i = i + 1) begin output_data[i] <= 0; end end else begin for(i = 0; i < OUTPUT_SIZE; i = i + 1) begin output_data[i] <= input_data[i * POOL_SIZE]; for(j = 1; j < POOL_SIZE; j = j + 1) begin if(input_data[i * POOL_SIZE + j] > output_data[i]) begin output_data[i] <= input_data[i * POOL_SIZE + j]; end end end end end
endmodule


pooling_layer 模块实现了一个简单的一维池化层。

同样包含时钟信号 clk、复位信号 reset、输入数据 input_data 和输出数据 output_data。

在复位时将输出数据初始化为 0。在正常工作时,对于每个池化窗口,选择窗口内的最大值作为池化结果。通过比较输入数据中每个池化窗口内的元素,将最大值赋给输出数据。

通过将上述卷积层和池化层等模块按照网络结构进行组合和连接,就可以构建完整的 1D-CNN 加速器,并在 FPGA 上实现对一维序列数据的高效处理。


除了1D-CNN,还有哪些神经网络算法可以在FPGA上加速?

1、二维卷积神经网络(2D - CNN)


算法原理:

2D - CNN 主要用于处理具有二维结构的数据,如图像。它通过卷积层中的卷积核在图像的二维平面上滑动,提取图像的特征。例如,在图像分类任务中,卷积核可以提取边缘、纹理等特征。每个卷积核会生成一个特征图,多个卷积核则可以提取多种不同的特征。

池化层通常在卷积层之后,用于减少数据的维度,同时保留重要的特征信息。常见的池化方式有最大池化和平均池化,最大池化选择每个池化区域内的最大值作为输出,平均池化则计算池化区域内的平均值。


FPGA 加速优势:

可以对卷积和池化操作进行并行计算。FPGA 能够同时处理多个像素点的卷积运算,通过合理的资源分配和流水线设计,大大提高计算速度。例如,对于一个的卷积核,FPGA 可以同时对多个的图像区域进行卷积计算,而不是像 CPU 那样顺序处理。

利用片上存储资源(如 BRAM)缓存图像数据和中间结果,减少数据传输的开销。因为在神经网络计算过程中,数据的频繁读取和写入会消耗大量时间,FPGA 的片上存储可以在一定程度上缓解这个问题。


应用案例:

在图像识别领域,如人脸识别系统。通过 FPGA 加速的 2D - CNN 可以快速处理摄像头采集的图像,识别出人脸的特征,用于门禁系统、安防监控等场景。


2、循环神经网络(RNN)及其变体(LSTM、GRU)


算法原理:

RNN 是一种专门用于处理序列数据的神经网络,它的特点是具有循环连接,使得网络能够记住之前的信息。例如,在自然语言处理中的文本生成任务中,RNN 可以根据前面的单词来预测下一个单词。

长短期记忆网络(LSTM)是 RNN 的一种变体,它通过引入门控机制(输入门、遗忘门和输出门)来解决 RNN 中的梯度消失和梯度爆炸问题,从而能够更好地处理长序列数据。门控循环单元(GRU)则是另一种简化的变体,它将输入门和遗忘门合并为一个更新门,减少了参数数量,提高了计算效率。


FPGA 加速优势:

FPGA 可以定制化硬件电路来实现 RNN 的循环结构,减少循环计算的延迟。对于 LSTM 和 GRU 中的复杂门控操作,FPGA 可以通过并行计算和流水线技术加速这些操作。

利用 FPGA 的可重构性,根据不同的序列长度和任务需求,灵活调整硬件资源的分配,优化计算性能。


应用案例:

在语音识别系统中,RNN 及其变体可以用于处理语音信号的时间序列。FPGA 加速后的 RNN 能够更快地对语音信号进行特征提取和序列建模,提高语音识别的准确率和速度。


3、深度神经网络(DNN)

算法原理:

DNN 是一种包含多个隐藏层的神经网络,通过层层堆叠的神经元来学习数据的复杂特征。它的训练过程通常使用反向传播算法来调整神经元之间的连接权重,以最小化预测结果与真实结果之间的误差。


FPGA 加速优势:

FPGA 能够对 DNN 中的矩阵乘法等核心运算进行加速。矩阵乘法在 DNN 中占据了大量的计算资源,FPGA 可以通过并行乘法器和加法器阵列来高效地执行矩阵乘法。

可以定制数据通路,优化数据在不同层之间的流动,减少数据传输的瓶颈。例如,通过合理安排存储资源和计算单元的连接,使数据能够快速地从一层传递到下一层进行计算。

应用案例:

在推荐系统中,DNN 用于对用户的行为数据(如浏览历史、购买记录等)进行建模,以预测用户可能感兴趣的商品。FPGA 加速的 DNN 可以更快地处理大量的用户数据,实时生成推荐结果。


等等……


本次答疑分享就到这里,后续还会持续推出本系列。

END


往期精选 

 
 

【免费】FPGA工程师招聘平台

Quartus prime 18.0标准版安装和破解过程说明

ISE 14.7 安装教程及详细说明

Vivado 2019.2 安装教程

SANXIN-B01开发板verilog教程V3电子版

学员笔记连载 | FPGA Zynq 千兆以太网回环

求职面试 | FPGA或IC面试题最新汇总篇

FPGA项目开发:204B实战应用-LMK04821代码详解(二)

项目合作 | 承接FPGA项目公告

资料汇总|FPGA软件安装包、书籍、源码、技术文档…(2024.11.14更新)


FPGA技术江湖广发江湖帖

无广告纯净模式,给技术交流一片净土,从初学小白到行业精英业界大佬等,从军工领域到民用企业等,从通信、图像处理到人工智能等各个方向应有尽有,QQ微信双选,FPGA技术江湖打造最纯净最专业的技术交流学习平台。


FPGA技术江湖微信交流群

加群主微信,备注姓名+公司/学校+岗位/专业进群


FPGA技术江湖QQ交流群

备注姓名+公司/学校+岗位/专业进群

FPGA技术江湖 任何技术的学习就好比一个江湖,对于每一位侠客都需要不断的历练,从初入江湖的小白到归隐山林的隐世高人,需要不断的自我感悟自己修炼,让我们一起仗剑闯FPGA乃至更大的江湖。
评论
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 199浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 286浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 75浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 106浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 180浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 211浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 185浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 189浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 139浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 146浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 41浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 193浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 115浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 194浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦