如何高效率训练卷积神经网络-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

卷积神经网络(CNN)主要用于模式识别和物体分类。利用CIFAR网络，可以对图像中的物体、比如猫、房屋或自行车等进行分类，或进行简单的语音模式识别。通过训练这些神经网络可以解决上述应用。然而，该如何训练这些神经网络呢？

本文是关于卷积神经网络(CNN)特性和应用的系列文章的第二篇，CNN主要用于模式识别和物体分类。在第一篇《人工智能与卷积神经网络》中，我们介绍了在微控制器中执行经典线性程序与卷积神经网络的区别及其优势。讨论了利用CIFAR网络对图像中的猫、房屋或自行车等物体进行分类，或进行简单的语音模式识别。本文将介绍如何训练这些神经网络来解决问题。

神经网络的训练过程

CIFAR网络由不同层的神经元组成，如图1所示。32×32像素的图像数据呈现给网络并经过网络各层。CNN的第一步是检测和研究待区分物体的独有特征和结构，为此需要使用到滤波器矩阵。虽然设计人员对诸如CIFAR的神经网络进行了建模，但这些滤波器矩阵最初仍是未确定的，网络在此阶段仍无法检测模式和物体。

提高准确性或减小损失函数：这一过程被称为神经网络训练。对于常见应用来说，在开发和测试过程中需要对网络进行一次训练，之后就可以正常使用了，不需要再调整参数。如果系统正在对熟悉的物体进行分类，则无需进行额外的训练。只有当系统需要对全新的物体进行分类时，才有必要进行训练。

图1：CIFAR CNN架构。

训练网络需要训练数据，之后再使用类似的数据集来测试网络的准确性。例如，在我们的CIFAR-10网络数据集中，数据是十个对象类别中的一组图像：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。但在训练CNN之前，必须对这些图像进行命名，这也是整个人工智能应用开发过程中最复杂的部分。本文将要讨论的训练过程，是根据反向传播原理进行的；连续向网络展示大量图像，同时每次传达一个目标值。该例中，这个值就是相关的对象类别。每次显示图像时，都会对滤波器矩阵进行优化，使对象类别的目标值和实际值相匹配。完成这一过程后，网络就能在图像中检测出它在训练过程中没有看到的物体。

图2：由前馈和反向传播组成的训练环路。

过拟合和欠拟合

在神经网络建模过程中，经常会产生神经网络应该有多复杂的问题。也就是说，它应该有多少层，或者说它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关，讨论网络的过拟合和欠拟合也很重要。过拟合是模型过于复杂与参数过多的结果。不过，可以通过比较训练数据损失和测试数据损失，由此来判断预测模型与训练数据的拟合程度，进而判断是过低还是过高。如果在训练过程中损失较低，而当网络遇到从未见过的测试数据时损失会过度增加，就充分说明网络已经记住了训练数据，而不是泛化模式识别。在网络参数存储空间过大或卷积层过多的情况下，才是导致这种情况的主要原因。在这种情况下，应缩小网络规模。

损失函数和训练算法

学习分两步进行。第一步，向网络展示一幅图像，然后由神经元网络对图像进行处理，生成输出向量。输出向量的最大值，代表检测到的物体类别，比如该例子中的狗，在训练场景中不必非要正确。这一步骤被称为前馈。

输出端产生的目标值与实际值之间的差值称为损失，相关函数为损失函数。损失函数中包括网络的所有元素和参数。神经网络学习过程的目标，是以最小化损失函数的方式来定义这些参数。这种最小化是通过一个过程来实现的。在这个过程中，输出端产生的偏差(损失=目标值减去实际值)通过网络的所有组件向后反馈，直到到达网络的起始层。这部分学习过程也被称为反向传播。

这样，在训练过程中，就形成了一个以阶梯方式确定滤波器矩阵参数的循环。这种前馈和反向传播的过程一直重复进行，直到损失值降到预先确定的阈值以下。

优化算法、梯度和梯度下降法

为了说明该训练过程，图3显示了一个仅由x和y两个参数组成的损失函数，而z轴对应的是损失值。函数本身在这里仅用于说明，并不起实际作用。如果仔细观察三维函数图，就会发现该函数既有全局最小值，也有局部最小值。

可以采用大量的数值优化算法来确定权重和偏差。最简单的算法是梯度下降法。梯度下降法的基本思想是从随机选择的损失函数起点出发，利用梯度逐步寻找通向全局最小值的路径。梯度作为一种数学运算符，描述了一个物理量的变化过程。在损失函数的每一点上，它都会产生一个向量，也称为梯度向量，指向函数值变化最大的方向。向量的幅度与变化量相对应。在图3所示的函数中，梯度向量指向右下方某处的最小值(红色箭头)。由于表面平坦，所以幅度较小。在靠近峰值的更远区域，情况会有所不同。那里的向量(绿色箭头)会陡然向下，并且由于起伏较大，梯度向量的幅度也较大。

图3：使用梯度下降法到达目标的不同路径。

梯度下降法是从任意选择的一个点开始，迭代寻找进入波谷的最陡下降路径。这意味着，优化算法会计算起点的梯度，然后朝着最陡的下降方向先迈出一小步。在这个中间点，梯度被重新计算，进入波谷的路径继续延伸。这样，就形成了一条从起点到波谷中某一点的路径。这里的问题在于，起点并不是预先确定的，而是必须随机选择的。在二维地图中，细心的读者会把起点放在函数图的左侧。这将确保(例如蓝色)路径的终点位于全局最小值处。其他两条路径(黄色和橙色)要么更长，要么在局部最小值处结束。由于优化算法必须优化的不仅仅是两个参数，而是成百上千个参数，因此很快就会发现，起点的选择只能是偶然正确的。在实践中，这种方法似乎无济于事。这是因为根据所选起点的不同，路径可能很长，训练时间也可能很长，或者目标点可能不在全局最小值上，在这种情况下，网络的准确性就会降低。

因此在过去几年中，人们开发了许多优化算法，旨在绕过上述两个问题。其中包括随机梯度下降法、动量法、AdaGrad、RMSProp和Adam等算法。因为每种算法都有特定的优缺点，故实际采用的算法由网络开发人员决定。

数据训练

如前所述，在训练过程中，会为网络提供标有正确对象类别(如汽车、轮船等)的图像。在该示例中，采用了已有的CIFAR-10数据集。在实践中，人工智能的应用可能不仅局限于识别猫、狗和汽车。例如，如果必须开发一种新的应用来检测生产过程中螺丝钉的质量，那么也必须使用好螺丝钉和坏螺丝钉的训练数据来训练网络。创建这样一个数据集，可能会非常费力和费时，通常也是开发人工智能应用最昂贵的一步。一旦数据集编译完成后，就会被分为训练数据和测试数据。如前所述，训练数据用于训练，测试数据用于在开发过程的最后阶段检查受训网络的功能。

（原文刊登于EE Times姊妹网站Embedded，参考链接：Training convolutional neural networks，由Franklin Zhao编译。）

责编：Franklin

人工智能控制/MCU 技术文章

您可能感兴趣

不写一行代码：让AI给我开发个AI应用，基于Jetson板子

最近收到一款Jetson Orin Nano Super开发套装，我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~

中国 AI 人才缺口达500 万，薪资水涨船高

2024 年，中国人工智能专业在校生约 4 万多人，而整个领域的人才缺口却高达 500 万……

华为布局神话商标，申请注册 “悟空”“雷震子”“二郎神”

从品牌战略的角度来看，华为本次选择古代神话中的人物作为商标，可能是为了借助这些神话角色的知名度和文化内涵，打造具有中国特色的品牌形象……

制造业数字化转型加速：斑马技术以AI与机器视觉引领高效生产新浪潮

随着全球数字化转型市场蓬勃发展，云计算、人工智能、大数据、5G等技术的应用范围不断扩大，全球企业的数字化转型已经来到了持续发展阶段，这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。

荣耀"阿尔法计划"，三阶段构建AI生态金字塔

荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态，并推动Magic系列提供7年系统更新......

DeepSeek 揭秘推理系统，成本与利润率首度曝光

假设 GPU 租赁成本为 2 美元 / 小时，经计算，DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入，理论上一天的总收入可达……

赤池昌二先生升任TEL集团副总裁兼中国区总裁

TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。

2025年无线连接的七大趋势

预计在2025年，以下七大关键趋势将塑造物联网的格局。

4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看

领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！

ASML公布2025年度股东大会议程，并提名Karien van Gennip为新任监事会委员

本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

莲花跑车高层被曝人事调整

点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日，据中国经济网报道，近日有传言毛京波即将卸任莲花中国总裁，调整至海外市场。莲花汽车内部人士证实了此事：“毛总（毛京波）已经有几天没有出现在办

3月6日，LED显示屏“半壁江山”齐聚深圳

倒计时1天，『2025年行家说开年盛会（第8届）取势行远·LED显示屏及MLED产业链2025年蓝图峰会』明天正式启幕。本届开年盛会特设「2025年产品/技术/市场蓝图计划」、「COB」、「MiP及玻

NoETL+大模型=万数皆可问!「NoETL指标平台最佳实践研讨会」报名开启

数据民主化终极拷问：借助大模型问数，究竟能不能实现灵活、准确、深入的数据洞察？“华东区会员复购率是多少？”——业务提需求3天，IT排期2周，口径对齐5轮。“为什么A产品毛利异常？”——指标定义模糊，数

车辆网络安全法规合规框架的开发：网络安全需求查找器

点击上方蓝字谈思实验室获取更多汽车网络安全资讯01摘要近年来，电子控制单元（ECU）不再局限于简单的便利功能，而是将多种功能整合为一体。因此，ECU 拥有比以往更多的功能和外部接口，各种网络安全问题也

u200c115.62亿元！A股市场又一起百亿并购

国际电子商情讯，昨日(3月3日)晚间，TCL科技发布公告称，拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年

马斯克越风光，特斯拉跌得越厉害

市值一夜蒸发2900亿”作者｜王磊编辑｜秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大，但特斯拉的股价却跌得越来越惨。就在昨天，特斯拉股价又下跌了4.43%，一天之内蒸发406亿美元，约合人民币295

报名入口|第十四届制造业产线物流与仓储智能化大会

点击文末“阅读原文”链接即可报名参会！往期精选《2024年度中国移动机器人产业发展研究报告》即将发布！2024年，36家移动机器人企业融了超60亿元2024移动机器人市场：新玩家批量入场，搅局还是破局

迈为股份：MLED整线方案最新披露

‍‍近几年，随着Mini/Micro LED技术的高速发展，LED产业呈现几大发展趋势，如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成，以及RGB 封装与COB 降本需求迫

GaN车规应用提速，比亚迪、广汽埃安布局

前不久，“行家说三代半”报道了长安汽车采用氮化镓OBC车载电源（点击查看）。近期，比亚迪、广汽埃安两家车企又相继公布了氮化镓应用进展：比亚迪&大疆：车载无人机采用氮化镓技术3月2日，比亚迪、大疆共同发

直播报名|高效DC-DC转换器的设计系列直播

点击上方蓝字➞右上「· · ·」设为星标➞更新不错过★2025 年 3 月 12 日至 14 日连续 3 晚 19:00 - 20:30德州仪器电力全开为您带来 “高效 DC-DC 转换器的设

文章评论

最新
热门

换一换

EE直播

更多>

如何高效率训练卷积神经网络

神经网络的训练过程

过拟合和欠拟合

损失函数和训练算法

优化算法、梯度和梯度下降法

数据训练

杂志声明