卷积神经网络(CNN)主要用于模式识别和物体分类。利用CIFAR网络,可以对图像中的物体、比如猫、房屋或自行车等进行分类,或进行简单的语音模式识别。通过训练这些神经网络可以解决上述应用。然而,该如何训练这些神经网络呢?

本文是关于卷积神经网络(CNN)特性和应用的系列文章的第二篇,CNN主要用于模式识别和物体分类。在第一篇《人工智能与卷积神经网络》中,我们介绍了在微控制器中执行经典线性程序与卷积神经网络的区别及其优势。讨论了利用CIFAR网络对图像中的猫、房屋或自行车等物体进行分类,或进行简单的语音模式识别。本文将介绍如何训练这些神经网络来解决问题。

神经网络的训练过程

CIFAR网络由不同层的神经元组成,如图1所示。32×32像素的图像数据呈现给网络并经过网络各层。CNN的第一步是检测和研究待区分物体的独有特征和结构,为此需要使用到滤波器矩阵。虽然设计人员对诸如CIFAR的神经网络进行了建模,但这些滤波器矩阵最初仍是未确定的,网络在此阶段仍无法检测模式和物体。

提高准确性或减小损失函数:这一过程被称为神经网络训练。对于常见应用来说,在开发和测试过程中需要对网络进行一次训练,之后就可以正常使用了,不需要再调整参数。如果系统正在对熟悉的物体进行分类,则无需进行额外的训练。只有当系统需要对全新的物体进行分类时,才有必要进行训练。

图1:CIFAR CNN架构。

训练网络需要训练数据,之后再使用类似的数据集来测试网络的准确性。例如,在我们的CIFAR-10网络数据集中,数据是十个对象类别中的一组图像:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。但在训练CNN之前,必须对这些图像进行命名,这也是整个人工智能应用开发过程中最复杂的部分。本文将要讨论的训练过程,是根据反向传播原理进行的;连续向网络展示大量图像,同时每次传达一个目标值。该例中,这个值就是相关的对象类别。每次显示图像时,都会对滤波器矩阵进行优化,使对象类别的目标值和实际值相匹配。完成这一过程后,网络就能在图像中检测出它在训练过程中没有看到的物体。

图2:由前馈和反向传播组成的训练环路。

过拟合和欠拟合

在神经网络建模过程中,经常会产生神经网络应该有多复杂的问题。也就是说,它应该有多少层,或者说它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关,讨论网络的过拟合和欠拟合也很重要。过拟合是模型过于复杂与参数过多的结果。不过,可以通过比较训练数据损失和测试数据损失,由此来判断预测模型与训练数据的拟合程度,进而判断是过低还是过高。如果在训练过程中损失较低,而当网络遇到从未见过的测试数据时损失会过度增加,就充分说明网络已经记住了训练数据,而不是泛化模式识别。在网络参数存储空间过大或卷积层过多的情况下,才是导致这种情况的主要原因。在这种情况下,应缩小网络规模。

损失函数和训练算法

学习分两步进行。第一步,向网络展示一幅图像,然后由神经元网络对图像进行处理,生成输出向量。输出向量的最大值,代表检测到的物体类别,比如该例子中的狗,在训练场景中不必非要正确。这一步骤被称为前馈。

输出端产生的目标值与实际值之间的差值称为损失,相关函数为损失函数。损失函数中包括网络的所有元素和参数。神经网络学习过程的目标,是以最小化损失函数的方式来定义这些参数。这种最小化是通过一个过程来实现的。在这个过程中,输出端产生的偏差(损失=目标值减去实际值)通过网络的所有组件向后反馈,直到到达网络的起始层。这部分学习过程也被称为反向传播。

这样,在训练过程中,就形成了一个以阶梯方式确定滤波器矩阵参数的循环。这种前馈和反向传播的过程一直重复进行,直到损失值降到预先确定的阈值以下。

优化算法、梯度和梯度下降法

为了说明该训练过程,图3显示了一个仅由x和y两个参数组成的损失函数,而z轴对应的是损失值。函数本身在这里仅用于说明,并不起实际作用。如果仔细观察三维函数图,就会发现该函数既有全局最小值,也有局部最小值。

可以采用大量的数值优化算法来确定权重和偏差。最简单的算法是梯度下降法。梯度下降法的基本思想是从随机选择的损失函数起点出发,利用梯度逐步寻找通向全局最小值的路径。梯度作为一种数学运算符,描述了一个物理量的变化过程。在损失函数的每一点上,它都会产生一个向量,也称为梯度向量,指向函数值变化最大的方向。向量的幅度与变化量相对应。在图3所示的函数中,梯度向量指向右下方某处的最小值(红色箭头)。由于表面平坦,所以幅度较小。在靠近峰值的更远区域,情况会有所不同。那里的向量(绿色箭头)会陡然向下,并且由于起伏较大,梯度向量的幅度也较大。

图3:使用梯度下降法到达目标的不同路径。

梯度下降法是从任意选择的一个点开始,迭代寻找进入波谷的最陡下降路径。这意味着,优化算法会计算起点的梯度,然后朝着最陡的下降方向先迈出一小步。在这个中间点,梯度被重新计算,进入波谷的路径继续延伸。这样,就形成了一条从起点到波谷中某一点的路径。这里的问题在于,起点并不是预先确定的,而是必须随机选择的。在二维地图中,细心的读者会把起点放在函数图的左侧。这将确保(例如蓝色)路径的终点位于全局最小值处。其他两条路径(黄色和橙色)要么更长,要么在局部最小值处结束。由于优化算法必须优化的不仅仅是两个参数,而是成百上千个参数,因此很快就会发现,起点的选择只能是偶然正确的。在实践中,这种方法似乎无济于事。这是因为根据所选起点的不同,路径可能很长,训练时间也可能很长,或者目标点可能不在全局最小值上,在这种情况下,网络的准确性就会降低。

因此在过去几年中,人们开发了许多优化算法,旨在绕过上述两个问题。其中包括随机梯度下降法、动量法、AdaGrad、RMSProp和Adam等算法。因为每种算法都有特定的优缺点,故实际采用的算法由网络开发人员决定。

数据训练

如前所述,在训练过程中,会为网络提供标有正确对象类别(如汽车、轮船等)的图像。在该示例中,采用了已有的CIFAR-10数据集。在实践中,人工智能的应用可能不仅局限于识别猫、狗和汽车。例如,如果必须开发一种新的应用来检测生产过程中螺丝钉的质量,那么也必须使用好螺丝钉和坏螺丝钉的训练数据来训练网络。创建这样一个数据集,可能会非常费力和费时,通常也是开发人工智能应用最昂贵的一步。一旦数据集编译完成后,就会被分为训练数据和测试数据。如前所述,训练数据用于训练,测试数据用于在开发过程的最后阶段检查受训网络的功能。

(原文刊登于EE Times姊妹网站Embedded,参考链接:Training convolutional neural networks,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年4月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情