如今,人工智能迅猛发展,正在解决许许多多之前根本无法解决或非常难以解决的应用难题。训练卷积神经网络作为人工智能深度学习的基石,使得人工智能可以更好地理解数据,从而解决各式各样的复杂问题。本文解释了神经网络模式识别与传统模式的区别,并详细讨论了卷积神经网络的模型架构、工作原理以及设计构件。

如今人工智能(AI)迅速发展,正越来越多地支持以前根本无法实现或者非常难以实现的应用,而神经网络则是深度学习系统的基石。神经网络有许多类型,本文将仅讨论卷积神经网络(CNN)。

何为CNN

神经网络是使AI能够更好地理解数据、从而解决复杂问题的系统或神经元结构。细胞神经网络的主要应用领域是输入数据中所包含对象的模式识别和分类。细胞神经网络是一种用于深度学习的人工神经网络。这类网络由一个输入层、几个卷积层和一个输出层组成。其中卷积层是最重要的构件,因为它们利用一组独特的权重和滤波器,使网络能够从输入数据中提取特征。数据可以许多不同形式呈现,如图像、音频和文本。这种特征提取过程使CNN能够识别数据中的模式。通过从数据中提取特征,细胞神经网络使工程师能够创建更有用和更高效的应用程序。为了更好地理解细胞神经网络,首先讨论传统的线性编程。

传统线性编程执行

在控制工程中,任务在于从一个或多个传感器读取数据,然后对其进行处理,再根据规则对其进行响应,并显示或转发结果。例如每秒对温度测量一次的温度调节器,实际上是通过微控制器单元(MCU)从温度传感器读取数据来实现的。从传感器得到的数据,被用作闭环控制系统的输入,并在回路中与设定温度进行比较。这是一个线性执行的例子,由MCU执行。基于一组预编码和实际值,这项技术提供了确定性结果。然而,在AI系统的运行中,起主要作用的却是概率。

复杂模式及信号处理

还有许多需要处理输入数据的应用。这些应用中的数据必须首先由模式识别系统进行解释,而模式识别可以应用于不同的数据结构。在许多例子中,我们所接触的数据均为一维和二维结构。这些例子包括:音频信号、心电图(ECG)、光电体积描记图(PPG)、一维数据或图像的振动图、热图像以及二维数据的瀑布图。

在用于上述情况的模式识别中,MCU对传统代码中的应用转换是极其困难的。一个具体例子是识别图像中的对象物(例如猫)。在这种情况下,要分析的图像是来自早期记录,还是由传感相机刚刚拍到的图像?在这里,这两者并没有什么区别。分析软件是基于规则来搜索猫的图案:比如典型的尖耳朵、三角形鼻子或胡须。如果在图像中识别出来了这些特征,软件就会报告发现了猫。然而一些问题就出现了:如果只是拍到了猫的后背,模式识别系统该怎么做?如果猫没有胡须或在事故中失去了腿,又会发生什么?尽管这些异常的可能性较小,但模式识别代码就需要检查大量额外的规则,来涵盖所有可能的非常规现象。即使在很简单的例子中,软件设置的规则也会迅速变得非常宽广和复杂。

机器学习取代经典规则

AI背后的理念是在小范围内模仿人类学习。我们并没有制定大量的if-then规则,而是为通用模式识别机器建模。

这两种解决方案之间的关键区别在于,与一系列规则相比,AI并没有给出明确的结果。机器学习给出的结论,不会是报告“在图像中发现了一只猫”,而是“图像显示为猫的可能性为97.5%。它也可能是豹子(可能性为2.1%)或老虎(0.4%的可能性)。”这意味着,此类应用程序的开发人员必须在模式识别过程结束时做出决策,其依据就是决策阈值。

另一个区别是模式识别机器并没有配备固定的规则。相反,它是经过训练获得的。在这个学习过程中,神经网络显示了大量的猫图像。最终,该网络能够独立地识别图像中是否有猫。关键的一点是,未来的识别并不局限于已知的训练图像。神经网络需要映射到MCU中。

模式识别机器内部到底是什么样子

AI中的神经元网络与人脑中的生物神经元网络相类似。一个神经元有几个输入,但输出只有一个。基本上,这样的神经元只不过是输入的线性变换,即:输入乘以数字(权重w),再加上常数(偏置b);然后是固定的非线性函数,也称为激励函数。该激励函数作为网络中唯一的非线性组件,用于定义人工神经元激励值的范围。神经元的功能在数学上可以被描述为:

其中Out为输出,f为激励函数,w为权重,x为输入数据,b为偏置。数据可以单个标量、向量或矩阵形式呈现。图1显示了一个具有三个输入和ReLU激励函数的神经元。网络中的神经元总是分层排列的。

图1:一个三输入和单输出的神经元结构。(本文资料来源:ADI)

如前所述,细胞神经网络用于输入数据中所包含对象的模式识别和分类。细胞神经网络分为不同的部分:一个输入层、几个隐藏层和一个输出层。图2中可以看到一个有三个输入的小网络,一个有五个神经元的隐藏层,以及一个有四个输出的输出层。所有神经元输出都连接到下一层中的所有输入。图2所示的网络仅用于演示目的,并无法处理有实际意义的任务。然而,即便是对于这么一个小小的演示网络,用于描述网络的方程中也有多达32个偏置和32个权重。

CIFAR神经网络是一种广泛用于图像识别任务的CNN。它由两种主要类型的层组成:卷积层和池化层。这两种层在神经网络的训练中都发挥了很大的作用。卷积层利用一种称为卷积的数学运算,来识别像素值阵列中的模式。卷积在隐藏层中实现,如图3所示。该过程重复多次,直至达到所需的精度水平。注意,如果要比较(通常是图像处理和滤波所需)的两个输入值相似,则卷积运算的输出值就总是特别高。这被称为滤波矩阵,也称为滤波器核或滤波器。然后,结果被传递到池化层,池化层生成表征数据的特征图,其能够识别输入数据的重要特征。这也被认为是另一个滤波器矩阵。在网络运营中,经过训练之后,将这些特征图与输入数据进行比较。由于特征图包含对象特定的类型特征,因此将其与输入图像相比较后,只有在内容相似的情况下,才会触发神经元的输出。通过将这两种方法相结合,CIFAR网络可以用来对图像中的各种对象物进行高精度的识别和分类。

图2:一个小型神经网络。

图3:利用CIFAR-10数据集训练的CIFAR网络模型。

CIFAR-10是一个通常用于训练CIFAR神经网络的特定数据集。它由6万张32×32彩色图像组成。这些图像分为10大类,是从各种来源收集的,如网页、新闻组和个人图像集。每个大类有6千张图像,平均分为训练集、测试集和验证集,是测试新的计算机视觉架构和其他机器学习模型的理想集。

CNN和其他类型网络之间的主要区别,在于它们的数据处理方式。通过过滤,来依次检查输入数据的属性。随着串联卷积层的数量增加,细节识别水平也会增加。该过程为:在第一次卷积后,从简单的对象属性识别开始,如边或点;在第二次卷积后将继续到更详细的结构,如角、圆、矩形等;而在第三次卷积之后,特征表示类似于图像中对象部分的复杂模式,并且通常是给定对象类所独有的(比如在最初的例子中,这些特征是猫的胡须或耳朵)。在图4中可以看到,对于应用程序本身来说,特征图的可视化是不必要的,但它有助于对卷积的理解。

即便是像CIFAR这样的小型网络,也都由许多层串联起来所构成,而每层中的神经元数量也都多达数百个。随着网络的复杂性和规模的增加,所需权重和偏置的数量将会迅速增多。在图3所示的CIFAR-10示例中,在训练过程中,为了确定一组值,所需参数已经多达20万个。通过池化层可以对特征图进行进一步处理,在仍然保留重要信息的同时,可以减少训练所需的参数数量。

图4:CNN功能图。

如前所述,在CNN中的每次卷积之后,通常会发生合并,这也称为子采样。这有助于降低数据的维数。如果细看图4所示的特征图,就会注意到,在较大的区域中几乎不含载有任何实际意义的信息。这是因为对象物并没有构成整个图像,而只占图像中的一小部分。此特征图中并不采用图像的其余部分,因此与分类识别无关。在池化层中,指定池化类型(最大值或平均值)和窗口矩阵大小。在池化过程中,窗口矩阵以逐步的方式在输入数据上移动。例如,在最大池中,取窗口中的最大数据值。所有其他值都将被丢弃。通过这种方式,数据的数量不断减少,最终它与卷积一起形成了相应对象类的唯一属性。

然而,这些卷积和池化组的结果是大量的二维矩阵。为了实现实际目标的分类识别,将二维数据转换为长度较长的一维向量。转换是在一个所谓的平坦层中完成的,然后是一个或两个完全连接的层。最后两层类型中的神经元与图2所示的结构相似。该神经网络最后一层的输出数量,与要区分的类别数完全一样。此外,在最后一层,为了采用概率分布(97.5%的猫、2.1%的豹、0.4%的虎等),还对数据进行了归一化处理。

到此,神经网络建模就完成了。然而,核矩阵和滤波矩阵的权重与内容仍然未知,必须通过网络训练来确定,然后才能使模型工作。利用MAX78000AI微控制器和ADI开发的基于硬件的CNN加速器,将能实现该神经网络的硬件解决方案(例如猫这类的对象物识别)。

(参考原文:understanding convolutional neural networks

本文为《电子工程专辑》2023年9月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Jimmy.zhang
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态,并推动Magic系列提供7年系统更新......
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达……
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日,据中国经济网报道,近日有传言毛京波即将卸任莲花中国总裁,调整至海外市场。莲花汽车内部人士证实了此事:“毛总(毛京波)已经有几天没有出现在办
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅又一地
倒计时1天,『2025年行家说开年盛会(第8届)取势行远·LED显示屏及MLED产业链2025年蓝图峰会』明天正式启幕。本届开年盛会特设「2025年产品/技术/市场蓝图计划」、「COB」、「MiP及玻
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
点击上方蓝字谈思实验室获取更多汽车网络安全资讯01摘要近年来,电子控制单元(ECU)不再局限于简单的便利功能,而是将多种功能整合为一体。因此,ECU 拥有比以往更多的功能和外部接口,各种网络安全问题也
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
国际电子商情讯,昨日(3月3日)晚间,TCL科技发布公告称,拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
据报道,小米集团总裁卢伟冰在西班牙巴塞隆纳的全球发表会上表示,小米汽车计划于2027年进军海外市场。小米的立足之本在于深耕本土市场,作为一家中国车企,唯有在国内市场站稳脚跟,方能谈及海外扩张。因此,小
2025年3月11-13日,亚洲激光、光学、光电行业年度盛会的慕尼黑上海光博会将在上海新国际博览中心-3号入口厅N1-N5,E7-E4馆盛大召开。本次瑞淀光学展示方案有:■ MicroOLED/Min