深入浅出讲解『人工神经网络』的原理和运行机制-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

深度学习，（人工）神经网络等概念在随处可见的人工智能下现在变得耳熟能详，那么，人工神经网络的原理是什么？它的运行机制是怎样的，涉及到了哪些高深的“概念”？其实很简单，本文将用深入浅出的方法为您介绍神经网络，绝对让您也能轻松了解它！（如果您很在意结果，可以先看末尾的小结，再回过头来一步一步看）。

哪些地方用到了人神经网络？

很简单，我们日常用到的语音助手，譬如苹果的Siri，阿里的天猫精灵、百度的小度，小米的小爱同学，谷歌语音助手，以及特斯拉等的自动驾驶等应用，它们看起来很复杂，都用到了深度学习的核心技术，但其实它们只不过是一个人工神经网络，而已。

人工神经网络（ANN：Artificial Neural Networks），最重要的是能够像人类一样不断的自我学习，如果不能学习进化，那么这样的“人工智能”就不能发展，这就是发明人工神经网络背后的深刻含义。

但是，归根结底，人工神经网络只不过是人类制造的神经网络。就像人的大脑一样，神经网络是由一个一个神经元组成的。这就是感知器。

感知器

要了解神经网络，我们首先要了解单个神经元，它是神经网络中的最小单元。

人类的单个神经元是从其他神经元或突触获取输入，在脑核内处理它们并将其发送给其他神经元。

同样的，人工神经网络具有类似于感知器的神经元的结构，它也是人工神经网络中最小的单元，它从输入层或其他感知器获取输入向量，在激活函数中处理它们，并将其发送给其他神经元，或者它也可以是最终的输入。

譬如，你一只手拿着冰冷的物体，另一只手拿着热的物体，看着一个让你哭泣的情感场景。你会先对哪一个做出反应，你会把手放在冷的物体上，还是把手从热的物体上移开，或者你会为情感场景哭泣？显然，您会将手从热物体上移开。你如何得到这些模拟？所有这些输入都被发送到神经网络，它会立即发送一个输出，将你的手移到热物体上，因为你已经用以前的经验训练自己不要接触热物体。热感的突触会更厚（这就是权重），这意味着它更重视热感。

同样的，感知器的输入也具有与每个输入相关的权重。这里的精妙之处在于，它会自动学习哪些权重应该更重要，类似于人类的自我学习。在将其发送到激活函数之前，每个输入乘以它的权重，将它们相加，然后将其传递给激活函数。

关于感知器与逻辑回归的比较：（如果您对算法不感兴趣，Challey建议略过）

一个简单的逻辑回归可以表示为

其中 X 是输入向量 X = [x1, x2, x3, ...。, xn]

逻辑回归的高级概述是它试图找到一个超平面或线来分隔两种不同类型的类，并且 W 来自超平面，W = [w1, w2, w3, ... , wn]

b 是常数。Sigmoid 函数将加权和作为输入，并给出介于 0 到 1 范围内的输出。

如果您认为，感知器与逻辑回归非常相似。

如果激活函数是 sigmoid，则逻辑回归用感知器表示。

就这么简单。

但是我们的大脑中不仅只有一个神经元。我们有许许多多的神经元连接在一起。这就是多层感知器（MLP）。

多层感知器 (MLP)

同样，人工神经网络也有一个相互连接的神经元网络，也称为多层感知器（MLP）。

我们使用 MLP 的原因可以从数学和生物两个角度来解释：

数学：当我们有一个像下面这样的复杂数学方程时，我们可以使用一个感知器进行 sin，另一个用于乘法等等。

生物：当我们试图模仿生物神经网络时，我们正在使用神经元网络。

MLP由一个具有输入向量大小的输入层组成，可以有许多隐藏层，每一层都可以被认为是一个感知器。我们知道每个感知器都会产生一个输出，这个输出可以作为其他感知器的输入。

最后，它有一个输出层，该层产生一个称为预测输出的输出。

如果所有隐藏层都有所有可能的连接，则称为全连接层。当一个ANN（人工神经网络）包含一个深层的隐藏层时，称为深度神经网络（DNN），而对 DNN 的研究就是我们经常听说的深度学习。

“怎样自我学习”的生物学解释：

我们怎么知道当我们触摸一个热的物体时会很痛？在我们的童年时代，我们被告知不要触摸热的物体。通常我们不听。当我们实际上触摸并感觉到疼痛后，我们才知道我们不应该触摸热的物体。因此，我们是通过实际操作来训练自己。

类似地，ANNs（人工神经网络们）自己预测输出并将其与我们称之为错误的实际输出进行比较，并尝试它应该做些什么来减少错误。我们应该给 MLP 一些输入来训练，因为它不知道它是否正确地预测了输出，我们应该给它相应的输出。然后，它以尝试尽可能准确地预测输出的方式训练自己。

那么，机器是如何训练自己的呢？

实例：

Challey发现，很多年前开始，谷歌发明了一个著名的上网验证：必须用鼠标一个一个指出给出的很多图片中，哪些是汽车才能通过验证进入下一步。下一次可能又变成问你：哪些是飞机或者轮船等等。

这就是典型的神经网络学习。只是，当时大部分人不知道这是谷歌在免费利用我们进行神经网络的纠错学习。

现在我们来探究：如何训练MLP（多层感知器）。

训练 MLP

训练 MLP 是寻找能够提供最佳输出的权重的过程。在此之前，我们先看下面的符号。

MLP 的符号

当我们向人工神经网络提供输入时，它会处理所有层并提供预测的输出。这称为前向传递。

现在对于输入，我们有 MLP 生成的输出和我们作为输入数据提供的实际输出。然后它找到预测输出和实际输出之间的差异。这可以被认为是一个错误。

然后它找到激活函数的每个输出的误差贡献。它对所有输出执行此操作，直到它从输出层到达输入层。这一步称为反向传播。

以下是权重更新的算法（如果不感兴趣可以略过Challey）

对于所有权重，使用以下公式更新旧权重

更新权重的公式

其中 \Eta 是算法的学习率。

求导数，也就是最后一项叫做梯度。

它重复整个过程，直到找到最佳权重的新旧权重之间没有太大差异。

因此，为了找到贡献的错误，我们需要对激活函数进行微分计算。它将特别使用偏导数。由于权重很多，它应该进行多次微分计算。如果激活函数的微分很容易，那么它将加快这个过程。

在这里，Challey给大家做个微分的复习^_^：

微分的中心思想是无穷分割。它在数学中的表示是：由函数B=f(A)，得到A、B两个数集，在A中当dx靠近自己时，函数在dx处的极限叫作函数在dx处的微分。微分是函数改变量的线性主要部分。

激活功能（激活函数）

有 3 种主流的激活功能：

Sigmoid 函数：当我们传递加权的输入之和时，它将会生成从 0 到 1 的输出。

Tanh 函数：当我们传递输入的加权和时，它会生成范围从 -1 到 +1 的输出。

ReLu 函数：如果输入的加权和小于零，则 Relu 的输出为 0，否则输出为输入的加权和。

如果你观察到这一点，所有三个函数都是可微分的，除了 Relu 函数在零处不可微分，但它的变化将克服这一点，而且这些很容易微分，因为微分可以以自身的形式表示。

但是这里有一个在 1990 年代后期多年来一直面临的问题：如果我们有深度神经网络，那么就会有很多层。如果有很多层，那么将涉及许多次导数的乘法。

假设我们有 20 层，如果我们使用 sigmoid 或 tanh 作为激活函数，它的值小于 1。为了计算梯度，我们需要找到每一层的导数并需要将它们相乘。多次乘以较小的值会导致非常小的值。因此，它无法更新具有较大值的权重。这将需要非常长的时间来收敛，这被称为消失梯度下降。

Relu 函数将克服这个问题，因为它将有零或 z，我们将其作为输入传递给函数，有时它可能会遇到称为死激活的问题，因为它导致输出为零，但对Relu稍作修改就能解决这个问题。

过拟合及怎样解决？

我们再举一个例子（实例）：

一个班级有两个学生。我们进行样品测试。一个同学小明在某处找到了答案，然后他就记住了。另一个同学小李也找到了解决方案，但他的学习方式是，如果出现稍微修改的问题，他将能够解决它。在期末考试中，第一个同学小明只有在相同的问题出现时表现更好，但第二个同学小李会解决任何类型的问题。

过拟合就像第一个同学小明一样，太过于依赖输入。

我们构建的神经网络是，我们提供测试数据，随着我们增加其中的层，它会记住每个输入的输出，当我们提供相同的测试数据时，它会完美地预测。但是，当我们给出稍微修改过的数据时，它无法像对看到的数据所预测的那样完美地预测。这称为过拟合。

最好的算法是：它将以相同的准确度预测可预见数据和不可预见数据。有一些技术可以为可预见和不可预见的数据获得相同的准确性。

怎样解决过拟合？

一种简单而强大的策略是 Dropouts。对于每个输入，我们随机选择 p% 的隐藏层激活函数，输入层中的输入，并使其在训练中处于非活动状态。在运行时，我们将它们全部设为活动状态，而不是按原样使用所有权重，而是将权重修改为 (1-p)*w，因为我们将每个权重随机删除 p 次。

当我们查看更新权重的公式时，

我们在偏导数的帮助下更新旧的权重。但是，在过程开始时，我们没有任何先前的权重，因为这是第一次。当我们在基本的编程中将任何变量初始化为 0 时，让我们用 0 初始化每个权重。

但是，将每个权重初始化为 0 意味着模型中的每个权重都学习了相同的东西，这是无效的。即使每层有数百个神经元，它的行为就像每层只有一个神经元。所以，我们需要一个新的策略来初始化权重。

怎样初始化权重？

一种简单的策略是使用具有良好方差的高斯分布初始化权重。

Xavier/Glorot 初始化：

Xavier / Glorot 初始化

它适用于 Sigmoid 激活函数初始化：

它非常适合 Relu 激活函数初始化

注意：还有一些完全错过的概念，比如优化器，如何通过在更少的迭代次数内获得权重来使我们的算法更快。

感兴趣的可以去搜索流行的tensor flow神经网络库。

小结

看了上面的实例，结合算法（程序猿的最爱），我们可以了解到：其实，人工神经网络的原理很简单，它与人的神经元网络类似，需要突触（感知器）去了解世界，当然是需要多个突触（多层感知器MLP），并且需要不断的对这种多层感知器（外界触觉）进行自我学习以获得正确的知识，怎样进行自我学习呢？那就需要用到几个激活函数，也就是我们常说的自我激励，在这个自我学习过程中，很容易出现机械的死板的学习方法（死记硬背套结果），那就是过拟合，怎样解决过拟合呢？那就要求我们举一反三、触类旁通，这就是学习方法（策略）！

好了，通过撰写这篇文章，Challey本人也理解、学会了什么是人工神经网络，相信您也会！

关注人工智能、神经网络、深度学习等的朋友可以关注我们或者联系作者（微信同名）。

如果还不会（只要你看了，相信你一定会了，除非……），你可以把它想象成人的神经大脑。事实上，科学家就是通过模拟人的神经网络的工作方式而发明人工神经网络的。

我们能够在人工智能的帮助下解决许多现实世界的问题。有许多类型的算法可以解决不同类型的问题，例如用于文本数据和时间序列数据的循环神经网络，用于图像数据的卷积神经网络，现在很多算法都建立在这些算法之上。

所有这些，基础的基础都是人工神经网络。

参考

Bar-Yam, Y. (1997). Dynamics of Complex Systems. Addison-Wesley.

Kauffman, S. (1993). Origins of Order, Oxford University Press.

Rojas, R. (1996). Neural Networks: A Systematic Introduction. Springer, Berlin.

Rumelhart, D. and J. McClelland (1986). Parallel Distributed Processing. MIT Press, Cambridge,

责编：Challey

阅读全文，请先

人工智能技术文章工程师

您可能感兴趣

英伟达推出AI超级电脑Jetson Orin Nano Super，价格仅249美元

新款开发板售价仅为249美元，而上一代40 TOPS开发板售价为499美元，价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”，特别适合商业AI开发者、爱好者和学生使用。

【ICCAD2024】AI时代，先进数字芯片设计下的国产EDA新路径

面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战，国产EDA仍需不断探索和创新。

AWS计划追加100亿美元投资，在美国俄亥俄州扩建数据中心

近年来，AWS还积极投资于人工智能（AI）、机器学习（ML）、大数据分析和边缘计算等前沿技术，以保持其在这些领域的竞争优势。

【ICCAD2024】EDA新势力：芯行纪以AI重塑数字实现新未来

通过机器学习技术，EDA工具可以获取更精确的模型来预测设计中存在的问题，如布线拥塞、信号干扰、热效应等，从而为用户提供更准确快速的指导，避免后期返工。

美国计划推出“守门人”新规：简化AI芯片出口审批的同时，管制AI芯片出口

这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧，以及一些国家的不满，担心美国会充当单方面仲裁者，决定谁可以获得对AI至关重要的先进芯片。

美国最高法院驳回英伟达上诉请求，被控诉涉嫌误导投资者

股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动，而非游戏销售，导致投资者对公司的盈利来源和风险敞口产生错误认知。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂

来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n

拜登拟对成熟制程芯片启动301调查

来源：观察者网12月18日消息，自12月2日美国发布新一轮对华芯片出口禁令以来，不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称，根据知情人士以及该报查阅

京东方晶芯MLED项目，已完成设备搬入

12月18日，珠海京东方晶芯科技举行设备搬入仪式。插播：加入LED显示行业群，请加VX：hangjia188在10月31日，珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品

iPhone17系列迎六年来首次设计大换代：回归铝合金背板

有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的

跟着撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产

又输了！《黑神话：悟空》年度最佳PS5游戏败给《宇宙机器人》

2024年度PlayStation游戏奖今日公布，《宇宙机器人》获得年度最佳PS5游戏，《使命召唤：黑色行动6》获得年度最佳PS4游戏。在这次评选中，《宇宙机器人》获得多个奖项，包括最佳艺术指导奖、最

自动驾驶业务增长6倍，Uber被市场明显错杀，即将迎来50%上涨空间！

“ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务，Uber ( NYSE: UBER ) 的股价在短短几周内从 202

扎克伯格39岁华裔爱妻罕见炫舞，丰韵身姿尽显“女王”气场，宠溺深情令人动容

在科技浪潮翻涌的硅谷，马克·扎克伯格不仅是“脸书”帝国的掌舵人，更是以其谦逊低调的形象，在公众心中树立了独特的领袖风范。然而，在镁光灯难以触及的私人领域，扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事

极越之后，2025年最有可能死掉的4个新势力车企！

极越汽车闪崩，留下一地鸡毛，苦的是供应商和车主。很多人都在关心，下一个倒下的新能源汽车品牌，会是谁？我们都没有未卜先知的超能力，但可以借助数据管中窥豹。近日，有媒体统计了15家造车新势力的销量、盈亏情

【倒计时3天】2024RT-Thread开发者大会，本周六见！

亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天！还没报名的小伙伴，抓紧报名噢，12月21日不见不散！大会时间与地点时间：2024年12月21日 9:30-1

文章评论

最新
热门

换一换

EE直播

更多>

深入浅出讲解『人工神经网络』的原理和运行机制

感知器

多层感知器 (MLP)

训练 MLP

激活功能（激活函数）

过拟合及怎样解决？

怎样初始化权重？

小结

杂志声明