 机器学习将持续作为众多应用的重要推动因素，尤其是视觉导向的机器人或所谓的“协作机器人”应用。结合处理器核心与可编程逻辑的异质SoC，能打造出高效且可重配置的解决方案。

在目前的嵌入式视觉领域中，最热门的话题之一就是机器学习(machine learning)。机器学习涵盖多个产业重要趋势，不仅是嵌入式视觉(Embedded Vision；EV)，而且在工业物联网(IIoT)和云端运算中均发挥极为显著的作用。

对于不熟悉机器学习的人来说，很多时候机器学习是透过神经网络的创造和训练而实现的。神经网络(neural network)一语极为通用，包含大量截然不同的子类别。这些子类别的名称一般用于辨识被实现的具体网络类型。这些网络在大脑皮层上建模，大脑皮层中每个神经元接收输入、处理后并将其传达给另一个神经元。因此，神经元一般由输入层、多个内部隐藏层和一个输出层组成。

在最简单的层面上，神经元取得输入、施加权重给输入，然后在加权输入总和上执行传递函数。其结果随后传递至隐藏层中的另一层，或传递给输出层。将某一阶段的输出传递给另一阶段而不形成一个周期的神经网络被称为“前馈神经网络”(FNN)，而那些存在反馈、内含定向周期的神经网络则被称为“循环神经网络”(RNN)。
20170721_Xilinx_TA31P
图1：简单的神经网络

在众多机器学习应用中极为常用的神经网络之一是“深度神经网络”(DNN)。这类神经网络拥有多个隐藏层，能实现更复杂的机器学习任务。为了确定每一层使用的权重和偏差值，必须对神经网络进行训练。在训练过程中，为该神经网络施加一定数量的正确输入和错误输入，并使用误差函数教授网络所需的性能。训练深度神经网络可能需要相当庞大的数据集，才足以正确训练所需性能。

机器学习最重要的应用之一是嵌入式视觉领域，其中，各类系统正从视觉实现的系统演进为视觉引导的自动化系统。相较于其他较简单的机器学习应用，嵌入式视觉应用最主要的区别在于采用二维(2D)输入格式。因此，在机器学习实施方案中，采用称为卷积神经网络(CNN)的网络结构，因为它们能够处理2D输入。

CNN是一种前馈网络，其中包含多个卷积层和子采样层以及一个单独的全连接网络，以执行最终分类。由于CNN的复杂性，它们也被归类在深度学习类别。在卷积层中，输入影像被细分为一系列重迭的小模块(tile)。在进行进一步的子采样和其它阶段之前，来自该卷积的结果先使用启动层建立启动图，然后应用到最终的全连接网络上。CNN网络的具体定义取决于所实施的网络架构，不过，一般通常至少包含下列元素：

‧卷积—用于辨识影像中的特征

‧修正线性单元(reLU)—用于在卷积后建立启动图的启动层

‧最大池化(Max Pooling)—在各层间进行子采样

‧全连接—执行最终分类

这些元素中的每一个权重都经由训练决定，而CNN的优势之一就在于训练网络相对容易。透过训练产生权重需要庞大的影像集，其中既有需要检测的对象，也有伪影像。这样能让我们为CNN建立所需的权重。由于训练过程中所涉及的处理要求，训练流程一般执行于提供高性能运算的云端处理器上。

架构

机器学习是一个复杂的课题，尤其是如果每一次都得从头开始，定义网络、网络架构以及产生训练算法。为了协助工程师实作网络和训练网络，有一些产业标准架构可供使用，例如Caffe和Tensor Flow。Caffe架构为机器学习开发人员提供各种工具库、模型以及具有C++库的预训练权重，同时提供Python和Matlab绑定。该架构能让使用者无需从头开始，就能建立并训练网络，以执行所需的运算。

为了便于重复使用，Caffe的使用者能通过model zoo共享自己的模型。Model Zoo提供多种能根据所需的专门任务实作和更新的模型。这些网络和权重定义在prototxt档案中。在用于机器学习环境时，prototxt档是用于定义推论引擎的档案。
20170721_Xilinx_TA31P2
图2：定义网络的Prototxt档案实例

实现嵌入式视觉和机器学习

基于可编程逻辑的解决方案越来越广泛地用于嵌入式视觉应用，例如异质的赛灵思(Xilinx) All Programmable Zynq-7000 SoC和Zynq UltraScale+MPSoC等多处理器SoC(MPSoC)。这些组件结合了可编程逻辑(PL)架构以及处理系统(PS)中的高性能ARM核心。这种组合形成的系统能够拥有更快的响应速度、极其灵活以便于未来修改，并且提供了高能效解决方案。

对于许多应用来说，低延迟的决策与反应时间极为重要，例如视觉导向的自主机器人，其响应时间对于避免对人员造成伤害、对环境造成破坏至关重要。增加反应时间的具体方法是使用可编程逻辑，实作视觉处理流水线，以及使用机器学习推断引擎实现机器学习。

相较于传统的解决方案，在这方面使用可编程逻辑，能够减少系统瓶颈问题。在使用基于CPU/GPU的方法时，每一阶段的运算都必须使用外部DDR，因为影像不能在有限的内部快取功能之间传递。可编程逻辑途径让内部RAM得以按需要提供缓冲，从而实现串流的方法。如此则可免于在DDR内储存中介元素，不仅减少图像处理的延迟，同时也降低了功耗，甚至提高了确定性，因为无需与其他系统资源共享存取。
20170721_Xilinx_TA31P3
图3：实现可编程逻辑的好处

在异质SoC中实现图像处理算法和机器学习网络，可透过诸如reVISION堆栈等工具来实现。reVISION能同时支持传统影像应用，以及基于SDSoC工具的机器学习应用；reVISION并同时支持OpenVX和Caffe Framework。为了支持OpenVX架构，核心的图像处理功能可被加速至可编程逻辑中，以建立图像处理管线。同时，机器学习推论环境支持可编程逻辑中的硬件优化工具库，以实现执行机器学习实作方案的推论引擎。
20170721_Xilinx_TA31P4
图4：reVISION堆栈

reVISION并提供与Caffe的整合，如此，实现机器学习推论引擎，就像是提供prototxt档案和经训练的权重一样简单，并由架构负责处理其余的工作。然后再用prototxt档案对执行于处理系统上的C/C++调度器进行配置，以加速可编程逻辑中硬件优化工具库上的神经网络推论。可编程逻辑用于实现推论引擎，其中包含Conv、ReLu和Pooling等功能。
20170721_Xilinx_TA31P5
图5：Caffe流程整合

机器学习推论引擎实作方案中所使用的数值显示系统，也对机器学习的性能发挥重要影响。越来越多的机器学习应用采用更高效的较低精确度定点数值系统，例如INT8表达式。相较于传统的浮点32(FP32)途径，使用较低精确度的定点数值系统并不会造成明显的精确度降低。因为与浮点运算相较，定点数学更易于实现，转而采用INT8则能在一些实作中提供更高效且快速的解决方案。

对于在可编程逻辑解决方案中进行实作而言，使用定点数值系统十分理想，例如，reVISION能够在可编程逻辑中与INT8表达式协同工作。这些INT8表达式便于在可编程逻辑中使用专用的DSP模块。在使用相同的核心权重时，这些DSP模块架构能实现最多两个同步的INT8乘法累加运算进行。这样不仅能提供高性能的实作方案，而且还能降低功耗。可编程逻辑组件的灵活性也便于实现进一步降低精确度的定点数值表达系统。
20170721_Xilinx_TA31T1
表1：不同权重表现的网络精确度

真实世界性能

在嵌入式视觉应用中使用机器学习的应用实例之一是车辆的避免碰撞系统。以reVISION堆栈针对Xilinx UltraScale+MPSoC开发相关应用，使用SDSoC为可编程逻辑的各项功能进行加速，以达到优化性能，能明显提高反应程度。在用于实施GoogLeNet解决方案的条件下，比较reVISION MPSoC的反应时间以及基于GPU的途径发现，二者差异相当明显。reVISION 设计能在2.7ms的时间内发现潜在的碰撞事件并启动煞车(使用批次规模为1)，而基于GPU的方法则需要49ms~320ms的时间(大批次规模)，具体取决于实作方案。GPU架构需要大批次的规模才能实现较合理的吞吐量，但其代价是牺牲反应时间，而Zynq在批次规模为1的情况下也能以极低延迟实现高性能。这种反应时间上的差异可能就决定了是否发生碰撞。

结语

机器学习将持续作为众多应用的重要推动因素，尤其是视觉导向的机器人或所谓的“协作机器人”(cobot)应用。结合处理器核心与可编程逻辑的异质SoC，能打造出十分高效、反应快且可重配置的解决方案。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

物联网 EDA/IP/IC设计人工智能传感/MEMS 技术文章处理器/DSP

返回列表

上一篇： 2017年《财富》世界500强发布，阿里腾讯上榜 下一篇： 同调多模光纤应用扩展，有望取代昂贵的单模光纤

小米市值跻身全球车企上市公司前三，力压比亚迪 2024年全年，小米市值增加4440亿人民币，比亚迪市值增加2459亿人民币……
能源效率：边缘计算成功的关键物理世界对智能的需求正在推动边缘设备支持复杂计算，如人工智能、机器学习、数字信号处理和数据分析等。这增加了能源需求，而这些设备通常处于能源匮乏状态。因此，迫切需要从根本上重新考虑制造这些设备的计算硬件以提高能源效率。
无线物联网：构建AI经济神经系统的未来之路本文探讨了当今最前沿的无线和物联网(IoT)技术，并预测了这些技术在未来50年的发展方向。
端侧/边缘AI盛宴正在成局——GPU成为关键推手 2024年，AI技术在移动设备、个人电脑和汽车智驾等领域飞速发展，成为多个领域中创新与发展的核心驱动力。作为全球重要的电子与半导体市场，中国在“Feature+AI”的端侧应用中也取得了显著成就。展望2025年，中国半导体行业有望在端边侧AI技术上取得突破性进展。
利扬芯片拟收购国芯微 100%股权，填补特种芯片相关领域空白利扬芯片拟收购李玲、李瑞麟、封晓涛、贾艳雷、孙絮研及李亮合计持有的国芯微 100%股权。最终收购价格需在完成尽职调查及审计、评估程序后经协商确定，并在正式的转让协议中明确......
UWB技术引领轨道交通支付革命 UWB技术的精准定位需要与支付系统的安全性相结合。此外，UWB无感支付需要解决多人同时通过闸机时的精准识别问题，以及防止插队和误扣费等情况。
赤池昌二先生升任TEL集团副总裁兼 TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。
2025年无线连接的七大趋势预计在2025年，以下七大关键趋势将塑造物联网的格局。
4月必逛电子展！六大热门新赛道，来NEP 领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！
ASML公布2025年度股东大会议程，并提本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

研报|台积电扩大对美投资至1650亿美元，预计最快2030年实现量产 Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究，TSMC（台积电）近日宣布提高在美国的先进半导体制造投资，总金额达1650亿美元，若新增的三座厂区扩产进度顺利，预计最快20
三星车规级电容在电动车高压DC-DC转换器中的作用 | 贞光科技代理品牌引言嘿，各位电动汽车的爱好者们！咱们今儿个就来聊聊电动汽车里那些“看不见，摸不着”，但又至关重要的零部件。要说电动汽车这玩意儿，那可真是科技含量满满，各种高精尖的技术都往里堆。但要让这些
u200c115.62亿元！A股市场又一起百亿并购国际电子商情讯，昨日(3月3日)晚间，TCL科技发布公告称，拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年
解析差分电路原理，输出电压为什么要偏移？差分运算放大电路，对共模信号得到有效抑制，而只对差分信号进行放大，因而得到广泛的应用。差分电路的电路构型上图是差分电路。目标处理电压：是采集处理电压，比如在系统中像母线电压的采集处理，
2024全球PCB企业40强榜单(含营收) 从上表可知，2024年前三季度全球40强PCB企业总营收约416.7亿美元，同比增长7.6%。其中，营收排名第一位的是臻鼎科技（36.05亿美元），排名第2～5位的分别是欣兴电子（26.85亿美元）、
脊髓伤患重获新生，XoMotion开启站立与舞动的可能点击蓝字关注我们SUBSCRIBE to USXoMotion许多脊髓受伤的人都有惊心动魄的灾难经历：潜水事故、车祸、建筑工地灾难等。但Chloë Angus的故事却截然不同。2015年的一个晚上，
闪耀新能源时代！安富利荣获2025“北极星杯”储能影响力BMS/EMS供应商奖在储能行业蓬勃发展的浪潮中，安富利凭借卓越的技术实力与广泛的市场影响力，荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可，更是对其在储能领域持续创新与
10万人才缺口！新思科技携手全球行业合作伙伴，加快全梯队人才培养新思科技与国际半导体产业协会基金会（SEMI 基金会）近日在新思科技总部宣布签署一份谅解备忘录（MoU），携手推动半导体芯片设计领域的人才发展。据预测，到 2030 年，全球半导体行业将需要新增 10
奇瑞用春天的阳光，唤醒了漫长的季节文｜金融街老李奇瑞终于正式向港交所递交上市申请了。其实，支持奇瑞汽车实现IPO，此前就已经被安徽省列在了汽车产业2025年重点工作的第38条，但正如奇瑞汽车一贯的低调作风，此次赴香港上市，奇瑞在资本市
本周五|UCIe1.1“验”值担当：IP和系统级验证挑战的妙解良方

热门评论
最新评论

换一换

机器学习提升嵌入式视觉应用

架构

实现嵌入式视觉和机器学习

真实世界性能

结语

杂志声明