加州大学华人女博士提出全新高效NAS算法:AutoML一次「训练」适配亿万硬件

OpenCV学堂 2022-01-16 23:58



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】为了在各种各样的目标设备上高效运行神经网络推理,硬件适配的神经架构搜索(NAS)至关重要。高效进行硬件适配NAS的关键是快速评估推理延迟,以便对不同的神经架构排名并择优。目前,SOTA普遍采用为每个目标设备构建延迟预测器的方法,但这是一个非常耗时的过程,且在面对极其多样化的设备时缺乏可扩展性。


近日,由加州大学河滨分校主导、乔治梅森和圣母大学共同合作的团队提出,可以利用延迟的单调性来从根本上促进硬件适配NAS —— 即不同设备上的神经架构延迟排名通常是相关的。


当强延迟单调性存在时,可以复用代理硬件上NAS所得到的架构给任意新目标硬件,而不会损失Pareto最优性。通过这种方法,结合现有的SOTA NAS技术,硬件适配NAS的代价可以降到常数O(1)。


目前,论文已经被国际性能建模和分析顶会ACM SIGMETRICS 2022接收。


论文地址:https://arxiv.org/abs/2111.01203

项目地址:https://ren-research.github.io/OneProxy/


神经架构搜索(NAS)


神经网络是层状结构,每一层可能是卷积层、激活层或全连接层等。


NAS的过程就像搭积木,积木的每一层都有多种选择,比如当前层是卷积层时,使用多大的卷积核就是一种选择。在把各层的选择组合起来之后,便构成了一个完整的神经架构。


通过NAS,一般会得到多个「最优」架构,比如高精度同时高延迟和低精度同时低延迟的架构。而NAS的最终目标就是找出这样一系列在精度VS延迟的权衡中最优的架构(称为Pareto最优架构)。相应地,硬件适配NAS就是对给定目标设备进行NAS,从而找到当前设备上的一系列Pareto最优架构。


由此可见,NAS就是一个「选择-组合」的过程,所以过程中必定会得到非常多个可供选择的架构。从中挑出Pareto最优架构的方法是对这些架构的延迟和精度进行排名而择其优。


对此,本文将使用精度和推理延迟两个指标来衡量一个神经架构的性能。


工作简介


卷积神经网络(CNN)已被部署在越来越多样化的硬件设备和平台上。而神经网络架构极大地影响着最终的模型性能,比如推理精度和延迟。因此,在NAS的过程中综合目标硬件的影响至关重要,即硬件适配的NAS。


高效进行硬件适配NAS的关键是快速在目标设备上评估各个神经架构的延推理延迟。如果简单地直接测量每个架构的延迟,会导致一次NAS就需要数周甚至数月。所以SOTA硬件适配的NAS主要依赖于为每个设备建立延迟查找表或预测器。



然而构建延迟预测器非常耗时以及需要大量的工程工作。例如,MIT的ProxylessNAS在移动设备上测量了5000个DNN的平均推理延迟,以此为基础构建延迟查找表。


假设每次测量的理想耗时是20秒(根据TensorFlow官方指南),即使不间断地测量,在一个设备上构建延迟预测器也需要27个多小时。类似地,Meta提出的ChamNet收集了35万条延迟记录,仅仅用于在一个设备上构建延迟预测器。


今年ICLR的spotlight工作HW-NAS-Bench也花了一个月在NAS-Bench-201和FBNet模型空间上搜集延迟数据,并为六个设备构建延迟预测器。在Microsoft的最新工作nn-meter中,单是收集一个边缘设备上的延迟测量值就需要4.4天。


这些事实证明了SOTA的硬件适配NAS —— 为每个目标设备构建延迟预测器 —— 成本非常高昂。



更复杂的是,CNN部署的目标设备极其多样化,包括移动CPU、ASIC、边缘设备、和GPU等。例如,光是移动设备,市面上就有两千多个SoC,排名前30的SoC才勉强各有超过1% 的份额。所以,如何在极其多样化的目标设备上有效地进行硬件适配NAS已成为一项挑战。



在本项工作中,作者解决了如何在不同目标设备上降低硬件适配NAS的延迟评估成本。作者首先证明了神经架构的延迟单调性普遍存在,尤其是同一平台的设备间。延迟单调性意味着不同架构的延迟排名顺序在多个设备上相关。


在此基础上,只需要选择一个设备作为代理并为它构建延迟预测器 —— 而不是像SOTA那样为每个单独的目标设备构建延迟预测器 —— 就足够了。


实验结果表明,与专门针对每个目标设备进行优化的NAS相比,仅使用一个代理设备的方法几乎不会损失Pareto最优性。本项工作被收录于SIGMETRICS’22。


普遍存在的延迟单调性


作为本项工作的根基,作者首先研究了神经架构的延迟单调性,并证明它普遍存在于设备间,尤其是同一平台的设备。本文使用Spearman等级相关系数(SRCC)来定量地衡量延迟的单调程度。SRCC的值介于-1和1之间,两个设备上模型延迟的SRCC越大表明延迟的单调性越好。通常,SRCC的值大于0.9时被视为强单调性。


1. 同一平台的设备间


作者首先在四个移动设备上进行了延迟单调性实验,分别是三星Galaxy S5e和TabA,联想Moto Tab和Vankyo MatrixPad Z1;并从 MobileNet-V2搜索空间随机sample了10k个模型。接下来在四个设备上分别部署这些模型并计算它们的平均推理延迟。


下图(a)用散点表示这些模型在四个设备上的推理延迟;图(b)用热力图来可视化设备之间模型延迟的相关系数,每个方格的颜色深浅和所标数值直观地表示一对设备间的SRCC大小。


作者发现,当一个模型在TabA上运行得更快时,在其他设备上也更快,并且任意一对设备间的SRCC都大于 0.98,这表明这10k个模型在这些设备上有非常强的延迟单调性。



更多的实验还证明,同样的结论对于其他平台的设备间也成立,例如CPU,GPU,和FPGA。



2. 跨平台的设备间


对于跨平台的设备,由于硬件结构通常显著不同,延迟排名的相关性自然而然会低于同平台的设备间。作者在HW-NAS-Bench开源数据集上的实验也证明了此结论(详情见原文附录)。



用一个代理设备进行硬件适配NAS



硬件适配NAS的目的是从数以亿计的可选神经架构中找到适配当前硬件的一系列Pareto最优架构。其中,不同硬件只会影响架构的延迟,而不改变架构精度。


通过前一个章节可以知道不同硬件上架构的延迟排名可能有很强的相关性,既然代理硬件上延迟低精度高的架构可能在其他硬件上也延迟低精度高。那么能不能直接复用一个代理硬件上的Pareto最优架构给所有硬件呢?


作者的回答是:能,但是需要满足一定的条件。


首先,用一个代理设备在目标设备上进行NAS并成功搜索出Pareto最优架构的充分条件是强延迟单调性。当代理设备和目标设备之间的SRCC达不到阈值时,代理设备上NAS搜索出的架构可能与目标的Pareto最优架构有些差距。


实际情况中,设备之间的低延迟单调性可能并不少见,尤其对于跨平台的设备间。针对这种情况,作者提出了一种有效的迁移学习技术来使代理设备的延迟预测器适应到目标设备,从而提高适应后的「新代理」设备和目标设备之间的延时SRCC。


本文通过大量实验证明,可以成功作为代理设备的延迟SRCC阈值在0.9左右。使用迁移学习技术来提高代理设备和目标设备间SRCC的效果如下,具体细节以及算法描述可以参考原文的对应章节。




实验结果


作者在多个主流NAS搜索空间——MobileNet-V2、MobileNet-V3、NAS-Bench-201和FBNet上,对多个硬件设备(包括手机、GPU/CPU、ASIC等)进行了实验,证明了利用延时单调性(结合迁移学习提高单调性的技术),使用一个代理设备来对不同目标设备进行硬件适配NAS的有效性。



总结


快速评估在目标设备上的推理延迟是能够在海量的神经构架空间中实现高效优化的关键步骤。目前普遍采用的为每个目标设备构建延迟预测器的方法无法满足实际中目标设备日益增多所带来的挑战。


在加州大学河滨分校团队所提出的全新方法中,基于延迟单调性,仅仅一个代理设备就足以进行硬件适配的神经构架搜索,并且不失最优性。这省去了大量构建延迟预测器的巨大代价,使得今后针对不同平台和设备快速优化神经构架成为了可能。


作者简介


论文第一作者卢冰倩目前是加州大学河滨分校的博士生研究助理,本科毕业于浙江大学。博士期间一直从事AutoML和NAS的研究工作,包括自动化机器学习模型选择、可扩展的硬件适配神经网络优化,以及硬件适配NAS等。


其导师任绍磊博士,清华大学电子系本科,加州大学洛杉矶分校博士,现任加州大学河滨分校副教授。任教授的研究兴趣包括系统与网络优化(数据中心,云计算,边缘计算等),近年来专注于机器学习及其应用(包括强化学习,AutoML,TinyML等)。


参考资料:

https://arxiv.org/abs/2111.01203

https://ren-research.github.io/OneProxy/

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 241浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 78浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 201浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 150浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 184浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 97浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 173浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 160浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 136浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 133浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 181浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 95浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 155浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 110浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦