过去的20年里(1999-2009),半导体市场大规模增长的驱动力主要来自笔记本电脑、台式电脑和家庭影音娱乐系统;在随后的第二个10年里(2009-2019),手机、数据存储和云计算成为了新的增长点。而恩智浦(NXP)大中华区工业与物联网市场高级总监金宇杰日前在接受《电子工程专辑》采访时表示,展望未来10年,以智能互联设备、工业和物联网边缘、自动和电动汽车为代表的“强大的边缘”世界,将为半导体产业带来超过5000亿美元的收入。
他援引咨询机构的数据称,到2025年,全球智能互联设备数量将达500亿个,未来10年,5000万到1亿个新的智能连接设备会进入到我们的生活,更环保、更安全、更高效,将成为“未来能够预制变化并实现自动化的世界”的主旋律。为此,恩智浦日前宣布其EdgeVerse产品系列新增了跨界应用处理器,包括i.MX 8ULP、经Microsoft Azure Sphere认证的i.MX 8ULP-CS(云安全)系列和新一代高性能智能应用处理器i.MX 9系列。新增产品包括EdgeLock安全区域带来的新创新,以提高边缘安全性,以及旨在最大限度提高能源效率的Energy Flex架构。
芯片中的安全堡垒
EdgeLock安全区域是恩智浦推出的一款经过预配置的自管理式自主片上安全子系统,完全集成在恩智浦i.MX 8ULP、i.MX 8ULP-CS和i.MX 9应用处理器中,能够为物联网(IoT)边缘设备提供智能保护,防范攻击和威胁。
“从本质上来说,EdgeLock安全区域就像是SoC内部的安全总部或堡垒,存储和保护关键资产,包括RoT和加密密钥,在保护系统免受物理和网络攻击的同时,还能简化安全认证路径。”恩智浦边缘处理事业部软件研发总监翁铁成说。
EdgeLock与其他处理内核相互隔离,具有自己的专用安全内核、内部ROM、安全RAM以及支持先进的防御旁路攻击的对称和非对称加密加速器和哈希函数,其自主管理的安全功能包括通过广泛加密服务增强的芯片信任根、运行时验证、信任配置、SoC安全启动执行和细粒度密钥管理。
“预配置的安全策略”和“智能的电源管理”是翁铁成从软件角度着重强调的EdgeLock两大特点。例如恩智浦通过与Microsoft合作,将Azure Sphere作为芯片本身内置的受保护信任根在EdgeLock安全区域上启用,这对大量物联网和工业应用实现设备高度安全至关重要。同时,预配置的安全策略还能够帮助开发人员降低安全实现的复杂性,避免代价高昂的集成错误,从而加快产品上市。
而在i.MX 9、i.MX 8ULP和i.MX 8ULP-CS系列中,新推出的Energy Flex架构将异构域处理、设计技巧和28nm FD-SOI工艺技术相结合,能源效率比前代产品提高了75%。这些处理器中嵌入了基于RISC-V内核的可编程电源管理子系统,能够管理从30微瓦到全功率的20多种不同电源模式配置,OEM和开发人员可以自定义特定应用的电源配置文件,以最大限度提高能源效率。
恩智浦Energy Flex架构
也就是说,当终端用户应用在处理器上运行时,EdgeLock安全区域被设计用于智能地跟踪功率转换。当应用处理器的异构内核进入不同功率模式时,该架构独特的“功率感知”能力可通过执行安全策略来增强抵抗和阻止新兴的攻击面。
“一站式服务”的软件新生态
除了提供底层的芯片和参考电路设计外,给予客户软件方面强有力的支持,是恩智浦近些年来的另一个工作重心。以eIQ开发环境、EdgeScale软件架构和EdgeVerse平台为代表的产品组合,成为恩智浦在可扩展安全边缘计算方面做出的全新尝试。金宇杰表示,这一系列软件平台和架构的出现,为用户提供了完整的“一站式服务”,能够帮助他们实现从云到端的安全设备管理,更有效的机器学习运算能力。
这意味着,用户无论面对低成本微控制器、跨界i.MX RT处理器,还是高性能应用处理器等设备,都可以轻松实现机器学习功能。这是全套的即用型方案,用户可以在ARM Cortex内核到高性能GPU/DSP复合体中选择最佳执行引擎,以及在这些引擎上部署机器学习模型(包括神经网络)的工具。
按照翁铁成的说法,在与客户的交流过程中,恩智浦发现由于认知不同,对算法了解程度各异,客户空有数据,但不懂如何将数据训练成所需要的模型,直接导致AI/ML技术在不同物联网环境中很难真正实现落地。为了改变这一状况,恩智浦面向物体识别、人脸/手势识别、故障检测等一些最具代表性的使用场景,提供了一套通用、容易上手且能提升用户体验的工具集eIQ,并对硬件性能进行了相应的提升。
借助工具集中提供的多个AI/ML模型选项,用户数据可以在PC和服务器上进行自动化训练,并由此产生最适合恩智浦MCU/MPU的训练模型,再借助工具下载到SoC上就能够满足实际需求。如果客户已经拥有了训练模型,但不知道是否将芯片性能最大化,则可以借助BYOM(Bring Your Own Model)工具快速有效地训练出针对恩智浦芯片和平台更优的推理模型。
将AI/机器学习技术引入边缘计算应用的另一个关键要求是可以从云端轻松、安全地部署和升级嵌入式设备。作为一款设备和云服务套件,恩智浦正在利用EdgeScale平台实现对物联网和边缘设备的安全配置和管理。该平台通过在云端集成AI/机器学习和推理引擎,并自动将集成模块安全地部署到边缘设备,实现端到端的持续开发和交付体验。
而在底层,除了针对故障检测、语音识别、人脸识别等场景提供相应的API用以直接调用外,恩智浦还提供包括GPU、NPU、图像处理、视频处理、PXP、VGLite等多种计算加速引擎,Tensorflow Lite、Arm NN、ONNX、TFMicro、Glow等多种面向不同Arm内核的算法模型,以及与第三方合作伙伴共同开发的DeepViewRT工具在内的多种手段,用以发挥AI/ML性能。
跨界处理器家族再添新员
i.MX RT系列是恩智浦在2017年6月推出的跨界处理器产品,体现了恩智浦“为中国定义、设计、制造和服务中国”的战略。这种新型应用处理器的最大特点是采用了MCU内核,但基于应用处理器的架构方式,因此既能实现应用处理器的高性能和丰富功能,同时又兼具传统MCU的易用性和实时低功耗运行特性,从而突破了应用处理器和MCU之间的界限。
首款产品i.MX RT1050的内核运行速度高达600MHz,远高于市场上同期竞争解决方案400MHz的水平,可提供3015 CoreMark/1284 DMIPS的处理速度,是当时市场上具备最高性能水平的Cortex-M7解决方案。
进入2018年后,恩智浦接连宣布推出该系列的最新产品:RT1060、更具性价比的RT1020、以及采用新封装工艺的RT1050,从而将i.MX RT产品线扩充至三个可扩展系列。2019年,40纳米i.MX RT1010、全球首款1GHz i.MX RT1170系列MCU、超低功耗i.MX 7ULP、多媒体处理器系列i.MX 8M等产品相继面世。
近日,恩智浦再度宣布扩充跨界应用处理器家族,i.MX 8ULP、经过Microsoft Azure Sphere认证的i.MX 8ULP-CS(云安全)系列、新一代高性能智能应用处理器i.MX 9系列进入人们视野。
i.MX 9应用处理器以经过市场验证的i.MX 6和i.MX 8系列为构建基础,采用特殊低功耗优化的16/12nm FinFET工艺技术制造,集成了Energy Flex架构和专用的神经处理单元(NPU),用于加速机器学习应用,包括:
• 毫秒级推理时间内的多对象识别和防欺骗多人脸识别;
• 可以识别自然语言和口音的语音系统;
• 用于手势识别的序列分析;
• 用于工业预测性维护和智能家居中的综合传感器以及众多其他工业和物联网应用的异常检测;
NXP i.MX 9应用处理器
非常适合智能家居、智慧城市和公共安全系统、车队管理、精准耕种和农业、消费电子音频、健康保健和能源应用等需要低功耗连接和机器学习加速选项的行业。值得一提的是,该系列也标志着恩智浦Arm Ethos U-65 microNPU的首次实现,这使得在广泛的嵌入式设备中构建高效的低成本人工智能解决方案成为可能。
i.MX 8ULP和i.MX 8ULP-CS系列使用适用于Linux或Android的单核或双核高能效Arm Cortex-A35,以及一个适用于实时操作系统的Arm Cortex-M33,并集成一个适用于机器学习和高级音频处理的具备独立低功耗弹性域的Cadence Tensilica HiFi4 DSP,和/或一个适用于低功耗语音和传感器集线器处理的Fusion DSP。通过集成的GPU,i.MX 8ULP系列还可提供出色的3D和2D图形处理。
赋能边缘侧智能
为了配合这些强大的跨界处理器产品,恩智浦构建了同等强大的软件、工具与生态系统,包括SDK软件开发包、MCU Xpresso IDE开发环境、常用的配置工具(如管脚配置、时钟配置、安全配置甚至是生产管理的工具)、以及与合作伙伴联合开发的工具和软件开发套件等等,生态系统建设日趋完善。
“跨界处理器需要很多软件的支持,但同时因为它如此强大的处理能力和丰富的外设集成,也给很多的软件带来了新的可能。”恩智浦边缘处理事业部系统工程总监王朋朋表示,得益于此,一些过去不敢想象的事情,比如在在跨界处理器上运行QNX操作系统、在MCU上实现AI/ML,运行MicroPython高级语言等,现在都成为了可能。
在王朋朋看来,目前,在MCU上和在高端处理器上运行相关软件并无本质区别,流程也是一致的。例如都是在硬件基础上进行数据训练、建模、转换、量化降解,再分解成可以部署的模型或者是一些能够和C/C++配合的量化代码,区别只是MCU需要更加适合MCU的模型或者是框架,好比MPU可以采用Tensorflow,在MCU上就需要采用Tensorflow Lite Micro,后者更适合在MCU上做实时处理,算力模型规模小,比较适合MCU的输入、输出与接口控制。同时,MCU的功耗和成本比较低,可以在边缘侧开发一些比较适合的AI应用,包括AI机器学习、机器视觉、语音/视频处理、图形图像处理、电机控制、操作系统等。
我们也因此看到在一些语音解码/识别、视频处理和电机控制应用案例中,M7内核或HiFi4 DSP对MP3、AAC、Opus进行解码时,CPU资源占用率只有百分之几,即使做均衡器、高低音增强、环绕声、混音等音频的后端处理,也只占据约20%左右的带宽,为处理其它事情留出了大量资源;视频处理中的MIPI CSI、DSI接MIPI显示输出、并行LCD接口支持24位/32位多种色彩、多个硬件涂层实现混层/多层效果、DSP实现图形模块的搬移、转化、拉伸效果等;通过多PWM通道/串行接口,实现一颗MCU控制4-5个电机,或是替代Arm+FPGA架构实现伺服控制与异常检测。
翁铁成表示,针对AI,“性能最高的就是最好的”这一逻辑关系并不成立,特别是在工业物联网中,追求的是性能、能耗和精度的平衡点。“AI市场已经度过了第一代的粗犷发展期,步入了细分领域,应用场景非常窄,需要芯片厂商提供更多细分的方案选择。”他说。