今年提“端侧AI”的半导体企业特别多——这个词出现的频率比去年高了不少。不光是PC、手机端侧的生成式AI推理,还包括IoT、嵌入式应用的TinyML、各种机器学习新技术。仿佛AI真的在改变一切。但说白了,这不就是AIoT吗?
不过进博会期间,瑞萨电子正式发布RA8系列芯片,这是行业内首款基于Arm® Cortex®-M85的MCU;借助Arm Helium技术,大幅提升了MCU的DSP、AI/ML性能。我们和瑞萨电子嵌入式处理器事业部高级经理吴频吉聊了聊,发现今年这种进阶版的AIoT,在端侧AI资源的挖掘上也变得更加激进了。
不仅是RA8,借助这颗芯片的发布,我们可以从AI的角度,来看看瑞萨的产品布局和战略。这对于我们理解工业、物联网、基础设施领域,芯片层面的AI技术发展也会有价值。
高性能+AI的MCU
先来谈谈RA8系列芯片本身。Arm官方目前对于Cortex-M85的宣传是“采用Arm Helium技术,最高性能的Cortex-M处理器”,是“高性能微控制器的新里程碑”,以及“最高的标量、DSP与ML性能”。Arm预设的M85应用场景是IIoT、智能家居、汽车等。
那么很显然,基于Cortex-M85的RA8系列MCU,一定在性能上是比较彪悍的。瑞萨给出了M85和M7之间的比较——Cortex-M7实际上也是过去几个月,我们从很多MCU企业那里看到的高性能架构选择。
这张表基本给出了Cortex-M85的一些关键属性。包括升级到Armv8.1-M,安全性方面加入了TrustZone,而且还特别配了“M型矢量扩展单元”Helium。Helium本身是Armv8.1-M架构的扩展,用于大幅提升ML与DSP性能。
在Helium之前更有名的Neon——今年3月我们在全国大学生电子设计竞赛颁奖礼上看到过瑞萨为比赛准备的RZ/G2L,其中的AI推理就基于Cortex-A55的Neon扩展——当然那就不是MCU范畴了。Helium和Neon在方向上是类似的,只不过前者规模会更小,着力于低功耗;另外Helium也有一些循环预测、复杂数学计算、scatter-gather内存访问之类的新特性。
加上M85本身的设计变化,RA8的性能相比基于Cortex-M7的MCU就会有个相对显著的提升,包括基于CoreMark测试的每时钟周期单线程性能达到6.39 CoreMarks/MHz;以及4倍DSP/ML性能提升、标量性能提升30%——这就完全符合Arm此前设计Helium预设的2倍数据通路宽度提升,以及4倍DSP/ML性能提升。
从更高层级来看,具体到RA8M1的构成与配置如上图:包括最多2MB Flash,总共1MB SRAM——“客户做控制类应用不需要挂任何东西”;通信接口涵盖以太网、USB、CAN-FD等主流组成,“还集成了一个八线SPI(Octal SPI),这个一般在MPU上才用的比较多,可以拿来接Octal Flash或者HyperRAM”;
以及功能安全之外,还有信息安全相关构成,包括RSA4K,ECC——“这里面我们还支持Ed25519,在MCU里面也不多见”,SHA-2等。“对于信息安全需求而言,RA8支持目前几乎所有主流产品。”吴频吉谈到。
另外就是作为MCU,相比于MPU和SoC,“它也很容易做开发”,“各种接口也能够让客户快速上手”。此前我们也看到,基于市场对算力需求的提升,不少厂商多有基于Cortex-M7的高性能MCU推出。但其中的大部分还是“以MPU的方式来做MCU”,吴频吉说,“里面没有存储器,电源设计也比较复杂。就相当于SoC设计,只是把核改成了实时核。”
吴频吉强调说,瑞萨面向的客户群体对于可靠性、安全性要求都很高,“我们还是以MCU的方式,提供更高的算力给客户”,包括仍以内置flash的方式,确保可靠性与安全性;加上Cortex-M85在能效表现上也优于M7,“很多客户还是希望MCU的功耗控制在一定范围,至少不需要散热片和风扇”,但仍然需要满足性能需求——“M7要做到相同的性能需要六七百MHz的频率,AI就更不用说了”。“在这样的情况下,我们定义了RA8这个产品,并且做出来了。”
“客户其实一直在找这类型的产品,因为市场上以前没有选择。以前他们也只能选那种外置flash的方案。”“RA8相当于填补了市场需求的空白。这个需求一直都有,尤其AI近一年火了以后,大家在终端AI这块的需求越来越强烈。”“以前有些开发者为了用上AI,因为没得选,硬是上了一套Linux系统,遇到各种各样的问题。我们提供这样一个选项,在开发者不需要太大改变的情况下,实现很多原本无法实现的功能。”
△ 瑞萨在进博会展位上展示的人物识别AI套件,基于RA8D1——这个demo具体是检测摄像头拍到的人物,即便部分被遮挡也能正常检测;检测距离可以达到20米。模型训练超过3200万张图片,支持180°全视角摄像头;
瑞萨列举的目标应用方向包括智能人物检测传感器;安全摄像头和视频分析;视频会议与网络摄像头;可视门铃和智能家居摄像头等...几年前应该没人想过,只是一颗MCU就能干这些吧...
应用开发理念的转变
吴频吉列举了RA8系列的一些应用方向,涵盖工业、消费电子、智能家居/智能楼宇、办公自动化、医疗等。
“这款芯片仍是个通用品,可以用在任何地方”——当然基于对RA8的介绍,不难发现这是个更适用于强调端侧AI或者要求一定性能,以及包括对信息安全有要求的应用上。
值得一提的是,RA8系列介绍中提到“用户界面”部分包含CEU摄像头接口——吴频吉特别谈到了指纹扫描仪的应用示例,对应的基于CEU摄像头接口,也就能在系统中接指纹光学传感器。这个应用应该是相对典型,可代表RA8芯片诸多特性的。
其一在于算力足够支持指纹识别。第二,可以做AI相关的进一步处理:“比如说某些情况下,存在用指纹贴片、非本人代打指纹的可能,借助AI就能进一步识别是否是本人。比如一般我们摁指纹,不同时间点,力度会有变化,AI很容易做出这方面的判断。”
第三,生物特征识别必然意味着安全性需求,“芯片也支持RSIP Cryptographic Engine加密引擎,对指纹特征数据做加密和传输”,RSIP应该是瑞萨特有的一个安全IP;加上TrustZone区隔专门的安全区域做处理,“做到符合当前安全需求的系统”。 这个例子也就囊括了算力、AI、安全功能、通信功能的不同需求。
尤为值得一提的还是端侧AI的某些功能实现。对此,吴频吉表示,随着端侧AI的出现,“开发理念已经完全不一样了”,“可能开发者思考的不再是用什么样的算法来实现功能,而是有多少实用的数据来实现对应的算法”,数据在其中是关键,“数据会在未来的开发流程中占据很重要的位置”。
“以前的想法大概是我要怎么做,判断这个东西是0还是1;而现在的想法是,在知道有0和1的情况下,(给AI模型)喂100万个数据,然后(由AI模型)判断哪个是0,哪个是1。我们不需要关心AI是怎么判断的。”AIoT“开发的理念更多要转换到以数据为中心,而非以算法为中心。数据变得越来越重要,数据量会越来越大。”吴频吉多番提及数据的重要性,“理念上我们瑞萨也往前赶,更多地将数据作为我们的发展重心。”
“我们认为AI一定是大势所趋,包括边缘和端侧设备。”“就端侧AI这一块,我们希望做一些事情,也希望帮助国内的客户,更快地实现产品构想。” “现在的开发流程,和原来嵌入式开发可以说有了翻天覆地的变化,我们的很多客户也已经看到了。一旦适应了变化,流程就会变得完全不同。”RA8显然就是这一时代背景下的产物。
△ 这是个马达异常检测AI套件的展示,用到了Reality AI的工具——进行电机运行的数据分析采集,生成AI模型,进行电极异常检测。介绍中提到AI模型仅占用20K Flash和9K RAM,推理时间约3.5ms,准确度>90%,而且不需要额外的传感器...
在开发上,PC端用简单的Python脚本来采集数据,基于网页端的工具组件,导入数据、统计分析、抓去特征值,就能生成所需的AI模型库。
瑞萨的AI芯片与生态布局
从RA8扩展开去,我们尝试观察一下目前瑞萨的AI芯片与生态布局。熟悉瑞萨MCU产品线的读者应该知道,“RA”是瑞萨的Arm内核MCU系列产品。而RA系列内,又有RA2, RA4, RA6和目前新推出的RA8几个系列。从性能定位来看,RA8是其中的旗舰产品。
如前所述,RA系列更多是定位于端侧设备的。若基于算力来看瑞萨MCU/MPU的产品布局,则瑞萨的芯片除了云端以外,在边缘和端侧都有覆盖。这里的“边缘”主要是指网络网关、边缘服务器。具体分布如下:
瑞萨称其为“可扩展的算力提供”,包括高端定位、达到34k CoreMarks的RZ/G系列,往下到RZ/V, RZ/N, RZ/T, RX700, RX600...及端侧设备中更追求低功耗的RA2, RL78。
这次发布的RA8,从CoreMarks算力来看是介于RZ/T到RX700中间附近的定位(基于RA8M1的480MHz主频,及6.39 CoreMarks/MHz每周期性能),是端侧设备中偏强性能的应用方向了。
这张图基本也可某种程度看做瑞萨的数字芯片方向,“AI”产品分布。实际上,在瑞萨定义的网关这个算力需求区间内,诸如RZ/V这样的芯片还提供专门的DRP-AI加速器,能够达到TOPS级别算力水平。这和RA8的Arm Helium级别的DSP/ML算力加速就又不同了。
从“软件合作伙伴生态系统”的角度来看,瑞萨的AI相关产品及开发生态大致如上图所示。“每个瑞萨的MCU、MPU产品线,我们都有对应的partner ecosystem。”吴频吉解释说。对应的AI/ML“应用公园”,开发工具及各类中间件、转译工具也在图中做了展示。“针对AI,我们有这样一套完整的开发流程和知识体系。”
其中比较值得一提的是,此前瑞萨收购的Reality AI在开发工具方面显然是扮演重要角色的,在非视觉类的应用方面提供AI开发工具。吴频吉提到,Reality AI甚至能为客户提供一些定制的AI模型。而且目前瑞萨已经将Reality AI提供的部分功能集成到了瑞萨的e² studio开发工具中——“这块我们差不多已经做完了,用户可以直接在一个开发环境里,完成从数据输入到上传云端的整个过程,对开发者而言会很方便”。
另外,如果不是只看数字芯片,那么在云端AI市场——即便AI训练芯片基本已经被英伟达牢牢掌控,瑞萨在这其中依然有不少市场机会。前不久SemiAnalysis曾发文详谈过数据中心大算力AI加速卡市场上,电源类芯片大战——瑞萨是其中很重要的一名参与者。吴频吉也提到在“核心AI”市场上,瑞萨提供的时钟产品、电源、存储接口产品也很有市场竞争力。
总的来说,AI于瑞萨而言的市场机会,瑞萨能够提供的技术,与可惠及的垂直应用市场如下图。其实这张图所提及的关键技术和可触达的市场,多少也能表现瑞萨这两年不断做企业与技术并购的成果——换句话说,若非这几年积极的收购,瑞萨大概也很难做到目前这番于AI市场机会的筹划:
达成这样的AI生态另外也需要不少合作伙伴的加入。“现在我们有200多个合作伙伴,提供300多个解决方案。”“某些需求,即便客户在瑞萨这里找不到解决方案,也可以在合作伙伴那里找到。”
对于擅长端侧与边缘市场的瑞萨电子而言,边缘AI显然是必须抓住的市场机会。基于AI在边缘本地实现“预测性”的新特性未来也的确会改变以往的开发理念。RA8系列MCU作为瑞萨这一发展思路的代表,是具备了典型性的。
从瑞萨的介绍来看,RA8M1也已经开始融入到瑞萨传统的winning combo成功产品组合中,配套电源、传感相关的方案,具体到智能扫地机器人、智能眼镜等。边缘与端侧AI,或者说AIoT的推进速度,在此类芯片的推动下,的确比我们预想的还要快。
△ 麦轮小车解决方案,“以麦轮小车为载体实现语音控制、图传、运动控制等多功能于一体的解决方案”。具体包括支持离线语音控制;直接接入了摄像头和WiFi模块,可实现无线局域网内的摄像头图传;小车上配有IMU传感器,可实现小车的实时姿态控制,并通过LCD屏实时显示摄像头画面和小车状态参数;另外因为RA8还集成了电机驱动的模拟功能,包括ADC, PWM等,还能做机械手臂的物体抓取...