AI MCU时代,大部分开发者可能都期望MCU做出差异化、应用导向,又要求MCU成本不能太高,这真的可能吗?

MIT(麻省理工学院)2018年曾发表过一篇题为《通用技术计算机的衰落:为何深度学习和摩尔定律的终结正致使计算碎片化》的paper。这篇paper预测了随摩尔定律的放缓、半导体尖端制造工艺的成本攀升,通用计算将难以满足时代发展需要。与此同时,专用计算很快将大行其道。

这篇文章现在看来是极具前瞻性的,比如说现在的数据中心领域,加速器已经开始蚕食通用处理器的市场,加速计算也在更多领域开花结果。

但这则paper还探讨了一件事:CPU这类通用处理器仰仗面向广阔市场、高出货量来摊薄成本,而专用处理器由于面向特定应用场景——其出货量将远低于通用处理器。即便专用处理器面向特定应用时有着更高的性能、更优的效率,成本依然是其面临的巨大障碍。

其中还给出了几个变量,以描述在什么样的情况下(包括专用处理器性能高出多少、出货量达到何种水平等)、哪些具备规模效应的行业选择专用处理器会更有价值——有兴趣的读者可以看一看电子工程专辑前两年对这篇paper的总结

另一方面,摩尔定律并未彻底终结,计算机科学的层级结构也决定了,这个结构的上层还有很大的优化余地。所以我们看到在MCU领域,国际头部企业都瞄准“定制化”——虽然MCU大方向仍然是通用的,但这些巨头面向特定应用市场的解决方案方面投入很大,比如汽车、工业、医疗等。这也算是符合这个时代“应用导向”及走向专用的芯片设计思路。

前不久的MCU生态发展大会上,圆桌环节几名发言人都提到MCU市场“卷”得厉害,产品同质化严重。芯易荟CEO汪达钧在接受采访时说:“国外那些大厂以最终用户的需求来调配资源:芯片的设计效率、运算效率都能够支撑客户的应用。”“中国MCU企业如果没有定制能力,而只是做通用芯片,都是通用核+加速器,势必就要打价格战。因为竞争对手也能做同样的事,没有差异化。”

当我们在探讨DSA领域专用芯片、微架构定制、应用导向这些问题时,可能有一种解决方案会成为新的未来。

 

中国MCU企业的困境:成本、同质化

统计机构的数据显示,中国MCU市场占到全球市场的25%,且2019-2026的CAGR年复合增长率7%是超过了全球市场均值的。这些看起来仿佛前景一片大好。

但实际上,中国MCU市场参与者在卷的主要是中低端MCU产品。当国际巨头开始做Cortex-M85的时候,国内基于Cortex-M7的MCU产品都还很少。加上中低端市场竞争差异化不足,价格战显得异常惨烈。

汪达钧在演讲提到第三方平台整理出的MCU“研发费用率”的数据:即MCU研发费用÷市场营收,如下图所示。本土MCU厂商的研发费用率相较国际头部企业,高出了大约10%。研发费用率越高也就意味着产品利润越低。

“本土MCU的技术积累不够、生态环境没有完全搭建起来,这是可以理解的。”汪达钧谈到,“但如果我们无法在高性能MCU市场有所作为,发展前景就不明朗。”“提升价值才能避免同质化,做出差异化才能脱离价格战,利润才能提高。”“有了利润,我们的MCU企业才能把更多的钱投入到具体的应用和生态上,去更好地支持客户。”

“国际MCU企业面对包括主流的AI应用部署时,将很多时间和成本投入在了帮助客户做应用的问题上,提供端到端的开发解决方案,甚至包括AI模型的定制与部署服务。”“国内的MCU企业要竞争,这方面的投入是必不可少的;是我们的客户必须去投入的。”

作为芯片设计上游EDA企业的芯易荟,在此能做的就是帮助客户缩减芯片设计周期、降低芯片设计成本,“让客户把更多的时间、金钱投入到应用优化和生态建设上。最终才能脱离价格战的困境,支撑应用、形成真正的竞争力。”

 

AI MCU提供的市场机会

MIT在研究和撰写文首提到的这篇paper时,虽然也明确了AI的发展,但当时他们应该没有预料到AI发展速度会这么快、覆盖范围这么广——这一趋势深刻影响了应用开发的模式,及需要满足特定应用场景的芯片设计。

即便早年AIoT的呼声就已经很高了,这两年微控制器领域依然涌现了两个新词:TinyML、AI MCU——过去几个月,不仅是企业市场在提,媒体也在追捧。

“从算力的角度来看,TinyML可能会达到几百GOPS的水平,因为AI MCU的本质仍然是MCU,需要考虑目前MCU主流应用场景里面的限制,如功耗和成本。”汪达钧在谈到TinyML和AI MCU时说,“我觉得和过去的AIoT相比,TinyML/AI MCU的定义会更加有限定性(restrictive)一些。”

“比如静态的人脸识别、简单的物品对象识别、语音识别,甚至是简单的手势识别现在都可以借助AI MCU来完成。”“AI everywhere是不可逆的大趋势。这些还只是大家谈得比较多的几个场景。一旦这样的技术变得更容易获取,开发者多样化的聪明才智就会在应用上全面爆发出来。”

“AI和大数据的浪潮,对我们来说是很好的机会。未来数据中心、终端、边缘端的逻辑芯片都需要注入推理能力。今后几年的逻辑芯片可能都需要重新设计,去追赶层出不穷的新算法。”在汪达钧看来,TinyML带来MCU市场容量的进一步扩大,对国内MCU市场上下游的参与者而言都是重要的市场机会。

“高性能MCU的制造工艺从40nm走向28nm/22nm,甚至未来走向14nm都有可能。受到地缘政治影响,国内foundry厂成熟工艺产能还会大幅增加,成本降低,这对我们而言也是机会。”

但最终问题仍然回到了如何打造“差异化”和专用芯片成本效益的问题上。我们在去年进博会上就已经见到瑞萨展示基于Arm Helium技术的AI MCU,不需要借助加速器就能进行人的识别;今年年中英飞凌MCU加入microNPU,能以较高帧率和低延迟识别手势操作、水果种类...国际大厂仍然具备高端MCU市场优势。

 

借助DSA专用架构,提升TinyML的效率

“我们的MCU客户现在都非常关注AI,很多都希望下一次Tape-out就能把AI用进去。”汪达钧在谈市场于AI MCU的热情时说,“只不过究竟需要64GOPS还是128GOPS算力或是更多,他们心里还没底——现阶段还在和他们的客户沟通,毕竟这得由应用场景决定。”

所以我们也看到芯易荟E32 DSP IP的E32N指令集选项提供可选的8GOPS-128GOPS TPU——即其中内置的Tensor加速器,用以满足TinyML场景的不同需求。关注电子工程专辑此前对芯易荟芯片设计工具报道的读者应该知道,E32 DSP是芯易荟提供的高性能内核处理器。

E32B基础产品,基于VLIW/SIMD架构,具备下图给出的四大特性:

其中最后一点相关ISA扩展是尤为值得一提的,关乎MCU芯片设计客户构建属于自己的差异化内核——也就是汪达钧反复提及的国内MCU企业应当去做的产品差异化。具体来说,E32 ISA除了基础、浮点和数学运算指令,也支持指令定制。

“基于算法、应用的具体需求,比如提高Load/Store单元应用效率,计算下个地址的递增(Load/Store with post increment)、为提升FFT性能增加bit reverse指令、面向TinyML的SIMD指令……最终将更高算力和效率放进处理器内核中。”

芯易荟本身也提供4种指令集选项,除了默认标准的E32B、支持标量单精度或双精度浮点的E32F和E32D,还有个关键就是汪达钧特别提到的E32N。“E32N能更好地支撑张量的INT8的SIMD加速指令。”“专为AI MCU或者说TinyML准备。”

“E32N是一个双核结构,里面除了E32F还有个TPU。”TPU作为Tensor加速器也就实现了更高的TinyML性能。如前所述,下游MCU设计客户还可以基于此增加自定义扩展指令,“开发真正属于他们自主创新、有差异化的内核处理器。”

为表明E32 DSP在效率上的优势,汪达钧在演讲中给出了包括GEMM通用矩阵乘在内的数字信号处理,和几项具体的TinyML负载下,MAC乘积累加运算时钟数在总时钟数中的占比(MAC Utility)——这个值越高,“运算单元一直有数据在crunch”,即表明处理器运算效率越高。

对比竞品,E32 DSP的运算效率有着显著优势。最终在FFT、FIR等信号处理及图像分类、异常检测等TinyML方面,E32 DSP都构成了相比同级别32位宽竞品在性能和效率上的绝对领先。

除了芯易荟本身在微架构设计、Compiler等层面的努力,汪达钧说DSA架构是运算效率和性能领先的关键。“芯易荟一直以来瞄准的是DSA处理器,‘数据处理’是我们的定位。”

“它扮演的不是通用CPU协处理器或加速器的角色,作为数据处理器(Data Processor),和CPU流水线是紧密耦合在一起的。”“客户进行定制以后,最终的定制处理器虽然失去了一定的通用性,但功耗、面积都降下来了,并且在特定领域数据处理的性能、效率均有显著提升。”

如此一来,文首提到的差异化问题真正得以解决。

 

所以如何降低AI MCU设计成本

处理器设计成本主要包括微架构、RTL和验证的成本,相较现在的设计方案或方法学,汪达钧在采访中坦言,“定制芯片面向特定应用场景,需要投入的NRE更高、周期更长。” 这就和芯易荟FARMStudio这款EDA工具能够分钟级自动生成处理器核心有关了。有关FARMStudio,我们曾多次撰文做过介绍,本文不做赘述。简单来说,这是个只需要用户输入基础核和超级指令(SIMD/VLIW自定义指令)、选择预置模板以后,就能一键生成DSA软硬件和工具链的EDA工具。

最终生成的硬件包括RTL、综合脚本、测试套件、FPGA开发测试环境、RTL验证环境等;软件则包含有编译器、ISS、性能仿真器、调试器、应用库等。

我们之前就形容这是个神奇的过程。尤其体现在三个输入组成部分的“超级指令”上:软硬件架构师对应用做出分析以后,针对算法热点、重复使用的C语言函数,设计好基于C的指令,用C函数描述指令集功能,输入到工具中即可。FARMStudio有个硬件编译器,能够将定制指令集直接部署到处理器的流水线里,并进行功能优化、资源共享等操作。

“这是非常具有弹性、易用的设计方法,C语言描述特定应用所需要的加速指令、工具自动产生处理器的微架构和RTL,而不需要自己去写Verilog。这才是真正意义上的定制处理器,这样的设计方法学对行业而言都是巨大的进步。”汪达钧补充道,“我们有个工具(Core Tools),这个工具是提供给客户的终端客户。毕竟最终的应用是系统厂商在设计,这款工具能帮助他们快速进行基于处理器的应用层软件开发和调试。”

再加上FARMStudio V2.0新增FTOS多层级开发验证平台,在同一个设计环境中完成不同层级的仿真和验证,“跨界融合、协同开发”,解决验证的问题。芯易荟此前给出的数据是,相比于传统设计流程,这种大幅缩短迭代周期、能快速迭代的FARMStudio设计流程可“总成本可达10倍以上缩减”。

最终,MCU的设计成本也就降低了,而且也实现了出色的定制化,具备应用导向的差异化。

“我们看到,客户对AI能力、对AI的要求已经非常明朗,这甚至可能是他们的基本要求。”汪达钧总结说,“在处理器里面放个AI网络行不行?在有明确CNN算子的前提下,核心算出来需要多少周期,性能怎样?这都已经是我们的客户在问的问题了。”

可见在AI MCU的时代背景下,AI技术来势汹汹,它为行业和芯易荟这样的市场参与者带来了丰沛的市场机会。就像我们今年走访的MCU企业今年普遍在谈AI MCU,以及面向终端应用开发时数据驱动的开发思路转变,这个过程是在短短半年间就持续挺进的。

“这与芯易荟数据处理器的理念完美契合;所以AI大潮,对我们而言是相当大的利好。”或许在时代走向专用计算、应用导向的大背景下,如FARMStudio这样可定制处理器的工具和E32 DSP这样可配置的定制处理器IP就是芯片设计企业最需要的。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
瑞萨为进一步优化产品组合和加强市场拓展,发布了其最新的工业专用微处理器(MPU)RZ/T2H,并详细介绍了公司在工业市场的全面布局和未来规划。
与国产替代1.0时代不同,客户在经历过史无前例的缺芯潮之后,将供应链安全放在了更高的位置,迫切需要多源头的供货保证,加之逆变器市场现在对成本越来越在意,这一切都给国产控制类MCU的推出奠定了良好的基础。
工业和汽车领域中,马达驱动与数字电源变换是常见的实时控制系统,它们需要处理器拥有极高的实时响应能力、强大的运算能力和优质的ADC与PWM性能。而随着AI逐步渗透到工业和汽车领域,智能化变革推动着高性能微控制器(MCU)需求的日益增加。
自1984年,意法半导体首次进入中国,成为首批在中国开展业务的半导体公司。意法半导体CEO Jean-Marc Chery日前表示,中国市场是不可或缺的,是电动汽车规模最大、最具创新性的市场,与中国本地的制造工厂达成合作,具有至关重要的作用。他还表示,意法半导体正在采用在中国市场学到的最佳实践和技术,并将其应用于西方市场,“传教士的故事结束了”。
意法半导体首席执行官Jean-Marc Chery在投资者日活动上表示,中国是电动汽车最大、最具创新性的电动汽车市场。“对于意法半导体及其客户而言,中国市场不可或缺,只在市场外部竞争是不够的。”
前不久兆易创新发布了EtherCAT从站控制芯片和基于Cortex-M33的GD32G5系列MCU。基于此,本文尝试谈谈兆易创新对MCU的态度和思考...
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播