AI MCU时代,大部分开发者可能都期望MCU做出差异化、应用导向,又要求MCU成本不能太高,这真的可能吗?

MIT(麻省理工学院)2018年曾发表过一篇题为《通用技术计算机的衰落:为何深度学习和摩尔定律的终结正致使计算碎片化》的paper。这篇paper预测了随摩尔定律的放缓、半导体尖端制造工艺的成本攀升,通用计算将难以满足时代发展需要。与此同时,专用计算很快将大行其道。

这篇文章现在看来是极具前瞻性的,比如说现在的数据中心领域,加速器已经开始蚕食通用处理器的市场,加速计算也在更多领域开花结果。

但这则paper还探讨了一件事:CPU这类通用处理器仰仗面向广阔市场、高出货量来摊薄成本,而专用处理器由于面向特定应用场景——其出货量将远低于通用处理器。即便专用处理器面向特定应用时有着更高的性能、更优的效率,成本依然是其面临的巨大障碍。

其中还给出了几个变量,以描述在什么样的情况下(包括专用处理器性能高出多少、出货量达到何种水平等)、哪些具备规模效应的行业选择专用处理器会更有价值——有兴趣的读者可以看一看电子工程专辑前两年对这篇paper的总结

另一方面,摩尔定律并未彻底终结,计算机科学的层级结构也决定了,这个结构的上层还有很大的优化余地。所以我们看到在MCU领域,国际头部企业都瞄准“定制化”——虽然MCU大方向仍然是通用的,但这些巨头面向特定应用市场的解决方案方面投入很大,比如汽车、工业、医疗等。这也算是符合这个时代“应用导向”及走向专用的芯片设计思路。

前不久的MCU生态发展大会上,圆桌环节几名发言人都提到MCU市场“卷”得厉害,产品同质化严重。芯易荟CEO汪达钧在接受采访时说:“国外那些大厂以最终用户的需求来调配资源:芯片的设计效率、运算效率都能够支撑客户的应用。”“中国MCU企业如果没有定制能力,而只是做通用芯片,都是通用核+加速器,势必就要打价格战。因为竞争对手也能做同样的事,没有差异化。”

当我们在探讨DSA领域专用芯片、微架构定制、应用导向这些问题时,可能有一种解决方案会成为新的未来。

 

中国MCU企业的困境:成本、同质化

统计机构的数据显示,中国MCU市场占到全球市场的25%,且2019-2026的CAGR年复合增长率7%是超过了全球市场均值的。这些看起来仿佛前景一片大好。

但实际上,中国MCU市场参与者在卷的主要是中低端MCU产品。当国际巨头开始做Cortex-M85的时候,国内基于Cortex-M7的MCU产品都还很少。加上中低端市场竞争差异化不足,价格战显得异常惨烈。

汪达钧在演讲提到第三方平台整理出的MCU“研发费用率”的数据:即MCU研发费用÷市场营收,如下图所示。本土MCU厂商的研发费用率相较国际头部企业,高出了大约10%。研发费用率越高也就意味着产品利润越低。

“本土MCU的技术积累不够、生态环境没有完全搭建起来,这是可以理解的。”汪达钧谈到,“但如果我们无法在高性能MCU市场有所作为,发展前景就不明朗。”“提升价值才能避免同质化,做出差异化才能脱离价格战,利润才能提高。”“有了利润,我们的MCU企业才能把更多的钱投入到具体的应用和生态上,去更好地支持客户。”

“国际MCU企业面对包括主流的AI应用部署时,将很多时间和成本投入在了帮助客户做应用的问题上,提供端到端的开发解决方案,甚至包括AI模型的定制与部署服务。”“国内的MCU企业要竞争,这方面的投入是必不可少的;是我们的客户必须去投入的。”

作为芯片设计上游EDA企业的芯易荟,在此能做的就是帮助客户缩减芯片设计周期、降低芯片设计成本,“让客户把更多的时间、金钱投入到应用优化和生态建设上。最终才能脱离价格战的困境,支撑应用、形成真正的竞争力。”

 

AI MCU提供的市场机会

MIT在研究和撰写文首提到的这篇paper时,虽然也明确了AI的发展,但当时他们应该没有预料到AI发展速度会这么快、覆盖范围这么广——这一趋势深刻影响了应用开发的模式,及需要满足特定应用场景的芯片设计。

即便早年AIoT的呼声就已经很高了,这两年微控制器领域依然涌现了两个新词:TinyML、AI MCU——过去几个月,不仅是企业市场在提,媒体也在追捧。

“从算力的角度来看,TinyML可能会达到几百GOPS的水平,因为AI MCU的本质仍然是MCU,需要考虑目前MCU主流应用场景里面的限制,如功耗和成本。”汪达钧在谈到TinyML和AI MCU时说,“我觉得和过去的AIoT相比,TinyML/AI MCU的定义会更加有限定性(restrictive)一些。”

“比如静态的人脸识别、简单的物品对象识别、语音识别,甚至是简单的手势识别现在都可以借助AI MCU来完成。”“AI everywhere是不可逆的大趋势。这些还只是大家谈得比较多的几个场景。一旦这样的技术变得更容易获取,开发者多样化的聪明才智就会在应用上全面爆发出来。”

“AI和大数据的浪潮,对我们来说是很好的机会。未来数据中心、终端、边缘端的逻辑芯片都需要注入推理能力。今后几年的逻辑芯片可能都需要重新设计,去追赶层出不穷的新算法。”在汪达钧看来,TinyML带来MCU市场容量的进一步扩大,对国内MCU市场上下游的参与者而言都是重要的市场机会。

“高性能MCU的制造工艺从40nm走向28nm/22nm,甚至未来走向14nm都有可能。受到地缘政治影响,国内foundry厂成熟工艺产能还会大幅增加,成本降低,这对我们而言也是机会。”

但最终问题仍然回到了如何打造“差异化”和专用芯片成本效益的问题上。我们在去年进博会上就已经见到瑞萨展示基于Arm Helium技术的AI MCU,不需要借助加速器就能进行人的识别;今年年中英飞凌MCU加入microNPU,能以较高帧率和低延迟识别手势操作、水果种类...国际大厂仍然具备高端MCU市场优势。

 

借助DSA专用架构,提升TinyML的效率

“我们的MCU客户现在都非常关注AI,很多都希望下一次Tape-out就能把AI用进去。”汪达钧在谈市场于AI MCU的热情时说,“只不过究竟需要64GOPS还是128GOPS算力或是更多,他们心里还没底——现阶段还在和他们的客户沟通,毕竟这得由应用场景决定。”

所以我们也看到芯易荟E32 DSP IP的E32N指令集选项提供可选的8GOPS-128GOPS TPU——即其中内置的Tensor加速器,用以满足TinyML场景的不同需求。关注电子工程专辑此前对芯易荟芯片设计工具报道的读者应该知道,E32 DSP是芯易荟提供的高性能内核处理器。

E32B基础产品,基于VLIW/SIMD架构,具备下图给出的四大特性:

其中最后一点相关ISA扩展是尤为值得一提的,关乎MCU芯片设计客户构建属于自己的差异化内核——也就是汪达钧反复提及的国内MCU企业应当去做的产品差异化。具体来说,E32 ISA除了基础、浮点和数学运算指令,也支持指令定制。

“基于算法、应用的具体需求,比如提高Load/Store单元应用效率,计算下个地址的递增(Load/Store with post increment)、为提升FFT性能增加bit reverse指令、面向TinyML的SIMD指令……最终将更高算力和效率放进处理器内核中。”

芯易荟本身也提供4种指令集选项,除了默认标准的E32B、支持标量单精度或双精度浮点的E32F和E32D,还有个关键就是汪达钧特别提到的E32N。“E32N能更好地支撑张量的INT8的SIMD加速指令。”“专为AI MCU或者说TinyML准备。”

“E32N是一个双核结构,里面除了E32F还有个TPU。”TPU作为Tensor加速器也就实现了更高的TinyML性能。如前所述,下游MCU设计客户还可以基于此增加自定义扩展指令,“开发真正属于他们自主创新、有差异化的内核处理器。”

为表明E32 DSP在效率上的优势,汪达钧在演讲中给出了包括GEMM通用矩阵乘在内的数字信号处理,和几项具体的TinyML负载下,MAC乘积累加运算时钟数在总时钟数中的占比(MAC Utility)——这个值越高,“运算单元一直有数据在crunch”,即表明处理器运算效率越高。

对比竞品,E32 DSP的运算效率有着显著优势。最终在FFT、FIR等信号处理及图像分类、异常检测等TinyML方面,E32 DSP都构成了相比同级别32位宽竞品在性能和效率上的绝对领先。

除了芯易荟本身在微架构设计、Compiler等层面的努力,汪达钧说DSA架构是运算效率和性能领先的关键。“芯易荟一直以来瞄准的是DSA处理器,‘数据处理’是我们的定位。”

“它扮演的不是通用CPU协处理器或加速器的角色,作为数据处理器(Data Processor),和CPU流水线是紧密耦合在一起的。”“客户进行定制以后,最终的定制处理器虽然失去了一定的通用性,但功耗、面积都降下来了,并且在特定领域数据处理的性能、效率均有显著提升。”

如此一来,文首提到的差异化问题真正得以解决。

 

所以如何降低AI MCU设计成本

处理器设计成本主要包括微架构、RTL和验证的成本,相较现在的设计方案或方法学,汪达钧在采访中坦言,“定制芯片面向特定应用场景,需要投入的NRE更高、周期更长。” 这就和芯易荟FARMStudio这款EDA工具能够分钟级自动生成处理器核心有关了。有关FARMStudio,我们曾多次撰文做过介绍,本文不做赘述。简单来说,这是个只需要用户输入基础核和超级指令(SIMD/VLIW自定义指令)、选择预置模板以后,就能一键生成DSA软硬件和工具链的EDA工具。

最终生成的硬件包括RTL、综合脚本、测试套件、FPGA开发测试环境、RTL验证环境等;软件则包含有编译器、ISS、性能仿真器、调试器、应用库等。

我们之前就形容这是个神奇的过程。尤其体现在三个输入组成部分的“超级指令”上:软硬件架构师对应用做出分析以后,针对算法热点、重复使用的C语言函数,设计好基于C的指令,用C函数描述指令集功能,输入到工具中即可。FARMStudio有个硬件编译器,能够将定制指令集直接部署到处理器的流水线里,并进行功能优化、资源共享等操作。

“这是非常具有弹性、易用的设计方法,C语言描述特定应用所需要的加速指令、工具自动产生处理器的微架构和RTL,而不需要自己去写Verilog。这才是真正意义上的定制处理器,这样的设计方法学对行业而言都是巨大的进步。”汪达钧补充道,“我们有个工具(Core Tools),这个工具是提供给客户的终端客户。毕竟最终的应用是系统厂商在设计,这款工具能帮助他们快速进行基于处理器的应用层软件开发和调试。”

再加上FARMStudio V2.0新增FTOS多层级开发验证平台,在同一个设计环境中完成不同层级的仿真和验证,“跨界融合、协同开发”,解决验证的问题。芯易荟此前给出的数据是,相比于传统设计流程,这种大幅缩短迭代周期、能快速迭代的FARMStudio设计流程可“总成本可达10倍以上缩减”。

最终,MCU的设计成本也就降低了,而且也实现了出色的定制化,具备应用导向的差异化。

“我们看到,客户对AI能力、对AI的要求已经非常明朗,这甚至可能是他们的基本要求。”汪达钧总结说,“在处理器里面放个AI网络行不行?在有明确CNN算子的前提下,核心算出来需要多少周期,性能怎样?这都已经是我们的客户在问的问题了。”

可见在AI MCU的时代背景下,AI技术来势汹汹,它为行业和芯易荟这样的市场参与者带来了丰沛的市场机会。就像我们今年走访的MCU企业今年普遍在谈AI MCU,以及面向终端应用开发时数据驱动的开发思路转变,这个过程是在短短半年间就持续挺进的。

“这与芯易荟数据处理器的理念完美契合;所以AI大潮,对我们而言是相当大的利好。”或许在时代走向专用计算、应用导向的大背景下,如FARMStudio这样可定制处理器的工具和E32 DSP这样可配置的定制处理器IP就是芯片设计企业最需要的。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
DF30芯片是业界首款基于自主开源RISC-V多核架构、采用国内40nm车规工艺开发的高端车规MCU芯片。该芯片实现了全流程国内闭环,功能安全等级达到了ASIL-D,并已通过295项严格测试。
意法半导体在第三季度继续保持了稳定的增长,尤其是在汽车产品和分立器件产品部表现出色。然而,模拟器件、MEMS和传感器产品部的收入下滑值得关注。公司对第四季度的展望较为保守,反映了对市场不确定性的谨慎态度。
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
由于成本和时间问题,路透社报道称,OpenAI公司暂时放弃了雄心勃勃的代工计划,转而计划专注于内部芯片设计工作。作为芯片的最大买家之一,OpenAI 在开发定制芯片时决定从不同的芯片制造商处采购,这可能会对科技行业产生更广泛的影响......
众所周知,FD-SOI工艺停留在22nm已经很久了,直到意法半导体和三星联合推出18FDS才打破了这一沉寂。除此之外,目前有明确进一步发展更先进工艺的,只有格罗方德的12FDX(12nm),但还未推出。在到达22nm之后,FD-SOI工艺是否有必要继续推进到12nm呢?
当前全球FD-SOI技术的主要参与者包括Soitec、GlobalFoundries、三星电子、意法半导体等公司,它们在FD-SOI技术的研发和商业化方面投入了大量资源,目前行业的进展如何?
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
据36氪报道,保时捷负责采购的执行董事傅伦轲(Barbara Frenkel)向其透露,“我正在与电池、ADAS、互联、娱乐系统等方向的中国供应商接触,希望建立新的合作。”今年前三季度,保时捷在中国市
近几年,越来越多的中国电子零部件企业将目光投向海外市场,寻求“出海”机会。有一家坐落于深圳龙岗坂田的企业,在高端豪华车、工业控制上的产品成功获得了行业标杆客户的订单,出口额更是突破百万美元,成为“出海
英国豪华跑车制造商路特斯宣布,由于市场需求变化和市场环境演变,公司将在英国裁员 200 人。上周,路特斯向员工确认了裁员消息,表示公司将尝试重新安置部分员工,并计划探索如何“在企业内部保留特定技能和知
大联大控股宣布,其旗下诠鼎推出基于高通(Qualcomm)IPQ5322、QCN6422、QCN6432和QCA8386芯片的Wi-Fi 7家庭网关方案。   &nb
EETOP 11月12日消息,据外媒报道,华为公司已要求美国法官驳回一项联邦起诉书中的大部分指控。该起诉书指控华为试图窃取美国竞争对手的技术机密,并在其伊朗业务问题上误导银行。华为在上周五晚间提交给法
随着铜箔行业上市公司2024年度三季报的陆续发布,整体行业呈现出“增收不增利”的局面,财报数据如表1所示。表1 铜箔上市公司2024年前三季度财报数据面对上述现实,中国电子材料行业协会电子铜箔材料分会
中国新能源车市场的变化速度用“日新月异”来形容毫不夸张,短短几年时间,车企们的发力方向就从“冰箱彩电大沙发”的卷配置,到猛堆电池的卷续航,再到蜂拥而上卷智能化。各种方向的技能树都没少点,但由于补能效率
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据台媒报道,继台积电宣布对中国大陆AI芯片企业暂停7nm及以下先进制程代工服务后,
艾默生完成对NI的收购已有一年,NI客户或也许会有这样的疑问——艾默生收购NI意味着什么?如何继续投入测试测量行业?NI如何看待中国市场?在今天举办的NI全联结峰会上,针对这三大关键问题,艾默生测试与