我们知道生成式AI正逐渐走向边缘,不单是AI PC、AI手机,更多端侧设备也准备要跑大模型——这中间似乎还缺点儿什么......

AI乃至生成式AI逐步走向边缘已经是这个时代无需言说的主旋律,在今年WAIC(世界人工智能大会)展会上逛一圈就能感受到这一趋势的浓墨重彩。不单是AIPC和AI手机,我们在爱芯元智展位上看到一款爱芯通元AX630C芯片,这是颗小芯片——Int8算力3.2TOPS,典型功耗<1.5W。

“这是我第一次看到(大模型在)这样一颗小芯片上跑起来,我相信不远的将来,大模型在边缘侧的落地一定会更进一步。”爱芯元智创始人、董事长仇肖莘在采访中说,“应用场景会非常多样,有无限可能。”

爱芯元智联合创始人、副总裁刘建伟在演讲中说这颗芯片能跑通义千问,“实现意图理解、进行简单对话”。从参数上来看这颗芯片可推理Qwen2 0.5b模型,速度达到10 tokens/s。“这也就意味着端侧智能可以装入到我们身边不同的电器里面。”

AX630C开发板,散热片下面的应该就是AX630C了

当然这个例子表达的是边缘生成式AI更进一步的潜在可能性。在《电子工程专辑》6月刊的封面故事采访中,刘建伟就提过位处边缘、主要用于推理的NPU既不应该是神经网络加速器,也不应该是基于通用计算的扩展指令集实现,前者的问题在于灵活性的缺失,后者则在大规模并行tensor计算上表现出性能和效率的不济。

爱芯元智的思路是要做“原生AI处理器”,实现AI计算的经济、高效和环保。WAIC活动上,与仇肖莘的对话,以及刘建伟的主题演讲,都给了我们有关边缘AI的更多启示。相比前两年AI芯片初创企业与雨后春笋般铺陈的蛮荒时期,如今的AI芯片有着怎样的不同?边缘和端侧要跑生成式AI,还欠缺什么?

 

前两年量产现在还是跑Transformer“最佳”

爱芯元智早于2022年量产的爱芯通元AX650N芯片,“今天依然是市场上跑Transformer网络最佳的处理器,跑SwinT能耗比达到199FPS/W”。刘建伟此前在接收采访时的这番话,还是给我们留下了深刻印象的。

这里的SwinT是典型应用于CV领域的Transformer架构的模型。仇肖莘在演讲中给出了一组数据,用以表明AX650N的能效相较于“友商”12倍的优势。这里的友商毫无疑问就是英伟达了——从标称100TOPS算力,及前缀NX来看,可能是Jetson Orin NX,也就是Ampere架构的GPU。

这组数据都比较了MobileNet-v2、ResNet50、YOLO-v5s,以及SwinT。无论是能耗比(FPS/W)还是有效算力(FPS/TOPS),爱芯通元AX650N都有比较大的优势。AX650N在SwinT网络推理上相比于英伟达的Ampere,也的确有着显著优势。

其实MobileNet-v2之类的网络推理优势并不令人感觉到太意外,毕竟爱芯元智的NPU走的是DSA路线,表现出相较通用GPU的效率优势是合理的。

当我们考虑芯片设计需要12-18个月,以及面向客户和终端产品问世的周期,AX650N立项的时间理论上是CNN(卷积神经网络)风行时期。而以Transformer网络结构为基础的ChatGPT的爆发已经是2022年底的事情了,那么AX650N是如何做到在这个时代“依然是”“跑Transformer最佳的处理器”的?

爱芯通元AX650N

“研发还是要有前瞻性。”仇肖莘说,“2021年初这颗芯片立项,原生支持Transformer,很大程度要归功于爱芯通元NPU是AI处理器的设计思路,从一开始就考虑各种模型结构包括Transformer等模型的算子支持,爱芯通元AI处理器以算子为指令集,完备的算子指令能够对各种网络结构进行高效支持。”

以Transformer于AI领域横扫这个时代的势头,“这就是前瞻的重要性,这样芯片平台才能走在应用的前面。”实际上应当不止于算子的支持,“AI处理器架构层面也有一些小细节,例如计算访存比的考虑,不同异构计算单元的配比等方面。”

与此同时,“爱芯元智在Transformer网络端边侧落地方面已经走在行业前列。”刘建伟说,“一方面爱芯元智的Github上已经有大量基于Transformer网络的应用demo;另一方面爱芯元智的客户也已经在AX650N这颗芯片上实现了基于Transformer网络的应用落地。例如通过以文搜图、开集检测等。”

 

比GPU高效“12倍”怎么做到的?

“并不是英伟达做得不好。”“在边缘侧、端侧,我们认为GPGPU不是最好的架构。”仇肖莘再度谈到DSA架构路线与GPGPU路线,在可编程性与效率方面的权衡。“在过去10+年的发展过程里,CNN网络的基础结构已经趋于稳定。”“CNN主流的模型结构无外乎那几个,算子也基本固定了。”

“固定的好处,在于我们可以将基础算子在芯片中硬化,那么芯片的成本、功耗、运算效率都会很高。”“之所以说现在DSA是很合适的架构,就是因为算子走向收敛,DSA架构就能将这些通用的算子都覆盖到。”

刘建伟所说的NPU既不应该是单纯的AI加速器,也不应该是通用处理器扩展指令集的加速,而是“原生AI处理器”,从思路上来看是“算子指令集”+“数据流DSA微架构”。仇肖莘将爱芯通元NPU称为“AI的通用计算处理器”。

首先“作为一个处理器,需要有对应的指令集”,“AI处理的指令集就是算子。”如前所述,当算子开始逐渐收敛,“只要做到算子的完备,就能支持不同AI的程序算法。”“算子指令是比较宏观的指令:我们采用宏观指令,而非基于微架构来设计,硬件本身就有了很强的架构探索空间,那么我们就可以采用数据流的微架构。”

“这是个可编程的数据流微架构。这里的灵活性不在于支持各种训练;而定位于,对训练完的模型,提供高效的运行(推理)支持。”“整个pipeline都可以在我们的处理器上跑,不需要CPU频繁参与。”相关细节如下图所示:

采用算子指令集+数据流的微架构,是10+倍能效优势的关键所在。开发生态相关的部分,即开发工具链,“目前也已经非常完善”,“支持我们自己和客户的量化算法”,“客户基本上可以在1小时以内,让算法在我们的处理器上跑起来。”

另外,刘建伟还提到软硬件的联合设计,基于“算子在逐渐收敛,但并未完全收敛”,以及在摩尔定律遇到瓶颈的大背景下,考虑AI处理器的经济、高效、环保的诉求,需要这样的联合设计。“这就要求我们进行对应的团队建设,要和架构做匹配。”“所以当我们有新需求时,硬件上尽量做减法,而不是被迫做加法。”

 

大模型走向边缘的现在和将来:联合优化

爱芯元智眼中的AI是要“走向万物智能”的,生成式AI也是其中一部分。“大模型不可能只存在于数据中心,一定会下沉到边缘侧、端侧”。有关隐私安全、模型guardrail、定制化、实时性要求等作为边缘与端侧AI要素考量,已经被提过太多次了。

而现在关键在于要让AI走向万物智能,更高效的DSA架构,及“原生AI处理器”的思路选择就成为必然。“也许再下个阶段、也许不久的将来、甚至也许是在明年这个时候,我们就会跟大家报告说,AI大模型现在可以跑在你的家里了。”仇肖莘表示。文首提到那颗3.2TOPS的AX630C显然是提供这种可能性的依据之一。

在规格特性上,爱芯通元NPU也专为跑在边缘的效率和功耗做了优化,比如说混合精度支持。“大模型的数据量很大,存储、IO成为限制算力发挥的瓶颈,混合精度就是节省带宽、存储和功耗的一个方法。”“我们从2020年第一款芯片开始就认为,混合精度是边缘侧、端侧,AI落地的关键。”“毕竟边缘侧、端侧的算力存在更大限制。”

“我们本身也在和国内很多的合作伙伴,做算法的调优、系统的优化。”“AI不光是算力越来越大,芯片跑参数量越来越多的过程,还需要芯片+算法联合调优,算法也需要做更多的优化。”实际上,包括英伟达、Intel在内的国际巨头现如今普遍在做大模型走向边缘与端侧的轻量化研究,这也是如今软件技术的主旋律。“算法从云下沉到边缘和端侧,一定是优化迭代的过程。”

“我觉得大模型落地,现在还只是开始。如今的AI大概还在brute force大力出奇迹的阶段。”仇肖莘在谈大模型于边缘与端侧AI落地的现状时说,很多潜力技术的发展曲线普遍是先有个高速追捧(hype)的过程,当达到顶点(peak)以后,“大家探索到了技术边界,后续会寻求优化。”

“我们现在连这个顶点都还没有到”,边界也还没有被触及,“任何事物的发展都不会永远是线性的,到达某个时间点增速不再呈线性,是不是就会有技术上的突破、优化方式是不是就变了?”这是在仇肖莘看来,未来的边缘和数据中心AI都要面临的议题。“我们不能指望全球的电力都拿来支持AI计算,否则国际民生就要停顿了。”

所以经济、高效、环保,才会成为仇肖莘在演讲和采访中反复提到的3个关键词,这是边缘侧和端侧AI的必选项。

 

深入各行各业:探讨潜在可能性

爱芯元智芯片产品已经在智慧城市、智能汽车、边缘计算等领域落地,而且现下还正把目光聚焦于具身智能。

在率先落地的智慧城市场景内,涵盖智能摄像头在内的各类视觉AI——这部分应当已经是爱芯元智手到擒来的市场了。

M76H行泊一体域控开发套件

M55H开发套件

而智能汽车,不单是智驾,“车上任何与视觉、图像相关的,我们都做”,如DMS, OMS, CMS。除了高阶智驾这种“巨头生意”,越来越多的市场走向强制的主动安全标准,就是相当大的市场机会。据说汽车应用方向上,爱芯元智这半年的芯片出货量就已经相当不错。

基于AX650N的PCIe加速卡

基于AX650N的M.2算力卡

基于AX650N的智能服务器板子

“我们的第三大市场,现在已经开始落地、出货也在往上走的是边缘计算。把边缘的CPU服务器变成AI服务器:比如我们的PCIe加速卡,以及AI盒子等等。”

属于爱芯元智市场增长的“第四曲线是具身智能”,仇肖莘谈到,“具身智能是我们现有产品形态的一个延伸。现在我们已经在跟一些客户做探讨,积累行业know-how。只不过具身智能目前所处的阶段还比较前期。”

当然这些AI应用未必都与生成式AI、大模型有关。但汽车市场,BEV Transformer的融合;更多CV应用场景中借助多模态模型实现对环境的感知和理解;乃至未来可能以NAS方式存在的家用AI服务器实现智能家居交互的颠覆等等,都是正在推进或存在巨大潜力的市场。

“在现在这个AI时代,如果我们想找一个抓手,这个抓手一定是AI芯片和多模态大模型的结合。如何让芯片能够更高效地运行多模态大模型,让大模型做到真正的调优,能够轻量化、多模态化、以更低的成本跑在端侧和边缘侧?”

仇肖莘在论坛开场时就提了这个问题。这是行业在持续探讨,也是爱芯元智在尝试解决的问题。无论是AX630C这样一颗小芯片跑通义千问的,还是AX650N立项之初就决定做Transformer原生支持……至少就现在来看,爱芯元智还是在这个问题探讨过程中走得比较正确和积极的一分子。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
此次仲裁的核心争议在于,杨植麟和张宇韬在未取得循环智能投资方的同意豁免书之前,便启动了融资并创立了月之暗面。2024年3月,月之暗面旗下AI应用产品Kimi大火,甚至出现二级市场Kimi概念股。
有人评论:AlphaFold-3解决了长距离依赖问题,还能预测RNA等分子结构,甚至细胞内部生化过程,这简直就是生物信息学领域的一场革命。
英国以向俄罗斯军事工业提供支持为由,宣布对多国实体及个人实施制裁,其中包括10家来自中国大陆和香港的企业。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
近几年,越来越多的中国电子零部件企业将目光投向海外市场,寻求“出海”机会。有一家坐落于深圳龙岗坂田的企业,在高端豪华车、工业控制上的产品成功获得了行业标杆客户的订单,出口额更是突破百万美元,成为“出海
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
由前苹果和英特尔等资深人士共同创立的硅谷人工智能芯片初创公司Tenstorrent,近日宣布与日本政府达成一项重要协议。根据协议,Tenstorrent将在未来五年内,于其美国办公室为日本培训多达20
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
 会 议 预 告  活动倒计时 8 天11月20-21日 | 行家说新型显示全产业链年会近期,点莘技术、秋水半导体、纳视智能、睿励科学仪器等4家Micro LED相关企业相继完成新一轮融资,单笔金额最
EETOP 11月12日消息,据外媒报道,华为公司已要求美国法官驳回一项联邦起诉书中的大部分指控。该起诉书指控华为试图窃取美国竞争对手的技术机密,并在其伊朗业务问题上误导银行。华为在上周五晚间提交给法
11月12日,东风日产宣布成为首个与华为鸿蒙座舱全方位合作的合资品牌,双方将共创智能舒适的出行体验。                          近日,东风日产副总经理周锋在接受采访时分享了公司
中国新能源车市场的变化速度用“日新月异”来形容毫不夸张,短短几年时间,车企们的发力方向就从“冰箱彩电大沙发”的卷配置,到猛堆电池的卷续航,再到蜂拥而上卷智能化。各种方向的技能树都没少点,但由于补能效率
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华