边缘AI芯片是个什么玩意?

歪睿老哥 2022-01-05 20:40


1:AI芯片分类


市场上很多AI芯片,令人眼花缭乱。


根据其应用范围,大体上可以分为几类

 

终端AI芯片:终端AI芯片要求功耗低,算力需求也相对较低,主要是AI推理的应用。终端AI芯片以各种带AI模块的MCU来呈现,专注于某一类应用,例如,智能音箱里面的AI芯片,可以用于语音识别。智能门锁的AI芯片,可以人脸识别等等

 

云端AI芯片:云端AI芯片则是数据中心,用于云端AI加速,不但可以推理也可以做训练。例如NVIDLA的GPGPU卡,谷歌的TPU等等。云端AI芯片性能比较强,面积也非常大,例如A100据说在7nm下有826mm2,性能也比较强悍!

 

除此之外,还有边缘AI芯片


那么边缘AI芯片是做什么来用的。


提到边缘计算,有一个非常有名的“章鱼论”。


章鱼这种生物比较奇怪,章鱼有8条腿,但是章鱼的某些决策不是都要放到大脑中来计算,而是在腿中就进行计算。


这个章鱼腿相比于章鱼大脑(云端),就是边缘端!

 

这个比喻非常有趣,以至于经常被边缘计算的场景来引用。 


例如,自动驾驶或者ADAS (智能驾驶辅助系统),需要在本地就把整个决策及设计完成。


有很多在需要大数据量计算但是实时性比较高,不需要绕一圈到云中心来计算的场景


例如智能驾驶,智能工厂,与安防结合交通管理等等。


相对于终端AI芯片很多消费级的场景,边缘AI芯片更多的是工业领域的应用。


边缘AI基本上将应用局限在某个范围内,可以是一辆汽车,一列火车,一个工厂,一个商店。


在这个范围内,有一些实时的AI决策及处理需求需要被满足。


相应的我们会把AI赋能称之为,自动驾驶,智能制造,智慧零售等等。


其核心目的主要强调在数据来源侧来解决问题。


这就是边缘AI芯片存在的需求。


2:边缘AI芯片特征


那么边缘AI芯片都有什么特征?


1:算力强:边缘AI的算力要比终端要算力更强,通常都是独立解决问题。但是性能要比小区的人脸识别或者智能音箱这种语音识别的基于某种应用的端侧AI芯片的处理能力要强1-2个数量级。

 

2:外设丰富:边缘AI基本上强调信息的可获得性,例如多路摄像头的输入的需求,对于类似MIPI的接口的数量会有很大的需求,例如可以同时支持多路摄像头等视频音频的输入。

 

3:可编程性:边缘AI芯片通常用面向工业用户,需要AI赋能用户,换言之:AI要和用户应用场景相结合,通常根据不同工业用户不同的场景需要进行编程,用于适配不同的模型和场景。也不局限于某种应用。


一个良好的可编程的架构是解决问题的关键。边缘AI芯片不是直接给工业客户用,而是要根据工业客户的需求进行客户需求AI赋能,这个是边缘AI芯片核心特征。

 


3:边缘AI芯片架构


那么边缘AI芯片的架构是什么样子的?


举个例子,边缘AI计算平台,JESTON 应该算是一个。


其最新一代发布的是JESTON  AGX Orin 。


JETSON作为英伟达边缘的AI计算平台,其名气没有英伟达的GPGPU大。


但是,JESTON同时继承了Ampere的架构的GPGPU和 ARM Cortex-A78,在边缘侧AI芯片中,既可以做推理也可以做训练。


作为一个边缘AI产品,其有200Tops的处理性能(INT8)。


我们以JESTON  AGX Orin为例,探索下其芯片内部架构是怎样的。

 


这个芯片的计算部分主要是三大件:CPU,GPU,DSA(NVDLA+PVA)

 

 CPU:


JESTON其内部有3组4核的A78,频率可以到2Ghz。也就是说,这个芯片内部有12核的A78的处理器,不同于手机的处理器,3个cluster的A78是对称的,不是手机处理器的大小核设计,其主要是面向计算服务,而不是手机应用中不同负载的低功耗。在一些标量的运算中,多核A78的计算能力也是非常强悍。


 

GPU:


GPU是英伟达最新的安培架构,拥有2048个CUDA核,以及64个Tensor内核。这些都可以可编程的。安培架构是最新一代的GPGPU架构,前面几代分别是:Kepler,Maxwell,Pascal, Volta等。最新一代的安培架构升级了tensor core。用了安培GPU以后,与其他边缘AI芯片不同的是,可以支持推理和训练。


最重要的是,这个AI芯片可以用cuda来编程了,而可编程性则是边缘AI芯片的核心需求了。

 


DSA:


作为AI加速单元,JESTON本身也有另外还有2个NVDLA 的硬核,以及VISION加速器 PVA;


NVDLA主要用于推理。内核核心还是一个大的矩阵卷积运算。


其中NVDLA已经开源,有兴趣的小伙伴可以在GITHUB上下载并运行这些源码。详见:nvdla· GitHub


这个可以可看到工业界的实际在用的成果开源,也对业界有很大的促进作用。

 

 


 

 PVA用了VPU的架构,使用VLIW的架构,VLIW是超长指令字结构,其并行度比较好,VIEW架构设计简化了硬件结构,其二,VLIW的大位宽执行并不会以牺牲性能和频率为代价。但是同时将问题交给了软件来运行。


 

IO资源:


除了计算资源,IO资源也比较丰富,毕竟边缘AI侧,就需要的丰富的输入,支持6个摄像头以及16组通道的MIPI接口。

 

如果边缘AI芯片选一个重要的接口,那肯定是MIPI了,毕竟,边缘AI芯片,除了算力之外,还缺少不了的就是MIPI接口。

 

MIPI就是边缘AI芯片的眼睛,(用于连接摄像头)。毕竟和人不同,需要很多双眼睛,毕竟边缘AI芯片需要“眼观六路,耳听八方”。


只有大脑,没有耳朵和眼睛,边缘AI芯片是不能工作的。


同样还有USB接口,也可以支持一些USB摄像头。


同样可以支持PCIe。RC和EP都支持,也就是说,可以同时作为加速卡插在别的主机上,也可以作为主设备插别的加速卡。


同时在网络方面,支持4路10G口,可以实现高速互联,如果有需要可以实现高速网络传输,或者几个JESTON AGX的互联。

 

下图就是 JESTON  AGX Orin 的详细参数,拿走不谢!


根据这些参数,芯片面积小不了,我觉得这颗芯片可能是7nm的制程。才能在面积和功耗上比较平衡一下。


其典型功耗大约在15W,30W,45W几个不同的量级上。

 


4:边缘AI芯片作用

 

那么这么强悍性能的AI芯片能做什么?


举个例子,现在疫情下,很多场所都有人流的限制(本场所限流100人!)。


小到一个商店,大到一个街区。适时获取人流就是一个典型的任务。


通过人像识别,获取一个区域内的人流的密度,实时决定对区域内人流进行管控。


如果是终端的AI的MCU,很难有很大的算力,也不同时接受多路视频的输入。


那边缘端AI芯片就有了用武之地。


作为一个方案商,不但要有一个非常强劲的AI引擎,其次要有很多的视频输入源。


最后要通过一个非常强悍的AI框架(SDK)将这些硬件运行起来。


也就是说边缘AI需要根据用户对于AI的需求二次开发。


刚才提到,边缘AI其中一个重要的特征就是,根据工业场景进行AI+场景的再开发。


很多AI芯片纸面性能很强,但是如何将这些算力转换成用户感知的提升,这个里面就有很多内功可做。


因此工业用户需要的是一个开放AI平台,而不是一个只有算力的芯片,更重要的是要根据用户需求进行AI业务开发。


有句古话“干活不由东,累死也无功”。


只有硬件,没有软件,或者软件不好用,就好比武功只有一身招式,没有内功心法一样。


AI芯片算力虽强,没有软件(SDK)也发挥不出来。


软硬兼修是永远不过时的选择。


如何将AI算力转换成用户生产力。


在这个方面,Jeston AGX Orin提供了jetpack 5.0,支持了cuda11和最新版本的cuDNN和tensorRT。



通过这些软件工作,特别是CUDA,这些利于用户开发的工具将JESTON平台上强悍的算力和丰富IO结合起来。


最终完成边缘计算赋予AI芯片的“使命任务”。


最终用户得到的是:用户定义的AI芯片。


或者说是需求定义的AI芯片


这才是边缘AI芯片的本质!




我是歪睿老哥,一个芯片架构师,如果你觉得本文还不错,欢迎点赞,在看,分享。




往期阅读:

歪睿老哥的2021年终总结


歪睿老哥 芯片设计行业老兵,聚焦芯片行业的那些事,唯武侠与芯片不可辜负。
评论
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 78浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 174浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 98浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 124浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 111浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 52浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 100浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦