边缘AI芯片是个什么玩意?

歪睿老哥 2022-01-05 20:40


1:AI芯片分类


市场上很多AI芯片,令人眼花缭乱。


根据其应用范围,大体上可以分为几类

 

终端AI芯片:终端AI芯片要求功耗低,算力需求也相对较低,主要是AI推理的应用。终端AI芯片以各种带AI模块的MCU来呈现,专注于某一类应用,例如,智能音箱里面的AI芯片,可以用于语音识别。智能门锁的AI芯片,可以人脸识别等等

 

云端AI芯片:云端AI芯片则是数据中心,用于云端AI加速,不但可以推理也可以做训练。例如NVIDLA的GPGPU卡,谷歌的TPU等等。云端AI芯片性能比较强,面积也非常大,例如A100据说在7nm下有826mm2,性能也比较强悍!

 

除此之外,还有边缘AI芯片


那么边缘AI芯片是做什么来用的。


提到边缘计算,有一个非常有名的“章鱼论”。


章鱼这种生物比较奇怪,章鱼有8条腿,但是章鱼的某些决策不是都要放到大脑中来计算,而是在腿中就进行计算。


这个章鱼腿相比于章鱼大脑(云端),就是边缘端!

 

这个比喻非常有趣,以至于经常被边缘计算的场景来引用。 


例如,自动驾驶或者ADAS (智能驾驶辅助系统),需要在本地就把整个决策及设计完成。


有很多在需要大数据量计算但是实时性比较高,不需要绕一圈到云中心来计算的场景


例如智能驾驶,智能工厂,与安防结合交通管理等等。


相对于终端AI芯片很多消费级的场景,边缘AI芯片更多的是工业领域的应用。


边缘AI基本上将应用局限在某个范围内,可以是一辆汽车,一列火车,一个工厂,一个商店。


在这个范围内,有一些实时的AI决策及处理需求需要被满足。


相应的我们会把AI赋能称之为,自动驾驶,智能制造,智慧零售等等。


其核心目的主要强调在数据来源侧来解决问题。


这就是边缘AI芯片存在的需求。


2:边缘AI芯片特征


那么边缘AI芯片都有什么特征?


1:算力强:边缘AI的算力要比终端要算力更强,通常都是独立解决问题。但是性能要比小区的人脸识别或者智能音箱这种语音识别的基于某种应用的端侧AI芯片的处理能力要强1-2个数量级。

 

2:外设丰富:边缘AI基本上强调信息的可获得性,例如多路摄像头的输入的需求,对于类似MIPI的接口的数量会有很大的需求,例如可以同时支持多路摄像头等视频音频的输入。

 

3:可编程性:边缘AI芯片通常用面向工业用户,需要AI赋能用户,换言之:AI要和用户应用场景相结合,通常根据不同工业用户不同的场景需要进行编程,用于适配不同的模型和场景。也不局限于某种应用。


一个良好的可编程的架构是解决问题的关键。边缘AI芯片不是直接给工业客户用,而是要根据工业客户的需求进行客户需求AI赋能,这个是边缘AI芯片核心特征。

 


3:边缘AI芯片架构


那么边缘AI芯片的架构是什么样子的?


举个例子,边缘AI计算平台,JESTON 应该算是一个。


其最新一代发布的是JESTON  AGX Orin 。


JETSON作为英伟达边缘的AI计算平台,其名气没有英伟达的GPGPU大。


但是,JESTON同时继承了Ampere的架构的GPGPU和 ARM Cortex-A78,在边缘侧AI芯片中,既可以做推理也可以做训练。


作为一个边缘AI产品,其有200Tops的处理性能(INT8)。


我们以JESTON  AGX Orin为例,探索下其芯片内部架构是怎样的。

 


这个芯片的计算部分主要是三大件:CPU,GPU,DSA(NVDLA+PVA)

 

 CPU:


JESTON其内部有3组4核的A78,频率可以到2Ghz。也就是说,这个芯片内部有12核的A78的处理器,不同于手机的处理器,3个cluster的A78是对称的,不是手机处理器的大小核设计,其主要是面向计算服务,而不是手机应用中不同负载的低功耗。在一些标量的运算中,多核A78的计算能力也是非常强悍。


 

GPU:


GPU是英伟达最新的安培架构,拥有2048个CUDA核,以及64个Tensor内核。这些都可以可编程的。安培架构是最新一代的GPGPU架构,前面几代分别是:Kepler,Maxwell,Pascal, Volta等。最新一代的安培架构升级了tensor core。用了安培GPU以后,与其他边缘AI芯片不同的是,可以支持推理和训练。


最重要的是,这个AI芯片可以用cuda来编程了,而可编程性则是边缘AI芯片的核心需求了。

 


DSA:


作为AI加速单元,JESTON本身也有另外还有2个NVDLA 的硬核,以及VISION加速器 PVA;


NVDLA主要用于推理。内核核心还是一个大的矩阵卷积运算。


其中NVDLA已经开源,有兴趣的小伙伴可以在GITHUB上下载并运行这些源码。详见:nvdla· GitHub


这个可以可看到工业界的实际在用的成果开源,也对业界有很大的促进作用。

 

 


 

 PVA用了VPU的架构,使用VLIW的架构,VLIW是超长指令字结构,其并行度比较好,VIEW架构设计简化了硬件结构,其二,VLIW的大位宽执行并不会以牺牲性能和频率为代价。但是同时将问题交给了软件来运行。


 

IO资源:


除了计算资源,IO资源也比较丰富,毕竟边缘AI侧,就需要的丰富的输入,支持6个摄像头以及16组通道的MIPI接口。

 

如果边缘AI芯片选一个重要的接口,那肯定是MIPI了,毕竟,边缘AI芯片,除了算力之外,还缺少不了的就是MIPI接口。

 

MIPI就是边缘AI芯片的眼睛,(用于连接摄像头)。毕竟和人不同,需要很多双眼睛,毕竟边缘AI芯片需要“眼观六路,耳听八方”。


只有大脑,没有耳朵和眼睛,边缘AI芯片是不能工作的。


同样还有USB接口,也可以支持一些USB摄像头。


同样可以支持PCIe。RC和EP都支持,也就是说,可以同时作为加速卡插在别的主机上,也可以作为主设备插别的加速卡。


同时在网络方面,支持4路10G口,可以实现高速互联,如果有需要可以实现高速网络传输,或者几个JESTON AGX的互联。

 

下图就是 JESTON  AGX Orin 的详细参数,拿走不谢!


根据这些参数,芯片面积小不了,我觉得这颗芯片可能是7nm的制程。才能在面积和功耗上比较平衡一下。


其典型功耗大约在15W,30W,45W几个不同的量级上。

 


4:边缘AI芯片作用

 

那么这么强悍性能的AI芯片能做什么?


举个例子,现在疫情下,很多场所都有人流的限制(本场所限流100人!)。


小到一个商店,大到一个街区。适时获取人流就是一个典型的任务。


通过人像识别,获取一个区域内的人流的密度,实时决定对区域内人流进行管控。


如果是终端的AI的MCU,很难有很大的算力,也不同时接受多路视频的输入。


那边缘端AI芯片就有了用武之地。


作为一个方案商,不但要有一个非常强劲的AI引擎,其次要有很多的视频输入源。


最后要通过一个非常强悍的AI框架(SDK)将这些硬件运行起来。


也就是说边缘AI需要根据用户对于AI的需求二次开发。


刚才提到,边缘AI其中一个重要的特征就是,根据工业场景进行AI+场景的再开发。


很多AI芯片纸面性能很强,但是如何将这些算力转换成用户感知的提升,这个里面就有很多内功可做。


因此工业用户需要的是一个开放AI平台,而不是一个只有算力的芯片,更重要的是要根据用户需求进行AI业务开发。


有句古话“干活不由东,累死也无功”。


只有硬件,没有软件,或者软件不好用,就好比武功只有一身招式,没有内功心法一样。


AI芯片算力虽强,没有软件(SDK)也发挥不出来。


软硬兼修是永远不过时的选择。


如何将AI算力转换成用户生产力。


在这个方面,Jeston AGX Orin提供了jetpack 5.0,支持了cuda11和最新版本的cuDNN和tensorRT。



通过这些软件工作,特别是CUDA,这些利于用户开发的工具将JESTON平台上强悍的算力和丰富IO结合起来。


最终完成边缘计算赋予AI芯片的“使命任务”。


最终用户得到的是:用户定义的AI芯片。


或者说是需求定义的AI芯片


这才是边缘AI芯片的本质!




我是歪睿老哥,一个芯片架构师,如果你觉得本文还不错,欢迎点赞,在看,分享。




往期阅读:

歪睿老哥的2021年终总结


歪睿老哥 芯片设计行业老兵,聚焦芯片行业的那些事,唯武侠与芯片不可辜负。
评论
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 173浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 131浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 76浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 74浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 83浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 124浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 145浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 48浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦