AI芯片按照应用场景不同,可分为云端AI训练和推理、边缘AI推理,以及终端AI推理。我们在10大国产AI芯片文章中列出了10家国产AI芯片公司的云端AI训练和推理芯片,本文将侧重于边缘侧和端侧的AI芯片。
虽然边缘AI芯片在计算性能和技术先进性方面不如云端AI芯片,但仍有其无可替代的独特优势,大致如下:
- 保护数据安全和隐私 -- 如果个人和商业数据可以就地处理,不需要传输到云端进行处理,就可以减少敏感数据被盗取或泄露的危险。
- 在网络连接差的场合仍然可用 – 有些应用场合没有网络连接,或者网络连接质量很差或传输速度很慢,这时候边缘AI芯片就可以“就地处理”数据,实现很多原来无法做到的功能和任务。例如,集成视觉处理单元(VPU)的AI芯片可用来高效分析和预处理数字图像。嵌入这种AI芯片的摄像头就可以实时进行数据分析,只传输相关数据到云端,而忽略不必要的数据,这样就可以降低存储和带宽要求。
- 降低功耗 –边缘AI芯片的功耗比云端AI芯片低得多,在很多电池供电设备上可以极低的功耗执行AI计算。
- 低延迟数据传输 -- 利用边缘AI芯片直接在设备上执行AI处理可以将数据延迟降低至纳秒级,这对数据的即时采集、处理和执行至关重要。例如,自动驾驶汽车必须采集和处理来自计算机视觉系统的大量数据以识别物体,同时从传感器获取信息以控制汽车操作功能,这些数据处理必须立即转化为驾驶决策(比如转向、刹车或加速)以确保安全行使。
- 低成本部署 – 边缘和端侧设备一般安装量很大,嵌入这类设备的AI芯片要求在功耗和成本上都要比云端AI芯片低,这样才能让AI功能大面积部署。
根据Deloitte的一份边缘AI芯片报告分析,AI芯片(包括边缘和云端)的市场规模将从2018年的约60亿美元增长到2025年的900亿美元,这期间的年复合增长率高达45%。这家咨询机构预计,2020年用于边缘和终端设备上的AI芯片或AI加速内核数量大约为7.5亿个,折合为金额大约26亿美元。到2024年,边缘AI芯片的出货量将增至15亿颗,年增长至少20%,远高于全球半导体整体增长率(大约9%)。
边缘AI芯片主要应用在哪些边缘设备和终端上呢?下图展示出边缘AI的主要应用载体,其中手机等消费电子设备、企业级和工业级设备、电信设备、数据中心,以及企业级服务器等。
目前的边缘AI芯片主要出现在消费类电子设备,其中高性能手机占据了70%的消费应用边缘AI芯片市场。当然,在轻薄的手机内部,边缘AI也许不是以单独的芯片存在,而是作为AI处理器IP内置到手机主处理器AP中,目前的主流手机都或多或少带有AI功能,比如屏幕解锁、人脸识别、图像处理和拍照特效等。虽然手机出货量很大,但集成进AP的AI功能只掌握在少数几家巨头手中(苹果/三星/华为手机厂商,以及高通、联发科和紫光展锐等手机AP供应商),对大部分AI芯片初创公司只能望尘莫及。
然而,边缘AI芯片正越来越多地应用在非消费类设备和场合,比如智能安防、ADAS/自动驾驶、智能家居、可穿戴智能设备,以及商业和工业场合的AI应用(智能交通、智慧城市、工厂机器视觉、机器人和AGV等)。这些新兴的AIoT和工业物联网应用场景为众多边缘AI芯片设计公司带来更多机会,风投也嗅到了这里蕴含的巨大商机。因此,无论全球还是国内市场,都有越来越多的AI芯片初创公司获得融资。(欲了解更多关于国内AI芯片初创公司的融资情况,请关注留意AspenCore后续发布的国产AI芯片厂商调研分析报告)。
Top 15国产边缘/端侧AI芯片
AspenCore分析师团队从15家国产AI芯片厂商中挑选出15个国产边缘/端侧AI芯片,请大家在文末通过“微信投票”评选出最喜欢的国产边缘AI芯片。这些公司包括:瑞芯微、全志、清微智能、酷芯微、亿智电子、时识科技、九天睿芯、杭州国芯、知存科技、爱芯元智、时擎科技、启英泰伦、深聪智能、灵汐科技、闪易半导体。
瑞芯微RK3588 AIoT芯片
全志科技V535智能行车视觉处理芯片
V535是全志科技研发的新一代智能行车专用处理器,是集图像视频处理和AI视觉于一体的高性能、高集成度、高稳定性的工业级芯片;V535针对客户需求实现多项突破性创新设计及优化,可在多路图像实时编解码同时具备AI(如:车、人)检测识别等功能。
核心技术包括:
- 高效能组合算力。单核A7 1.2GHz搭配最大0.5T专业神经网络处理单元,针对典型AI应用场景深度优化系统效率,同时提供完整AI中间件及配套模型转换工具,可快速适配客户自有或第三方算法,帮助客户AI产品快速落地。
- 高集成及拓展性。集成专业级星光级图像处理器及H265/H264编解码器,可实现最大500万级别实时摄像图像处理及多路分时编码,同时可支持外拓各类模拟高清摄像头输入及屏输出接口,并支持低功耗休眠唤醒,满足车载行车类品类拓展功能。
- 高规格质量保障。经过uHast、TCT、HTOL、PCT、HTSL等严苛的可靠性测试实验,-40~85度工规级工作温度,FDPPM<200PPM,芯片寿命高达10年。
主要产品及应用:智能行车记录和驾驶行为检测类产品,包括车载全盲区AI监测预警仪、驾驶员行为检测仪等。
清微智能TX510智能视觉处理芯片
TX510基于可重构神经网络引擎RNE和可重构通用计算引擎RCE,可支持主流神经网络,可实现人脸识别、手势识别、目标跟踪等功能。其峰值算力为2Tops,内置3D引擎、定制低功耗双ISP引擎。
该芯片的性能参数如下:
- 处理器内核 -- RISC32内核,主频最高支持400MHz,支持主频可配置;
- AI引擎基于可重构设计,支持主流神经网络,算力达2Tops;
- 3D引擎 -- 检测距离:0.4---2米;深度图分辨率:640*480@30fps,1920*1080@5fps;精度:±1mm@70cm;响应时间:30ms;支持单目、双目结构光;
- 图像信号处理ISP -- 低功耗定制引擎、3A(支持用户可调);信噪比提升>20dB、图像动态范围>120dB;
- 视频编码 -- 支持H.264编码,最大支持1080P @ 30fps的编码速率;
- 人脸分析性能 -- 人脸识别率>90%(误识率千万分之一),单张人脸识别时间<100ms,检测帧率30帧/秒,10万人脸库比对时间<50ms;
- 软件开发支持 -- SDK(软件开发套件)内涵丰富,包括丰富功能的 Example;支持 RTOS系统;支持 C和C++编程,代码移植方便;
- 物理参数 -- 工作电压的核压:0.9V;接口电压:1.8V 3.3V;LPDDR2电压:1.2V 1.8V;封装BGA 256;工艺:TSMC28HPC+;封装大小:7mmx7mm;管脚间距:0.4mm;
- 环境工作温度:-40℃--- 85℃。
其主要应用包括:新零售场景的人脸支付、客流统计、智能货柜,以及智能安防、智能家居、智能穿戴设备等。
酷芯微AR9341
AR9341采用CPU+DSP+NPU的异构运算(4 核CPU、单核CEVA XM6 DSP、4TOPS NPU),相较于业界同类产品,在综合处理能力上有2-5倍的显著提升。AR9341集成了酷芯微电子自研的第二代HiFi-ISP技术,在2D降噪、3D降噪、HDR、去雾、边缘增强等各方面达到行业极高的水平,同时内部集成红外热成像图像增强的技术,具有更加广泛的适应性。
AR9341作为一颗高集成度的视觉AI芯片,集成的4K级ISP、H264/265视频编、解码器(9M@60fps)可保证其输出高质量的视频,相比酷芯上一代的产品性能提升了100%。在产品实测中,ISP、视频编码器可以与AI算法互动,并做自适应调整,进一步提升视频编码的运行效率。在达到同等视频质量的条件下,码率可以降低50%以上。
AR9341集成了酷芯微电子自研的NPU(深度学习处理器),具备4TOPS@INT8的峰值算力。通过硬件架构上的优化,AR9341的NPU执行效率较高,实际算力可等效于竞品的8-10TOPS,8bit精度下检测网络YOLO-V3可达46fps,分类网络mobilenet-V1可达800fps。
AR9341芯片还集成了一个高性能的视觉DSP,在实测中可以兼顾深度学习和传统 CV算法,极大的丰富了AI视觉的应用场景。作为酷芯第二代超高清视觉AI芯片,AR9341适合的应用领域包括高端智能IPC、车载辅助驾驶、边缘计算盒子、智能机器人等。
亿智电子SV823端侧推理AI SoC芯片
SV823系列AI芯片集成自研NPU、具备高性能的图像处理和编解码能力,主要应用于智能安防场景。该系列芯片采用智能H.265+编码技术,可降低编码码率,有效节省硬盘空间;并集成专业安防级别的ISP,支持2~3帧宽动态融合技术和自适应降噪技术,在逆光和低照度环境下表现出色,让摄像机看清丰富细节。
同时,SV823搭载亿智第二代自研NPU,提供1.0T智能算力,可支持Caffe、Tensorflow和Pytorch等主流框架,比上一代有效降低最高50%的带宽消耗,AI算力得到高效发挥,结合深度学习的AI算法,实现人车检测、人脸识别、车牌识别、高空抛物、电动车识别、宠物识别、哭声检测、手势识别、关键字识别等,全方位助力智能安防、智慧社区、智能家居、智慧办公等应用场景落地。
此外,SV823系列可集成1 Gb / 2 Gb的DDR3L,集成度高,采用精简的QFN128封装方式,适用于智能网络摄像头、智能人脸门禁对讲、智能USB摄像头、视频会议等。
时识科技Speck系列“感算一体”动态视觉智能SoC
SynSense时识科技“感算一体”动态视觉智能SoC——Speck作为针对边缘端的全栈式解决方案,以类脑技术实现视觉传感器智能化的同时,大大降低解决方案成本,可替代技术方案很少,对于众多应用场景来说,可进行类脑技术解决方案的导入,赋能边缘端应用领域。
实时视觉边缘运算专用动态视觉智能SoC-Speck,以单SoC芯片集成SynSense时识科技独有的DYNAP-CNN AI运算内核+DVS传感器阵列,基于类脑感知及计算、纯异步数字电路设计,对像素级大规模动态数据流实时处理,为亚毫瓦级的视觉边缘 AI 运算提供完整解决方案。
该芯片的性能参数如下:
- 神经元数量:30万-100万个
- 集成度:19800个神经元/mm2
- 功耗:可小于1mW
- 先进算法:深度学习网络的提升,丰富的sCNN算法支持
- 超低延时:端到端响应<5mS,响应识别速度提升10-100倍
- 超低功耗:事件触发式运算,always-on,功耗降低100-1000倍
- 隐私保护:基于点阵数据的视觉应用处理,能够更好地保护隐私
SynSense时识科技类脑技术横跨类脑感知及类脑计算,可用于实时视觉处理、生物信号、身体信号等实时监测处理,以及语音识别及处理。主要应用:针对端侧感知及计算,适用于手势控制、行为检测、跌倒检测、高速避障等场景,主要可应用于智能家居、智能玩具、智慧交通、智能座舱、无人机等领域。
九天睿芯ADA200“感存算一体”芯片
九天睿芯自主创新的“感存算一体”芯片架构是由ASP(模拟特征预处理)+ADA(基于6T SRAM 的模数混合信号存内计算)两部分组成。ASP类似DSP(数字信号处理)模拟版本,可以在模拟信号端直接进行信号的特征分析和提取;这样可以在ADC 之前,有效提取有效信号,去除掉冗余信号;大大降低ADC 的工作负载,从而实现低功耗,高效率的计算工作。ADA基于6T SRAM 的模数混合信号存内计算AI 加速器,可实现超高能效比。
ADA200 是基于这种感存算一体芯片架构的多传感器芯片融合处理芯片,可在超低功耗下(低于1mW)下进行声音、视觉,以及其他时序信号类传感器的融合处理,可广泛应用于智能手机,可穿戴,智能家居,工业,医疗等一系列对低功耗、高能效比有需求的应用场景。
该芯片的性能参数:能效比达20TOPs/W;峰值功耗< 1mW,适合对功耗敏感的应用;模数混合信号存内计算架构可实现真正意义的无符号8X8 比特运算,保证满足算力需求的同时保持高精度;极其精简的外围电路使得芯片面积<3*3mm,适合可穿戴对体积敏感的应用场景。
主要应用:工业领域 -- AON 唤醒下的声音异常触发;安防领域 -- AON 下的人形检测触发;消费类领域 -- 个人设备(手机,手表)的人脸唤醒,图像识别;XR眼动追踪,视觉辨识;机器人、自动驾驶领域:视觉辅助系统。
杭州国芯GX8002 低功耗AI语音交互芯片
GX8002除了内置升级的第二代神经网络处理器gxNPU V200,还有自主研发的硬件VAD模块。区别于传统的VAD,国芯自研的VAD具备超强过滤能力,在各种复杂环境中准确识别人声开始的信号,并且VAD的运行不依赖于CPU,从而能做到极低功耗。GX8002具备超低功耗、低成本、小体积的特性,让AI语音交互与智能穿戴完美结合。
产品性能指标:GX8002的待机功耗只有70uW,运行时的功耗约为0.7mW,平均功耗约为300uW;支持在可穿戴以及其他设备上的语音唤醒能力,综合唤醒率超过95%,误唤醒率达到24小时内小于1次。同时,GX8002凭借着NPU的能力,还可以应用于AI语音降噪、AI声纹识别、AI声音事件检测,AI图像检测等多个应用领域,具有很强的扩展能力。
市场应用:GX8002为全新发布的针对智能穿戴市场的AI语音交互芯片,目前已经有QCY、漫步者、小度、科大讯飞等多款品牌TWS耳机采用8002芯片量产。智能穿戴市场近年来发展迅猛,主要形态包括TWS耳机、智能眼镜、智能手表手环等。
知存科技WTM2101存算一体SoC芯片
WTM2101是知存科技推出的首个存算一体SoC芯片,集成了基于存内计算技术(Computing-in-flash)实现的 AI 加速器 (NPU)与RISC-V CPU,可以在极低功耗下实现 AI 神经网络的推理计算,算力对比现有可穿戴计算引擎提高数十倍,特别适合可穿戴设备中的智能语音和智能健康服务。
该芯片的封装采用WLCSP(2.7x3.1mm2);功耗:5uA-3mA;AI算力:50Gops;最大模型参数:1.8M。知存科技的存算一体模块基于高密度非易失性存储器,8-bit量化的深度学习算法参数量支持高达1.8M个,可同时运行2-3个高性能模型。
该芯片及其AI应用的主要优势包括:基于存算一体技术,实现NN VAD和上百条语音命令词识别;超低功耗实现NN环境降噪算法、健康监测与分析算法;典型应用场景下,工作功耗均在微瓦级别;采用WLCSP的2.6x3.2mm极小封装,可采用I2C/I2S/SPI/UART等多种接口中任意一种或者几种进行数据通信和控制;针对音频输入,提供Analog和PDM编解码以及旁路输出,方便系统集成和拓展声音信道。
时擎科技Timesformer智能处理器AT1611
Timesformer智能处理器AT1611基于RISC-V指令集,面向端侧各类语音和视觉算法需求的DSA架构,既能友好支持如声学前端、CV等DSP类的算法,又可以高效支持各类主流神经网络模型和算子,具有高应用适用性、高性价比、高能效比的特点。
与Timesformer搭配的TimesFlow是“一键式“神经网络部署工具,支持多种主流的人工智能训练框架,如TensorFlow, PyTorch, ONNX等,支持各种神经网络模型的主流优化方法,如训练后量化,训练感知量化,剪枝,蒸馏等,并能提供丰富的功能调试及性能分析的工具。
AT1611的性能指标:
- RV32IMCF指令集的TM500主控处理器,300M主频,支持浮点操作和DSP扩展指令;
- 100G高能效比人工智能算力,支持各类主流神经网络模型和算子;
- 丰富的片上存储资源:1MB高速SRAM +8M/16M PSRAM + 4M/8M支持XIP的Flash
- 4+2路语音麦克风接口,支持模拟麦和数字麦,支持立体声语音输出,内置0.5W功放;
- 完整的系统安全解决方案
- 丰富的外设接口
该芯片的主要应用包括:全向麦克风,如会议宝、拾音器;语音对讲,如无线门铃、对讲机;语音识别和控制等。
深聪智能AI专用语音芯片TH1520
TH1520是一颗AI 专用双核增强型低功耗 DSP 芯片,集成了思必驰全链路智能对话技术并进行模块化封装。TH1520 适配语音控制设备常用的双麦、四麦阵列,在远场和复杂声场环境下,可实现高效识别和快速响应,误唤醒不超过 1 次 / 48 小时。它的功耗极低,在always-on 监听阶段的功耗低至毫瓦级,典型工作场景功耗仅需几十毫瓦,极端场景峰值功耗为百毫瓦左右。
此外,TH1520具备超高定制能力,可自定义唤醒词、合成音,选择播报音色,调节语速,增强交互的趣味性,可同时支持声纹识别和方言识别。TH1520 还具备离在线的双模式混合交互、全双工交互、就近唤醒、多模块协同等高阶的自然交互能力。
其性能指标如下:
1. 芯片特征
(1)双核增强型DSP,含定制指令集;
(2)灵活配置的低功耗模式;
(3)专用的AI语音识别引擎;
(4)大容量片内静态存储;
(5)多通道音频编解码器,最高支持6 + 2通道语音同步采集;
(6)支持全部标准音频格式,支持广域的采样率范围;
(7)支持主流接口:USB/SPI/UART/I2C/I2S/GPIO。
2. 算法特征
(1)最高支持6+2通道语音同步采集,通道间延时小于10ns;
(2)语音端点检测,召回率:>99%,精度:>90%;
(3)语音降噪,消除平稳和短时平稳噪声,SNR增益:>15dB;
(4)支持多达6mic+2ref的语音回声消除,SNR增益:>40dB;
(5)波束成形,目标信号增强和干扰抑制,SNR增益:>15dB;
(6)语音侦听和目标语音唤醒,召回率:>95%, 误唤醒率:<1次/48小时;
(7)声纹验证和声纹识别,召回率/精度: >95%/>97%;
(8)本地语音识别,唤醒识别率>95%。
主要应用:该产品已经在智能家居家电,智能办公以及智能车载领域等三大场景完成落地应用,并与美的、海信、云米、雅迪、盯盯拍等三十多家行业的头部企业确认了深度合作。
- 在智能家居方向,目前深聪智能的芯片解决方案已经覆盖电视、空调、冰箱、洗衣机、油烟机、蒸烤箱、热水器、浴霸、智能魔镜、电视盒子、投影仪、智能中控、智能面板、智能音箱、取暖桌、茶吧机、智能晾衣架、扫地机、空调伴侣、智能插座、智能语音遥控器、语音电梯、智能楼宇对讲机等全系列产品。
- 在智能车载方向,已经支持双音区方案、四音区方案、智慧屏、行车记录仪、智能报警器、车外语音控制器等产品。
- 在智能办公方向,落地的产品主要有会议音箱、视频会议Soundbar、智能云台、智能商显、智能平板、智能终端机、智能售票机等。
爱芯元智AX620A
AX620A 是一款高算力,高能效比,低功耗的AI SoC芯片。芯片集成了四核Cortex A7 CPU,14.4TOPs@INT4 或3.6TOPs@INT8 的高算力NPU,支持4K@30fps的ISP,以及支持H.264、H.265编码的VPU。AX620A 支持LPDDR4x,支持eMMC v5.1 / SPI Flash,支持多路sensor同时工作,支持多路子码流,支持千兆Ethernet,支持USB2.0。
AX620A 广泛适用于端侧、边缘侧诸多场景,如智慧城市、智能交通、智能家居等领域,尤其在智能网络摄像机、智能工业相机、门禁设备、运动相机、快速唤醒类产品范畴表现卓越。
灵汐科技类脑芯片KA200
灵汐科技研发的类脑芯片领启® KA200可同时支持计算机科学和神经科学的神经网络模型,并支持两者融合的混合神经网络计算模型,可高效支持卷积脉冲神经网络,支持新型类脑算法。KA200采用异构融合众核、存算一体的芯片架构,单芯片集成25万神经元和2500万突触(稠密模式),可扩展支持200万神经元和20亿突触的集成计算(稀疏模式),对神经网络的连接稀疏性、事件稀疏性,对脑仿真执行效率进行高度优化,较典型的冯诺依曼架构的芯片可实现百倍以上的计算效率提升。
基于“类脑计算完备性”理论,灵汐科技开发了类脑软件LynOS,支持深度学习、高性能计算、机器学习和类脑计算等算法的高效图优化和全自动编译,支持多种算法模型的融合异构,实现应用算法的快速部署。自主研发的面向深度脉冲神经网络的训练框架和脑仿真平台,支持多种类脑神经元模型、突触模型和在线学习机制,高效支持生物脑的脑神经元动力学模拟。
KA200采用12nm工艺,单芯片集成25万神经元和2500万突触,集成了30个类脑计算核,可支持混合精度计算。
主要应用:脑科学及脑仿真领域;类脑产品的时空域融合计算特性,对视频采集/分析将会产生颠覆性的影响,或将改变现有视频监控的处理模式,提供更优的解决方案;高速动态的工业互联网市场;多模态复杂环境的智能机器人应用;自动驾驶等具有高不确定性的应用。
启英泰伦智能语音AI芯片CI1122
智能语音AI芯片CI1122具有如下功能特性:
- 脑神经网络处理器核(BNPU):基于深度神经网络(DNN)的硬件处理器,使语音数据的采集、计算、决策均在本地进行,不依赖网络,时延小,可保护用户隐私。
- 语音识别:快速、准确将语音转化为相应文本,家居环境5米远场识别率达到97%以上,响应时间最快达到0.2S,支持中文、英文、部分方言识别。
- 声纹识别:听声识人,自动提取说话人声音特征,辨识身份。
- 自然语言处理:识别自然语言及语义,快速响应。
- 麦克风语音增强:支持单、双麦克风语音增强,360度全方位拾音,可抑制目标语音方向之外的环境噪音,保证嘈杂环境语音识别的准确性。
- 回声消除:实现语音唤醒打断功能,回声抑制比超过25dB,可用于音箱、电视,及其他语音设备。
- 声源定位:通过麦克风阵列实现辨别声源方位的能力。目前可实现180°声源定位,误差在±15°范围以内。
- 语音合成:将文字信息转化为声音信息。目前可提供10余种音色选择,音色自然流畅。
- 本地命令词自学习:支持语音模型自主学习。在离线状态下,用户通过录入语音即可自定义唤醒词和命令词,实现专属自助定制,使之更符合用户使用习惯。
CI1122的规格参数如下表:
基于该芯片的智能语音应用解决方案适合智能家居、家电、照明领域的智能语音应用。此外,其方案支持WiFi、BLE、Zigbee等多种通信数据接口,家居环境可实现最远10米远距识别,识别率可达到95%以上。