随着现代社会信息量的爆炸式增长,边缘AI计算正成为进一步满足数据带宽和传输速度需求的突破口。而在这一过程中,边缘AI与嵌入式存储器的结合,成为了帮助实现大数据网络中计算的一把利器。

王瑞哲   资深研发工程师,中国芯片设计中心
刘磊      电院微纳电子系,上海交通大学
孟超      高级设计经理,中国芯片设计中心
李晴      总监,中国芯片设计中心

随着现代社会信息量的爆炸式增长,越来越多的存储器和AI计算被用来进行信息的存储和运算。然而,即便是算力强大的云端计算,也很难完全满足数据带宽和传输速度的需求,加上人们对于数据隐私保护的重视程度不断提高,在这种现状下,边缘AI计算就成为了突破口,它能够在大数据时代助力人们的生产生活。而边缘计算中非常重要的一个部分就是嵌入式存储器。本文就来介绍一下边缘AI与嵌入式存储器是如何帮助实现大数据网络中的计算。

什么是边缘AI计算

边缘计算 (edge computing) 是一种将数据计算靠近数据源头的新型计算模型。相较于云计算(cloud computing) 的云端服务器大数据计算不同,边缘计算不需要将数据上传到云端设备,而是直接在靠近数据源的设备端或者边缘端进行计算。边缘计算考虑的更多是如何能够将一些基本运算移至边缘终端设备,来节省设备的功耗,提高数据的时效性和用户隐私保护等。

图1. 边缘AI与云端AI之间的计算架构模型和关系ref[1]

边缘AI(edge AI)则是边缘计算的进一步发展。依托于云端服务器数据计算能力的飞速提升,人工智能和机器学习取得了巨大进步,发展出更具综合性的人工神经网络。在大数据时代,每天都会产生海量的信息需要分析处理,随着机器学习、神经网络训练等网络架构和工具不断的适配和兼容到嵌入式系统上,越来越多的AI应用也可以直接在边缘设备运行,于是“边缘AI”成为了当下讨论和研究的热点。

边缘AI是指在本地硬件设备上处理的AI算法,可以在没有网络连接的情况下进行数据处理。为了实现这一目标,边缘计算在云端通过深度学习进行训练生成神经网络的权重,而在产生数据的设备本身(边缘)执行模型的推断和预测。目前,各大厂商已经开始在相关领域进行探索。谷歌、亚马逊和微软等传统云服务提供商推出了边缘人工智能服务平台,通过在终端设备本地运行预先训练好的模型进行机器学习推断,将智能服务推向边缘。很多公司都在着手进行研究,市场上也已经出现多种边缘人工智能芯片。

边缘AI计算的优势

随着物联网和智能设备井喷式的应用,智能手机,智能家电,智能汽车以及可穿戴设备已经逐渐融入到物联网中,在终端运行的过程中,这些智能设备会产生海量的数据。但是现有云端计算的带宽以及计算资源还不能实时有效的处理这些数据,而且上传到云端也会出现数据丢失以及泄露的隐患。同时终端设备在发送和接受无线信息时,会消耗大量的能量。这限制了电池供电的终端设备的大规模部署,也增加了维护的成本,不利于物联网的应用和普及。因此,很多行业的大数据以及AI设备,开始逐步从以云计算为中心的集中式处理,转入以万物互联为核心的边缘计算处理。通过减少在云端之间的数据互传,增强了数据实时更新、及时处理和分析的能力,补充和优化了云端设备在计算链条中所占比重,实现了计算效能利用的最大化。

图2. 边缘AI可以提供比云端AI技术更低的功耗、延时和成本ref[2]

边缘AI计算相对于云计算有以下几方面优势:

第一,边缘AI计算能够更好的解决带宽问题。无需将大量数据上传到云端,只是处理部分产生的临时数据,将会大幅降低网络带宽的负荷并降低网络传输的功耗。

第二,边缘AI计算可以降低系统和数据的延迟。通过在设备端进行数据处理,可以极大程度的减少系统的延时,提升指令的响应时间。例如,智能汽车在紧急情况下,通过车载传感器来接收信号进行处理分析并作出响应,这样信号的处理更接近信号来源,而非在云端或者外部处理器进行,从而减少数据延迟并做出快速响应。

第三,边缘AI计算还可以实现用户隐私的保护。隐私数据不需要上传到云端,可以免于黑客攻击以及网络病毒等影响,提升了数据的安全性。如智能门锁的密码信息、智能摄像头的监控信息、智能穿戴设备中的个人健康数据以及语音助手的对话信息等。

边缘AI计算与嵌入式存储器

存储器是计算机架构里非常重要的一环,Edge devices和边缘AI计算也需要先进存储技术的加持和推动。下面就来介绍一下边缘AI计算和嵌入式存储器的关系。

图3. 随着IoT设备和边缘AI计算的发展,新型存储技术多场景应用ref[3]

边缘AI计算在低带宽、低延时、保护隐私等方面具有较大优势,但同时也面临着一些挑战,如功耗问题以及权重的存储。在工业物联网、机器人、可穿戴设备、智能汽车等应用中,边缘计算的使用日益增加。终端设备需要不断收集数据,在云端训练和更新权重后再将权重返回到终端。随着这种需求的增加,程序存储和数据备份等应用也越来越需要高速、低延迟、非易失性、低功耗、低成本的存储器来实现数据记录。

终端设备的数据记录一般需要数兆比特大小的存储器,以容纳长期积累的数据。并且记录器通常由电池供电,因此需要低功耗存储器。另外系统待机和断电时,记录的数据可无限期保留,因此需要非易失性存储器(NVM)。

图4. NVM在成本、面积和速度达到平衡,填补Memory和Storage空白ref[4]

对于这些要求,非易失性存储器中的磁阻式随机访问存储器MRAM就可以比较好地满足。对于边缘AI,在不要求高性能的应用中,MRAM能以较低的电压运行,提高能效。由于IoT设备和可穿戴设备很多都是电池供电 ,所以需要存储器功耗更低,漏电更小,格芯的MRAM采用了22FDX的工艺,功耗低,具备深度睡眠模式(Deep Sleep Mode),可以减小漏电,极大程度地提升终端设备的待机时间;Data Retention高,能够更长时间的正确保存数据,能够在比较极端的温度条件(-40℃~125℃)下正常工作;存取时间短,能实现快速读取数据。此外与External Memory相比,嵌入式MRAM可以减少PCB面积,减少成本。

图5. MRAM从2019年到2025年,在嵌入式市场份额中增进和演变ref[4]

边缘AI中的近存计算

为了进一步更好地实现边缘AI,减少数据传输带来的功耗和延时,就需要将内存和计算单元的物理距离减小。由于数据搬运产生的能耗和延时变小,所以也相应的提高效率,减小了能耗和延时的不利因素,因此,近存计算也就应运而生。

近存计算,顾名思义,是让数据在存储侧就近完成计算。这就需要计算单元和存储单元距离更近,这不仅降低了计算节点的CPU和内存的负荷,也大大缓解了网络传输的负载,大幅降低应用的响应延迟,为基于数据中心的大数据和人工智能等涉及大数据量处理的应用优化提供了新的解决方案。

近存计算其中可以应用的一种方法就是高带宽存储器HBM 2.5D封装技术。这种2.5D封装技术,可以把多个小芯片封装到一个基板上,这项技术有许多优点,主要优势是带来更高的运算速率,更高的带宽,以及相对较低的成本和功耗,实现了从成本、性能到可靠性的完美平衡。

图6. 格芯2.5D封装技术帮助减少内存和计算单元的物理距离ref[5]

格芯2.5D封装技术2017年产品化,至今已成功应用于国内外多个系统厂家的高端芯片,可以覆盖不同产品尺寸,并且是基于3层Metal工艺实现的Interposer, 更具成本优势。在2.5D先进封装设计服务方面,格芯已完成从物理实现,到仿真分析,到物理验证的全流程开发,并持续开发支持多个主流EDA厂家的设计流程,方便不同客户使用。另外格芯与第三方IP厂家以及各OSAT (Amkor, ASE等) 都有完善的长期合作关系,因此格芯也提供一站式服务(从设计到生产加工),使客户的产品拥有快速、高质量和高性价比的设计和生产方案,让产品能更快地进入市场,同时保证了独特的技术和方案。

边缘AI中的存内计算

在未来,大数据处理和机器学习等对算力的要求还会进一步增加,对于边缘AI计算也同样会出现需要提高算力容量以及效率的需求。这种对算力的极高要求会和冯·诺伊曼计算架构导致的存储墙 (Memory Wall) 成为限制电子信息领域发展的一对矛盾。近年来出现的存内计算(存算一体)芯片就有很大希望能够解决这一问题。存算一体芯片技术,旨在把传统以计算为中心的架构转变为以数据为中心的架构,直接利用存储器进行数据处理,从而把数据存储与计算融合在同一个芯片当中,可以彻底消除冯诺依曼计算架构的瓶颈。由于边缘AI运算,例如卷积神经网络 (CNN) 的运算,涉及的指令相对单一,基本上是乘累加 (Multiply-Accumulate) 运算,以存储器来做MAC单元有很高的可行性。

进行CNN计算时,在传统的计算架构下,Memory的bit-cell只存储权重,在进行计算时,要把权重从Memory中取出,和输入数据一起放入数据处理器(Digital Processor)中进行计算,再输出结果。而存内计算是直接在Memory中进行权重和输入的乘累加运算,一次可以打开多条字线(word-lines) , 而不是像传统架构通过地址译码器 (Decode)只能打开一条字线 (word-line), 大大的提高了运算效率和吞吐量。因此,存内计算特别适用于深度学习神经网络这种大数据量大规模并行的应用场景。

 

图7. 利用SRAM存储和计算的特点,解决计算架构的瓶颈以及识别高精度的数据集ref[6]

边缘设备的解决方案对成本非常敏感。许多边缘AI芯片供应商都需要在40nm左右的成熟节点上交付产品。目前这一工艺很理想,成本并不昂贵。但展望未来,供应商希望以低功耗获得更高的性能。

格芯的新型12LP+技术提供了一条替代途径,通过减小电压而不是晶体管尺寸来降低功耗。格芯还开发了专门针对AI加速而优化的新型SRAM和乘法累加 (MAC)电路。12LP+工艺下的SRAM单元中增加了双功函数晶体管,使电压得以降低,从而减小所需的电压裕量。

总结

虽然云计算一直是数据管理、处理和存储的首选,但其存在局限性。而边缘计算可以充当替代解决方案,但由于该技术仍处于起步阶段,因此还面临很多挑战,比如需要开发能够处理云端分流的计算任务的软件和硬件,以及需要教会机器能够在边缘执行的计算任务和需要云端执行的计算任务之间切换。

即便如此,随着边缘AI计算更多地被采用,企业将有更多的机会在各个领域测试和部署这种技术。届时,嵌入式存储器也会焕发出新的生命力。

Reference: 

[1] “How Edge AI is widely changing smart devices“. https://www.mediatek.com/blog/how-edge-ai-is-widely-changing-smart-devices. March.2019.

[2] J. Yue et al., “A 65nm Computing-in-Memory-Based CNN Processor with 2.9-to-35.8TOPS/W System Energy Efficiency Using Dynamic-Sparsity Performance-Scaling Architecture and Energy-Efficient Inter/Intra-Macro Data Reuse”, ISSCC, pp. 234-235,2020.

[3] M.-F. Chang et al. “Nonvolatile Circuit for AI Edge Applications”, VLSI, 2019.

[4] Yole Development, "Emerging Non-Volatile Memory, Market and Technology Report 2020"

[5] Cheng, Zhang et al. "Advanced 2.5D packaging technology", GLOBALFOUNDRIES, 

https://www.eet-china.com/news/11093.html

[6] Xin Si et al., “A 28nm 64Kb 6T SRAM Computing-in-Memory Macro with 8b MAC Operation for AI Edge Chips” ISSCC.Feb.2020.

  • 嵌入式存储器迎合大数据时代契机,抓住机遇,迎接挑战!
阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
随着支持AI的应用程序的普及以及6400MT/s或更高速度成为主流,PC内存性能要求不断提高,使用CKD的系统数量将伴随时间的推移呈现显著增长的态势。
SK海力士29日宣布,全球首次成功开发出采用第六代10纳米级(1c)工艺的16Gb(Gigabit,千兆比特)DDR5 DRAM。由此,公司向世界展现了10纳米出头的超微细化存储工艺技术。
美光科技计划收购友达光电旗下的两家工厂,将主要用于扩充先进封装与高带宽内存(HBM)生产线。美光科技表示,此次收购的厂房将主要用于前段晶圆测试,以支持其在台中和桃园的DRAM生产扩张。
铠侠此次上市的主要目的是为了满足AI热潮对其芯片需求的增长。随着AI技术的快速发展,对高性能存储芯片的需求显著增加,铠侠希望通过上市来筹集资金,以进一步扩大其在NAND Flash市场的市场份额和技术研发能力。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
文|萝吉今年下半年开始,国内新能源市场正式跨过50%历史性节点,且份额依然在快速增长——7月渗透率破50%,8月份破55%……在这一片勃勃生机万物竞发的景象下,新能源市场占比最高的纯电车型,却在下半年
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆