大算力场景“内存墙”、“功耗墙”等问题及解决途径

智能计算芯世界 2023-04-30 06:46

目前 AI 大模型的算力水平显著供不应求。以 Open AI 的算力基础设施为例,芯片层面 GPGPU 的需求最为直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服务器市场的扩容,同步带动高速网卡、HBM、DRAM、NAND、PCB 等需求提升。同时,围绕解决大算力场景下 GPU“功耗墙、内存墙”问题的相关技术不断升级,如存算一体、硅光/CPO 产业化进程有望提速。

下载链接:
AI算力产业链梳理:技术迭代突破瓶颈,AIGC场景驱动算力需求提升
《机器视觉领域SAM合集》
1、SAM,机器视觉领域的ChatGPT 2、解锁视觉区:MetaAI图像分割基础模型SAM 3、Meta推出SAM模型,机器视觉里程碑

ChatGPT AI兴起,智能算力浪潮来袭

《艾瑞咨询:人工智能产业研究合集》

1、2022年中国人工智能产业研究报告(Ⅴ) 

2、艾瑞咨询:中国人工智能产业研究报告

3、中国人工智能产业研究报告(Ⅲ)

4、中国人工智能产业研究报告(Ⅳ)

《70+篇半导体行业“研究框架”合集》
《人工智能AI大模型技术合集》
信创从“芯”开始

云计算通用可编程DPU发展白皮书(2023年)

《42份智能网卡和DPU合集》

227份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》
《FPGA五问五答系列合集》
1、FPGA五问五答系列一:FPGA提供了什么价值?
2、FPGA五问五答系列二:FPGA和CPU、GPU有什么区别?为什么越来越重要?

《集成电路及芯片知识汇总(1)》

《集成电路及芯片知识汇总(2)》

1.“内存墙”、“功耗墙”等掣肘 AI 的算力发展

“存”“算”性能失配,内存墙导致访存时延高,效率低。内存墙,指内存的容量或传输带宽有限而严重限制 CPU 性能发挥的现象。内存的性能指标主要有“带宽”(Bandwidth)和“等待时间”(Latency)。近 20 年间,运算设备的算力提高了 90000 倍,提升非常快。虽然存储器从 DDR 发展到 GDDR6x,能够用于显卡、游戏终端和高性能运算,接口标准也从 PCIe1.0a 升级到 NVLink3.0,但是通讯带宽的增长只有 30 倍,和算力相比提高幅度非常缓慢。

冯诺依曼架构下,数据传输导致严重的功耗损失。冯·诺依曼架构要求数据在存储器单元和处理单元之间不断地“读写”,这样数据在两者之间来回传输就会消耗很多的传输功耗。根据英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。数据传输造成的功耗损失越来越严重,限制了芯片发展的速度和效率,形成了“功耗墙”问题。

AI 模型参数量极速扩大,GPU 内存增长速度捉襟见肘。在 GPT-2 之前的模型时代,GPU 内存还能满足 AI 大模型的需求。近年来,随着 Transformer 模型的大规模发展和应用,模型大小每两年平均增长了 240 倍。GPT-3 等大模型的参数增长已经超过了 GPU 内存的增长。传统的设计趋势已经不适应当前的需求,芯片内部、芯片之间或 AI 加速器之间的通信成为了 AI训练的瓶颈。AI 训练不可避免地遇到了“内存墙”问题。

AI 模型运算量增长速度不断加快,推动硬件算力增长。预训练技术的进步导致了各领域模型计算量的快速增长,大约每两年就要增加 15 倍。而 Transformer 类模型的运算量更是每两年就要增加 750 倍。这种近乎指数的增长趋势促使 AI 硬件的研发方向发生变化,需要更高的峰值算力。

当前的研究为了实现更高的算力,甚至不惜简化或者优化其他部分组件,例如内存的分层架构,将 DRAM 容量用于需要高性能访问的热数据,将容量层用于处理需要大容量但性能要求不那么高的任务,以适应不同的数据类型、用例、技术需求和预算限制,适用于 AI、ML 和 HPC 等众多应用场景,能帮助企业以经济高效的方式满足内存需求。

2.“内存墙”、“功耗墙”等问题解决路径

2.2.1.存算一体技术:以 SRAM、RRAM 为主的新架构,大算力领域优势大存算一体在存储器中嵌入计算能力,以新的运算架构进行乘加运算。存算一体是一种以数据为中心的非冯诺依曼架构,它将存储功能和计算功能有机结合起来,直接在存储单元中处理数据。存算一体通过改造“读”电路的存内计算架构,可以直接从“读”电路中得到运算结果,并将结果“写”回存储器的目标地址,避免了在存储单元和计算单元之间频繁地转移数据。存算一体减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗(降至 1/10~1/100),还可以利用存储单元进行逻辑计算提高算力,显著提升计算效率。它不仅适用于 AI 计算,也适用于感存算一体芯片和类脑芯片,是未来大数据计算芯片架构的主流方向。

存算一体技术可分为查存计算、近存计算、存内计算和存内逻辑,提供多种方式解决内存墙问题。

查存计算:早期技术,在存储芯片内部查表来完成计算操作。

近存计算:早已成熟,计算操作由位于存储区域外部的独立计算芯片/模块完成。典型代表是 AMD 的 Zen 系列 CPU,以及封装 HBM 内存(包括三星的 HBM-PIM)与计算模组(裸Die)的芯片。

存内计算:计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟或数字的。典型代表是 Mythic、千芯科技、闪亿、知存、九天睿芯等。

存内逻辑:通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算。典型代表包括 TSMC(在 2021 ISSCC 发表论文)和千芯科技。

SRAM、RRAM 是存算一体介质的主流研究方向。存算一体的成熟存储器有几种,比如 NOR FLASH、SRAM、DRAM、RRAM、MRAM 等 NVRAM。

FLASH 是非易失性存储,成本低,可靠性高,但制程有瓶颈。

SRAM 速度快,能效比高,在存内逻辑技术发展后有高能效和高精度的特点。

DRAM 容量大,成本低,但速度慢,需要不断刷新电力。

新型存储器 PCAM、MRAM、RRAM 和 FRAM 也适用于存算一体。其中 RRAM 在神经网络计算中有优势,是下一代存算一体介质的主流方向之一。除了 SRAM 之外,RRAM 也是未来发展最快的新型存储器之一,它结构简单,速度高,但材料不稳定,工艺还需 2-5 年才能成熟。

存算一体有着广泛的应用场景,在不同大小设备上均有需求。

从技术领域来看,存算一体可以应用于:

(1)AI 和大数据计算:将 AI 计算中大量乘加计算的权重部分存在存储单元中,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。

2)感存算一体:集传感、储存和运算为一体构建感存算一体架构,在传感器自身包含的 AI存算一体芯片上运算,来实现零延时和超低功耗的智能视觉处理能力。

3)类脑计算:使计算机像人脑一样将存储和计算合二为一,从而高速处理信息。存算一体天然是将存储和计算结合在一起的技术,是未来类脑计算的首选和产品快速落地的关键。

从应用场景来分,存算一体可以适用于各类人工智能场景和元宇宙计算,如可穿戴设备、移动终端、智能驾驶、数据中心等。

1)针对端侧的可穿戴等小设备,对成本、功耗、时延难度很敏感。端侧竞品众多,应用场景碎片化,面临成本与功效的难题。存算一体技术在端侧的竞争力影响约占 30%。(例如 arm占 30%,降噪或 ISP 占 40%,AI 加速能力只占 30%)

2)针对云计算和边缘计算的大算力设备,是存算一体芯片的优势领域。存算一体在大算力领域的竞争力影响约占 90%。

传统存储大厂纷纷入局,新兴公司不断涌现。

1)国外方面,三星电子在多个技术路线进行尝试,发布新型 HBM-PIM(存内计算)芯片、全球首个基于 MRAM(磁性随机存储器)的存内计算研究等。台积电在 ISSCC 2021 上提出基于数字改良的 SRAM 设计存内计算方案。英特尔也早早提出近内存计算战略,将数据在存储层级向上移动,使其更接近处理单元进行计算。

2)国内方面,阿里达摩院成功研发全球首款基于 DRAM 的 3D 键合堆叠存算一体芯片,可突破冯·诺依曼架构的性能瓶颈。千芯科技是可重构存算一体 AI 芯片的领导者和先驱,核心产品包括高算力低功耗的存算一体 AI 芯片/IP 核(支持多领域多模态人工智能算法)。
下载链接:
信创从“芯”开始

云计算通用可编程DPU发展白皮书(2023年)

《42份智能网卡和DPU合集》

227份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》
《FPGA五问五答系列合集》
1、FPGA五问五答系列一:FPGA提供了什么价值?
2、FPGA五问五答系列二:FPGA和CPU、GPU有什么区别?为什么越来越重要?

《集成电路及芯片知识汇总(1)》

《集成电路及芯片知识汇总(2)》

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“小程序链接”即可查看182页 PPT可编辑版本和PDF阅读版本详情。
服务器基础知识全解PPT(终极版)
服务器基础知识全解PDF(终极版)

温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • DeepSeek的风还吹到了TV圈。去年,人工智能领域迎来了重大突破,然而对大多数人而言,它依旧是个颇为模糊的概念。即便是如ChatGPT这样的产品,给人最直接的感受也仅仅是一个相较于Siri更为智能的语音交互工具。直至今年,DeepSeek的惊艳亮相,人们真正感受到了生成式人工智能在实际应用中的价值。在这股浪潮的推动下,电视厂商们也纷纷跟上了脚步。2月11日,海信电视宣布正式接入DeepSeek,并支持满血R1和V3版本自由切换,成为行业首个搭载深度思考智能体的电视品牌。长虹电视紧随其后,宣布
    刘旷 2025-03-03 09:55 360浏览
  • 在当今数据驱动的世界,内存解决方案需要的不仅仅是原始性能。贞光科技代理的紫光国芯全系列存储产品提供定制化解决方案,解决各行业面临的独特挑战,同时确保可靠性、兼容性和面向未来的创新。打破“唯性能论”,迎接多元化存储需求一直以来,高性能似乎成了衡量存储产品的唯一标准。 没错,速度快、效率高,固然重要。 但话说回来, 难道所有应用场景,都对性能有着“变态”级的需求吗? 答案显然是否定的。 就像穿鞋一样,合脚才是最重要的, 一味追求“跑得快”, 反而容易磨脚,甚至崴脚!在实际应用中,各行各业对存储的需求
    贞光科技 2025-03-03 17:05 177浏览
  • 在现代各种工业设备的复杂电路中,栅极驱动芯片虽不常被大众提及,却扮演着至关重要的角色。栅极驱动芯片是低压控制器和高压电路之间的缓冲电路,主要用于放大控制器的控制信号,从而令功率器件实现更快速高效的导通和关断,是保障电子设备稳定、高效运行的核心元件之一。驱动芯片的类型(按结构划分)电力电子应用基于功率器件技术,而无论是MOSFET、IGBT,还是SiC MOSFET等功率器件都需要相应的栅极驱动芯片(Gate Driver IC)。选择一款合适的驱动芯片,不仅可以简化相应电气系统的设计复杂度,还可
    华普微HOPERF 2025-03-04 14:40 154浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 245浏览
  • 在2025年世界移动通信大会(MWC 2025)期间,紫光展锐携手美格智能正式推出了基于紫光展锐V620平台的第二代5G Sub6G R16模组SRM812,以超高性价比方案,全面赋能合作伙伴,加速5G规模化应用在各垂直领域的全面落地。展锐芯赋能,全面支持R16关键特性SRM812模组基于紫光展锐推出的V620平台设计,V620是业界首款全面支持R16的5G宽带物联网芯片平台,具备强劲的射频能力和全网通特性。得益于此,SRM812成为业界首批全面支持5G R16宽带物联网特性的芯片平台。SRM8
    紫光展锐 2025-03-04 19:55 163浏览
  • 2020年,世界经济论坛发布了《将来工作报告》,预言了人工智能 (AI)、机器人和自动化将在五年内对劳动力市场带来反天性的变化。最震撼人心的预测是:85亿个工位将消失,97亿个新工位将被创造。这个信息给我们提出了一些骂烈的疑问:AI究竟会消灭哪些工作?管理者的规划依然重要吗?AI会代替我们的管理之路吗?AI不会替代管理者,会进一步增强他们随着AI在机器学习、自然语言处理和预测分析方面的进步,许多人对AI接管事务表示担心。但研究显示,大多数情况下,AI将作为工具与管理者协同完成任务,而不是替换他们
    优思学院 2025-03-01 12:22 256浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 245浏览
  • 文/Leon编辑/cc孙聪颖在中国制造转向“智造”的过程中,一批80、90后企业创始人闪亮登场,用互联网思维进行创新,在全球市场取得了傲人的成绩,如大疆汪滔、宇树科技王兴兴、影石Insta360刘靖康,都是各自领域的佼佼者。在引领全球市场后,独角兽企业的下一步自然是上市。据悉,中国证监会于2025年2月26日正式批复影石Insta360创新科技股份有限公司(以下简称影石Insta360)的IPO申请,拟在上交所科创板上市,中信证券为保荐机构,拟募集资金4.64亿元。影石Insta360主要从事手
    华尔街科技眼 2025-03-03 18:40 279浏览
  • 2025年世界移动通信大会(MWC 2025)期间,紫光展锐联合移远通信,正式发布了全面支持5G R16特性的模组RG620UA-EU,以强大的灵活性和便捷性赋能产业。展锐芯加持,关键性能优异RG620UA-EU模组基于紫光展锐V620平台开发,搭载4核Arm®Cortex®-A55 CPU,符合3GPP R16标准,在传输速率、计算能力、R16关键特性等方面表现优异。该模组配备了丰富的功能接口,包括USXGMII、PCIe3.0、USB3.1、SDIO3.0、UART、SPI、I2S、I2C、
    紫光展锐 2025-03-04 19:54 153浏览
  • 压力传感器是指能感受压力信号,并能按照一定的规律将压力信号转换成可用的电信号的器件或装置。压力传感器通常由压力敏感元件和信号处理单元组成,按不同测压方法,压力传感器可分为表压传感器、差压传感器和绝压传感器;按不同测压原理,压力传感器又可分为常见的压阻式压力传感器、电容式压力传感器、扩散硅压力传感器、蓝宝石压力传感器与陶瓷压力传感器等。作为工业自动化与智能化的关键器件,压力传感器在各类工业设备中扮演着不可或缺的角色,其通过精确感知和转换物理压力信号,为工业物联网(IIoT)构建起了高效精确的“压力
    华普微HOPERF 2025-03-03 10:19 239浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 409浏览
  • 中小企业(SME)对全球经济的贡献日益显著,不仅是发展中国家的经济支柱,通常还是其经济快速增长的关键部分。中小企业的其他关键作用还包括促进创业和创新,从而保证竞争力。从这一点来说,中小企业助力了许多大公司,并对世界经济做出重大贡献。本章将介绍中小企业的定义和经济份额,分析其特点以及它们与大型企业的区别。中小企业的定义任何组织在制订计划和策略时,最重要的都是了解业务的性质和类型。全球各企业的分类主要基于它们的体量,例如固定资产、产值、资金和员工数量。从大的分类来讲,大公司被划归为一种类型,而所有其
    优思学院 2025-03-04 11:07 150浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦