生成式AI和大模型的发展对算力提出了更高要求,通用型GPU和基于DSA架构的AI芯片需要在处理性能和能效方面不断提升才能满足这一市场需求。在IIC Shanghai 2024同期举办的“GPU/AI芯片与高性能计算应用论坛”上,来自国内外的AI芯片、IP、软件厂商不但分享了各自最新的AI产品、应用方案,还就市场与技术的未来演进趋势展开了讨论。
构建智能化未来的基石
芯耀辉技术方案副总裁刘好朋在演讲中援引相关机构的数据指出,2023年全球AI市场规模达到了5380亿美元,到2027年预计将超过10000亿美元,年复合成长率达到19%。而就中国市场来说,2023年AI市场规模达到了2473亿人民币,估计到2027年将会超过达到6000亿人民币,年复合成长率达到25%。可见,市场预期中国的人工智能产业成长率将大幅超越全球的成长趋势。
芯耀辉技术方案副总裁刘好朋
从投入来看,全球数字化转型的投入的增幅最近几年一直维持在一个远高于GDP增速的水平上,尤其是在人工智能领域,增幅远高于数字化转型投入的整体增幅。人工智能支出已经成为支持数字化转型支出的主力之一,其中的驱动关系也可见一斑。
从模型算法来说,近些年大模型的参数量一直呈指数攀升:2018年发布的GPT-1参数量仅为1亿左右,两年后的GPT-2突破10亿,到GPT-3.5已达2000亿,而去年发布的GPT-4参数量为1.8万亿,模型参数量以平均每年超过7倍的增速在增长。而从训练所需的算力来看,许多主流模型训练所需的算力也以每年5倍的增速在上升,SOTA训练模型的算力需求每年平均增长超过10倍。
从应用热度来看,基于大模型的应用在市场上的反响非常热烈,以ChatGPT为例:短短2个月就增加1亿用户,每月用户增量高达5000万,远超Tiktok,Instagram等传统互联网热门应用,这也进一步推动了大模型的高速发展。
“大模型是在近些年算力高速增长驱动下最为典型的重大创新,被认为具备了‘通用智能’的雏形,当然大模型的快速发展同时也给算力需求带来巨大的挑战,也催生了如何提升模型对算力的使用效率的问题。“刘好朋说,这其实是一个相辅相成的滚雪球的关系,近几年算力的大幅提升使得一些不同于以往的AI应用得以更好地实现,获得市场的追捧,从而进一步推动了对更高算力的需求。
在此趋势下,依靠架构和算法来提升算力正成为一个越来越重要的手段。但与此同时,除了核心算力需要大幅提升外,存储以及各计算节点、模块之间的数据交换和并行计算协同对整体系统算力的提升同样起着至关重要的作用。
所以在我们国内的大算力AI芯片的发展过程中,互联接口IP是与核心运算单元一样重要的影响算力提升的因素。包括CPU、卡间互联用到的PCIe IP;存储接口的HBM IP;以及D2D的UCIe IP,这些都是制约算力提升的关键因素。
从当前的实际情况来看,具有超高带宽,超大容量的HBM3或者HBM3E是目前解决AI计算芯片存储瓶颈问题的最优方案;在互联方面,多颗算力芯片通过D2D IP互联,形成Chiplet系统,提高系统算力会是首选,而UCIe由于更好的通用性,会成为Chiplet D2D接口的主流选择。
作为国产IP厂商,芯耀辉过去几年实现了先进工艺平台国产IP的全覆盖,积累并充分验证了包括PCIe、Serdes、DDR、LPDDR、HBM、D2D、USB、MIPI、显示相关以及存储相关的几乎全部协议的IP产品,能够满足各类应用的需求,比如高性能计算、人工智能、存储、网络、通讯、汽车电子、消费电子等,并且获得了大量客户的使用、验证和量产。
AGI时代需要怎样的算力芯片?
“AGI”一词最早可以追溯到2003年由瑞典哲学家Nick Bostrom发表的一篇论文《Ethical Issues in Advanced Artificial Intelligence》,而我们现在更为熟悉的OpenAI,则是一种高度自主且在大多数具有经济价值的工作上超越人类的系统,自主决策、广泛应用、成本可控、超级智能成为AI系统的关键词。
“以更大算力、更高能效、更低成本、更优通用、更易部署为特征的‘五更’算力,是产业对未来AI算力芯片的共同期望。“亿铸科技高级副总裁徐芳指出。
亿铸科技高级副总裁徐芳
但“算力”其实是个技术群的合集,主要由加速计算芯片、加速计算卡/模组/应用方案、加速计算服务器集群三大部分组成。这其中涉及的技术包括接口协议(PCIe、UCIe、RDMA等)、生产工艺、新型存储、新互联、各类标准接口、PCB生产工艺、高带宽存储各类新兴应用场景、数据互联、液冷、能源使用优化方案等等。
那么,未来AI芯片的最大竞争力是什么?徐芳认为,器件、工艺、结构是系统能效的决定因素,大幅降低客户的AI算力成本,其中推理的算力成本降低诉求最为强烈和刚性。
但从大模型推理特点来看,首先,当前矩阵大小已达到10K,表明只要算力够,大模型会越来越大;其次,带权重的矩阵运算占大模型所有计算的90%;最后,10k向量乘以10k x 10k矩阵,把系数从DRAM载入芯片计算的成本是存内计算的10000倍,数据搬运能耗降低至1/10000,系统运营能耗可降低至1/10,运营成本更低。
于是,“摩尔定律终结+昂贵的工艺制程+昂贵的Wafer成本+昂贵的高带宽存储颗粒+昂贵的高带宽互联技术+有限的XPU有效利用率”成为当前推高AI算力成本的根本原因,以至于某上市公司董事长都不得不感叹,“不是大模型没有落地场景,而是算力成本要下降至少十几倍甚至几十倍!”
为了改变这一现状,2023年3月,亿铸科技首次提出“存算一体超异构”,以存算一体(CIM)AI加速计算单元为核心,统一ISA指令集,将不同的计算单元进行异构集成和系统优化,即实现更大算力、更高能效比,为大模型时代AI大算力芯片换道发展提供新思路。同年,亿铸原型验证芯片(POC)已回片并成功点亮,完成了亿铸ReRAM全数字存算一体高精度、低功耗、大算力的芯片技术硅验证,实现了“基于28nm工艺,实测22T/w的极高能效比。“
人工智能硬件系统身后的电源方案
现代数据中心的每个机架平均提供3kW-5kW的功率,为服务器、存储器和网络机架供电。大部分功率会供给基础CPU,以确保其能高效率工作。因此,传统12V电源架构被广泛采用。
但随着云计算、人工智能应用以及大功率处理器和加速器需求的不断增长,数据中心也在不断发展以适应新的大功率需求。例如,早期 AI 市场超级计算机的整个电源系统需要3200W的功率。第二代AI的功率需求增长了三倍,使整个电源系统的总功率达到了10kW。由于分配大电流时功率损耗随电流的平方(I2R)增大,必须在背板或走线中使用更多的铜来控制配电损耗。这样最终会限制系统的功率传输。
为了满足行业新的电源需求,MPS开发了一种新型电源架构,它采用48V配电电压,能够将配电损耗降低16倍;另外还提供了48V数据中心解决方案,以应对新的设计挑战。
MPS战略客户现场应用工程师经理郑秀聪强调了在此趋势下Z轴供电(Z-axis power delivery, ZPD)的优势。现代数据中心目前多采用横向供电系统,其电源稳压器通常放置在电路板顶部、处理器的周围。但随着CPU和GPU电流需求的不断增长,稳压器与负载点之间的距离成为造成PDN损耗的重要因素。此外,PDN增加还意味着系统需要为稳压器提供更高的输出电容。相比之下,Z轴供电则将稳压器放置在PCB底部、处理器的下方,可以显著降低PDN损耗(超过10倍)。
MPS战略客户现场应用工程师经理郑秀聪
处理器内核供电Intelli-Module集成了供电阶段所需的所有组件:电感、电容以及具备Quiet Switcher技术的最新款Intelli-Phase芯片,具有高度可扩展性,可扩展至2kW 系统供电解决方案,独立的相位输出更加灵活,先进的电流采样、温度检测和故障报告功能让使用更便捷。
The MPC22166是一款非隔离式降压电源模块,具有130A的连续峰值输出电流。该模块将驱动器MOSFET和电感集成在一个紧凑的封装中,节省了布局空间并实现了更高的功率密度。MPC22166支持多个模块并联运行,功率可高达2kW+,其4mm的最大高度适用于多种应用,例如Z轴供电和PCIe外形尺寸板。
智能算力调度平台助力IC研发设计
应用胶囊(AppCapsule)是MMCloud混合云调度解决方案的底层核心技术。按照MemVerge公司中国区总经理陈明给出的解释,所谓“应用胶囊”,是指针对某个应用进程或者进程组在某一个时刻的在主机中的“数据和相关元数据”的一致性checkpoint-restore技术,包括CPU缓存,内存,文件系统和其它系统级变量和参数等等数据和状态。
MemVerge公司中国区总经理陈明
基于此,MemVerge正在应用胶囊技术衍生的算力调度的五个核心功能:
功能1:运行时状态下的跨主机热迁移,应对EDA作业的压力变化。就是根据主机业务压力的走势,来选择更加匹配的云主机机型,在应用无感知的情况下,实现热迁移来更换帮助用户重新机型
功能2:运行时状态下的跨主机热迁移,应对突发内存激增。即通过监控MMCloud平台下的云主机负载压力,来选择更加匹配的云主机机型,在应用无感知的情况下,实现热迁移来帮助用户重新更换机型。
功能3:应用级克隆,大幅提升EDA前仿作业的并行度。这样做的优势一是节省了作业2到作业N的相同部分的运行时间,提升作业并发效率;二是原来的作业2到作业N需要的主机资源大幅缩减,降低了IT成本。
功能4:使能Spot实例的断点续算,将成本降低最低。
功能5:跨多队列的计算资源池,提升30%并发性能。传统的作业调度软件容易出现部分队列资源空闲,部分队列又排队等待。MMCloud在作业队列层面进行了虚拟化优化,所有队列可以共享后端计算资源,提升作业并发效率。
连接EDA业务和大规模算力的作业调度平台,是MMCloud的产品定位。而通过“精细化调度”将“降本增效”做到极致,则是对该产品技术价值最核心的总结。
例如,MMCloud的接口和兼容性实现了统一接入,多语义支持。具体而言,MMC HPC Bridge模块可以部署在用户本地机房,也可以部署在云端。负责纳管用户本地的已有集群,并作为本地和云端的统一接入点,向上提供作业投递接口。同时支持纳管本地已有的PBS,Slurm,LSF,SGE等各类集群。用户可以使用原有语义向本地和云端投递作业。无须改造业务程序和脚本。
本地集群与云端资源统一管理、统一调度、统一展示也是MMCloud的特点。这意味着,本地集群支持一键上云混合云架构,满足资源不足的任务需求。以及在混合云架构下,支持任务动态溢出到云,自动化构建计算资源,任务完成后销毁计算资源。
AI SoC解锁LLM/GenAI带来新机遇
生成式AI正在突破以前无法突破的领域极限,并重塑各行各业。与此同时,生成式AI也正从单模态单一语言模型向多模态端到端模型演进。安霸半导体研发总监钱豪在演讲中指出,未来多模态大模型对AI SoC的需求将来自四方面:高算力低功耗、高带宽利用率、算法兼容性和功能完整性。
安霸半导体研发总监钱豪
为了更好的适应以上趋势,安霸高性能芯片采用了自研IP,兼顾通用性和低功耗,并且大幅提升深度神经网络性能。CVflow架构内建高速缓存将临时结果保存在内部高速缓存,以获得更快的速度和效率,并最大限度地减少对DRAM的访问,节省对DRAM大小和带宽的消耗。
钱豪强调称,大模型不仅对芯片算力带来强力挑战,更多的是对内存墙的挑战,所以模型压缩刻不容缓。一些常见的做法包括:量化,4 Bit量化,能让大模型减轻对算力和带宽的需求;或者是稀疏化,能更近一步减轻算力和带宽的需求。所以,总体而言,AI SoC需要能够支持稀疏化带来的加速,以及能够运行4 Bit计算。
以安霸N1芯片为例,该芯片能够单颗低功耗SoC支持大模型推理,超高性能多核CPU实现程序自由。高质量高帧率图像、雷达,以及其他传感器等不同输入的高速处理,高带宽支撑大模型推理的同时,还能并行进行图像处理以及编解码。同时,成熟的工具链可以适配市面上绝大多数网络,硬件算子软体封装也进一步加强了通用性。
加速构建国产智算产业硬件底座
在速石资深解决方案架构师李小燕看来,国产智算产业发展,既要考虑GPU、FPGA、ASIC等AI芯片的国产算力底座的“芯”实力,也要考虑训练和推理的算力平台调度软件能力,软硬协同才能最大化发挥算力底座的作用和效率。
速石资深解决方案架构师李小燕
“通用AI时代,对通用GPU的全栈能力提出了全新要求,要做到高性能、高带宽、高存储、高通用性、高效分布式计算、高效集群互联,才能满足大模型的算力需求。”李小燕指出,“芯片是‘用进废退’,越用才能越好用。在渐进式过程中培育算力生态、迭代算力产品,这个过程是我们必须经历的。”
速石新一代芯片研发平台,覆盖芯片设计全生命周期研发需求的三大企业级产品FCC-E、FCC-B、FCP,构建为应用定义的云,支持异构资源(CPU/GPU/TPU/FPGA)智能化调度。其中,一站式交付的FCC-E可全面满足企业大规模验证、仿真的高峰研发业务需求与跨国扩张战略,支持建立多个独立研发环境,满足研发项目外包合作需求,并提供核心业务系统数据备份策略与容灾体系,充分保障研发业务连续性。
FCP研发平台工程化解决方案则针对突发项目需求、仿真任务无法并行、整体资源利用率低、等典型业务场景,帮助广大半导体企业快速构建本地集群管理平台及混合云架构,从而实现资源管理分配合理化、EDA治理运维便捷化、研发业务调度自动化、芯片设计项目保障化的目标。
一站式MLOps平台主要面向机器学习团队提供研发/部署/运维管理平台,帮助企业更好的利用GPU算力,提升GPU算力调度效率,让企业更专注于算法开发和机器学习业务流程。
同时,速石科技还拥有完整的IT-CAD服务体系与专业能力,可满足GPU、DPU、MCU、存储控制器、Chiplet、显示控制、存算一体芯片、GNSS、AI自动驾驶、光子计算等全类型半导体客户的个性化需求,目前已助力上百家半导体企业大幅度缩短产品开发周期,实现快速降本增效。