本文来自“国产AI算力行业报告:浪潮汹涌,势不可挡(2024)”,相比于 GPT-3.5 是一个千亿参数模型,GPT-4 是拥有万亿规模参数,国内大模型厂商如果想追赶,需要各个维度要求都上一个台阶。
阶跃星辰发布了万亿参数大模型预览版,标志着国产 AI 大模型取得了巨大进步。国产 AI 大模型正在不断迭代,对算力需求会不断提升。
下载链接:
AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
大视研究:中国人工智能(AI)2024各行业应用研究报告
1. 算力有哪些核心指标?
算力芯片的主要参数指标为算力浮点数,显存,显存带宽,功耗和互连技术等。
算力浮点数:算力最基本的计量单位是 FLOPS,即每秒执行的浮点运算次数。算力可分为双精度(FP64),单精度(FP32),半精度(FP16)和 INT8。FP64 计算多用于对计算精确度要求较高的场景,例如科学计算、物理仿真等;FP32 计算多用于大模型训练等场景;FP16 和 INT8 多用于模型推理等对精度要求较低的场景。
GPU 显存:显存用于存放模型,数据显存越大,所能运行的网络也就越大。
在预训练阶段,大模型通常选择较大规模的数据集获取泛化能力,因此需要较大的批次等来保证模型的训练强大。而模型的权重也是从头开始计算,因此通常也会选择高精度(如 32 位浮点数)进行训练。需要消耗大量的 GPU 显存资源。
在微调阶段,通常会冻结大部分参数,只训练小部分参数。同时,也会选择非常多的优化技术和较少的高质量数据集来提高微调效果,此时,由于模型已经在预训练阶段进行了大量的训练,微调时的数值误差对模型的影响通常较小。也常常选择 16 位精度训练。因此通常比预训练阶段消耗更低的显存资源。
在推理阶段,通常只是将一个输入数据经过模型的前向计算得到结果即可,因此需要最少的显存即可运行。
显存带宽:是运算单元和显存之间的通信速率,越大越好。
互连技术:一般用于显存之间的通信,分布式训练,无论是模型并行还是数据并行,GPU 之间都需要快速通信,不然就是性能的瓶颈。
2. 国产算力和海外的差距
从单芯片能力看,训练产品与英伟达仍有 1-2 代硬件差距。根据科大讯飞,华为昇腾 910B 能力已经基本做到可对标英伟达 A100。推理产品距离海外差距相对较小。
从片间互联看,片间和系统间互联能力较弱。国产 AI 芯片以免费 CCIX 为主,生态不完整,缺少实用案例,无 NV-Link 类似的协议。大规模部署稳定性和规模性距离海外仍有较大差距。
从生态看,大模型多数需要在专有框架下才能发挥性能,软件生态差距明显,移植灵活性,产品易用性与客户预期差距较大。客户如果使用国产 AI 芯片,需要额外付出成本。
从研发能力看,产品研发能力(设计与制程),核心 IP(HBM,接口等)等不足,阻碍了硬件的性能提升。
3. 国产化和生态抉择
海外制裁后,AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。
2024 年 3 月 22 日,上海市通信管理局等 11 个部门联合印发《上海市智能算力基础设施高质量发展 “算力浦江”智算行动实施方案(2024-2025 年)》。到 2025 年,上海市市新建智算中心国产算力芯片使用占比超过 50%,国产存储使用占比超过 50%,服务具有国际影响力的通用及垂直行业大模型设计应用企业超过 10 家。
但国产 AI 芯片由于生态、稳定性、算力等问题,目前较多用于推理环节,少数用于训练。如用于训练,则需花费较多人员进行技术服务,额外投入资源较大。
华为与讯飞构建昇腾万卡集群。2023 年 10 月 24 日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。1 月 30 日,讯飞星火步履不停,基于“飞星一号”,启动了对标 GPT-4 的更大参数规模的大模型训练。
4. 国内 AI 算力市场空间
IDC 报告预计,2023 年中国人工智能服务器市场规模将达 91 亿美元,同比增长82.5%,2027 年将达到 134 亿美元,2022-2027 年年复合增长率达 21.8%。
算力需求市场空间巨大。在英伟达 GTC 大会上,黄仁勋讲到,如果要训练一个 1.8万亿参数量的 GPT 模型,需要 8000 张 Hopper GPU,消耗 15 兆瓦的电力,连续跑上 90天。如果中国有十家大模型公司,则需要 8 万张 H100 GPU。我们预计,推理算力需求将是训练的数倍,高达几十万张 H100。随着模型继续迭代,算力需求只会越来越大。
算力服务器液冷技术是一种采用液体作为散热介质的冷却方式。算力服务器液冷技术主要分为冷板式、浸没式和喷淋式三种。冷板式液冷目前行业成熟度最高,2023 上半年,中国液冷服务器市场中,冷板式占到了 90%。
下载链接:
服务器行业深度报告:AI和“东数西算”双轮驱动,服务器再起航
AI时代的3D内容生产工具
复盘与未来推演(AI应用):追本溯源之后,我们相信什么?
深度研究:量子计算:人工智能与新质生产力的“未来引擎”
多模态,AI大模型新一轮革命
2024前沿人工智能安全的最佳实践
人工智能大模型工业应用准确性测评
2024 AI智算产业趋势展望分析报告
边缘智能:铺平人工智能的“最后一公里”
泛半导体产业黑灯工厂发展研究洞察白皮书
PCIe标准的演进和测试要求
《英伟达GTC 2024技术汇总》
1、英伟达GTC 2024主题演讲:见证AI的变革时刻 2、展望GTC变革,共享AI盛宴 3、英伟达GTC专题:新一代GPU、具身智能和AI应用
英伟达GTC专题:新一代GPU、具身智能和AI应用(精华)
2024年策略:AI鼎新,与时偕行
人工智能生成图像的危害分析与网络真实性保护(2024)
家庭大脑白皮书(2024):大模型时代智慧家庭应用新范式
《半导体行业深度报告合集(2024)》
《70+篇半导体行业“研究框架”合集》
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。