国内AI算力产业现状盘点（2024）

智能计算芯世界 2024-03-29 07:41

【应用手册】TI 全新MCU及C29内核的能源设施应用方案 【免注册下载】创新MCU提升高压系统的实时性能

本文来自“国产AI算力行业报告：浪潮汹涌，势不可挡（2024）”，相比于 GPT-3.5 是一个千亿参数模型，GPT-4 是拥有万亿规模参数，国内大模型厂商如果想追赶，需要各个维度要求都上一个台阶。

阶跃星辰发布了万亿参数大模型预览版，标志着国产 AI 大模型取得了巨大进步。国产 AI 大模型正在不断迭代，对算力需求会不断提升。

下载链接：

国产AI算力行业报告：浪潮汹涌，势不可挡（2024）

AI系列之HBM：AI硬件核心，需求爆发增长

2024中国“百模大战”竞争格局分析报告(2024）

2024年中国虚拟现实（VR）行业研究报告

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

英伟达官宣新一代Blackwell架构，华为算力GPU需求破百万片

《人工智能技术行业应用图谱合集》

1、中国电信业人工智能行业应用发展图谱(2024) 2、中国汽车业人工智能行业应用发展图谱（2024）

网络大模型十大问题白皮书（2024）

大视研究：中国人工智能（AI）2024各行业应用研究报告

1. 算力有哪些核心指标？

算力芯片的主要参数指标为算力浮点数，显存，显存带宽，功耗和互连技术等。

算力浮点数：算力最基本的计量单位是 FLOPS，即每秒执行的浮点运算次数。算力可分为双精度(FP64)，单精度(FP32)，半精度(FP16)和 INT8。FP64 计算多用于对计算精确度要求较高的场景，例如科学计算、物理仿真等；FP32 计算多用于大模型训练等场景；FP16 和 INT8 多用于模型推理等对精度要求较低的场景。

GPU 显存：显存用于存放模型，数据显存越大，所能运行的网络也就越大。

在预训练阶段，大模型通常选择较大规模的数据集获取泛化能力，因此需要较大的批次等来保证模型的训练强大。而模型的权重也是从头开始计算，因此通常也会选择高精度（如 32 位浮点数）进行训练。需要消耗大量的 GPU 显存资源。

在微调阶段，通常会冻结大部分参数，只训练小部分参数。同时，也会选择非常多的优化技术和较少的高质量数据集来提高微调效果，此时，由于模型已经在预训练阶段进行了大量的训练，微调时的数值误差对模型的影响通常较小。也常常选择 16 位精度训练。因此通常比预训练阶段消耗更低的显存资源。

在推理阶段，通常只是将一个输入数据经过模型的前向计算得到结果即可，因此需要最少的显存即可运行。

显存带宽：是运算单元和显存之间的通信速率，越大越好。

互连技术：一般用于显存之间的通信，分布式训练，无论是模型并行还是数据并行，GPU 之间都需要快速通信，不然就是性能的瓶颈。

2. 国产算力和海外的差距

从单芯片能力看，训练产品与英伟达仍有 1-2 代硬件差距。根据科大讯飞，华为昇腾 910B 能力已经基本做到可对标英伟达 A100。推理产品距离海外差距相对较小。

从片间互联看，片间和系统间互联能力较弱。国产 AI 芯片以免费 CCIX 为主，生态不完整，缺少实用案例，无 NV-Link 类似的协议。大规模部署稳定性和规模性距离海外仍有较大差距。

从生态看，大模型多数需要在专有框架下才能发挥性能，软件生态差距明显，移植灵活性，产品易用性与客户预期差距较大。客户如果使用国产 AI 芯片，需要额外付出成本。

从研发能力看，产品研发能力（设计与制程），核心 IP（HBM，接口等）等不足，阻碍了硬件的性能提升。

3. 国产化和生态抉择

海外制裁后，AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。

2024 年 3 月 22 日，上海市通信管理局等 11 个部门联合印发《上海市智能算力基础设施高质量发展 “算力浦江”智算行动实施方案（2024-2025 年）》。到 2025 年，上海市市新建智算中心国产算力芯片使用占比超过 50%，国产存储使用占比超过 50%，服务具有国际影响力的通用及垂直行业大模型设计应用企业超过 10 家。

但国产 AI 芯片由于生态、稳定性、算力等问题，目前较多用于推理环节，少数用于训练。如用于训练，则需花费较多人员进行技术服务，额外投入资源较大。

华为与讯飞构建昇腾万卡集群。2023 年 10 月 24 日，科大讯飞携手华为，宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。1 月 30 日，讯飞星火步履不停，基于“飞星一号”，启动了对标 GPT-4 的更大参数规模的大模型训练。

4. 国内 AI 算力市场空间

IDC 报告预计，2023 年中国人工智能服务器市场规模将达 91 亿美元，同比增长82.5％，2027 年将达到 134 亿美元，2022-2027 年年复合增长率达 21.8％。

算力需求市场空间巨大。在英伟达 GTC 大会上，黄仁勋讲到，如果要训练一个 1.8万亿参数量的 GPT 模型，需要 8000 张 Hopper GPU，消耗 15 兆瓦的电力，连续跑上 90天。如果中国有十家大模型公司，则需要 8 万张 H100 GPU。我们预计，推理算力需求将是训练的数倍，高达几十万张 H100。随着模型继续迭代，算力需求只会越来越大。

算力服务器液冷技术是一种采用液体作为散热介质的冷却方式。算力服务器液冷技术主要分为冷板式、浸没式和喷淋式三种。冷板式液冷目前行业成熟度最高，2023 上半年，中国液冷服务器市场中，冷板式占到了 90%。

两大催化推动算力液冷产业加速发展：1） AI 的快速发展，GPU 成为未来数据中心建设的主要方向。GPU 功耗显著高于 CPU，且提升速度逐步加快。3 月 19 日，GTC大会英伟达提出 GB200 使用液冷方案，其中 GB200 NVL72 服务器提供 36 个 CPU 和72 个 Blackwell GPU，并使用一体水冷散热方案，全部采用液冷 MGX 封装技术，成本和能耗降低 25 倍。2）国家政策对数据中心 PUE 建设要求越来越高。液冷技术是降低制冷系统能耗的主要技术手段。

下载链接：

服务器行业深度报告：AI和“东数西算”双轮驱动，服务器再起航

AI时代的3D内容生产工具

复盘与未来推演（AI应用）：追本溯源之后，我们相信什么？

深度研究：量子计算：人工智能与新质生产力的“未来引擎”

多模态，AI大模型新一轮革命

2024前沿人工智能安全的最佳实践

人工智能大模型工业应用准确性测评

2024 AI智算产业趋势展望分析报告

边缘智能：铺平人工智能的“最后一公里”

泛半导体产业黑灯工厂发展研究洞察白皮书

PCIe标准的演进和测试要求

《英伟达GTC 2024技术汇总》

1、英伟达GTC 2024主题演讲：见证AI的变革时刻 2、展望GTC变革，共享AI盛宴 3、英伟达GTC专题：新一代GPU、具身智能和AI应用

英伟达GTC专题：新一代GPU、具身智能和AI应用（精华）

2024年策略：AI鼎新，与时偕行

人工智能生成图像的危害分析与网络真实性保护（2024）

家庭大脑白皮书（2024）：大模型时代智慧家庭应用新范式

《半导体行业深度报告合集（2024）》

《人形机器人专题》

《70+篇半导体行业“研究框架”合集》

500+份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》

《56份GPU技术及白皮书汇总》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1558篇粉丝：199人

 私信

国内AI算力产业现状盘点（2024）

最近文章

热门文章

推荐

最新资讯