英特尔Gaudi2：加速GPT-4详细参数分析

智能计算芯世界 2023-07-28 07:40 1128浏览 0评论 0点赞

破解工业通信时延困局 一键掌控复杂射频环境的秘密武器

在2023 人工智能大会上，据统计，有 24 款大模型新品在大会上发布或升级，发布主体不仅包括互联网龙头企业，也包括移动联通等运营商、创业公司及各大高校。

与国内大模型产品相比，chatGPT 效果依然最优。根据 InfoQ 数据显示，chatGPT 在大模型产品测评中分数最高，综合得分率为 77.13%，国内大模型产品文心一言正迅速追赶，在国内大语言模型中位列第一。

介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容，对大模型及 GPU 生态进行探讨和展望。英特尔发布高性价比Gaudi2加速卡GPT4详细参数分析。

在这一背景下，市场普遍认为 GPT-4 的模型架构、基础设施、参数设计等具有一定程度的领先。由于官方并未公布 GPT-4 的详细参数，业内人士对 GPT-4 的详细参数进行了推断.

参数量：GPT-4 的大小是 GPT-3 的 10 倍以上，包含 1.8 万亿个参数；

混合专家模型：OpenAI 使用混合专家（MoE）模型，依此保持相应的成本。混合专家模型使用了 16 个专家模型，每个模型大约有 111B 个参数，每次计算将其中两个专家模型通过前向传递的方式将结果进行反馈；

数据集：GPT-4 的训练数据集将多个 epoch 中的 token 计算在内包含约 13万亿个 token；

推理：相较于纯密集模型每次前向传递需要大约 1.8 万亿个参数和约 3700TFLOP 的计算量，GPT-4 每次前向传递（生成 1 个 token）仅利用约 2800 亿个参数和约 560 TFLOP 的计算量；

并行策略：为了在所有 A100 GPU 上进行并行计算，GPT-4 采用了 8 路张量并行，因为这是 NVLink 的极限。除此之外，GPT-4 采用了 15 路流水线并行；

训练成本：OpenAI 在 GPT-4 的训练中使用了大约 2.15e25 的 FLOPS，使用了约 25,000 个 A100 GPU，训练了 90 到 100 天，利用率（MFU）约为32% 至 36%。假定云端的每个 A100 GPU 的成本大约为每小时 1 美元，那么单次训练的成本将达到约 6300 万美元，如果使用约 8192 个 H100 GPU进行预训练，用时约为 55 天左右，成本为 2150 万美元，每个 H100 GPU的计费标准为每小时 2 美元；

推理成本：GPT-4 的推理成本是 1750 亿参数模型的 3 倍，这主要是因为GPT-4 的集群规模更大，并且利用率很低。根据测算，在用 128 个 A100GPU 进行推理的情况下，8k 版本 GPT-4 推理的成本为每 1,000 个 token0.0049 美分。如果使用 128 个 H100 GPU 进行推理，同样的 8k 版本 GPT-4推理成本为每 1,000 个 token 0.0021 美分；

推理架构：推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行（tensor parallelism）和16 路流水线并行（pipeline parallelism）。

视觉多模态：独立于文本编码器的视觉编码器，二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数，经过了纯文本的预训练之后，又新增了约 2 万亿个 token 的微调。

由于大模型训练成本较高，性价比问题凸显。7 月 11 日，Intel 面向国内提出了新的解决方案，推出了第二代 Gaudi 深度学习加速器 Habana Gaudi2。Gaudi2深度学习以第一代 Gaudi 高性能架构为基础，多方位性能与能效比提升，加速高性能大语言模型运行。该加速器具备以下性能：

24 个可编程 Tensor 处理器核心（TPCs）；

21 个 100Gbps（RoCEv2）以太网接口；

96GB HBM2E 内存容量；

2.4TB/秒的总内存带宽；

48MB 片上 SRAM；

集成多媒体处理引擎。

Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerfTraining 3.0 基准测试上表现优异。

在大语言模型 GPT-3 的评测上，Gaudi2 也展示了其较优的性能。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一（另一个是英伟达H100）。在 GPT-3 的训练上，英特尔使用 384 块 Gaudi 2 加速器使用 311 分钟训练完成，在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95%的扩展。

目前，已有部分厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中，英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供，打造并发售基于 Gaudi2深度学习加速器的浪潮信息 AI 服务器 NF5698G7。其服务器集成了 8 块 Gaudi2加速卡 HL-225B，还包含两颗第四代英特尔至强可扩展处理器。

下载链接：

310份重磅ChatGPT专业报告（全网最全）

《人工智能AI大模型技术合集》

《70份GPU技术及白皮书汇总》

《70+篇半导体行业“研究框架”合集》

大模型对企业数智化升级与业务经营的影响与应对（2023）

英特尔发布高性价比Gaudi2加速卡GPT4详细参数分析

2023年中国信创产业研究报告

多领域（GPU CPU）散热材料工艺发展历史及路径演绎

AI围绕算力产业、国产化替代、复苏主线布局

CPU和GPU：异构计算的演进及发展

液冷技术要点汇总

《数据中心液冷技术合集（2023）》

1、电信运营商液冷技术白皮书（2023）

2、浸没式液冷数据中心运维白皮书

3、运营商力推液冷，中兴液冷技术领先（2023）

《2023年液冷技术白皮书汇总》

1、浸没式液冷数据中心热回收白皮书（2023） 2、数据中心绿色设计白皮书（2023）

《数据中心液冷技术合集》

1、集装箱冷板式液冷数据中心技术规范

2、浸没式液冷发展迅速，“巨芯冷却液”实现国产突破

3、两相浸没式液冷—系统制造的理想实践

4、AIGC加速芯片级液冷散热市场爆发

《液冷技术专题》

1、中国液冷数据中心发展白皮书

2、全浸没式液冷数据中心解决方案

3、浸没液冷数据中心规范

4、喷淋式直接液冷数据中心设计规范

5、单相浸没式直接液冷数据中心设计规范

《液冷服务器技术合集》

1、某液冷服务器性能测试台的液冷系统设计

2、浸没液冷服务器可靠性白皮书

3、天蝎5.0浸没式液冷整机柜技术规范

AI芯片、服务器、边缘域和Chiplet共舞（2023）

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1642篇粉丝：206人

关注  私信

英特尔Gaudi2：加速GPT-4详细参数分析

最近文章

热门文章

推荐

最新资讯