英伟达L40SGPU架构及A100、H100对比

智能计算芯世界 2023-08-20 07:40 8958浏览 0评论 0点赞

汽车用卸负载电阻低价方案 热风险清零！西门子EDA黑科技，让3D IC散热设计稳如泰

在SIGGRAPH 2023上，NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节，有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。来源参考“英伟达发布L40S GPU，中高速光模块或将受益”。

L40S基于Ada Lovelace架构，配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下，可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据，在微调（Fine-tune）和推理场景的测试用例下，L40S 的计算效率较 A100 均有所提高。

相比于 A100 GPU，L40S 在显存、算力等多方面有所差异：

（1）L40S采用较为成熟的GDDR6显存，相比A100与H100使用的 HBM 显存，在显存带宽上有所降低，但技术更成熟，市场供应较为充足。

（2）L40S 在 FP16 算力（智能算力）上较 A100 有所提高，在 FP32 算力（通用算力）上较 A100 提高明显，更适应科学计算等场景。

（3）L40S 在功率上较 A100 有所降低，有利于降低数据中心相关能耗。

（4）根据 Super Micro 的数据，L40S 在性价比上较 A100 更有优势。

与A100 类似，L40S 通过 16 通道的 PCIe Gen 4 接口与 CPU进行通信，最大双向传输速率为 64 GB/s。相比之下，NVIDIAGrace Hopper 通过 NVLink-C2C 技术将 Hopper 架构的 GPU 与Grace 架构的 CPU 相连，在 CPU 到 GPU、GPU 到 GPU 间实现900 GB/s 的总带宽，较 PCIe Gen 5 快 7 倍。

基于Ada Lovelace架构的L40S，配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下，可以提供超过1.45 PetaFLOPS的张量处理能力。

对于算力要求较高的任务，L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点（FP32）性能，从而加速复杂计算和数据密集型分析。

此外，为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作，英伟达还为L40S 还配备了142个第三代RT核心，可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。

对于具有数十亿参数和多种模态的生成式AI工作负载，L40S相较于A100可实现高达1.2倍的推理性能提升，以及高达1.7倍的训练性能提升。

在L40S GPU的加持下，英伟达还针对数据中心市场，推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布，对于拥有8.6亿token的GPT3-40B模型，OVX服务器只需7个小时就能完成微调；对于Stable Diffusion XL模型，则可实现每分钟80张的图像生成。

L40S = 两个L40 用准先进封装（非CoWoS），利好国内先进封装，毕竟高端2.5D~3D不行，给国内2.2D封装指了一条明路，面对日益高涨的AI需求，分析与判断如下：

（1）由于PCIe Gen4接口的限制，L40S在GPU网络计算上的应用有所限制，因此对目前800G光模块的需求量影响有限。

（2）相较于A100，L40S在部分面向生成式人工智能模型的应用场景下有计算效率上的优势，且更具性价比。

（3）相较于A100，L40S使用GDDR6等相对成熟技术，有助于确保上游供应的稳定。

（4）L40S的前述优势可能促使下游云厂商加大采购，或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。

下载链接：

英伟达发布L40S GPU，中高速光模块或将受益

龙芯CPU技术研究报告合集

通用CPU性能基准测试研究综述（2023）

2023全球半导体与集成电路产业发展研究专题报告

中国智能汽车车载芯片发展研究报告

《海光CPU+DCU技术研究报告合集（上）》

1、海光信息：国产巨无霸，引领“中国芯”

2、国产CPU厂商领军者，进入快速增长期

3、国产CPU领军，加速突破高端市场

4、国产CPU领军，受益于行业信创加速，成长空间广阔

5、国产高端处理器龙头，CPU+DCU齐赋能

6、国产微处理器产业的领军者"

《海光CPU+DCU技术研究报告合集（下）》

1、达梦与海光：聚焦信创新股中的软硬龙头

2、计算机行业深度报告：曙光很近，海光不远，国产x86算力生态崛起

3、进击的国产CPU和GPU领航者

4、信创硬件龙头

5、行业信创龙头，国产 CPU 之光

6、专注服务器与数据中心，高端处理器企业乘风国产替代

中国AIGC产业全景报告

AIGC算力全景与趋势报告

半导体行业数字化转型解决方案手册

2023中国AI商业落地价值研究报告

2023中国AIGC商业潜力研究报告

人机共生：大模型时代的AI十大趋势观察

AIGC行业趋势：大模型趋于分化，关注应用场景落地

《AIGC行业深度报告系列合集》

375+份重磅ChatGPT专业报告（全网最全）

GPU研究框架（2023）

NVIDIA GPU架构白皮书

《NVIDIA A100 Tensor Core GPU技术白皮书》

《NVIDIA Kepler GK110-GK210架构白皮书》

《NVIDIA Kepler GK110架构白皮书》

《NVIDIA Tesla P100技术白皮书》

《NVIDIA Tesla V100 GPU架构白皮书》

《英伟达Turing GPU 架构白皮书》

多领域（GPU CPU）散热材料工艺发展历史及路径演绎

AI围绕算力产业、国产化替代、复苏主线布局

CPU和GPU：异构计算的演进及发展

70份GPU技术及白皮书汇总

新型GPU云桌面发展白皮书（2023）

GPU原理及在云桌面中的应用

兆芯CPU+GPU技术路线解读

AI算力行业深度：AI模型乘风起，GPU掌舵算力大时代

GPU技术专题汇总链接

深度报告：GPU研究框架

CPU和GPU研究框架合集

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1689篇粉丝：209人

关注  私信

英伟达L40SGPU架构及A100、H100对比

最近文章

热门文章

推荐

最新资讯