英伟达L40SGPU架构及A100、H100对比

智能计算芯世界 2023-08-20 07:40

在SIGGRAPH 2023上,NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节,有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。来源参考“英伟达发布L40S GPU,中高速光模块或将受益”。

L40S基于Ada Lovelace架构,配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下,可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据,在微调(Fine-tune)和推理场景的测试用例下,L40S 的计算效率较 A100 均有所提高。

相比于 A100 GPU,L40S 在显存、算力等多方面有所差异:

(1)L40S采用较为成熟的GDDR6显存,相比A100与H100使用的 HBM 显存,在显存带宽上有所降低,但技术更成熟,市场供应较为充足。

(2)L40S 在 FP16 算力(智能算力)上较 A100 有所提高,在 FP32 算力(通用算力)上较 A100 提高明显,更适应科学计算等场景。

(3)L40S 在功率上较 A100 有所降低,有利于降低数据中心相关能耗。

(4)根据 Super Micro 的数据,L40S 在性价比上较 A100 更有优势。

与A100 类似,L40S 通过 16 通道的 PCIe Gen 4 接口与 CPU进行通信,最大双向传输速率为 64 GB/s。相比之下,NVIDIAGrace Hopper 通过 NVLink-C2C 技术将 Hopper 架构的 GPU 与Grace 架构的 CPU 相连,在 CPU 到 GPU、GPU 到 GPU 间实现900 GB/s 的总带宽,较 PCIe Gen 5 快 7 倍。

基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 PetaFLOPS的张量处理能力。


对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。


此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。


对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。


在L40S GPU的加持下,英伟达还针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布,对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调;对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。


L40S = 两个L40 用准先进封装(非CoWoS),利好国内先进封装,毕竟高端2.5D~3D不行,给国内2.2D封装指了一条明路,面对日益高涨的AI需求,分析与判断如下:
(1)由于PCIe Gen4接口的限制,L40S在GPU网络计算上的应用有所限制,因此对目前800G光模块的需求量影响有限。
(2)相较于A100,L40S在部分面向生成式人工智能模型的应用场景下有计算效率上的优势,且更具性价比。
(3)相较于A100,L40S使用GDDR6等相对成熟技术,有助于确保上游供应的稳定。
(4)L40S的前述优势可能促使下游云厂商加大采购,或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。
下载链接:
英伟达发布L40S GPU,中高速光模块或将受益
龙芯CPU技术研究报告合集
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
1、海光信息:国产巨无霸,引领“中国芯” 
2、国产CPU厂商领军者,进入快速增长期 
3、国产CPU领军,加速突破高端市场 
4、国产CPU领军,受益于行业信创加速,成长空间广阔 
5、国产高端处理器龙头,CPU+DCU齐赋能 
6、国产微处理器产业的领军者"
《海光CPU+DCU技术研究报告合集(下)》 
1、达梦与海光:聚焦信创新股中的软硬龙头 
2、计算机行业深度报告:曙光很近,海光不远,国产x86算力生态崛起 
3、进击的国产CPU和GPU领航者 
4、信创硬件龙头 
5、行业信创龙头,国产 CPU 之光 
6、专注服务器与数据中心,高端处理器企业乘风国产替代
中国AIGC产业全景报告
AIGC算力全景与趋势报告
半导体行业数字化转型解决方案手册
2023中国AI商业落地价值研究报告
2023中国AIGC商业潜力研究报告
人机共生:大模型时代的AI十大趋势观察
AIGC行业趋势:大模型趋于分化,关注应用场景落地

《AIGC行业深度报告系列合集》

375+份重磅ChatGPT专业报告(全网最全)
GPU研究框架(2023)
NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
多领域(GPU CPU)散热材料工艺发展历史及路径演绎
AI围绕算力产业、国产化替代、复苏主线布局
CPU和GPU:异构计算的演进及发展
70份GPU技术及白皮书汇总
新型GPU云桌面发展白皮书(2023)
GPU原理及在云桌面中的应用
兆芯CPU+GPU技术路线解读
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
GPU技术专题汇总链接
深度报告:GPU研究框架
CPU和GPU研究框架合集


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  •         信创产业含义的“信息技术应用创新”一词,最早公开信息见于2019年3月26日,在江苏南京召开的信息技术应用创新研讨会。本次大会主办单位为江苏省工业和信息化厅和中国电子工业标准化技术协会安全可靠工作委员会。        2019年5月16日,美国将华为列入实体清单,在未获得美国商务部许可的情况下,美国企业将无法向华为供应产品。       2019年6
    天涯书生 2025-05-11 10:41 142浏览
  •   基于 2025 年行业权威性与时效性,以下梳理国内知名软件定制开发企业,涵盖综合型、垂直领域及特色技术服务商:   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转型、新能源软件、光伏软件、汽车软件,ERP,系统二次开发,CRM等领域有很多成功案例。   五木恒润科技有限公司:是一家专业的部队信
    华盛恒辉l58ll334744 2025-05-12 16:13 129浏览
  •   定制软件开发公司推荐清单   在企业数字化转型加速的2025年,定制软件开发需求愈发多元复杂。不同行业、技术偏好与服务模式的企业,对开发公司的要求大相径庭。以下从技术赛道、服务模式及行业场景出发,为您提供适配的定制软件开发公司推荐及选择建议。   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转
    华盛恒辉l58ll334744 2025-05-12 15:55 163浏览
  • 【拆解】+CamFi卡菲单反无线传输器拆解 对于单反爱好者,想要通过远程控制自拍怎么办呢。一个远程连接,远程控制相机拍摄的工具再合适不过了。今天给大伙介绍的是CamFi卡菲单反无线传输器。 CamFi 是专为数码单反相机打造的无线传输控制器,自带的 WiFi 功能(无需手机流量),不但可通过手机、平板、电脑等设备远程连接操作单反相机进行拍摄,而且还可实时传输相机拍摄的照片到 iPad 和电视等大屏设备进行查看和分享。 CamFi 支持大部分佳能和尼康单反相机,内置可充电锂离子电池,无需相机供电。
    zhusx123 2025-05-11 14:14 126浏览
  • 【拆解】+自动喷香机拆解 家里之前买了从PDD买了一个小型自动喷香机放在厕所里。来增加家里的温馨感,这东西看着确实小巧,精致。可是这东西吧,耗电就是快,没过几天就没电了。今个就让我拆开看看什么在捣鬼。如下是产品的实物和宣传图: 由于螺丝孔太小和限位很深。对于我的螺丝刀套装没用。只能使用那种螺丝刀细头,同时又长的小螺丝刀进行拆解 拧下三颗螺丝钉,用一字螺丝刀撬开外壳,内部结构就呈现在眼前。 内部构造相当简单,部件没多少。就是锂电池供电,通过MCU实现按键控制,段码屏控制,LE
    zhusx123 2025-05-10 19:55 85浏览
  • ‌磁光克尔效应(Magneto-Optic Kerr Effect, MOKE)‌ 是指当线偏振光入射到磁性材料表面并反射后,其偏振状态(偏振面旋转角度和椭偏率)因材料的磁化强度或方向发生改变的现象。具体表现为:1、‌偏振面旋转‌:反射光的偏振方向相对于入射光发生偏转(克尔旋转角 θK)。2、‌椭偏率变化‌:反射光由线偏振变为椭圆偏振(克尔椭偏率 εK)。这一效应直接关联材料的磁化状态,是表征磁性材料(如铁磁体、反铁磁体)磁学性质的重要非接触式光学探测手段,广泛用于
    锦正茂科技 2025-05-12 11:02 147浏览
  • 在 AI 浪潮席卷下,厨电行业正经历着深刻变革。AWE 2025期间,万得厨对外首次发布了wan AiOS 1.0组织体超智能系统——通过AI技术能够帮助全球家庭实现从健康检测、膳食推荐,到食材即时配送,再到一步烹饪、营养总结的个性化健康膳食管理。这一创新之举并非偶然的个案,而是整个厨电行业大步迈向智能化、数字化转型浪潮的一个关键注脚,折射出全行业对 AI 赋能的热切渴求。前有标兵后有追兵,万得厨面临着高昂的研发成本与技术迭代压力,稍有懈怠便可能被后来者赶
    用户1742991715177 2025-05-11 22:44 85浏览
  • 递交招股书近一年后,曹操出行 IPO 进程终于迎来关键节点。从 2024 年 4 月首次递表,到 2025 年 4 月顺利通过中国证监会境外发行上市备案,并迅速更新招股书。而通过上市备案也标志着其赴港IPO进程进入实质性推进阶段,曹操出行最快有望于2025年内完成港股上市,成为李书福商业版图中又一关键落子。行路至此,曹操出行面临的挑战依然不容忽视。当下的网约车赛道,早已不是当年群雄逐鹿的草莽时代,市场渐趋饱和,竞争近乎白热化。曹操出行此时冲刺上市,既是背水一战,也是谋篇布局。其招股书中披露的资金
    用户1742991715177 2025-05-10 21:18 66浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 184浏览
  • 体积大小:14*11*2.6CM,电气参数:输入100V-240V/10A,输出16V24A。PCB 正面如下图。PCB 背面如下图。根据实际功能可以将PCB分成几部分:EMI滤波,PFC电路,LLC电路。EMI滤波区域,两级共模电感,LN各用了保险丝加压敏电阻,继电器(HF32FV-G)用来切除NTC的,为了提高效率点,如下图。PFC电路区域,如下图。LLC电路区域,如下图。详细分析一下该电源用的主要IC还有功率器件。AC侧采用了两颗整流桥进行并联,器件增加电流应力,如下图。共模电感都有放电针
    liweicheng 2025-05-10 20:03 49浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦