大模型训练,绕不开GPU和英伟达

智能计算芯世界 2023-04-14 07:48

大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU即通用GPU,能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内,GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构设计时去掉了 GPU 为了图形处理而设计的加速硬件单元,保留了 GPU 的 SIMT架构和通用计算单元,通过 GPU 多条流水线的并行计算来实现大量计算。

所以基于 GPU 的图形任务无法直接运行在 GPGPU 上,但对于科学计算,AI 训练、推理任务(主要是矩阵运算)等通用计算类型的任务仍然保留了 GPU 的优势,即高效的搬运和运算有海量数据的重复性任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

本文来源于“AI算力产业链梳理:技术迭代突破瓶颈,AIGC场景驱动算力需求提升”。

下载链接:
AI算力产业链梳理:技术迭代突破瓶颈,AIGC场景驱动算力需求提升
《70+篇半导体行业“研究框架”合集》
203份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》
《AIGC政策、安全和未来发展》
1、网信办发文,高度重视AIGC安全
2、规范性政策或促进AIGC产业长期健康发展
《46份智能网卡和DPU合集》
医疗AI产业:AI大模型+医疗龙头公司
商汤日日新大模型发布,目标瞄准AGI时代
以昇思为基,盘古生态引领中国AI未来
周鸿祎:AI引领新工业革命
阿里通义千问重磅发布,生态入口优势有望落地全域智能
专用处理器比较分析(2022)
AI芯片专利技术研发态势


随着超算等高并发性计算的需求不断提升,英伟达以推动 GPU 从专用计算芯片走向通用计算处理器为目标推出了GPGPU,并于 2006 年前瞻性发布并行编程模型 CUDA,以及对应工业标准的 OpenCL。CUDA 是英伟达的一种通用并行计算平台和编程模型,它通过利用图形处理器 (GPU)的处理能力,可大幅提升计算性能。CUDA 使英伟达的 GPU 能够执行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他语言编写的程序。在 CUDA 问世之前,对 GPU 编程必须要编写大量的底层语言代码;CUDA 可以让普通程序员可以利用 C 语言、C++等为 CUDA 架构编写程序在 GPU平台上进行大规模并行计算,在全球 GPGPU 开发市场占比已超过 80%。GPGPU 与 CUDA 组成的软硬件底座,构成了英伟达引领 AI 计算及数据中心领域的根基。

GPU 架构升级过程计算能力不断强化,Hopper 架构适用于高性能计算(HPC)和 AI 工作负载。英伟达在架构设计上,不断加强 GPU 的计算能力和能源效率。在英伟达 GPU 架构的演变中,从最先 Tesla 架构,分别经过 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至发展为今天的 Hopper 架构。

以 Pascal 架构为分界点,自 2016 年后英伟达逐步开始向深度学习方向演进。根据英伟达官网,Pascal 架构,与上一代 Maxwell 相比,神经网络训练速度提高 12 倍多,并将深度学习推理吞吐量提升了 7 倍。

Volta 架构,配备 640 个 Tensor 内核增强性能,可提供每秒超过 100 万亿次(TFLOPS)的深度学习性能,是上一代 Pascal 架构的 5 倍以上。

Turing 架构,配备全新 Tensor Core,每秒可提供高达 500 万亿次的张量运算。

Ampere 架构,采用全新精度标准 Tensor Float 32(TF32),无需更改任何程序代码即可将AI 训练速度提升至 20 倍。

最新 Hopper 架构是第一个真正异构加速平台,采用台积电 4nm 工艺,拥有超 800 亿晶体管,主要由 Hopper GPU、Grace CPU、NVLINK C2C 互联和 NVSwitch 交换芯片组成,根据英伟达官网介绍,其性能相较于上一代 Megatron 530B 拥有 30 倍 AI 推理速度的提升。

AMD 数据中心领域布局全面,形成 CPU+GPU+FPGA+DPU 产品矩阵。与英伟达相比,AMD 在服务器端 CPU 业务表现较好,根据 Passmark 数据显示,2021 年 Q4 AMD EPYC 霄龙系列在英特尔垄断下有所增长,占全球服务器 CPU 市场的 6%。依据 CPU 业务的优势,AMD 在研发 GPGPU 产品时推出 Infinity Fabric 技术,将 EPYC 霄龙系列 CPU 与 Instinct MI 系列 GPU 直接相连,实现一致的高速缓存,形成协同效应。此外,AMD 分别于 2022 年 2 月、4 月收购 Xilinx 和Pensando,补齐 FPGA 与 DPU 短板,全面进军数据中心领域。

软件方面,AMD 推出 ROCm 平台打造 CDNA 架构,但无法替代英伟达 CUDA 生态。AMD 最新的面向 GPGPU 架构为 CDNA 系列架构,CDNA 架构使用 ROCm 自主生态进行编写。AMD 的 ROCm 生态采取 HIP 编程模型,但 HIP 与 CUDA 的编程语法极为相似,开发者可以模仿 CUDA 的编程方式为 AMD 的 GPU 产品编程,从而在源代码层面上兼容 CUDA。所以从本质上来看,ROCm 生态只是借用了 CUDA 的技术,无法真正替代 CUDA 产生壁垒。

软硬件共同布局形成生态系统,造就英伟达核心技术壁垒。

硬件端:基于 GPU、DPU 和 CPU 构建英伟达加速计算平台生态:

1)主要产品 Tesla GPU 系列迭代速度快,从 2008 年至 2022 年,先后推出 8 种 GPU 架构,平均两年多推出新架构,半年推出新产品。超快的迭代速度使英伟达的 GPU 性能走在 AI 芯片行业前沿,引领人工智能计算领域发生变革。

2)DPU 方面,英伟达于 2019 年战略性收购以色列超算以太网公司 Mellanox,利用其InfiniBand(无限带宽)技术设计出 Bluefield 系列 DPU 芯片,弥补其生态在数据交互方面的不足。InfiniBand 与以太网相同,是一种计算机网络通信标准,但它具有极高的吞吐量和极低的延迟,通常用于超级计算机的互联。英伟达的 Bluefield DPU 芯片可用于分担 CPU 的网络连接算力需求,从而提高云数据中心的效率,降低运营成本。

3)CPU 方面,自主设计 Grace CPU 并推出 Grace Hopper 超级芯片,解决内存带宽瓶颈问题。采用 x86 CPU 的传统数据中心会受到 PCIe 总线规格的限制,CPU 到 GPU 的带宽较小,算效率受到影响;而 Grace Hopper 超级芯片提供自研 Grace CPU+GPU 相结合的一致内存模型,从而可以使用英伟达 NVLink-C2C 技术快速传输,其带宽是第 5 代 PCIe 带宽的 7 倍,极大提高了数据中心的运行性能。

相较于 A100 GPU,H100 性能再次大幅提升。在 H100 配备第四代 Tensor Core 和 Transformer引擎(FP8 精度),同上一代 A100 相比,AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先进的 4nm 工艺,H100 使用双精度 Tensor Core 的 FLOPS 提升 3 倍。

在算力需求快速增长的进程中,国产 GPU 正面临机遇与挑战并存的局面。目前,国产 GPU 厂商的核心架构多为自研,难度极高,需投入海量资金以及高昂的人力和时间成本。由于我国 GPU 行业起步较晚,缺乏相应生态,目前同国际一流厂商仍存在较大差距。在中美摩擦加剧、经济全球化逆行的背景下,以海光信息、天数智芯、壁仞科技和摩尔线程等为代表的国内 GPU 厂商进展迅速,国产 GPU 自主可控未来可期。

以Open AI的算力基础设施为例,芯片层面 GPGPU 的需求最为直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服务器市场的扩容,同步带动高速网卡、HBM、DRAM、NAND、PCB 等需求提升。
下载链接:
走进芯时代(60):AI算力GPU,AI产业化再加速,智能大时代已开启
走进芯时代(58):高性能模拟替代渐入深水区,工业汽车重点突破
走进芯时代(57):算力大时代,处理器SOC厂商综合对比
走进芯时代(49):“AI芯片”,AI领强算力时代,GPU启新场景落地
走进芯时代(46):“新能源芯”,乘碳中和之风,基础元件腾飞
走进芯时代(43):显示驱动芯—面板国产化最后一公里
走进芯时代(40):半导体设备,再迎黄金时代
GPU研究框架(2023)
SOC芯片研究框架(2022)
信创研究专题框架
从软件算法生态看GPU发展与局限
NVIDIA GPU架构白皮书
1、NVIDIA A100 Tensor Core GPU技术白皮书
2、NVIDIA Kepler GK110-GK210架构白皮书
3、NVIDIA Kepler GK110-GK210架构白皮书
4、NVIDIA Kepler GK110架构白皮书
5、NVIDIA Tesla P100技术白皮书
6、NVIDIA Tesla V100 GPU架构白皮书
7、英伟达Turing GPU 架构白皮书
GPU技术专题下载链接
深度报告:GPU研究框架
CPU和GPU研究框架合集
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“小程序链接”即可查看182页 PPT可编辑版本和PDF阅读版本详情。

服务器基础知识全解PPT(终极版)

服务器基础知识全解PDF(终极版)


温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 117浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 128浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 133浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 85浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 79浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 122浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 58浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 84浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 170浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 154浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 66浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 63浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 71浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 124浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 115浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦