GPU能否在新计算机架构时代继续保持辉煌?

智能计算芯世界 2024-10-25 07:29
导读:在本文中,吕坚平博士从特定领域架构、GPU硬件/软件界面、通用计算资源池化、GPU中的3D张量加速度以及3D/AI融合等多个方面进行了系统的分析和阐述。推荐给大家。

2018年6月4日,John Hennessy 和 David Patterson以2017年图灵奖(被誉为“计算机界的诺贝尔奖”)的获得者身份发表了演讲《计算机架构新的黄金时代》。讲座有三个关键见解:

1、软件的进步将激发架构的创新。
2、硬件/软件界面的进化为架构创新创造了机会。
3、关于架构的争论最终将由市场需求解决。

我想再补充第四点,补全这个闭环:在竞争中的首选架构将促进后续的软件进化。
 
在Hennessy/Patterson演讲之后,我们发现市场几乎已经在AI 领域中实现了第三条见解 #3(关于架构的争论最终将由市场需求解决),并将图形处理单元(GPU)选为推动人工智能革命的“获胜”架构。在本文中,我将探讨AI革命是如何激发架构创新和重塑GPU的,我希望本文能够回答这个重要问题:GPU能否在计算机架构新的黄金时代继续保持辉煌?

01 特定领域架构


Henessy和Patterson提出了特定领域架构(DSA)的概念,旨在为计算机架构带来创新并努力迈向新的黄金时代。顾名思义,GPU是用于3D图形领域的 DSA。它的目标是在3D虚拟世界中渲染照片般逼真的图像;然而,几乎所有人工智能研究人员都使用 GPU 来探索超越3D 图形领域的概念,并在人工智能的“软件”,也就是神经网络架构方面取得了一系列的突破。GPU 在3D世界仍然是不可或缺的,它已成为人工智能世界的“CPU”,因为它促进了 AI 的软件创新。除了3D用途之外,GPU 架构师一直在努力将 GPU 的计算资源用于非3D用途。我们将这种设计理念称为通用 GPU,即GPGPU。
 
如今,我们看到越来越多的AI DSA取代GPGPU,试图用更好的性能来取代GPU。甚至GPU本身也在它的双重人格(即AI DSA和3D DSA)之间挣扎。原因是AI DSA需要加速张量运算,这在 AI 中是很常见的运算,但在 3D 世界中不是。与此同时,3D固定功能硬件对于AI来说似乎是多余的。
 
因此,关于架构争论的主要方向应集中在以下几个方面:

1、GPU 能否稳坐“AI世界CPU”的宝座?
2、GPU 是否会分成两种 DSA,一种用于AI,另一种用于3D?
 
我的预测如下:

1、GPU硬件/软件界面将继续使GPU成为“AI世界的CPU”。
2、基于 AI 的渲染会让张量加速成为GPU中的主流。
3、虚拟世界和现实世界互相映射的数字孪生理念将主导市场,最终解决架构争论。

02 GPU硬件/软件界面


我们可以将GPU在3D领域中的主导地位和在 AI 世界中取得的巨大成功归功于它的硬件 / 软件界面,GPU和3D图形软件架构师正努力采用这种界面。这种界面是解决以下悖论的关键。虽然 GPU 社区在继续优化 GPU 的通用性,但业界的其他人已转向更专业的硬件,以应对摩尔定律消退的困境。
 
GPU线程(图片来源:本文作者)
 
2.1 双层可编程性

理论上讲,GPU是处理阶段的长线程。不同类型的工作项在通过线程时被处理。在早期,每个处理阶段都是一个固定的功能块。程序员对GPU的唯一控制就是调整每个区间的参数。如今,GPU硬件/软件界面让程序员可以自由地处理每个工作项目,无论是顶点还是像素。没有必要在每个顶点或像素回圈中处理回圈头,因为GPU架构师在一个固定的函数中实现了它。这种架构选择让程序员有责任关注他们自己的回圈体,或“着色器”,这通常以工作项目的类型命名,如处理顶点的“顶点着色器”和处理像素的“像素着色器”。
 
现代游戏如何使用这种线性线程制作出令人惊叹的画面?除了通过线程一次控制不同类型的着色器,程序员可以逐步通过线程多次产生中间图像,最终产生在荧幕上看到的最终图像。程序员有效地创建一个计算图,描述中间图像之间的关系。图中的每个节点表示GPU线程的一次通过。
 
2.2 通用计算资源集成池

一个集成的通用计算资源池在处理阶段之间共享,完成繁重的工作。这种方案的最初动机是负载平衡;在不同的使用场景中,各个处理阶段的工作负载可能有很大的变化。计算资源,被称为着色器核心逐渐变得更具通用性,以实现灵活性和产品差异化。GPU架构师尝试将中央着色器池提供给非3D应用程序,如GPGPU。这种设计方案使GPU在兼职工作时也能在运行人工智能任务方面取得突破。
 
2.3 均衡的专业能力

GPU架构师通过在不改变硬件/软件界面的情况下添加协同处理单元,定期“加速”或“特殊优化”着色器池。纹理单元就是这样一个协处理单元,在纹理贴图中的纹理元素被提取并过滤到着色器池中。特殊函数单元(SFU)是负责执行超越数学函数的另一种协处理单元,处理对数、平方根倒数等函数。虽然这听起来很像CPU中的超标量设计,但它们有一个显著区别:GPU 架构师根据着色器程序使用协处理单元的“平均”频率来分配协处理单元的吞吐量。例如,我们可以为纹理单元提供着色器池吞吐量的八分之一,因为我们假设纹理操作出现在基准测试或游戏中的时间平均为八分之一。当协处理单元处于繁忙状态时,GPU会切换任务以让自己的资源被充分利用。

03 3D张量加速度


在前文中,我指出了GPU在3D用途中难以利用张量加速。让我们看看如果我们改变GPU 渲染典型游戏帧的方式,这种状况能否改变。GPU首先生成并存储所有必要的信息,以便为每个像素在G-buffer中着色。从 G-buffer中,我们会计算如何点亮一个像素,紧随其后的是几个处理步骤,包括:
 
1.去除锯齿边缘(抗锯齿(AA))
2.将低分辨率图像升级为高辨率图像(超分辨率(SR))
3.将整帧画面添加一些特定视觉效果,例如环境光遮蔽、运动模糊、布隆过滤器或景深等。
 
我们称这种渲染方案为延迟着色,因为对像素的着色是“延迟”的,直到每个像素都获得所需的信息后才开始。我们将光照之后的处理步骤称为后处理。今天,后处理消耗了大约 90% 的渲染时间,这意味着 GPU 的荧幕时间主要用在2D而非3D上!
 
NVIDIA已经为AA和SR演示了基于AI的DLSS 2.0,它声称可以生成比没有DLSS 2.0的原生渲染更好看的图像。此外,NVIDIA 还为光线追踪提供了基于 AI 的蒙特卡罗去噪算法,这样我们就可以使用很少的光线来实现原本需要更多光线才能做到的画面质量。另外,AI技术为其他许多后处理类型提供了一类新的解决方案,例如用于环境遮蔽的NNAO 和用于景深的 DeepLens。
 
如果基于AI的后处理成为主流,张量加速将成为GPU在3D用途上的支柱。GPU 分化为 3D DSA和AI DSA的可能性也会下降。

04 3D/AI融合


为了解决架构争论,我们需解决最后一个难题:我们最后是否应该移除3D渲染中的固定功能硬件,尤其是在用于 AI 用途时这样做?请注意,通过GPGPU, GPU可以作为纯“软件”来进行3D渲染,而不需要使用任何固定的功能硬件。
 
严格意义上讲,在给定场景参数的情况下,3D渲染模拟了光子如何从光源穿越空间传输到3D虚拟世界中与物体交互。GPU的传统3D渲染过程是这个过程的一个非常粗略的近似。因此,微软将光线追踪宣传为“未来的完整3D效果”时表示,“[基于传统光栅化的]3D图形是一个谎言”。然而,3D 渲染纯粹主义者可能仍然不会接受光线追踪技术,因为在光线追踪过程中,我们是将光线从像素向后追踪到 3D 虚拟世界来实现 3D 渲染的,这也是不真实的。
 
这两种方法都是基于模拟的3D渲染的近似方案。在两种方案下,我们都会将 3D 虚拟世界的建模,或者说内容创建与渲染分离开来。在第一种方案下,对 3D 虚拟世界建模需要工程师和艺术家进行大量艰苦而富有创造性的工作,以描述每个对象及其与光线交互的物理属性。在第二种方案下,通过渲染做到完全真实是不可能的,因为我们需要彻底简化3D渲染以在资源预算内满足多个性能目标。
 
相比使用最著名的科学知识和数学理论为给定问题寻找解决方案,人工智能方法是从数据中“学习”计算模型,或者说神经网络。我们通过反复试验迭代地调整网络参数。我们通过先前的参数估计向前运行网络并测量不匹配或“损失”。然后根据其梯度调整参数以减少损失,有效地引导损失景观向与梯度相反的方向移动。这种机制称为反向传播,要求沿着前向路径的所有计算都是可微的,以参与计算梯度。
 
神经渲染是一个新兴的人工智能研究领域,它使用上述方法来研究3D渲染。下面是我用来跟踪神经渲染进展的思维导图:
  


这个 3D 虚拟世界模型被隐含地表示为神经网络参数(参见 NeRF、GRAF、GIRAFFE),这些参数是我们通过比较真实世界的图像和我们从虚拟世界渲染的图像来推断的。然后我们反向传播比较梯度来调整神经网络参数。或者,我们可以从数据中学习显式 3D 网格(参见 DeepMarching Cube,GAN2Shape)。实际上,对 3D 虚拟世界建模与学习神经网络参数是一回事。这个过程要求我们在前向路径中包含一个 3D 渲染线程,并在紧密的回圈中集成3D虚拟世界的建模和渲染。通过对真实世界图像的迭代渲染和测试,我们获得了可用于渲染虚拟世界新视图的所需模型和场景参数。
 
在这个框架内,我们可以选择不调整每个参数的整体,例如,保持物体的形状不变但估计其位置(参见 iNeRF)。这样,我们可以高效地尝试识别和定位问题中的对象,而不是对其建模。建模和识别任务之间不再存在区别。相反,问题在于我们想要“学习”或“估计”哪些场景参数。

05 结论


因此,在人工智能解决问题的范式下,3D渲染的目标不仅是生成 3D 虚拟世界的逼真图像,还可以根据现实世界来构建虚拟世界。此外,新框架通过以下方式重新定义了 3D 和 AI:
 
1、3D 渲染成为 AI 训练回圈中必不可少的操作
2、训练,或“梯度下降”,过去只出现在云端神经网络训练过程,现在则是推理的一部分。
3、真实渲染的真实感不仅是为了保持真实世界和虚拟世界之间的一致性,也是为了让自己看起来很棒。
 
数字孪生理念要求将庞大且不断变化的现实世界带到其尚未开发的孪生虚拟世界中,并保持孪生之间的一致性。通过神经渲染获得的虚拟对象需要与通过经典方法构建的虚拟对象共存。因此,我相信神经渲染和传统渲染将利用其成熟和高性能的3D线程在GPU上融合。数字孪生的需求将落在未来GPU的肩上。我们还需要在 GPU 端做很多工作来实现“可微”,以参与 AI 训练回圈的梯度计算。
 
假设 GPU 因回应 3D 世界中的 AI 进展而获得原生可微和张量加速能力,我预计 GPU 的“双重人格”将化为一体。
 
最终,GPU 会卫冕其首选架构的宝座,以促进 AI 软件的进一步发展,并最终成为计算机架构新的黄金时代的明星。


下载链接:
大模型技术的重要特性与发展趋势
权威科普:CPU处理器通识课
《AI系列深度报告合集》
1、AI系列深度报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、AI系列深度报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、AI系列深度报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
大模型领域适配原理与实战
万卡级超大规模智算集群网络运维挑战及实战
3D DRAM行业报告:3D DRAM时代或将到来,国产DRAM有望迎来变革契机
2024年中国AI大模型场景探索及产业应用调研报告:大模型“引爆”行业新一轮变革
算力知识普惠系列一:AI芯片的基础关键参数
光芯片研究报告:高速互联需求驱动光通信行业发展,国产光芯片有望加速渗透
《2024年中国信创产业发展白皮书合集》
1、艾媒咨询:2024年中国信创产业发展白皮书(精简版) 2、艾媒咨询:2023年中国信创产业发展白皮书(精简版)
中国AIOps现状调查报告(2024)
中国算力中心服务商分析报告(2024)
分布式异构智能算力的管理和调度技术研究报告
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 126浏览
  • 在全球制造业加速向数字化、智能化转型的浪潮中,健达智能作为固态照明市场的引领者和智能电子以及声学产品的创新先锋,健达智能敏锐捕捉到行业发展的新机遇与新挑战,传统制造模式已难以满足客户对品质追溯、定制化生产和全球化布局的需求。在此背景下, 健达智能科技股份有限公司(以下简称:健达智能)与盘古信息达成合作,正式启动IMS数字化智能制造工厂项目,标志着健达智能数字化转型升级迈入新阶段。此次项目旨在通过部署盘古信息IMS系统,助力健达实现生产全流程的智能化管控,打造照明行业数字化标杆。行业趋势与企业挑战
    盘古信息IMS 2025-04-30 10:13 66浏览
  •  一、‌核心降温原理‌1、‌液氮媒介作用‌液氮恒温器以液氮(沸点约77K/-196℃)为降温媒介,通过液氮蒸发吸收热量的特性实现快速降温。液氮在内部腔体蒸发时形成气-液界面,利用毛细管路将冷媒导入蒸发器,强化热交换效率。2、‌稳态气泡控温‌采用‌稳态气泡原理‌:调节锥形气塞与冷指间隙,控制气-液界面成核沸腾条件,使漏热稳定在设定值。通过控温仪调整加热功率,补偿漏热并维持温度平衡,实现80K-600K范围的快速变温。二、‌温度控制机制‌1、‌动态平衡调节‌控温仪内置模糊控制系统,通过温度
    锦正茂科技 2025-04-30 11:31 59浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 140浏览
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 213浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 305浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 348浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 305浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 345浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 467浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 319浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 567浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 154浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦