GPU能否在新计算机架构时代继续保持辉煌?

智能计算芯世界 2024-10-25 07:29
导读:在本文中,吕坚平博士从特定领域架构、GPU硬件/软件界面、通用计算资源池化、GPU中的3D张量加速度以及3D/AI融合等多个方面进行了系统的分析和阐述。推荐给大家。

2018年6月4日,John Hennessy 和 David Patterson以2017年图灵奖(被誉为“计算机界的诺贝尔奖”)的获得者身份发表了演讲《计算机架构新的黄金时代》。讲座有三个关键见解:

1、软件的进步将激发架构的创新。
2、硬件/软件界面的进化为架构创新创造了机会。
3、关于架构的争论最终将由市场需求解决。

我想再补充第四点,补全这个闭环:在竞争中的首选架构将促进后续的软件进化。
 
在Hennessy/Patterson演讲之后,我们发现市场几乎已经在AI 领域中实现了第三条见解 #3(关于架构的争论最终将由市场需求解决),并将图形处理单元(GPU)选为推动人工智能革命的“获胜”架构。在本文中,我将探讨AI革命是如何激发架构创新和重塑GPU的,我希望本文能够回答这个重要问题:GPU能否在计算机架构新的黄金时代继续保持辉煌?

01 特定领域架构


Henessy和Patterson提出了特定领域架构(DSA)的概念,旨在为计算机架构带来创新并努力迈向新的黄金时代。顾名思义,GPU是用于3D图形领域的 DSA。它的目标是在3D虚拟世界中渲染照片般逼真的图像;然而,几乎所有人工智能研究人员都使用 GPU 来探索超越3D 图形领域的概念,并在人工智能的“软件”,也就是神经网络架构方面取得了一系列的突破。GPU 在3D世界仍然是不可或缺的,它已成为人工智能世界的“CPU”,因为它促进了 AI 的软件创新。除了3D用途之外,GPU 架构师一直在努力将 GPU 的计算资源用于非3D用途。我们将这种设计理念称为通用 GPU,即GPGPU。
 
如今,我们看到越来越多的AI DSA取代GPGPU,试图用更好的性能来取代GPU。甚至GPU本身也在它的双重人格(即AI DSA和3D DSA)之间挣扎。原因是AI DSA需要加速张量运算,这在 AI 中是很常见的运算,但在 3D 世界中不是。与此同时,3D固定功能硬件对于AI来说似乎是多余的。
 
因此,关于架构争论的主要方向应集中在以下几个方面:

1、GPU 能否稳坐“AI世界CPU”的宝座?
2、GPU 是否会分成两种 DSA,一种用于AI,另一种用于3D?
 
我的预测如下:

1、GPU硬件/软件界面将继续使GPU成为“AI世界的CPU”。
2、基于 AI 的渲染会让张量加速成为GPU中的主流。
3、虚拟世界和现实世界互相映射的数字孪生理念将主导市场,最终解决架构争论。

02 GPU硬件/软件界面


我们可以将GPU在3D领域中的主导地位和在 AI 世界中取得的巨大成功归功于它的硬件 / 软件界面,GPU和3D图形软件架构师正努力采用这种界面。这种界面是解决以下悖论的关键。虽然 GPU 社区在继续优化 GPU 的通用性,但业界的其他人已转向更专业的硬件,以应对摩尔定律消退的困境。
 
GPU线程(图片来源:本文作者)
 
2.1 双层可编程性

理论上讲,GPU是处理阶段的长线程。不同类型的工作项在通过线程时被处理。在早期,每个处理阶段都是一个固定的功能块。程序员对GPU的唯一控制就是调整每个区间的参数。如今,GPU硬件/软件界面让程序员可以自由地处理每个工作项目,无论是顶点还是像素。没有必要在每个顶点或像素回圈中处理回圈头,因为GPU架构师在一个固定的函数中实现了它。这种架构选择让程序员有责任关注他们自己的回圈体,或“着色器”,这通常以工作项目的类型命名,如处理顶点的“顶点着色器”和处理像素的“像素着色器”。
 
现代游戏如何使用这种线性线程制作出令人惊叹的画面?除了通过线程一次控制不同类型的着色器,程序员可以逐步通过线程多次产生中间图像,最终产生在荧幕上看到的最终图像。程序员有效地创建一个计算图,描述中间图像之间的关系。图中的每个节点表示GPU线程的一次通过。
 
2.2 通用计算资源集成池

一个集成的通用计算资源池在处理阶段之间共享,完成繁重的工作。这种方案的最初动机是负载平衡;在不同的使用场景中,各个处理阶段的工作负载可能有很大的变化。计算资源,被称为着色器核心逐渐变得更具通用性,以实现灵活性和产品差异化。GPU架构师尝试将中央着色器池提供给非3D应用程序,如GPGPU。这种设计方案使GPU在兼职工作时也能在运行人工智能任务方面取得突破。
 
2.3 均衡的专业能力

GPU架构师通过在不改变硬件/软件界面的情况下添加协同处理单元,定期“加速”或“特殊优化”着色器池。纹理单元就是这样一个协处理单元,在纹理贴图中的纹理元素被提取并过滤到着色器池中。特殊函数单元(SFU)是负责执行超越数学函数的另一种协处理单元,处理对数、平方根倒数等函数。虽然这听起来很像CPU中的超标量设计,但它们有一个显著区别:GPU 架构师根据着色器程序使用协处理单元的“平均”频率来分配协处理单元的吞吐量。例如,我们可以为纹理单元提供着色器池吞吐量的八分之一,因为我们假设纹理操作出现在基准测试或游戏中的时间平均为八分之一。当协处理单元处于繁忙状态时,GPU会切换任务以让自己的资源被充分利用。

03 3D张量加速度


在前文中,我指出了GPU在3D用途中难以利用张量加速。让我们看看如果我们改变GPU 渲染典型游戏帧的方式,这种状况能否改变。GPU首先生成并存储所有必要的信息,以便为每个像素在G-buffer中着色。从 G-buffer中,我们会计算如何点亮一个像素,紧随其后的是几个处理步骤,包括:
 
1.去除锯齿边缘(抗锯齿(AA))
2.将低分辨率图像升级为高辨率图像(超分辨率(SR))
3.将整帧画面添加一些特定视觉效果,例如环境光遮蔽、运动模糊、布隆过滤器或景深等。
 
我们称这种渲染方案为延迟着色,因为对像素的着色是“延迟”的,直到每个像素都获得所需的信息后才开始。我们将光照之后的处理步骤称为后处理。今天,后处理消耗了大约 90% 的渲染时间,这意味着 GPU 的荧幕时间主要用在2D而非3D上!
 
NVIDIA已经为AA和SR演示了基于AI的DLSS 2.0,它声称可以生成比没有DLSS 2.0的原生渲染更好看的图像。此外,NVIDIA 还为光线追踪提供了基于 AI 的蒙特卡罗去噪算法,这样我们就可以使用很少的光线来实现原本需要更多光线才能做到的画面质量。另外,AI技术为其他许多后处理类型提供了一类新的解决方案,例如用于环境遮蔽的NNAO 和用于景深的 DeepLens。
 
如果基于AI的后处理成为主流,张量加速将成为GPU在3D用途上的支柱。GPU 分化为 3D DSA和AI DSA的可能性也会下降。

04 3D/AI融合


为了解决架构争论,我们需解决最后一个难题:我们最后是否应该移除3D渲染中的固定功能硬件,尤其是在用于 AI 用途时这样做?请注意,通过GPGPU, GPU可以作为纯“软件”来进行3D渲染,而不需要使用任何固定的功能硬件。
 
严格意义上讲,在给定场景参数的情况下,3D渲染模拟了光子如何从光源穿越空间传输到3D虚拟世界中与物体交互。GPU的传统3D渲染过程是这个过程的一个非常粗略的近似。因此,微软将光线追踪宣传为“未来的完整3D效果”时表示,“[基于传统光栅化的]3D图形是一个谎言”。然而,3D 渲染纯粹主义者可能仍然不会接受光线追踪技术,因为在光线追踪过程中,我们是将光线从像素向后追踪到 3D 虚拟世界来实现 3D 渲染的,这也是不真实的。
 
这两种方法都是基于模拟的3D渲染的近似方案。在两种方案下,我们都会将 3D 虚拟世界的建模,或者说内容创建与渲染分离开来。在第一种方案下,对 3D 虚拟世界建模需要工程师和艺术家进行大量艰苦而富有创造性的工作,以描述每个对象及其与光线交互的物理属性。在第二种方案下,通过渲染做到完全真实是不可能的,因为我们需要彻底简化3D渲染以在资源预算内满足多个性能目标。
 
相比使用最著名的科学知识和数学理论为给定问题寻找解决方案,人工智能方法是从数据中“学习”计算模型,或者说神经网络。我们通过反复试验迭代地调整网络参数。我们通过先前的参数估计向前运行网络并测量不匹配或“损失”。然后根据其梯度调整参数以减少损失,有效地引导损失景观向与梯度相反的方向移动。这种机制称为反向传播,要求沿着前向路径的所有计算都是可微的,以参与计算梯度。
 
神经渲染是一个新兴的人工智能研究领域,它使用上述方法来研究3D渲染。下面是我用来跟踪神经渲染进展的思维导图:
  


这个 3D 虚拟世界模型被隐含地表示为神经网络参数(参见 NeRF、GRAF、GIRAFFE),这些参数是我们通过比较真实世界的图像和我们从虚拟世界渲染的图像来推断的。然后我们反向传播比较梯度来调整神经网络参数。或者,我们可以从数据中学习显式 3D 网格(参见 DeepMarching Cube,GAN2Shape)。实际上,对 3D 虚拟世界建模与学习神经网络参数是一回事。这个过程要求我们在前向路径中包含一个 3D 渲染线程,并在紧密的回圈中集成3D虚拟世界的建模和渲染。通过对真实世界图像的迭代渲染和测试,我们获得了可用于渲染虚拟世界新视图的所需模型和场景参数。
 
在这个框架内,我们可以选择不调整每个参数的整体,例如,保持物体的形状不变但估计其位置(参见 iNeRF)。这样,我们可以高效地尝试识别和定位问题中的对象,而不是对其建模。建模和识别任务之间不再存在区别。相反,问题在于我们想要“学习”或“估计”哪些场景参数。

05 结论


因此,在人工智能解决问题的范式下,3D渲染的目标不仅是生成 3D 虚拟世界的逼真图像,还可以根据现实世界来构建虚拟世界。此外,新框架通过以下方式重新定义了 3D 和 AI:
 
1、3D 渲染成为 AI 训练回圈中必不可少的操作
2、训练,或“梯度下降”,过去只出现在云端神经网络训练过程,现在则是推理的一部分。
3、真实渲染的真实感不仅是为了保持真实世界和虚拟世界之间的一致性,也是为了让自己看起来很棒。
 
数字孪生理念要求将庞大且不断变化的现实世界带到其尚未开发的孪生虚拟世界中,并保持孪生之间的一致性。通过神经渲染获得的虚拟对象需要与通过经典方法构建的虚拟对象共存。因此,我相信神经渲染和传统渲染将利用其成熟和高性能的3D线程在GPU上融合。数字孪生的需求将落在未来GPU的肩上。我们还需要在 GPU 端做很多工作来实现“可微”,以参与 AI 训练回圈的梯度计算。
 
假设 GPU 因回应 3D 世界中的 AI 进展而获得原生可微和张量加速能力,我预计 GPU 的“双重人格”将化为一体。
 
最终,GPU 会卫冕其首选架构的宝座,以促进 AI 软件的进一步发展,并最终成为计算机架构新的黄金时代的明星。


下载链接:
大模型技术的重要特性与发展趋势
权威科普:CPU处理器通识课
《AI系列深度报告合集》
1、AI系列深度报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、AI系列深度报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、AI系列深度报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
大模型领域适配原理与实战
万卡级超大规模智算集群网络运维挑战及实战
3D DRAM行业报告:3D DRAM时代或将到来,国产DRAM有望迎来变革契机
2024年中国AI大模型场景探索及产业应用调研报告:大模型“引爆”行业新一轮变革
算力知识普惠系列一:AI芯片的基础关键参数
光芯片研究报告:高速互联需求驱动光通信行业发展,国产光芯片有望加速渗透
《2024年中国信创产业发展白皮书合集》
1、艾媒咨询:2024年中国信创产业发展白皮书(精简版) 2、艾媒咨询:2023年中国信创产业发展白皮书(精简版)
中国AIOps现状调查报告(2024)
中国算力中心服务商分析报告(2024)
分布式异构智能算力的管理和调度技术研究报告
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 255浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 140浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦