在HPC场景,GPU如何加速仿真分析?

智能计算芯世界 2024-02-07 08:02
01、流体仿真发展趋势与计算需求
计算流体仿真力学,英文全称Computational Fluid Dynamics,缩写为CFD,兴起于近50年来,是一门相对年轻的学科。它是数值数学和计算机科学结合的产物,通过空间离散和数值求解的思路,对流体力学的各类问题进行数值实验、模拟和分析研究,以解决学习、科研或者工程设计中的问题。

下载链接:

计算机行业:工业软件底层技术剖析

《高性能计算:CAE/CAD设计仿真行业汇总》

1、工业软件的思维“CAE”,从虚拟走到现实.pdf 2、工业软件之CAD 行业报告:从海外工  业软件巨头到中望软件.pdf 3、工业软件CAE:从虚拟走到现实.pdf 4、CAX类工业软件,打破欧美数十年技术垄断.pdf 5、CAD行业报告:从海外工业软件巨头到中望软件.pdf
作为一个强大的计算工具,CFD在产品研发的诸多环节发挥着重要作用,不仅具有低成本,还可以捕捉到实验中难以采集的信息,此外,还能提供可控的环境因素和良好的复现性。从CFD的发展趋势来看,一方面,CFD工具的发展呈现为准确度、自动化、易用性、应用性能的持续提升;另一方面,CFD也与热学、电化学、声学等学科不断融合发展,CFD工具变得更加强大。
面对一个具体的工程问题,CFD工程师在应用CFD工具进行仿真分析时的基本流程,通常可以总结为五步:前处理、网格划分、边界条件加载、求解计算和后处理。但如何去平衡计算量(网格数量)和计算时间,对于很多CFD工程师都是个挑战。
在实际解决问题的过程中,CFD工程师除了希望能选择一款称手的软件工具外,当然也希望计算机的主频越高越好,核心越多越好。但是,核心与计算速度并非线性关系,不会因为核心等比例增长。若想在单台电脑上发挥极限运算能力,还需要使用GPU加速,因为GPU加速通过协调处理器并行运算,能够极大地提升计算能力,尤其适合多个项目同时进行,这样获得的时间收益较大。

下载链接:

CPU技术及产业技术:分类与产业篇

GPU:AI服务器关键技术及核心

微架构:处理器的内心世界
MIPS指令与汇编
CPU架构与故障维修
《六大国产CPU架构分析报告》
1、开启国产CPU和AI芯片的腾飞之路
2、CPU生态价值与机遇研究
3、国产基础软硬件,重塑IT产业生态
4、中流击水:六大国产CPU厂商分析
5、聚力突破核心技术,信创产业扬帆起航
服务器研究框架
服务器系列技术(4本)
《RISC-V技术介绍及报告》
《飞腾CPU专题报告》
1、飞腾:国产CPU巨头,充分受益国产化浪潮
2、国产CPU全对比,飞腾有望异军突起
《国产CPU及研究框架》
1、国产CPU正从可用向好用转变,自主可控前景可期
2、国产CPU全对比,飞腾有望异军突起
3、专题报告:国产CPU研究框架
4、深度报告:CPU研究框架
《龙芯/海光CPU厂商专题报告》
1、龙芯:国产CPU引领者,构建自主可控生态体系(2022)
2、海光:进击的国产化CPU GPU领航者(2022)
3、海光:安全、性能、生态铸造国产高端处理器龙头
4、龙芯:深耕CPU行业20余年,国产化替代大有可为
算力大时代,处理器SoC厂商综合对比
AI领强算力时代,GPU启新场景落地
信创专题(数据库):信创的关键环节(2022)

02、流体仿真为什么要选择GPU?
从1970年到今天,CFD始终向处理更高精确度、更复杂的几何结构方向发展。但现阶段,CFD软件应用于复杂流体问题方面还有待拓展,受到的阻碍主要源自以下三个方面:
  • 隐式算法的高内存要求——一些CFD分析工程师总是希望得到完美的残差收敛曲线,以证明计算结果的可靠性,因此,他们会首选隐式算法,这意味着高内存的需求;
  • CFD结果对网格的强依赖性——网格的合理设计和高质量生成是CFD计算的前提条件,是影响CFD计算结果的最主要的决定性因素之一,是CFD工作中人工工作量最大的部分,也是制约CFD工作效率的瓶颈问题之一。即使在CFD高度发达的国家,网格生成仍占整个CFD计算任务全部人力时间的70%~80%。
  • 工程流体仿真问题复杂多变——在流体力学模拟中,由于流体力学模拟是个复杂的过程,存在极端变形、自由液面以及物质运动交界面等问题,在应用网格数值模拟时,会出现网格扭曲导致计算不收敛或者产生很大的计算误差,需要重新模拟,这使得计算成本大大增加。

从CFD的发展历程看,CFD的每一步发展,都离不开计算机速度和内存的数量级提升。自1999年NVIDIA 发布Geforce256图形处理芯片以来,NVIDIA的显卡芯片就开始以GPU称呼,最早是辅助CPU进行图形图像的处理,将降低CPU的运算压力,后来随着GPU性能的不断提升,其应用场景也不断拓展。近年来,随着移动计算、工业智能化的发展,GPU开始用于手机、平板电脑到无人机和机器人等平台的应用程序的加速,世界各地实验室、高校、企业以及科研院的研究人员纷纷采用GPU获得高性能计算支持,在工业领域,GPU也普遍用于仿真计算加速,尤其在汽车、航空航天、工业设备等多个高科技领域,更是掀起了新一轮的CFD应用热潮。

那么,CFD为何要选择GPU加速呢?这是为了使CFD仿真发挥最大效用,CFD工程师往往需要快速得到计算结果。而借助于GPU加速计算所提供的非凡应用程序性能,能将CFD程序计算密集部分的工作负载转移到GPU,同时仍有CPU运行其余程序代码,这样计算速度大大提升。另外,从计算性能来看,在CFD应用中单个GPU的性能远远优于CPU,基于GPU加速的CFD计算速度明显加快,很多复杂的CFD难题得以解决,因此,越来越多的CFD工程师选择GPU加速。

03、流体仿真分析GPU选择分享
CFD是一个计算需求强烈的领域,GPU的选择将从根本上决定CFD分析过程的体验。在CFD分析中,工程师前期花费的时间主要在模型建立和修改上,后期真正的分析时间消耗在计算机上,因此,选择一款适合自身的CFD软件和高性能建模工作站就显得尤为重要。接下来小编软件将选择Altair的CFD工具,硬件将选择NVIDIA RTX8000,通过一些案例模型进行实际评测,希望对大家选择GPU时有所帮助。
评测案例一:基于AcuSolve软件的GPU加速
软件环境介绍——AltairAcuSolve是一款基于GLS-FEM算法的通用热流体求解器,不但有快速良好的收敛速度,还能达到很高的求解精度,同时对网格有良好的兼容性,特别方便于复杂模型网格的划分,广泛应用于汽车、流体机械和海洋平台等工业和科学应用问题的解决。值得一提的是,最新版本的AcuSolve,不仅通过GPU加速提高了3~4倍的计算速度,同时也支持核态沸腾、热辐射、冷凝/蒸发多相流和流固耦合(FSI)等CFD难题的解决。
硬件环境介绍——CPU采用单颗Intel(R) Xeon(R) Gold 6126 CPU @ 2.60GH;GPU选用NVIDIA RTX8000,它采用了NVIDIA Turing架构和NVIDIA RTX平台支持,对于追求以高稳健性、高精度为目标的CFD仿真分析带来了卓越的计算性能体验。
测试模型:在新能源汽车、医疗设备、军工设备等大功率密度的应用场合,设备运行时会产生大量的热损耗,为保证设备的安全运行,需要采用各种冷却措施来对设备进行冷却,水冷是其中一种方式。以新能源车的水冷板为例,其设计直接影电池的温度均匀性,进而影响车辆的续航里程和安全性。本测试模型拥有网格数量4300万,求解方程采用湍流+固体传热组合,湍流模型选择基于SA一方程的模型,设置稳态迭代步为200步,分别采用无GPU和1块GPU加速进行计算时间对比。
◎ 动力电池水冷板模型
测试结果:数据表明,无GPU加速时,水冷板分析的计算时间需要21小时;采用单块NVIDIA RTX8000加速,水冷板分析的计算时间只需要4小时。由此可见,采用Altair AcuSolve进行水冷板仿真分析,并提供NVIDIA GPU的增强支持,计算速度与无GPU加速相比提高了4.25倍。显然,这种方式对于CFD工程师快速探索水冷板的设计,并根据准确的计算结果做出决策非常有益。

◎ 计算时间对比

评测案例二:基于Altair nanoFluidX软件的GPU加速
软件介绍:窗体顶端
软件环境介绍——AltairnanoFluidX是一款基于粒子的流体动力学 (SPH) 仿真工具,用于预测运动轨迹复杂的几何结构周围的流体。以整车CFD仿真为例,传统CFD方法需要建立网格耗时巨大,但Altair nanoFluidX基于粒子的特性,无需建立网格,还可基于GPU显卡计算,非常有助于工程师获得简洁而高效的CFD解决方案。
硬件环境介绍——CPU采用单颗Intel(R) Xeon(R) Gold 6126 CPU @ 2.60GH;GPU选用NVIDIA RTX8000和NVIDIATesla V100,由于Altair nanoFluidX采用的粒子方法,其计算是由一系列的流体粒子的相互作用完成,在计算中每个粒子所执行的计算是完全相同的,而在不同的数据上执行相同的程序,恰恰是GPU计算最擅长的。

◎ 整车涉水模型
窗体底端
测试模型:整车涉水分析是近年来新兴的CFD仿真领域,主要研究汽车以一定速度涉水时,关键零部件的进水风险,如防火墙渗水,传统的发动机进气口进水,电动汽车电气短路等问题。整车涉水模型往往需要消耗大量的计算资源和时间进行求解,以本次建立的整车涉水模型为例,拥有粒子数量为4100万,设置车速为50公里/小时、瞬态物理时间为4秒,建立单相流模型,本次测试分别采用1块NVIDIA RTX8000 、2块NVIDIARTX800、4块NVIDIA RTX8000和4块V100加速,对比计算时间。
◎ 计算时间对比
测试结果:数据表明,采用1块、2块、4块NVIDIA RTX8000加速,整车涉水分析分别需要花费48小时、28小时、13小时;采用4块V100,则需要16个小时。从计算时间来看,采用4块NVIDIA RTX8000加速,计算时间最少,与采用1块NVIDIA RTX8000加速相比,计算速度提升了约2.7倍。计算结果也表明,采用基于GPU加速和Altair nanoFluidX的组合方式,允许CFD工程师在一个更可接受的短时间内研究类似整车涉水这样的复杂流体问题。
评测案例三:基于Altair ultraFluidX软件的GPU加速
软件环境介绍——AltairultraFluidX专用于超快预测乘用车、轻型卡车、赛车和重型车辆的空气动力特性的仿真分析,它基于格子玻尔兹曼(LBM)技术,无需建立网格,这大大缩短了建模时间,使得设计变得更加容易,同时保留了所有重要的几何细节。
硬件环境介绍——CPU采用单颗Intel(R) Xeon(R) Gold 6126 CPU @ 2.60GH;GPU选用NVIDIA RTX8000和NVIDIA Tesla V100,由于Altair ultraFluidX采用的LBM方法,非常适合大规模并行架构,而采用GPU加速,可以明显提高吞吐量,达到Altair ultraFluidX的周转时间,同时降低硬件和能源成本。
测试模型:对于车辆的早期开发优化,采用CFD手段无疑是最有效且最经济的方法,但这类CFD分析往往是高内存和高计算资源消耗的典型代表,需要使用GPU来优化计算性能。以此次建立的汽车虚拟风洞模型为例,拥有格子数量1亿6千万,格子的最小尺寸为1.8mm,设置车速为140公里/小时、瞬态物理时间为2秒,分别采用2块NVIDIA RTX8000、4块NVIDIA RTX8000和4块V100加速,对比计算时间。

◎ 汽车虚拟风洞模型

测试结果:数据表明,采用2块、4块NVIDIA RTX8000加速,模拟汽车虚拟风洞分别需要花费14小时、8小时;采用4块V100,则需要8.4个小时。三种GPU加速中,采用4块NVIDIA RTX8000加速,计算时间最少,与采用2块NVIDIA RTX8000加速相比,计算速度提升了约0.75倍。计算结果也表明,基于GPU和AltairultraFluidX的组合方式,可以明显加速汽车虚拟风洞分析,有效缩短汽车开发周期。
◎ 计算时间对比

04、总 结
作为当前最重要的三大协处理加速技术之一,GPU已经成为数值分析的新宠,广泛应用于各个领域。以流体仿真领域为例,随着CFD分析对计算能力的要求日益增高,越来越多的CFD工程师倾向于采用GPU加速,例如借助 NVIDIA RTX8000加速,能以远低于传统 CPU 解决方案的成本、空间和功耗,获得无与伦比的计算性能。
下载链接:
服务器应用场景性能测试方法(高性能计算)
基于鲲鹏处理器的国产高性能计算集群实践

Intersect360全球HPC-AI市场报告(2022—2026)

Intersect360 AMD CPU和GPU调研白皮书

Hyperion Research:ISC23 HPC Market Update Breakfast Briefing(2023)
《Hyperion Research HPC/AI领域市场报告》
1、Hyperion Research:HPCaaS Whitepaper 2、Hyperion Research:HPC-Storage TCO-–Critical Factors Beyond per GB 3、Hyperion Research:The Economic and Societal Benefits of Linux Supercomputer 4、Hyperion Research:Supermicro-AMD in HPC Convergence Market

绿色算力白皮书(2023)

《2023年高性能计算研讨合集(上)》

《2023年高性能计算研讨合集(下)》

《AI基础知识深度专题详解合集》

Intersect360全球HPC-AI市场报告(2022—2026)

Intersect360 AMD CPU和GPU调研白皮书


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 63浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 68浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 167浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 103浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 113浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 83浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 40浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦