SC24|NVIDIA发布cuPyNumeric,使科学家能够充分利用集群规模的GPU加速

原创 英伟达NVIDIA中国 2024-11-20 18:21

该加速计算库帮助科研人员无缝地扩展到强大的计算集群,并且无需修改 Python 代码,推进科学发现。



无论研究纳米级电子行为,还是数百万光年之外的星系碰撞,众多科学家都面临着一个共同的挑战,那就是必须梳理数 PB 的数据,才能从中获得能够推动相关领域发展的洞察。


借助 NVIDIA cuPyNumeric 加速计算库,科研人员现在可以将他们的数据处理 Python 代码毫不费力地运行在基于 CPU 的笔记本电脑、GPU 加速工作站、云服务器或大型超级计算机上。处理数据的速度越快,科学家们就能越快地针对有前景的数据点、值得研究的趋势以及实验调整做出决策。


想要跃进到加速计算,科研人员并不需要计算机科学方面的专业知识。他们只需使用熟悉的 NumPy 界面编写代码,或将 cuPyNumeric 应用于现有代码,并遵循最佳实践即可享受到卓越的性能和可扩展性。


一旦使用了 cuPyNumeric,他们就可以在一个或数千个 GPU 上运行代码,并且无需修改任何代码。


最新版 cuPyNumeric 现已在 Conda 和 GitHub 上发布,它支持 NVIDIA GH200 Grace Hopper 超级芯片、运行时自动进行资源配置以及改进的内存扩展。它还支持 HDF5,这种在科学界非常流行的文件格式有助于高效地管理大型的复杂数据。


SLAC 国家加速器实验室、洛斯阿拉莫斯国家实验室、澳大利亚国立大学、马萨诸塞大学波士顿分校、斯坦福大学湍流研究中心和印度国家支付公司等机构的科研人员均集成了 cuPyNumeric,这显著地改善了他们的数据分析工作流程。


少即是多:无需修改代码

即可享受到无限的 GPU 可扩展性


Python 是数据科学、机器学习和数值计算领域最常用的编程语言,被天文学、药物发现、材料科学和核物理等科学领域的数百万科研人员所使用。GitHub 上数以万计的软件包都依赖于 NumPy 数学和矩阵库,该库在上个月的下载量超过 3 亿次。所有这些应用都能受益于 cuPyNumeric 加速计算。


许多科学家都在构建使用 NumPy 的程序,并在一个仅采用 CPU 的节点上运行,这限制了其算法的吞吐量,无法处理电子显微镜、粒子对撞机和射电望远镜等仪器收集的日益庞大的数据集。


通过提供一个可扩展到数千个 GPU 的 NumPy 替代品,cuPyNumeric 帮助科研人员跟上数据集日益增长的规模和复杂性。从单个 GPU 扩展到整个超级计算机时,cuPyNumeric 不需要更改代码。这使得科研人员可以轻松地在任何规模的加速计算系统上运行分析。


解决大数据问题,加速科学发现


美国能源部下属的 SLAC 国家加速器实验室(由斯坦福大学运营)的科研人员发现,cuPyNumeric 可帮助他们更快地使用直线加速器相干光源进行 X 射线实验。


一个专注于半导体材料科学发现的 SLAC 团队发现,cuPyNumeric 将数据分析应用程序的速度提高了 6 倍,将运行时间从几分钟缩短到几秒钟。凭借这样的提速,该团队能够在这个高度专业化的设施内同时进行重要的分析和实验。


通过更高效地进行实验,该团队预计将能更快地发现新的材料特性、分享成果并发表论文。


以下机构也正在使用 cuPyNumeric:


  • 澳大利亚国立大学的科研人员利用 cuPyNumeric 来扩展勒文伯格-马夸尔特优化算法,以便在澳大利亚国家计算基础设施中的多 GPU 系统上运行。虽然该算法可用于多种应用,但科研人员的最初目标是构建大规模的气候和天气模型。


  • 洛斯阿拉莫斯国家实验室的科研人员正在运用 cuPyNumeric 来加速数据科学、计算科学和机器学习算法。cuPyNumeri 将为他们提供更多工具,以便有效地利用最近推出的 Venado 超级计算机,该超级计算机配备了 2,500 多颗 NVIDIA GH200 Grace Hopper 超级芯片。


  • 斯坦福大学湍流研究中心的科研人员正在开发基于 Python 的计算流体动力学求解器,该求解器可使用 cuPyNumeric 在大型加速计算集群上大规模地运行。这些求解器可以将大型流体模拟集合与 PyTorch 等流行的机器学习库无缝集成,从而支持包括在线训练和强化学习在内的复杂应用。


  • 马萨诸塞大学波士顿分校的一个研究团队正在加速线性代数计算,以分析显微镜视频并确定活性材料耗散的能量。该团队使用 cuPyNumeric 来分解一个包含 1600 万行和 4000 列的矩阵。


  • 印度国家支付公司提供的实时数字支付系统每天大约被 2.5 亿印度人所用,并在走向全球。印度国家支付公司使用复杂的矩阵计算来跟踪付款人和收款人之间的交易路径。使用当前的方法,在 CPU 系统上处理一周的交易数据大约需要 5 个小时。一项试验表明,通过在多节点 NVIDIA DGX 系统上应用 cuPyNumeric 来加速计算,可以将矩阵乘法的速度提高 50 倍,从而使印度国家支付公司能够在不到一个小时的时间内处理更长时间内的交易,并近乎实时地检测到可疑的洗钱行为。


点击“阅读原文”,了解 NVIDIA 在 SC24 上的更多动态,获取关于 cuPyNumeric 的更多信息。



扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋特别演讲以及和软银集团 CEO 孙正义的炉边谈话回放。


评论
  • 在PCB设计中,Stub(也称为短桩线或残桩线)对信号传输有以下几个主要影响:1.容性效应导致的阻抗偏低:Stub会导致容性效应,使得阻抗偏低,影响信道的阻抗一致性。Stub越长,阻抗降低得越多。这是因为传输线瞬态阻抗计算公式为:Z = \ sqrt { \ frac { L } { C } }Stub就像并联在传输线上的小电容,Stub越长,电容量越大,阻抗也就越低。2.信号反射:当信号在传输线与Stub的交界处遇到阻抗不匹配时,会产生信号反射。这会导致信号的失真和能量的反向传播,增加了噪声和
    为昕科技 2024-12-24 18:10 29浏览
  • 在谐振器(无源晶振)S&A250B测试软件中,DLD1到DLD7主要用于分析晶体在不同驱动功率下的阻抗变化。此外,还有其他DLD参数用于反映晶振的磁滞现象,以及其频率和功率特性。这些参数可以帮助工程师全面了解KOAN晶振在不同功率条件下的动态特性,从而优化其应用和性能。磁滞现象晶振的磁滞现象(Hysteresis)是指在驱动功率变化时,晶体的阻抗或频率无法立即恢复至初始状态,而表现出滞后效应。1. DLDH: Hysteresis Ratio (MaxR/MinR)在不同驱动
    koan-xtal 2024-12-26 12:41 73浏览
  • 全球照明技术创新领航者艾迈斯欧司朗,于2024年广州国际照明展览会同期,举办【智慧之光】· 艾迈斯欧司朗-照明应用研讨会,以持续的技术创新,推动光+概念的全面落地。现场还演示了多款领先照明技术,且由资深工程师倾情解读,另有行业大咖深度洞察分享,助你开启“光的无限可能”探索之旅!精彩大咖分享引领未来照明无限遐想艾迈斯欧司朗精心准备了照明领域专业大咖的深度分享,无论是照明领域的资深从业者,还是对照明科技充满好奇的探索者,在这里,您都将大有所获。在艾迈斯欧司朗照明全球产品市场VP Geral
    艾迈斯欧司朗 2024-12-25 20:05 54浏览
  • 今年AI技术的话题不断,随着相关应用服务的陆续推出,AI的趋势已经是一个明确的趋势及方向,这也连带使得AI服务器的出货量开始加速成长。AI服务器因为有着极高的运算效能,伴随而来的即是大量的热能产生,因此散热效能便成为一个格外重要的议题。其实不只AI服务器有着散热的问题,随着Intel及AMD 的CPU规格也不断地在提升,非AI应用的服务器的散热问题也是不容小觑的潜在问题。即便如此,由于目前的液冷技术仍有许多待克服的地方,例如像是建置成本昂贵,机壳、轨道、水路、数据中心等项目都得重新设计来过,维修
    百佳泰测试实验室 2024-12-26 16:33 66浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-26 09:19 95浏览
  • 引言  LIN(Local Interconnect Network)是一种针对汽车电子系统应用的串行通信协议,主要用于汽车电子控制单元(ECU)之间的通信。LIN总线的特点是成本低、速率低、通信距离短、连接节点少,主要用于对带块要求低、实时性要求不高的控制任务,例如车门控制、天窗控制、座椅控制、车内照明等功能。LIN总线采用的是主从式架构,由主节点基于调度表调度网络中的通信。  LIN总线的错误类型  尽管LIN协议设计简单,具有低带
    北汇信息 2024-12-25 14:18 57浏览
  • 新能源汽车市场潮起潮落,只有潮水退去,才能看清谁在裸泳。十年前,一批新能源汽车新势力带着创新的理念和先进的技术,如雨后春笋般涌入中国汽车市场,掀起一场新旧势力的角逐。经历市场的激烈洗礼与投资泡沫的挤压,蔚来、理想、小鹏等新势力车企脱颖而出,刷爆网络。不曾想,今年新势力车企杀出一匹“超级黑马”,爬上新势力车企销量榜前三,将蔚来、小鹏等昔日强者甩在了身后,它就是零跑汽车。公开数据显示,11月份,零跑汽车实现新车交付量约4.02万辆,同比增长117%,单月销量首次突破4万辆;小鹏汽车当月共交付新车约3
    刘旷 2024-12-26 10:53 106浏览
  • 据IDTechEx最新预计,到2034年,全球汽车舱内传感(In-Cabin Sensing,ICS)市场将超过85亿美元。若按照增长幅度来看,包含驾驶员监控系统(DMS)、乘员监控系统(OMS)、手势控制和生命体征监测等高级功能在内的舱内传感市场预计2020年到2034年将增长11倍。感光百科:ICS中的光源选择01、政策推动带来的“硬”增长作为其中的增长主力,舱内监控系统应用(包含DMS和OMS等)被推动增长的首要因素正是法规。据统计,中国、欧盟、美国、韩国、印度等主要汽车国家或地区已推出相
    艾迈斯欧司朗 2024-12-25 19:56 67浏览
  • 概述 Intel 要求用户为其10代FPGA器件使用特定的上电和掉电顺序,这就要求用户在进行FPGA硬件设计的时候必须选择恰当的FPGA供电方案,并合理控制完整的供电上电顺序。经过在Cyclone 10 GX测试板上实际验证,统一上电确实会导致FPGA无法正常工作,具体表现为JTAG接口无法探测或识别到目标器件。上电顺序要求 Cyclone 10 GX,Arria 10以及Stratix 10系列器件所有的电源轨被划分成了三个组合,三组电源轨要求依次上电,如图1所示,为三组电源轨上电顺序示意图。
    coyoo 2024-12-25 14:13 51浏览
  • “金字招牌”的户外叙事。2024年的夏天似乎异常炙热,体育迷们的心跳也随之澎湃,全球瞩目的体育盛宴——巴黎奥运会在此刻上映。在这个充满荣耀与梦想的夏天,我们见证了无数激动人心的瞬间:男子4X100米混合泳接力决赛中,潘展乐的最后一棒,气壮山河,中国队的历史性夺冠,让整个泳池沸腾;射击10米气步枪混合团体决赛,黄雨婷和盛李豪的精准射击,为中国队射落首金,展现了年轻一代的力量;乒乓球男单四分之一比赛中,樊振东的惊天逆转令人难以忘怀,凭借坚韧不拔的意志和卓越的技术,成功挺进半决赛,并最终夺冠……在这一
    艾迈斯欧司朗 2024-12-25 19:30 64浏览
  • 本文介绍瑞芯微开发板/主板Android系统APK签名文件使用方法,触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,各类接口一应俱全,帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。系统签名文件生成APK系统签名文件,具体可参考此文章方法RK3588主板/开发板Android12系统APK签名文件生成方法,干货满满使用方法第一步,修改APK工程文件app/src/build.gradle,并添加以下内容: android {     na
    Industio_触觉智能 2024-12-26 09:20 71浏览
  • RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506平台各型号芯片该怎么选,看这篇文章就够了。RK3506各型号RK3506有3个型号,分别是RK3506G2、RK3506B、RK3506J,配置参数如图: 配置差异解析总的来说,RK3506各型号间的差异主要体现在内存、工作温度和封装上‌:内存差异‌:RK3506G2‌集成
    Industio_触觉智能 2024-12-25 10:27 34浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦