Spectrum Scale 5.0性能增强及AI、MI、DL场景表现

智能计算芯世界 2021-03-16 00:00



高性能计算 (HPC) 和科学计算都处在持续演变期。人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 都属于变革性的开发成果,都曾经历过长期的孕育期,但现在都已经成为主流。AI、ML、DL 以及大数据/数据分析及数学建模已成为科学计算的支柱,而且在未来的十年及更长时间内均是如此。


Spectrum Scale存储系统已发展成为一款领先的存储解决方案,在某些情况下,可供科学计算和 HPC 社区使用。在该解决方案的最新版 5.0.0 中,IBM® 引入了一些增强功能,旨在应对 AI/ML/DL 活动的一些新的 IO 特点。具体来说,IBM 提升了这些新工作负载所需的小文件 IO 性能。


下面我们将探讨Spectrum Scale 5.0.0 的一些性能增强,并介绍为何这些增强功能非常适于美国的一个实验室计划,该计划已经开发出了全球最快的 HPC 超级计算环境,旨在应对新的工作负载及未来的工作负载。


Spectrum Scale 5.0.0增强功能

小文件的 IO 在元数据和小数据块方面非常密集。若要在这些限制条件下确保性能,存储系统必须执行元数据状态并实现超快速的更新,同时非常快速地读写小数据块。Spectrum Scale 5.0.0 显著改善了小文件的 IO 性能。一些专门针对小文件 IO 性能的增强功能包括:


• 增强了远程直接内存访问 (RDMA) 支持:有助于加速集群间的通讯,而且能够在确保降低开销的情况下执行节点间的数据传输。

• 新的“无锁定”读取路径:有助于提升并行性,并缩短读取串行化的等待时间。

• 新的多层写入缓存:使用 NVMe 存储来加速小文件块的写入。

• 可变的 SubBlock(子数据块)大小:有助于改善小空间的效率和系统 IO 性能。


对于大文件而言,大多数的 IO 都耗费在读取或写入大数据块上面。尽管吞吐量非常重要而且元数据也需要扩展,但大文件的元数据其实并不会经常访问。相比而言,小文件的元数据不仅要扩展到更多文件,而且访问得更加频繁,这样才能确保性能。此外,系统还需要能够更快地读取和写入小数据块。


若要实现更快的元数据更新,就需要确保节点间的通讯响应更快速且响应时间可预测。若要确保系统完整性及元数据的有效性,必须以确保原子性、一致性、隔离性和持久性(ACID) 的方式完成更新。若要规模化地执行此类更新,需要使用高效的跨节点通讯或集群间通讯一致地在节点之间更新一个类似数据库的大型结构。在 Spectrum Scale 5.0.0 中,IBM 利用 RDMA 等协议技术提升了集群间的通讯速度。通过这种方式,元数据访问和集群间的小数据块通讯就不会出现性能瓶颈。


不过,一致的元数据更新通常需要串行化,而串行化会拖慢 IO 性能。在此情况下,Spectrum Scale 5.0.0 降低了元数据访问及小数据块读取活动的串行化需求,进而改善了小文件的性能。


近期,存储行业引入了新的 NVMe 固态硬盘 (SSD),以改善 IO 性能。NVMe 协议从整体上了改变了系统的接口驱动构造,能够显著减少驱动器的 IO 响应时间/延迟。IBM Spectrum Scale 5.0.0 利用速度更快的新 NVMe 存储技术,引入了一个多层小文件块写入缓存,可大幅提升小文件的写入性能。


在之前各代的 Spectrum Scale 产品中,IBM 采用了被称作 SubBlock 的结构,同时采用固定分区,以将文件数据传输映射到存储系统的物理 IO。这种 SubBlock 结构代表的是IO 性能与空间效率之间的权衡。在 Spectrum Scale 5.0.0 中,IBM 引入了一种可变的子数据块结构,该结构能够按照系统所用文件的大小来优化系统 IO。通过这种方式,无论是大文件还是小文件,均可使用根据它们的需求而定制的最优系统 IO 大小。


通过这些增强功能,使得 IBM Spectrum Scale 5.0.0 的小文件 IO 性能得到了大幅提升。此外,通过提升集群间的通讯速度、加快元数据的访问速度、减少读取串行化等方式,也提升了大文件的 IO 性能。


举例来说,无论是小文件传输还是大文件传输,节点间的数据传输都非常普遍。借助在节点间数据传输方面的增强功能,无论是小文件还是大文件,它们的读/写 IO 均可执行更多的传输,同时还能够降低开销,进而从实质上改善了大文件的 IO 性能。除了这些性能增强功能之外,IBM Spectrum Scale 5.0.0 的操作和部署也变得更加轻松。在最新版的 5.0.0 发行版中,许多之前需要手动指派的默认参数设置都实现了自动化,这样便可大幅提高 IBM Spectrum Scale 的开箱即用部署速度。此外,IBM Spectrum Scale 5.0.0 中还增加了一些新的安全和合规功能,包括新文件事件审计日志记录、文件不可变性以及动态数据和静态数据安全功能等。


新场景AI、ML、DL的IO需求


机器学习 (ML)、深度学习 (DL) 和人工智能 (AI) 领域的最新趋势均涉及到了神经网络的多阶段分类计算。这些阶段包括 (1) 数据摄入;(2) 数据清理和转换;(3) 神经网络探索和架构设计;(4) 神经网络训练;及 (5) 推理生成。尽管神经网络探索和架构设计阶段涉及的 IO 不太多,但其他阶段都需要在各种数据集之间进行一道或多道 IO。


通过当今AI、MI、DL 算法而积累的一个关键洞察力是:用于训练神经网络所用的数据越多,结果的质量就越高。换言之,采用更大规模的训练数据集能够改善神经网络分类的准确性。因此,AI、MIDL数据集的规模越大,这些算法的性能就越高。


在任何AI、MIDL算法开发中,第一个阶段都是数据摄入。该阶段是指将数据摄入到ML、DL 框架中。一般而言,该阶段的数据通常都是大文件,而且从ML、DL 的角度来说,它们均属于读写顺序 IO。在该阶段结束时,ML、DL 框架中的所有数据都已准备就绪,可用于后续处理。


接下来是数据清理和转换阶段,这是一个冗长的阶段,主要是对数据进行清理并将其从原始格式转换为可用于训练 ML、DL 神经网络的格式。从本质上来说,该流程一般是属于读/写顺序,读取大文件进来,然后写出经正确分类的小文件。


再然后是神经网络探索和架构设计阶段,该阶段主要是构建 ML、DL 算法所需的神经网络架构模型,之后便可开始时间训练。作为神经网络训练各个阶段的一部分,所有经过清理的小训练文件会由 ML/DL 框架进行随机读取,再使用当前的神经网络进行实验评估,然后对神经网络进行修改,以减少(分类)错误。在该流程中,需要针对训练数据集中的大量小文件进行多次随机读取(神经网络训练主要通过 GPU 完成。)


在完成AI、MIDL神经网络训练之后,即为推理生成阶段。在该阶段,会使用ML、DL 神经网络算法针对新的输入数据作出推理。在推理阶段,IO 活动一般都是以实时的方式按顺序读取小传感器、视频、音频帧。总而言之,AI、MIDL在各个阶段的 IO 需求都不相同,但基本上都会处理大量的数据。在这些数据中,一些是按顺序读取和写入的大文件,但在数据清理及后续流程中所发生的大多数 IO 都涉及到了大量小文件的随机读取和写入。


某高性能计算实验室存储系统新需求

某高性能计算实验室的超级计算机正在逐渐被淘汰,其目的在于提供一台新的世界级超级计算机,以支持最新的计算与存储服务。这种新的第四代超级计算环境能够支持其研究社区成员所需的混合 CPU-GPU AI、MIDL 计算工作负载及其他科学计算。


该超级计算机将由约 4,600 个混合(2 个 IBM Power9 CPU 和 6 个 NVIDIA Volta V100 GPU)计算节点构成,每个节点包含 0.5 TB 的 DRAM 及 1.6 TB 的永久存储。这些节点将会通过双轨 EDR InfiniBand 网络连接,可提供 23GB/秒的节点注入带宽,还包括 250 PB 的文件存储容量。


这个为多个高性能计算实验室构建的下一代的超级计算机能力强大。接下来我们将会讨论它的存储系统的 IO 性能需求,以及 IBM Spectrum Scale 5.0.0 如何满足或超越所有这些规格需求。超级计算机 IO 子系统的需求如下:


• 每秒至少完成 50,000 次文件访问;

• 1MB 顺序读/写总计带宽最低达到 1TB/秒;

• 顺序读/写总计峰值带宽达到 2.5TB/秒;

• 每秒总计完成 260 万次 32 Kb 文件(小文件)的访问。


IBM超级计算机配置的存储系统


IBM Spectrum Scale 存储平台参与了超级计算机存储系统的投标。参与投标的系统由一个包含 77 个节点的 IBM Storage Server (ESS) 集群组成,该集群在 IBM Spectrum Scale 5.0.0 上运行。IBM ESS 的节点使用两台双插槽 IBM POWER9 存储服务器配置为 ½ (20U) 机架构建块,每个服务器配备 1 TB 的内存及 4 个 4U/106 驱动机箱(每个机箱配备 104 个磁盘及 2 个 NVMe SSD),每个节点的原始磁盘存储容量可达到 4 PB。每个 IBM ESS 节点通过一个 4X EDR InfiniBand 网络与集群中的其他节点相连接,该网络最高可实现 90GB/秒的网络带宽。


IBM存储系统测试结果


正如之前所讨论的,超级计算机具有许多独特的 IO 子系统性能目标,而 IBM ESS 集群必须满足这些目标。



首先,超级计算机存储系统的小文件 IO 性能必须达到或超过每秒 50,000 个小文件的创建量。IBM ESS 解决方面每秒大约可创建 57,000 个文件。在此次测试中,IBM ESS 使用的是 1 Kb 的小文件,并通过 23 个客户端节点完成测试。该测试在 23 个节点中使用了小文件 IO 和一个共享式目录。IBM Spectrum Scale 5.0.0 的许多性能增强推动了这次测试的顺利完成,尤其是在节点间通讯速度方面的提升。


其次,超级计算机要求 1MB 顺序读/写总计带宽最低要达到 1TB/秒。为此,我们对 IBM Spectrum Scale 5.0.0 ESS 进行了两次测试:一次是使用 Lustre IOR,另一次是使用GPFS TQOSPERF。两次测试均针对单个客户端/单个文件顺序写入工作负载进行配置。IOR 测试结果显示,每个 ESS 节点的顺序写入性能是 23GB/秒,而 TQOSPERF 的基准测试结果显示,每个 ESS 节点的顺序写入性能是 16GB/秒。当扩展到 77 个 ESS 节点后,两个测试的顺序写入带宽均超过了 1TB/秒。在这一方面,新的多层小数据块写入缓存起到了非常大的作用。


第三,该超级计算机要求顺序读/写总计峰值带宽达到 2.5TB/秒。在针对约 49TB 的文件使用 16 MB 的数据传输规模时,IBM ESS 存储系统的峰值顺序写入性能是 36.2GB/秒,峰值顺序读取性能是 43.4GB/秒。当扩展到 77 个 ESS 节点之后,顺序读取和写入性能可轻松超过 2.5TB/秒。第四,要求每秒总计完成 260 万次 32 Kb 文件的创建。IBM ESS 与 IBM SpectrumScale 5.0.0 的组合可通过 32 KB 小文件的非共享目录实现这一要求,而且每个 ESS 节点也可实现每秒 5.6 万个文件的创建量。当扩展到 77 个 ESS 节点之后,IBM ESS 每秒将能够实现超过 430 万个文件的创建量。


在元数据活动方面,IBM ESS 与 IBM Spectrum Scale 5.0.0 的组合执行了单个线程(从客户端到服务器再到设备)的小数据块随机读取和写入操作,分别实现了平均 80 µs 和200 µs 的响应时间。


此外,在多线程小数据块读取访问方面,之前一代的 IBM Spectrum Scale (4.2.2) 在使用 4 Kb 传输规模的情况下,3 到 4 个线程时可实现的峰值性能不到 40 万次操作/秒;而借助 IBM Spectrum Scale 5.0.0,在使用 4 Kb 传输规模的情况下,16 个线程时可实现的峰值性能大约可达到 270 万次操作/秒,在小文件读取 IO 性能方面提升了 700% 。最后,之所以能满足上述需求,很大程度上有赖于 IBM ESS 能够将单个节点的性能扩展到 77 个节点的能力。IBM 能够在多个节点中提供经验证的 ESS 节点性能。举例来说,IBM ESS 与 IBM Spectrum Scal 5.0.0 的组合在 12 个节点中,每秒可完成超过 500 万次远程程序调用 (PRC)。


总结

IBM ESS与Spectrum Scale 5.0.0 的组合在各个方面都满足或超出了超级计算机的IO 子系统性能需求。IBM Spectrum Scale 5.0.0 包含有大量设计和代码方面的增强功能,可显著提升小文件的 IO 性能,在单个用例中,可将小文件块的读取 IO 性能提升700%。


对于当今的多工作负载 HPC/科学计算环境而言,它们要求存储系统可实现多个 TB/秒的大文件带宽、1TB/秒或以上的小文件带宽,以及每秒数百万个文件的创建量,这样才能支持容量可能超过 200PB 的存储需求。在这个环境中,IBM ESS与Spectrum Scale 5.0.0 的组合可提供其他产品难以企及的世界级性能。


内容分享完毕,更多技术内容参考《GPFS技术大全》,下载链接:GPFS技术大全。





免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 202浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 92浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 95浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 163浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 163浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 143浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 110浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 138浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 149浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 126浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 91浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 169浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 114浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 76浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦