GTC20 | 软件定义、硬件加速的可编程InfiniBand NDR网络赋能E级AI和HPC平台

英伟达NVIDIA中国 2020-12-16 00:00

在之前的2020年全球数字超算大会(SC20大会)上,NVIDIA宣布推出NVIDIA® Mellanox® 400G InfiniBand产品,这是全球第一代400Gb/s网速的端到端网络解决方案,可为全球的AI和HPC用户提供最快的网络互连性能,同时将计算、可编程性和软件定义三种技术成功地融于一体,成为业界领先的软件定义、硬件加速的可编程网络,为全球的科研人员和工程人员设计新一代计算系统和提升应用性能提供了新的思路。


NVIDIA Mellanox InfiniBand NDR产品是第7代的InfiniBand产品,利用100Gb/s的PAM4 Serdes技术, 实现了400Gb/s的单端口传输带宽, 是上一代产品的两倍, 同时通过添加更多、更强大的加速引擎,实现了更强大的计算和通信能力。



“Speed Of Light”是关于NDR InfiniBand技术的第一个特征,通过加倍的带宽、更快的包处理能力(Message Rate), 让基于RDMA、GPU Direct RDMA和GPU Direct Storage等先进通信技术的应用性能得到了进一步提升。InfiniBand网络是天然的SDN网络,可以让用户根据应用的属性来选择各种不同的网络拓扑,以达到最优的性能,如Fat-Tree、DragonFly+、各种Torus等。如通过DragonFly+网络拓扑可以在4个交换机Hop内达到一百万个节点的同时通信,这个规模远远超出了E级机、甚至10E级机或百E级机需要的规模;同时其天然的SDN属性也让动态路由和网络拥塞控制变得更容易实现。InfiniBand动态路由已经被广泛地应用到各种网络拓扑当中,成为优化通信性能的关键手段,如美国橡树林国家实验室的Summit超级计算机就通过动态路由将超算中心全网的通信效率从60%提升到了96%。NDR InfiniBand交换机在1U空间内可以支持64个400Gb/s的端口或128个200Gb/s的端口,是上一代交换机端口密度的3倍;它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64 petabits/s,是全球端口数最多、交换容量最大的交换机。


硬件加速是InfiniBand网络的最大特色,随着越来越多的加速引擎被添加到InfiniBand硬件中来,进一步加大了其相对于其它网络技术的领先性。如NDR InfiniBand实现了对于业界最头疼的All2All和Allreduce通信的硬件卸载,能让MPI通信的性能提升四倍。NDR InfiniBand对于MPI Tag Matching的硬件卸载,实现了1.8倍的MPI通信性能提升。NDR InfiniBand可以实现对于NVMeoF的全面卸载, NVMeoF的Target卸载可以让存储系统在几乎不消耗Target端CPU的前提下达到数以百万级的IOPS,NVME SNAP可以实现对于NVMeoF的Initiator端的卸载,同时可以将InfiniBand网络模拟成NVMe磁盘提供给主机CPU,可以解决目前很多OS还没有NVMeoF的Initiator支持的问题,实现了对任何OS, 无论是虚拟化还是物理机的全面NVMeoF的支持;InfiniBand FIO SNAP可以实现对于文件存储的本地模拟,让任何OS都可以享受最先进的分布式文件存储系统的性能优势。


InfiniBand SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术彻底消除了MPI或者NCCL的Allreduce操作中的多打一通信带来的Incast Burst问题,在保证所有端口全线速、共计12.8Tb/s或25.6Tb/s的数据输入的前提下,实现在交换机上的Allreduce、Barrier、Reduce和Broadcast计算,在NDR交换机上更是实现了相比上一代交换机32倍的计算性能提升。InfiniBand SHIELD(Self Healing)技术实现了网络中链路故障的自修复,让网络无需等待管理软件的参与来恢复链路故障,实现了比传统的软件故障恢复快千倍以上的性能,让您的应用不再受困链路故障的干扰,提升应用的性能。


InfiniBand安全卸载是面向Cloud Native的应用场景,InfiniBand已经得到了Open Stack的官方软件支持,通过自带的硬件IPSec、TLS、AES、Root Of Trust等功能,可以让数据不论是在网络中流动时,还是在向存储中落盘时都能以线速性能得到加解密,实现了在虚拟化环境或者在容器化环境中的安全保障。


软件可编程让InfiniBand的应用场景得到了进一步的延伸,可编程的NDR InfiniBand不仅可以让用户处理数据的header,还可以对于数据的数据路径进行操作,如用户可以自定义规则对于数据路径进行操作;或是对于数据直接在网络中进行预处理而无需送到CPU做预处理。用户还可以对于数据的通信特征进行提取、然后利用AI技术对其进行训练,得到不同应用数据的通用通信特征,如果发现有异常通信信息,可以向管理员主动发出预警。


NVIDIA Mellanox NDR 400G InfiniBand亮点


NDR InfiniBand以其优异的性能和灵活广泛的使用场景吸引了众多的合作伙伴一起共建生态系统,包括Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等服务器厂商,以及DDN、IBM Storage等存储厂商。各家公司都已开始研发其新一代产品,实现对于NDR InfiniBand的支持。而包括微软Azure公有云、美国Los Alamos国家实验室、欧洲Jülich超算中心等全球各顶级用户都纷纷表示,期待能尽快应用NDR InfiniBand到他们的业务中去,享受NDR的技术优势。


NVIDIA网络高级副总裁Gilad Shainer表示:“我们AI客户最重要的工作就是处理日益复杂的应用程序,这需要更快速、更智能、更具扩展性的网络。NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎,帮助HPC、AI和超大规模云基础设施以更低的成本和复杂性,实现无与伦比的性能。


E级AI和HPC时代已经来临,同时带来新的挑战,软件定义、硬件加速、面向网络计算的可编程NDR InfiniBand产品将于2021年第二季度提供样品。NDR产品的出现,将会大幅提升E级AI和HPC系统的性能和效率,简化系统的管理和操作,降低系统的TCO,进而保护数据中心的投资。



NVIDIA 首席科学家 BILL DALLY 通过 GTC 中国线上大会 2020 主题演讲,为您解读 NVIDIA 新科技如何助力解决当今世界的巨大挑战。速速扫描下方海报中的二维码观看演讲视频!


评论
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 95浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 66浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 161浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 172浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 79浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 227浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 127浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 122浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 126浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 145浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 111浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 209浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 74浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦