关于InfiniBand的技术问答

智能计算芯世界 2024-05-04 08:11

随着大数据和人工智能技术的进步,对高性能计算的需求不断增长。为了满足这一需求,英伟达(NVIDIA)Quantum-2 InfiniBand平台为用户提供了卓越的分布式计算性能,实现高速和低延迟的数据传输和处理能力。
下载链接:

InfiniBand,撼动不了以太网?

英伟达Quantum-2 Infiniband平台技术A&Q

一颗Jericho3-AI芯片,用来替代InfiniBand?

RoCE技术在HPC中的应用分析
《NVIDIA InfiniBand网络技术新特性(2023)》
1、NVIDIA InfiniBand-NDR Q&A
2、NVIDIA Infiniband Networking Update 2023
《OFA Workshop 2023合集》
《NVIDIA Jetson机器软件栈更新合集》
1、NVIDIA Jetson自主机器软件栈更新
2、NVIDIA Jetson赋能新一代自主机器
《集成电路及芯片知识汇总(2)》
《集成电路及芯片知识汇总(1)》
OrionX GPU AI算力资源池化技术白皮书
HPDA/AI市场表现Update浅析(附报告)
HPC市场份额剖析和全球超算计划(附报告)

Hyperion Research:SC22 HPC Market Update(2022.11)

Hyperion Research:ISC22 Market Update(2022.5)

Intersect360全球HPC-AI市场报告(2022—2026)

Intersect360 AMD CPU和GPU调研白皮书


这些是关于IB技术的常见问答。
问:CX7 NDR200 QSFP112端口是否与HDR/EDR线缆兼容?
答:是的,可以兼容。
问:如何将CX7 NDR网卡连接到Quantum-2 QM97XX系列交换机?
答:CX7 NDR网卡使用英伟达(NVIDIA)的400GBASE-SR4或400GBASE-DR4光模块,而QM97XX系列交换机使用800GBASE-SR8(相当于2x400GBASE-SR4)或800GBASE-DR8(相当于2x400GBASE-DR4)光模块。这些模块使用12芯多模通用极性APC端面网线进行连接。
问:CX7网卡双端口400G可以通过绑定实现800G的速率吗?为什么200G可以通过绑定实现400G?
答:整体网络性能由如PCIe带宽瓶颈、网卡处理能力和物理网络端口带宽等因素决定。CX7网卡具有5.0 x16的PCIe规范,理论带宽限制为512Gbps。由于PCIe 5.0 x16的最大带宽限制,CX7网络适配器上没有可用于双端口400G的硬件。
问:如何连接分支线缆?
答:为了实现出色性能,分支线缆(800G到2x400G)需要连接到两台不同的服务器上。这样可以确保分支线缆不完全连接到以太网服务器网卡上,因为GPU服务器通常有多个网卡。
问:在InfiniBand NDR情景中,一分二线缆是如何连接的?
答:在InfiniBand NDR情景中,有两种类型的分支线缆。第一种类型使用带有分线的光模块(将400G分为2x200G),例如MMS4X00-NS400 + MFP7E20-NXXX + MMS4X00-NS400(降级为200G使用)。第二种类型使用分支高速线缆(将800G分为2x400G),例如MCP7Y00-NXXX或MCP7Y10-NXXX。
问:在Superpod网络中,每台服务器上的4个NDR200卡是否可以使用1x4线缆直接连接到同一交换机,还是应该使用2个1x2线缆连接到不同的交换机?
答:在Superpod网络中,不建议使用一分四线缆将每台服务器上的4个NDR200端口直接连接到同一交换机。这种连接方式不符合Superpod网络规则。为了确保NCCL/SHARP的出色性能,叶交换机应使用一对四线缆以特定的模式连接不同服务器的NDR200端口。
问:关于最新的Superpod网络,根据Superpod网络白皮书的说明,在计算网络中需要单独配置2个带有UFM软件的IB交换机。然而,这样的配置会导致集群中少一个GPU节点。如果选择不设置单独的UFM交换机,而是仅在管理节点上部署UFM软件,我能否通过另一组存储网络管理集群而不影响计算网络?
答:建议配置UFM设备,包括软件。在计算网络中的管理节点上部署UFM软件是一种替代方案,但它不应承担GPU计算工作负载。存储网络作为一个独立的网络层面运行,不能用于管理计算集群。
问:企业UFM、SDN、遥测和Cyber-Al之间有什么区别?购买UFM是否有必要?
答:可以使用OFED中包含的opensm和命令脚本工具进行简单的管理和监控,但缺少UFM友好的图形用户界面和许多功能。

问:交换机、OFED和UFM所需的子网管理器数量有差异吗?哪个更适合客户部署?
答:交换机管理适用于最多2K个节点的网络。UFM和OFED的openSM节点管理能力没有限制,但需要与管理节点的CPU和硬件处理能力协调。
问:为什么一个具有64个400Gb端口的交换机只有32个OSFP端口?
答:这个限制在于2U面板的尺寸和功耗限制,它只能容纳32个插槽。这个配置是为了支持两个400G端口的OSFP接口而设计的。在NDR交换机中,插槽和端口的概念是有区别的。
问:是否可以使用线缆连接两个具有不同接口的模块来传输数据?例如,使用一根线缆将服务器上的OSFP端口连接到交换机上的QSFP112端口?
答:模块的互连与封装是独立的。OSFP和QSFP112主要描述模块的物理尺寸。只要以太网介质类型相同(即,链路的两端都是400G-DR4或400G-FR4等),OSFP和QSFP112模块可以相互兼容。
问:UFM可以用来监控RoCE网络吗?
答:不可以,UFM仅支持InfiniBand网络。
问:对于管理型和非管理型交换机,UFM的功能是否相同?
答:是的,功能是相同的。
问:IB线缆支持的最大传输距离是多少,会不会影响传输带宽和延迟?
答:光模块+跳线可以达到大约500m,而无源高速线缆的范围约为3m,有源ACC线缆可达到5m。
问:CX7网卡是否可以连接到其他支持以太网模式下RDMA的400G以太网交换机?
答:可以建立400G以太网连接,并且RoCE可以在这种情况下工作,但性能不能保证。对于400G以太网,建议使用由BF3+Spectrum-4组成的Spectrum-X平台。
问:NDR是否与HDR和EDR兼容,这些线缆和模块只有一种规格吗?
答:是的,通常使用OSFP到2xQSFP56 DAC/AOC线缆以确保与HDR或EDR兼容。
问:OSFP网卡端的模块应该是扁平模块吗?
答:网卡配有散热器,所以可以直接使用厚模块。散热片模块主要用于液冷交换机端。
问:IB网卡是否支持以太网模式下的RDMA?
答:可以启用RoCE,建议使用英伟达(NVIDIA) Spectrum-X解决方案。
问:为什么没有NDR光缆?
答:OSFP模块体积大、较重,使得光纤更容易受到损坏。一个两分支的线缆会有3个大型光模块端口,而一个四分支的线缆会有5个光模块端口。这增加了在安装过程中光纤断裂的风险,尤其是在30m的AOCs中。
问:除了不同的光模块外,400G IB和400G以太网使用的线缆是否相同?
答:线缆是相同的,但需要注意的是它们都是成8°角的APC类型。
问:CX7网卡对延迟性能有特定要求吗?在优化的调试环境下,例如完全使用内存和绑定核心,网络延迟要求是多少?可接受的延迟值是多少,例如小于多少μs?
答:延迟性能取决于测试机器的频率和配置,以及所使用的测试工具,如perftest和MPI。
问:OSFP网卡端的模块应该是OSFP-平模块吗?为什么提到了OSFP-搭载散热器?
答:“搭载散热器”是指集成在插槽中的散热器。
问:UFM在这个集群解决方案中起什么作用?
答:UFM在服务器上独立运行,可以被视为一个节点。它支持使用2个服务器实现高可用性。但是,不建议在处理计算工作负载的节点上运行UFM。
问:推荐为什么规模的网络集群配置UFM?
答:建议为所有InfiniBand网络配置UFM,因为UFM不仅提供openSM,还提供其他强大的管理和接口功能。
问:PCIe 5只支持最高512G吗?PCIe 4呢?
答:PCIe Gen5提供最高32G x 16通道,从而获得最大带宽512G。另一方面,PCIe Gen4提供最高16G x 16通道,提供最大带宽256G。
问:IB网络卡支持单工或双工模式吗?
答:IB网络卡都是双工的。单工或双工只是对当前设备的一个概念,因为发射和接收数据的物理通道已经分开。
问:飞速(FS)能为建设IB网络集群提供技术支持和高质量产品吗?
答:当然可以,飞速(FS)专注于提供高性能计算和数据中心解决方案。在构建IB网络集群方面,飞速(FS)拥有丰富的经验和专业知识,并提供多种连接方案,以满足不同客户的需求。
下载链接:
《RDMA技术参考文献汇总》
《RDMA技术合集(下)》
1、总线级数据中心网络技术白皮书.pdf 
2、RDMA提高数据传输效率.pdf 
3、配置 InfiniBand 和 RDMA 网络.pdf 
4、华为RDMA.pdf 
5、面向AI智能无损数据中心网络.pdf
6、面向分布式 AI智能网卡低延迟Fabric技术.pdf
7、NVMe存储SPDK 加速前后端 IO.pdf
8、基于RDMA多播机制的分布式持久性内存文件系统.pdf
9、云环境下分布式存储性能优化实践.pdf
《RDMA技术合集(上)》
1、智能网卡低延迟Fabric技术.pdf 
2、RDMA参数选择.pdf 
3、RDMA在数据中心中的应用研究.pdf 
4、RDMA系统的挑战.pdf 
5、RDMA网络人工智能训练重要硬件
6、RDMA技术白皮书(中文版) 
7、RDMA技术调研  
8、RDMA在数据中心中的应用研究

2023集成电路行业发展简析报告

“弈衡”通用大模型评测体系白皮书

2023手术机器人行业研究报告

安谋科技:2023年中国大陆集成电路产业人才供需报告

多模态大模型技术演进及研究框架

算力发展研究报告

网络大模型白皮书(2023)发布版

行业大模型标准体系及能力架构研究报告(2023)

智算中心发展创新指南(2023)

中国移动:面向AI大模型的智算中心网络演进白皮书(2023)

液冷数据中心白皮书:数据中心液冷革命,解锁未来的数字冰河

MIPS CPU处理器设计

X86、ARM和RISC-V CPU指令集架构科普

服务器CPU芯片:INTEL&AMD布局

《IDC 2023东数西算下新型算力基础设施合集》

1、东数西算下新型算力基础设施发展白皮书(2023) 2、国家“东数西算”工程下算力服务发展研究报告(2023)

云时代量子通信技术白皮书

精华:中国半导体白皮书

《英伟达H200技术合集》

1、英伟达推出全新H200,算力建设保持高景气 2、英伟达发布H200,面向生成式AI推理场景持续升级

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 127浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 172浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 100浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 81浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 78浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 122浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 111浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 227浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 145浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 161浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 96浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 72浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 211浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 126浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦