精准匹配智算供需:智算IP广域网发展步入快车道

原创 网优雇佣军 2025-01-14 20:02

随着AI技术和应用迅猛发展,行业正面临日趋加剧的智算供需对接挑战。一方面,国内已建设很多智算资源池,尤其运营商已在全国范围内落地多级算力资源池,迫切需要充分发挥这些智算资源的作用;另一方面,行业对人工智能技术的投入持续增加,产生了海量样本数据上传和日益复杂的模型训练需求。


如何精准对接智算资源供给与行业需求?智算广域网成为业界关注的焦点,其不仅是智算中心与各行各业之间智算数据传输的桥梁,更是实现“网效”与“算效”双提升的关键基础设施。


正是在这样的背景下,中国信息通信研究院于12月23日在京举办了以“打造超弹性无损智算IP广域网,加速迈向智能时代”为主题的“智算IP广域网产业交流会”。会上,行业专家们围绕技术创新、应用实践和产业标准等方面进行了深入探讨,并联合发布了“智算广域网发展倡议”和首批创新成果,充分展示智算IP广域网实用性与广阔的应用前景。



智算场景需求旺盛,

对广域网提出全新挑战



技术的发展离不开需求的驱动。对于智算广域网的创新发展,在会上,中国工程院邬贺铨院士和中国通信标准化协会闻库理事长均建议行业从场景需求和痛点入手,深入探索与创新技术路径和业务模式。


当前智算业务具体有哪些场景需求和痛点?“海量样本入算、存算分离拉远训练、跨数据中心协同训练和业务推理等典型业务需求给传统网络带来了全新的挑战,为提升网效与算效,行业需要通过广域超宽、网络高吞吐、RDMA长距无损、任务式服务和差异化体验保障等关键技术创新推动智算广域网快速发展。”中国信息通信研究院技术与标准研究所互联网中心高巍主任对智算广域网典型业务需求和挑战进行了深入分析。


海量样本入算,指企业需要将海量样本数据实时上传到智算中心。传统广域网主要针对数据量较小的“蚂蚁流”设计负载均衡,而样本入算以GB级的“大象流”为主,流数少但单流数据量大,且具有强突发性,若仍采用传统网络的负载均衡方案,容易引发链路拥塞和负载不均而造成整网吞吐严重下降。同时,样本上传通常需要短时高带宽支持,若企业采用传统固定带宽连接方式,会面临“低带宽等不起、高带宽用不起”的问题。因此,海量样本入算场景要求智算广域网具备弹性高带宽和更有效的均衡调度能力。


存算分离拉远训练,指行业对敏感数据的安全性要求较高,需通过RDMA协议直接将样本数据送到智算服务器的内存中进行训练,使样本数据不落盘存储于第三方算力资源中。然而,RDMA技术对丢包极为敏感,千分之一的丢包会导致计算效率下降50%以上。因此,智算广域网需部署RDMA无损传输技术,以确保样本数据远距离高吞吐无损传输,算效不下降。


跨数据中心协同训练,指利用网络实现多智算中心协同计算,以提升整体算力效率,满足更大规模的算力需求。单体智算中心因受制于机房空间、电力资源等限制,越来越难满足呈指数级增长的算力需求,因此跨数据中心协同训练成为了新趋势。但该场景面临RDMA长距离传输对丢包十分敏感、网络传输时延增加等挑战,要求网络具备广域无损调度、精准拥塞控制等能力,以确保跨智算中心算效不下降。


业务推理场景是利用数据和模型为特定业务需求提供智能分析和决策支持的实际应用场景。推理业务需要网络来实现数据的高效传输和模型结果的实时交付,从而支持智能应用的快速响应。这要求网络具备高带宽、差异化时延保障、高等级的安全隔离等能力,以及具备边缘节点东西向连接能力。



精准匹配供需,

运营商加速智算广域网创新实践



需求的满足离不开技术的创新与突破。当前,中国移动、中国电信和中国联通三大运营商正加快完善算力布局,建起了覆盖全国的多层级算力中心。为了将这些算力资源充分转化为各行业可用的智算服务,精准匹配算力供给与行业需求,三大运营商已聚焦场景需求和痛点,积极推动智算IP广域网技术创新与试点,并已取得初步成果。


面对上海全市300多家企业、40多所高校和研究所以及11个信息化园区的用算诉求,上海电信已试点建设一张端到端400GE IP弹性无损智算广域试验网络,为企业提供海量样本高效入算、存算分离拉远训练等智算服务。


上海电信副总工程师张坚平表示,该网络通过网络高吞吐使能“算得多”,RDMA广域无损保障“算得快”,任务式弹性服务做到“用得起”,全面匹配智算时代下新供需关系带来的网络诉求。其中,400GE弹性算网通过端到端部署400GE大带宽接口技术,将网络传输能力提升至4倍,并通过在企业侧部署智算CPE,可构建100Mbps到100Gbps的IP弹性专线,满足企业通过一条专线同时访问多种异构算力资源池的需求;长距RDMA无损传输技术使网络吞吐率逼近400GE线路带宽,支持广域超百公里RDMA远距离、高吞吐无损传输,算效不下降;结合网络控制器智能调度和秒级调优技术,可实现算力业务传输质量实时可视,保障智算业务传输时延,有效满足推理业务流量毫秒级传输。


浙江联通建设发展部总经理汤滢琪分享到,在中国联通服装制造军团“衣瞳行业模型”训练场景中,面对很多服装厂家有明确的数据敏感性要求,希望数据不出园区,浙江联通通过IP广域无损方案,实现了杭州存、金华训的“数据不落盘”拉远训练。该方案在业界首次实现30TB样本数据跨200公里存算分离拉远训练,计算拉远效率大于97%,充分验证了存算分离拉远训练技术的可行性。


存算分离拉远训练不仅能确保数据外部“不落盘”,还能大幅提升算力资源利用率。重庆移动计划部副总经理刘轻舟在会上介绍,在重庆,某车企的全球数据中心设在重庆,并在多个城市部署智算中心,这种跨区域的布局面临两大痛点和需求:一是传统“先传后训”模式导致算力资源利用率低下,约30%的时间处于闲置状态;二是敏感数据传输涉及安全性需求。为此,重庆移动联合华为创新提出“存算拉远”解决方案,利用广域RDMA无损网络技术将敏感数据直接传输到算力卡内存,以“边传边训”的方式不仅确保了数据训练后即清理,而且极大降低了算卡闲置率和训练耗时,将传输效率提升超过90%,从而有效解决了大模型训练中的算效与安全性问题,为智算IP广域网赋能智能网联汽车产业升级树立了标杆。


此外,在算间协同场景,面对单体智算中心难以满足超过10万卡的建设需求,北京电信正在探索通过智算广域网整合京津冀三地算力中心资源,创新多算力中心协同的多点共算模式,以支持超大模型训练。北京电信云网发展部规划总监姚凌分享到,北京电信通过配置新一代智算路由器,采用新型流级拥塞控制技术,实现了网络拥塞或故障快速精准识别,确保了拥塞不扩散到全网;并通过采用路由器广域无损调度和负载均衡技术,保障了业务吞吐率达到95%以上,实现了跨100公里长距离算效仅下降1%。这些实践成果为实现京津冀算力资源一体化协同提供了可能性。



产业协作,

智算广域网发展步入快车道



有明确的需求牵引,也有技术创新支撑,更有显著的实践效果,无疑彰显了智算IP广域网的可行性与广阔前景。然而,要跟上AI应用飞速发展的步伐,加速智算IP广域网规模化落地,前方仍面临不少挑战,这迫切需要产业界凝聚共识、携手合作,持续推动技术创新和标准制定,并积极探索新模式、新场景。


为此,在会上,中国信通院、中国通信标准化协会、中国电信、中国移动、中国联通和华为联合发起了“凝心聚力,携手并进,共同绘制智算IP广域网产业宏伟蓝图”的倡议,旨在聚力产业各方资源,更好推进智算IP广域网技术创新和产业发展。


近年来,随着算力需求呈指数级增长,如何通过算网协同保障智算高效供给,最大化发挥算力价值,已成为全社会关注的重点。国家相关部门从顶层设计角度已紧密发布一系列政策。2023年10月,工信部等六个部门联合发布《算力基础设施高质量发展行动计划》,提出通过优化算力高效运载质量、强化算力接入网络能力、提升枢纽网络传输效率、探索算力协调调度机制四个方面提升算力高效运载能力。12月,国家发展改革委、国家数据局等部门联合印发《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,明确提出算力网是支撑数字经济高质量发展的关键基础设施,可通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。


在政策和市场双向驱动下,运营商正加速布局一体化算力网。比如,中国联通推出了全新的算力智联网AINet,依托“网络+平台”两大基础底座,实现高通量、高性能、高智能的“三高”核心能力,提供高效入算、灵活联算、数据快递、数据高铁、算网一体等领先的算网产品与服务,为各行各业智能升级和智算业务发展铺平广阔道路。中国移动已形成“四纵一横”一体化发展的算力网络架构,系统性构建了“九州”算力互联网,围绕多元承载、敏捷感知、超宽联接、稳定可靠、AI智能、弹性服务这八大核心能力打造“MATRIXES”技术体系。


智算广域网作为支撑智算数据高效流通和智算资源高效调度的新型网络底座,是算网一体化布局的关键一环。从顶层设计领航,到运营商整体布局,都将为智算IP广域网的快速高质量发展再添动力。因此,从本次大会可以看出,在政策引导、市场需求、技术创新、产业协作等多重因素的推动下,智算IP广域网创新发展正步入快车道。


网优雇佣军投稿邮箱:wywd11@126.com
长按二维码关注
 通信路上,一起走!

网优雇佣军 通信、科技、未来!通信路上,一起走!
评论
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 446浏览
  • 电动汽车(EV)正在改变交通运输,为传统内燃机提供更清洁、更高效的替代方案。这种转变的核心是电力电子和能源管理方面的创新,而光耦合器在其中发挥着关键作用。这些不起眼的组件可实现可靠的通信、增强安全性并优化电动汽车系统的性能,使其成为正在进行的革命中不可或缺的一部分。光耦合器,也称为光隔离器,是一种使用光传输电信号的设备。通过隔离高压和低压电路,光耦合器可确保安全性、减少干扰并保持信号完整性。这些特性对于电动汽车至关重要,因为精确控制和安全性至关重要。 光耦合器在电动汽车中的作用1.电池
    腾恩科技-彭工 2025-01-10 16:14 69浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 161浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 428浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 76浏览
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 93浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 463浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 424浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 433浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 319浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 449浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 474浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦