前不久中国信息通信研究院主办的2023 ICT+深度观察报告会算网融合发展分论坛上,中国信通院联合开放数据中心委员会发布了《DPU发展分析报告(2022年)》,从正文超链接可下载这份报告。

此前我在探讨英伟达BlueField DPU产品的文章里曾经提到过,或许英伟达最早收购Mellanox的原因,并不是对DPU这类形态的处理器有前瞻性的市场信心,而在于英伟达要搞HPC大规模集群计算——光有CPU、GPU这种单点高算力芯片是不行的。

因为当算力需求扩展到跨芯片、跨系统、跨节点,也就是很多设备要联合起来一起跑的时候,无论是超算、HPC还是AI等应用,计算网络、networking,以及包括安全、虚拟化等在内的各种衍生问题都会产生。如果没有一个能够hold住全场的方案来解决这些问题,那么单节点内的CPU、GPU性能再彪悍,在做算力扩展时也会很悲惨。

这应该是英伟达DPU诞生的一个重要基础。还有一些佐证是,实则与networking相关的基础设施,英伟达也不只在DPU芯片上做布局,还包括Spectrum-4交换机、NVLink之类的东西。而且像Spectrum-4交换机和一般的网络交换机差别甚大,几乎就可以认为是为英伟达HPC生态特别准备的。所以Bluefield DPU最初职能可能是服务于自身;单独拿出来卖大概只是顺便...

扯远了……这个例子实则可用以说明,DPU这种芯片形态的存在价值也不单是我们日常认知中的offload(卸载)原属于CPU的数据传输、存储、安全、虚拟化等工作。前不久中国信息通信研究院主办的2023 ICT+深度观察报告会算网融合发展分论坛上,中国信通院联合开放数据中心委员会发布了《DPU发展分析报告(2022年)》。

这份报告就在第三大章节提及DPU的“核心技术价值”时,将前述这个例子概括为“算力扩展”。“在计算单元的工艺演进已逼近极限,每18个月翻一番的摩尔定律即将失效的情况下,为了满足大算力需求,通过分布式系统,扩大计算集群规摸,提升网络带宽,降低网络延迟成为提升数据中心集群算力的主要手段。”DPU及包含RDMA在内的各种技术的涌现都着力于解决这样的问题。

除了“算力扩展”,还有我们对于DPU认知相对普遍的“算力卸载(offload)”和“算力释放”,是相对全面的概括。有兴趣的读者可以下载查看这份报告——这是一篇对DPU相对概览性质的导读,对于DPU的定义、作用,发展现状和周边技术,及配套政策、未来市场潜力都做了解读。

 

DPU究竟有什么用

前年底的2022全球半导体行业10大技术趋势展望中,我们就提到了DPU市场持续做大和爆发的未来预期。这是基于此前数据中心很流行的一个词“数据中心税”而起的——服务器会配置大量核心的CPU,但对最终业务而言,其中一部分核心是默认被“吞噬”的。因为这些处理器资源需要用来做数据networking、安全、存储、虚拟化等工作。

当这些工作变得复杂,DPU自然就出现了。就像针对图形计算有GPU,针对AI计算有NPU,DPU也成为这个时代下崛起的一大类处理器。一般我们说DPU的工作包括了第一,offload原属于CPU的OVS、存储、安全服务之类的活儿;第二,以hypervisor管理做隔离、虚拟化实现;第三是以各种方式,进一步加速跨节点的数据处理。

在我们看来,DPU出现并大热的基础是摩尔定律的放缓。早在2018年,我们就撰文详述过,随着摩尔定律停滞和半导体制造成本的显著攀升,专用计算、DSA必然成为诸多应用的发展趋势,因为通用计算已经无力承担市场需求的算力提升幅度和速度。NPU、DPU存在的根本皆如是。再偏激一点的言论是,在数据中心某些特定应用领域,通用计算处理器——也就是CPU会逐渐被边缘化。

不过我们始终没有非常细致地对DPU做技术剖析,主要原因是,DPU这个类型的芯片尚在发展早期,以及DPU更类似于一个系统,其构成方式也相对多样——甚至不同企业的DPU产品,解决的问题也可能存在环节、特性或侧重点上的显著差异——如前述DPU的职能多样化,它不像GPU一样就是单纯做图形渲染,或者像NPU那样专做矩阵乘加运算...比如networking和虚拟化就是两种不同的工作类型。

换句话说,DPU尚不存在“标准化”一说。几十年前GPU尚处在发展初期时,情况实则也差不多。这表明DPU这类硬件可能还有很长的路要走。

《DPU发展分析报告(2022年)》第三章节“DPU成为迈向‘联接+计算’的关键一步”,对于DPU的定义、发展、作用和应用方向都做了相对通俗和到位的解读,虽然并未细致到不同的DPU产品,却搭建起了对DPU认知的大框架。

比如在定义部分,明确英伟达BlueField与其CX系列网卡的区别在于,前者有Arm多核CPU核心,满足控制平面的负载offload,“以此实现DPU的基础设施服务的全卸载和宿主机业务物理上的安全隔离”;最终明确“广义上的DPU是基于异构DSA架构,采用软件定义技术路线,支撑基础设施资源层虚拟化,具备提升计算系统效率、降低整体系统的总拥有成本的能力,为高带宽、低延迟、数据密集的计算场景提供计算引擎的专用处理器”。

再比如在“DPU究竟有什么用”(DPU的核心技术价值)的问题上,做了高抽象层级的解读,包括在“算力offload”部分,不仅是消除“数据中心税”,还在于很多人所忽略的DPU达成的安全特性:包括数据的加密解密,以及DPU满足用户数据安全和物理隔离需求的结构特点......除此之外,报告也对DPU的具体构成做了解读,包括CPU/NP、FPGA+CPU、AISC+CPU等......

 

DPU发展的四个关键因素

这份报告的整个第四章节,都在探讨推动DPU发展的几个关键技术和因素,包括RDMA高速网络技术、数据面转发技术、网络可编程技术,以及开放网络及DPU软件生态。

RDMA也就是远程直接数据存取——这种技术将数据直接从一台计算机的内存传输到另一台计算机的内存。数据从一端主机的内存通过DMA方式从网卡转发出去,到另一端通过网卡DMA直接写入另一端主机的内存,整个数据传输过程无须操作系统和CPU参与。这份报告认为,在TCP协议栈内核转发无法满足性能要求的情况下,RDMA承担基础网络传输功能,提升数据中心整体算力。

“RDMA凭借其高吞吐、低延时、CPU旁路、适应性广、技术成熟等特点,已成为数据中心技术服务的一个重要组成部分。”RDMA显然是DPU发展的推力之一。

其次是“数据面转发技术”,说的应该就是networking,或者网关/交换。报告中提到,在数据面硬件转发技术中,基本的硬件处理架构有两种:基于NP的RTC(run-to-completion)架构和pipeline架构。报告提到,pipeline转发架构表现出了相对优势——这种流水线架构下,流程拆分成不同处理阶段,然后达成流水线级并行。流水线不同stage可以做固定功能单元,也可以分别做成可编程。这类方案在性能、时延方面都有优势。

所以“从功耗、性能、面积的角度考虑,DPU跟随网络流量需求变化,基于可编程pipeline的硬件架构更符合DPU加速硬件报文转发的发展方向”。

第三是“网络可编程技术”。DPU上的网络可编程技术,包括控制平面和数据平面网络可编程技术。控制平面自然是相关于DPU上的通用处理器,而数据平面相关于配套的加速器——后者当然是关键。因为网络协议是变化发展的,加上自定义网络扩展协议需求,数据平面必须支持网络可编程技术。

“目前DPU数据平面网络可编程技术主要包括基于快速流表和基于P4流水线两种常见技术。”报告对两者都有对应的介绍。包括开发数据中心委员会此前已发布的《P4敏捷可编程转发设计白皮书》《P4超融合网关技术白皮书》。

最后,还有“开放网络及DPU软件生态”。作为一种新的处理器类型,而且大方向上是个加速器(主CPU的数据处理硬件加速器),其应用开发是涉及到生态的。关注我们对英伟达报道的读者应该对DOCA已经比较熟悉。这份报告中提到,目前市场上主流的开放网络及DPU软件生态主要有Linux基金会宣布的开放可编程基础设施OPI,Intel驱动主导的IPDK,英伟达的DOCA,开放数据中心委员会开展的无损网络项目等。

“在DPU软件生态层面,DPU实际上还是以网络为基础,通过网络业务模型创新和硬件加速技术,来构建和拓展存储和安全业务,进而提升计算业务的效能,实现数字基础设施变革。”报告认为,开放网络软件生态不应该是“各家DPU厂商另起炉灶、各立门户”的,毕竟这关乎到DPU这个类别硬件的创新发展。

基于DPU目前仍处在发展早期,硬件结构形态尚无明确定论,市场竞争者的混战恐怕还会持续很久。我们倒是认为,唯有在市场进入成熟期,DPU生态才会相对平稳和统一。实际上,可编程平台、通用软件生态的潜在应用与场景开拓,是为DPU未来发展提供了各种可能性的基础。

 

未来会有更多应用领域的覆盖

上面这些总括了《DPU发展分析报告(2022年)》的部分关键内容。其他相关内容,还是建议感兴趣的读者前往下载查看,此处不再多做赘述。包括DPU这类硬件在中国的发展机会,如DPU契合“东数西算”这类工程的开发需求,以及相关的政策支持等。

实际在2023 ICT+深度观察报告会算网融合发展分论坛上,中国电信、云脉芯联、华为、浪潮、英伟达等企业代表都做了对于算网融合发展的主题演讲。不仅是国际厂商正在DPU市场发展过程中做前期部署,有一系列的产品研发、收购和生态扩展动作;国内市场参与者也不想在这方面落后。

比如其中云脉芯联就在演讲中谈到已经推出的“国内首款自主研发支持2口100G RDMA智能网卡产品”。云脉芯联产品负责人孙伟分享了云脉芯联基于DPU芯片的TOP创新架构,TOP分别表示Converged Transport(融合互联)、Open Platform(开放平台)、Hyper Performance(极致能效)。

从介绍来看,这家公司的DPU产品似乎在各方面都契合《DPU发展分析报告(2022年)》提到的相关技术趋势,比如说通过“开放的可编程的Pipeline、可编程的拥塞控制算法平台”提供灵活性,适配不同应用场景;还有在TOP架构理念的基础上,“通过自主创新的端网、算网、云网等端到端的高性能融合互联引擎,能够提供百G网络吞吐、微秒级网络延迟和百万级网络连接”;以及在DPU产品定义上,“通过异构算力实现加速、存储/网络卸载,实现极致能效”等...

云脉芯城在介绍中提到,公司“在创立近2年的时间里完成了DPU核心技术RDMA技术和可编程的底层网络接口技术的研发,在RDMA高性能网络传输,基础设施服务卸载和IO虚拟化三大关键技术上实现了突破”。

结合报告,可以更好地理解云脉芯城为什么做了这样的开发与规划。据说在商业落地方面,其自研DPU也推进顺利,“目前云脉芯城已与国内头部数据中心解决方案供应商合作推进无损网络端网融合解决方案并完成测试”。

国内外企业对于DPU这个形态的硬件都如此重视的根本,当然就在于对这个市场的看好——数据中心的DPU发展共识已无需赘言。报告在未来展望章节中提到,尤其在中国这个数字化转型范围不断扩大的市场中,“DPU覆盖领域将从数据中心逐步向智能驾驶、网络安全、网络储存、云计算、高性能计算、人工智能、边缘计算、数据存储及流媒体等多领域渗透”。看来DPU市场的兴起才刚刚开始。

责编:Illumi
阅读全文,请先
您可能感兴趣
美国政府近年来不断出台限制措施,阻止英伟达等企业将GPU产品出售给中国客户,国内互联网及AI大模型企业不得不寻求其他替代品。这对于国产GPU来说即是压力也是动力……
此次被列入实体清单的中国企业涵盖了多个高科技领域,包括但不限于人工智能、半导体以及量子技术等。值得注意的是,这是美国首次将中国的大模型公司(智谱AI)列入实体清单。
英特尔前首席架构师赛莱什·科塔帕利在英特尔担任过多款 Xeon 服务器处理器的首席工程师以及数据中心流程架构的平台工程组总监,近年来高通也一直在寻求进军服务器市场,这预示着高通有望在服务器市场上的进一步发展......
OpenAI认为,芯片、数据、能源和人才是赢得人工智能的关键,且建议美国政府大幅增加对这些领域的投资。
该举措标志着美国政府对先进计算集成电路和封闭式两用AI模型权重的出口控制力度进一步加大,并引入了全新的强制性全球许可制度。
目前,这些故障主要影响了首批搭载Blackwell芯片的机架,从而引发了客户的担忧。其中,微软、亚马逊网络服务公司(AWS)、谷歌和Meta这四大主要客户已经削减了对Blackwell GB200机架的订单。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
近日,据36氪报道,进入2025年,丰田汽车针对中国区业务进行了一系列重要的人事调整。丰田中国已正式任命李晖为首位中国籍总经理。同时,广汽丰田现任总经理藤原宽行将被调任至一汽丰田,担任总经理一职。这一
互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件,对员工福利政策进行微调。包括:2026年将停止发放春节红包(今年发放);2025年度不再发放端午、中秋节礼品;
1月23日,艾森股份发布公告称,公司正筹划以发行股份及支付现金的方式购买棓诺(苏州)新材料有限公司(以下简称“棓诺新材”)控股权并募集配套资金。该公司相关股票自2025年1月24日起停牌,预计停牌时间
上周SemiAccurate 曾报道称,一家神秘公司正在探索全面收购英特尔的可能性。表示有 90% 的把握认为有关英特尔被收购的消息是“真实的”,已从另一位“地位很高的消息人士”处获得了证实。虽然没有
1月20日,印度公司Dixon Technologies在2025年第三季财报电话会议上宣布,公司已与惠科(HKC)合作选定一处场地用于其显示制造工厂,该工厂计划于2026财年第一季度末或第二季度初开
近日,维信诺在显示技术领域取得重大突破,在业界率先采用固态激光退火(SLA)技术,成功实现非晶硅薄膜向多晶硅薄膜的转化,并实现量产品成功点亮,预计在今年2月底将实现SLA技术的大规模量产。这一创举标志
本视频演示,如何将仿真器连接到使用安全ID锁定的RL78设备。  00:00:介绍 00:25:调试  00:40:设定安全ID  相关资源: • Visual Studio Code - 如何在安装
要点 原始设计制造商(ODM)/ 独立设计公司(IDH)产业格局受到地缘政治冲突的影响。闻泰科技已剥离受影响的业务,并专注于半导体业务。立讯精密收购了闻泰的ODM业务,改善了自身的业务布局。随着ODM
近日,赛力斯发布2024 年年度业绩预盈公告,预计 2024 年度实现营业收入1442亿元到1467亿元,同比增长302.32%到309.30%;归属于上市公司股东的净利润预计将达到55亿元至60亿元
昨天的时钟音箱的拆解文章:拆解时钟蓝牙插卡音箱-用单个LED直接代替数码管是个非常不错的降本设计思路我给电路板提了个建议,就是说上面2个2P排座,一个插电池,一个插喇叭的排座没必要区分红白色,就一种颜