大话DPU—从网络到数据

原创 歪睿老哥 2021-09-30 17:30


2019年,NVIDIA 69亿美金收购了一家以色列的公司,Mellanox。


虽然贵,但是很值。


收购Mellanox之后,老黄把其中Mellanox产品线中一个不起眼的可编程的网卡系列bluefield改名为DPU。


后来的事情,就超出了老黄的想象,各种DPU公司风起云涌,甚至压过“AI”一头,成为了VC眼中的“新贵”,成为了风口。


对于网卡芯片行业,大家都在讲smartnic(智能网卡)的故事,智能网卡已经很高大上了,smartnic,智能网卡。


DPU这个故事一来,smartnic这个名字就从“小甜甜成”了“牛夫人”。


此一时,彼一时。


Mellanox成立于1999年,是以Infiniband产品而起家的,Infiniband主要是是一个用于高性能计算的计算机网络通信标准。Infiniband具有极高的吞吐量和极低的延迟,可以理解成行化的总线。


infinity 无限的。band  带宽;infiniband这个名字直译无限带宽”,非常霸气。


和普通人用的计算机网络比起来Infiniband在带宽和时延上有优势。成本比网络高多了。 但是由于要额外的Infiniband交换机,其成本限定了只能在超算和存储领域这些商用领域使用。


Infiniband的HCA卡和Infiniband交换机。对应就是普通组网的网卡和网络交换机,因为Infiniband的HCA卡和网卡基本上外观一摸一样,技术也类似。都是一端PCIe,另一端高速的serdes所以Mellanox轻车熟路的切入了网卡芯片领域。


在网卡芯片领域,这个和Infiniband不同,这个市场要“内卷”的多,intel在10G网卡时代,凭借82599,X710等多个型号,可以说在服务器网卡市场上,呼风唤雨。和intel的CPU一起配合,成为了各个厂商的首选。


而在网络从10G到25G转换节点上,Mellanox异军突起,成为了市场的佼佼者,Microsoft和Mellanox深度合作,让Mellanox在25G成功上位,取代了Intel和Broadcom在高端网卡的江湖地位。同时Mellanox给网卡来了ROCE,一种基于ethernet的Infiniband的协议,这个是Mellanox的看家本领。数据中心向25G节点转换上,Mellanox成为了最大的赢家。


在2019年时,Mellanox已经称霸服务器网卡市场,是25G/100G解决方案最重要玩家之一。


Mellanox被intel和NVIDIA同时都看上了,intel开出了55亿-60亿美金的“彩礼”,而NVIDIA开出了接近70亿美金的价格。


最终NVIDIA赢了。


平心而论,intel有自己的网卡芯片团队,收购Mellanox只不过是锦上添花,而NVIDIA在网络这个方面毫无积累,所以NVIDIA更迫切,业务协同性更优,也更志在必得。


事实也证明如此!


从智能网卡到DPU,不仅是名字的称呼的改变。


说到DPU,先讲三个故事,看看DPU都干些什么东西。


1:卸载offload

 

很多刚刚入手固态硬盘的朋友,可能会对于固态硬盘容量标识产生疑惑。以某厂商 1TB固态硬盘为例,按道理来说1TB=1024GB,但是在电脑上只能看到953GB。

 

为什么?

 

因为放了一部分FTL 固件的表项,用于均衡磨损。

 

简而言之,花100块钱,只能得到90快钱的东西。

 

花两碗粉的钱,吃了一碗粉,因为有一个空碗需要承担的开销

 

问顾客爽不爽。

 

肯定不爽。

 

云服务厂商也不爽。

 

以目前的公有云为例,IaaS:Infrastrure-as-Service(基础设施即服务)

 

但是对IaaS厂商来说,和普通人买SSD面临同一个情况的窘境。

 

买了一批处理器,内存,硬盘,机房,空调,成立了一个云中心,作为基础设施提供给各位厂家来用。

 

买个100核的CPU,只能用80个核.

 

其他20个核去哪里了?

 

跑一堆云上的软件,OVS,安全,存储,管理等等。

 

这些额外20个核的开销部分,叫做数据中心税,datacenter tax。

 

所以从云厂商来说,是如何利益最大化。用行业“黑话”,降低TCO(总拥有成本)。

 

如何取消数据中心税,那就是要让DPU把这些活都干了。

 

这个故事里面。

 

DPU就是那个干脏活,累活的角色。

 

在云中心,什么脏活累活最为典型?


那非OVS卸载莫属了!

 

OVS的功能说白了,就是虚拟机VM之间的虚拟交换机,原本用软件来实现的。

 

 

说到交换机,那就是三板斧,协议解析,表项查找,动作执行。

 

二层交换机,解析MAC转发,


三层交换机,解析IP转发。

 

OVS虚拟交换机就是解析流表转发。


OVS的流表有三个特点:


1:表项长。

    从五元组,7元组,到更多元组;从端口号,源MAC,目的MAC,VLAN,源IP,目的IP,源端口号,目的端口号等,这还不算完,还有更多项需要参与转发。


2:表项多。

   从几十K到几百K的表项。随着从虚拟机到容器这些更细粒度的划分,表项也是直线增加。


3:查找时间短。

   从10Gbps小包查找大约需要60ns,到100Gbps小包查找需要6ns查找到。


有一种说法, 如果是CPU软件来实现OVS,25Gbps开销需要大约20%处理器核处理,100Gbps大约需要80%的处理器核来处理,数据中心税高了,留给业务的就更少了。


简而言之,随着网络的发展,处理器的能力跟不上了。

 

解决这个问题核心就是,将OVS 卸载(offload)到一个处理单元上来做这个业务。因为本来就是网络的业务,所以卸载到网卡上是最直接的想法。

 

 

如图所示,就是软件卸载和硬件卸载的区别。


那么DPU除了除了OVS的卸载,还有哪些卸载?


1:TCP offload;

2:TLS offload;

3:加密offload;

4:压缩的offload;

 

这些offload,最直接就是降低数据中心税。也有把这些形式叫做IPU,基础设施处理器。


但是,单纯offload,是不能称之为DPU的。

 

2:hypervisor管理


很多人都去过网吧,但是不一定都去过VIP包房。

 

VIP包房和大厅不一样。

 

独立,安全,隐私性好。


VIP身份不会有和普通客户一样的待遇。

 

这样的客户给网吧老板带了非常高的收益。

 

所以要服务好VIP客户。

 

赚钱吗?不磕碜!

 

个人用户赚钱还是企业用户赚钱。

 

大多数是企业用户赚钱。

 

作为云服务厂商,天生有两个用户,个人用户,企业用户。

 

个人用户登录,是一个虚拟机,虚拟机好处就是一个CPU拆开来卖,分时复用,分区复用,没钱就忍了。

 

企业用户和普通用户不一样,肯定是VIP服务。

 

企业用户需要什么VIP云服务?


  • 极强的计算性能,具有和普通物理机一样的计算性能;

  • 安全隔离,物理隔离,资源独占;

  • 快速交付,物理机资源标准化和池化,随取随用;

  • 和云产品连通,如果需要可以和云主机、云存储、云数据库打通,方便业务使用。


什么是云上的VIP服务,那就是裸金属云。


裸金属云就是为企业用户的量身打造的VIP包房;

 

从物理机到虚拟机,容器这些技术是演进的方向。


但是没有想到。重新包装好的物理机又成了香饽饽。

 

还换了一个高大上的名字,裸金属云。 

 

云服务商把全部的CPU资源都给用户去用了。


但是也不能放手不管。

 

怎么管,放在哪里来管。

 

用了一个hypervisor的卡来管理。


如果把CPU比喻成一个宾馆大楼,每个楼里的房间就是一个CPU core,住客就是虚拟机,hypervisor可以认为这个楼的的管理员,只不过这个管理员也要住在宾馆大楼里面,占用一个到几个房间(CPU core)。

 

现在VIP来了,整个宾馆大楼直接都给了VIP租下来了。


当然管理员(hypervisor)也不能在大楼住了,但是管理员(hypervisor还是需要的,就得给管理员(hypervisor找个家。

 

CPU里面不能住了,这个家就放在了DPU里面;

 

阿里云的裸金属云的建设中,提出了一种裸金属bm-hive(bm baremetal 裸金属的缩写),直接把bm-hypervisor 放在了一个网卡形态的设备上,在这种形态下,所有的计算资源都是计算板的一部分,这个可以是X86的E5,core I7,AMD ,甚至可以是ARM。也就是说,在这种结构下,X86的地位只是一个计算节点之一。

 

 

裸金属 hypervisor通过DPDK的vswitch和SPDK的云存储,替代了所有的计算板所有的IO需求,


裸金属 Hive支持VGA设备,供用户连接到bm guest的控制台,裸金属-Hive的架构不仅允许它无缝地集成到现有的云基础设施中,而且使计算板的设计高度灵活——唯一的硬要求是它支持virtio接口。

 

这种方案,但是其核心思想是将计算节点抽象出来,更专用,更灵活的参与到整个服务中;

 


 

这种思想提出,在AWS的的nitro卡就有了。

 

AmazonEC2的 hypervisor 专用硬件实现。当然是个精简的hypervisor,它基于Linux内核的虚拟机(KVM)技术构建,但不包括通用操作系统组件。

 

 

3:从网络到数据


DPU的核心是data。


为什么从网络到数据?


简而言之,TCP/IP的处理效率受到了极大的挑战。


对于10Gbps的网络来说,最大处理约14.88Mpps的包(64byte).

   10 000 000 000/(64byte + 20byte)*8 = 14.88Mpps。


那么对于100G的网络来说,需要处理器包的数目是148.8Mpps(64byte)。

 

而linux的kernel能够处理的能力也就是1M到几MPPS量级左右。



需求和现实,巨大的落差。


要想满足需求,bypass掉kernel,是一个所有人看到的方向。


很多kernel bypass的手段被提出了。


例如DPDK。DPDK就是一种kernelbypass的框架。DPDK通过应用层的PMD的程序不断的轮询。不用中断,而是用轮询,这个是DPDK提升性能的关键。


DPDK还需要CPU一个进程不断轮询。


而RDMA,则是更彻底的kernel bypass,CPU则直接什么也不做,数据直接送给应用层。

 


 

 

DPU就是承载RDMA的另一个载体。RDMA的协议用的是infiniband(IB)。而为了减低成本,不用部署额外的infiniband(IB)。其底层用了IP来承载,主要有两个分支,用IP/UDP承载IB是ROCEv2。用IP/TCP承载IB



Infiniband(IB)是Mellanox的强项,IB是HPC数据交换的互联协议,高性能计算就是例如超算,全球TOP500里面有60%采用了IB进行互联。

  


 

说回RDMA,那么RDMA到底干了什么?

 

除了传统的send receive。最重要的就是 read,write。

 

read,write的是什么。


是数据。


一台主机直接直接向另一台机器的虚拟内存的地址上读或者写。


这个意味着,使用外部资源就如同本地资源一样方便。


没有比这个更简单的操作了。


大道至简!

 

read和write的都是data;

 

基于这个意义上,DPU的D才开始有点意思了。

 

有趣的是,RDMA(IB)是在超算中发展起来的。

 

超算的架构都是CPU+GPU的异构。

 

超算的底层互联从来不是以太网,原因无他,以太网的效率太低了,以太网只在超算边缘作为管理网络来使用。

 

而DPU的设想中,很多资源池化的想法,和HPC有一些异曲同工之妙;

 

2020年hotchips上初创DPU公司,Fungible就有非常准确的描述。通过DPU将X86计算资源,GPU/AI资源,SSD/HDD等存储资源,作为池化资源的构成一个整体,提供外部使用。


Fungible用的技术叫做TrueFabric。RDMA的优劣不是本文要讨论的部分。


但是通过DPU把整个数据中心连接起来,实现高速率,低延迟的效果。




 


这个模型下,整个结构更类似一个边缘云中心。


不过在老哥看来,更类似超算和云融合的一种解决方案。


基于目前这个意义上,DPU的data还只是搬移,并没有在严格意义上被处理。


某些安全处理也是为了数据搬移过程的安全特性,比如IPsec over RDMA;也就是端到端的安全特性,这些数据处理是保护数据,而非改变数据本质。


这个数据搬移还包括:


1:存储数据DPU搬移:

     nvme over fabric,nvme over RMDA。


2:AI数据的DPU搬移:

     GPUdriect over RDMA。


低延迟,高带宽,高性能;


核心目标就是像本地数据一样,访问分布式或者池化的资源。


通过DPU实现数据资源池化。


网络是手段,数据才是目的。


只不过这种连接可以是RDMA,也可以是其他技术手段,RDMA只是其中之一。

 

 

4:谁来用DPU?


第一个卸载的故事中,DPU是offload CPU的负载,是“长工”。

 

第二个管理的故事中,DPU是CPU的hypervisor,是“管家”。

 

第三个数据的故事中,DPU高效的提供CPU 数据,是“奶妈”。


这些手段的目标都是降低TCO,是因为CPU来做这些工作不经济。


无论如何,DPU都不是替代CPU做计算。


在DPU上一堆处理器,来和CPU比赛干活,这个是不是比CPU更有优势?见仁见智。


DSA只有面向一个领域定制,才能有成本的优势。


所以DPU不需要在通用计算领域来搞事情。


保持数据(data)的本色,才是真谛。

 


 


最后一个问题,关于DPU,主要场景用在云上。


云厂怎么想?

    

当然是自研!


AWS的Nitro系列,以及阿里的MOC等等。都是特殊定制的DPU。目前国内几大云厂,基本上全部都有自研方案或者自研计划。


每家云的解决方案都有所不同,特别是DPU是软件和硬件紧密耦合的产物。


云厂对业务更懂,研发能力也不弱。


目前也有很多初创公司做DPU芯片,市场一片火热。


如何把DPU芯片卖给也做这个方面的云厂“竞争对手”?


这是一个比AI芯片更难的难题。




后记

“上周末的智能网卡研讨会,老哥网上听了下各路专家的演讲,云厂面临的问题多,市场能提供的大规模部署的解决方案少,头部云厂商(阿里,腾讯)都是带着自研方案而来的,FPGA+CPU倒是成了大部分公司的DPU不约而同的系统方案,xilinx和intel的FPGA成为市场的选择,也看出来DPU芯片前路漫漫,且行且珍惜,祝大家国庆快乐。



 欢迎关注:歪睿老哥,如果你觉得本文还不错,欢迎点赞,在看,分享。


往期阅读:

芯片代工产业简史-创造自己,也创造了客户

“无法破解的芯片”到底是个什么原理?

"乾坤大挪移",FPGA工程师七层技术修炼之道

苹果也来凑热闹,能否补齐RISC-V的短板?

资本宠儿慕容复,芯片创业为什么会失败?

大话手机处理器-世界上最复杂的芯片

日本芯片产业大败局

“硅仙人”Jim Keller的芯片研发封神之道

EDA工具,芯片打工人爱恨交织的宿命

矿机芯片的今天,AI芯片的明天?

云端芯片之战-小乌云还是大风暴

芯片过热?一场芯片供应链的饱和式救援。

“为了这点醋,包了一顿饺子”-AI芯片的落地之道

降低芯片流片失败风险的"七种武器"

芯片设计公司修炼的“四层境界”

中国芯片产业什么时候能够超过美国

歪睿老哥 芯片设计行业老兵,聚焦芯片行业的那些事,唯武侠与芯片不可辜负。
评论
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 226浏览
  • 构建巨量的驾驶场景时,测试ADAS和AD系统面临着巨大挑战,如传统的实验设计(Design of Experiments, DoE)方法难以有效覆盖识别驾驶边缘场景案例,但这些边缘案例恰恰是进一步提升自动驾驶系统性能的关键。一、传统解决方案:静态DoE标准的DoE方案旨在系统性地探索场景的参数空间,从而确保能够实现完全的测试覆盖范围。但在边缘案例,比如暴露在潜在安全风险的场景或是ADAS系统性能极限场景时,DoE方案通常会失效,让我们看一些常见的DoE方案:1、网格搜索法(Grid)实现原理:将
    康谋 2025-02-27 10:00 253浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 143浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 415浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 261浏览
  • Matter 协议,原名 CHIP(Connected Home over IP),是由苹果、谷歌、亚马逊和三星等科技巨头联合ZigBee联盟(现连接标准联盟CSA)共同推出的一套基于IP协议的智能家居连接标准,旨在打破智能家居设备之间的 “语言障碍”,实现真正的互联互通。然而,目标与现实之间总有落差,前期阶段的Matter 协议由于设备支持类型有限、设备生态协同滞后以及设备通信协议割裂等原因,并未能彻底消除智能家居中的“设备孤岛”现象,但随着2025年的到来,这些现象都将得到完美的解决。近期,
    华普微HOPERF 2025-02-27 10:32 227浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 132浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 107浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 148浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 104浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 140浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 156浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦