从算力网络发展,看未来十年的宏观算力体系

路科验证 2023-05-18 12:49



编者按

大运营商都在积极地推广“算力网络”的相关技术概念落地,互联网公司有类似的概念叫“分布式云”。个人理解,两个概念的技术实现基本相同,不同点在于:算力网络站在基础计算环境的视角,着眼于算力资源的整合;分布式云从业务服务的视角,着眼于计算以何种形式提供。

今天这篇文章,抛砖引玉,探讨一下宏观视角的算力网络的底层算力体系。


1 算力网络和分布式云的概念

Garnter 2021年发布的战略技术趋势,将分布式云(Distributed Cloud)列为云计算的重要战略技术趋势。分布式云的定义:将公有云服务分布到不同的物理位置(即边缘),而服务的所有权、运营、治理、更新和发展仍然由原始公有云提供商负责。解决客户让云计算资源靠近数据和业务活动发生的物理位置的需求。分布式云是整合公有云、私有云和边缘云在一起,核心思想是,让公有云的全栈服务能力延伸到最靠近用户所需的地方。分布式云,本质上是一朵云,由云负责调配计算资源。虽然中间需要网络,但是网络主要是承担管道的角色。

按照运营商的观点,算力网络是云网协同和分布式云的升级版,指的是:在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的方式,以此提升业务服务质量和用户的服务体验。算力网络中的网络非常关键:网络是用户去往算力资源的必经之路,也是用户发起业务需求的入口,通过网络调配算力。

站在用户业务的角度,分布式云和算力网络的目标是一致的:云网边端从协同走向融合。算力网络是网络拥有者为满足这类需求,提出的方案;分布式云是云计算厂商为满足同样的需求,提出的方案。从趋势看,两种方式是既合作又竞争的关系,随着未来技术和业务的不断发展,两种方式会逐渐趋于统一。

2 从计算形态看算力网络

2.1 计算机的资源分类

在传统CPU的计算机架构里,计算机资源主要分为三类:CPU、内存和外设。在异构和超异构的计算体系下,计算机的硬件资源可以分为四类:

  • CPU:站在控制的视角,CPU作为中央处理器,是整个系统的核心;站在计算的视角,CPU和其他加速器一样,是用于计算的处理器之一。

  • 内存:在异构或超异构计算体系下,内存的概念同经典架构下意义相同;区别在于,在异构或超异构情况下,内存的访问者更多,访问更加频繁,带宽等性能要求更高。

  • I/O设备:同经典架构下意义基本相同。

  • 其他的加速处理器:如GPU、AI-DSA、网络DSA,以及各种ASIC类的加速器等。从CPU视角看,其他的加速器是和I/O设备对等的“外部设备”;而从计算的视角看,其他的加速器是和CPU对等的计算处理器。

2.2 IaaS服务分类

IaaS服务主要分为四类:计算、网络、存储和安全,详细分析如下:

  • 计算类:不管是裸金属机、虚拟机或者容器的形态,云计算的主机或容器硬件平台都是由计算机的四大大资源组件组成的:

    • 计算的CPU处理器,不管是通用(CPU)计算,还是异构计算,CPU都是不可缺少的资源组件。

    • 计算的加速处理器,异构计算需要有GPU、AI加速等加速处理器资源组件。

    • 计算的内存,内存是用于计算暂存的存储资源。

    • 网络和存储I/O,是计算不可或缺的组件;在IaaS体系里,网络和存储通常以独立服务的形态存在。

    • 根据业务场景的需要,计算的硬件平台是这些资源的不同规格不同比例的组合。

    • 根据需要,可以通过很多种方式,实现所有资源的池化,以及实现硬件平台计算资源的本地或(和)远程扩展。

  • 网络类:狭义的网络只是一个网卡,为计算提供网络访问的通道。广义的网络类服务,包括两类:网络转发,如VPC、EIP、各类网关、LB等;网络通信:如高性能网络、确定性网络等。

  • 存储类:从计算的角度看,外存是计算的输入输出,即使计算机关机,外存的数据依然存在。但从云服务器的视角看,本地外部存储是临时存储,当云服务器资源被销毁后,也会销毁本地存储的数据。要想长期地持久化地保存数据,则需要采用远程的分布式存储。本地临时存储和分布式的快存储、对象存储、归档存储等都是以服务的形式,支撑计算类服务。

  • 安全类:安全的计算,如可信计算;安全的网络,如防火墙;安全的存储,如数据加解密等。安全是个非常庞大的话题,无处不在,这里我们不再展开。

2.3 算力网络的两种类型

简单介绍一下Serverless的概念。Redhat给出的Serverless定义为:“无服务器是一种云原生开发模型,可使开发人员专注构建和运行应用,而无需管理服务器。无服务器方案中仍然有服务器,但它们已从应用开发中抽离了出来。云提供商负责置备、维护和扩展服务器基础架构等例行工作。开发人员可以简单地将代码打包到容器中进行部署。部署之后,无服务器应用即可响应需求,并根据需要自动扩容。公共云提供商的无服务器产品通常通过一种事件驱动执行模型来按需计量。因此,当无服务器功能闲置时,不会产生费用。

通俗易懂的讲,有服务器的服务,需要用户自己创建服务的具体实例Instance,一个实例只能归属于一个用户,一个用户可以拥有一个或多个实例;而Serverless类型的服务则不需要创建服务实例,直接使用服务即可,很多用户共享使用同一个服务“实例”(不是所有用户,服务软件在不同数据中心的部署可以是不同的服务)。至于服务所需要的各种底层资源,用户不需要关心,服务可以根据业务使用的情况自动地扩缩容等。

也因此,算力网络的实现形态,我们大体上可以分为两个类型:有服务器型和无服务器型。

类型1,有服务器型

有服务器的形态,更接近算力网络的概念。通过网络等方式实现数据中心的以及跨数据中心的各类资源的池化,然后再通过云裸金属机、云虚拟机、云容器等方式组合出供用户业务运行的硬件的计算平台。

可以根据用户的需求,在云、网、边、端的任何位置,组合出规格和形态各异的计算平台,给用户提供最优的算力服务,实现算力的无处不在。

类型2,Serverless无服务器型

业务软件,经典的C/S或B/S架构,一切皆(微)服务的架构下,可以简单地理解成客户端和多个微服务组成的分布式软件。

Serverless无服务器型,更接近分布式云的概念。类似分布式云的早期经典案例是CDN,当用户访问加入CDN服务的网站时,域名解析请求将最终交给全局负载均衡DNS进行处理。全局负载均衡DNS通过一组预先定义好的策略,将当时最接近用户的节点地址提供给用户,使用户能够得到快速的服务。CDN只是一些静态内容,而分布式云则需要把服务分布式的放置在边缘等节点。

在分布式云的体系下,用户不需要关心底层的主机和容器,只需要关注自己的业务逻辑。通常情况下,客户端可以运行在终端本地(不排除有的系统只在服务器运行,客户端也运行在服务器侧),具体的运行位置用户不需要关心。云服务供应商可以根据微服务所需的带宽、时延、性能、成本等要求,选择最优的运行环境,它可以是终端本地,也可以是边缘、网络或者云端。并且,这些服务还可以根据环境的变化,动态地调整运行的位置。

3 面向未来十年的宏观计算系统特征

3.1 需求的未知

首先,系统场景一直在快速变化:上层软件场景层出不穷,两年一个新热点,已有热点仍在快速演进。并且,宏观大系统,计算资源是预先准备好的。购买和部署相关资源时,并不知道具体的计算资源会分配给哪个用户,也不知道用户在此资源上会运行什么任务。此外,资源分配和任务运行会一直动态变化。

传统芯片和系统设计,需要先理解场景,然后根据场景需求来设计芯片和系统。未来的挑战是,系统的场景需求是不确定的;不但芯片公司不了解,客户自己也“不了解”。

因此,复杂计算系统的设计,需要“无的放矢”。

3.2 全面而综合

不管是云计算数据中心系统,还是云网边端万物互联系统,亦或是云宇宙虚实融合系统,宏观的计算系统,只有“一个”。

然而,千千万不同用户的需求多种多样;并且,用户的需求一直处于快速的变化中;此外,还会不断有新增用户和新增需求。

因此,系统需要有包罗万象的能力,即面对已知的和未知的各种各样的需求,系统都要能够支持。

3.3 专业而高效

通常情况下,“专业的人做专业的事”。言下之意是:专才只能做本领域的事情,其他领域的事情几乎做不了。与此同时,通才什么事情都能做,但在每个领域都不够高效。

但对宏观的复杂计算系统来说,系统不仅仅要能干几乎所有事情,并且干任何事情都要足够的专业而且高效,达到既通又专。

3.4 超级并发

数以亿计的用户,数以万亿计的用户任务,而系统只有“一个”。

千千万用户的计算需求需要及时响应,用户的工作任务需要快速地处理。

因此,同一时刻,系统并发处理数以亿计的各种类型的用户任务。

3.5 无处不在

系统覆盖非常广泛的地域,实现算力无处不在,使得算力资源唾手可得。

即在任何地方,任何时刻,为用户的任何工作任务,都能提供算力和相关资源支撑。

并且,需要以最合适的形态,最合适的方式,给用户更好的体验,为用户创造更大的价值。

3.6 快速演进

上层软件应用层出不穷,系统需求快速变化。并且,同一领域,不同用户的需求具有差异性;与此同时,同一用户的业务需求仍会快速迭代。

宏观地看,用户以及用户需要运行的任务,一直处于不断地变化状态。

复杂而融合的系统,需要持续快速演进,才能适应上层业务需求的不断变化。

4 体系结构视角看算力网络

4.1 算力资源的多样性

随着CPU的性能瓶颈,我们需要通过GPU、FPGA、DSA等各种形态的加速处理器,来持续不断地提升性能和算力。也因此,计算的资源,就不仅仅是CPU了,而是多种架构多种类型处理器的组合:

  • CPU:包括x86、ARM和RISC-v等各种架构的CPU,并且每种CPU还有Vector、Matrix、Tensor等各种加速的协处理器。

  • GPU:GPU作为通用的并行计算平台,是使用最广泛的加速计算处理器。并且,目前的GPU除了支持通用计算的CUDA外,还集成了更高效加速处理的Tensor Core,进一步提升了GPU的加速能力。

  • FPGA:通过各种硬件编程设计,实现各种形态各种架构的计算引擎。

  • DSA:计算有很多领域,每种领域还有很多公司的很多DSA,甚至同一家公司同域但不同代的DSA架构也有可能不同。

  • ASIC:ASIC完全面向特定场景,不同领域的不同场景,都有形态和架构各异的各种ASIC引擎。

这么多的处理器类型,这么多的处理器架构,造就了算力网络计算资源的多样性特征。

性能和灵活性是一对矛盾,对单个处理器引擎来说,如果要性能就必须损失灵活性,如果要灵活性必然损失性能。然而,支撑算力网络的宏观计算系统,既要“全面而综合”,又要“专业而高效”。怎么办?

通过CPU、GPU、DSA等多种类型的处理器相互协作,实现团队作战。每个处理器引擎各司其职,发挥各自的性能/灵活性优势,从而实现宏观意义上的性能和灵活性的兼顾和微观上的每个处理的高效和高性能。

4.2 算力资源的融合

算力资源的多样性,其实也就是算力资源的碎片化,并不是一个好的现象。

4.2.1 算力资源的池化

如果每个处理器核是一个孤岛式的计算资源,那么就没有意义。算力网络的价值本就在涓涓小溪流汇聚成大海,这是算力网络的基础。这样,把宏观的不同云/边缘数据中心、不同终端设备的计算资源汇聚在一起,形成算力的统一的大资源池。

网络本身更多承担的是连接和总线的角色,网络设备中也会有一些计算和存储的资源,可以归属到计算或存储资源类型。

池化虽然可以把不同服务器不同设备上的相同计算资源连成一个资源池,但受限于算力资源的多样性,不同类型不同架构的资源仍然是无法整合到一起的。因此,算力资源的池不是一个,而是很多很多个。比如x86和ARM、RISC-v的CPU资源就无法整合到一个池里;不同厂家的GPU也无法整合到一个资源池里;甚至存储或网络I/O设备,因为接口的不同,也可能无法整合到一个资源池;包括各种DSA/FPGA/ASIC,更是无法整合。

当有多达上百个不同类型不同架构的资源池的时候,其实已经弱化了资源池化的价值。

4.2.2 算力资源的聚合

ChatGPT等AI模型对算力的需求,每2个月翻一倍。如此快速的算力增长,目前只能通过Scale out的方式来提升整个计算集群的性能。但随着集群规模的扩展,集群的损耗变得越来越不可承受:集群内部东西向的网络流量会占到90%以上,真正外部交互的流量只有不到10%。这个现象也符合阿姆达尔规律,受限于系统中串行部分的影响,随着并行计算的节点越来越多,通过提升并行数量来提升系统性能的方式会逐渐遇到瓶颈。

也因此,在Scale out方式无法进一步提升系统性能的情况下,提升性能的方式只能通过Scale up。也就是要提升单个计算节点的性能。也因此,单个计算节点的计算架构需要从现在的异构计算逐步过渡到多个异构融合的超异构计算架构。

4.2.3 软件需要跨硬件移动

传统场景下,软件通常附着在硬件之上,两者是绑定的。可以通过如HAL一样的抽象层来实现平台的标准化,然后再部署操作系统和应用软件。而在系统越来越复杂的情况下,软件的实体,如虚拟机、容器等,需要在不同的硬件上迁移,这就使得软件和硬件逐渐分开了。

通常来说,可以通过虚拟化实现硬件架构的屏蔽,软件不需要太多关注硬件的架构和接口。但随着虚拟化技术的完全硬件化,硬件的架构和接口完全地暴露给了上层的虚拟机或容器。这就对硬件的架构和接口提出了更加严苛的要求。

4.2.4 开放架构和生态,让架构收敛

CPU、GPU、AI-DSA等只有单个类型架构的处理器,一家公司只做私有的架构,如果公司的产品成功,那么就可以独占整个生态。这里的成功案例如Intel的x86,NVIDIA的CUDA。

在同构和异构时代,这种做法是可能成功的;但到了处理器架构非常多的超异构时代,这种做法几乎不可行。因为没有任何一家公司能做到,在所有的计算架构上都能够做到最好。并且“百花齐放”的做法,其实在进一步分裂整个计算生态,与算力网络资源池化和云网边端融合的发展趋势相悖。

在超异构时代,唯一能成功的方式是,大家都遵循一定的架构规范,从而形成开放的架构和生态,让计算的架构逐渐收敛,从而能发挥算力资源池化的优势,真正实现算力无所不在。

(正文完)

路科验证 专注于数字芯片验证的系统思想和前沿工程领域。路桑是Intel资深验证专家,主持验证架构规划和方法学研究,担任过亿门级通信芯片的验证经理角色。在工程领域之外,他在西安电子科技大学和西安交通大学客座讲授芯片验证课程。著有书籍《芯片验证漫游指南》。
评论
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 124浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 58浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 164浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 223浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 204浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 108浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 141浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 158浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 117浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 124浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 70浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 61浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦