AI计算的下半场

原创 技术大院 2022-07-13 07:53
你关心的就是我们关注的


当电力成为基础设施、成为工业主要动力的时候,人类才真正走入电力时代。而今天互联网和算力的渗透已经超过了过去所有基础设施,但还远远不够,人工智能还只是算力时代的第一个灯泡,更多我们不敢想的事情还远未出现。


无论是AI还是物联网,都逐渐成为生活的一部分,时代变化、技术更迭,背后不变的是雪崩般增长的数据和与之伴生的算力黑洞。



(正文)
01

高需求背后的极限警告
AI时代的算力、算法和数据处在一种螺旋式的提升关系中,由于芯片制程和计算性能的提升,使得对算力的渴求不像以前那样迫切,可以说过去十年AI的发展,是靠算法推动的。


随着大数据、5G技术的发展,各式各样的应用场景带来AI的落地,当算法普及和数据累积达到一个新的程度时,原来的算力又不够了,成为AI性能提升的硬指标。

算法和数据的不断演进、交替上升,对更高算力的需求永不停歇。时至今日,算力依然成为制约AI进一步发展的关键因素。


人们从来没有想到过芯片的算力会有到达极限的一天,至少从来没有想到极限会这么快到来。


麻省理工学院的研究人员前年就曾发出算力警告:深度学习正在逼近计算极限。根据MIT的一项研究,深度学习的进展非常依赖算力的增长。


研究人员分析了预印本服务器Arxiv.org上的1058篇论文和其他基准资料,以理解深度学习性能和算力之间的联系,主要分析了图像分类、目标检测、问题回答、命名实体识别和机器翻译等领域如下两方面的计算需求:

  • 每一网络遍历的计算量,或给定深度学习模型中单次遍历(即权值调整)所需的浮点运算数

  • 训练整个模型的硬件负担,用处理器数量乘以计算速度和时间来估算

结论显示,训练模型的进步取决于算力的大幅提高,具体来说,计算能力提高10倍相当于3年的算法改进成果。


如同水利之于农业时代,电力之于工业时代,算力,已成为国民经济发展的重要基础设施。国家发展改革委高技术司解释,算力是数字经济的核心生产力。截至目前,我国数据中心规模已达500万标准机架,算力达到130EFLOPS(每秒一万三千亿亿次浮点运算)。随着数字技术向经济社会各领域全面持续渗透,全社会对算力需求仍十分迫切,预计每年仍将以20%以上的速度快速增长。


物联网推动数据几何级增长,人工智能和大数据技术,特别是企业级对算力的渴求,榨干了芯片企业每一丝算力,而且在算法红利逐渐消失的现在,算力的增长就变成了货真价实的真金白银。


自2012年至今,AI算力需求已增长超30万倍,以GPU为代表的AI加速芯片取代CPU,已经成为AI算力的主要提供者。GPU服务器相对CPU服务器来说是非常昂贵的,大约是美金和人民币汇率的差距(以8卡GPU服务器为例),而且在芯片紧缺的年代,GPU到货周期还比较长。


算力提高的背后,其实现目标所隐含的计算需求——硬件、环境和金钱等成本将变得无法承受。


由于当前粗放的使用及管理方式,大部分用户的GPU利用率只有10%-30%,这就造成了这一宝贵资源的大量浪费,如何更好的利用和管理GPU资源就变得尤其关键。


02

算力分配失衡影响产业发展

算力高成本下的分配不均是影响AI产业发展的关键因素,下面是一些算力分配不均的典型场景:


场景一:

大多数的情况下采取的是为一个开发者分配一块或几块GPU卡的方式来满足开发调试的需求。这种情况下存在什么问题?卡和人绑定,卡分配之后,存在着较大的闲置,开发人员70%以上的时间都在读论文、写代码,只有不到30%的时间在利用GPU资源进行运算调试。


场景二:

通过调查了解,绝大多数企业为了保证业务的隔离性,不受其它AI业务的干扰,保障服务的SLA,都是运行在独立的GPU卡上。在这种情况下,GPU卡的算力和显存使用往往不到20%,这样造成了大量的资源浪费——近80%的算力和显存其实是被白白消耗,而且还有与之相关的电费,运维费用。

场景三:
智能化自动驾驶汽车是人工智能技术落地的最大应用场景之一,智能化汽车很有可能成为未来万物互联的终端,成为继智能手机之后,深刻改变社会形态的产品。


自动驾驶研发的每一个阶段几乎都要涉及到AI深度学习算法的参与,包括机器视觉、深度学习、增强学习、传感器技术等均在自动驾驶领域发挥着重要的作用,自动驾驶发展的瓶颈主要在于这些人工智能底层技术上能否实现突破。

自动驾驶技术与AI流程图

 

在自动驾驶领域的算力资源,往往分为车载边端算力和数据中心算力:

  • 车载算力目前以指数级方式快速增长,但仍不能满足车上大量多模态AI业务的需求,所以目前关注重点仍然是算力硬件设备的优化

  • 而数据中心端则是相较通用的AI开发、训练和离线推理场景,为了迭代出更准确的算法,需要对每天的路测数据进行处理,让自动驾驶模型反复训练优化,并且进行大量验证测试工作


大多数的AI开发涉及到从数据准备、预处理、模型训练、调参、部署模型、线上推理、持续监控、数据收集、迭代优化的过程。在整个业务流程中,有些工作是需要大量CPU,不需要GPU资源的,在CPU运算的时候,其实GPU是闲置的。



03

AI 计算的下半场:软件定义算力

正如前面阐述的,算力有多重要,就有多昂贵。巨大的算力需求,使得GPU价格一直居高不下。高昂的成本,让更多的用户在AI世界的大门面前望而却步。


历史的经验告诉我们,一个产业的发展一般都有三个阶段:

  • Make it work

  • Make it perform

  • Make it cheap

也就可用、好用、用得起,只有一项技术“飞入寻常百姓家”时,这项技术才能真正为全人类所用。

因此笔者认为:未来10年,算力平民化会成为AI的发展方向,也是必然趋势


如何实现普惠算力?正如我们前面提到的,通过软件定义,实现算力资源池化是当下有效的办法。


场景一的解决方案:

利用软件定义GPU的技术,把卡和人解绑,当有任务调用GPU资源的时候才真正被占用,任务结束,资源释放,回到资源池。


下图是一个JupyterLab的开发场景,VSCode server/PyCharm的模式与这个类似,在实际的案例里,使用软件定义的GPU之后,资源能缩减至25%左右!50个人的开发团队,16张卡搞定。


场景二的解决方案:

通过软件定义的方式,提供细颗粒度的GPU资源复用单卡,保障业务运行的隔离性,可靠性和性能。大部分采取趋动科技池化方案上线生产业务的客户,可获得3倍以上的提升收益。


场景三的解决方案:

打造一站式自动驾驶AI开发、训练、运维的解决方案,提供CPU、物理GPU、OrionX vGPU、存储等多种资源,实现界面化统一申请、调度、监控和运维,同时实现AI开发和训练任务级别的界面化管理,提升车企或自动驾驶企业算法研发效率,兼顾算法工程师和运维工程师等不同人员对AI平台的多样化需求。



举个例子:

如果把GPU比作大巴车,AI的计算任务比作旅游团。计算量最小的任务,就如同三五人的小团体;计算量大的任务自然是上百人的大型旅行团。在传统的算力分配模式中,无论计算量大或者小,都会至少占用一个硬件单元。就像小团体出游,却占用整个大巴车,剩余的座位都是空的。正是这种模式,浪费了大量算力,降低了GPU芯片的利用率。


我们是否可以对传统算力分配模式颠覆。用最直观的比喻来说,做出一款可以“随需应变、动态伸缩”的大巴车。用户不再使用物理AI芯片,取而代之的是随需应变、动态伸缩的虚拟AI芯片。


数据中心也是算力池化非常合适的场景。在数据中心里,最主要是由服务器提供算力,但是因为GPU非常昂贵,一般来说,不会每台服务器都配备GPU。如果能够通过软件定义AI算力可以帮助用户让应用跑在没有GPU的服务器上,通过网络使用其他服务器的GPU算力。未来网络基础设施会变得越来越好,如果网络条件足够好,大胆畅想,甚至可以帮助用户在省、市的范围内来调配算力。


帮助用户根据需求来动态伸缩使用的资源。比如说,某一用户的任务刚启动时只需要一个甚至半个GPU,但是随着运行的不断推进,需要的计算量越来越大,就需要10个GPU,甚至更多。通过软件可以根据具体需求,动态变化所使用的资源。


04

技术演进:GPU从虚拟化到资源池化

学术界和产业界一直在探索如何更优使用GPU资源,这些技术基本可以归纳为GPU池化发展的四个阶段:

  • 阶段1,简单虚拟化。将单物理GPU按固定比例切分成多个虚拟GPU,比如1/2或1/4,每个虚拟GPU的显存相等,算力轮询。最初是伴随着服务器虚拟化的兴起,解决虚拟机可以共享和使用GPU资源的问题

  • 阶段2,任意虚拟化。支持将物理GPU按照算力和显存两个维度灵活切分,实现自定义大小虚拟GPU(通常算力最小颗粒度1%,显存最小颗粒度1MB),满足AI应用差异化需求。切分后的小颗粒度虚拟GPU可以满足虚拟机,容器的使用

  • 阶段3,远程调用。重要技术突破在于支持GPU的跨节点调用,AI应用可以部署到数据中心的任意位置,不管所在的节点上有没有GPU。在该阶段,资源纳管的范围从单个节点扩展到由网络互联起来的整个数据中心,是从GPU虚拟化向GPU资源池化进化的关键一步

  • 阶段4,资源池化。关键点在于按需调用,动态伸缩,用完释放。借助池化能力,AI应用可以根据负载需求调用任意大小的虚拟GPU,甚至可以聚合多个物理节点的GPU;在容器或虚机创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用

GPU池化发展的四个阶段


GPU池化:站在整个数据中心的高度解决问题。OrionX AI算力资源池化软件不同组件的功能及逻辑架构,通过各组件“各司其职”,能为用户实现单机多租户细粒度切分、多机资源聚合、远程算力调用、资源池弹性伸缩等目标;同时由于OrionX支持异构算力的管理和共享,所以能站在整个数据中心的高度解决GPU利用率低、成本高、分配与管理难等问题,建立数据中心级加速资源池。


OrionX基于API Forwarding的基本原理和逻辑架构

注:(本节内容选自趋动科技CEO Talk:GPU池化技术的演进与发展趋势)


05

构建国家算力骨干网
2020年底,国家发展改革委、中央网信办、工业和信息化部、国家能源局四部门联合出台《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出,到2025年,全国范围内数据中心形成布局合理、绿色集约的基础设施一体化格局。2021年5月,前述四部门正式印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》(《实施方案》),明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。

其实就像是电网和天然气网,算力对于有些地方来说是完全不够用的,而对于有的地方则是空有一手的「算力」却无处使。简单来说,兴建人工智能计算中心之后会面临三点问题:
  • 不同区域AI算力使用存在波峰波谷,各地独立的人工智能计算中心无法实现跨域的动态调配

  • 全国人工智能发展不均衡,不同区域有各自优势,各地独立的人工智能计算中心无法实现跨区域的联合科研和应用创新、资源互补

  • 各地独立的人工智能计算中心产生的AI模型、数据,难以实现全国范围内顺畅流动、交易,以产生更大的价值

 
算力网络汇聚和共享算力、数据、算法资源,最终实现「一网络,三汇聚」:
  • 网络:将人工智能计算中心的节点通过专线连接起来形成人工智能算力网络

  • 三汇聚:算力汇聚、数据汇聚、生态汇聚

    • 算力汇聚:连接不同节点的高速网络,实现跨节点之间的算力合理调度,资源弹性分配,从而提升各个人工智能计算中心的利用率,实现对于整体能耗的节省,后续可支持跨节点分布学习,为大模型的研究提供超级算力

    • 数据汇聚:政府和企业共同推进人工智能领域的公共数据开放,基于人工智能计算中心汇聚高质量的开源开放的人工智能数据集,促进算法开发和行业落地

    • 生态汇聚:采用节点互联标准、应用接口标准,实现网络内大模型能力开放与应用创新成果共享,强化跨区域科研和产业协作

 
各地算力中心就像大脑中数亿个突触,人工智能算力网络正如神经网络。如此看来,算力网络的重要意义之一便是通过汇聚大数据+大算力,使能了大模型和重大科研创新,孵化新应用。进而实现算力网络化,降低算力成本,提升计算能效。最终打造一张覆盖全国的算力网络,实现算力汇聚、生态汇聚、数据汇聚,进而达到各产业共融共生。


(正文完)



-----END-----

看更多精彩内容


推荐阅读

汽车电子

  • 自动驾驶中视觉处理技术革命

  • 自动驾驶的必经之路

  • 风口下的车路协同难飞起来

  • 中国车规级芯片企业版图

  • 自动驾驶的陷阱

  • 2022,新能源造车新格局
  • 理想照进现实,自动驾驶必须迈过的坎
  • 激光雷达,2022年如何演进
  • 谈谈车联网--V2X技术

「AI 」

  • 深度学习逼近死胡同,拐点已至

  • 畸形的深度学习,把自己逼进死胡同

  • 人工智能下一个10年:算力的黄金时代

  • 研究表明,有影响力的数据集正在垄断机器学习研究

  • 谷歌 AI 负责人Jeff Dean展望:机器学习五大潜力趋势

  • 科学家纷纷回归学术界,AI拉开下半场大幕

「芯片」

  • 国产GPU创业潮:难言奇迹

  • AI芯片,撑得过明年吗?

  • AI企业的生存真相

  • 中国AI芯片提前进入肉搏期

  • 寒冬里的寒武纪

  • AI大算力时代:存算一体迎来爆发时刻?

技术大院 传播知识、开阔视野.技术大杂院,睁眼看世界,有种,有趣,有料。
评论
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 131浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 76浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 48浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 74浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 145浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 122浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 173浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 83浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦