AI计算的下半场

原创 技术大院 2022-07-13 07:53
你关心的就是我们关注的


当电力成为基础设施、成为工业主要动力的时候,人类才真正走入电力时代。而今天互联网和算力的渗透已经超过了过去所有基础设施,但还远远不够,人工智能还只是算力时代的第一个灯泡,更多我们不敢想的事情还远未出现。


无论是AI还是物联网,都逐渐成为生活的一部分,时代变化、技术更迭,背后不变的是雪崩般增长的数据和与之伴生的算力黑洞。



(正文)
01

高需求背后的极限警告
AI时代的算力、算法和数据处在一种螺旋式的提升关系中,由于芯片制程和计算性能的提升,使得对算力的渴求不像以前那样迫切,可以说过去十年AI的发展,是靠算法推动的。


随着大数据、5G技术的发展,各式各样的应用场景带来AI的落地,当算法普及和数据累积达到一个新的程度时,原来的算力又不够了,成为AI性能提升的硬指标。

算法和数据的不断演进、交替上升,对更高算力的需求永不停歇。时至今日,算力依然成为制约AI进一步发展的关键因素。


人们从来没有想到过芯片的算力会有到达极限的一天,至少从来没有想到极限会这么快到来。


麻省理工学院的研究人员前年就曾发出算力警告:深度学习正在逼近计算极限。根据MIT的一项研究,深度学习的进展非常依赖算力的增长。


研究人员分析了预印本服务器Arxiv.org上的1058篇论文和其他基准资料,以理解深度学习性能和算力之间的联系,主要分析了图像分类、目标检测、问题回答、命名实体识别和机器翻译等领域如下两方面的计算需求:

  • 每一网络遍历的计算量,或给定深度学习模型中单次遍历(即权值调整)所需的浮点运算数

  • 训练整个模型的硬件负担,用处理器数量乘以计算速度和时间来估算

结论显示,训练模型的进步取决于算力的大幅提高,具体来说,计算能力提高10倍相当于3年的算法改进成果。


如同水利之于农业时代,电力之于工业时代,算力,已成为国民经济发展的重要基础设施。国家发展改革委高技术司解释,算力是数字经济的核心生产力。截至目前,我国数据中心规模已达500万标准机架,算力达到130EFLOPS(每秒一万三千亿亿次浮点运算)。随着数字技术向经济社会各领域全面持续渗透,全社会对算力需求仍十分迫切,预计每年仍将以20%以上的速度快速增长。


物联网推动数据几何级增长,人工智能和大数据技术,特别是企业级对算力的渴求,榨干了芯片企业每一丝算力,而且在算法红利逐渐消失的现在,算力的增长就变成了货真价实的真金白银。


自2012年至今,AI算力需求已增长超30万倍,以GPU为代表的AI加速芯片取代CPU,已经成为AI算力的主要提供者。GPU服务器相对CPU服务器来说是非常昂贵的,大约是美金和人民币汇率的差距(以8卡GPU服务器为例),而且在芯片紧缺的年代,GPU到货周期还比较长。


算力提高的背后,其实现目标所隐含的计算需求——硬件、环境和金钱等成本将变得无法承受。


由于当前粗放的使用及管理方式,大部分用户的GPU利用率只有10%-30%,这就造成了这一宝贵资源的大量浪费,如何更好的利用和管理GPU资源就变得尤其关键。


02

算力分配失衡影响产业发展

算力高成本下的分配不均是影响AI产业发展的关键因素,下面是一些算力分配不均的典型场景:


场景一:

大多数的情况下采取的是为一个开发者分配一块或几块GPU卡的方式来满足开发调试的需求。这种情况下存在什么问题?卡和人绑定,卡分配之后,存在着较大的闲置,开发人员70%以上的时间都在读论文、写代码,只有不到30%的时间在利用GPU资源进行运算调试。


场景二:

通过调查了解,绝大多数企业为了保证业务的隔离性,不受其它AI业务的干扰,保障服务的SLA,都是运行在独立的GPU卡上。在这种情况下,GPU卡的算力和显存使用往往不到20%,这样造成了大量的资源浪费——近80%的算力和显存其实是被白白消耗,而且还有与之相关的电费,运维费用。

场景三:
智能化自动驾驶汽车是人工智能技术落地的最大应用场景之一,智能化汽车很有可能成为未来万物互联的终端,成为继智能手机之后,深刻改变社会形态的产品。


自动驾驶研发的每一个阶段几乎都要涉及到AI深度学习算法的参与,包括机器视觉、深度学习、增强学习、传感器技术等均在自动驾驶领域发挥着重要的作用,自动驾驶发展的瓶颈主要在于这些人工智能底层技术上能否实现突破。

自动驾驶技术与AI流程图

 

在自动驾驶领域的算力资源,往往分为车载边端算力和数据中心算力:

  • 车载算力目前以指数级方式快速增长,但仍不能满足车上大量多模态AI业务的需求,所以目前关注重点仍然是算力硬件设备的优化

  • 而数据中心端则是相较通用的AI开发、训练和离线推理场景,为了迭代出更准确的算法,需要对每天的路测数据进行处理,让自动驾驶模型反复训练优化,并且进行大量验证测试工作


大多数的AI开发涉及到从数据准备、预处理、模型训练、调参、部署模型、线上推理、持续监控、数据收集、迭代优化的过程。在整个业务流程中,有些工作是需要大量CPU,不需要GPU资源的,在CPU运算的时候,其实GPU是闲置的。



03

AI 计算的下半场:软件定义算力

正如前面阐述的,算力有多重要,就有多昂贵。巨大的算力需求,使得GPU价格一直居高不下。高昂的成本,让更多的用户在AI世界的大门面前望而却步。


历史的经验告诉我们,一个产业的发展一般都有三个阶段:

  • Make it work

  • Make it perform

  • Make it cheap

也就可用、好用、用得起,只有一项技术“飞入寻常百姓家”时,这项技术才能真正为全人类所用。

因此笔者认为:未来10年,算力平民化会成为AI的发展方向,也是必然趋势


如何实现普惠算力?正如我们前面提到的,通过软件定义,实现算力资源池化是当下有效的办法。


场景一的解决方案:

利用软件定义GPU的技术,把卡和人解绑,当有任务调用GPU资源的时候才真正被占用,任务结束,资源释放,回到资源池。


下图是一个JupyterLab的开发场景,VSCode server/PyCharm的模式与这个类似,在实际的案例里,使用软件定义的GPU之后,资源能缩减至25%左右!50个人的开发团队,16张卡搞定。


场景二的解决方案:

通过软件定义的方式,提供细颗粒度的GPU资源复用单卡,保障业务运行的隔离性,可靠性和性能。大部分采取趋动科技池化方案上线生产业务的客户,可获得3倍以上的提升收益。


场景三的解决方案:

打造一站式自动驾驶AI开发、训练、运维的解决方案,提供CPU、物理GPU、OrionX vGPU、存储等多种资源,实现界面化统一申请、调度、监控和运维,同时实现AI开发和训练任务级别的界面化管理,提升车企或自动驾驶企业算法研发效率,兼顾算法工程师和运维工程师等不同人员对AI平台的多样化需求。



举个例子:

如果把GPU比作大巴车,AI的计算任务比作旅游团。计算量最小的任务,就如同三五人的小团体;计算量大的任务自然是上百人的大型旅行团。在传统的算力分配模式中,无论计算量大或者小,都会至少占用一个硬件单元。就像小团体出游,却占用整个大巴车,剩余的座位都是空的。正是这种模式,浪费了大量算力,降低了GPU芯片的利用率。


我们是否可以对传统算力分配模式颠覆。用最直观的比喻来说,做出一款可以“随需应变、动态伸缩”的大巴车。用户不再使用物理AI芯片,取而代之的是随需应变、动态伸缩的虚拟AI芯片。


数据中心也是算力池化非常合适的场景。在数据中心里,最主要是由服务器提供算力,但是因为GPU非常昂贵,一般来说,不会每台服务器都配备GPU。如果能够通过软件定义AI算力可以帮助用户让应用跑在没有GPU的服务器上,通过网络使用其他服务器的GPU算力。未来网络基础设施会变得越来越好,如果网络条件足够好,大胆畅想,甚至可以帮助用户在省、市的范围内来调配算力。


帮助用户根据需求来动态伸缩使用的资源。比如说,某一用户的任务刚启动时只需要一个甚至半个GPU,但是随着运行的不断推进,需要的计算量越来越大,就需要10个GPU,甚至更多。通过软件可以根据具体需求,动态变化所使用的资源。


04

技术演进:GPU从虚拟化到资源池化

学术界和产业界一直在探索如何更优使用GPU资源,这些技术基本可以归纳为GPU池化发展的四个阶段:

  • 阶段1,简单虚拟化。将单物理GPU按固定比例切分成多个虚拟GPU,比如1/2或1/4,每个虚拟GPU的显存相等,算力轮询。最初是伴随着服务器虚拟化的兴起,解决虚拟机可以共享和使用GPU资源的问题

  • 阶段2,任意虚拟化。支持将物理GPU按照算力和显存两个维度灵活切分,实现自定义大小虚拟GPU(通常算力最小颗粒度1%,显存最小颗粒度1MB),满足AI应用差异化需求。切分后的小颗粒度虚拟GPU可以满足虚拟机,容器的使用

  • 阶段3,远程调用。重要技术突破在于支持GPU的跨节点调用,AI应用可以部署到数据中心的任意位置,不管所在的节点上有没有GPU。在该阶段,资源纳管的范围从单个节点扩展到由网络互联起来的整个数据中心,是从GPU虚拟化向GPU资源池化进化的关键一步

  • 阶段4,资源池化。关键点在于按需调用,动态伸缩,用完释放。借助池化能力,AI应用可以根据负载需求调用任意大小的虚拟GPU,甚至可以聚合多个物理节点的GPU;在容器或虚机创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用

GPU池化发展的四个阶段


GPU池化:站在整个数据中心的高度解决问题。OrionX AI算力资源池化软件不同组件的功能及逻辑架构,通过各组件“各司其职”,能为用户实现单机多租户细粒度切分、多机资源聚合、远程算力调用、资源池弹性伸缩等目标;同时由于OrionX支持异构算力的管理和共享,所以能站在整个数据中心的高度解决GPU利用率低、成本高、分配与管理难等问题,建立数据中心级加速资源池。


OrionX基于API Forwarding的基本原理和逻辑架构

注:(本节内容选自趋动科技CEO Talk:GPU池化技术的演进与发展趋势)


05

构建国家算力骨干网
2020年底,国家发展改革委、中央网信办、工业和信息化部、国家能源局四部门联合出台《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出,到2025年,全国范围内数据中心形成布局合理、绿色集约的基础设施一体化格局。2021年5月,前述四部门正式印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》(《实施方案》),明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。

其实就像是电网和天然气网,算力对于有些地方来说是完全不够用的,而对于有的地方则是空有一手的「算力」却无处使。简单来说,兴建人工智能计算中心之后会面临三点问题:
  • 不同区域AI算力使用存在波峰波谷,各地独立的人工智能计算中心无法实现跨域的动态调配

  • 全国人工智能发展不均衡,不同区域有各自优势,各地独立的人工智能计算中心无法实现跨区域的联合科研和应用创新、资源互补

  • 各地独立的人工智能计算中心产生的AI模型、数据,难以实现全国范围内顺畅流动、交易,以产生更大的价值

 
算力网络汇聚和共享算力、数据、算法资源,最终实现「一网络,三汇聚」:
  • 网络:将人工智能计算中心的节点通过专线连接起来形成人工智能算力网络

  • 三汇聚:算力汇聚、数据汇聚、生态汇聚

    • 算力汇聚:连接不同节点的高速网络,实现跨节点之间的算力合理调度,资源弹性分配,从而提升各个人工智能计算中心的利用率,实现对于整体能耗的节省,后续可支持跨节点分布学习,为大模型的研究提供超级算力

    • 数据汇聚:政府和企业共同推进人工智能领域的公共数据开放,基于人工智能计算中心汇聚高质量的开源开放的人工智能数据集,促进算法开发和行业落地

    • 生态汇聚:采用节点互联标准、应用接口标准,实现网络内大模型能力开放与应用创新成果共享,强化跨区域科研和产业协作

 
各地算力中心就像大脑中数亿个突触,人工智能算力网络正如神经网络。如此看来,算力网络的重要意义之一便是通过汇聚大数据+大算力,使能了大模型和重大科研创新,孵化新应用。进而实现算力网络化,降低算力成本,提升计算能效。最终打造一张覆盖全国的算力网络,实现算力汇聚、生态汇聚、数据汇聚,进而达到各产业共融共生。


(正文完)



-----END-----

看更多精彩内容


推荐阅读

汽车电子

  • 自动驾驶中视觉处理技术革命

  • 自动驾驶的必经之路

  • 风口下的车路协同难飞起来

  • 中国车规级芯片企业版图

  • 自动驾驶的陷阱

  • 2022,新能源造车新格局
  • 理想照进现实,自动驾驶必须迈过的坎
  • 激光雷达,2022年如何演进
  • 谈谈车联网--V2X技术

「AI 」

  • 深度学习逼近死胡同,拐点已至

  • 畸形的深度学习,把自己逼进死胡同

  • 人工智能下一个10年:算力的黄金时代

  • 研究表明,有影响力的数据集正在垄断机器学习研究

  • 谷歌 AI 负责人Jeff Dean展望:机器学习五大潜力趋势

  • 科学家纷纷回归学术界,AI拉开下半场大幕

「芯片」

  • 国产GPU创业潮:难言奇迹

  • AI芯片,撑得过明年吗?

  • AI企业的生存真相

  • 中国AI芯片提前进入肉搏期

  • 寒冬里的寒武纪

  • AI大算力时代:存算一体迎来爆发时刻?

技术大院 传播知识、开阔视野.技术大杂院,睁眼看世界,有种,有趣,有料。
评论 (0)
  • 曾几何时,汽车之家可是汽车资讯平台领域响当当的“扛把子”。2005 年成立之初,它就像一位贴心的汽车小助手,一下子就抓住了大家的心。它不仅吸引了海量用户,更是成为汽车厂商和经销商眼中的“香饽饽”,广告投放、合作推广不断,营收和利润一路高歌猛进,2013年成功在纽交所上市,风光无限。2021年更是在香港二次上市,达到了发展的巅峰,当年3月15日上市首日,港股股价一度高达184.6港元,市值可观。然而,如今的汽车之家却陷入了困境,业务下滑明显。业务增长瓶颈从近年来汽车之家公布的财报数据来看,情况不容
    用户1742991715177 2025-04-07 21:48 74浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 95浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 120浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 88浏览
  • 在全球电子产业面临供应链波动、技术迭代和市场需求变化等多重挑战的背景下,安博电子始终秉持“让合作伙伴赢得更多一点”的核心理念,致力于打造稳健、高效、可持续的全球供应链体系。依托覆盖供应商管理、品质检测、智能交付的全链路品控体系,安博电子不仅能确保电子元器件的高可靠性与一致性,更以高透明的供应链管理模式,助力客户降低风险、提升运营效率,推动行业标准升级,与全球合作伙伴共同塑造更具前瞻性的产业生态。动态优选机制:构建纯净供应链生态安博电子将供应商管理视为供应链安全的根基。打造动态优选管控体系,以严格
    电子资讯报 2025-04-07 17:06 65浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 105浏览
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 99浏览
  • 贞光科技作为三星电机车规电容代理商,针对电动汽车领域日益复杂的电容选型难题,提供全方位一站式解决方案。面对高温稳定性、高可靠性、高纹波电流和小型化等严苛要求,三星车规电容凭借完整产品矩阵和卓越技术优势,完美满足BMS、电机控制器和OBC等核心系统需求。无论技术选型、供应链保障、样品测试还是成本优化,贞光科技助力客户在电动汽车产业高速发展中占据技术先机。在电动汽车技术高速发展的今天,作为汽车电子系统中不可或缺的关键元器件,电容的选型已成为困扰许多工程师和采购人员的难题。如何在众多参数和型号中找到最
    贞光科技 2025-04-07 17:06 59浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 67浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 106浏览
  • 文/Leon编辑/cc孙聪颖‍转手绢、跳舞、骑车、后空翻,就在宇树、智元等独角兽企业率领“机器人大军”入侵短视频时,却有资本和科技大佬向此产业泼了一盆冷水。金沙江创投管理合伙人朱啸虎近日突然对人形机器人发难,他表示“最近几个月正在批量退出人形机器人公司”。“只是买回去做研究的,或者买回去做展示的,这种都不是我们意义上的商业化,谁会花十几万买一个机器人去干这些活?”朱啸虎吐槽。不过,朱啸虎的观点很快就遭到驳斥,众擎机器人的创始人、董事长赵同阳回怼道:“(朱啸虎)甚至问出了人形机器人在这个阶段有什么
    华尔街科技眼 2025-04-07 19:24 110浏览
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 58浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦