谁击败谷歌?夺下全球最强智算王座

制造界 2022-08-31 00:00
来源:量子位    关注前沿科技  作者:金磊  梦晨  假装
图片/ 图虫创意 、原文  编辑/ 刘小用

“全球最强智算”王座,刚刚易主。来自中国河北省张北县的“中国选手”,一举击败谷歌。

而其所凭借的算力值,每秒浮点运算次数已经高达12EFLOPS(百亿亿次)


相比之下,谷歌单集群算力峰值是9EFLOPS,特斯拉也仅有1.9EFLOPS。那么张北县的这个“速度”,到底有多快?

举个例子:以前要训练一个自动驾驶的模型,大概需要花费的时间是7天。而在“全球最强算力”加持之下,这个时间直接缩短到了1小时之内,整整提速了将近170倍

智算,即为人工智能专门提供的AI算力。这个“全球最强智算”的庐山真面目,正是来自位于河北省张北县的阿里云飞天智算平台所启用的张北智算中心


而且这个智算中心不仅是在AI算力上取得第一这么简单,据了解,这个智算中心还“解锁”了如下能力:千卡并行效率达90%以上,计算资源利用率可提升3倍,最高可将存储IO性能提升10倍,将系统时延显著降低90%最多可提升AI训练效率11倍,推理效率6倍,PUE最低降至1.09,建设占地面积节省90%,而且这些AI算力,正在带来一个更加智能化的日常。

如此智算都用在了哪里?

首先就是刚才提到的自动驾驶


此前,阿里云便和小鹏汽车打造了中国最大的自动驾驶智算中心“扶摇”而这也是国内第一个投入实际运营的,专为自动驾驶服务的超大智能算力集群。也正如其名,“扶摇”之意,是指阿里云提供的超大算力和AI研发工具链,能让小鹏汽车的自动驾驶技术的迭代效率“直上九天”。

总体而言,“扶摇”具备两大特征。首先就是以超大规模GPU算力作为AI模型迭代的基础。这是因为自动驾驶、或者说智能汽车上的核心功能,其实都是AI,是大规模的深度学习算法。

而无论是训练,还是测试这样的模型,扮演主角的不再是传统CPU的逻辑推理能力,而是以AI加速器为主的浮点计算能力,GPU则是当前AI加速器的主流。其次,便是提供了针对自动驾驶应用特征的计算集群、性能加速软件和AI大数据一体式平台,使得模型训练速度、GPU资源利用率和算法研发效能都大大提升。

据了解,目前已经建成交付的扶摇智算中心,总算力达到600PFLOPS,即每秒进行6x1017次浮点运算。整体计算效率上,扶摇实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。

这也就是自动驾驶核心模型训练时间,能够由7天缩短至1小时内的主要原因。而自动驾驶,只是飞天智算中心应用的场景之一。科研领域,也早已处于“上岗”状态。

北京大学化学与分子工程学院便利用阿里云的智能算力,将靶向药研究数据集计算效率提升了100倍。此前算法依赖的是单机式算力,受限于软硬件的限制,往往系统整体性能偏低,无法满足快速增长的算力需求。而通过集群进行并行计算,能让算力规模不再成为掣肘。


不过有一说一,算力这个东西,其实通过自行购买GPU搭建集群的方式便可以获取,而且此前行业内普遍的做法也是如此。那么为什么诸多领域现在都开始时兴采用智算中心了呢?

这是因为近年来,不论是自动驾驶、元宇宙,亦或是生命科学天文学,各类科研和产业应用的发展,都越发具备数智驱动的趋势,这种情况下算的更快往往就是核心优势,算力成为了绝对的生产力。基于如此现状,智能计算可以提供更加多元化的算力服务,逐渐成为了主流选择。

但智能计算不同于通用型计算,需要海量数据对AI模型进行训练,算力往往在模型参数更新、数据迁移等环节被消耗,千卡以上规模仅有40%的有效算力输出,甚至出现计算卡越多,总体性能越差的情况。

这便导致了规模化的算力的获取困难,不仅硬件成本昂贵,而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化,自建智算中心,成本和时间便成为了最大的敌人。

以自动驾驶为例,复杂路况下的复杂决策能力,包括识别红绿灯、路口、行车车辆等等,其实已经进入L3-L4级范围。

按照如此迭代速度,未来3-5年,自动驾驶研发很快会进入较为成熟的L4级甚至是L5级,迭代所需算力规模也会快速上升到只有“智算中心”才能满足。算力需求的指数级膨胀,造成目前自动驾驶玩家的“算力”焦虑越来越严重。

因此,当下自动驾驶对于智算中心的需求,其实是为保持持续的技术领先优势做储备。而飞天智算中心便在拿下全球第一速度之外,还规避了诸多传统高性能计算固有的疑难杂症。为了解开这些疑难,阿里连顶会最佳论文都没少拿。

“全球最强”背后的一套功法

秘密就藏在背后的飞天智算平台一个可以持续进化的智能算力系统。


换句话说,做智算中心不能仅考虑基础设施和硬件,也要考虑其上运行的软件平台、算法和服务。这其中最重要的是做到软硬一体,通过“打磨”让软件和硬件在一个平台中真正相互融合。

首先,要做到单集群12EFLOPS的算力峰值,仅靠单块芯片无法完成,就需要考虑并行效率的问题。如果在一台普通电脑里装两张相同的游戏显卡,大概只能获得75%的性能,也就是花了两份钱只享受到一份半的效果。

类似的问题在智算中心也存在,而且更严重。因为要用到上千张GPU做并行计算,算力输出最低往往仅有40%左右。花一千份的钱,只享受四百份的效果,亏大了。

那么在飞天智算平台,千卡并行的效率可以做到多少呢?90%。要做到这一点,最关键的就是减少非计算部分的开销——上图里的阿里云灵骏智能计算就是干这事的。

采用浸没式液冷的灵骏智能计算,Pue低至1.09

此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化。

除了GPU之外,构建如此大规模算力也少不了异构计算。飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度。

据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优。那么,这种“打磨”的能力从何而来?源于阿里多年的业务实践。

拿淘宝来说,商品搜索、智能客服、千人千面的个性化推荐等,平均每天需要处理10亿张图像、120万小时视频、55万小时语音和5000亿句自然语言。每逢618、双11大促,更是要面对峰值负载的考验,多年来已沉淀出适应实际需求的技术体系和最佳工程实践。

在AI开发层,阿里云还有两个杀手锏:PAI-EPL和PAI-Blade。前者能够支撑万亿级参数的大模型训练,提供了包括数据并行、模型并行、流水并行在内的丰富的分布式训练能力。

在内部测试中,PAI-EPL只用了512张 GPU就完成了M6万亿模型的训练,大幅降低了超大模型训练的成本,将训练效率提升了11倍以上。

PAI-Blade则为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,尽量避免用户改模型代码,可将推理效率提升6倍以上,极大地方便用户使用。这些综合技术整合到一起,就成了飞天智算平台软硬一体能力的来源。


除了智算中心自身软硬件之外,其上运行的算法和智能服务也是飞天智算平台中的重要能力。

全链路AI开发工具与大数据服务,包括阿里云大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎实现架构统一。

如此一来,可适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等多种场景。最多可提升AI训练效率11倍,推理效率6倍。

另外说到智能算法也别忘了达摩院。据介绍,达摩院开源的M6大模型从诞生之初就与飞天智算平台一起生长,相互配合起来更能发挥出彼此的实力。

最后,绿色低碳也是飞天智算中心的优势之一。对于大型算力中心来说,衡量绿色化程度的一个重要指标是能源利用效率(PUE, Power Usage Effectiveness)

根据《2021年中国数据中心市场报告》,2021年全国数据中心平均PUE为1.49,华北地区平均约为1.40。这意味着IT设备每消耗1度电,就有额外的0.49或0.4度电用于散热、供配电系统本身的消耗、照明等其他用途。而张北智算中心采用了行业独有的单相浸没式液冷解决方案,将服务器泡在特殊冷却液里,PUE最低可以达到1.09,行业领先。

图:阿里云浸没式液冷服务器

此外,AI调温和模块化设计等都起到了关键作用。不仅如此,智算中心选址在张北还可以利用起当地充足的光伏和风电资源,做到100%使用清洁能源。不过为了克服光伏和风力发电不稳定的问题,也需要更强大的供配电技术来保障。

如何评价全球智算王座易主?

纵向看时间。两年前,阿里首次公开自研AI集群细节,那篇论文还被计算机体系结构顶级会议HPCA 2020收录。不过在多年来一直参与平台建设的曹政看来,当年团队把注意力单纯的集中在了技术上。

如今升级扩展到智算平台,除了规模扩大,技术进化以外,还更看重产品、服务,看重智算平台能否真正顺滑的与生产流程相结合。

横向看对比。建设大规模智能算力有几类玩家,云计算公司、AI算法公司、硬件公司。阿里在其中是一种比较特别的存在,既有自研云计算技术体系,又有内部AI业务的大量实践,最近又开始涉足自研芯片。

如此打造出来的智算平台高度自主可控,既能以此为蓝本不断复制出新的智算中心,又能在服务不同行业时低成本迁移。

如专为小鹏汽车定制打造的乌兰察布智算中心便是很好的例证。如果把目光拉远,更大的图景在于数字化升级、智能化转型。

这些年来,智算中心的服务对象从大型技术公司、AI算法初创公司,逐渐扩展到自动驾驶、AI for Science等交叉行业。

随着智能化转型逐渐深入,不久的将来还要服务于农业、制造业、能源、物流这些离IT技术更远的行业,而越是这样的行业就越是需要端到端的解决方案。从这一点来看,强调“打磨”、“顺滑”的飞天智算平台,再一次“幸运地”引领了时代趋势。



联系我们:qqmm-777(值班微信)广告及商务合作:电话15053167995投稿及采访约谈:邮箱447377407@qq.com
版权声明:制造界除发布原创文章外,亦致力于优秀文章的交流分享。转载须注明文章来源和作者;申请转载授权请在文末或后台留言。版权所有,违者必究。
制造界 专注服务中国制造企业。企业家的思想库,创业者的工具箱。
评论 (0)
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 98浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 98浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 75浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 221浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 85浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 243浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 90浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 49浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 128浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 116浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦