异构计算:GPU、FPGA、ASIC芯片三分天下

智能计算芯世界 2021-05-23 00:00



近十年来,计算行业经历了从32bit、“x86-64”、多核心、通用GPGPU以及2010年“CPU—GPU”异构计算的变迁。而最近几年,随着人工智能、高性能数据分析和金融分析等计算密集型领域的兴起,异构计算才突然火了起来。


因为传统通用计算的方式已经无法满足我们对计算能力的需求,异构计算被认为是现阶段挑起计算大梁的关键技术,阿里云异构计算产品解决方案就在这样的大环境下诞生了,这支团队的掌舵人正是张献涛。


2014年,张献涛正式加入阿里巴巴任资深专家,目前在阿里主要负责虚拟化技术、高性能计算产品、异构计算产品、以及一些创新类型产品的技术和研发的团队。


在这次访谈中,张献涛分享了目前企业使用异构计算方案的痛点,他还深入介绍了阿里云在均衡异构计算资源所做的工作。


异构计算的机遇与挑战

异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,目前 “CPU+GPU”以及“CPU+FPGA” 都是最受业界关注的异构计算平台。它最大的优点是具有比传统CPU并行计算更高效率和低延迟的计算性能,尤其是业界对计算性能需求水涨船高的情况下,异构计算变得愈发重要。整个计算行业生态无一不在此发力,芯片企业投入了大量的资金,异构编程的开发标准也在逐渐成熟,而主流的云服务商更是在积极布局,一时间,异构计算大有取代传统同构计算之势。


异构计算能够很好的满足人工智能、高性能数据分析、金融分析等计算密集型领域的计算需求,而这一技术会逐渐取代原来通用计算不擅长的部分。


但是在光鲜亮丽的外壳之下,对于一般用户来说,异构计算的采购、部署以及使用门槛对绝大多数企业来说都很高。对此,张献涛主要谈到以下几个痛点:


1.采购成本高:用户小量采购基本上没有议价能力,特别是购买FPGA板卡,量少的话采购价格特别高。

2.交付周期长:通常用户从开始需要采购,到机型选择、硬件架构设计、供应商选择、机房选择、财务审批等流程通常需要几个月的时间。

3.没有弹性:采购完了GPU/FPGA的数量就固定了,任务少的话多买的GPU/FPGA就浪费了,任务多的话GPU/FPGA数量又不够用。

4.没有硬件红利:采购完了型号就固定了,如果有新的GPU/FPGA架构上线只能追加预算购买,老的GPU/FPGA性能跟不上应用了。

5.数据孤岛:线下的GPU/FPGA和线上的服务无法打通。


另外,做FPGA产品的最大挑战是整个FPGA的生态环境很差,具备FPGA开发能力特别是开发FPGA做计算加速的客户非常少。为此,我们会在云上建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并推动建立云上FPGA的开发标准,丰富整个FPGA的开发生态环境,吸引更多的IP开发厂商和合作伙伴把他们的IP放在IP开发市场上,去服务他们的最终用户,从而进一步丰富整个FPGA的生态环境。”


阿里云在短时间里先后推出弹性GPU和FPGA异构计算的解决方案,目的就是降低异构计算资源使用的门槛,对高性能计算有需求的企业可以随买随用。


云栖社区了解到,阿里云弹性GPU产品主要面向人工智能、数据分析、科学计算、电影渲染、视频图像处理、视频转码等场景,目前的应用案例包括行为数据分析、千人千面、人脸识别、视频识别、图像识别、对象分类等;阿里云弹性FPGA产品主要面向人工智能、半导体设计、基因计算、视频图像处理、数据分析决策等场景,目前的应用案例包括深度学习推理、深度学习模型裁剪、非规整数据计算、视频图像处理、硬件半导体设计等。


阿里云在异构计算领域的探索

众所周知,相比CPU,GPU和FPGA拥有太多的优势,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率;而FPGA的优势则主要体现在它拥有更高的每瓦性能、非规整数据计算更高的性能、更高的硬件加速性能、更低的设备互联延迟。



但在云端的解决方案上,便意味着优势的进一步放大,张献涛介绍,阿里云GPU和FPGA异构计算解决方案主要有以下特点:


1.GPU/FPGA资源即买即用,弹性伸缩。

2.超大规模资源池,满足业务峰值的GPU/FPGA数量的需求。

3.享受异构计算超摩尔定律的硬件红利,以相同的价格使用性能更强的GPU/FPGA实例。

4.最全面的异构产品线,满足人工智能训练、推理,图像视频处理等各种不同的需求。

5.产品整合:和整个阿里云产品体系深度整合,数据打通。

这些特性完美的解决了用户使用异构计算方案的痛点。张献涛还透露,现在大部分客户都在单机上训练模型,通常需要几周到一个月的时间,因此阿里云正在计划推出一款超高性能异构集群的产品。


“该产品的GPU/FPGA之间可以通过25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。”


值得一提的是,阿里云异构计算解决方案也针对开发者做出了更友好的体验:


在GPU编程方面,阿里云会推出分布式多机多卡训练框架和其他GPU上的性能优化服务,能够大大降低客户使用多机多卡的门槛,从而减少客户在云上做深度学习训练的时间。


FPGA方面,阿里云会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并且会推出自研的IP系列,通过IP市场的繁荣让更多的最终用户能够享受到FPGA的性能加速。


另外,阿里云还推出了IaaS+的服务,包括发布E-HPC产品做异构集群的资源调度、账号管理和弹性伸缩,通过容器服务来做一键部署、分布式训练和弹性伸缩,通过XDL来做行为数据分析,利用阿里云自研的GPU汇编器来优化提升应用的性能,提高异构计算设备的利用率,减少资源的采购成本。


未来:GPU、FPGA、ASIC三分天下

人工智能以及其它新兴应用领域对于计算量的需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长速度能够满足这些新兴的方向和趋势,可以预见的是,异构计算会在今后的数据中心中占据越来越多的份额。


宏观来看,异构计算的发展也得益于国家战略的推动。例如,最近国家下发了人工智能的发展规划,人工智能已经成为国家战略,这势必会刺激异构计算的需求。当然,张献涛也坦言,虽然异构计算的应用需求越来越多,但通用计算的需求也会一直存在,二者将会长期共存。


毫无疑问,目前异构计算领域GPU处理器已经占据了主流地位,但对未来的趋势,张献涛则表示,“随着FPGA的生态环境的建立和完善、ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。”


这也是张献涛团队专注的方向,接下来团队会发布包括8卡/16卡GPU产品、下一代的Volta架构的GPU产品、新一代的FGPA的产品,而ASIC芯片的产品上云也正在研发当中。


目前他所带领的团队主要有两个目标:一方面致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案;另一方面致力于让用户能够用好异构资源,充分发挥异构资源的处理能力,让用户的服务更具备竞争力。也就是推动异构计算变成一种普适的计算能力。


杭州云栖大会将设立异构计算/高性能计算专场、虚拟化技术专场,届时张献涛都将发表主题演讲,在大会正式开幕之前,他也向云栖社区透露了一个重磅消息——阿里云将发布几款重量级的异构计算家族产品,涉及到异构计算、通用计算、高性能计算等多个领域。他表示,这些产品都是为了解决用户在使用阿里云的过程中遇到的痛点,包括集群的管理和调度问题、云上弹性使用付费软件的License问题、实例需要即拥有虚拟机的弹性又要拥有物理机的性能、多机多卡分布式训练降低训练时间等问题。


异构计算能提供比传统CPU并行计算更高效率和低延迟的计算性能,这是否意味这后者将会被取代?您如何看待二者的发展趋势?


通用计算和异构计算的需求都会一直存在,通用计算不会完全被取代。但是随着人工智能、高性能数据分析、金融分析等计算密集型领域的日益兴起,异构计算能够更好的满足这部分的计算需求,异构计算会越来越多的取代原来通用计算不擅长的部分。阿里云顺应这个趋势推出弹性GPU和FPGA异构计算的解决方案,就是为了更好的满足日渐增长的人工智能、数据分析、商业智能对于异构计算的需求,能够让他们随买随用,让异构计算不再是一种高高在上的昂贵的资源,而变成一种普适性的基础计算资源,推动人工智能等产业的发展。


阿里云推出了弹性GPU和FPGA异构计算解决方案,这一方案主要面向哪些应用场景推出的?目前有哪些应用案例?


首先,GPU的的优势包括比CPU更高的并行度、更高的单机计算峰值、更高的计算效率,阿里云弹性GPU产品主要面向人工智能、数据分析、科学计算、电影渲染、视频图像处理、视频转码等场景,目前的应用案例包括行为数据分析、千人千面、人脸识别、视频识别、图像识别、对象分类等。


其次,FPGA的优势包括更高的每瓦性能、非规整数据计算更高的性能、更高的硬件加速性能、更低的设备互联延迟,阿里云弹性FPGA产品主要面向人工智能、半导体设计、基因计算、视频图像处理、数据分析决策等场景,目前的应用案例包括深度学习推理、深度学习模型裁剪、非规整数据计算、视频图像处理、硬件半导体设计等。


除此之外,因为现在大部分客户都在单机上训练模型,通常需要几周到一个月的时间,我们计划推出一款超高性能异构集群的产品,该产品的GPU/FPGA之间可以通过25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。


异构计算方案的优势很明,但仍然处于发展初期,目前异构计算模式面临的最大挑战是什么?


目前用户自己采购异构计算的话遇到最大的痛点包括:


(1)采购成本高:用户小量采购基本上没有议价能力,特别是购买FPGA板卡,量少的话采购价格特别高。

(2)交付周期长:通常用户从开始需要采购,到机型选择、硬件架构设计、供应商选择、机房选择、财务审批等流程通常需要几个月的时间。

(3)没有弹性:采购完了GPU/FPGA的数量就固定了,任务少的话多买的GPU/FPGA就浪费了,任务多的话GPU/FPGA数量又不够用。

(4)没有硬件红利:采购完了型号就固定了,如果有新的GPU/FPGA架构上线只能追加预算购买,老的GPU/FPGA性能跟不上应用了。

(5)数据孤岛:线下的GPU/FPGA和线上的服务无法打通。

所以阿里云推出了弹性的异构计算解决方案,能够很好的解决用户的这些痛点:

(1)GPU/FPGA资源即买即用,弹性伸缩。

(2)超大规模资源池,满足业务峰值的GPU/FPGA数量的需求。

(3)享受异构计算超摩尔定律的硬件红利,以相同的价格使用性能更强的GPU/FPGA实例。

(4)最全面的异构产品线,满足人工智能训练、推理,图像视频处理等各种不同的需求。

(5)产品整合:和整个阿里云产品体系深度整合,数据打通。


另外弹性FPGA产品的最大挑战是整个FPGA的生态环境很差,具备FPGA开发能力特别是开发FPGA做计算加速的客户非常少,我们会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并推动建立云上FPGA的开发标准,丰富整个FPGA的开发生态环境,吸引更多的IP开发厂商和合作伙伴把他们的IP放在IP开发市场上,去服务他们的最终用户,从而进一步丰富整个FPGA的生态环境。


对开发者而言,异构计算的编程难度和开发成本更高,对此阿里云作了哪些工作?


GPU编程方面阿里云会推出分布式多机多卡训练框架和其他GPU上的性能优化服务,能够大大降低客户使用多机多卡的门槛,大大降低客户在云上做深度学习训练的时间。FPGA方面,阿里云会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并且会推出自研的IP系列,通过IP市场的繁荣让更多的最终用户能够享受到FPGA的性能加速。另外阿里云还推出了IaaS+的服务,包括发布E-HPC产品做异构集群的资源调度、账号管理和弹性伸缩,通过容器服务来做一键部署、分布式训练和弹性伸缩,通过XDL来做行为数据分析,利用阿里云自研的GPU汇编器来优化提升应用的性能,提高异构计算设备的利用率,减少资源的采购成本。


能否谈谈对异构计算的理解?以及分享你在工作中获得的一些宝贵经验?


随着人工智能的兴起,一些新兴应用领域对于计算量的需求以及超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长速度能够满足这些新兴的方向和趋势,异构计算会在今后的数据中心中占据越来越多的份额。最近国家也下发了人工智能的发展规划,人工智能已经成为国家战略,未来会推动国家产业升级、社会进步的方方面面,而人工智能离不开异构计算。我们的工作一方面致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案,另一方面致力于让用户能够用好异构资源,充分发挥异构资源的处理能力,让用户的服务更具备竞争力。我们希望推动异构计算变成一种普适的计算能力,从而推动人工智能的发展,进而推动产业升级和社会进步,改变人们的生产、生活方式。


异构计算领域未来会有什么样的新变化?


目前异构计算领域是GPU处理器占据主流地位,未来随着FPGA的生态环境的建立和完善,随着ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。阿里云后面会推出更加全面的异构计算产品族,包括8卡/16卡GPU产品、包括下一代的Volta架构的产品、包括新一代的FGPA的产品,另外,ASIC芯片的产品上云也在研发中。


原文链接:

https://developer.aliyun.com/article/204339


下载链接:NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》

下载链接:异构芯片研究框架合集

1、EDA行业研究框架

2、半导体大硅片研究框架

3、封测行业研究框架

4、光刻机行业研究框架

4、国产FPGA研究框架

5、国产基带芯片研究框架

6、深度报告:NOR存储芯片研究框架





免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 122浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 127浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 211浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 113浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 75浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 172浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 145浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 86浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦