GPU、FPGA、ASIC与类脑芯片对比分析

智能计算芯世界 2021-08-31 00:00



一、GPU性能高、功耗大、通用性好,适用于数据中心和训练过程


GPU是图形处理器的英文简称,是用于进行图像运算工作的微处理器,可以对图形数据、显示、可视计算等作出优化加速,现在被用于通用计算的GPU也被称作GPGPU。因为图形的结构像素点之间是独立的,图像以矩阵形式存储数据,所以GPU的设计之初就基于大吞吐量和并行计算,有80%的晶体管用作计算单元(CPU只有20%左右),具有很强的浮点运算能力和超长的流水线处理。这一特点非常适合AI计算对芯片进行大量重复运算的速度要求,故被广泛引入深度学习的训练应用领域。



GPU的主要优点:


1. 具备成熟易用的编程语言。GPU经过十几年的发展,在2006年已经实现了直接程序编写。目前有CUDA统一架构、OpenCL架构等编程环境,编程性大大提升。可以对CPU+GPU等异构进行统一编译,通过C语言也可以进行调用,为后续的发展打下基础。


2. 性能强悍,峰值计算能力强。GPU基于SMID架构,并行计算处理大规模数据,其峰值计算能力是所有芯片中最强的,处理速度可达同期CPU的10倍以上。


3. GPU应用时间早,现有产品比较成熟,价格不高。GPU是最早引入人工智能领域的芯片,近几年几乎包揽了各种初步的应用场景,所以成熟的产品和解决方案较多,价格也比较合理。


GPU的主要缺点:


1. 在深度学习推测阶段不具优势,平均性能不如专门的AI芯片。由于推测阶段为多指令流单数据流计算,传统GPU受限于冯诺依曼结构,并行度优势无法完全发挥,非专门为AI计算研发的GPU平均性能较FPGA和ASIC也偏低。


2. 总体功耗水平较高。正常情况下GPU的功耗相比定制化程度较高的芯片功耗水平较大,即便是运行在Volta架构下最新的英伟达Tesla系列GPU,相比完全定制的ASIC,在实现相同计算性能时需要的功耗也较高。


3. 硬件结构不具备可编辑性。GPU的硬件结构是提前设定好的,无法临时编辑,不够灵活,在选择通用性的同时放弃了定制化的优势。



GPU适合应用于深度学习训练和数据中心。基于强大的峰值计算能力和数据并行处理能力,GPU非常适合用于深度学习的训练阶段,形成复杂的神经网络模型。同时,GPU能够作为企业大型数据中心的加速器,数据中心依赖大量互连的通用计算节点,在性能方面难以驱动重要的高性能计算 (HPC) 和超大规模工作负载。GPU能打造出速度极快的计算节点,性能高于数百个速度较慢的通用计算节点,大幅提高数据中心的计算性能和数据吞吐量。


目前功耗是GPU发展最大的瓶颈。由于传统GPU与CPU一样使用冯诺依曼结构,需要与内存之间实现信息交换,不可避免得增大了功耗,降低了通信速度,因此相比于ASIC芯片,难以作用于智能终端。


二、FPGA效率高、灵活性好,但峰值性能较弱、成本较高,适用于虚拟化云平台和预测过程


FPGA更适合处理多指令流单数据流,从而适应于预测阶段。目前在深度学习模型的训练领域基本使用的是SIMD(Single Instruction Multiple Data:单指令多数据流架构)计算,即只需要一条指令就可以平行处理大批量数据。但是,在平台完成训练之后,它还需要进行推理环节的计算。这部分的计算更多的是属于MISD(Multiple Instruction Single Data:多指令流单数据流)。因此,低功耗,高性能,低延时的加速硬件成为了必需品,因此人们把目光转向了“FPGA”与“ASIC”。


FPGA突破了冯诺依曼结构,流水线设计减少了数据在内存、缓存和处理单元之间的能耗。FPGA是指现场可编程门阵列,其中包含逻辑元件、DSP 数据块、片上内存和灵活的 I/O。芯片内部集成了大量的数字电路基本门电路以及存储器,可以直接烧入FPGA配置文件来定义电路之间的连线,所以FPGA是可定制编辑的,同一块芯片可以随时通过不同的配置文件烧入来更改功能,就像乐高积木,可以随时拆分和重组,灵活性极高,在处理小计算量大批次的实际计算时FPGA性能比GPU更强,适合深度学习的预测环节。逻辑层面上,它不依赖于冯诺依曼结构,一个计算得到的结果可以被直接馈送到下一个节点,无需在主存储器临时保存,所以其通信速度也非常快。


FPGA与深度学习中最常用的CNN网络匹配度很高。深度学习中最常用的CNN网络,其分层的结构和FPGA硬件流水线结构以及MISD的处理方式匹配度很高。利用片上DSP和存储模块,FPGA能够根据CNN的网络特征设计出有针对性的流水线,在实现MISD的同时还可以将中间结果保存在本地缓存模块,以降低内存读写的能耗,从而比GPU以更低的能耗更快完成CNN的计算。



FPGA的优点:


1. 突破冯诺依曼结构,功效能耗较低,处理效率较高。FPGA的电路可直接实现算法,没有指令译码和解读的过程,减少反复冗余访问外部存储器的需求,存储器带宽需求及能耗较低,功效能耗比是 CPU的10倍以上、GPU的3倍,处理速度和效率要高于GPU。


2. FPGA可编译,灵活性很高,开发周期短。FPGA具有可编辑性,用户可以根据自身需求实现芯片功能的转换,灵活性很强。基于FPGA灵活编译的特点,其开发周期较短,上市速度快,更好地适应当前人工智能领域技术需求的快速更迭,对制造商来说风险较小。此外,FPGA也比ASIC具有更长的可维护周期,更小的初期成本。


FPGA的缺点:


1. 价格较高,规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂,如果规模量产后,其不像ASIC可以分摊固定成本,存在单个芯片的编译成本,所以单价远高于ASIC。


2. 计算能力和峰值性能不如GPU。 FPGA的可编程性用在虚拟化服务的云平台很好,但其中的逻辑单元很多都是基于SRAM查找表,不如GPU中的标准逻辑模块,使得其峰值性能不如GPU。同时,在布线方面也有较大的现值,无法像在ASIC FLOW下那样较为自由的布局。


3. 灵活性占优的同时牺牲了速度与能耗。FPGA在维持了灵活性的同时,效率和功耗上劣于专用芯片ASIC。


4. FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程,需要专业的硬件知识,具有较高的技术门槛,但随着包括OpenCL在内的软件级编程模型在FPGA的应用,研究时间相对有所缩短。


FPGA应用于硬件平台加速、数据中心和云端深度学习预测。FPGA兼具较高的性能和灵活性,适用于硬件平台的加速。比如微软开发了带有FPGA“硬件加速芯片”的主板来提升Bing数据中心的整体性能,相比于传统CPU在处理Bing的自定义算法时快出40倍。另外FPGA低能耗的特点也得其对大型企业的线上数据处理中心具有吸引力。


FPGA具有处理MISD的优势,所以适用于深度学习的预测阶段,同时FPGA的可编程性使其非常适合放在虚拟化的云平台背后,给予云服务商根据市场需求调整FPGA加速服务供给的能力。


没有极致的性能特点与量产单价高是其未来发展的瓶颈。FPGA仍然具有通用类芯片的特点,为实现灵活性,FPGA的各项指标均有折扣,尽管在能耗方面相比CPU和GPU有明显优势,但随着人工智能应用领域的扩大,FPGA的半定制性可能会使得芯片逐渐成为一种过渡和替代性质的附注品,训练阶段的性能不如GPU,预测环节下的计算效率与功效能耗比则不如ASIC。


另外,FPGA的量产单价高,意味着其无法大量生产,更适合用于细分、快速变化的垂直行业,在应用面上较为狭窄。


三、ASIC效率高、功耗比佳,但量产前成本高,适用智能终端和AI平台


ASIC是指专用集成电路,为符合特定用户需求而设计的专用人工智能芯片。不同于FPGA,ASIC的电路一旦设计完成后就不可更改,用乐高积木比喻FPGA的话,ASIC更像是3D打印,是完全定制化的芯片,当然相比FPGA也更加精致,有更多的物理设计,运行速度在同等条件下也比FPGA更快。


ASIC的优点:


1. 性能上的优势非常明显,具有最高的功效能耗比。ASIC是专业AI芯片,相比GPU和FPGA没有多余的面积或架构设计,可以实现最快的通信效率与计算速度,实现最低的能耗。


2. 下游需求促进人工智能芯片专用化。随着人工智能的发展和下游智能终端的普及,AI芯片需求大幅上升,而出于对信息隐私保护和云端计算需要联网的考虑,完全依赖云端是不现实的,需要有要有本地的软硬件基础平台支撑,所以专有化的AI芯片有很大的优势。


ASIC的缺点:


1. 造价昂贵,需要保证量产才能降低成本。ASIC由于是定制化芯片,有大量附加工艺设计需要考虑,投入的成本非常高,对企业带来资金风险。若芯片能实现量产并大规模投入使用,其单价成本才能有效降低。


2. 不可编辑,灵活性较差。定制化芯片的算法是固定的,研发时间较长,灵活性不够高,在行业发展初期面对日新月异的人工智能算法其适应性相对较低,尤其对于技术能力和市场能力不足的企业,风险非常大。


ASIC芯片应用于人工智能平台和智能终端。ASIC芯片由于其定制化的特点,具有功能的多样性,应用非常广泛。高性能和低功效使其不再局限于深度学习的训练或推测阶段的其中之一,而是可以作为支撑人工智能平台全阶段加速的芯片。


ASIC虽然其一次性成本远远高于FPGA,但量产成本低,另外ASIC的定制功能和神经网络预测能力能够解决FPGA在设备端的劣势,因此应用上就偏向于消费电子,如移动终端等领域。


四、类脑芯片能耗低、感知力强,但缺乏训练方法、精度低


类脑芯片仍属于小众芯片,突破性发展需要更好的深度学习训练方法。类脑芯片是从架构上模仿人脑神经结构的芯片,与当前AI芯片普遍作为神经网络算法加速器不同,前者模仿神经结构从底层构建人工智能,后者则模仿神经处理信息的功能流程。IBM在10年前就开始类脑芯片的研究,主要基于脉冲神经网络(Spiking Neural Network,SNN),通过脉冲的频率或者时间在神经元之间传递信息,而不是通过节点之间的权重。


这种芯片把数字处理器当作神经元,把内存作为突触,跟传统冯诺依曼结构不一样,它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行,而且由于本地处理的数据量并不大,传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。


目前该类芯片主要的优点是能耗非常低,且有较好的感知能力;缺点则是其缺乏高效的深度学习训练和应用方法,脉冲神经网络精度在精度上不能和机器学习类的神经网络相比。基于高感知能力,类脑芯片适用于复杂的环境。在国防、武器装备、消费电子等终端设备上有望实现应用。

下载链接:

深度报告:GPU研究框架

GPU技术专题下载链接

《GPU高性能计算概述》 

《GPU深度学习基础介绍》 

《OpenACC基本介绍》 

《CUDA CC 编程介绍》 

《CUDA Fortr基本介绍》

ARM系列处理器应用技术完全手册
CPU和GPU研究框架合集
1、行业深度报告:GPU研究框架
2、信创产业研究框架
3、ARM行业研究框架
4、CPU研究框架
5、国产CPU研究框架
6、行业深度报告:GPU研究框架
异构芯片研究框架合集
1、EDA行业研究框架
2、半导体大硅片研究框架
3、封测行业研究框架
4、光刻机行业研究框架
5、国产FPGA研究框架
6、国产基带芯片研究框架
7、深度报告:NOR存储芯片研究框架

本号资料全部上传至知识星球,加入智能计算芯世界(知识星球)下载全部资料。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号跟踪技术动态,点击“阅读原文”获取更多技术精彩内容。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 74浏览
  • 伴随无线技术的迅速发展,无线路由器市场商机日益庞大。现代消费者在选购无线路由器(Wi-Fi AP)时,通常依赖的是该产品在无干扰的实验室环境中,量测得到的数据报告。然而,这些数据往往是在受控的RF隔离环境中进行测试,无法完全反映真实使用场景。这种情况导致许多消费者抱怨,他们购买的产品效能与宣称的数据不符。在实际应用中,消费者常因Wi-Fi讯号不稳定、传输速度不如预期或设备过热而产生客诉。产品仰赖实验室的数据够吗?无线路由器(Wi-Fi AP)ODM供货商遇到什么挑战?一家台湾知名的无线路由器(W
    百佳泰测试实验室 2025-04-05 00:12 34浏览
  • 文/杜杰编辑/cc孙聪颖‍2025年的3月,成功挺过造车至暗时刻的小米创始人雷军,接连迎来人生的高光。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)在颜值即正义的舆论导向之下,全国两会期间,雷军凭借得体的衣着、挺拔的身姿赢得赞誉。面对雷军的压人表现,连行事一向沉稳、不愿跟风的海尔,都推出“leadership”组合拳,试图助力自家boss,不落下风。(详情见:两会声音|本届全国两会,周云杰为海尔省了多少广告费?)喜事接连不断,紧接着的3月18日,雷军重磅宣布小米 “史上最强年报”。雷军的公关
    华尔街科技眼 2025-04-03 20:30 30浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 60浏览
  • 一、为什么流量可见性如此重要?在网络管理中,及时掌握流量状况至关重要,这不仅有助于快速排查故障、优化性能,还能提升安全防护能力。为了实现这一目标,企业通常依赖 SPAN 端口(交换机端口镜像)或 网络 TAP(测试接入点)来捕获和分析流量。然而,这两种方法在数据完整性、性能影响和监控能力上存在显著差异。如何选择合适的方案,以确保网络监控的精准性和高效性?本文将深入解析 SPAN 端口与网络 TAP 的核心区别,帮助你做出明智决策。二、SPAN 端口:简单易用,但有局限SPAN 端口也称为镜像端口
    艾体宝IT 2025-04-03 16:41 31浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 65浏览
  • OT(Operational Technology,运营技术)指的是用于监控和控制物理设备、流程和基础设施的技术,广泛应用于工业控制系统(ICS)、制造业、能源、电力、交通、水利等领域。OT网络主要包括SCADA(数据采集与监控系统)、DCS(分布式控制系统)、PLC(可编程逻辑控制器)等设备和协议,如Modbus、PROFINET、EtherCAT等。随着 IT/OT 融合、工业物联网(IIoT)、NDR、零信任架构等技术的落地,OT 网络正在向更开放、智能和安全的方向发展。然而,针对 OT
    艾体宝IT 2025-04-03 16:39 27浏览
  • 【拆解】+南孚测电器拆解 之前在天猫上买了一盒南孚电池,他给我送了一个小东西—测电器。今天我们就来拆解一下这个小东西,看看它是怎么设计和工作的。 三颗指示灯显示电池剩余电量。当点亮3颗LED时,则表示点亮充足。当点亮2颗LED时,则表示还能用。当点亮1颗LED时,表示点亮地建议更换,当无法点亮LED时,则表示没电了。外壳上还印有正负极,以免用户将电池放反。 这个小东西拆解也很方便,一个螺丝刀稍微撬几下。外壳就下来了,它是通过卡扣连接。 开盖后,测电线路板清晰呈现在眼前。 让我们看看小小的线路板有
    zhusx123 2025-04-05 15:41 44浏览
  • 引言:POPO声的成因与影响在语音芯片应用中,WT588F08A作为一款支持DAC+功放输出的高集成方案,常因电路设计或信号处理不当,在音频播放结束后出现POPO声(瞬态噪声)。这种噪声不仅影响用户体验,还可能暴露电路设计缺陷。本文将基于实际案例,解析POPO声的成因并提供系统化的解决方案。一、POPO声的根源分析1. 功放电路状态切换的瞬态冲击当DAC输出的音频信号突然停止时,功放芯片的输入端若处于高阻态或无信号状态,其内部放大电路会因电源电压突变产生瞬态电流,通过喇叭表现为POPO声。关键因
    广州唯创电子 2025-04-07 09:01 60浏览
  • 引言:小型化趋势下的语音芯片需求随着消费电子、物联网及便携式设备的快速发展,产品设计对芯片的小型化、高集成度和低功耗提出了更高要求。厂家凭借其创新的QFN封装技术,推出WTV系列(如WTV380)及WT2003H系列语音芯片,以超小体积、高性能和成本优势,为紧凑型设备提供理想解决方案。产品核心亮点1. QFN封装技术赋能超小体积极致尺寸:WTV380采用QFN32封装,尺寸仅4×4毫米,WT2003H系列同样基于QFN工艺,可满足智能穿戴、微型传感器等对空间严苛的场景需求。高密度集成:QFN封装
    广州唯创电子 2025-04-07 08:47 48浏览
  •   安全生产预警系统作为现代工业与安全管理的重要组成部分,正以前所未有的技术引领力,创新性地塑造着未来的安全管理模式。这一系统通过集成多种先进技术,如物联网、大数据、人工智能、云计算等,实现了对生产环境中潜在危险因素的实时监测、智能分析与及时预警,为企业的安全生产提供了坚实的技术保障。   技术引领:   物联网技术:物联网技术使得各类安全监测设备能够互联互通,形成一张覆盖全生产区域的安全感知网络。传感器、摄像头等终端设备实时采集温度、压力、气体浓度、人员位置等关键数据,为预警系统提供丰富的
    北京华盛恒辉软件开发 2025-04-05 22:18 44浏览
  • 在科技浪潮奔涌的当下,云计算领域的竞争可谓是如火如荼。百度智能云作为其中的重要参与者,近年来成绩斐然。2024年,百度智能云在第四季度营收同比增长26%,这样的增速在行业内十分惹眼。回顾全年,智能云业务的强劲增长势头也十分明显,2024年第一季度,其收入达到47亿元,同比增长12%;第二季度营收51亿元,同比增长14%。从数据来看,百度智能云在营收方面一路高歌猛进,展现出强大的发展潜力。然而,市场对百度智能云的表现似乎并不完全买账。2024年,尽管百度智能云数据亮眼,但百度股价却在震荡中下行。在
    用户1742991715177 2025-04-06 20:25 52浏览
  • 在影像软的发展历程中,美图曾凭借着美图秀秀等一系列产品,在“颜值经济”的赛道上占据了领先地位,成为了人们日常生活中不可或缺的一部分,也曾在资本市场上风光无限,2016 年上市时,市值一度超过46亿美元,备受瞩目。 然而,随着市场的不断发展和竞争的日益激烈,美图逐渐陷入了困境。商业模式单一,过度依赖在线广告收入,使得其在市场波动面前显得脆弱不堪;多元化尝试,涉足手机、电商、短视频、医美等多个领域,但大多以失败告终,不仅未能带来新的增长点,反而消耗了大量的资源。更为严峻的是,用户流失问题日
    用户1742991715177 2025-04-05 22:24 48浏览
  • 【拆解】+沈月同款CCD相机SONY DSC-P8拆解 这个清明假期,闲来无事,给大伙带来一个老古董物品的拆解--索尼SONY DSC-P8 CCD相机。这个产品是老婆好几年前在海鲜市场淘来的,由于显示屏老化,无法正常显示界面了,只有显示背光。但是这也无法阻止爱人的拍照。一顿盲操作依旧可以拍出CCD古董相机的质感。如下实拍: 由于这个相机目前都在吃灰。我就拿过来拆解,看看里面都是怎样个设计,满足下电子爱好者的探索。 首先给大伙展示下这台老相机的全貌。正视图  后视图 
    zhusx123 2025-04-06 17:38 75浏览
我要评论
0
1
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦