我最近参加了在硅谷举行的2018年Xilinx开发者论坛。在这个论坛上,我了解到一家名为Mipsology的AI领域初创公司,声称已经解决了采用FPGA的AI相关问题。

我最近参加了在硅谷举行的2018年Xilinx开发者论坛(XDF)。在这个论坛上,我了解到一家名为Mipsology的AI领域初创公司,声称已经解决了采用现场可编程门阵列(FPGA)的AI相关问题。 Mipsology的宏伟愿景是利用FPGA可实现的最高性能来加速神经网络(NN)计算,而不受其部署中固有的限制。

Mipsology展示了每秒可执行超过2万张图像的能力,基于Xilinx新发布的Alveo板,处理一系列NN,包括ResNet50、InceptionV3、VGG19及其它深度学习模型等。

神经网络和深度学习入门

神经网络松散地模拟人脑中的神经网,是深度学习(DL)的基础,这是一个复杂的数学系统,可以自己学习执行任务。通过查看许多示例或关联,NN可以比传统的识别程序更快地学习连接和关系。训练就是基于对数百万同一类型的样本的学习来配置NN以执行特定任务的过程。

例如,一个NN可能聆听许多声音样本并使用DL来学习“识别”特定单词的声音。然后,该NN就可以筛选新的声音样本清单,并使用称为推理的技巧来正确识别出包含它已经学习过的单词的样本。

尽管这听起来很复杂,但DL执行的却是简单的操作,主要是加法和乘法,但要进行数十亿或数万亿次的运算。执行这么大量的操作对计算的需求很高。更具体地讲,执行DL推理的计算需求要大于DL训练对计算的需求。DL训练只需要进行一次,但NN一旦经过训练后,就必须对其收到的每个新样本一次又一次地进行推理。

加速深度学习推理的四种选择

随着时间的推移,工程技术界挑选了四种不同的运算器件来处理NN。按照处理能力和功耗的递增顺序,以及灵活性/适应性的递减顺序,这些器件包括:中央处理单元(CPU),图形处理单元(GPU),FPGA和专用集成电路(ASIC)。下表总结了四种计算器件之间的主要差异。

1.JPG

图1:用于DL计算的CPU、GPU、FPGA和ASIC的对比。(来源:Lauro Rizzatti)

CPU基于冯诺依曼架构。虽然灵活(这是它存在的根本原因),但CPU会受到长延迟的影响,因为存储器访问要耗费几个时钟周期才能执行一个简单的任务。当应用于要求低延迟的任务时,如NN计算,特别是DL训练和推理,它们是最差的选择。

GPU以牺牲灵活性为代价来提高计算吞吐量。此外,GPU的功耗很大,需要冷却装置,这使得它们不能成为数据中心大规模部署的理想选择。

定制ASIC似乎是一种理想的解决方案,但它也有一系列自身的问题。首先,开发ASIC需要耗费数年时间,而DL和NN仍在快速演化中,也许一个新的突破马上就让去年的技术变得无关紧要了。此外,为了与CPU或GPU竞争,ASIC较大的硅片面积就需要使用最新最小的晶圆工艺技术来制造。这使得前期的巨额投资十分昂贵,而又不能保证其长期可用性。综合考虑多种因素,ASIC对特定任务才比较有效。

FPGA器件已逐渐成为推理的最佳选择。它具有快速、灵活和高效的优点,并且可为数据中心的数据处理提供良好的解决方案,特别是在快速发展的DL领域、网络边缘以及AI科学家的桌面终端上。

目前最大的FPGA包括数百万个简单的布尔运算、数千个存储器和DSP,以及多个Arm处理器内核。所有这些资源都可以并行工作 ,即每个时钟周期即可触发多达数百万个同时的操作,从而达到每秒执行数万亿次操作的计算性能。 DL所需的处理能力可以很好地映射到FPGA资源上。

相对于CPU和GPU,FPGA在DL应用方面还具有其它优势,包括:

它不限于某种类型的数据,比如它可以处理非标准的低精度数据,为DL提供更高的吞吐量。

它比CPU或GPU的功耗低,对相同的NN计算其平均功耗要低5~10倍。它在数据中心部署的经常性运营成本也比较低。

也可以对它进行重新编程以适应不同的任务,其通用性足以适应各种应用需求。DL正在快速发展和变化,同一个FPGA可以满足新的要求,而无需更换为下一代芯片(而ASIC就必须更换),从而降低了总拥有成本。它的应用范围也比较宽泛,从大型到小型设备都可以,即可用于数据中心,也可用于物联网(IoT)节点。唯一的区别是它所包含的模块数不同。

并非所有闪光的都是金子

FPGA的高计算能力、低功耗和灵活性是需要付出代价的,它编程很复杂。

对FPGA进行编程需要特定的技能和知识,首先需要熟悉专门的硬件编程语言(HDLS),然后还要熟练使用FPGA供应商提供的特定工具,才能通过综合、布局和布线等复杂的步骤来编译设计。FPGA编程在获得回报之前涉及几个关键问题,其中包括定义一个“程序”架构、遵守约束设计规则、将“程序”合理安置到FPGA中,以及应对时序收敛、漫长的编译及缺乏软件类调试等问题。

Mipsology的Zebra这样解决FPGA问题

在XDF上,Mipsology创始人兼CEO Ludovic Larzul和我谈到了Zebra,这是该公司基于FPGA开发的一种用来计算神经网络的深度学习推理引擎。

根据Larzul的说法,“Zebra对用户隐藏了FPGA,因此消除了那些难以编程的问题。Zebra不要求你学习一种新的语言和工具,也不需要了解硬件级别的细节。它提供预先编译好的FPGA二进制文件,因此无需学习FPGA编译过程。

 “我们用Zebra简化了流程。一旦将FPGA板插入PC,只需一个Linux命令即可。FPGA可以代替CPU或GPU立即进行无缝的推断,并且可以在更低的功耗下将计算速度提高一个数量级。”

Zebra是专为AI设计的:“FPGA现在可用于人工智能和深度学习,”Larzul肯定地说。 “Zebra可以集成进Caffe、Caffe2、MXNet和TensorFlow等框架中。部署Zebra无需修改神经网络框架,可让AI专家在同一框架之上运行各种应用。他们可以在NN训练之后从CPU或GPU切换到FPGA以进行推理,而不会浪费研发时间。”

 “Zebra可支持各种NN,从最常见的商业网络到任何定制设计的NN。只要使用可支持的层和参数构建神经网络,就不需要进行任何更改。Zebra的界限不应该阻止任何NN在其上运行。它们可以包括多达100万个层、30亿个网络权重,以及每个卷积滤波器中的5万个过滤器。所有这些资源远高于神经网络所常用的。

 “调整NN参数甚至改变神经网络并不需要强制重新编译FPGA,重新编译工作可能需要花费数小时、数天,如果发生时序问题甚至要耗费几周(如果可能重新编译的话),这使得Zebra很适合NN部署。 对NN的任何修改都可以在Zebra上运行,从而简化了用于数据中心的新版本的测试。

Zebra可以使用已经在GPU上执行的NN训练,因此无需再训练,也避免了使用新工具来迁移训练参数。”

 “Zebra使用8位或16位定点整数执行推理计算,而CPU或GPU通常使用浮点值。正如许多科学论文中所揭示的,若使用适当的量化,结果的准确性不会受到精度变化的影响。Zebra也适应这种情况,无需任何用户干预。通过降低计算精度,计算吞吐量可大大提高。”

性能是最重要的,Larzul声称,“虽然FPGA具有其他硬件平台无法比拟的多种优势,但处理速度、功耗和成本在大多数情况下是令一个硬件平台具有吸引力的关键。当使用相同的软件堆栈、框架和神经网络时,Zebra的执行速度远远高于GPU或CPU。“

2.jpg

图2:Zebra适应由其他加速器训练的NN。 (来源:Mipsology)

Larzul坚定地表示,“在Mipsology,我们会专注于持续提高Zebra的吞吐量,旨在实现FPGA所能达到的最高性能。 例如,就在2018年,我们已经在同一芯片上实现了5倍的加速。”

 “与市场上现有的各种FPGA板相比,Zebra的吞吐量/元和吞吐量/元/W都是最好的。”

结语

在2018年XDF上发现Mipsology和Zebra对我是一个惊喜。正如Larzul所总结的那样,“Zebra从一开始的构想就是为了充分利用FPGA的吞吐量潜能,并尽量避免其缺点,可以为AI科学家和专业人士提供很高的算力,以加速数据中心和边缘的NN推理,配合GPU训练可谓是相得益彰。”

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
随着先进芯片设计格局的迅速演变,新的验证和确认方法变得至关重要。众多前沿设计由系统公司在先进的工艺节点下完成,具有大量的逻辑门,并依赖于复杂的片上网络、SRAM池以及精密的电源、时钟和测试架构。
Altera正式宣布从英特尔分拆,并升起了象征独立的公司旗帜。Altera的独立对于整个FPGA行业来说是一个重要的里程碑事件,这将使Altera能够更加专注于技术创新和产品开发,从而推出更多符合市场需求的新产品,独立后的Altera也将有机会与其他FPGA厂商展开更激烈的市场竞争......
据台湾工商时报报道,英伟达(Nvidia)已正式成立ASIC(应用特定集成电路)部门,并计划在中国台湾招募上千名芯片设计、软件开发及AI研发人员。
莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品,Nexus 2是怎么做到低功耗和高性能的...
莱迪思(Lattice)正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言,这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距,但近年来国产FPGA的发展势头不容小觑……
继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal Premium系列,使得第二代Versal系列的版图更趋完整。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究,TSMC(台积电)近日宣布提高在美国的先进半导体制造投资,总金额达1650亿美元,若新增的三座厂区扩产进度顺利,预计最快20
2月17日,“南京江宁开发区”发文透露,阳光电源在南京新建的光伏储能项目已经全面开工建设,总投资达到10亿元。加入光储充交流群,请加微信:hangjiashuo888据报道,阳光电源南京研发中心项目是
UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小,在市场竞争激烈的当下,整灯企业希望能够降低LED驱动电源的成本,同时LED驱动电源的品质和性价比也成为主要焦
本文来源:智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多,但是最常用的就是UWB,因为UWB定位精度高,现在的成本也在下降,手机中也开始逐渐普及UWB等
高通又放大招了!3月3日,也就是MWC世界移动通信大会的第一天,高通正式宣布,推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布,行业早有关注。因为高通的手机So
点击蓝字 关注我们SUBSCRIBE to USImage: SwitchBotSwitchBot价格实惠、可调节的智能窗帘终于问世了。SwitchBot窗帘(SwitchBot Roller Sha
为进一步推进商业信用体系建设,促进企业诚实守信经营,面向企业普及诚信与品牌建设的意义,指导企业加强诚信品牌建设,提升其整体竞争力,“崛起的民族品牌”专题系列节目以诚信为内涵,在全国范围内遴选出有行业代
    内容概要:目前,全球半导体、光电等电子信息产业在世界范围内转移,东亚、东南亚等地区已成为世界电子信息行业的主要市场和发展重心;同时由于我国医药卫生、半导
文|金融街老李奇瑞终于正式向港交所递交上市申请了。其实,支持奇瑞汽车实现IPO,此前就已经被安徽省列在了汽车产业2025年重点工作的第38条,但正如奇瑞汽车一贯的低调作风,此次赴香港上市,奇瑞在资本市
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会:论全球电信商FWA布局》报告指出,随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本