我最近参加了在硅谷举行的2018年Xilinx开发者论坛。在这个论坛上,我了解到一家名为Mipsology的AI领域初创公司,声称已经解决了采用FPGA的AI相关问题。

我最近参加了在硅谷举行的2018年Xilinx开发者论坛(XDF)。在这个论坛上,我了解到一家名为Mipsology的AI领域初创公司,声称已经解决了采用现场可编程门阵列(FPGA)的AI相关问题。 Mipsology的宏伟愿景是利用FPGA可实现的最高性能来加速神经网络(NN)计算,而不受其部署中固有的限制。

Mipsology展示了每秒可执行超过2万张图像的能力,基于Xilinx新发布的Alveo板,处理一系列NN,包括ResNet50、InceptionV3、VGG19及其它深度学习模型等。

神经网络和深度学习入门

神经网络松散地模拟人脑中的神经网,是深度学习(DL)的基础,这是一个复杂的数学系统,可以自己学习执行任务。通过查看许多示例或关联,NN可以比传统的识别程序更快地学习连接和关系。训练就是基于对数百万同一类型的样本的学习来配置NN以执行特定任务的过程。

例如,一个NN可能聆听许多声音样本并使用DL来学习“识别”特定单词的声音。然后,该NN就可以筛选新的声音样本清单,并使用称为推理的技巧来正确识别出包含它已经学习过的单词的样本。

尽管这听起来很复杂,但DL执行的却是简单的操作,主要是加法和乘法,但要进行数十亿或数万亿次的运算。执行这么大量的操作对计算的需求很高。更具体地讲,执行DL推理的计算需求要大于DL训练对计算的需求。DL训练只需要进行一次,但NN一旦经过训练后,就必须对其收到的每个新样本一次又一次地进行推理。

加速深度学习推理的四种选择

随着时间的推移,工程技术界挑选了四种不同的运算器件来处理NN。按照处理能力和功耗的递增顺序,以及灵活性/适应性的递减顺序,这些器件包括:中央处理单元(CPU),图形处理单元(GPU),FPGA和专用集成电路(ASIC)。下表总结了四种计算器件之间的主要差异。

1.JPG

图1:用于DL计算的CPU、GPU、FPGA和ASIC的对比。(来源:Lauro Rizzatti)

CPU基于冯诺依曼架构。虽然灵活(这是它存在的根本原因),但CPU会受到长延迟的影响,因为存储器访问要耗费几个时钟周期才能执行一个简单的任务。当应用于要求低延迟的任务时,如NN计算,特别是DL训练和推理,它们是最差的选择。

GPU以牺牲灵活性为代价来提高计算吞吐量。此外,GPU的功耗很大,需要冷却装置,这使得它们不能成为数据中心大规模部署的理想选择。

定制ASIC似乎是一种理想的解决方案,但它也有一系列自身的问题。首先,开发ASIC需要耗费数年时间,而DL和NN仍在快速演化中,也许一个新的突破马上就让去年的技术变得无关紧要了。此外,为了与CPU或GPU竞争,ASIC较大的硅片面积就需要使用最新最小的晶圆工艺技术来制造。这使得前期的巨额投资十分昂贵,而又不能保证其长期可用性。综合考虑多种因素,ASIC对特定任务才比较有效。

FPGA器件已逐渐成为推理的最佳选择。它具有快速、灵活和高效的优点,并且可为数据中心的数据处理提供良好的解决方案,特别是在快速发展的DL领域、网络边缘以及AI科学家的桌面终端上。

目前最大的FPGA包括数百万个简单的布尔运算、数千个存储器和DSP,以及多个Arm处理器内核。所有这些资源都可以并行工作 ,即每个时钟周期即可触发多达数百万个同时的操作,从而达到每秒执行数万亿次操作的计算性能。 DL所需的处理能力可以很好地映射到FPGA资源上。

相对于CPU和GPU,FPGA在DL应用方面还具有其它优势,包括:

它不限于某种类型的数据,比如它可以处理非标准的低精度数据,为DL提供更高的吞吐量。

它比CPU或GPU的功耗低,对相同的NN计算其平均功耗要低5~10倍。它在数据中心部署的经常性运营成本也比较低。

也可以对它进行重新编程以适应不同的任务,其通用性足以适应各种应用需求。DL正在快速发展和变化,同一个FPGA可以满足新的要求,而无需更换为下一代芯片(而ASIC就必须更换),从而降低了总拥有成本。它的应用范围也比较宽泛,从大型到小型设备都可以,即可用于数据中心,也可用于物联网(IoT)节点。唯一的区别是它所包含的模块数不同。

并非所有闪光的都是金子

FPGA的高计算能力、低功耗和灵活性是需要付出代价的,它编程很复杂。

对FPGA进行编程需要特定的技能和知识,首先需要熟悉专门的硬件编程语言(HDLS),然后还要熟练使用FPGA供应商提供的特定工具,才能通过综合、布局和布线等复杂的步骤来编译设计。FPGA编程在获得回报之前涉及几个关键问题,其中包括定义一个“程序”架构、遵守约束设计规则、将“程序”合理安置到FPGA中,以及应对时序收敛、漫长的编译及缺乏软件类调试等问题。

Mipsology的Zebra这样解决FPGA问题

在XDF上,Mipsology创始人兼CEO Ludovic Larzul和我谈到了Zebra,这是该公司基于FPGA开发的一种用来计算神经网络的深度学习推理引擎。

根据Larzul的说法,“Zebra对用户隐藏了FPGA,因此消除了那些难以编程的问题。Zebra不要求你学习一种新的语言和工具,也不需要了解硬件级别的细节。它提供预先编译好的FPGA二进制文件,因此无需学习FPGA编译过程。

 “我们用Zebra简化了流程。一旦将FPGA板插入PC,只需一个Linux命令即可。FPGA可以代替CPU或GPU立即进行无缝的推断,并且可以在更低的功耗下将计算速度提高一个数量级。”

Zebra是专为AI设计的:“FPGA现在可用于人工智能和深度学习,”Larzul肯定地说。 “Zebra可以集成进Caffe、Caffe2、MXNet和TensorFlow等框架中。部署Zebra无需修改神经网络框架,可让AI专家在同一框架之上运行各种应用。他们可以在NN训练之后从CPU或GPU切换到FPGA以进行推理,而不会浪费研发时间。”

 “Zebra可支持各种NN,从最常见的商业网络到任何定制设计的NN。只要使用可支持的层和参数构建神经网络,就不需要进行任何更改。Zebra的界限不应该阻止任何NN在其上运行。它们可以包括多达100万个层、30亿个网络权重,以及每个卷积滤波器中的5万个过滤器。所有这些资源远高于神经网络所常用的。

 “调整NN参数甚至改变神经网络并不需要强制重新编译FPGA,重新编译工作可能需要花费数小时、数天,如果发生时序问题甚至要耗费几周(如果可能重新编译的话),这使得Zebra很适合NN部署。 对NN的任何修改都可以在Zebra上运行,从而简化了用于数据中心的新版本的测试。

Zebra可以使用已经在GPU上执行的NN训练,因此无需再训练,也避免了使用新工具来迁移训练参数。”

 “Zebra使用8位或16位定点整数执行推理计算,而CPU或GPU通常使用浮点值。正如许多科学论文中所揭示的,若使用适当的量化,结果的准确性不会受到精度变化的影响。Zebra也适应这种情况,无需任何用户干预。通过降低计算精度,计算吞吐量可大大提高。”

性能是最重要的,Larzul声称,“虽然FPGA具有其他硬件平台无法比拟的多种优势,但处理速度、功耗和成本在大多数情况下是令一个硬件平台具有吸引力的关键。当使用相同的软件堆栈、框架和神经网络时,Zebra的执行速度远远高于GPU或CPU。“

2.jpg

图2:Zebra适应由其他加速器训练的NN。 (来源:Mipsology)

Larzul坚定地表示,“在Mipsology,我们会专注于持续提高Zebra的吞吐量,旨在实现FPGA所能达到的最高性能。 例如,就在2018年,我们已经在同一芯片上实现了5倍的加速。”

 “与市场上现有的各种FPGA板相比,Zebra的吞吐量/元和吞吐量/元/W都是最好的。”

结语

在2018年XDF上发现Mipsology和Zebra对我是一个惊喜。正如Larzul所总结的那样,“Zebra从一开始的构想就是为了充分利用FPGA的吞吐量潜能,并尽量避免其缺点,可以为AI科学家和专业人士提供很高的算力,以加速数据中心和边缘的NN推理,配合GPU训练可谓是相得益彰。”

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
以市值860亿美元计算,英特尔已跌出全球十大芯片制造商之列。它是今年费城芯片指数中表现第二差的公司……
《纽约时报》近日报道称,尽管美国对俄罗斯实施了严格的芯片出口限制,但俄罗斯仍在其导弹系统中大量使用来自 AMD、德州仪器、美光和英特尔等美国公司的芯片。
AMD官宣AMD 总裁 Victor Peng即将退休,将于 2024 年 8 月 30 日退休。在此期间,Victor Peng继续担任 AMD 执行团队的顾问,并支持过渡,直至退休。
近日有外媒报道称,头字节跳动与美国博通达成合作,共同研发先进的5纳米定制化AI芯片。6月24日晚间,字节跳动对问询媒体表示,该消息不实。
与前代产品AMD Alveo U55C计算加速卡相比,Alveo V80的逻辑密度至高翻倍、存储器带宽至高翻倍,且网络带宽可高至4倍,可以实现强大的计算集群,也不再需要DDR4或其他外部芯片,从而优化了卡、服务器数量以及机架空间。
世界半导体贸易统计组织(WSTS)的最新预测,2024年全球半导体市场预计将实现16%的增长,市场估值达到6110亿美元。这一增长主要得益于过去两个季度的强劲表现,尤其是在计算终端市场。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
文|萝吉今年下半年开始,国内新能源市场正式跨过50%历史性节点,且份额依然在快速增长——7月渗透率破50%,8月份破55%……在这一片勃勃生机万物竞发的景象下,新能源市场占比最高的纯电车型,却在下半年
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
展位信息深圳跨境电商展览会(CCBEC)时间:2024年9月11-13日 9:30-17:30地点:深圳国际会展中心(宝安)展馆:16号馆 16D73/16D75 展位报名注册准备好“观众注册”入场二