广告

谷歌揭秘TPU超越CPU与GPU的原因

2017-04-20 04:21:27 Rick Merritt 阅读:
Google在一项机器学习测试报告中指出,其TPU的效能较英特尔的Haswell CPU与Nvidia K80 GPU更高至少15倍,每瓦执行的兆次运算也提高了30倍以上…
广告

网络巨擘谷歌(Google)日前指出,该公司的Tensor处理器(TPU)在机器学习的测试中,以数量级的效能优势超越英特尔(Intel)的Xeon处理器和Nvidia的绘图处理器(GPU)。在一份长达17页的报告中,Google深入剖析其TPU和测试基准显示比目前的商用芯片更快至少15倍的速度,并提供更高30倍的效能功耗比(P/W)。

去年五月,Google宣布其ASIC设计是为了加快各种应用在其数据中心服务器的推论作业。现在,该公司将在今年6月的一场计算机架构大会中,透过一篇论文首度公开对于此芯片及其效能的深入研究。

这份报告提供了有关加速器与Google多元神经网络工作负载的深度观察,并建议工程师在此快速成长的领域中投注更多的学习。

曾带领超过70位工程师团队设计TPU 的知名硬件工程师Norman P. Jouppi说:“我们希望聘请一些优秀的工程师,并让他们了解我们正在进行高质量的工作,同时也让云端客户知道我们的实力。”

该计划的其中一位负责人员是美国加州伯克利大学(U.C. Berkeley)退休教授David Patterson,他同时也是一位资深的处理器架构师,在日前一场硅谷的工程师聚会中介绍了这份报告。Google还在部落格中发布Jouppi所撰写关于此芯片的文章。

如今Google的数据中心仍采用此芯片。不过,关于该芯片使用的范围与未来计划加强的部份,Jouppi并不愿透露任何细节。

这款40W功率的TPU是一款采用28纳米工艺、70MHz频率运算的芯片,专为加速Google TensorFlow 算法而设计。其主要的逻辑单元包含65,536个8位的乘积累加运算单元和24MB高速缓存,并提供每秒92兆次指令周期。

在2015年采用Google机器学习芯片而进行的测试中,相较于英特尔(Intel)的Haswell服务器处理器(CPU)和Nvidia的K80绘图处理器(GPU),采用TPU时的运作速度提高了15到30倍,效能提高了30到80倍。该报告中指出:“TPU的相对增量效能功耗比为41到83——这就是我们为什么客制化ASIC的原因,它让TPU比GPU高出25到29倍的的效能功耗比。”

2015年的测试使用了英特尔 22纳米工艺的18核心Haswell E5-2699 v3 CPU,其频率频率(速度)为2.3GHz,热设计功耗(TDP)为145W。Nvidia K80 GPU功耗为150W,频率频率最高到875MHz。

20170419_TPU_NT01P1
图1:TPU(星形)在神经网络推论作业的效能超越英特尔Haswell处理器(圆形),以及Nvidia K80(三角形) (来源:Google)

TPU内部揭密

在该报告中提到,TPU所达到的数量级效能优势,很少有别的厂商能做到,也可能让TPU成为特定领域架构的原型。预计接下来将会有许多追随者,而使得标准更为提高。

事实上,TPU的目标不在于提高数据处理量,而是专注于达到7毫秒(ms)的延迟,使专用加速器发挥功效,因此,它舍弃了高吞吐量的多任务通用处理器所需的许多组件,而用于执行其他许多任务。

但此ASIC芯片在能耗比的表现上不及英特尔和Nvidia的芯片。在10%的负载状况下,TPU的最大功率消耗为88%。相形之下,K80在10%负载下消耗66%的功率,而英特尔Haswell的最大功耗为56%。

Google解释,这是由于仅15个月的设计时程相对较短,使得TPU无法加入许多节能方面的功能。

数据缓冲区约占TPU的37%,媒体访问控制(MAC)组合占30%。虽然TPU比起Nvidia GPU的尺寸更小、功耗更低,但其上的MAC数量却是K80的25倍,芯片上内存容量则为其3.5倍。

TPU搭载PCIe Gen3 x16总线,并提供256位的内部数据路径。主机CPU将加速器视为浮点运算处理器,透过PCIe总线传达指令。
20170419_TPU_NT01P2
图2:大部份的TPU主要用于处理MAC数组,以及24MB高速缓存

TPU使用与GPU加速器相同的Tensorflow软件,开发人员可维持核心驱动器的稳定,必要时调整使用者空间的驱动程序,以因应不断改变的应用。

Google发现,持续增加的内存带宽对于效能表现的影响最大。平均来说,加速频率速度的效益不大,而当MAC扩增到512x512矩阵时,加快频率速度的效能还将微幅下降。

该报告中指出,从2015年的测试以来,英特尔已经推出14纳米CPU,Nvidia也推出16纳米GPU了。然而,TPU也可能将其外部DDR3内存升级到像K80所使用的GDDR5内存。

报告中指出:“未来的CPU与GPU在执行推论时将会更快速。采用2015版GPU内存而重新设计的TPU将会提高两倍到三倍的速度,而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

Google宣称在英特尔CPU上执行8位运算相当辛苦。报告中提到:“我们原本只有一款CPU执行8位运算的结果,因为有效地使用其AVX2整数运算指令,效果提升了3.5倍。”

由于其采用数据处理量为导向的架构,即使是改良过的GPU要达到Google的 7nm延迟目标,仍然充满挑战。同时,“这款TPU仍有很大的改进空间,所以这不是一个容易达成的目标。”
20170419_TPU_NT01P3
图3:ASIC芯片支持PCIe Gen 3 x16总线,并搭载DDR3内存

开发人员掌握多元化信息

该报告中提到,研究人员受到热门的ImageNet比赛吸引,已经变得过于投入卷积神经网络(CNN)。现实世界的应用采用更广泛的神经网络类型,报告并强调,多层感知(MLP)占Google AI开发工作的61%。“虽然大部份的架构师一直在加速CNN设计,但这部份只占5%的工作负载。”

“虽然CNN可能很常见于边缘设备,但卷积模型的数量还赶不上数据中心的多层感知(MLP)和长短期内存(LSTM)。我们希望架构师尽可能地加速MLP和LSTM设计,这种情况类似于当许多架构师专注于浮点运算效能时,大部份的主流工作负载仍由整数运算主导。”

Jouppi说:“我们已经开始与一些大学合作,扩大提供免费模式。”但他并未透露内容细节。

这篇报告回顾了二十多年来神经网络的相关数据,包括其竞争对手——微软(Microsoft)基于FPGA的Catapult计划,加速了网络作业。最初的25W Catapult在200MHz频率上运作3,926个18位MAC,并且以200MHz 频率速度执行5MB内存。Google表示,以Verilog语言设计的固件比起使用TensorFlow软件来说效率更低。
20170419_TPU_NT01P4
图4:TPU卡可插入服务器的SATA插槽上

TPU计划于2013年开始,当时并以FPGA进行了试验。该报告中提到:“我们舍弃FPGA,因为我们当时发现它和GPU相比,在效能上不具竞争力,而TPU比起GPU在相同速度或甚至更快的速度下,可以达到更低的功耗。”

尽管二十多年来,神经网络终于在最近从商用市场起飞了。

Jouppi说:“我们所有人都被这蓬勃发展的景象吓到了,当初并未预期到会有如此大的影响力。一直到五、六年以前,我都还一直抱持怀疑态度…而今订单开始逐月增加中。”

相较于传统途径,深度神经网络(DNN)已经让语音识别的错误率降低了30%,这是二十年来最大的进步。这让ImageNet影像辨识竞赛中的错误率从2011年的26%降至3.5%。

该报告结论还提到,“神经网络加速器存在的理由在于效能,而在其演进过程中,如何达到良好的直觉判断,目前还为时过早。”

本文授权编译自EE Times,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Rick Merritt
EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞,他为EE Times撰写有关电子行业和工程专业的新闻和分析。 他关注Android,物联网,无线/网络和医疗设计行业。 他于1992年加入EE Times,担任香港记者,并担任EE Times和OEM Magazine的主编。
  • 索尼新专利:利用AI技术解决游戏延迟问题 索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
  • 将人工智能应用于射频设计 人类的发明,即工程系统,依赖于物理学和数学基本原理,如麦克斯韦方程、量子力学和信息论等,以实现特定目标。然而,随着工程系统复杂性和规模迅速增长,其子组件的功能可能呈现出非线性特性,这使得基于第一原理的设计方法受到限制。
  • 2025年全球将启动18个新的晶圆厂项目建设,中国有5个 半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
  • TCL正式发布“世界上第一款模块化人工智能伴侣机器人” 这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
  • 迎接硅光子时代:开启超高速数据传输新篇章 随着AI和量子计算等前沿领域的快速发展,GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势,并推动全球芯片制造技术的多样化发展。
  • AI需求强劲增长,富士康第四季度营收超预期 富士康在一份声明中说,作为苹果公司最大的 iPhone 组装商,富士康第四季度营收增长 15.2%,达到 2.13 万亿新台币(647.2 亿美元),比LSEG SmartEstimate预测的2.1万亿新台币还要高......
  • 含硅还是不含硅? 大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
  • CES 2025:芯科科技CTO Daniel Co 在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
  • NFC防伪技术:削弱假货对奢侈品行业 虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
  • 西门子更新Simcenter解决方案,增强 西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了