谷歌揭秘TPU超越CPU与GPU的原因-电子工程专辑

 Google在一项机器学习测试报告中指出，其TPU的效能较英特尔的Haswell CPU与Nvidia K80 GPU更高至少15倍，每瓦执行的兆次运算也提高了30倍以上…

网络巨擘谷歌（Google）日前指出，该公司的Tensor处理器(TPU)在机器学习的测试中，以数量级的效能优势超越英特尔(Intel)的Xeon处理器和Nvidia的绘图处理器(GPU)。在一份长达17页的报告中，Google深入剖析其TPU和测试基准显示比目前的商用芯片更快至少15倍的速度，并提供更高30倍的效能功耗比(P/W)。

去年五月，Google宣布其ASIC设计是为了加快各种应用在其数据中心服务器的推论作业。现在，该公司将在今年6月的一场计算机架构大会中，透过一篇论文首度公开对于此芯片及其效能的深入研究。

这份报告提供了有关加速器与Google多元神经网络工作负载的深度观察，并建议工程师在此快速成长的领域中投注更多的学习。

曾带领超过70位工程师团队设计TPU 的知名硬件工程师Norman P. Jouppi说：“我们希望聘请一些优秀的工程师，并让他们了解我们正在进行高质量的工作，同时也让云端客户知道我们的实力。”

该计划的其中一位负责人员是美国加州伯克利大学(U.C. Berkeley)退休教授David Patterson，他同时也是一位资深的处理器架构师，在日前一场硅谷的工程师聚会中介绍了这份报告。Google还在部落格中发布Jouppi所撰写关于此芯片的文章。

如今Google的数据中心仍采用此芯片。不过，关于该芯片使用的范围与未来计划加强的部份，Jouppi并不愿透露任何细节。

这款40W功率的TPU是一款采用28纳米工艺、70MHz频率运算的芯片，专为加速Google TensorFlow 算法而设计。其主要的逻辑单元包含65,536个8位的乘积累加运算单元和24MB高速缓存，并提供每秒92兆次指令周期。

在2015年采用Google机器学习芯片而进行的测试中，相较于英特尔(Intel)的Haswell服务器处理器(CPU)和Nvidia的K80绘图处理器(GPU)，采用TPU时的运作速度提高了15到30倍，效能提高了30到80倍。该报告中指出：“TPU的相对增量效能功耗比为41到83——这就是我们为什么客制化ASIC的原因，它让TPU比GPU高出25到29倍的的效能功耗比。”

2015年的测试使用了英特尔 22纳米工艺的18核心Haswell E5-2699 v3 CPU，其频率频率(速度)为2.3GHz，热设计功耗(TDP)为145W。Nvidia K80 GPU功耗为150W，频率频率最高到875MHz。

20170419_TPU_NT01P1
图1：TPU(星形)在神经网络推论作业的效能超越英特尔Haswell处理器(圆形)，以及Nvidia K80(三角形) （来源：Google）

TPU内部揭密

在该报告中提到，TPU所达到的数量级效能优势，很少有别的厂商能做到，也可能让TPU成为特定领域架构的原型。预计接下来将会有许多追随者，而使得标准更为提高。

事实上，TPU的目标不在于提高数据处理量，而是专注于达到7毫秒(ms)的延迟，使专用加速器发挥功效，因此，它舍弃了高吞吐量的多任务通用处理器所需的许多组件，而用于执行其他许多任务。

但此ASIC芯片在能耗比的表现上不及英特尔和Nvidia的芯片。在10%的负载状况下，TPU的最大功率消耗为88%。相形之下，K80在10%负载下消耗66%的功率，而英特尔Haswell的最大功耗为56%。

Google解释，这是由于仅15个月的设计时程相对较短，使得TPU无法加入许多节能方面的功能。

数据缓冲区约占TPU的37%，媒体访问控制(MAC)组合占30%。虽然TPU比起Nvidia GPU的尺寸更小、功耗更低，但其上的MAC数量却是K80的25倍，芯片上内存容量则为其3.5倍。

TPU搭载PCIe Gen3 x16总线，并提供256位的内部数据路径。主机CPU将加速器视为浮点运算处理器，透过PCIe总线传达指令。
20170419_TPU_NT01P2
图2：大部份的TPU主要用于处理MAC数组，以及24MB高速缓存

TPU使用与GPU加速器相同的Tensorflow软件，开发人员可维持核心驱动器的稳定，必要时调整使用者空间的驱动程序，以因应不断改变的应用。

Google发现，持续增加的内存带宽对于效能表现的影响最大。平均来说，加速频率速度的效益不大，而当MAC扩增到512x512矩阵时，加快频率速度的效能还将微幅下降。

该报告中指出，从2015年的测试以来，英特尔已经推出14纳米CPU，Nvidia也推出16纳米GPU了。然而，TPU也可能将其外部DDR3内存升级到像K80所使用的GDDR5内存。

报告中指出：“未来的CPU与GPU在执行推论时将会更快速。采用2015版GPU内存而重新设计的TPU将会提高两倍到三倍的速度，而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

Google宣称在英特尔CPU上执行8位运算相当辛苦。报告中提到：“我们原本只有一款CPU执行8位运算的结果，因为有效地使用其AVX2整数运算指令，效果提升了3.5倍。”

由于其采用数据处理量为导向的架构，即使是改良过的GPU要达到Google的 7nm延迟目标，仍然充满挑战。同时，“这款TPU仍有很大的改进空间，所以这不是一个容易达成的目标。”
20170419_TPU_NT01P3
图3：ASIC芯片支持PCIe Gen 3 x16总线，并搭载DDR3内存

开发人员掌握多元化信息

该报告中提到，研究人员受到热门的ImageNet比赛吸引，已经变得过于投入卷积神经网络(CNN)。现实世界的应用采用更广泛的神经网络类型，报告并强调，多层感知(MLP)占Google AI开发工作的61%。“虽然大部份的架构师一直在加速CNN设计，但这部份只占5%的工作负载。”

“虽然CNN可能很常见于边缘设备，但卷积模型的数量还赶不上数据中心的多层感知(MLP)和长短期内存(LSTM)。我们希望架构师尽可能地加速MLP和LSTM设计，这种情况类似于当许多架构师专注于浮点运算效能时，大部份的主流工作负载仍由整数运算主导。”

Jouppi说：“我们已经开始与一些大学合作，扩大提供免费模式。”但他并未透露内容细节。

这篇报告回顾了二十多年来神经网络的相关数据，包括其竞争对手——微软(Microsoft)基于FPGA的Catapult计划，加速了网络作业。最初的25W Catapult在200MHz频率上运作3,926个18位MAC，并且以200MHz 频率速度执行5MB内存。Google表示，以Verilog语言设计的固件比起使用TensorFlow软件来说效率更低。
20170419_TPU_NT01P4
图4：TPU卡可插入服务器的SATA插槽上

TPU计划于2013年开始，当时并以FPGA进行了试验。该报告中提到：“我们舍弃FPGA，因为我们当时发现它和GPU相比，在效能上不具竞争力，而TPU比起GPU在相同速度或甚至更快的速度下，可以达到更低的功耗。”

尽管二十多年来，神经网络终于在最近从商用市场起飞了。

Jouppi说：“我们所有人都被这蓬勃发展的景象吓到了，当初并未预期到会有如此大的影响力。一直到五、六年以前，我都还一直抱持怀疑态度…而今订单开始逐月增加中。”

相较于传统途径，深度神经网络(DNN)已经让语音识别的错误率降低了30%，这是二十年来最大的进步。这让ImageNet影像辨识竞赛中的错误率从2011年的26%降至3.5%。

该报告结论还提到，“神经网络加速器存在的理由在于效能，而在其演进过程中，如何达到良好的直觉判断，目前还为时过早。”

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

Rick Merritt

EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞，他为EE Times撰写有关电子行业和工程专业的新闻和分析。他关注Android，物联网，无线/网络和医疗设计行业。他于1992年加入EE Times，担任香港记者，并担任EE Times和OEM Magazine的主编。

进入专栏

返回列表

上一篇： 拆解三星Galaxy S8+：延续Note 7设计，包括电池 下一篇： 怎样设计并调试锁相环电路？

NVIDIA物理智能，如何重塑自动驾驶底层逻辑？ “物理智能(Physical AI)”，黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出，即将全面到来的“Physical AI”时代，将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
中国牵头制定的世界首个养老机器人国际标准正式发布该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范，推动全球养老机器人产业的健康发展，通过明确养老机器人的功能与性能分类，确保其在互联家居环境中的有效应用。
人形机器人企业高薪揽才，核心岗位月薪飙至10万！ 2月以来，一些人形机器人头部企业高薪案例值得关注。其中，宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位，月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元，年薪超百万（15薪制）。
AI医疗迎来大变革，DeepSeek被赞有三甲医院专家水平！除了医疗诊断之外，DeepSeek利用其强大的计算能力和数据分析能力，还可以加速药物研发过程。
韩国KISTEP调查报告：韩半导体被中国反超，是“捧杀”还是事实？该报告认为，韩国在工艺和量产方面领先于中国，但在技术、原创及设计领域则落后于中国。因此，韩国专家担忧，随着中国在基础技术研发上的持续投入，韩国半导体领域的优势局面可能难以长期维持。
算力平权时代，静待LPU的王炸时刻目前，LPU芯片正凭借其创新的技术架构和出色的性能表现，在AI推理芯片市场中占据一席之地，而且很有可能为中国芯片厂商打开另一片新天地。
赤池昌二先生升任TEL集团副总裁兼 TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。
2025年无线连接的七大趋势预计在2025年，以下七大关键趋势将塑造物联网的格局。
4月必逛电子展！六大热门新赛道，来NEP 领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！
ASML公布2025年度股东大会议程，并提本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

PI不断创新，为您提升效率和可靠性作为功率半导体领域的创新领导者，Power Integrations（以下简称：PI）始终专注于前沿技术研发，持续为全球客户提供突破性解决方案。PI 在功率变换架构、电力电子驱动系统及汽车电子领域构建
签约！两家企业将在FPC/CCS领域深度合作 △广告与正文无关近日，珠海富士智能股份有限公司（以下简称“富士智能”）CCS业务与本地FPCA领域企业珠海合一创诚电子科技有限公司（以下简称“合一创诚”）正式签署战略合作协议，双方将围绕柔性电路
研报|台积电扩大对美投资至1650亿美元，预计最快2030年实现量产 Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究，TSMC（台积电）近日宣布提高在美国的先进半导体制造投资，总金额达1650亿美元，若新增的三座厂区扩产进度顺利，预计最快20
三星车规级电容在电动车高压DC-DC转换器中的作用 | 贞光科技代理品牌引言嘿，各位电动汽车的爱好者们！咱们今儿个就来聊聊电动汽车里那些“看不见，摸不着”，但又至关重要的零部件。要说电动汽车这玩意儿，那可真是科技含量满满，各种高精尖的技术都往里堆。但要让这些
低耗LED照明驱动电源ICU6116值得一选 UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小，在市场竞争激烈的当下，整灯企业希望能够降低LED驱动电源的成本，同时LED驱动电源的品质和性价比也成为主要焦
2024全球PCB企业40强榜单(含营收) 从上表可知，2024年前三季度全球40强PCB企业总营收约416.7亿美元，同比增长7.6%。其中，营收排名第一位的是臻鼎科技（36.05亿美元），排名第2～5位的分别是欣兴电子（26.85亿美元）、
闪耀新能源时代！安富利荣获2025“北极星杯”储能影响力BMS/EMS供应商奖在储能行业蓬勃发展的浪潮中，安富利凭借卓越的技术实力与广泛的市场影响力，荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可，更是对其在储能领域持续创新与
10万人才缺口！新思科技携手全球行业合作伙伴，加快全梯队人才培养新思科技与国际半导体产业协会基金会（SEMI 基金会）近日在新思科技总部宣布签署一份谅解备忘录（MoU），携手推动半导体芯片设计领域的人才发展。据预测，到 2030 年，全球半导体行业将需要新增 10
脊髓伤患重获新生，XoMotion开启站立与舞动的可能点击蓝字关注我们SUBSCRIBE to USXoMotion许多脊髓受伤的人都有惊心动魄的灾难经历：潜水事故、车祸、建筑工地灾难等。但Chloë Angus的故事却截然不同。2015年的一个晚上，
2024年中国洁净室工程行业产业链图谱、发展现状及未来趋势分析内容概要：目前，全球半导体、光电等电子信息产业在世界范围内转移，东亚、东南亚等地区已成为世界电子信息行业的主要市场和发展重心;同时由于我国医药卫生、半导

热门评论
最新评论

换一换

谷歌揭秘TPU超越CPU与GPU的原因

杂志声明