Google今天正式发布了其第四代人工智能TPU v4 AI芯片,其速度达到了TPU v3的2.7被。Google实际上已经于2020年就开始在自己的数据中心中使用了新的TPU v4。通过整合4096个TPU v4芯片成一个TPU v4 Pod,一个Pod性能就达到世界第一超算“富岳”的两倍。这些算力可能在今年晚些时候向Google Cloud用户开放此功能。且谷歌希望未来可能应用于量子计算。

Google今天正式发布了其第四代人工智能TPU v4 AI芯片,其速度达到了TPU v3的2.7被。Google实际上已经于2020年就开始在自己的数据中心中使用了新的TPU v4。通过整合4096个TPU v4芯片成一个TPU v4 Pod,一个Pod性能就达到世界第一超算“富岳”的两倍。这些算力可能在今年晚些时候向Google Cloud用户开放此功能。且谷歌希望未来可能应用于量子计算。

Google TPU系列研发

Google于2016年宣布了其首款内部定制的定制AI芯片。

与传统的CPU和GPU组合(用于训练和部署AI模型的最常见架构)相比,第一款TPU ASIC提供了“数量级”更高的性能。

TPU V2于2018年上市,TPU V3于2019年上市,TPU v4于2020年推出。

借助TPU v3,这些服务器的机架需要大量的电源,以至于Google必须对其数据中心进行改造以支持液体冷却,这比传统的风冷系统具有更高的功率密度。

而今,在比TPU v3性能提高2.7倍的基础上再整合4096个TPU v4为一个TPU v4 Pod,许多Pod再组成TPU v4 Pods,以提供超强的算力。

除了将这些系统用于自己的AI应用程序(例如搜索建议,语言翻译或语音助手)外,Google还将TPU基础设施(包括整个TPU吊舱)以云的方式(付费)开放给Google Cloud客户。

1 TPU v4 Pod 整合算力 = 2 富岳

在其I/O开发者大会上,Google今天(美国时间5月18日)宣布了其下一代定制的张量处理单元(TPU)人工智能芯片。这是TPU芯片的第四代产品,Google称其速度是上一版本的两倍。正如Google首席执行官桑达尔·皮查伊所指出的,这些芯片整合了4096个TPU v4,一个pod就可以提供超过一个exaflop(每秒百亿亿次浮点运算)的AI计算能力,达到目前全球最快的超级计算机“富岳”的两倍性能。

Google使用定制芯片为其自己的许多机器学习服务提供动力,但与此同时它也将把这最新一代产品作为其Google云平台的一部分提供给开发者。

"这是我们在Google部署过的最快的系统,对我们来说是历史性的里程碑,"Google CEO桑达尔·皮查伊说。"以前要想获得1个exaflop的算力,通常需要建立一个定制的超级计算机,但我们今天已经部署了许多这样的计算机,很快就会在我们的数据中心有几十个TPUv4 pods,其中许多将以90%或接近90%的无碳能源运行。而我们的TPUv4 pods将在今年晚些时候提供给我们的云客户"。

TPU是Google的第一批定制芯片之一,当包括微软在内的其他公司决定为其机器学习服务采用更灵活的FPGA时,Google很早就在这些定制芯片上下了赌注。虽然它们的开发时间稍长,而且随着技术的变化很快就会过时,但用于特定场景的运算时可以提供明显更好的性能。

发布会上,Google还展示了其量子数据中心,尽管目前相关研究仍停留于早期阶段,但谷歌显然希望在未来有朝一日梦想成真。基于目前的材料和实验场所限制,量子计算必须在极低的超导温度下运行。

或用于量子计算

发布会上,Google还展示了其量子数据中心,尽管目前相关研究仍停留于早期阶段,但谷歌显然希望在未来有朝一日梦想成真。基于目前的材料和实验场所限制,量子计算必须在极低的超导温度下运行。

Google TPU v4 性能详解:打破MLPerf中的AI性能记录

机器学习(ML)模型的快速训练对于提供以前无法实现的新产品,服务和研究突破的研究和工程团队至关重要。在Google,最近启用ML的功能包括更有用的搜索结果和一个可以翻译100种不同语言的ML模型。

行业标准MLPerf基准测试对比的最新结果表明,谷歌已打造出世界上最快的ML训练超级计算机。Google使用此超级计算机以及最新的Tensor处理单元(TPU)芯片,在八项MLPerf基准测试中的六项中创造了性能记录。

图1:与任何可用性类别中最快的非Google提交相比,Google最好的MLPerf Training v0.7研究提交速度有所提高。不论系统大小如何,总训练时间都将比较标准化,而系统大小介于8到4096个芯片之间。

使用TensorFlow,JAX和Lingvo中的ML模型实现实现了这些结果。在不到30秒的时间里,八个模型中的四个从零开始接受了训练。为了正确理解这一点,考虑到在2015年,花了超过三周的时间在可用的最先进的硬件加速器上训练其中一种模型。谷歌最新的TPU超级计算机可以在五年后将相同模型的速度提高近五个数量级。

在此文中,我们将研究对比的一些细节,提交如何实现如此高的性能,以及它们对模型训练速度的所有意义。

MLPerf模型

选择MLPerf模型来代表整个行业和学术界常见的尖端机器学习工作负载。上图中,这是每个MLPerf模型的更多详细信息:

DLRM代表了排名和推荐模型,这些模型是从媒体到旅行到电子商务等在线业务的核心

Transformer是自然语言处理(包括BERT)的最新发展浪潮的基础

BERT使Google搜索获得了“过去五年中最大的飞跃” 

ResNet-50是广泛用于图像分类的模型

SSD是一种对象检测模型,其重量很轻,可以在移动设备上运行

Mask R-CNN是广泛使用的图像分割模型,可用于自主导航,医学成像和其他领域(您可以在Colab中进行实验)

除了上述最大规模的行业领先结果之外,Google还使用Google Cloud Platform上的TensorFlow提供了MLPerf提交,供今天的企业使用。

世界上最快的ML训练超级计算机

Google在本次MLPerf训练回合中使用的超级计算机是Cloud TPU v3 Pod的四倍,后者在之前的比赛中创下了三项记录。该系统包括4096个TPU v3芯片和数百个CPU主机,所有这些都通过超快速,超大规模的定制互连进行连接。总体而言,该系统可提供430多个PFLOP峰值性能。

表1:所有这些MLPerf提交的内容都是在Google新型ML超级计算机上以33秒或更短的时间从零开始进行训练的。2个

使用TensorFlow,JAX,Lingvo和XLA进行大规模训练

使用数千个TPU芯片训练复杂的ML模型需要在TensorFlow,JAX,Lingvo和XLA中结合算法技术和优化。

XLA是支持所有Google MLPerf提交的基础编译器技术,TensorFlow是Google的端到端开源机器学习框架,Lingvo是使用TensorFlow构建的序列模型的高级框架,而JAX是一个基于可组合功能转换的以研究为中心的新框架。

上面的记录设置规模依赖于模型并行性,按比例缩放的批次归一化,有效的计算图启动以及基于树的权重初始化。 

上表中的所有TensorFlow,JAX和Lingvo提交(ResNet-50,BERT,SSD和Transformer的实现)都在2048或4096 TPU芯片上进行了训练,每个不到33秒。

TPU v4 vs TPU v3,性能提高2.7倍

Google的第四代TPU ASIC提供了TPU v3的矩阵乘法TFLOP的两倍以上,显着提高了内存带宽,并且在互连技术方面取得了进步。Google的TPU v4 MLPerf提交利用了这些新的硬件功能以及互补的编译器和建模优势。结果表明,在上一届MLPerf培训比赛中,TPU v4比TPU v3的性能平均提高了2.7倍,达到了类似的规模。

图2:Google的MLPerf培训v0.7中的TPU v4结果研究提交的结果,与Google的MLPerf培训v0.6可用提交中的TPU v3结果相比,平均提高了2.7倍,在相同规模的64核心芯片条件下。此性能改进归功于TPU v4中的硬件创新以及软件的改进。

没有有关节点、体系结构或设计的信息,但可以假定它们位于7nm类节点上。同样,FLOP中只有2倍,而性能则是2.7倍,这意味着它们在提取原始Flop方面更加有效。

 

Google已经在使用这项新技术,并将很快扩大其使用范围

Google实际上已经在使用新的TPU v4。该公司表示已经在自己的数据中心中使用了该技术。至于何时可以访问Google Cloud客户,这家搜索巨头尚未提供确切的日期。但它确实说,它们将在“今年晚些时候”上市。

该公司表示,目前,它将很快在其数据中心运行数十个最新的Pod。并指出,其中许多将“以或接近” 90%的无碳能源运行。至少就Google自身的运营而言,使新系统也成为最高效的系统之一。

 

参考来源:

https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer

https://www.cnbeta.com/articles/tech/1129595.htm

https://www.datacenterknowledge.com/machine-learning/google-more-doubles-its-ai-chip-performance-tpu-v4

编译:Challey

责编:EditorLL

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
借着传说中Intel在中国举办的有史以来规模最大的生态大会,谈谈AI PC生态于2024收官之际大致发展到了哪儿...
锡作为AI技术生产的重要原料之一,其需求有望成为新的增长点。而中国有色矿业公司也希望锁定这种在关键矿物清单上占据重要地位的锡的供应。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1