Google第五代TPU：推理性能提升2.5倍，成本降低50%

智能计算芯世界 2023-10-25 07:41 2438浏览 0评论 1点赞

汽车智能照明背后的“黑科技”传感器，你知道吗？ AI数据中心过热？ST 10kW压缩机方案让液冷系统效能翻倍

在Cloud Next 2023 大会上，公开了Google Cloud新款自研AI芯片TPU v5e，并推出了搭配英伟达（NVIDIA）H100 GPU的 “A3超级计算机”GA（通用版），谷歌还宣布与AI芯片龙头英伟达扩大合作伙伴关系。

更多Google TPU内容，请参考“AI芯片：Google TPU架构演变分析”。

计算机行业报告：鲲鹏展翅，昇腾万里（2023）

2023中国人工智能系列白皮书（智能协同控制与人工智能）

数据中心液冷报告：大模型&大算力带来高功耗，液冷技术有望加速导入

《HPC高性能计算集群调度技术合集》

1、HPC技术之Slurm调度系统管理和使用介绍

2、HPC技术之调度系统概述、原理和部署

3、HPC技术之高性能计算集群原理及管理

《ODCC-2023技术白皮书（液冷技术）》

1、ODCC 2023 单相浸没式冷却系统及其AI-Cooling

2、2023 ODCC冷板式液冷服务器可靠性测试规范

3、ODCC-2023冷板液冷服务器设计白皮书

4、ODCC-2023边缘浸没服务器技术白皮书

《ODCC-2023技术白皮书（计算规范）》

《ODCC-2023技术白皮书（存储）》

《ODCC-2023技术白皮书（服务器）》

《ODCC-2023技术白皮书（网络通信）》

《ODCC-2023技术白皮书（边缘计算）》

《ODCC-2023技术白皮书（数据中心）》

1、ODCC-2023数据中心自适应AI节能白皮书

2、ODCC-2023数据中心高性能网络拥塞检测技术白皮书

3、ODCC-2023数据中心氢能应用白皮书

4、ODCC-2023数据中心制冷系统AI节能技术及其应用白皮书

5、ODCC-2023数据中心低压开关技术白皮书

《2023 ODCC技术研究报告（合集）》

第五代TPU：训练性能提高2倍，推理性能提升2.5倍，成本降低50%！

TPU是谷歌专门为机器学习（ML）/深度学习（DL）设计的专用AI加速芯片，比CPU、GPU等通用处理器对于AI计算效率更高。谷歌第一代 TPU（TPU v1）是 2016 年在 Google I/O 大会上发布的，随后在2017 年作为 Google Cloud 基础设施“Cloud TPU”推出，通常使用 FP32 和 FP16 等精度数据，如果降低 ML 的精度/DL计算到8位（INT8）等，则将使得在ML/DL中的处理能力得到进一步提高。此外，通过仅合并专门用于 ML/DL 的算术单元，谷歌减少了 CPU 和 GPU 所需的高速缓存、分支预测和乱序执行等复杂算术单元，可以以低功耗执行专门针对 ML/DL 的计算。

之后，谷歌TPU又经过了数次迭代，比如第二代TPU v2于2017年发布，第三代TPU v3于2018年发布，第四代TPU v4于去年发布，目前已开始服务和提供。

而最新的第五代TPU，即TPU v5e 则是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计，并且其内部张量处理单元的最新版本。与与 2021 年发布的 TPU v4 相比，TPU v5e 的大型语言模型提供的训练性能提高了 2 倍、推理性能提高了2.5 倍。但是TPU v5e 的成本却不到上一代的一半，使企业能够以更低的成本，训练和部署更大、更复杂的 AI 模型。

需要指出的是，从第三代TPU v3开始，谷歌就专注于增强可扩展性，以便能够更大规模地并行处理。最新的TPU v5e ，可以通过采用400 TB/s互连来配置多达256个芯片。使得进行更大规模的学习和推理成为可能。谷歌表示，在 256 个芯片配置下，INT8 的算力将达到 100 PetaOps。

据介绍，TPU v5e将提供了多种不同的虚拟机配置，范围从一个 TPU 芯片到单个切片内 256 个 TPU 芯片。对于那些需要更多算力的用户，谷歌也正在推出“Multislice”，这是一种将模型交给数万个TPU芯片计算的服务。

上图显示了一个包含 1 个 TPU (v5e) 切片（拓扑：4x4）和 1 个 TPU v5litepod-8(v5e) 切片（拓扑：2x4）的GKE 集群

谷歌机器学习、系统和云AI 副总裁 Amin Vahdat 表示：“到目前为止，使用 TPU 的训练作业仅限于单个 TPU 芯片切片，TPU v4 的最大作业切片大小为 3,072 个芯片。”

谷歌计算和机器学习基础设施副总裁 Mark Lohmeyer在联合博客文章中表示，“借助 Multislice，开发人员可以在单个 Pod 内通过芯片间互连 (ICI) 或通过数据中心网络 (DCN) 跨多个 Pod 将工作负载扩展到数万个芯片。”

AssemblyAI 技术副总裁Domenic Donato表示：“在我们的生产 ASR 模型上运行推理时，TPU v5e 的性价比始终比市场上同类解决方案高出 4 倍。Google Cloud 软件堆栈非常适合生产 AI 工作负载，我们能够充分利用 TPU v5e 硬件，该硬件专为运行高级深度学习模型而构建。这种强大的硬件和软件组合极大地提高了我们为客户提供经济高效的人工智能解决方案的能力。”

Gridspace 机器学习主管Wonkyum Lee表示：“我们的速度基准测试表明，在 Google Cloud TPU v5e 上训练和运行时，AI 模型的速度提高了 5 倍。我们还看到推理指标的规模有了巨大改进，我们现在可以在一秒内实时处理 1000 秒的内部语音到文本和情绪预测模型，性能提高了 6 倍。”

与英伟达合作推出A3超级计算机

随着生成式人工智能和大型语言模型 (LLM) 不断推动创新，训练和推理的计算需求以惊人的速度增长。为了满足这一需求，Google Cloud 今天宣布全面推出由 NVIDIA H100 Tensor Core GPU 提供支持的全新 A3 虚拟超级计算机 (VM) 实例将于9月全面上市。

A3将会配备 8 个NVIDIA H100 GPU、两个第四代 Intel Xeon 可扩展处理器、 2TB 内存以及定制的Intel 200G IPU（基础设施处理单元）网络组成。与使用传统NVIDIA A100 GPU的A2相比，学习和推理过程中的性能提升了3倍，带宽提升了10倍。这些实例最初于 5 月份宣布，可以增加到 26,000 个 Nvidia H100 Hopper GPU。鉴于NVIDIA GPU 持续短缺，目前尚不清楚谷歌将拥有多少个NVIDIA H100。

在 Google Cloud Next 大会上，NVIDIA 创始人兼首席执行官黄仁勋与 Google Cloud 首席执行官 Thomas Kurian 一起发表了活动主题演讲，庆祝 NVIDIA H100 GPU 驱动的 A3 实例全面上市，并谈论了谷歌如何使用 NVIDIA H100 和 A100 GPU 进行内部部署DeepMind 和其他部门的研究和推理。

黄仁勋和Thomas Kurian还宣布在 Google Cloud 中开发一款新型超级计算机，该计算机将使用 NVIDIA 正在开发的下一代 AI 芯片。

在讨论中，黄仁勋指出了更深层次的合作，使 NVIDIA GPU 能够为 PaxML 框架加速，从而创建大规模的法学硕士。这个基于 Jax 的机器学习框架是专门为训练大型模型而构建的，允许高级且完全可配置的实验和并行化。目前PaxML 已被 Google 用于构建内部模型，包括 DeepMind 以及研究项目，并将使用 NVIDIA GPU。两家公司还宣布 PaxML 可立即在 NVIDIA NGC 容器注册表中使用。

谷歌表示，生成式人工智能初创公司 Anthropic 是新 TPU v5e 和 A3 VM 的早期用户。虽然谷歌向这家初创公司投资了 3 亿美元，但它同时也是亚马逊网络服务的用户。

Anthropic 联合创始人 Tom Brown 表示：“我们很高兴能与 Google Cloud 合作，我们一直在与 Google Cloud 合作高效地训练、部署和共享我们的模型。由 A3 和 TPU v5e 以及 Multislice 提供支持的谷歌下一代 AI 基础设施将带来性价比优势，将助力我们继续构建下一波人工智能浪潮所需的工作负载。”

支持100款AI模型

为了支持企业云端服务，Google Cloud 还整合加入了 20 个 AI 模型，使其支持的总数达到 100 个，通过其 AI 基础设施，可让客户使用包括 Meta Llama 2 模型、Anthropic Claude 2 聊天机器人等，可以自由选择最能满足营运需求的 AI 模型。

Google Cloud 也对既有 AI 模型提高性能并添加功能，例如文字处理方面的 PaLM 模型可支援用户输入更多文字量，以便处理篇幅较长的报导、书籍文章或者法院判决文件等。

同时，Google Cloud 这次也推出企业级新工具，包括“SynthID”可为 AI 产生的图片加上隐形浮水印，以人眼看不见的方式更改数字图片，即使 AI 图片被编辑或篡改也能保有完整性。

Google Workspace 办公套件将为用户提供 Duet AI 新产品，预计今年稍晚向所有用户开放，可在 Google 文件、试算表、简报中运用 AI 助手帮助更快完成工作。

来源：芯智讯

下载链接：

算力大时代，AI算力产业链全景梳理(2023)

基于鲲鹏处理器的国产高性能计算集群实践

AI算力行业深度：GPU全球格局分析（2023）

人工智能行业报告：AI2.0、AI大模型、算力、AI赋能（2023）

《华为产业链深度系列研究合集（2023）》

通用CPU性能基准测试研究综述（2023）

2023全球半导体与集成电路产业发展研究专题报告

中国智能汽车车载芯片发展研究报告

《海光CPU+DCU技术研究报告合集（上）》

《海光CPU+DCU技术研究报告合集（下）》

龙芯CPU技术研究报告合集

中国AIGC产业全景报告

AIGC算力全景与趋势报告

半导体行业数字化转型解决方案手册

2023中国AI商业落地价值研究报告

2023中国AIGC商业潜力研究报告

人机共生：大模型时代的AI十大趋势观察

AIGC行业趋势：大模型趋于分化，关注应用场景落地

《AIGC行业深度报告系列合集》

400+份重磅ChatGPT专业报告（全网最全）

《人工智能AI大模型技术合集》

《70份GPU技术及白皮书汇总》

《FPGA五问五答系列合集》

《机器人行业报告合集（2023）》

GPU研究框架（2023）

NVIDIA GPU架构白皮书

《NVIDIA A100 Tensor Core GPU技术白皮书》

《NVIDIA Kepler GK110-GK210架构白皮书》

《NVIDIA Kepler GK110架构白皮书》

《NVIDIA Tesla P100技术白皮书》

《NVIDIA Tesla V100 GPU架构白皮书》

《英伟达Turing GPU 架构白皮书》

多领域（GPU CPU）散热材料工艺发展历史及路径演绎

AI围绕算力产业、国产化替代、复苏主线布局

CPU和GPU：异构计算的演进及发展

新型GPU云桌面发展白皮书（2023）

GPU原理及在云桌面中的应用

兆芯CPU+GPU技术路线解读

AI算力行业深度：AI模型乘风起，GPU掌舵算力大时代

GPU技术专题汇总链接

深度报告：GPU研究框架

CPU和GPU研究框架合集

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1685篇粉丝：209人

关注  私信

Google第五代TPU：推理性能提升2.5倍，成本降低50%

最近文章

热门文章

推荐

最新资讯