谷歌迄今最强芯片,第七代TPU发布

智能计算芯世界 2025-04-11 07:43


图片

今天,在 Google Cloud Next 25 大会上,谷歌隆重推出第七代张量处理单元 (TPU) Ironwood。它是我们迄今为止性能最高、可扩展性最强的定制 AI 加速器,也是首款专为推理而设计的加速器。十多年来,TPU 一直为 Google 最苛刻的 AI 训练和服务工作负载提供支持,并助力公司的云客户实现同样的目标。Ironwood 是谷歌迄今为止性能最强大、性能最强、能效最高的 TPU。它专为大规模支持思考和推理 AI 模型而设计。


Google TPU相关内容,请参考链接:国外AI芯片:谷歌TPU 芯片发展”,“国外AI芯片:谷歌TPU1详细解读”,“国外AI芯片:谷歌TPU2推理到训练”,“国外AI芯片:谷歌TPU3 POD超节点”,“国外AI芯片:谷歌TPU4 AI 集群”,“国外AI芯片:谷歌TPU系列合集”,“国外AI芯片:深度分析&产业洞察”。


Ironwood 代表着人工智能及其发展基础设施的重大转变。它代表着从提供实时信息供人类解读的响应式人工智能模型,到能够主动生成洞察和解读的模型的转变。这就是我们所说的“推理时代”,届时人工智能代理将主动检索和生成数据,以协作方式提供洞察和答案,而不仅仅是数据。


Ironwood 旨在支持生成式人工智能的下一阶段发展及其巨大的计算和通信需求。它可扩展至 9216 个液冷芯片,并通过突破性的芯片间互联 (ICI:Inter-Chip Interconnect) 网络连接,功率接近 10 兆瓦。它是Google Cloud AI 超级计算机架构的几个新组件之一,该架构可协同优化硬件和软件,以应对最苛刻的人工智能工作负载。借助 Ironwood,开发者还可以利用 Google 自己的Pathways软件堆栈,可靠、轻松地利用数万个 Ironwood TPU 的综合计算能力。


本文所有资料都已上传至智能计算芯知识”星球。如《60+份AI Agent技术报告合集》”,“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术14篇(合集)”,“《280+份DeepSeek技术报告合集》”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告”,“《12+份Manus技术报告合集》,加入星球获取严选精华技术报告。


下面我们将详细介绍这些创新如何协同工作,以无与伦比的性能、成本和功率效率承担最苛刻的培训和服务工作负载。




Ironwood 的主要特点




Google Cloud 是唯一一家拥有十多年 AI 计算经验的超大规模提供商,致力于支持尖端研究,并将其无缝集成到 Gmail、搜索等数十亿用户的日常服务中。所有这些专业知识构成了 Ironwood 的核心功能。其主要功能包括:


1. 性能显著提升的同时,更注重能效,使 AI 工作负载能够更经济高效地运行。Ironwood的每瓦性能是公司去年发布的第六代 TPU Trillium 的两倍。在可用功率成为 AI 功能交付制约因素之一的当下,谷歌为客户工作负载提供了显著更高的每瓦容量。谷歌先进的液冷解决方案和优化的芯片设计,即使在持续繁重的 AI 工作负载下,也能可靠地维持高达标准风冷两倍的性能。事实上,Ironwood 的能效几乎是我2018 年推出的首款云 TPU 的 30 倍。


2. 高带宽内存 (HBM) 容量大幅提升。Ironwood每芯片容量高达 192 GB,是 Trillium 的 6 倍,能够处理更大的模型和数据集,减少频繁数据传输的需求,并提升性能。


3. 显著提升 HBM 带宽,单芯片高达 7.2 TBps,是 Trillium 的 4.5 倍。如此高的带宽确保了快速的数据访问,这对于现代 AI 中常见的内存密集型工作负载至关重要。


4. 增强芯片间互连 (ICI) 带宽。双向带宽提升至 1.2 Tbps,是 Trillium 的 1.5 倍,从而实现更快的芯片间通信,促进大规模高效分布式训练和推理。


据nextplatform介绍,TPU v7p 芯片是谷歌首款在其张量核心和矩阵数学单元中支持 FP8 计算的 TPU。之前的 TPU 支持 INT8 格式和推理处理,以及 BF16 格式和训练处理。Ironwood 芯片还配备了第三代 SparseCore 加速器,该加速器首次亮相于 TPU v5p,并在去年的 Trillium 芯片中得到了增强。SparseCore 芯片最初的设计目的是加速推荐模型,这些模型利用嵌入来跨用户类别进行推荐。Ironwood 芯片中的第三代 SparseCore 芯片中编码了各种算法,以加速金融和科学计算,但具体细节尚未透露。


图片


从图中我们可以看到, Ironwood 封装的中心有两个芯片组,这让我们相信它不像之前的 TPU 那样是单片式的。在我们看来,这些芯片的组合看起来比标线极限要大一些。它有 8 个 HBM 内存组,每侧 4 个,如果今年出货,估计是 HBM3E。这意味着每个堆栈有 8 个 DRAM 单元,每个 3 GB,总共 24 GB。


Iron Word 封装包含一个位于计算芯片上方的中央芯片组,以及位于内存条上方沿顶部边缘的另外两个芯片组。这些无疑是用于芯片间互连 (ICI) 的 I/O 芯片,谷歌利用 ICI 将 TPU 芯片电连接到各个 Pod。更大的 TPU 聚合体则通过谷歌的“Jupiter”光路交换机进一步连接在一起。


Iron Word 的外观如下:

图片


与之前的 TPU 设计一样,系统板上有四个 Ironwood TPU。我们正在努力弄清楚主板上所有这些芯片的具体结构。我们觉得 TPU 系统板插在背板上,主机服务器中可能有两个这样的 TPU,主机 CPU 也可能是其中之一,而主机 CPU 目前可能是谷歌自己的 Axion Arm 服务器 CPU。Pod 中有一些网络接口用于连接 TPU。


Ironwood TPU 有两种不同的配置:一种是适用于推理的 256 个计算引擎的 Pod,另一种是适用于训练的 9,216 个计算引擎的 Pod。(如果您的推理任务非常庞大,我们认为它可以在更大的 Pod 上运行。)TPU Pod 采用 2D 或 3D 环面拓扑结构的 ICI,具体取决于规模。以下是前两代采用更具可扩展性的 3D 环面拓扑结构的 TPU Pod 以及即将推出的 Ironwood Pod 的外观:


Ironwood TPU v7p 的 pod 尺寸比上一代 TPU v5p pod 增加了 2.85%,虽然不算多,但还是值得一试。在相同的 BF16 分辨率下,TPU v7p 芯片的 AI 训练性能比 TPU v5p 提升了 5 倍,使用 INT8 或 FP8 数据类型的推理性能也同样提升。(我们不确定是否存在 INT8 数据类型,但出于向下兼容的考虑,我们推测应该存在。)对于 AI 训练而言,FP8 数据类型可将训练吞吐量翻倍,因此比 TPU v5p 中使用的 BF16 提高了 10 倍。Ironwood 封装的 HBM 内存容量提高了 2 倍,内存带宽也提高了 2.7 倍。


新芯片上的 ICI 互连带宽提高了 12%,链路减少了三分之一,其中 TPU v7p 有四个 ICI 链路,运行速度为 1.34 Tb/秒,TPU v5p 有六个端口,运行速度为 800 Gb/秒。


以下是我们整理的更完整的 TPU 显著特性表,我们尽力填补了空白:


如上图所示,我们已尽力估算缺失数据,这些数据以红色粗斜体显示。我们还查阅了 TPU 手册,并尽可能更新了 Trillium TPU v6e 的数据。顺便说一句,谷歌正在与 Trillium 进行大量比较,Trillium 在 AI 推理方面表现不错,但如果要比较 AI 训练,那么 TPU v5p 是更佳的基准。

图片

于AI训练而言,以下几点至关重要。搭载8960个计算引擎的TPU v5p pod在INT8分辨率下推理性能最高可达8.22 exaflops,在BF16分辨率下训练性能最高可达4.11 exaflops(仅为其一半)。最大的Ironwood pod拥有9216个计算引擎,在FP8(可能也包括INT8)下性能最高可达42.52 exaflops,在BF16分辨率下训练性能最高可达21.26 exaflops。这意味着单个系统镜像的性能提升了5.17倍。通过OCS切换,谷歌可以在单个数据中心内整合10万个TPU v7p计算引擎,就像它已经在Trillium TPU v6e设备上所做的那样。


我们不知道谷歌会如何定价 Ironwood 的容量。不过,我们肯定会尽快通知您。以上价格和相对性价比是去年夏天的。

谷歌喜欢将其与 TPU v2 进行比较,后者是其首款能够同时进行训练和推理的自主研发 AI 引擎,早在 2017 年 5 月就已发布。基于 TPU v2 的计算能力在当年第三季度即可出租。当然,谷歌本身并不出售 TPU 或基于 TPU 的系统,也不允许第三方出售。


性能提升 3600 倍,每瓦性能提升 29.3 倍,这看起来令人印象深刻,而且在耗电 10 兆瓦的 Ironwood 大型机上实现如此高的性能似乎也情有可原。但我们需要做一些研究,才能弄清楚它与 Nvidia 系统相比如何。(这取决于你如何称呼加速器内存域。)


我们很想知道 Google 安装了多少 TPU 容量,Trillium 和 Ironwood 的安装计划是什么,以及分配给 Google 内部使用和云用户使用的 TPU 容量各占多少。



Ironwood,助力推理时代




据谷歌所说,Ironwood 旨在优雅地管理“思维模型”的复杂计算和通信需求,这些模型涵盖大型语言模型 (LLM)、混合专家模型 (MoE) 和高级推理任务。这些模型需要大规模并行处理和高效的内存访问。具体而言,Ironwood 旨在在执行大规模张量操作的同时最大限度地减少芯片上的数据移动和延迟。在前沿领域,思维模型的计算需求远远超出了任何单个芯片的容量。我们设计了具有低延迟、高带宽 ICI 网络的 Ironwood TPU,以支持全 TPU Pod 规模的协调同步通信。


对于 Google Cloud 客户,Ironwood 根据 AI 工作负载需求提供两种尺寸:256 芯片配置和 9,216 芯片配置。


当每个 pod 扩展至 9,216 块芯片,总计算能力达 42.5 百亿亿次浮点运算 (Exaflops) 时,Ironwood 支持的计算能力是全球最大超级计算机 El Capitan 的 24 倍以上,而后者每个 pod 的计算能力仅为 1.7 百亿亿次浮点运算 (Exaflops)。Ironwood 可提供处理最苛刻的 AI 工作负载所需的强大并行处理能力,例如超大规模密集 LLM 或具有训练和推理思维能力的 MoE 模型。每个芯片的峰值计算能力可达 4,614 TFLOPs。这代表着 AI 能力的巨大飞跃。Ironwood 的内存和网络架构确保始终提供正确的数据,以支持如此大规模的峰值性能。


Ironwood 还配备了增强版SparseCore,这是一款专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。Ironwood 中扩展的 SparseCore 支持可以加速更广泛的工作负载,包括从传统的 AI 领域扩展到金融和科学领域。


Pathways 是 Google 自有的机器学习运行时,由 Google DeepMind开发,能够跨多个 TPU 芯片实现高效的分布式计算。Google Cloud 上的 Pathways 让超越单个 Ironwood Pod 的迁移变得简单,能够将数十万个 Ironwood 芯片组合在一起,从而快速推进新一代人工智能计算的前沿技术。


“Ironwood 代表着推理时代的独特突破,它提升了计算能力、内存容量、ICI 网络的进步和可靠性。这些突破,加上近两倍的能效提升,意味着我们最苛刻的客户能够以最高的性能和最低的延迟完成训练和服务工作负载,同时满足计算需求的指数级增长。Gemini 2.5 和诺贝尔奖得主 AlphaFold 等领先的思维模型如今都在 TPU 上运行。我们迫不及待地想看到 Ironwood 在今年晚些时候正式发布后,由我们的开发者和 Google Cloud 客户带来哪些 AI 突破。”谷歌总结说。


来源:半导体行业观察

相关链接:

https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/

下载链接:

重磅合集
1、《70+篇半导体行业“研究框架”合集》
2、《56+份智能网卡和DPU合集
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

《100+份AI芯片技术修炼合集》

《280+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱(合集)

亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)
2025新技术前瞻专题系列合集
GPU原理详解:Tensor Core原理
GPU原理详解:Tensor Core架构演进
GPU原理详解:Tensor Core深度剖析
GPU原理详解:分布式训练与NVLink发展
GPU原理详解:NVSwitch基础和原理
国外AI芯片:谷歌TPU 芯片发展
国外AI芯片:谷歌TPU1详细解读
国外AI芯片:谷歌TPU2推理到训练

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


图片

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


图片
图片

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度交互演进。传统离线语音方案受限于语种单一、存储容量不足等问题,而纯在线方案又依赖网络稳定性,难以满足复杂场景需求。WT3000A离在线TTS方案,通过“本地+云端”双引擎驱动,集成16国语种、7种方言切换、AI大模型对话扩展等创新功能,重新定义语音提示器的边界,为智能硬件开发者提供更灵活、更具竞争力的语音交互解决方案。一、方案核心亮点离在线双模融合,场景全覆盖离线模式
    广州唯创电子 2025-04-25 09:14 62浏览
  •   有效样本分析决策系统平台全面解析   一、引言   北京华盛恒辉有效样本分析决策系统在当今数据驱动的时代,企业、科研机构等面临着海量数据的处理与分析挑战。有效样本分析决策系统平台应运而生,它通过对样本数据的精准分析,为决策提供有力支持,成为提升决策质量和效率的关键工具。   应用案例   目前,已有多个有效样本分析决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效样本分析决策系统。这些成功案例为有效样本分析决策系统的推广和应用提供了有力支持。   二、平台概述
    华盛恒辉l58ll334744 2025-04-24 11:13 121浏览
  •   陆地装备体系论证与评估综合平台系统解析   北京华盛恒辉陆地装备体系论证与评估综合平台系统是契合现代军事需求而生的专业系统,借助科学化、智能化手段,实现对陆地装备体系的全方位论证与评估,为军事决策和装备发展提供关键支撑。以下从功能、技术、应用及展望展开分析。   应用案例   目前,已有多个陆地装备体系论证与评估综合平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润陆地装备体系论证与评估综合平台。这些成功案例为陆地装备体系论证与评估综合平台的推广和应用提供了有力支持。
    华盛恒辉l58ll334744 2025-04-24 10:53 125浏览
  • 随着轻薄笔记本的普及,再加上电竞玩家对于高画质音视频体验的需求日益高涨,如何让轻薄笔记本在兼顾轻便携带性的同时,还能提供足以支持3A(AAA/Triple-A game)大作的良好运算性能,便成为各家品牌急欲突破的共同难题。然而,对于主打轻巧便携的轻薄笔记本而言,若要内置独立显卡,势必要先突破空间受限的瓶颈,同时还需解决散热问题,确实难以兼顾两全!对此,“Thunderbolt”与“OCuLink”这两项技术应运而生。用户可以通过这两种传输接口,再搭配外接显卡盒(eGPU)及高性能显卡(如NVI
    百佳泰测试实验室 2025-04-24 17:56 49浏览
  •   基于 GIS 的任务规划与决策系统平台解析   北京华盛恒辉基于 GIS 的任务规划与决策系统平台是空间信息技术与决策科学融合的成果,通过地理空间数据处理与分析,为复杂任务提供科学智能的规划决策支持。以下从架构、功能、技术、应用及趋势展开解读。   应用案例   目前,已有多个基于 GIS 的任务规划与决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于 GIS 的任务规划与决策系统。这些成功案例为基于 GIS 的任务规划与决策系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-25 15:47 9浏览
  • 为通过金融手段积极推进全球绿色发展,国际金融论坛(IFF)于2020年创立了“IFF全球绿色金融奖”,旨在对全球绿色金融领域取得突出成绩的机构及创新性的解决方案进行表彰和奖励。该奖项依托IFF“高层次、高水平、国际化”一流智库资源优势,积极促进绿色金融领域的国际交流合作和创新实践,助力联合国可持续发展目标的实现。“IFF全球绿色金融奖”重点关注和鼓励那些促进经济增长模式转型、防治环境污染、应对气候变化,以及致力于提高能效水平、强化节能减排实效的绿色金融创新解决方案。该奖项面向全球,是对政策创新、
    华尔街科技眼 2025-04-24 20:43 33浏览
  •   海上训练与保障调度指挥平台系统解析   北京华盛恒辉海上训练与保障调度指挥平台系统是现代海上作战训练的核心枢纽,融合信息技术、GIS、大数据及 AI 等前沿技术,旨在实现海上训练高效组织、作战保障科学决策。以下从架构功能、应用场景、系统优势及发展挑战展开解读。   应用案例   目前,已有多个海上训练与保障调度指挥平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上训练与保障调度指挥平台。这些成功案例为海上训练与保障调度指挥平台的推广和应用提供了有力支持。   一
    华盛恒辉l58ll334744 2025-04-24 15:26 134浏览
  •   通用装备论证与评估系统平台解析   北京华盛恒辉通用装备论证与评估系统平台是服务军事装备全生命周期管理的综合性信息化平台,通过科学化、系统化手段,实现装备需求论证、效能分析等核心功能,提升装备建设效益。   应用案例   目前,已有多个通用装备论证与评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润通用装备论证与评估系统。这些成功案例为通用装备论证与评估系统的推广和应用提供了有力支持。   一、系统分层架构   (一)数据层   整合装备性能、作战、试验等多源异
    华盛恒辉l58ll334744 2025-04-24 16:14 149浏览
  • 最近,途虎养车发布的2024年财报数据,可谓相当吸睛。全年营收达到147.59亿元,同比增长8.5%,这个数字直观地展现了途虎在市场上的强大吸金能力,在行业里稳稳占据前列。利润方面同样出色,毛利37.46亿元,毛利率提升0.7个百分点至25.4%;经调整净利润6.24亿元,同比增长 29.7%,经营利润同比更是增长104%至3.31亿元,盈利能力显著增强,这样的利润增长幅度,在同行业中十分亮眼。在用户规模上,途虎养车同样成绩斐然。累计注册用户近1.4亿,同比增长20.4%,交易用户数达2410万
    用户1742991715177 2025-04-24 19:12 51浏览
  • 2025-4-25全球信息报告出版商Global Info Research(环洋市场咨询)发布了【2025年全球市场高介电常数材料总体规模、主要生产商、主要地区、产品和应用细分研究报告】,报告主要调研全球高介电常数材料总体规模、主要地区规模、主要生产商规模和份额、产品分类规模、下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2020至2024年,预测数据为2025
    用户1745398400862 2025-04-25 08:48 64浏览
  •   航空兵训练与战术对抗仿真平台系统解析   北京华盛恒辉航空兵训练与战术对抗仿真平台系统是现代军事训练的关键工具,借助计算机技术构建虚拟战场,支持多兵种协同作战模拟,为军事决策、训练及装备研发提供科学依据。   应用案例   目前,已有多个航空兵训练与战术对抗仿真平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润航空兵训练与战术对抗仿真平台。这些成功案例为航空兵训练与战术对抗仿真平台的推广和应用提供了有力支持。   一、系统架构与核心功能   系统由模拟器、计算机兵力生
    华盛恒辉l58ll334744 2025-04-24 16:34 154浏览
  •   高海拔区域勤务与装备保障调度系统平台解析   北京华盛恒辉高海拔区域勤务与装备保障调度系统平台专为高海拔特殊地理环境打造,致力于攻克装备适应、人员健康保障、物资运输及应急响应等难题。以下从核心功能、技术特点、应用场景及发展趋势展开全面解读。   应用案例   目前,已有多个高海拔区域勤务与装备保障调度系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润高海拔区域勤务与装备保障调度系统。这些成功案例为高海拔区域勤务与装备保障调度系统的推广和应用提供了有力支持。   一、核心
    华盛恒辉l58ll334744 2025-04-24 10:13 124浏览
  • 引言在智能语音技术飞速发展的今天,语音交互已成为消费电子、智能家居、工业控制等领域的标配功能。传统的ISD系列录音芯片虽应用广泛,但其高成本与功能局限性逐渐难以满足市场对高性价比、高灵活性的需求。推出的WT2000P录音语音芯片,凭借其卓越性能、低功耗设计及高度可定制化特性,成为ISD系列芯片的理想替代方案,助力开发者突破产品创新瓶颈。一、WT2000P产品概述WT2000P是一款专为嵌入式语音场景设计的多功能录音芯片,采用ESOP8封装,体积小巧(尺寸仅4.9mm×3.9mm),集成度高,支持
    广州唯创电子 2025-04-25 08:44 51浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦