谷歌重磅发布第七代TPU Ironwood，整体性能接近英伟达B200-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

Ironwood的发布不仅展示了谷歌在AI芯片领域的持续创新，也标志着AI基础设施的重大变革。它将推动AI从传统的响应式模型向主动生成洞察和解读的模型转变，为开发者和企业提供更强大的工具来应对复杂的AI推理任务。

4月9日，谷歌在拉斯维加斯举办的Google Cloud Next 2025大会上正式发布了第七代TPU芯片——Ironwood。这款芯片专为AI推理任务设计，标志着人工智能从“响应式”模型向“主动式”模型的转变，即从提供实时信息的模型向能够主动生成洞察和解读的模型发展，目标是为智能体（Agent）提供主动检索、数据生成及协作推理能力，而非仅被动响应查询。

谷歌Ironwood

Ironwood是谷歌迄今为止性能最强、能效最高且最节能的TPU芯片，其峰值算力达到4614 TeraFLOPS（TFLOPs），是前代Trillium芯片的五倍，内存容量为192GB，带宽高达7.2 Tbps，每瓦峰值算力为29.3 TeraFLOPS，是前代的两倍。此外，Ironwood首次支持FP8计算格式，并在张量核和矩阵数学单元中实现这一功能，这使得其在处理大规模推理任务时更加高效。

Ironwood 最高配集群可拥有9216个液冷芯片，峰值算力可达42.5 ExaFLOPS（即每秒425000000000000000000次运算，相当于全球最强超算El Capitan的24倍），支持大规模并行处理和高效内存访问，适用于复杂的推理任务如大型语言模型和混合专家模型。

在能效与通信优化上，该芯片每瓦性能较Trillium翻倍，芯片间互连（ICI）带宽提升至1.2 Tbps（双向），支持低延迟同步通信，适合大规模并行推理任务。第三代SparseCore加速器扩展应用场景，覆盖推荐系统、金融建模和科学计算。

关于性能对比，Ironwood的推理性能较第一代TPU提升了3600倍，同时效率提升了29倍。虽然英伟达的B200芯片在某些指标上略胜一筹（如内存带宽达到8 Tbps，略高于Ironwood的7.2 Tbps），但Ironwood的整体性能仍非常接近甚至在某些方面超越了B200。

与Google首款外部云TPU TPU v2相比，FP8峰值浮点运算总体性能有所提升

谷歌Ironwood与英伟达B200的对比分析

从竞争格局来看，谷歌通过TPU与Google Cloud、Pathways软件栈深度集成，吸引OpenAI创始团队等客户，强化生成式AI市场地位。而英伟达B200凭借CUDA生态和Blackwell平台兼容性，仍是训练任务的首选，但Ironwood在推理专用赛道的能效和集群规模上构成挑战

整体来看，Ironwood在推理专用赛道的算力、内存和集群扩展性上展现优势，但B200凭借工艺与生态仍是全能型选手。两者竞争将推动AI芯片向场景化、高能效方向演进，加速AGI基础设施成熟。

责编：Jimmy.zhang

处理器/DSP 人工智能业界新闻

谷歌重磅发布第七代TPU Ironwood，整体性能接近英伟达B200

杂志声明