4月9日,谷歌在拉斯维加斯举办的Google Cloud Next 2025大会上正式发布了第七代TPU芯片——Ironwood。这款芯片专为AI推理任务设计,标志着人工智能从“响应式”模型向“主动式”模型的转变,即从提供实时信息的模型向能够主动生成洞察和解读的模型发展,目标是为智能体(Agent)提供主动检索、数据生成及协作推理能力,而非仅被动响应查询。
谷歌Ironwood

Ironwood是谷歌迄今为止性能最强、能效最高且最节能的TPU芯片,其峰值算力达到4614 TeraFLOPS(TFLOPs),是前代Trillium芯片的五倍,内存容量为192GB,带宽高达7.2 Tbps,每瓦峰值算力为29.3 TeraFLOPS,是前代的两倍。此外,Ironwood首次支持FP8计算格式,并在张量核和矩阵数学单元中实现这一功能,这使得其在处理大规模推理任务时更加高效。
Ironwood 最高配集群可拥有9216个液冷芯片,峰值算力可达42.5 ExaFLOPS(即每秒425000000000000000000次运算,相当于全球最强超算El Capitan的24倍),支持大规模并行处理和高效内存访问,适用于复杂的推理任务如大型语言模型和混合专家模型。
在能效与通信优化上,该芯片每瓦性能较Trillium翻倍,芯片间互连(ICI)带宽提升至1.2 Tbps(双向),支持低延迟同步通信,适合大规模并行推理任务。第三代SparseCore加速器扩展应用场景,覆盖推荐系统、金融建模和科学计算。
关于性能对比,Ironwood的推理性能较第一代TPU提升了3600倍,同时效率提升了29倍。虽然英伟达的B200芯片在某些指标上略胜一筹(如内存带宽达到8 Tbps,略高于Ironwood的7.2 Tbps),但Ironwood的整体性能仍非常接近甚至在某些方面超越了B200。
与Google首款外部云TPU TPU v2相比,FP8峰值浮点运算总体性能有所提升
谷歌Ironwood与英伟达B200的对比分析
从竞争格局来看,谷歌通过TPU与Google Cloud、Pathways软件栈深度集成,吸引OpenAI创始团队等客户,强化生成式AI市场地位。而英伟达B200凭借CUDA生态和Blackwell平台兼容性,仍是训练任务的首选,但Ironwood在推理专用赛道的能效和集群规模上构成挑战
整体来看,Ironwood在推理专用赛道的算力、内存和集群扩展性上展现优势,但B200凭借工艺与生态仍是全能型选手。两者竞争将推动AI芯片向场景化、高能效方向演进,加速AGI基础设施成熟。
Ironwood的发布不仅展示了谷歌在AI芯片领域的持续创新,也标志着AI基础设施的重大变革。它将推动AI从传统的响应式模型向主动生成洞察和解读的模型转变,为开发者和企业提供更强大的工具来应对复杂的AI推理任务。
