芝能智芯出品
在2025年Google Cloud Next大会上,Google正式发布了其第七代张量处理单元(TPU),代号“Ironwood”。
作为Google迄今为止性能最强大的AI芯片,Ironwood专为AI推理任务设计,标志着AI技术从传统的“反应式”模型向“主动式”智能体的转型。相较于2018年的第一代TPU,Ironwood的推理性能提升了3600倍,效率提高了29倍。
单芯片配备192GB高频宽内存(HBM),峰值算力达4614 TFLOPs,并支持1.2Tbps的芯片间互连(ICI)带宽。
相较于前代Trillium,其能效提升了两倍,最高配置的9216颗芯片集群总算力高达42.5 Exaflops,超过全球最大超级计算机El Capitan的24倍,Ironwood预计将于今年晚些时候通过Google Cloud向客户开放,为开发者提供前所未有的AI计算能力。
Part 1
Ironwood的技术架构与创新
Ironwood是Google基于5纳米工艺打造的第七代TPU,其硬件规格在AI芯片领域树立了新标杆。
每颗芯片配备192GB的高频宽内存(HBM),峰值算力达到4614 TFLOPs,并通过1.2Tbps的芯片间互连(ICI)带宽实现高效的分布式计算。
与前代Trillium相比,Ironwood在内存容量、算力及通信能力上均有显著提升,为处理大规模AI工作负载奠定了坚实基础。
● 高带宽内存(HBM):Ironwood的HBM容量达到192GB,是Trillium的6倍(Trillium为32GB)。这一提升大幅减少了数据传输的瓶颈,使芯片能够同时处理更大的模型和数据集。
对于需要频繁访问内存的大型语言模型(LLM)或混合专家模型(MoE),Ironwood的高带宽内存尤为关键。此外,其HBM带宽高达7.2TBps,是Trillium的4.5倍,确保了数据访问的高速性,满足现代AI任务对内存密集型计算的需求。
● 峰值算力:单芯片4614 TFLOPs的峰值算力使Ironwood在执行大规模张量运算时表现出色。这一算力水平支持复杂的AI模型训练和推理任务,例如超大规模LLM或需要高精度计算的高级推理应用。相比之下,Trillium的单芯片算力仅为前代的几分之一,Ironwood的提升幅度令人瞩目。
● 芯片间互连(ICI)带宽:Ironwood的ICI带宽达到1.2Tbps,双向带宽是Trillium的1.5倍。高速ICI网络确保了芯片间的低延迟通信,使多个TPU协同工作时能够高效同步。这种设计特别适用于超大规模集群,例如9216颗芯片的TPU Pod配置,能够充分发挥42.5 Exaflops的总算力。
● 在全球AI算力需求激增的背景下,能效已成为AI芯片设计的核心考量。
◎ Ironwood的每瓦性能是Trillium的两倍,整体能效接近2018年首款云TPU的30倍,得益于Google在芯片设计和散热技术上的创新。
◎ Ironwood通过优化的架构设计,将能耗降至最低,同时保持高性能输出。
◎ 在数据中心电力供应日益紧张的今天,这一特性为客户提供了更经济高效的AI计算解决方案。例如,在处理相同规模的AI任务时,Ironwood的电力消耗仅为Trillium的一半,显著降低了运营成本。
◎ 为应对高功率密度的挑战,Ironwood采用了先进的液冷方案。与传统的风冷相比,液冷技术能够维持高达两倍的性能稳定性,确保芯片在持续高负载下仍能高效运行。
这一设计不仅延长了硬件寿命,还支持超大规模集群的可靠运行,例如9216颗芯片的TPU Pod,其功率接近10兆瓦。
● Ironwood引入了增强版的SparseCore和Google自研的Pathways软件堆栈,进一步提升了其在多样化AI任务中的适用性。
◎ SparseCore是一款专用加速器,专为处理超大嵌入任务设计,例如高级排名和推荐系统中的稀疏矩阵运算。
Ironwood的SparseCore较前代进行了扩展,支持更广泛的工作负载,包括金融建模、科学计算等领域。通过加速稀疏运算,SparseCore显著提升了Ironwood在特定场景下的效率。
◎ Pathways是Google DeepMind开发的机器学习运行时,支持跨多个TPU芯片的高效分布式计算。
通过Pathways,开发者可以轻松利用数千乃至数万个Ironwood芯片的综合算力,简化超大规模AI模型的部署。这一软件堆栈与Ironwood硬件的协同优化,确保了计算资源的高效分配和任务执行的无缝衔接。
Part 2
Ironwood的性能优势与应用场景
Ironwood的性能提升是其最引人注目的特点之一。相较于2018年的第一代TPU,其推理性能提高了3600倍,效率提升了29倍。
与前代Trillium相比,Ironwood的能效翻倍,内存容量和带宽大幅增加。最高配置的9216颗芯片集群可提供42.5 Exaflops的算力,远超全球最大超级计算机El Capitan的1.7 Exaflops。
Ironwood单芯片的4614 TFLOPs算力已足以应对复杂的AI任务,而9216颗芯片集群的42.5 Exaflops总算力更是前所未有。
相比之下,El Capitan的1.7 Exaflops显得相形见绌。这种算力优势使Ironwood能够轻松处理超大规模LLM、MoE模型及其他高计算需求的AI应用。
在AI算力成为稀缺资源的当下,Ironwood的高能效设计尤为重要。其每瓦性能是Trillium的两倍,能够在相同电力消耗下提供更多计算能力。这一特性不仅降低了运行成本,还响应了全球对绿色计算的号召。
● Ironwood的设计理念是从“反应式”AI转向“主动式”AI,使其能够主动生成洞察,而非仅被动响应指令。这种范式转变拓宽了Ironwood的应用场景。
◎ Ironwood的高算力和大内存使其成为运行LLM的理想平台。例如,Google的Gemini 2.5等前沿模型可以在Ironwood上实现高效训练和推理,支持自然语言处理任务的高速执行。
◎ MoE模型因其模块化设计需要强大的并行计算能力。Ironwood的ICI网络和高带宽内存能够协调大规模MoE模型的计算,提升模型的准确性和响应速度,适用于需要动态调整的场景。
◎ 在金融风控、医疗诊断等领域,Ironwood支持实时决策和预测。其强大的推理能力能够快速分析复杂数据集,生成高精度的洞察,为用户提供关键支持。
◎ 增强版的SparseCore使Ironwood在处理超大嵌入的推荐任务中表现优异。例如,在电子商务或内容平台中,Ironwood能够提升个性化推荐的质量和速度。
Google通过Ironwood推出了两种TPU Pod配置(256颗和9216颗芯片),为客户提供了灵活的AI计算资源。这一战略布局增强了Google Cloud在AI基础设施领域的竞争力。
Ironwood将于今年晚些时候通过Google Cloud开放,支持从小型AI任务到超大规模模型训练的多样化需求。256颗芯片的配置适合中小型企业,而9216颗芯片的集群则面向需要极高算力的客户。
Google Cloud AI超级计算机架构优化了Ironwood与Pathways等工具的集成,降低了开发者的使用门槛。
通过这一生态系统,Google不仅提供了硬件支持,还为AI创新打造了完整的解决方案。
小结
Ironwood作为Google第七代TPU,以其卓越的硬件规格和创新设计,开辟了AI“推理时代”的新篇章。192GB的HBM容量、4614 TFLOPs的单芯片算力以及42.5 Exaflops的集群性能,使其在算力、内存和通信能力上遥遥领先。
增强版的SparseCore和Pathways软件堆栈进一步扩展了其应用范围,从LLM到推荐系统,再到金融和科学计算,Ironwood展现了无与伦比的灵活性。更重要的是,其两倍于Trillium的能效和先进的液冷技术,为可持续AI计算提供了典范。
原文标题 : Google首款TPU:为AI推理任务准备的Ironwood