谷歌第七代TPU来了，号称迄今为止最强大的AI处理器

前言：

预计至2025年，AI领域将经历一次重大转型，生成式AI的应用将不再局限于回答简单问题，而是通过智能系统解决更为复杂的问题。

AI的未来发展不仅局限于更大规模的模型构建，更在于模型能够对问题进行分解、执行多步骤推理，并模拟人类思维过程。

作者 | 方文三

图片来源 | 网络

谷歌第七代TPU Ironwood 正式发布

在本周三，谷歌公司正式推出了其第七代张量处理单元（TPU）——Ironwood。该公司宣称，在大规模部署的条件下，该AI加速器的计算性能可达到全球最快超级计算机性能的24倍以上。

这款在Google Cloud Next 25大会上亮相的新芯片，标志着谷歌在AI芯片研发领域十年战略的关键转折点。

此前谷歌自行研发的几代TPU主要针对AI的训练和推理任务，而Ironwood则是首款专为推理任务设计的芯片。

Ironwood芯片旨在满足生成式AI下一发展阶段的巨大计算和通信需求。

Ironwood芯片具备卓越的技术规格，当每个pod扩展至9216块芯片时，它能提供42.5 exaflops的AI计算能力。

这一数值远超目前全球最快的超级计算机El Capitan的1.7 exaflops。每块Ironwood芯片的峰值计算能力可达4614 TFLOPs。

在单芯片规格方面，Ironwood显著提升了内存和带宽性能，每块芯片配备192GB高带宽内存（HBM），是去年推出的上一代TPU Trillium的六倍。

每块芯片的内存带宽达到7.2 terabits/s，是Trillium的4.5倍。

该芯片专为AI推理任务而设计，象征着AI从[响应式]模型向[主动式]模型的演进。

换言之，它标志着从仅提供实时信息的模型向能够主动生成洞察和解读的模型的转变。

其目标在于赋予智能体（Agent）主动检索、数据生成及协作推理的能力，而不仅仅是被动地响应查询。

此外，Ironwood芯片首次支持FP8计算格式，并在张量核和矩阵数学单元中实现了这一功能，从而在处理大规模推理任务时显著提升了效率。

尽管英伟达的B200芯片在某些性能指标上略占优势（例如内存带宽达到8 Tbps，略高于Ironwood的7.2 Tbps），但Ironwood的整体性能依然非常接近，甚至在某些方面超越了B200。

在对谷歌Ironwood与英伟达B200进行对比分析时，从竞争格局的角度来看，谷歌通过TPU与Google Cloud、Pathways软件栈的深度集成，吸引了OpenAI创始团队等客户，从而加强了其在生成式AI市场的地位。

AI超级计算架构不断完善和升级

生产力的革新始于谷歌在基础设施层面的全面AI化。

预计到2025年，谷歌将投资约750亿美元用于服务器和数据中心的建设。

此外，为了进一步协助客户拥抱AI，Google Cloud 宣布将提供接近零延迟的云广域网（Cloud WAN）服务，向全球数十亿用户提供。

与其它托管及开源 Kubernetes 产品相比，Cloud WAN 能够将网络性能提升40%，同时将总拥有成本（TOC）降低40%。

自去年与英伟达建立战略合作伙伴关系以来，谷歌提供了基于英伟达GPU的广泛产品线，使得用户能够在 Google Cloud 上使用英伟达最新硬件训练生成式AI模型。

今年，谷歌进一步推出了搭载英伟达 B200 和 GB200 Blackwell GPU 的 A4 和 A4X 虚拟机，显著增强了其GPU产品组合。

据透露，Google Cloud 将成为首批提供英伟达下一代 Vera Rubin GPU 的公司之一，该 GPU 每个机架可提供高达 15 exaflops 的 FP4 推理性能。

除了芯片技术之外，谷歌认为存储是减少训练和推理瓶颈的关键因素。

为了实现更高的数据吞吐量和更低的延迟，谷歌此次对存储层面也进行了更新。

特别是，Ironwood的设计目标是在执行大规模张量运算时，尽可能地减少芯片上的数据传输和延迟。

谷歌为Ironwood TPU量身打造了低延迟、高带宽的ICI网络，以支持在全TPU集群规模下的协调与同步通信。

Ironwood 芯片搭载了第三代 SparseCore 加速器，该加速器首次应用于 TPU v5p，并在去年的 Trillium 芯片中得到了进一步的优化。

SparseCore 芯片最初旨在加速推荐模型的运行，这些模型通过使用嵌入技术来实现跨用户类别的推荐功能。

推理优化将成为AI模型发展新趋势

Ironwood芯片，作为谷歌推出的首款专为推理运算设计的TPU，承担着将经过训练的AI模型应用于实际场景，进而产生预测或响应的任务。

推理运算相较于训练过程，每日在全球范围内发生数十亿次，其成本与效率对于AI技术的经济性具有决定性影响。

长期以来，业界致力于构建规模日益庞大的基础模型，各大公司主要在模型参数量级和训练能力上展开竞争。

然而，当前阶段，部署效率和推理能力的重要性日益凸显。

谷歌的这一战略转变，不仅标志着AI领域的一个关键转折点，也预示着我们正迈入一个以部署效率和推理能力为核心的全新发展阶段。

Ironwood芯片的推出，降低了运行复杂AI模型的经济负担和操作难度，使得更广泛的商业实体能够承受并部署先进的AI系统。

此外，Ironwood芯片的高能效特性有助于减少数据中心的能源消耗，这对于推动AI技术的可持续发展具有积极意义。

谷歌还提出了多智能体系统的构想，通过Agent开发套件（ADK）和Agent间互操作性协议（A2A），旨在实现不同框架和供应商构建的AI代理之间的通信。

这种互操作性预期将打破AI系统的孤立状态，促进AI技术在企业中的更广泛运用。

谷歌正与Salesforce、ServiceNow、SAP等超过五十家行业领先企业合作，共同推进这一AI互操作性标准的实施。

结尾：

显而易见，经过多年的尖端技术革新，谷歌在AI领域的探索边界正不断扩展。

其发展路径从单一工具演进至端到端的AI平台，从通用领域深入至垂直行业，从封闭系统转向开放生态的构建，以及从AI的初步尝试到规模化部署。

目前，谷歌所展现的模型、平台与芯片三位一体的差异化优势正逐步显现。

部分资料参考：机器之心：《42.5 Exaflops：谷歌新TPU性能超越最强超算24倍，智能体协作协议A2A出炉》，信创芯球：《谷歌推出第七代TPUIronwood AI芯片，将重塑AI推理新格局》，Infoc：《TPU 性能提升10倍，开源 A2A 颠覆智能体交互》

原文标题 : AI芯天下丨热点丨谷歌第七代TPU来了，号称迄今为止最强大的AI处理器

谷歌第七代TPU来了，号称迄今为止最强大的AI处理器

相关推荐