芝能智芯出品
生成式人工智能(GenAI)的快速发展正在深刻改变芯片设计的需求格局,对计算能力、架构设计和封装技术提出了前所未有的挑战。
Synopsys 近期举办的一场网络研讨会,深入探讨了先进 AI 芯片的 IP 要求,GenAI 如何推动芯片技术向更高性能、更复杂架构的方向演进。
过去五六年中,GenAI 对计算能力的需求激增了一万多倍,促使 SoC 设计从单片转向多芯片架构,推动了先进封装技术、高带宽内存(HBM)和芯片间通信的革新。
我们将详细分析 GenAI 对芯片设计的影响,并探讨 Synopsys 提出的三项关键技术解决方案:芯片间通信、定制 HBM 和 3D 堆叠。
Part 1
生成式人工智能
对芯片设计的影响
生成式人工智能的崛起极大地提升了对计算能力的需求。以自然语言处理(NLP)领域的模型为例,从早期的 GPT-3 到如今的 GPT-4 和 Megatron-Turing NLG,模型参数规模迅速扩大,计算需求呈指数级增长。
过去五六年间,GenAI 的计算需求增长了 10,000 多倍, AI 应用对芯片性能的极高要求,迫使芯片设计者突破传统技术限制,开发能够支持超大规模并行计算的芯片。
需求的增长不仅体现在计算核心的数量上,还体现在对数据吞吐量和能效的更高要求。例如,训练一个大型语言模型可能需要数千个 GPU 或 TPU 并行运行数月,消耗的计算资源远远超过传统应用,芯片设计必须在制程工艺、架构优化和功耗管理上实现全面提升。
传统单片 SoC(片上系统)将所有功能模块集成于单一芯片,具有设计简单、成本较低的优势,晶体管数量突破万亿级,单片设计面临诸多挑战:先进制程节点的良率下降、功耗过高以及散热困难等问题日益凸显。
GenAI 的计算需求推动了 SoC 设计从单片向多芯片架构的转变。多芯片 SoC 通过将功能模块分解到多个独立芯片(chiplet),利用高速芯片间接口实现协同工作。
这种架构的优势在于灵活性和性能优化。计算核心可采用 3nm 或 5nm 等先进制程以提升性能,而 I/O 或内存模块则可使用更成熟的 28nm 或 16nm 工艺以降低成本。
此外,多芯片设计还能有效缓解散热问题,通过分散热源提高整体系统的稳定性。
随着芯片功能的增加和计算需求的提升,芯片规模不断扩大,传统 2D 封装技术已难以满足需求,先进封装技术正在从 2D、2.5D 向 3D 和 3.5D 演进。
重新分布层(RDL)中介层技术通过跨越多个掩模版实现高密度互连,成为解决芯片规模问题的重要手段。
◎ 2.5D 封装利用硅中介层将多个芯片并排放置,提供更高的带宽和集成度。
◎ 而 3D 封装通过垂直堆叠芯片,进一步缩短了信号路径,降低了延迟和功耗。
这种技术的应用在 GenAI 驱动的高性能 SoC 中尤为关键,能够支持更大规模的计算单元和内存模块集成。
GenAI 对内存带宽和容量的需求同样显著,推动了内存架构的创新。
高带宽内存(HBM)技术成为满足这一需求的核心解决方案。通过堆叠多层 DRAM,HBM 能够在有限的空间内提供极高的带宽,例如 HBM3 的单堆栈带宽可达 2TB/s 以上。
网络研讨会特别提到,定制 HBM(cHBM)通过在基础芯片上集成逻辑工艺,进一步提升了内存架构的灵活性和性能。
内存堆叠技术的应用使得 SoC 能够更高效地处理 GenAI 任务中的大规模数据集。例如,在训练深度神经网络时,芯片需要快速访问大量参数和中间结果,HBM 的高带宽和低延迟特性显著提升了数据吞吐量。
多芯片 SoC 的普及使得芯片间通信带宽成为系统性能的关键瓶颈,芯片间带宽正从 16Gbps/pin 提升至 32Gbps/pin,甚至达到 64Gbps/pin。
高速接口标准如 UCIe(Universal Chiplet Interconnect Express)应运而生,为芯片间通信提供了统一规范。
Synopsys 的 64Gbps 芯片间通信 IP 解决方案在这一领域表现突出,不仅支持高数据速率,还具备低功耗模式和广泛的可测试性功能。这种技术的进步确保了多芯片 SoC 能够高效协同工作,满足 GenAI 对带宽和低延迟的苛刻要求。
Part 2
关键技术解析
● 芯片间通信
芯片间通信是多芯片 SoC 的核心技术,直接决定了系统的整体性能,Synopsys 的 64Gbps 芯片间通信 IP 解决方案。
该方案针对专属系统进行了优化,具有以下特点:
◎ 高数据速率:支持高达 64Gbps/pin 的传输速度,相较于 16Gbps/pin 的传统接口,带宽提升了 4 倍。
◎ 低功耗设计:提供低功耗模式和可调节旋钮,适应不同应用场景的能效需求。
◎ 可靠性与可测试性:集成 Lite FEC(前向纠错)技术实现低延迟纠错,并支持广泛的启动、调试和可靠性功能。
◎ 模块化架构:灵活适应不同封装技术(如 2D、2.5D)和系统要求。
UCIe 标准在推动芯片间通信发展中的作用。Synopsys 的解决方案在 UCIe 40G 的基础上进一步扩展至 64Gbps,为 GenAI 应用提供了更高的性能和兼容性。例如,在数据中心 SoC 中,这种高速接口能够支持多个计算 chiplet 之间的无缝数据交换,避免带宽瓶颈。
高速通信也面临信号完整性、串扰和热管理等挑战。Synopsys 通过优化 PHY 设计和增强屏蔽技术,有效降低了这些问题的影响,确保了通信链路的稳定性。
● 定制 HBM
定制 HBM(cHBM)技术为 SoC 内存架构带来了革命性变化。通过在基础芯片上采用逻辑工艺实现 HBM 的定制化,Synopsys 提供了一种高效的内存解决方案。
Manuel Mota 博士指出,定制 HBM 的主要优势包括:
◎ 扩展使用范围:允许多个内存层共享相同的芯片边缘,减少设计复杂度和成本。
◎ 计算卸载:将部分计算任务转移到 chiplet 上,减轻主芯片负担,提升系统效率。
◎ 技术隔离与扩展性:将主机与内存技术解耦,便于未来升级至 HBM4 或其他内存类型。
在性能方面,定制 HBM 可提供 2 倍的内存带宽优势。例如,在一个典型的多芯片 SoC 中,定制 HBM 能够通过高速芯片间链路与计算核心紧密协作,支持 GenAI 训练中对大规模参数的快速访问,该技术还增强了 SoC 的灵活性,允许设计者根据具体应用调整内存配置。
定制 HBM 的实现需要解决热密度和通道长度等问题。Synopsys 通过优化基础芯片的散热设计和中介层布线,确保了内存性能的稳定性和可靠性。
● 3D 堆叠技术
◎ 3D 堆叠技术是实现下一代高性能 SoC 的关键手段,通过垂直集成多个芯片,显著提升了集成度和能效。
Manuel 在网络研讨会中展示了英特尔和 AMD 的商业应用案例,例如英特尔的 Foveros 和 AMD 的 3D V-Cache,强调了该技术在 GenAI 驱动的芯片设计中的重要性。
◎ 3D堆叠技术相比传统的2D设计,在功耗节省方面表现出色,能够减少大约80%的功耗,这主要得益于更短的信号路径。
通过面对面(F2F)或面对背(F2B)的堆叠拓扑结构,实现了更高的芯片密度,极大地提高了集成度;设计还缩短了布线长度,降低了延迟,非常适合需要高带宽和低延迟的AI应用。
◎ 3D堆叠技术也面临一些挑战,包括多层堆叠导致的热量集中问题,要求有高效的散热方案来管理温度;高速信号对电源稳定性的极高要求,需要精确的去耦设计以减少电源噪声;以及随着互连间距从10um缩小到更小尺寸,必须采用更高精度的键合技术,如混合键合,以确保性能和可靠性。
Synopsys 的解决方案包括支持 UCIe-3D 接口的 3D 堆叠 IP,能够在 4-6GHz 高频下实现跨芯片时序收敛,提供了全面的 F2F 和 F2B 设计支持,帮助客户应对热管理和信号完整性挑战,在一个 AI 训练 SoC 中,3D 堆叠技术可将计算核心和缓存紧密耦合,显著提升数据处理效率。
小结
生成式人工智能对芯片设计的深远影响,以及先进 AI 芯片的 IP 需求趋势。随着 GenAI 对计算能力的需求持续激增,芯片设计正迈向多芯片 SoC、先进封装和高带宽通信的新时代。
Synopsys 提出的芯片间通信、定制 HBM 和 3D 堆叠技术,为应对这些挑战提供了切实可行的解决方案。 AI 应用在自动驾驶、医疗影像和智能制造等领域的深入发展,芯片设计将面临更高的性能和功耗要求。接口 IP 和 3D 封装技术将在这一过程中扮演核心角色,推动芯片技术不断突破极限。
原文标题 : AI 芯片关键技术:接口 IP 与 3D 封装技术