前言:借助DDR5的物理和电气规范,MRDIMM在内存技术上实现了重大突破,有效扩展了CPU单核心的带宽和容量,显著缓解了大计算时代所面临的[内存墙]限制,对于提升内存密集型计算的效率具有深远的意义。
作者 | 方文三图片来源 | 网 络
AI时代下新的存储瓶颈显现
在AI时代,数据驱动的工作负载需求不断增长,现代服务器正面临前所未有的挑战。
如何实现计算能力与内存带宽的匹配,已成为一个亟待解决的关键问题。
AI、高性能计算和实时分析等行业,依赖于能够以超高速度传输数据的内存子系统,以避免性能瓶颈。
AI、高性能计算和实时分析等前沿行业,对内存子系统的数据传输速度提出了严格要求,任何延迟都可能导致性能瓶颈。
然而,这并不意味着DeepSeek在未来模型性能方面会做出任何妥协。
实际上,为了进一步提升模型性能,如多模态融合、更深入的语义理解和更精确的生成,DeepSeek模型的参数量将继续增加,从而对内存容量和带宽提出更高的要求。
传统内存RDIMM传输带宽的线性增长与CPU核心数量的指数级增长不相匹配。
可以预见,如果上述趋势持续,一旦核心数量超过某一阈值,所有CPU都将面临带宽分配不足的问题。
无法充分利用增加核心数量带来的优势,严重限制CPU性能的发挥,形成了所谓的[内存墙],难以满足系统性能的平衡。
这些内存密集型计算之所以迫切需要大幅提高内存系统的带宽,以满足多核CPU中各个内核的数据吞吐需求,一方面是因为高带宽是复杂AI/ML算法的基础需求。
另一方面,单纯依靠增加GPU和AI加速器的数量,难以在成本、功耗、系统架构等方面获得竞争优势。
MRDIMM新型内存出世成突破口
在传统RDIMM内存中,有时会配置两个Rank以实现功耗、容量与效能之间的平衡。
然而,这种内存设计仅允许同时访问一个Rank,导致另一个Rank处于闲置状态。
MRDIMM通过采用特殊的多路复用技术,突破了这一限制:它能够在单一时钟周期内对两个Rank执行读写操作。
这一技术显著提升了数据传输带宽,并有效增强了内存的运算效能。
MRDIMM的性能远超以往,目前的产品已经能够达到8800MT/s的高速数据传输率。
MRDIMM新型内存的出现并非一蹴而就,其起源可以追溯到DDR4时代的LRDIMM(Load Reduced DIMM,减载双列直插内存模块)。
LRDIMM的设计初衷是为了减轻服务器内存总线的负载,同时提升内存的工作频率与容量。
与传统的服务器内存模组RDIMM仅采用RCD(寄存时钟器)不同,LRDIMM创新性地加入了DB(数据缓冲器)功能。
这一巧妙设计不仅降低了主板上的信号负载,还为使用更大容量的内存颗粒创造了条件,进而显著扩充了系统内存容量。
MDB位于内存金手指附近,负责与主机侧的CPU内存控制器进行通讯。
MDB在主机侧的运行速度是DRAM侧的两倍,而DRAM侧的数据接口宽度也是主机侧的两倍。
MRCD能够生成4个独立的芯片选择信号(标准RCD仅支持两个,对应两个Rank)。
MDB通过两个数据接口将两个Rank分别读入缓冲区,然后一次性将数据传输到CPU的内存控制器,从而实现了带宽的翻倍。
由于MRCD支持4个Rank,这也意味着可以支持双倍于传统内存颗粒的数量。
目前展示的MRDIMM普遍采用更高的板型(TFF),使得单条容量得以倍增。
MRDIMM与HBM或将在AI领域并存第二代MRDIMM的数据传输速率达到12800MT/s,相比第一代提升了45%,是第三代RDIMM(支持速率6400MT/s)的两倍,这无疑将大幅提升系统性能。
在高性能计算、AI等对内存带宽需求较大的工作负载场景下,MRDIMM有望成为应用系统主内存的优选方案。
MRDIMM在容量、成本和扩展上具有优势
这种新型内存不仅速度更快、即插即用,而且直接兼容现有的DDR5插槽——无需修改程序或更换主板。
只需在支持该技术的平台上,将DDR5插槽中的RDIMM内存替换为MRDIMM,即可轻松实现速率的提升。
根据目前的测试结果,受益于MRDIMM技术最大的应用主要包括HPCG、AMG、Xcompact3d等科学计算类应用,以及大语言模型推理。
在大语言模型推理领域,MRDIMM的带宽优势将得到充分发挥,性能提升超过30%,因为大模型对显存/内存容量和带宽的需求是显著的。
在DeepSeek-R1等AI模型的本地部署中,面对企业对于70b以上工作模式的迫切需求,MRDIMM内存能够有效降低所需设备的成本,并显著提升AI运算的效能。
MRDIMM技术显著提升了AI推理的效率。在相同的内存容量下,对Meta Llama 3 8B大型模型进行运算时,采用MRDIMM技术使得词元吞吐量提升了31%,达到RDIMM的1.31倍;
同时,延迟减少了24%,首个词元生成时间缩短了13%,CPU的利用效率提高了26%,以及末级缓存(LLC)的延迟下降了20%。
MRDIMM有望借助DeepSeek等AI技术的兴起,逐渐成为AI服务器和高性能计算领域的标准配置。
英特尔与美光科技宣称,128GB DDR5-8800 MRDIMM在负载状态下的延迟相较于128GB DDR5-6400 RDIMM降低了40%,显著提升了实际应用中的内存性能。
此外,降低MRDIMM内存功耗的重要性不容忽视,因为在服务器系统中,内存模块的能耗可能与某些服务器CPU的功耗相当,甚至更高。MRDIMM的一个显著优势在于其无缝集成能力。
它维持与RDIMM相同的连接器和物理布局,无需对服务器的主板或物理配置进行任何调整。
这种兼容性意味着服务器制造商可以无缝集成MRDIMM,而无需对他们的设计进行任何改动。
此外,MRDIMM保留了DDR5 RDIMM的所有可靠性、可用性和可服务性特性,包括错误校正功能。
内存厂商对MRDIMM技术的支持变得积极
2022年底,SK海力士推出了针对特定英特尔服务器平台的MCR-DIMM技术。
该技术使得高端服务器DIMM能够以最低8Gbps的数据速率运行,相较于当时DDR5内存产品(4.8 Gbps)带宽提升了80%。
2024年7月,美光科技正式宣布推出MRDIMM,提供从32GB至256GB的广泛容量选项,覆盖标准型与高型外形规格(TFF),适用于高性能1U及2U服务器。
三星于2024年6月公布其MRDIMM产品方案,该方案通过结合两个DDR5组件,实现了现有DRAM组件带宽的翻倍,提供高达8.8Gb/s的数据传输速率。
英特尔在2024年10月推出的至强® 6性能核(P-Core)处理器至强6900P,将支持每秒8800MT的MRDIMM内存作为产品亮点之一。
独立测试显示,采用MRDIMM的至强6处理器相较于使用传统RDIMM的系统性能提升了高达33%。
同时,通过结合使用标准的6400MT/s DDR5内存与更快的MRDIMM内存,英特尔能够处理对内存极为敏感的工作负载,包括科学计算、AI等。
2025年5月,楷登电子(美国Cadence公司)近日宣布率先推出基于台积公司N3工艺的DDR5 12.8Gbps MRDIMM Gen2内存IP解决方案。
该新解决方案可满足业内对于更大内存带宽的需求,能适应企业和数据中心应用中前沿的AI处理需求,包括云端AI。
Cadence®DDR5 MRDIMM IP基于Cadence经过验证且非常成功的DDR5和GDDR6产品线,拥有全新的可扩展、可调整的高性能架构。
其产品组合结合Micron业内理想的基于1γ(1伽马)的DRAM,可满足AI处理工作负载对更高内存带宽、高存储密度和高可靠性的快速增长需求。
在MRDIMM实现双倍带宽的过程中,MDB芯片发挥了至关重要的作用。
目前,全球能够提供完整MRCD/MDB芯片套片的供应商包括瑞萨电子、Rambus和澜起科技三家公司,这与DDR4时代的市场格局保持一致。
目前,澜起科技第一代MRCD/MDB套片产品已成功实现量产,第二代MRCD/MDB套片的工程样片已经推出,并在近日完成了向全球主要内存厂商的送样工作,有望再次引领行业技术发展潮流。
结尾:
正如之前所述,MRDIMM能够实现带宽翻倍,MDB芯片在其中扮演了关键角色。
从8,800MT/s到17,600MT/s,MRDIMM在带宽和性能上的显著增强,对于高性能计算和AI计算领域的客户来说,具有极大的吸引力。
可以预见,新一轮基于推理应用的AI基础设施建设将推动终端市场对MRDIMM的需求增长。
从第二代MRDIMM开始,随着技术的逐步成熟,预计将会有更多种类的服务器CPU支持MRDIMM,行业生态将得到进一步的发展,最终带动终端需求的放量。
部分资料参考:半导体产业纵横:《存储,下一个[新宠]》,WittmanARC:《MRDIMM[多重存取内存]:商用内存的未来?》,云体验师:《缓解内存瓶颈的新路径,英特尔至强6的[独家]MRDIMM》,半导体国产化:《DeepSeek重塑AI格局,MRDIMM技术破壁,引爆存储新纪元》
原文标题 : AI芯天下丨深度丨MRDIMM新型内存出世,下一个“新宠”