前言:
散热,这个过去不被人们重点关注的产业,正由于AI带来的数据量和计算量的爆发增长逐渐从幕后走向台前。
今明两年,AI行业中可能会出现算力被散热卡脖子的情况。
作者 | 方文三
图片来源 | 网 络
散热行业都面临技术转型升级的痛点
电能转化为其他形式的能,会伴随做功的过程;而做功就会放热,过热就会把GPU烧坏。
此前一般都是采用风冷的方式降热,但风冷达到功率上限后性价比下降。
国内的数据中心的应用存在明确的要求:数据中心必须有液冷存在。
至少确定的是,液冷的渗透率会从目前的不到10%,攀升至2025年的20%。
考虑到[东数西算]的整体规划布局,未来新增机柜更多将在枢纽节点内,风冷方案在某些地区可能无法严格满足要求,液冷方案渗透率有望加速提升。
如果只是在散热工程技术上争取改善,在原有方案上做一些微调或优化,那么进步升级的速度会比较慢,提供的散热能力与高性能、高算力等需求之间的差距会越来越大。
只有通过一些创造性、颠覆性的散热技术,从根本上实现规模数量级或数倍的能力提升,才可能解决当前利用传统技术所面临的芯片性能散热供需差距不断扩大的问题。
由于AI算力需求的快速提升,相关CPU/GPU的功率提升呈现加速态势,需要更强大和更有效的冷却解决方案来保持设备的正常运行。
大厂率先推进散热技术
后摩尔定律时代AI芯片性能和功耗同步大幅提升,风冷芯片级散热功耗上限在800W左右,风冷达到功率上限后性价比下降。
作为当今世界上最先进的量产GPU,英伟达H100的功率高达700-800W。
这只是一颗GPU所需功率,已超过普通的一匹空调。
据台湾经济日报报道,英伟达、台积电正在与硬件厂商合作,推进散热技术。
据AI供应链消息称,热处理技术供应商高力正积极与台积电、英伟达开发AI GPU浸没式液冷系统。
随着算力的不断提升,则需要大大提高芯片性能来进行支撑,而这又带出另一大挑战,即芯片的热设计功耗(TDP)。
近日,中国台湾热处理技术供应商高力也被曝已确定取得台积电150台液冷式分配器订单,并正与台积电和英伟达开发AI GPU浸没式液冷系统。
英特尔也是浸没式液冷散热技术的支持者,在2022年时,英特尔就表示[浸没式液冷的时机已至]。
浸没式液冷技术将成为主流冷却技术
目前主流液冷散热方案第一种是借由水循环的方式,透过泵和管线进入机体带走热能。
另一种是浸没式技术,将热源(例如芯片)放置在不导电液体中,借此带走热能。
因此,为了提高单一机柜的功率密度,数据中心近些年开始普遍使用液冷方案。
其大致可以分为两种技术路径:冷板式(Cold Plate)与浸没式(Immersion)。
前者是通过冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体;
后者则直接将发热器件以及电路板整体直接置于液体中。
与空气介质相比,液体的导热率更高、比热容更大、吸热能力也更强。
另外在运营成本上,液冷散热也有较大的优势。
这项散热封装技术若再搭配具有三重液冷循环之服务器装置技术。
能够为数据中心省去所有的二级、三级散热系统。
只需将自我浸没式服务器插入机柜内,再接入水管及非导电冷却液管就可以直接使用。
从散热技术来说,目前散热模组是以含有热导管技术的主被动混合式散热技术为主。
目前散热模组分为[气冷散热]和[液冷散热]:
气冷散热就是用空气作为媒介,透过热接口材料、均热片(VC)或热导管等中间材料,由散热片或风扇与空气对流进行散热。
液冷散热则是透过,或浸没式散热,主要就是透过与液体热对流散热,进而使晶片降温,但是随着晶片发热量的增加与体积的缩小,芯片热设计功耗(TDP)的提高,气冷散热逐渐不敷使用。
散热市场向液冷+芯片级演进
芯片级散热系统核心为由热管、均热板构成的散热模组。
芯片散热模块原理即为将芯片热量通过热管、均热片等导热材料传导,沿着导热环节到达散热鳍片位置。
散热鳍片是纯铜制造,多褶结构,与空气接触面积大,传导至散热环节通过启动风扇进
行主动散热,风扇的转速会根据散热量的多少自动调节,从而完成导热至散热的环节。
当前冷板式液冷技术成熟度较高,在液冷技术路线中处于主流,假设当前占比为80%。
综合测算,AI 大模型训练+推理会带来40亿元的液冷市场空间。
随着模型参数增加、使用推广,未来四年带来液冷市场 60%+年复合增速。
根据测算,预计服务器散热模块规模至2026年能保持接近30%的复合增长。
液冷技术投资机会的三条主线
①华为电气-艾默生系的专业温控厂商:最早从事精密空调研发设计,具备多年的产业洞察,对技术研发具备前瞻性,且形成平台化的散热布局,赋能多行业应用;
②布局液冷技术的服务器厂商:冷却技术由房间级向行级甚至服务器内部芯片级延伸,能够参与液冷技术方案的服务器厂商,有望更快迎来算力升级的机遇,强化产品竞争力;
③提供包含芯片级散热的完整解决方案的供应商:芯片作为服务器核心热量源,随着芯片功率提升,散热方案向服务器内部芯片级升级。
结尾:
资本市场走俏背后,是散热技术愈发成为制约芯片等电子产品性能升级的阿喀琉斯之踵。
作为一个与计算机科学共同成长起来的产业,散热模组厂商们经历了多次电子信息革命,但当下AI的爆发,似乎才真正让这个行业真实现了[翻身]。
正因如此,业界需要将相关热管理、散热技术快速提升,才能满足芯片等电子信息产品的持续迭代升级。
部分资料参考:国金证券:《AI+散热,站在新风口》
原文标题 : AI芯天下丨产业丨发热激增遇挑战,AI+散热的技术与市场趋势