文︱王树一
图︱英特尔
在第三届架构日上,英特尔一口气祭出七种武器:全新的多核性能混合架构、硬件线程调度器、独立游戏图形处理器(GPU)架构、数据中心GPU架构(Ponte Vecchio),更新的数据中心架构(Sapphire Rapids)、基础设施处理器(IPU)以及oneAPI。
七种武器力出一孔,都指向一个宏伟目标:英特尔期待在2025年时,实现千倍工作负载处理能力提升。
摩尔定律指出,芯片性能两年翻一倍,用四年时间实现千倍处理能力提升,相当于摩尔定律4年性能提升(4倍)的5次方。
在一般从业者的认知中,晶体管制造工艺接近物理极限之后,缩小工艺尺寸越来越难,缩小工艺尺寸带来的红利也越来越低,摩尔定律预测的性能翻倍速度正在逐渐变慢,过去二三十年,不断有人宣判摩尔定律的死刑。微软研究院副总裁李皮特(Peter Lee)甚至提出一个戏谑的摩尔定律之定律:预测摩尔定律失效的人数,每两年翻一倍。
那为什么英特尔还提出四年千倍的目标?面对这个目标,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri直呼难于上青天( That sounds impossible.)。
答案也许从“传统摩尔定律”变慢里面去找,过去一代又一代电子产品,将芯片算力提升作为升级换代的主要考量指标,而芯片算力提升的主要驱动力源自于半导体制造工艺微缩。其实跳脱出晶圆制造工艺微缩的单一路线,提升电子产品性能的方法非常多,就如李皮特对于摩尔定律的另一个论断:摩尔定律终结当然会带来挑战,但这也是一个拐点,它将督促我们跳出窠臼,冲破藩篱,另辟蹊径。(“The end of Moore’s law could be an inflection point.It’s full of challenges - but it’s also a chance to strike out in different directions, and to really shake things up.”)
英特尔选择的战法就是多点包抄、技术融合,向系统要性能。Raja Koduri说:为了在2025年实现1000x(千倍)性能提升,英特尔要在制程工艺、封装、内存和互连等各技术方向做到至少4倍提升(即摩尔定律的提升速度),同时利用架构这个“炼金术”,将上述技术与软件融合起来,融合产生化学反应,促成不同技术所带来的性能提升红利互做乘法因子,多个技术方向的4倍技术提升相乘,最终达成工作负载总处理能力千倍提升的指标。
硬件性能发挥得好不好看软件,软件执行效率高不高依赖于硬件,架构则是调停软硬件这对冤家的中间人。架构发挥正面作用了,则软硬件齐心,其利断金;架构没有发挥好作用,则软件磕磕绊绊,硬件也恨不得恢复到一盘散沙的原始状态。用英特尔的术语来讲,架构就是“炼金术”,性能红利深藏于架构之中,而今,信息技术已经进入架构主导时代。这大概就是英特尔在本届架构日上频放大招的原因。
媒体对英特尔在架构日上的发布已经有非常详细的报道或解读,笔者并非计算机体系架构专业人士,难以准确把握计算架构的内涵,只能就架构日的公开信息对英特尔近年技术开发理念做出个人研读,凑成一文,以飨诸君,错漏在所难免,欢迎大家批评指正,专业读者也可直接观看架构日的原始视频,视频链接如下(无字幕)。
从一元转向多元
如前所述,芯片性能提升在过去很长时间靠制程工艺升级换代就可以实现,因此对封装、互连、存储等技术指标的要求并不高。以桌面处理器发展历史为例,依靠工艺微缩带来的集成度提高和工作主频提升,就足以满足当时软件/操作系统对性能升级的要求。
当主频提升遇到瓶颈后,英特尔推出钟摆策略,奇数年更新制程,偶数年更新架构,这其实就是摩尔定律主导技术多元化的开始。
一元化发展路线遇阻,反而打开了广阔天地,不同环节衔接处的性能瓶颈尚有太多潜力可挖。在2020年热门芯片技术大会(Hot Chips 2020)上,Raja Koduri就表示,在硬件和应用程序之间,有大量“宝藏”与“空白”。摩尔定律支撑技术从一元化走向多元化,为四年千倍性能提升奠定了基础。
而且,单一方向的性能提升之路也尚未看到尽头。Raja Koduri指出,从提升晶体管集成度的角度来看,利用减少晶体管间距(FinFET工艺微缩)、纳米线连接、纳米线堆叠以及晶圆堆叠等技术,至少50倍的提升空间。
同样的,在封装、存储和板级集成等技术路线上,提升性能的空间巨大。
在架构日答媒体问时,英特尔研究院副总裁、英特尔中国研究院院长也强调,展望未来,英特尔在处理器架构、封装技术、连接技术等方向的选择非常多,也很全面。同时,英特尔也将通过oneAPI通用软件平台为开发者降低开发难度,并真正释放不同架构(尤其是超异构集成芯片)计算硬件能力。宋继强总结说:“这体现了英特尔的综合能力。”
总而言之,半导体技术“矿藏”足够多,潜力空间足够大,从业者不必为摩尔定律死不死而担心。
细粒度优化
在架构日上,英特尔详细介绍了其首个性能混合架构Alder Lake。在该架构之前,英特尔桌面处理器的多核都采用均衡优化原则,每个核心性能与规模均一致,Alder Lake打破传统,采用了非均衡优化,将内核分类两类:能效核(E-Core)和性能核(P-Core)。
其中,能效核技术来源于移动处理器atom架构,优化方向为能耗和I/O吞吐量,目标是在最佳功耗前提下去提升多任务处理能力;性能核即传统英特尔桌面处理器内核技术的延续,优化方向是更高集成密度、更高主频、更短计算延迟。
也许有人说这不就是Arm架构中的“大小核”?能效核与性能核确实可以类比Arm架构大小核的不对称优化,但英特尔的最大优势在于,为优化多核协作效率专门开发了硬件线程调度器(Tread Director)。硬件线程调度器在CPU硬件层级实现了对指令混合、功耗、I/O负载等众多参数的监测功能,可以根据工作负载情况实时调整不同核的工作状态,并将部分信息反馈给操作系统,让操作系统可以更快、更细粒度地对任务进行调度。
18
图:以纳秒级精度监控指令运行,绝非软件方式可以实现
分层优化的理念在当前芯片开发过程中非常流行。异质封装就是分层优化理念的集大成者,利用异质封装技术,开发者可以在性能与制造可实现性之间求得均衡。SoC中单个切片(子芯片)集成度越高,面积就越大,控制良率就越难,但如果切片过多,切片之间互连性能损失就会比较多。英特尔的EMIB多晶片互连封装技术,具有显著的可扩展性,同时仍保持单芯片CPU接口的优势,利用该技术可以将复杂SoC切成多个子芯片,以满足系统对性能和复杂度的要求。
此次架构日上的重点产品数据中心处理器Sapphire Rapids具有四个切片,数据中心SoC Ponte Vecchio更是有47个切片,集成了1000亿个晶体管,性能极为强悍。
平衡性能与通用性
在性能与通用性之间做取舍,是架构工程师的主要工作之一。用途越确定,应用场景越单一,优化性能越容易。苹果和特斯拉应用场景相对比较纯粹,对于芯片成本的敏感性也更低,所以开发芯片时可以大幅增加解码宽度和缓存深度以增加性能。但对通用计算芯片厂商而言,只能在合适的通用性与成本约束下去优化性能,而且通用性越广,越要考虑向前兼容性,约束就越多,性能提升就越难。
大小核设计就较为妥善地处理了性能与通用性之间的矛盾。由于不同技术发展速度不一致,分层优化在芯片开发中早已经被广泛接受。在某种程度上,异质封装SoC就可以视为将一组专用芯片(ASIC)组合起来,实现通用性能。
Ponte Vecchio当前异质封装技术集大成者。Ponte Vecchio集成了47个单元,这47个单元分为计算、基底、高带宽内容、Rambo、Xe Link和EMIB等多个种类,每个单元要优化自身性能,也有优化和其他单元互连的带宽。宋继强表示,Ponte Vecchio的技术挑战相当大,要将47个单元集成到一起并能融合各自优势,以发挥出协同效力,这其中的带宽匹配、凸点间距和信号完整性等设计颇不容易。
图:Ponte Vecchio封装示意图
英特尔的网络基础设施专用处理器IPU是另一种通用的专用芯片。据宋继强介绍,IPU主要作用是为数据中心处理器卸载部分网络相关任务,例如网络虚拟化、存储虚拟化和网络存储管理。根据网络业务应用需求,IPU虚拟化不同种类任务,并提供接口支持与QS监测服务,同时要对加解密和信息安全保障能功能做卸载,从而将数据中心处理器从网络服务响应中释放出来,将更多算力分配给用户程序。
向竞争对手学习
也有一种声音说,本次架构日英特尔推出的技术并无多大新意:大小核是Arm玩剩下的,异质封装AMD早就在做了,独立GPU也来的太晚。
其实,这次架构日英特尔发布的技术创新点颇多,有人戏称“牙膏厂牙膏都挤爆了”,更何况,不论Ponte Vecchio的威力和硬件线程调度器的创新,在当前行业都难寻第二家。
而且,向竞争对手学习永远都不丢人。半导体领域最重研发,全行业研发投入占销售额比例达到20以上,在研发这场无终点的马拉松比赛中,一直领跑不见得是最优策略,尤其进入“无人区”,领跑者风阻最大,风险最高,适时放节奏跟跑才是更优战略。
对竞争对手来说,放下领跑执念的英特尔更可怕。
附录:英特尔之七种武器
Alder Lake性能混合架构
它重构了多核架构,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。它是英特尔最智能的客户端SoC架构,结合了能效核和性能核。
能效核是一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。
性能核不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。这是为软件易用性而设计,利用了x86编程模型。
Alder Lake适用于从移动端到台式机的产品,并通过多种业界领先的I/O和内存而引领行业变革。基于Alder Lake的产品将在2021年开始出货。
硬件性能调度器
这是英特尔开发的独特调度方法,旨在确保将能效核和性能核无缝衔接在一起,从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。智能直接置于内核,英特尔硬件线程调度器与操作系统无缝配合,在合适的时间把合适的线程分配给合适的内核。
Xe HPG和Alchemist SoC
一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。Xe HPG微架构采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。Xe内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于Xe HPG的Alchemist SoC(之前代号为DG2)将于2022年第一季度上市,并采用新的品牌名英特尔?锐炫?。
Sapphire Rapids
它结合了英特尔的性能核与全新加速器引擎,树立了下一代数据中心处理器的标准。Sapphire Rapids的核心是一个模块化的分区SoC架构,得益于英特尔的EMIB多晶片互连封装技术和先进网格架构,它具有显著的可扩展性,同时仍保持单晶片CPU接口的优势。
基础设施处理器(IPU)
Mount Evans是英特尔首款专用ASIC IPU,以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。通过基于英特尔IPU的架构,云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU,从而让数据中心收益更大化。把基础设施任务转移到IPU,能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户。
Xe HPC, Ponte Vecchio
Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是我们践行IDM 2.0战略的绝佳示例,它采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术。这是我们实现堪比登月难度创新后的一款产品,它包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。在架构日上,英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。Ponte Vecchio的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过2 TBps的连接带宽。如Xe架构一样,Ponte Vecchio将由oneAPI支持,后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈。
oneAPI
oneAPI是一个开放的统一标准软件堆栈,跨硬件架构,跨数据类型,可通用于各类XPU计算芯片。oneAPI规定了通用硬件抽象层、数据并行编程语言以及高性能函数库,其技术覆盖数学、深度学习、数据分析和视频处理领域。 oneAPI让开发者能够摆脱专有语言和编程模型,降低跨平台开发难度,能够让开发者充分利用最新硬件性能,oneAPI语言和函数库无缝支持其它生态系统语言。当前,英特尔的合作伙伴已经推出了超过300个采用oneAPI统一编程模型的应用软件。而且,有80多个支持Xe HPC的关键HPC应用软件、AI框架和中间件,它们利用oneAPI快速移植当前基于CPU或CUDA的GPU实施。