2020年8月13日 – 在英特尔2020年架构日新闻发布会上,英特尔首席架构师Raja Koduri携手多位英特尔院士和架构师,详细介绍了英特尔在创新的六大技术支柱战略所取得的进展。英特尔推出了10纳米SuperFin技术,这是该公司有史以来最为强大的单节点内性能增强,带来的性能提升可与全节点转换相媲美。
该公司还公布了Willow Cove微架构和用于移动客户端的Tiger Lake SoC架构细节,并首次介绍了可实现全扩展的Xe图形架构。这些创新的架构可服务于消费类、高性能计算以及游戏应用市场。基于英特尔的“分解设计”方式,结合先进的封装技术、XPU产品和以软件为中心的战略,英特尔的产品组合致力于为客户提供领先的产品。
英特尔今年“架构日”上一个最大的亮点无疑是SuperFin。英特尔称其为“史上最强大的一次单节点内性能增强”,从这种说法中不难看出SuperFin的厉害之处。它的出现对于英特尔的意义重大,或有望帮助英特尔继续巩固和扩展PC和数据中心的市场份额。
10nm SuperFin技术
经过多年对FinFET晶体管技术的改进,英特尔正在重新定义该技术,以实现其历史上最强大的单节点内性能增强,带来的性能提升可与完全节点转换相媲美。10nm SuperFin技术实现了英特尔增强型FinFET晶体管与Super MIM(Metal-Insulator-Metal)电容器的结合。SuperFin技术能够提供增强的外延源极/漏极、改进的栅极工艺和额外的栅极间距,并通过以下方式实现更高的性能:
· 增强源极和漏极上晶体结构的外延长度,从而增加应变并减小电阻,以允许更多电流通过通道
· 改进栅极工艺以实现更高的通道迁移率,从而使电荷载流子更快地移动
· 提供额外的栅极间距选项可为需要最高性能的芯片功能提供更高的驱动电流
· 使用新型薄壁阻隔将过孔电阻降低了30%,从而提升了互连性能表现
· 与行业标准相比,在同等的占位面积内电容增加了5倍,从而减少了电压下降,显著提高了产品性能。该技术由一类新型的“高K”( Hi-K)电介质材料实现,该材料可以堆叠在厚度仅为几埃厚的超薄层中,从而形成重复的“超晶格”结构。这是一项行业内领先的技术,领先于其他芯片制造商的现有能力。
10nm SuperFin技术将运用于代号为“ Tiger Lake”的英特尔下一代移动处理器中。Tiger Lake正在生产中,OEM的产品将在假日季上市。
封装
使用“混合结合(Hybrid bonding)”技术的测试芯片已在2020年第二季度流片。当今大多数封装技术中使用的是传统的“热压结合(thermocompression bonding)”技术,混合结合是这一技术的替代品。这项新技术能够加速实现10微米及以下的凸点间距,提供更高的互连密度、带宽和更低的功率。
Willow Cove和Tiger Lake CPU架构
Willow Cove是英特尔的下一代CPU微架构。Willow Cove基于最新的处理器技术和10nm的SuperFin技术,在Sunny Cove架构的基础上,提供超越代间CPU性能的提高,极大地提升了频率以及功率效率。它还将重新设计的缓存架构引入到更大的非相容1.25MB MLC中,并通过英特尔控制流强制技术(Control Flow Enforcement Technology)增强了安全性。
Tiger Lake将在关键计算矢量方面提供智能性能和突破性进展。Tiger Lake是第一个SoC架构中采用全新Xe-LP图形微架构,可以对CPU、AI加速器进行优化,将使CPU性能得到超越一代的提升,并实现大规模的AI性能提升、图形性能巨大飞跃,以及整个SoC中一整套顶级 IP,如全新集成的Thunderbolt 4。
Tiger Lake SoC架构提供:
· 全新Willow Cove CPU核心 – 基于10nm SuperFin技术进步,显著提升频率;
· 新Xe图形架构 – 具有高达96个执行单元(EUs),每瓦性能效率显著提高;
· 电源管理 – 一致性结构中的自主动态电压频率调整(DVFS),提高了全集成电压稳压器(FIVR)效率;
· 结构和内存 – 一致性结构带宽增加2倍,约86GB/s内存带宽,经验证的LP4x-4267、DDR4-3200;LP5-5400架构功能?;
· 高斯网络加速器GNA 2.0专用IP,用于低功耗神经推理计算,减轻CPU处理。运行音频噪音抑制工作负载情况下,采用GNA推理计算的CPU占用率比不采用GNA的CPU低20%;
· IO – 集成TB4/USB4,CPU上集成PCIe Gen 4,用于低延迟、高带宽设备对内存的访问;
· 显示 – 高达 64GB/s的同步传输带宽用于支持多个高分辨率显示器。到内存的专用结构路径,以保持服务质量?;
· IPU6 – 多达6个传感器,具有4K 30帧视频、27MP像素图像;最高4K90帧和42MP像素图像架构功能。
混合架构
Alder Lake是英特尔的下一代采用混合架构的客户端产品。Alder Lake将结合英特尔即将推出的两种架构——Golden Cove和Gracemont,并将进行优化,以提供出色的效能功耗比。
Xe图形架构
英特尔详细介绍了经过优化的Xe-LP(低功耗)微架构和软件,可为移动平台提供高效的性能。Xe-LP是英特尔针对PC和移动计算平台的最高效架构,最高配置EU单元多达96组,并具有新架构设计,包括异步计算、视图实例化(view instancing)、采样器反馈(sampler feedback)、带有AV1的更新版媒体引擎以及更新版显示引擎等。这将使新的终端用户功能具备即时游戏调整(Instant Game Tuning)、捕捉与流媒体及图像锐化。在软件优化方面,Xe-LP将通过新的DX11路径和优化的编译器对驱动进行改进。
首款Xe-HP芯片已于实验室完成启动测试。Xe-HP是业界首个多区块(multi-tiled)、高度可扩展的高性能架构,可提供数据中心级、机架级媒体性能,GPU可扩展性和AI优化。它涵盖了从一个区块到两个和四个区块的动态范围的计算,其功能类似于多核GPU。在架构日活动中,英特尔展示了Xe-HP在单个区块上以60 FPS的速率对10个完整的高质量4K视频流进行转码。另一个演示还展示了Xe-HP在多个区块上的计算可扩展性。英特尔现在正在与关键客户一起测试Xe-HP,并计划通过Intel DevCloud使开发者可以使用Xe HP。Xe HP将于明年推出。
英特尔推出了新的Xe微架构变体——Xe-HPG,这是一种为游戏优化的微架构,结合了Xe-LP的良好的效能功耗比的构建模块,利用Xe-HP的可扩展性对Xe-HPC进行更强的配置和计算频率的优化。同时,Xe-HPG添加了基于GDDR6的新内存子系统以提高性价比,且将具有加速的光线跟踪支持。Xe-HPG预计将于2021年开始发货。
英特尔Server GPU(SG1)是英特尔针对数据中心的首款基于Xe架构的独立图形显卡。SG1通过实现4个DG1的聚合,可以很小的尺寸将性能提升至数据中心级别,以实现低延迟、高密度的安卓云游戏和视频流。 SG1将很快投产,并于今年晚些时候发货。
英特尔首款基于Xe架构的独立图形显卡DG1已投产,并有望按计划于2020年开始交付。DG1现在可在英特尔DevCloud上供早期访问用户使用。正如在CES上披露的那样,DG1是英特尔首款基于Xe-LP微架构针对PC的独立图形显卡。
英特尔显卡指挥中心(IGCC)引入了新功能,包括即时游戏调整和游戏锐化。
· 即时游戏调整是一个专用于游戏的驱动,可以比以前更快地推送修复和优化给最终用户,而且不需要下载和安装完整的驱动程序。它只需要用户在每个游戏选择加入一次即可。
· 游戏锐化使用感知自适应锐化,一种基于计算着色器的自适应锐化算法提高游戏中的图像清晰度。此功能对于使用分辨率缩放以平衡性能和图像质量的游戏尤其有用,并且是IGCC中的一项可选功能。
数据中心架构
Ice Lake是首款基于10nm的英特尔至强可扩展处理器,预期将于2020年底推出。Ice Lake产品将在跨工作负载的吞吐量和响应能力方面提供强劲性能。它将带来一系列技术,包括全内存加密、PCIe Gen 4、8个内存通道等,以及可加快密码运算速度的增强指令集。Ice Lak系列中也会推出针对网络存储和物联网的变体。
Sapphire Rapids是英特尔基于增强型SuperFin技术的下一代至强可扩展处理器,将提供领先的行业标准技术,包括DDR5、PCIe Gen 5、Compute Express Link 1.1等。Sapphire Rapids将是美国阿贡国家实验室“极光”超级计算机系统(Aurora Exascale)中使用的CPU,它将延续英特尔的内置人工智能加速策略,使用一种名为先进的矩阵扩展(AMX)的新加速器。Sapphire Rapids预计将于2021年下半年开始首批生产发货。
英特尔现在拥有世界上第一台下一代224G-PAM4 TX收发器,展现了其在先进FPGA技术上的不断创新和连续三代收发器领域的领先地位。
软件
oneAPI Gold版本将于今年晚些时候推出,为开发人员提供在标量、矢量、距阵和空间体系结构上保证产品级别的质量和性能的解决方案。英特尔于7月发布了其第八版的oneAPI Beta,为分布式数据分析带来了新的功能和提升,包括渲染性能、性能分析以及视频和线程文库。 DG1独立GPU当前在英特尔 DevCloud上可供部分开发人员使用,其中包含DG1文库和工具包,来使他们能够在拥有硬件之前就开始使用oneAPI编写DG1相关的软件。
此次各项技术创新揭示了英特尔“六大技术支柱”创新战略的持续迈进。英特尔正充分利用其独特的优势,提供标量、矢量、矩阵和空间架构结合的解决方案,广泛部署于CPU、GPU、加速器和FPGA中,并由开放的、符合行业标准的编程模型oneAPI实现统一,从而简化应用程序开发。