针对性能而优化的Speedster7t架构
Speedster7t FPGA是专为满足最高性能的数据加速应用而设计的,该架构非常适合解决本白皮书中提到的所有应用挑战。具体而言,Achronix开发了一种全新的创新型二维片上网络,它力助在I/O带宽、外部存储带宽和片上性能之间提供一种平衡架构,以确保总体最高的吞吐量。在传统的FPGA架构中,用户需要设计电路来连接加速器,从而导致并不理想的布局和布线。现在更新的FPGA架构使用一种网络,在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间传输数据流(如图8所示)。
图8:在传统的FPGA架构中连接加速器
Status Control:状态控制
Parameters:参数
Address decode and routing:地址解码和布线
Back pressure:背压
Request arbitration:请求仲裁
Response arbitration:响应仲裁
Response back pressure:响应背压
Response routing:响应布线
Accelerator:加速器
图9:先进的FPGA减少了所需的电路数量
硬连线架构极大地改善了处理的延迟和能效,但是缺乏应对需求变化的灵活性。Speedster7t系列FPGA器件中的第一款芯片AC7t1500提供了一系列高速接口,包括可分配的(fracturable)以太网控制器(支持高达400G的速率)、PCI Gen 5端口和多达32个SerDes通道,速率高达112 Gbps。AC7t1500器件是首款部署多通道GDDR6存储器接口的FPGA,它满足了需要高速缓存海量数据的编码器的需求。除了在可编程逻辑阵列中采用的面向位的布线结构外,这些外围设备还通过一个智能二维片上网络进行互连。因此,Speedster7t FPGA是第一款能够实现上述视频处理用例的器件,该FPGA器件利用一种平衡架构,在计算密度和数据传输能力方面带来重大改进。
Speedster7t架构通过提供总带宽超过20 Tbps的多级片上网络(NoC)层级化结构,消除了由于需要将高速I/O通道直接连接到以较低时钟速率运行的可编程逻辑所造成的瓶颈。与采用FPGA逻辑阵列实现互连方式相比,NoC不仅在速率上有了大幅的提升,而且NoC还能在不消耗任何FPGA可编程资源的情况下传输大量数据。内部NoC不仅提供了更高的带宽,而且Speedster7t FPGA中的智能连接机制也简化了将数据从NoC端口传输到逻辑阵列中的任务。
这种架构可支持进一步的设计创新,例如支持上述机器学习用例的面向矩阵的算术单元。通过使用诸如深度学习或较为简单的统计方法等技术,设备可以分析数据流的模式,以观察和增强数据包在网络中的传输,并对不断变化的情况做出快速反应。概括而言,以下三项Speedster7t的架构创新为上述用例提供了更好的FPGA设计:
高速存储接口
Speedster7t架构师对存储接口的选择反映出了以太网和NoC连接可提供的巨大带宽。一种可能的方法是在一系列产品设计中采用即将推出的HBM2接口。尽管这样的接口可以提供所需的性能等级,但HBM2是一种价格昂贵的选择,这将迫使客户去等待必要的组件和集成技术进入市场。
与此不同,Speedster7t系列则采用了GDDR6标准,该标准为当今片外存储器提供了最高的性能。Speedster7t FPGA是市场上首款支持该接口的器件,每个片上GDDR6存储控制器可维持512 Gbps的带宽。在单个AC7t1500器件中最多可带有八个GDDR6控制器,因此一个Speedster7t FPGA器件可提供高达4 Tbps的总存储带宽。