同样的任务量,用高性能的处理单元构成的“小”规模系统,其效率要高于用较低性能的处理单元构成的“大”规模系统。并行处理单元的性能相当重要,它不仅包括运算速度,还包括存储器带宽、数据通信速度等,美国TI公司的TMS320C6000系列DSP是业界最高性能的通用可编程DSP,TMS320C6701又是该系列中性能较高的浮点处理器。该款DSP完全满足设计的通用计算平台对信号处理单元性能的要求,因此选择TMS320C6701作为信号处理模块的处理单元。
1.2通信网络的设计
阵列信号处理必然是多个信号处理单元并行工作,子任务分配在并行处理系统的各个处理单元中,子任务间数据通信速度和同步时间等不仅取决于处理单元本身的通信速度,还取决于连接处理单元的通信互连网络,通信链路丰富的复杂网络往往能提供较高的数据通信速度,然而其设计和维护的难度要高得多。针对不同的实际应用,采用不同形式的通信网络,可以降低通信网络的复杂度。
在互连结构设计中,把整个并行信号处理系统的互连结构分为两级:系统级互连结构、模块级互连结构。
系统级互连结构主要用于模块间的通信,该设计中系统级的控制网络和信号处理网络分别采用RaceWay及VME实现。模块级互连结构主要指信号处理模块内的网络结构。
信号处理模块内包含4个DSP,可提供4GFLOPS的峰值处理能力。模块内采用共享总线互连结构。一般情况下,程序代码和运算数据应存放于各DSP的片内RAM或局部存储器中,这样可以减少共享存储器访问次数,减少总线争用,缩短存储访问延时。共享存储器通常用来支持模块内4个DSP之间交换数据,以及用来支持在模块之间交换数据。
为了减少模块内各个DSP争用总线带来的时延,提高DSP之间的通信能力,相邻的DSP之间还通过双向的FIFO连接,构成FIFO环。这种结构十分适合流水处理的应用,最大限度地减小了数据移动的开销,提高了处理器间的通信速度。
流水处理以其简单高效而被广泛采用,但因为它只利用了任务时间上的并行性,而忽视了空间上的并行性,所以并行度不高,加速比受到限制。当流水线中某一段任务负载量大于其他段时,就会形成处理瓶颈而降低系统效率。因此,流水线往往和并发操作结合起来,即在流水线处理的基础上,部分的利用空间并行性,称为局部并行全局串行网络。与之对应的是全局并行局部串行网络,即先利用空间并行性再利用时间并行性,设计出并行工作的多条流水线。
该并行信号处理系统的信号处理模块所采用的互连形式——共享总线和FIFO环的结构,能够很好地适应流水处理的各种变形。
2硬件设计
该信号处理模块符合VME标准,采用6U双高板结构,模块内部硬件实现上可划分为四级总线结构,分别是局部总线、全局总线、PCI总线以及VME总线。在局部总线上的资源有:SBRAM、SDRAM及双向FIFO;全局总线上的资源有:PCI总线接口、SRAM、FLASH;PCI总线上的资源有:RaceWay接口、HOST PCI的桥、PCI VME的桥以及PCI DSP的桥;VME总线上的资源有:VME总线接口。