多核共享存储控制器(MSMC)配有DSP内核共享的4 MBSRAM存储器,对共享存储器存取和信息包传输能够并发进行;为了实现对外部存储器快速存取,提供了速度为1 600 MHz的64位DDR3接口,寻址存储空间可达到8 GB.多核导航器配置控制8192个多用途硬件队列的队列管理器,建立基于DMA的零开销信息包传送通道,当需要并行处理的多任务被分配到队列中,多核导航器通过将任务引导到适当的可用硬件来实现任务的加速派遣。网络协处理器支持信息包传送加速和安全加速引擎,增强了与上位机的通信功能。TMS320C6678提供丰富的高速外设接口:四路串行高速IO(SRIO),每路传输速度最高可达到5 GBaud;两通道PCIe—II传输,每通道速度最高可达5 GBaud;超链接总线(HyperLink)支持与其他具有KeyStone架构的器件互连,传输速度可达到50 GBaud;16位扩展存储器接口,支持256 MBNAND Flash和16 MB NOR Flash,支持异步SRAM容量可达到1 MB;以及16个GBIO接口等,诸多高速的外部接口可以保证多通道高采样率的大量数据实时进入DSP内核进行处理。另外,TM S320C6678具备动态电源监测和SmartReflex电源管理技术,能够在低功耗和强大运算处理能力之间达到性能平衡。
综上所述,TMS320C6678处理器为弹载高速实时大容量数据处理、数据传输和复杂算法实现提供了强大的硬件平台基础。其中的Keystone架构提供了一种集成了片内各种子系统的可编程平台,该架构使用多种开创性的技术和硬件组成使得芯片内部和芯片之间的数据信息传输达到最佳化,从而保障各种DSP资源能够高效无缝发挥作用。这种体系架构的中枢是称为多核导航器的关键组成单元,它能够实现各种芯片组成之间高效的数据管理,对各内核进行管理和协调,使得DSP内核高效互联,保证多核处理器的效能得到发挥。Teranet交换网络能实现2Tbps的无阻塞信息交换,能进行快速无冲突的内部数据传送,多核共享存储控制器确保处理器内核无需通过数据传输网络就能够直接存取共享存储器和外部存储器。
2基于多核DSP的软件设计
为了有效发挥多核DSP系统的运算处理和数据传输能力,获得多核DSP实际应用系统的最佳性能,需要进行相应的基于多核DSP的系统软件设计,软硬件的有机配合,确保多核DSP的功能和性能真正发挥作用。对于基于多核DSP的信息处理系统,尽管多核DSP提供了高性能硬件基础,在系统设计过程中,需要考虑每个内核之间的任务分配和信息传输,因此,为充分利用多核DSP的硬件优势,多核DSP系统并行软件设计是关键,多核DSP对软件设计提出新的挑战,同时也导致软件设计理念和设计方法的改变。
TMS320C6678集成了8个DSP内核,多内核之间的任务分配和系统处理算法直接影响多核系统的性能和效率。任务分配的目的就是合理配置系统资源,设法减少DSP内核间的通讯开销。均衡负载是将系统承担的任务合理地分配给各DSP内核,以提高系统吞吐量。显然,减少通讯量和均衡负载是相互矛盾的,因此,系统任务分配策略也就是最大限度地减少各子系统间的通讯量,同时均衡各子系统问的负载,以提高整个系统的性能。
为了全面挖掘多核处理器的潜力、充分利用多核处理器的优势,软件设计人员必须掌握相应的并行软件设计技术,将弹载信息处理系统任务映射到各DSP内核。任务并行是指软件中的独立任务同时执行。对于一个单核处理器,各单独任务必须共享同一个处理器;而在一个多核处理器上,各任务实质上是相互独立运行,从而导致更高效的任务执行。
为了将弹载信息处理系统映射到多核处理器,需要识别任务的并行度并相应选择最适宜的处理模式。弹载多核DSP系统的并行处理模式可采用数据流模式。数据流模式表现为分布式控制和执行,处理任务依次通过如同流水线一样的各处理阶段。每个内核使用各种算法处理一组数据,然后这些数据被传送到另一个内核做进一步处理。初始内核通常与一个输入接口相连接,通过该接口可接收来自A/D转换器或FPGA的待处理的初始数据。调度的触发依赖于数据的可用性。由于弹载信息处理系统包含大量复杂的运算成分和信号与信息处理算法,它们互相关联且不可能在一个内核上处理完成。采用该模型需要将复杂的处理任务划分到各内核并确保系统具有高数据流动速率。系统的组成通常需要被拆分并映射到多个内核中,并确保处理数据有规则地流水传送。高速数据传输速率要求各内核之间具备适宜的存储带宽,各内核之间数据流动是规则的,并确保数据传送开销低。该处理模型要求每个处理器内核映射一个或多个任务,而各内核之间通过消息传递实现运行同步;各内核之间的数据传送通过共享存储器或DMA方式进行。