首页> 中国专利> 基于GPDSP的大点数FFT向量化汇编代码生成方法

基于GPDSP的大点数FFT向量化汇编代码生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开一种基于GPDSP的大点数FFT向量化汇编代码生成方法，步骤包括：S1.构建用于实现不同任务的多个核心模块，各模板包括所需参数的参数列表；S2.构建大点数FFT的框架模板，框架模板中分别使用各模块实现大点数FFT计算；S3.使用预先构建的汇编代码生成模块将框架模板中各核心模块转换为汇编代码，最终生成所需的大点数FFT汇编代码。本发明具有实现原理简单、操作简便、使用灵活、能够实现大点数FFT向量化汇编代码的自动化生成，且生成效率及性能高等优点。

著录项

公开/公告号CN108776586A

专利类型发明专利
公开/公告日2018-11-09

原文格式PDF
申请/专利权人中国人民解放军国防科技大学;
展开▼

申请/专利号CN201810530711.8
发明设计人刘仲;郭阳;鲁建壮;田希;扈啸;陈海燕;孙永节;陈跃跃;刘胜;吴家铸;王丽萍;
展开▼

申请日2018-05-29
分类号
代理机构湖南兆弘专利事务所(普通合伙);
代理人周长清
地址 410073 湖南省长沙市开福区砚瓦池正街47号
入库时间 2023-06-19 07:04:59

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-24

授权

授权
2018-12-04

实质审查的生效 IPC(主分类):G06F8/30 申请日:20180529

实质审查的生效
2018-11-09

公开

公开

说明书

技术领域

本发明涉及GPDSP（General-Purpose Digital Signal Processor，通用计算数字信号处理器）技术领域，尤其涉及一种基于GPDSP的大点数FFT向量化汇编代码生成方法。

背景技术

离散傅里叶变换（Discrete Fourier Transform，DFT）在现代信号处理系统领域里应用广泛，是典型的计算密集和访存密集型应用，例如N点的DFT变换的计算复杂度为 o(N²)。1965>2)降到o(Nlog₂N)。

现有的数值软件代码的性能在很大程度上取决于平台的存储层次结构、处理器提供的特殊指令（特别是向量指令）的使用等，而这些往往与处理器的微体系结构特性息息相关，更为重要的问题是，不同的平台之间的特性差异很大，使得最优化的代码会严重依赖于平台。因此一个合理的实现和最好的实现之间的性能差距越来越大，如在Pentium4上实现的离散傅立叶变换代码，GNU科学库和英特尔供应商的IPP库的运行性能差距达一个数量级以上，后者主要是手工编写和调优的汇编代码，而新平台的发布使得手工编写的代码需要重新实现和优化，这仍然需要耗费大量的工作量，复杂度及成本高。

虽然从理论上来说编译器是实现优化性能最理想的解决方案，因为源代码并不需要重新编写，但是编译器的技术进步赶不上硬件的发展速度，即使是简单的计算问题，使用编译器往往只能产生低效率的代码，存在上述问题主要有两个：其一是缺乏可靠的程序优化技术，当前日益复杂的机器也使这一问题进一步恶化，虽然编译器通常可以采用许多不同的方式转换代码段，但是没有能够保证成功的最优化的方法；其二是很多重要的性能改进都是从算法变换中获得，而这超越了当前编译器所能够达到的能力，大量算法变换依赖于算法的信息，而这些信息很难从一个高层次的语言中提取。

GPDSP作为一种异构多核处理器，它包含CPU核单元和DSP核单元，其中CPU核单元主要用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持；DSP核单元包含若干具有强大计算能力的64位向量处理阵列，用于支持高密集运算任务的解算，DSP核包含标、向量寄存器文件，标量L1D、向量阵列存储、片内共享存储以及外部DDR存储等复杂的多级存储结构。而复杂的体系结构对高效代码的生成带来巨大的挑战，通过编译器产生的库函数汇编代码很难实现各级存储间的高效数据访问和传递，传统的面向Cache结构的分块矩阵乘法方法也不适合GPDSP的非Cache的向量阵列存储访存模式和向量处理阵列并发向量处理的体系结构特征，难以发挥GPDSP向量计算优势。

目前对实时性要求高的应用系统所调用的高性能库函数，通常都是用手工汇编精心优化，如何针对GPDSP复杂的体系结构特征快速生成高效的库函数汇编代码是当前面临的一个巨大挑战，而其中基于GPDSP架构实现大点数FFT向量化汇编代码生成是亟待解决的问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种具有实现原理简单、操作简便、使用灵活、能够实现代码自动化生成，且生成效率及性能高的基于GPDSP的大点数FFT向量化汇编代码生成方法。

为解决上述技术问题，本发明提出的技术方案为：

一种基于GPDSP的大点数FFT向量化汇编代码生成方法，步骤包括：

S1. 构建用于实现不同任务的多个核心模块，包括用于行FFT计算的Row_kernel模块、用于列FFT计算的Column_kernel模块、用于两个矩阵对应元素相乘计算的Matrix_coeff模块、用于更新系数矩阵元素计算的Update_coeff模块、用于数据传输的DMA_Translate模块、用于检测数据搬移是否搬移完毕所对应的寄存器标志位的DMA_POLL模块，以及用于执行循环的LOOP模块，各模板包括所需参数的参数列表；

S2. 构建大点数FFT的框架模板，所述框架模板中分别使用所述Row_kernel模块、Column_kernel模块、Matrix_coeff模块、Update_coeff模块、所述DMA_Translate模块、DMA_POLL模块以及所述LOOP模块，以实现大点数FFT计算；

S3. 使用预先构建的汇编代码生成模块 Gen_FFT将所述框架模板中各核心模块转换为汇编代码，最终生成所需的大点数FFT汇编代码。

作为本发明的进一步改进：当GPDSP的DSP核的向量处理单元数量为P，所需计算的一维FFT点数为N=2ⁿ，GPDSP的向量存储阵列容量n=r*s，即N=R*S，其中R=2^r，S=2^s，令si=S/P，且si为偶数，所述Row_kernel模块具体为S点行FFT计算模块，所述Column_kernel模块具体为R点列FFT计算模块，所述Matrix_coeff模块具体为实现两个R*P阶矩阵对应元素相乘计算的模块，所述Update_coeff模块具体为实现更新R*P阶系数矩阵元素计算的模块，所述DMA_Translate模块具体通过DMA实现源地址到目的地址的数据传输；所述DMA_POLL模块具体为实现指定DMA逻辑通道号的数据搬移是否搬移完毕所对应寄存器标志位检测任务。

作为本发明的进一步改进，所述步骤S2构建的大点数FFT的框架模板具体包括如下步骤：

步骤1：分别使用所述DMA_Translate模块传输列FFT计算的蝶形因子数据、系数矩阵数据、更新系数向量数据、子块数据，以及使用所述DMA_POLL模块等待数据传输完毕；

步骤2：执行列FFT分块循环计算，其中使用所述Column_kernel模块对传输的子块数据进行列FFT计算、使用Matrix_coeff模块对两个系数矩阵数据进行对应元素相乘计算，使用Update_coeff模块进行系数矩阵更新计算，使用DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕；

步骤3：分别使用所述Column_kernel模块对传输的一个子块数据进行列FFT计算，计算后得到的矩阵和系数矩阵使用所述Matrix_coeff模块进行对应元素相乘计算，以及使用所述Update_coeff模块对更新系数向量数据和系数矩阵数据进行系数矩阵更新计算；

步骤4：分别使用所述DMA_Translate模块传输行FFT计算的蝶形因子数据、子块数据，以及使用所述DMA_POLL模块等待数据传输完毕；

步骤5：执行FFT分块循环计算，其中使用所述Row_kernel模块对传输的子块数据进行行FFT计算、使用所述DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕；

步骤6：分别使用所述Row_kernel模块对传输的一个子块数据进行行FFT计算、使用所述DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕，完成FFT计算。

作为本发明的进一步改进，所述步骤1的具体步骤为：

步骤1.1：使用所述DMA_Translate模块传输列FFT计算的蝶形因子数据至标量L1D的数据缓冲区CWbuf；

步骤1.2：使用所述DMA_POLL模块等待CWbuf数据传输完毕；

步骤1.3：使用所述DMA_Translate模块传输系数矩阵数据至标量L1D的数据缓冲区Mbuf；

步骤1.4：使用所述DMA_POLL模块等待Mbuf数据传输完毕；

步骤1.5：使用所述DMA_Translate模块传输更新系数向量数据至标量L1D的数据缓冲区Ubuf；

步骤1.6：使用所述DMA_POLL模块等待Ubuf数据传输完毕；

步骤1.7：使用所述DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf0；

步骤1.8：使用所述DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf1。

作为本发明的进一步改进，所述步骤2的具体步骤为：

步骤2.1：开启列FFT分块循环计算，设定计数器寄存器R0，计数器初始值为si-2，每次循环计数器减2，直到计数器值为0；

步骤2.2：使用所述DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤2.3：使用所述Column_kernel模块对Bbuf0的子块数据进行列FFT计算；

步骤2.4：使用所述Matrix_coeff模块对Bbuf0和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤2.5：使用所述Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤2.6：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤2.7：使用所述DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf0；

步骤2.8：使用所述DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤2.9：使用所述Column_kernel模块对Bbuf1的子块数据进行列FFT计算；

步骤2.10：使用所述Matrix_coeff模块对Bbuf1和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤2.11：使用所述Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤2.12：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out1；

步骤2.13：使用所述DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf1；

步骤2.14：判断计数器R0是否为0，若不是转步骤2.1。

作为本发明的进一步改进，所述步骤3的具体步骤为：

步骤3.1：使用所述DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤3.2：使用所述Column_kernel模块对Bbuf0的子块数据进行列FFT计算；

步骤3.3：使用所述Matrix_coeff模块对Bbuf0和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤3.4：使用所述Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤3.5：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤3.6：使用所述DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤3.7：使用所述Column_kernel模块对Bbuf1的子块数据进行列FFT计算；

步骤3.8：使用所述Matrix_coeff模块对Bbuf1和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤3.9：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out1。

作为本发明的进一步改进，所述步骤4的具体步骤为：

步骤4.1：使用所述DMA_Translate模块传输行FFT计算的蝶形因子数据至向量阵列存储的数据缓冲区RWbuf；

步骤4.2：使用所述DMA_POLL模块等待RWbuf数据传输完毕；

步骤4.3：使用所述DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf0；

步骤4.4：使用所述DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf1。

作为本发明的进一步改进，所述步骤5的具体步骤为：

步骤5.1：开启行FFT分块循环计算，设定计数器寄存器R0，计数器初始值为R-2，每次循环计数器减2，直到计数器值为0；

步骤5.2：使用所述DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤5.3：使用所述Row_kernel模块对Bbuf0的子块数据进行行FFT计算；

步骤5.4：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤5.5：使用所述DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf0；

步骤5.6：使用所述DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤5.7：使用所述Row_kernel模块对Bbuf1的子块数据进行行FFT计算；

步骤5.8：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out1；

步骤5.9：使用所述DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf1；

步骤5.10：判断计数器R0是否为0，若不是转步骤2.1。

作为本发明的进一步改进，所述步骤6的具体步骤为：

步骤6.1：使用所述DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤6.2：使用所述Row_kernel模块对Bbuf0的子块数据进行行FFT计算；

步骤6.3：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤6.4：使用所述DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤6.5：使用所述Row_kernel模块对Bbuf1的子块数据进行行FFT计算；

步骤6.6：使用所述DMA_Translate模块传输上述计算结果至外部存储区Out1。

作为本发明的进一步改进：所述汇编代码生成模块Gen_FFT根据目标核心模块的类型以及对应的参数列表生成目标核心模块的汇编代码。

与现有技术相比，本发明的优点在于：

1、本发明基于GPDSP的体系结构特征，通过构建多个实现不同任务的核心模块，基于各核心模块构建大点数FFT计算的框架模板，模板中包含多个核心模块表示和相应的参数列表，由各核心模块实现对应的任务，再基于该模板通过预先构建的汇编代码生成模块 Gen_FTT进行汇编代码转换，通过汇编代码生成模块 Gen_FTT根据框架模板中包含的核心模块表示和相应的输入参数列表自动生成对应的汇编代码，最终生成所需的向量化汇编代码，能够实现基于GPDSP架构的大点数FFT计算向量化汇编代码自动生成。

2、本发明实现原理简单、操作方便，能够适用于GPDSP架构快速获得高度优化的高性能大点数FFT计算库函数汇编代码，实现软件流水、指令并行、向量化等核心汇编优化并参数化，且无需关注底层硬件实现，且便于库函数汇编代码的维护，当需更新时，只需要更新模板中包含的核心模块表示及相应的参数列表，能够避免后续的IP化中涉及向量计算核心数量需要适应不同应用时导致库函数汇编代码全部需要重新向量化和优化

3、本发明既能够快速获得高度优化的高性能大点数FFT计算库函数汇编代码，能够充分发挥DSP核的强大向量化计算能力，同时对用户屏蔽底层硬件实现细节，极大减轻了程序员对底层硬件实现技术熟悉要求以及维护库函数汇编代码的负担，当内核更新需实现更新优化核心模块功能或者扩展新的核心模块功能时，仅需更新模板重新生成就能够自动获得新的优化库函数汇编代码，从而能够避免后续的IP化中涉及向量计算核心数量需要适应不同应用而导致的库函数汇编代码全部需要重新向量化和优化等问题。

附图说明

图1是本实施基于GPDSP的大点数FFT向量化汇编代码生成方法的实现流程示意图。

图2是本实施例大点数FFT向量化汇编代码生成的实现原理示意图。

图3是本实施例大点数FFT框架模板实现大点数FFT计算（列FFT计算）的实现流程示意图。

图4是本实施例大点数FFT框架模板实现大点数FFT计算（行FFT计算）的实现流程示意图。

图5是本发明具体应用实施例中对循环模块生成汇编代码的实现原理示意图。

图6是本发明具体应用实施例中对DMA_Translate核心模块生成汇编代码的实现原理示意图。

图7为本发明具体应用实施例中对DMA_POLL核心模块生成汇编代码的实现原理示意图。

图8为本发明具体应用实施例中对Row_kernel核心模块生成汇编代码的实现原理示意图。

图9为本发明具体应用实施例中对Column_kernel核心模块生成汇编代码的实现原理示意图。

图10是本发明具体应用实施例中对Matrix_coeff核心模块生成汇编代码的实现原理示意图；

图11是本发明具体应用实施例中对Update_coeff核心模块生成汇编代码的实现原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1、2所示，本实施例基于GPDSP的大点数FFT向量化汇编代码生成方法，步骤包括：

S2. 构建大点数FFT的框架模板，框架模板中分别使用Row_kernel模块、Column_kernel模块、Matrix_coeff模块、Update_coeff模块、DMA_Translate模块、DMA_POLL模块以及LOOP模块，以实现大点数FFT计算；

S3. 使用预先构建的汇编代码生成模块 Gen_FFT将框架模板中各核心模块转换为汇编代码，最终生成所需的大点数FFT汇编代码。

本实施例基于GPDSP的体系结构特征，通过构建多个实现不同任务的核心模块，基于各核心模块构建稠密矩阵乘法的框架模板，模板中包含多个核心模块表示和相应的参数列表，由各核心模块实现对应的任务，再基于该模板通过预先构建的汇编代码生成模块 Gen_FFT进行汇编代码转换，通过汇编代码生成模块 Gen_FFT根据框架模板中包含的核心模块表示和相应的输入参数列表自动生成对应的汇编代码，最终生成所需的向量化汇编代码，实现基于GPDSP架构的大点数一维FFT高效向量化汇编代码自动生成。

本实施例上述代码生成方法，原理简单、操作方便，能够适用于GPDSP架构，快速获得高度优化的大点数一维FFT高效向量化汇编代码，无需关注底层硬件实现，且便于库函数汇编代码的维护，当需更新时，只需要更新模板中包含的核心模块表示及相应的参数列表，能够避免后续的IP化中涉及向量计算核心数量需要适应不同应用时导致的库函数汇编代码全部需要重新向量化和优化等问题。

本实施例中，当GPDSP的DSP核的向量处理单元数量为P，所需计算的一维FFT点数为N=2ⁿ，GPDSP的向量存储阵列容量n=r*s，即N=R*S，其中R=2^r，S=2^s，令si=S/P，且si为偶数，Row_kernel模块具体为S点行FFT计算模块，Column_kernel模块具体为R点列FFT计算模块，Matrix_coeff模块具体为实现两个R*P阶矩阵对应元素相乘计算的模块，Update_coeff模块具体为实现更新R*P阶系数矩阵元素计算的模块，DMA_Translate模块具体通过DMA实现源地址到目的地址的数据传输；DMA_POLL模块具体为实现指定DMA逻辑通道号的数据搬移是否搬移完毕所对应寄存器标志位检测任务。

本实施例首先构建S点行FFT计算核心模块，用Row_kernel表示，即Row_kernel模块，Row_kernel核心模块包含3个输入参数：第1参数为调用结束的返回地址，第2参数为计算数据地址，第3参数为蝶形因子数据地址。构建Row_kernel核心模块时，具体根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，实现S点行FFT的向量化计算，计算完成后跳转到第1参数传递的程序地址，实现的Row_kernel核心模块汇编代码保存为独立的文件Row_kernel.s。

构建R点列FFT计算核心模块，用Column_kernel表示，即Column_kernel模块，Column_kernel核心模块包含3个输入参数：第1参数为调用结束的返回地址，第2参数为计算数据地址，第3参数为蝶形因子数据地址。构建Column_kernel核心模块时，根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，同时实现P个R点列FFT的向量化计算，计算完成后跳转到第1参数传递的程序地址，实现的Column_kernel核心模块汇编代码保存为独立的文件Column_kernel.s；

构建两个R*P阶矩阵对应元素相乘计算的核心模块，用Matrix_coeff表示，即Matrix_coeff，Matrix_coeff核心模块包含3个输入参数：第1参数为调用结束的返回地址，第2参数为R*P阶计算矩阵数据地址，第3参数为R*P阶系数矩阵数据地址。构建Matrix_coeff核心模块时，根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，实现第2和3参数的两个R*P阶矩阵对应元素相乘的向量化计算，计算完成后跳转到第1参数传递的程序地址，实现的Matrix_coeff核心模块汇编代码保存为独立的文件Matrix_coeff.s；

构建更新R*P阶系数矩阵元素计算的核心模块，用Update_coeff表示，即Update_coeff模块，Update_coeff核心模块包含3个输入参数：第1参数为调用结束的返回地址，第2参数为需要更新的R*P阶矩阵数据地址，第3参数为更新系数R阶向量数据地址。构建Update_coeff核心模块时，根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，实现R*P阶矩阵元素更新的向量化计算，其中R*P阶矩阵每一行元素与第3参数更新系数R阶向量对应元素进行乘法运算更新矩阵元素值，计算完成后跳转到第1参数传递的程序地址，实现的Update_coeff核心模块汇编代码保存为独立的文件Update_coeff.s；

构建数据传输核心模块，用DMA_Translate表示，即DMA_Translate模块，DMA_Translate核心模块包含11个输入参数：第1参数为调用结束的返回地址，第2参数为DMA逻辑通道号，第3参数为逻辑通道优先级，第4参数为传输模式控制参数字1，第5参数为传输模式控制参数字2，第6参数为源地址，第7参数为源计数，第8参数为目的地址，第9参数为目的计数，第10参数为源/目的索引，第11参数为块索引。构建DMA_Translate核心模块时，根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，通过DMA实现源地址到目的地址的数据传输，任务完成后跳转到第1参数传递的程序地址，实现的DMA_Translate核心模块汇编代码保存为独立的文件DMA_Translate.s；

构建数据搬移标志位检测核心模块，用DMA_POLL表示，即DMA_POLL模块，DMA_POLL核心模块包含2个输入参数：第1参数为调用结束的返回地址，第2参数为DMA逻辑通道号。构建DMA_POLL核心模块时，根据GPDSP体系结构特征，以上述参数为输入设置汇编代码，实现DMA逻辑通道号为第2参数的数据搬移是否搬移完毕的相应寄存器标志位检测任务，任务完成后跳转到第1参数传递的程序地址，实现的DMA_POLL核心模块汇编代码保存为独立的文件DMA_POLL.s；

构建循环模块，用配对的LOOP，END表示，其中LOOP表示循环开始，END表示配对的循环结束，即LOOP模块。LOOP模块包含3个输入参数：第1参数为循环计数所用寄存器，第2参数为循环计数初始值，第3参数为每次循环的计数变化值。

本实施例根据GPDSP的多级存储体系结构特征，步骤S2按照大点数一维FFT计算的执行流程组合多个核心模块构成大点数一维FFT计算计算框架模板，模板中包括多个核心模块功能表示和参数列表，以实现高效的大点数一维FFT计算；步骤S3再利用汇编代码生成模块Gen_FTT根据模板中包含的核心模块表示、相应的输入参数列表和核心模块汇编代码文件自动生成大点数一维FFT计算汇编代码，完成大点数一维FFT计算的向量化代码自动生成。

如图3、4所示，本实施例中步骤S2构建的大点数FFT框架模板具体包括如下步骤：

步骤1：分别使用DMA_Translate模块传输列FFT计算的蝶形因子数据、系数矩阵数据、更新系数向量数据、子块数据，以及使用DMA_POLL模块等待数据传输完毕；

步骤2：执行列FFT分块循环计算，其中使用Column_kernel模块对传输的子块数据进行列FFT计算、使用Matrix_coeff模块对两个系数矩阵数据进行对应元素相乘计算，使用Update_coeff模块进行系数矩阵更新计算，使用DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕；

步骤3：分别使用Column_kernel模块对传输的一个子块数据进行列FFT计算，计算后得到的矩阵和系数矩阵使用Matrix_coeff模块进行对应元素相乘计算，以及使用Update_coeff模块对更新系数向量数据和系数矩阵数据进行系数矩阵更新计算；

步骤4：分别使用DMA_Translate模块传输行FFT计算的蝶形因子数据、子块数据，以及使用DMA_POLL模块等待数据传输完毕；

步骤5：执行FFT分块循环计算，其中使用Row_kernel模块对传输的子块数据进行行FFT计算、使用DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕；

步骤6：分别使用Row_kernel模块对传输的一个子块数据进行行FFT计算、使用DMA_Translate模块传输数据以及使用DMA_POLL模块等待数据传输完毕，完成FFT计算。

如图3所示，本实施例步骤1的具体步骤为：

步骤1.1：使用DMA_Translate模块传输列FFT计算的蝶形因子数据至标量L1D的数据缓冲区CWbuf；

步骤1.2：使用DMA_POLL模块等待CWbuf数据传输完毕；

步骤1.3：使用DMA_Translate模块传输系数矩阵数据至标量L1D的数据缓冲区Mbuf；

步骤1.4：使用DMA_POLL模块等待Mbuf数据传输完毕；

步骤1.5：使用DMA_Translate模块传输更新系数向量数据至标量L1D的数据缓冲区Ubuf；

步骤1.6：使用DMA_POLL模块等待Ubuf数据传输完毕；

步骤1.7：使用DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf0；

步骤1.8：使用DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf1。

如图3所示，本实施例步骤2的具体步骤为：

步骤2.1：开启列FFT分块循环计算，设定计数器寄存器R0，计数器初始值为si-2，每次循环计数器减2，直到计数器值为0；

步骤2.2：使用DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤2.3：使用Column_kernel模块对Bbuf0的子块数据进行列FFT计算；

步骤2.4：使用Matrix_coeff模块对Bbuf0和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤2.5：使用Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤2.6：使用DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤2.7：使用DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf0；

步骤2.8：使用DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤2.9：使用Column_kernel模块对Bbuf1的子块数据进行列FFT计算；

步骤2.10：使用Matrix_coeff模块对Bbuf1和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤2.11：使用Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤2.12：使用DMA_Translate模块传输上述计算结果至外部存储区Out1

步骤2.13：使用DMA_Translate模块传输列FFT计算的一个子块R*P至向量阵列存储的数据缓冲区Bbuf1；

步骤2.14：判断计数器R0是否为0，若不是转步骤2.1。

如图3所示，本实施例步骤3的具体步骤为：

步骤3.1：使用DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤3.2：使用Column_kernel模块对Bbuf0的子块数据进行列FFT计算；

步骤3.3：使用Matrix_coeff模块对Bbuf0和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤3.4：使用Update_coeff模块对Mbuf的系数矩阵数据和Ubuf的更新系数向量进行系数矩阵更新计算；

步骤3.5：使用DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤3.6：使用DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤3.7：使用Column_kernel模块对Bbuf1的子块数据进行列FFT计算；

步骤3.8：使用Matrix_coeff模块对Bbuf1和Mbuf的系数矩阵数据进行对应元素相乘计算；

步骤3.9：使用DMA_Translate模块传输上述计算结果至外部存储区Out1

如图4所示，本实施例步骤4的具体步骤为：

步骤4.1：使用DMA_Translate模块传输行FFT计算的蝶形因子数据至向量阵列存储的数据缓冲区RWbuf；

步骤4.2：使用DMA_POLL模块等待RWbuf数据传输完毕；

步骤4.3：使用DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf0；

步骤4.4：使用DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf1。

如图4所示，本实施例步骤5的具体步骤为：

步骤5.1：开启行FFT分块循环计算，设定计数器寄存器R0，计数器初始值为R-2，每次循环计数器减2，直到计数器值为0；

步骤5.2：使用DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤5.3：使用Row_kernel模块对Bbuf0的子块数据进行行FFT计算；

步骤5.4：使用DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤5.5：使用DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf0；

步骤5.6：使用DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤5.7：使用Row_kernel模块对Bbuf1的子块数据进行行FFT计算；

步骤5.8：使用DMA_Translate模块传输上述计算结果至外部存储区Out1

步骤5.9：使用DMA_Translate模块传输行FFT计算的一个子块1*S至向量阵列存储的数据缓冲区Bbuf1；

步骤5.10：判断计数器R0是否为0，若不是转步骤2.1。

如图4所示，本实施例步骤6的具体步骤为：

步骤6.1：使用DMA_POLL模块等待Bbuf0,Out0数据传输完毕；

步骤6.2：使用Row_kernel模块对Bbuf0的子块数据进行行FFT计算；

步骤6.3：使用DMA_Translate模块传输上述计算结果至外部存储区Out0；

步骤6.4：使用DMA_POLL模块等待Bbuf1,Out1数据传输完毕；

步骤6.5：使用Row_kernel模块对Bbuf1的子块数据进行行FFT计算；

步骤6.6：使用DMA_Translate模块传输上述计算结果至外部存储区Out1。

通过上述大点数一维FFT计算的框架模板，能够结合GPDSP的结构体系特征实现高效的大点数一维FFT计算，且模板中通过使用构建的各核心模块实现不同任务，后续结合汇编代码生成模块Gen_FTT即可快速获得高度优化的大点数一维FFT库函数汇编代码，无需关注底层硬件实现细节，当需要更新优化或扩展时，仅需更新模板就能够自动获得更新的优化库函数汇编代码。

本实施例中，汇编代码生成模块 Gen_FFT根据目标核心模块的类型以及对应的参数列表生成目标核心模块的汇编代码，即构建一个汇编代码生成工具Gen_FFT，由Gen_FFT根据模板中包含的核心模块表示、相应的输入参数列表和核心模块汇编代码文件自动生成大点数一维FFT汇编代码。

如图5所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对循环模块生成汇编代码具体为：

模板中的循环模块和输入参数列表表示如下：

LOOP(Ri,count,len)

……

END

则Gen_FFT将上述循环模块生成如下汇编代码：

LOOP_Ri:

SMOVI count, Ri

……

[Ri] SBRLOOP_Ri

[Ri] SSUB1en, Ri, Ri

SNOP4

如图6所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对DMA_Translate核心模块生成汇编代码具体为：

模板中的DMA_Translate模块和输入参数列表表示如下：

DMA_Translate (para1,para2,para3,para4,para5,para6,para7,para8,para9,para10,para11)

则Gen_FFT将上述DMA_Translate模块生成如下汇编代码：

SBR DMA_Translate

SMOVI para1, R63

|SMOVI.M1para2, R62

|SMOVI.M2para3, R61

SMOVI para4, R60

|SMOVI.M1para5, R59

|SMOVI.M2para6, R58

SMOVI para7, R67

|SMOVI.M1para8, R56

|SMOVI.M2para9, R55

SMOVI para10,R54

SMOVI.M1para11,R53

若DMA_Translate表示是在模板中首次出现，则将DMA_Translate.s文件的代码插入到待生成汇编文件尾部。

如图7所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对DMA_POLL核心模块生成汇编代码具体为：

例如，模板中的DMA_POLL模块和输入参数列表表示如下：

DMA_POLL (para1,para2)

则Gen_FFT将上述DMA_POLL模块生成如下汇编代码：

SBR DMA_POLL

SMOVI para1, R63

SMOVI para2, R62

SNOP 4

并且，若DMA_POLL表示是在模板中首次出现，则将DMA_POLL.s文件的代码插入到待生成汇编文件尾部。

如图8所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对Row_kernel核心模块生成汇编代码具体为：

模板中的Row_kernel模块和输入参数列表表示如下：

Row_kernel (para1,para2, para3)

则Gen_FFT将上述Row_kernel模块生成如下汇编代码：

SBR Row_kernel

SMOVI para1, R63

SMOVI para2, R62

SMOVI para3, R61

SNOP 3

若Row_kernel表示是在模板中首次出现，则将Row_kernel.s文件的代码插入到待生成汇编文件尾部。

如图9所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对Column_kernel核心模块生成汇编代码具体为：

模板中的Column_kernel模块和输入参数列表表示如下：

Column_kernel (para1,para2, para3)

则Gen_FFT将上述Column_kernel模块生成如下汇编代码：

SBR Column_kernel

SMOVI para1, R63

SMOVI para2, R62

SMOVI para3, R61

SNOP 3

若Column_kernel表示是在模板中首次出现，则将Column_kernel.s文件的代码插入到待生成汇编文件尾部。

如图10所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对Matrix_coeff核心模块生成汇编代码具体为：

模板中的Matrix_coeff模块和输入参数列表表示如下：

Matrix_coeff (para1,para2, para3)

则Gen_FFT将上述Matrix_coeff模块生成如下汇编代码：

SBR Matrix_coeff

SMOVI para1, R63

SMOVI para2, R62

SMOVI para3, R61

SNOP 3

若Matrix_coeff表示是在模板中首次出现，则将Matrix_coeff.s文件的代码插入到待生成汇编文件尾部。

如图11所示，本发明在具体应用实施例中汇编代码生成模块Gen_FFT对Update_coeff核心模块生成汇编代码具体为：

模板中的Update_coeff模块和输入参数列表表示如下：

Update_coeff (para1,para2, para3)

则Gen_FFT将上述Update_coeff模块生成如下汇编代码：

SBR Update_coeff

SMOVI para1, R63

SMOVI para2, R62

SMOVI para3, R61

SNOP 3

若Update_coeff表示是在模板中首次出现，则将Update_coeff.s文件的代码插入到待生成汇编文件尾部。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于GPDSP的大点数FFT向量化汇编代码生成方法 [P] . 中国专利： CN108776586B . 2019.05.24
2. 基于GPDSP的大点数FFT向量化汇编代码生成方法 [P] . 中国专利： CN108776586A . 2018-11-09
3. Testing memory embedded in integrated circuit chip including microprocessor by generating memory test pattern based on object code of assembler test program [P] . 德国专利： DE19948388A1 . 2000-04-20

机译：通过基于汇编程序测试程序的目标代码生成存储器测试模式来测试嵌入在包括微处理器在内的集成电路芯片中的存储器
4. Memory-based FFT/IFFT processor and design method for general sized memory-based FFT processor [P] . 美国专利： US8364736B2 . 2013-01-29

机译：基于存储器的FFT / IFFT处理器和通用大小的基于存储器的FFT处理器的设计方法
5. MEMORY-BASED FFT/IFFT PROCESSOR AND DESIGN METHOD FOR GENERAL SIZED MEMORY-BASED FFT PROCESSOR [P] . 美国专利： US2010017452A1 . 2010-01-21

机译：基于存储器的FFT / IFFT处理器和通用尺寸基于存储器的FFT处理器的设计方法