基于Matrix的大点数FFT向量化设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文依托Matrix多核并行的体系结构，结合大点数FFT的算法特性运用MFA算法完成了按频率抽取的基2一维以及二维的单核与多核大点数FFT向量化设计。总结起来本文所做的工作主要包括以下几点：
　　（1）实现了 MFA算法所需要的行列运算以及系数运算的子程序。列运算中运用令每个VPE对1列数据进行FFT运算16个VPE同时工作的方法优化了数据的访存形式，使核内外的数据交互更加易行；依据 Matr ix的结构提出一种运用计算压缩系数存储的方法，减少了核内外数据的搬移量。
　　（2）实现了大点数按频率抽取的基2FFT子程序（MF A算法）。在实现过程中优化了数据的存储布局，运用DMA索引取数的方法对列运算数据进行了重新排布，使列运算能够连续取数；使用双 Buffer的方法对数据进行传输使得数据传输和数据运算并行执行，大大提高了程序执行效率；同时通过内外循环互换、循环展开等方式对程序进行了流水排布，且通过消除AM_B usy等方法优化了程序，使程序具有了更高的性能。实验结果与标准基2FFT相比256K点双精度单核效率为30.95％，单精度512K点为29.35%。
　　（3）结合基2一维大点数FFT算法的特性，运用数据分组运算对数据进行分块然后调用MFA算法程序运算每块数据完成其单核实现，并结合多核间的数据同步对其进行了多核扩展。运用栅栏同步功能对多核之间的计算以及数据传输进行了同步；另外在循环过程中通过阻塞中断与信号灯的配合使用对数据的传输进行检测，简化了数据传输中断检测步骤；在系数准备过程中运用计算的方式对Buffer1中的系数数据进行生成，减少了数据的搬移次数，从而减少了程序开销。测试的结果显示双精度一维基2的1M点FFT单核、双核、四核、八核、十二核与标准FFT算法相比效率分别为：12.68%、6.21%、4.15%、2.39%、1.72%；单精度1M点的效率分别为：19.6%、13.15%、8.29%、4.65%、3.2%。
　　（4）分析介绍了二维FFT，同时借助MF A算法中的行和列FF T运算子程序实现了按频率抽取的基2二维大点数FFT。实现采用分块运算，充分发挥了GC的缓存功能，使DD R与AM的数据交互性能有了大幅提升；将相同的旋转因子存储在AM的不同半区，对数据进行交叉运算,减少了访存冲突对程序的影响。测试结果与标准二维基2FFT相比双精度1M点的单核、双核、四核、八核、十二核效率分别为：34.38%、29.58%、24.63%、16.82%、12.07%；单精度1M点的效率分别为：31.04%、27.49%、22.9%、14.96%、11.08%。

著录项

作者
黄琳琳;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科软件工程
授予学位硕士
导师姓名刘仲;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类设计;运算器和控制器（CPU）;
关键词
快速傅立叶变换; 多核并行处理器; 向量化设计;

相似文献

中文文献
外文文献
专利

1. 超长点数FFT的设计与实现技术 [J] . 郭骁 ,张月 ,陈曾平 . 信号处理 . 2013,第011期
2. 超长可变点数FFT处理器设计与实现 [J] . 高振斌 ,万红星 ,陈禾 . 电讯技术 . 2005,第004期
3. 一种基于Matrix的QR分解向量化方法 [J] . 鲁庆男 ,刘仲 . 计算机工程与科学 . 2016,第002期
4. 一种基于YHFT-Matrix DSP的去块效应滤波算法的向量化实现 [J] . 李勇 ,陈书明 ,陈胜刚 . 计算机工程与科学 . 2014,第002期
5. 基于魂芯二号A的大点数FFT实现 [J] . 贾光帅 ,叶文静 ,赵庆 . 中国集成电路 . 2021,第007期
6. 一种基于YHFT-Matrix的FFT向量化实现 [C] . Huang Junhui ,黄君辉 ,Liu Zhong . 第十五届计算机工程与工艺年会暨第一届微处理器技术论坛 . 2011
7. 基于FPGA的32位浮点数据FFT及IFFT的设计与实现 [A] . 宋军江 . 2007

基于Matrix的大点数FFT向量化设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅