首页> 中文学位 >基于SIMD架构的信号处理算法性能优化
【6h】

基于SIMD架构的信号处理算法性能优化

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题背景及意义

1.2 国内外研究现状

1.3 研究内容及设计指标

1.3.1 研究内容

1.3.2 设计指标

1.4 论文组织

第二章 NEON架构及信号处理算法分析

2.1 NEON协处理器

2.1.1 NEON简介

2.1.2 NEON架构

2.2 GEM5平台

2.2.1 GEM5简介

2.2.2 GEM5 CPU模型

2.3 FIR算法分析

2.4 本章小结

第三章 基于SIMD架构实现FIR性能优化

3.1 基于单核SIMD协处理器的并行度挖掘

3.1.1 向量化编译器方式

3.1.2 GCC NEON Intrinsics

3.1.3 NEON汇编编程

3.2 基于多核SIMD的线程级并行度挖掘

3.2.1 OpenMP概述

3.2.2 OpenMP编程模型

3.2.3 FIR OpenMP并行化

3.3 本章小结

第四章 测试结果与分析

4.1 测试平台介绍

4.2 并行度优化数据分析

4.2.1 ILP优化数据分析

4.2.2 DLP优化数据分析

4.2.3 访存优化数据分析

4.2.4 单核总优化数据分析

4.2.5 多核TLP数据分析

4.3 实验结果对比分析

4.3.1 与Ne10库性能对比

4.3.1 与SSE代码性能对比

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

作者简介

展开▼

摘要

信号处理算法中存在很多数据相关度低且数据级并行度较大的核心算子,非常适合于通过单指令多数据(Single Instruction Multiple Data,SIMD)技术提升其计算效率。然而,当前向量化编译器无法针对SIMD微结构进行有效的指令调度和存储布局,难以充分发挥SIMD技术的优势。本文针对广泛应用于通信、图像及模式识别等领域的有限脉冲响应滤波器算法,通过SIMD向量化技术充分挖掘算法内部的并行度,提升算法性能,即减少算法的执行时间,同时为其它同类算法优化课题研究提供参考依据。
  本文在详细分析SIMD协处理器架构的基础上,对算法进行SIMD映射和优化。首先,利用向量化编译器和编译器内置接口函数对算法进行SIMD映射,并通过分析SIMD微结构数据和二进制可执行文件的反汇编代码定位算法性能瓶颈;然后,通过循环展开和软件流水等方法提升SIMD计算流水线的指令级并行度,利用手工指令排布减少主处理器与SIMD协处理器之间的寄存器传输,并通过软件预取技术降低访存开销;最后,本文利用并行化编程模型完成算法的切割与映射,以有限的数据通信与同步开销换取算法线程级的性能提升。
  基于时钟周期精确的仿真平台GEM5进行测试,结果表明:汇编优化后的算法相对于向量化编译和通用处理器算法代码分别提升性能约1.5倍和20倍;相对于单核优化,采用双核、四核线程级并行处理分别进一步提升了算法性能1.87倍和3.67倍;与Ne10库相比,汇编优化后的算法可以达到0.9~3.5倍的加速比;与通用处理器代码相比,本文汇编优化代码的加速比是流式SIMD扩展优化代码加速比的1.3~1.9倍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号