首页> 中文学位 >基于CPU+GPU的影像匹配高效能异构并行计算研究
【6h】

基于CPU+GPU的影像匹配高效能异构并行计算研究

代理获取

目录

声明

摘要

图目录

表目录

第一章绪论

1.1研究背景和意义

1.1.1研究的背景

1.1.2研究的意义

1.2国内外研究现状及趋势

1.2.1 并行计算在Wallis影像增强中的研究现状

1.2.2 并行计算在Harris角点提取中的研究现状

1.2.3 并行计算在相关系数影像匹配中的研究现状

1.2.4并行计算在SIFT特征匹配中的研究现状

1.2.5国内外GPU通用计算发展现状

1.3研究内容和研究方案

1.3.1研究内容

1.3.2研究方案

第二章GPU通用并行计算

2.1 选择研究平台的技术基础

2.1.1 单核微处理器的发展

2.1.2多核微处理器的发展

2.1.3众核图形处理器的发展

2.2 GPU并行计算演进

2.2.1 GPU

2.2.2 GPGPU

2.2.3 GPU计算

2.3 GPU体系架构

2.3.1 Tesla 2并行计算结构

2.3.2 Tesla 2的TPC架构

2.3.3 Tesla 2的SM架构

2.4 CUDA构架

2.4.1 CUDA软件环境

2.4.2 CUDA编程模型

2.4.3 CUDA存储器模型

2.4.4 CUDA执行模型

2.5 基于CPU+GPU异构计算的影像处理通用并行解决方案

2.5.1主-从设计模式

2.5.2任务分解模式

2.5.3 负载均衡策略

2.6本章小结

第三章多GPUs加速的Wallis变换影像增强并行算法

3.1 Wallis滤波器及其特性

3.2双线性插值算法描述

3.3 Wallis影像增强多粒度混合并行算法的分析与设计

3.3.1 Wallis影像增强并行计算模型

3.3.2 多GPUs粗粒度并行

3.3.3数据块中粒度并行

3.3.4线程细粒度并行

3.4 Wallis并行算法GPU高性能分析与设计

3.4.1 实现最大化的存储器带宽

3.4.2优化存储器性能

3.5实验结果及分析

3.5.1实验步骤与数据记录

3.5.2 GPU与CPU结果一致性实验与分析

3.6并行算法性能分析

3.7本章小结

第四章基于GPU的Harris角点检测多设备控制并行算法

4.1 Harris角点提取算子

4.2 Harris角点提取并行算法分析与设计

4.2.1 Harris角点检测并行算法执行模式

4.2.2影像空间并行

4.2.3卷积并行

4.2.4 SIMT计算

4.3 Harris并行算法GPU高性能分析与设计

4.3.1 最优方式组织存储器访问

4.3.2利用纹理存储器提速

4.4实例计算及结果讨论

4.4.1实验步骤与数据记录

4.4.2 GPU与CPU结果一致性实验与分析

4.5并行算法性能分析

4.6 本章小结

第五章基于CUDA的相关系数影像匹配并行算法

5.1相关系数测度

5.2 影像匹配并行算法分析与设计

5.2.1影像匹配并行算法架构

5.2.2设备级并行计算分析

5.2.3任务级并行计算分析

5.2.4线程级并行计算分析

5.2.5共享存储器内的精细粒度并行分析

5.3影像匹配GPU并行算法性能优化

5.3.1 利用高速存储器进行优化计算

5.3.2利用常数存储器进行优化计算

5.3.3利用全局存储器进行优化计算

5.4.1实验步骤与数据记录

5.4.2 GPU与CPU结果一致性实验与分析

5.5并行算法性能分析

5.6本章小结

第六章面向群核CPU+GPU的SIFT特征匹配并行算法

6.1 SIFT算子描述

6.1.1建立多尺度空间

6.1.2尺度空间关键点检测及精确定位

6.1.3关键点方向参数的确定

6.1.4提取特征描述符

6.1.5 SIFT特征匹配

6.2 SIFT特征匹配并行算法分析与设计

6.2.1 SIFT特征匹配并行算法总体设计

6.2.2 基于CUDA的并行化数据结构

6.2.3线程的任务分配及映射策略

6.2.4流管理

6.3 SIFT特征匹配并行算法优化配置

6.3.1访存优化和数据复用

6.3.2 GPU线程同步优化

6.4测试结果与分析

6.4.1 GPU性能实验结果

6.4.2 GPU与CPU结果一致性实验与分析

6.5并行算法性能分析

6.6本章小结

第七章影像匹配系统集成实验与分析

7.1 影像匹配系统集成方案

7.2实验结果及数据

7.2.1 WHR影像匹配实验

7.2.2 WS影像匹配实验

7.3系统性能分析

7.3.1 WHR影像匹配系统性能分析

7.3.2 WS影像匹配系统性能分析

7.4本章小结

第八章总结与展望

8.1研究工作总结

8.2主要贡献与创新点

8.3进一步的工作与展望

8.4 结语

参考文献

攻读博士期间发表的论文及科研情况

致谢

展开▼

摘要

多核CPU和图形处理器(Graphic Processing Unit,GPU)的高速发展,不但促进了图像处理、虚拟现实、计算机仿真等领域的快速发展,同时也为利用GPU进行图形处理以外的高性价比绿色通用计算提供了良好的运行平台。因此,GPU的通用计算已成为高性能计算领域中的热点研究课题之一。 伴随着传感器技术的不断进步,致使人们获取地表信息的手段越来越多样快捷。面对数据源的多样化与数据量的成倍增长,许多常规算法很难满足对海量数据进行高速计算的要求。而现代图形硬件GPU日益增加的可编程性和高效能计算能力,则为摄影测量与遥感中可并行化算法的加速提供很大的空间。本文仅就GPU大规模并行计算影像匹配研究中的若干问题进行了详细的分析,并提出了相应的解决方案。具体工作概述如下: (1)通过对摄影测量与遥感领域中与影像匹配处理相关的四种算法在GPU上的并行处理进行研究,提出了基于CPU+GPU的异构群核架构的影像处理共通解决方案,探索了影像处理的GPU大规模并行计算设计模式。基于GPU的影像处理通用并行解决方案要在数据精度、延迟和计算量等几个方面进行GPU加速效果的预评估,算法设计和优化过程中也须采用功能和数据分解、线程映射等并行计算方法以及存储器访问优化、通信优化和指令流优化等优化策略。基于GPU的影像处理通用解决方案设计与性能优化是与GPU的体系结构、求解问题的特征结合在一起的,通常需要多重因素整体考虑并不断尝试,最终达到理想的性能。针对GPU与CPU的不同,重点分析和讨论了GPU的加速原理以及当前比较成熟的统一计算设备架构(Compute Unified Device Architecture,CUDA)通用计算模型构架及其特点。 (2)提出多GPUs加速的Wallis变换影像增强并行算法。借助于GPU较强的运算能力,利用CUDA并行计算架构在个人计算机(Personal Computer,PC)上实现了快速Wallis图像滤波算法,包括GPU上任务分解、大规模计算核心的分解方法,结合使用了共享存储器、全局存储器对算法进行加速。使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题。对比CPU和GPU计算Wallis影像变换的时间,实验结果表明,Wallis变换并行算法可以把计算速度提高2个数量级。该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少计算时间。 (3)研究基于GPU的Harris角点检测多设备控制并行算法,使用众多线程将计算中耗时的图像高斯卷积平滑滤波部分改造成单指令多线程(Single Instruction Multiple Thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在CUDA上完成图像角点检测的全过程。实验结果表明,基于多GPUs的Harris角点检测并行算法成功实现了硬件加速,相对于CPU上运行的Harris角点检测算法,其执行效率有近60倍的提高。 (4)提出基于CUDA架构的快速相关系数影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法系根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化了数据存储结构,提高了数据访问效率。实验结果表明,并行算法充分利用了GPU的并行处理能力,速度是基于CPU实现的近20倍并能获得最高多处理器warp占有率。 (5)研究面向CPU+GPU群核架构的尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征匹配并行算法,优化了数据存储结构,提高了数据访问效率。实验结果表明,与SIFT特征匹配的串行CPU实现方式相比,CUDA实现能够实现超过27倍的性能加速,极大地提高了SIFT特征匹配算法在实际应用中的实时性。 (6)基于CPU+GPU的影像匹配系统集成研究。包括单GPU/多GPUs加速的Wallis-Harris-相关系数(WHR)影像匹配系统和单GPU/多GPUs加速的Wallis-SIFT(WS)影像匹配系统。实验结果表明,GPU加速的WHR影像匹配系统比CPU实现方法整体提速最高达37倍,GPU加速的WS影像匹配系统比CPU实现方法整体提速最高达39倍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号