首页> 中文学位 >典型图像处理算法在Xeon Phi平台上的实现与优化技术研究
【6h】

典型图像处理算法在Xeon Phi平台上的实现与优化技术研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1 课题背景介绍

1.2 研究现状

1.3 主要工作与创新

1.4 本文结构

第二章 工作基础

2.1 Xeon Phi体系结构和编程

2.2 本文研究算法

2.3 Xeon Phi基本优化方法

2.4 模板计算优化

2.5 小结

第三章 在Xeon Phi上实现2D IDCT算法及优化

3.1 串行实现

3.2 优化实现

3.3 小结

第四章 在Xeon Phi上实现3D GVF算法及优化

4.1 3D GVF场的出现

4.2 基本优化

4.3 分块优化

4.4 小节

第五章 测试与分析

5.1 实验环境

5.2 2D IDCT算法的性能评测

5.3 3D GVF场算法的性能评测

5.4 小节

第六章 结 束 语

6.1 总结

6.2 展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

随着异构平台的兴起,高性能计算领域获得快速的发展。基于CPU+GPU的异构平台在以生物信息学、医学成像和计算流体力学等为代表的诸多领域获得广泛应用。但是,CPU和GPU使用不同指令集和编程模型,对程序编程优化有较高要求。Intel于2012年推出了基于众核架构的Xeon Phi协处理器,兼容传统 x86编程模型和特性,某种程度上降低了程序编程优化的难度。Xeon Phi集成50个以上的x86轻量核,每个核支持4个硬件线程和512位 SIMD向量处理,因而具有强大的并行处理能力。目前,使用Xeon Phi进行算法优化加速的研究尚处于起步阶段。
  本文面向典型图像处理算法在Xeon Phi平台上的实现与加速展开研究。图像处理算法对计算性能需求较高,具有数据量大和较高实时性的特点。本文选取了两个代表性算法作为研究实例,分别是2D IDCT算法和3D GVF场算法。
  本文主要工作包括:
  (1)在Xeon Phi平台上实现2D IDCT及相关优化。首先依据行列分离计算原理串行实现2D IDCT,以此作为后续优化的性能基准,然后采用512位 SIMD和OpenMP对串行2D IDCT进行向量化和线程扩展,最后进行数据预取优化。实验结果表明,对单精度图像格式,相比未向量化版本,向量化处理可获得约5.84倍的性能加速,且算法性能随线程扩展近似线性增加;使用数据预取优化可在已有优化基础上再获得约1.24的性能加速。综合来说,优化后的2D IDCT算法在Xeon Phi上的最好性能相比在一颗E5-2670 CPU上的最好性能有约1.53倍的加速比。
  (2)在Xeon Phi平台上实现3D GVF场计算及相关3D GVF场优化。除讨论向量化和线程扩展等通用优化外,侧重在模板计算优化对计算性能的影响,提出一种有效的循环分块优化策略,有效提高了缓存利用率。实验结果表明,对双精度图像格式,经线程扩展和向量化能显著提升3D GVF场运算性能,通过提出的分块优化策略,在问题规模为256?256?256和512?512?512时,3D GVF在Xeon Phi上的计算性能在相比于在一颗E5-2670 CPU上的性能分别有约1.78和2.77的加速比。
  (3)归纳总结图像处理算法在Xeon Phi平台上的优化规律,整理出有指导意义的优化技术,方便后续其他图像处理算法的优化。一般而言,对计算密集型的算法,直接采用诸如向量化和线程扩展等通用优化技术可获得不错的性能提升;对计算访存比较低的图像处理算法,需要考虑提高缓存的利用效率,本文提出的循环分块策略即是一种有效的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号