典型图像处理算法在Xeon Phi平台上的实现与优化技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着异构平台的兴起，高性能计算领域获得快速的发展。基于CPU+GPU的异构平台在以生物信息学、医学成像和计算流体力学等为代表的诸多领域获得广泛应用。但是，CPU和GPU使用不同指令集和编程模型，对程序编程优化有较高要求。Intel于2012年推出了基于众核架构的Xeon Phi协处理器，兼容传统 x86编程模型和特性，某种程度上降低了程序编程优化的难度。Xeon Phi集成50个以上的x86轻量核，每个核支持4个硬件线程和512位 SIMD向量处理，因而具有强大的并行处理能力。目前，使用Xeon Phi进行算法优化加速的研究尚处于起步阶段。
　　本文面向典型图像处理算法在Xeon Phi平台上的实现与加速展开研究。图像处理算法对计算性能需求较高，具有数据量大和较高实时性的特点。本文选取了两个代表性算法作为研究实例，分别是2D IDCT算法和3D GVF场算法。
　　本文主要工作包括：
　　（1）在Xeon Phi平台上实现2D IDCT及相关优化。首先依据行列分离计算原理串行实现2D IDCT，以此作为后续优化的性能基准，然后采用512位 SIMD和OpenMP对串行2D IDCT进行向量化和线程扩展，最后进行数据预取优化。实验结果表明，对单精度图像格式，相比未向量化版本，向量化处理可获得约5.84倍的性能加速，且算法性能随线程扩展近似线性增加；使用数据预取优化可在已有优化基础上再获得约1.24的性能加速。综合来说，优化后的2D IDCT算法在Xeon Phi上的最好性能相比在一颗E5-2670 CPU上的最好性能有约1.53倍的加速比。
　　（2）在Xeon Phi平台上实现3D GVF场计算及相关3D GVF场优化。除讨论向量化和线程扩展等通用优化外，侧重在模板计算优化对计算性能的影响，提出一种有效的循环分块优化策略，有效提高了缓存利用率。实验结果表明，对双精度图像格式，经线程扩展和向量化能显著提升3D GVF场运算性能，通过提出的分块优化策略，在问题规模为256?256?256和512?512?512时，3D GVF在Xeon Phi上的计算性能在相比于在一颗E5-2670 CPU上的性能分别有约1.78和2.77的加速比。
　　（3）归纳总结图像处理算法在Xeon Phi平台上的优化规律，整理出有指导意义的优化技术，方便后续其他图像处理算法的优化。一般而言，对计算密集型的算法，直接采用诸如向量化和线程扩展等通用优化技术可获得不错的性能提升；对计算访存比较低的图像处理算法，需要考虑提高缓存的利用效率，本文提出的循环分块策略即是一种有效的方法。

著录项

作者
齐金;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科计算机科学与技术
授予学位硕士
导师姓名杨灿群;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
向量化; 线程扩展; 数据预取; 循环分块; 图像处理算法;

相似文献

中文文献
外文文献
专利

1. Xeon Phi平台上基于模板优化的3D GVF场计算加速 [J] . 齐金 ,李宽 ,杨灿群 . 计算机工程与科学 . 2014,第008期
2. 共轭梯度法在GPU及Xeon Phi下的并行优化及比较 [J] . 黄敏 ,丁萍 ,罗海飚 . 华南理工大学学报（自然科学版） . 2015,第011期
3. Xeon Phi协处理器的功耗特征测量与分析 [J] . 宋庆增 ,吕华阳 ,赵雷 . 计算机工程 . 2017,第006期
4. 为什么需要72核心？解析Xeon Phi X200处理器 [J] . 黄博文 . 微型计算机 . 2016,第25期
5. 基于Xeon Phi平台的波动方程叠前深度偏移 [J] . 杨祥森 ,金君 ,王鹏 . 计算机工程与科学 . 2015,第005期
6. 基于Intel Xeon Em64t集群实现对CFD软件的优化 [C] . 王宁 ,金君 . 中国航空学会推进系统气体热力学专业第十届学术交流会 . 2005
7. LARED-P在IntelXeon Phi上的实现和优化关键技术研究 [A] . 姚文科 . 2013

典型图像处理算法在Xeon Phi平台上的实现与优化技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅