首页> 外文期刊>Известия Юго-Западного Государственного Университета >АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL
【24h】

АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL

机译:算法优化算法算法的算法,用于拆开拆开技术的图形处理器中的致密材料矩阵

获取原文
获取原文并翻译 | 示例
           

摘要

Приведено описание подходов к выполнению операции умножения плотных вещественных матриц одинарной точности на видеокартах с поддержкой технолозии OpenCL. Произведен обзор известных подходов к алгоритмической оптимизации процедуры умножения матриц и оценка возможности их использования с учетом особенностей организации и программирования для GPU. Сделан сравнительный анализ производительности выполняемых действий без характерных для GPU оптимизаций и с оптимизациями, который показал, что вычисления без оптимизации работы с глобальной памятью GPU имеют низкую производительность обработки данных. Оптимизация распределения данных в глобальной и локальной памяти GPU позволяет многократно сократить время вычисления и увеличить реальную производи-тельность. Для сравнения производительности разработанных программных реализаций для технологий OpenCL и CUDA выполнены идентичные расчёты на одинаковых GPU, которые показали более высокую реальную производительность при использовании CUDA-ядер Значения производительности оценивались для всех реализаций процедуры умножения матриц. Сравнение полученных результатов показывает, что наиболее эффективным подходом среди реализованных является блочное умножение, при котором производится разделение исходной матрицы на подматрицы (блоки), размещаемые в локальной памяти GPU, что позволяет экономить обращения к глобальной памяти и максимально повторно использовать данные в локальной памяти. Результаты измерения реальной достигнутой производительности на GPU NVidia GeForce СТХ 960М показали величину 275,3 GFLOP/s, что приблизительно на 10-20% меньше аналогичных результатов, получаемых при аналогичных условиях вычислительного эксперимента для той же GPU с использованием инструментария CUDА.
机译:支持对具有支持OpenCL技术的视频卡上单个精度的单个精度的倍数操作的乘法矩阵的方法的描述。概述了矩阵乘法和评估其使用可能性的算法优化的算法优化的概述,考虑到GPU的组织和编程的特征。没有优化GPU和优化的操作表现的比较分析,显示在不优化GPU全局存储器的情况下的计算具有低数据处理性能。 GPU全局和本地存储器中数据分布的优化允许您重复降低计算时间并增加实际生产。为了比较OpenCL和CUDA技术的开发软件实现的性能,在相同的GPU上执行相同的计算,当使用CUDA-Nuclei时,在相同的GPU上进行了更高的真实性能。对矩阵乘法过程的所有实现评估了性能值。所获得的结果的比较表明,实现中最有效的方法是块乘法,其中原始矩阵用于位于GPU本地存储器中的眉毛(块),允许您能够保存对全局内存的访问并重用本地内存中的数据。 GPU NVIDIA GeForce STX 960M上的实际性能的测量结果显示为275.3 gflop / s的值,比使用CUD的同一GPU的计算实验类似条件下获得的类似结果大约10-20%。工具包。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号