АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL

Ю.А. Затолокин; Э.И. Ватутин; B.C. Титов

首页> 外文期刊>Известия Юго-Западного Государственного Университета >АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL

【24h】

АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL

机译：算法优化算法算法的算法，用于拆开拆开技术的图形处理器中的致密材料矩阵

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Приведено описание подходов к выполнению операции умножения плотных вещественных матриц одинарной точности на видеокартах с поддержкой технолозии OpenCL. Произведен обзор известных подходов к алгоритмической оптимизации процедуры умножения матриц и оценка возможности их использования с учетом особенностей организации и программирования для GPU. Сделан сравнительный анализ производительности выполняемых действий без характерных для GPU оптимизаций и с оптимизациями, который показал, что вычисления без оптимизации работы с глобальной памятью GPU имеют низкую производительность обработки данных. Оптимизация распределения данных в глобальной и локальной памяти GPU позволяет многократно сократить время вычисления и увеличить реальную производи-тельность. Для сравнения производительности разработанных программных реализаций для технологий OpenCL и CUDA выполнены идентичные расчёты на одинаковых GPU, которые показали более высокую реальную производительность при использовании CUDA-ядер Значения производительности оценивались для всех реализаций процедуры умножения матриц. Сравнение полученных результатов показывает, что наиболее эффективным подходом среди реализованных является блочное умножение, при котором производится разделение исходной матрицы на подматрицы (блоки), размещаемые в локальной памяти GPU, что позволяет экономить обращения к глобальной памяти и максимально повторно использовать данные в локальной памяти. Результаты измерения реальной достигнутой производительности на GPU NVidia GeForce СТХ 960М показали величину 275,3 GFLOP/s, что приблизительно на 10-20% меньше аналогичных результатов, получаемых при аналогичных условиях вычислительного эксперимента для той же GPU с использованием инструментария CUDА.

机译：支持对具有支持OpenCL技术的视频卡上单个精度的单个精度的倍数操作的乘法矩阵的方法的描述。概述了矩阵乘法和评估其使用可能性的算法优化的算法优化的概述，考虑到GPU的组织和编程的特征。没有优化GPU和优化的操作表现的比较分析，显示在不优化GPU全局存储器的情况下的计算具有低数据处理性能。 GPU全局和本地存储器中数据分布的优化允许您重复降低计算时间并增加实际生产。为了比较OpenCL和CUDA技术的开发软件实现的性能，在相同的GPU上执行相同的计算，当使用CUDA-Nuclei时，在相同的GPU上进行了更高的真实性能。对矩阵乘法过程的所有实现评估了性能值。所获得的结果的比较表明，实现中最有效的方法是块乘法，其中原始矩阵用于位于GPU本地存储器中的眉毛（块），允许您能够保存对全局内存的访问并重用本地内存中的数据。 GPU NVIDIA GeForce STX 960M上的实际性能的测量结果显示为275.3 gflop / s的值，比使用CUD的同一GPU的计算实验类似条件下获得的类似结果大约10-20％。工具包。

著录项

来源
《Известия Юго-Западного Государственного Университета》 |2017年第74期|共10页
作者
Ю.А. Затолокин; Э.И. Ватутин; B.C. Титов;
展开▼
作者单位

ФГБОУ ВО ?Юго-Западный государственный университет? (Курск Россия);

ФГБОУ ВО ?Юго-Западный государственный университет? (Курск Россия);

ФГБОУ ВО ?Юго-Западный государственный университет? (Курск Россия);

展开▼
收录信息
原文格式 PDF
正文语种 rus
中图分类自然科学总论;
关键词
умножение матриц; алгоритмическая оптимизация; OpenCL; CUDA;

机译：矩阵的乘法;算法优化;OpenCL;CUDA;

相似文献

外文文献
中文文献
专利

1. OpenCL-Darknet: implementation and optimization of OpenCL-based deep learning object detection framework [J] . Koo Yongbon, Kim Sunghoon, Ha Young-guk World Wide Web . 2021,第4期

机译：OpenCL-Darknet：基于OpenCL的深度学习对象检测框架的实现与优化
2. MASA-OpenCL: Parallel pruned comparison of long DNA sequences with OpenCL [J] . Marco Antonio C. de Figueiredo, Edans F. de Oliveira Sandes, Genaina N. Rodrigues, Concurrency and computation: practice and experience . 2019,第11期

机译：Masa-OpenCL：使用OpenCL的Long DNA序列的并行修剪比较
3. Altera社製FPGA Stratix VをOpenCLで開発できるOpenCL for FPGAの概要と活用例 [J] . 大澤　俊晴インタ-フェ-ス . 2014,第4suppla期

机译：可以使用OpenCL开发Altera FPGA Stratix V的FPGA OpenCL概述和应用示例
4. OpenCL-Darknet: An OpenCL Implementation for Object Detection [C] . Yongbon Koo, Chayoung You, SungHoon Kim IEEE International Conference on Big Data and Smart Computing . 2018

机译：OpenCL-Darknet：用于对象检测的OpenCL实现
5. FPGA Acceleration of CNNs Using OpenCL [D] . Ravi, Pravin Kumar. 2020

机译：使用OpenCL的FPGA加速CNN
6. Efficient Implementation of NIST LWC ESTATE Algorithm Using OpenCL and Web Assembly for Secure Communication in Edge Computing Environment [O] . BoSun Park, Seog Chung Seo 2021

机译：使用OpenCL和Web组件的NIST LWC Estate算法的高效实现以便在边缘计算环境中的安全通信
7. Multi-core programming with OpenCL: performance and portability: OpenCL in a memory bound scenario [O] . Fagerlund Olav Aanes 2010

机译：使用OpenCL进行多核编程：性能和可移植性：内存受限情况下的OpenCL

АЛГОРИТМИЧЕСКАЯ ОПТИМИЗАЦИЯ ПРОГРАММНОЙ РЕАЛИЗАЦИИ АЛГОРИТМОВ УМНОЖЕНИЯ ПЛОТНЫХ ВЕЩЕСТВЕННЫХ МАТРИЦ НА ГРАФИЧЕСКИХ ПРОЦЕССОРАХ С ПОДДЕРЖКОЙ ТЕХНОЛОГИИ OpenCL

摘要

著录项

相似文献

相关主题

期刊订阅