您现在的位置: 首页> 研究主题> OpenCL

OpenCL

OpenCL的相关文献在1999年到2022年内共计260篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、金属学与金属工艺 等领域,其中期刊论文141篇、专利文献119篇;相关期刊80种,包括兰州理工大学学报、电子技术应用、信息技术等; OpenCL的相关文献由592位作者贡献,包括张云泉、焦李成、刘颖等。

OpenCL—发文量

期刊论文>

论文:141 占比:54.23%

专利文献>

论文:119 占比:45.77%

总计:260篇

OpenCL—发文趋势图

OpenCL

-研究学者

  • 张云泉
  • 焦李成
  • 刘颖
  • 贾海鹏
  • 孙羽菲
  • 张玉志
  • 冯晓兵
  • 田小林
  • 石昌青
  • 陈禹乔
  • 期刊论文
  • 专利文献

搜索

排序:

年份

    • 陈禹乔; 孙羽菲; 程大果; 张玉志; 周建宇; 隋轶丞; 石昌青
    • 摘要: 【目的】TensorFlow是人工智能领域最具代表性的深度学习框架。国产加速设备需要一个支持OpenCL的TensorFlow才能发挥其加速性能,为此需要将TensorFlow框架下的CUDA代码向OpenCL转换。如何验证OpenCL核函数的正确性,是研发任务面对的重要问题。【方法】基于TensorFlow动态链接库自定义算子和raw_ops测试接口,本文提出了一套OpenCL核函数的测试解决方案,包括自定义算子的源码设计规范、测试代码规范、代码审核方法和测试流程。【结果】本文实现了对135个OpenCL核函数代码的审核与测试,在各种数据类型及多种数据规模下进行了测试对比,完成了OpenCL核函数正确性的验证,及其与CUDA核函数的性能比较。【结论】本文为TensorFlow下OpenCL核函数的测试提供了可靠而有效的解决方案。
    • 郭强; 程大果; 孙羽菲; 周建宇; 张玉志; 裴嘉傲; 甘润东; 陈锐
    • 摘要: 【目的】目前,TensorFlow这一主流机器学习框架与CUDA异构编程环境的组合在学术界与工业界得到大量使用,使用CUDA实现的TensorFlow算子是加速计算的关键。然而,TensorFlow对于OpenCL这一开放通用的异构编程标准的不支持严重限制了TensorFlow的通用性,并导致OpenCL硬件设备的算力无法充分发挥。【方法】针对此问题,本文深入探索TensorFlow的底层实现,在对TensorFlow代码结构深入分析的基础上实现了OpenCL算子,并且在2.2.0版本的TensorFlow框架实现了OpenCL算子的集成。【结果】基于上述实现,TensorFlow能够借助OpenCL算子在支持OpenCL 1.2的硬件设备上运行。同时,本文提出的优化方法也大幅提升了OpenCL算子的计算效率。【结论】通过实验表明,本文提出的方法能够有效地解决TensorFlow无法应用在OpenCL硬件设备上的问题。
    • 宁成明; 蔡恒雨; 郑启龙; 耿锐
    • 摘要: 由于CPU在处理海量数据时所面临的性能瓶颈,使得基于异构系统的异构并行计算成为并行计算领域的研究热点之一.HXDSP是中国电子科技集团第三十八所自主研制的DSP芯片,能满足多种高性能计算领域的需求.为了充分发挥HXDSP的计算能力以及多HXDSP设备并行计算的能力,本文设计了基于OpenCL的HXDSP异构计算框架.本文根据计算任务的特性设计了不同的OpenCL设备映射方式,使得HXDSP异构计算框架能适应不同的应用场景,充分利用HXDSP的计算资源并节省能耗.本文在HXDSP异构计算框架设计完成的基础上针对HXDSP异构计算应用程序进行优化,包括数据传输优化和数据访问优化.最后本文通过实验分析了HXDSP异构计算框架的程序性能,验证了HXDSP异构计算框架的可行性以及有效性.
    • 隋轶丞; 石昌青; 孙羽菲; 张玉志; 陈禹乔; 张宇哲
    • 摘要: 【目的】深度学习模型以较强的建模性能和优秀的多场景适应能力被广泛应用于各类典型人工智能领域。目前通常采用异构并行计算技术满足深度学习模型的算力需求,然而目前深度学习框架普遍使用CUDA或ROCm等编程模型,仅能支持特定厂商设备;对于通用异构计算设备,需要通过OpenCL编程标准实现支持,因此我们着力于实现TensorFlow框架的OpenCL版本。【方法】本文对TensorFlow框架中主要基于Eigen库提供的接口实现的Element-Wise算子进行代码分析,拆解对应结构体和类的封装方式,并基于OpenCL的编程标准对Element-Wise算子进行实现和封装,确保了代码的规范性和可扩展性。【结果】本文以CUDA算子为基准,对OpenCL的Element-Wise算子进行测试和对比,实验结果分别从正确性和计算效率两方面验证了本文OpenCL版本算子实现的可行性。【结论】作为实现OpenCL版本的TensorFlow框架这一工作的重要组成部分,本文成功实现了TensorFlow框架中Element-Wise算子的OpenCL版本,并经过实验验证了本文实现的算子的计算准确性和计算效率。
    • 王光宇; 陈福; 雷煜靓; 杨兵
    • 摘要: 现有的车载全景影像系统普遍存在低实时性和图像质量不佳的问题,针对其中消耗时间和硬件算力最多的视角转换进行重点优化,阐述一种面向车载异构平台的高性能视角转换算法。首先结合有效线段检测和角点检测设计一种改进的最优控制点检测算法,甄选出精确的角点坐标用于透视变换矩阵的求取;然后采用基于局部的双矩阵视角转换算法,得出效果优良的俯视图;最后基于开放运算语言在车载异构平台上实现整套算法。实验结果表明,该算法在硬件友好的基础上缩减了计算耗时,有效提升了图像转换质量和车载全景影像系统的实用性。
    • 陈锐; 孙羽菲; 程大果; 郭强; 陈禹乔; 石昌青; 隋轶丞; 张宇哲; 张玉志
    • 摘要: 目前,异构计算技术已经被广泛应用于人工智能领域,旨在利用以GPGPU为主的并行加速设备和CPU协同工作,更高效地完成大规模的并行计算.深度学习模型的构建、训练以及推理离不开机器学习框架的支持,但目前主流的机器学习框架基本仅支持CUDA异构编程模型.CUDA的私有性和封闭性导致机器学习框架严重依赖于英伟达GPGPU.众多其它厂商的硬件加速器,尤其是国产加速器难以充分发挥其在深度学习中的潜力.使用开源统一异构编程标准OpenCL代替私有的CUDA编程模型,是打破这一技术壁垒的有效方法.本文提出了TensorFlow中CUDA到OpenCL核函数的代码转换方案,总结整理了核函数转换的基本规则、典型难点问题的解决方法以及OpenCL核函数的性能优化等关键技术.本文首次完成了TensorFlow 2.2版本中135个OpenCL核函数的实现.经一系列测试验证,转换生成的135个OpenCL核函数能够在多种支持OpenCL标准的加速器上正确运行,优化后,近八成的OpenCL核函数在英伟达Tesla V100S上达到了与CUDA核函数相当的计算性能.测试结果验证了本文提出的CUDA到OpenCL核函数转换方案的通用性及有效性,包含OpenCL核函数的TensorFlow版本能够在直接适配跨厂商加速器设备的同时保持较好的计算性能.
    • 肖云开; 邹承明
    • 摘要: 现有的脉冲神经网络模型软件模拟通常具有处理速度慢、功耗高的缺点,同时利用硬件电路实现则具有开发难度大、灵活性差的缺点.为了探索合理实现脉冲神经网络模型的途径,在己有研究成果的基础上综合考虑两种方案的优缺点,提出了利用软件库模拟脉冲神经元数学模型以及网络的拓扑结构、并将网络运行时的关键计算任务以计算内核的方式交由基于OpenCL的FPGA并行计算的新思路.主要工作为:使用模块开发方式对脉冲神经网络软件开发库和OpenCL开发库进行了扩展、并将软件开发库中的重要模块重构成FPGA计算内核,使得软件开发库能够调用FPGA执行计算任务,最终达到利用两个库构建运行网络模型时能够同时满足易于开发、灵活性高、处理速度快、功耗低等要求的目的.基于MNIST图像数据集的图像分类实验表明,同一网络模型拓扑结构下,与在GPU上的软件模拟相比,提出方案的图像分类准确率并没有下降,同时以略微牺牲运行性能为代价,参考功率降低了约63.6%.
    • 伍明川; 刘颖; 李立民; 冯晓兵
    • 摘要: 近年来,科学领域对高性能计算的需求与日俱增,如何有效利用新型超算架构的计算能力成为研究重点。我国自主研制的神威·太湖之光超算平台,采用了国产异构众核处理器SW26010,其包含4个核组,但未提供核组间的同步机制。为了增加其易编程性,本文提出了面向神威·太湖之光的核组间同步方法,并在SWCL OpenCL编译器中实现了该核组间同步方法。该方法利用跨OpenCL主机内核的数据依赖分析来标识必要的同步操作位置,并通过SW26010的交叉段进行低开销的核组间通信,程序员在不使用消息传递接口(MPI)进行显式控制同步的情况下,可以自动地将一个OpenCL Kernel程序部署到多个核组上。使用SPEC ACCEL 1.2中的OpenCL测试用例在神威太湖之光平台的实验表明,本方法的加速效果明显优于传统的MPI实现版本。
    • 齐延荣; 周夏冰; 李斌; 周清雷
    • 摘要: 目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等.由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段.基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并优化了CNN前向模型.首先,针对计算量问题,通过功能模块划分,充分发挥FPGA的高计算效能优势.其次,优化核心算法,提高运行速度;分析特征图处理操作,利用参数共享策略降低数据存储量;采用通道传输数据,减少访问片外存储次数.最后,对数据缓存、数据流、循环进行优化设计,缓解了FP-GA片上的资源限制;通过量化参数降低FPGA内存资源占用量.实验结果表明,FPGA具有较低的功耗,CPU的功耗是其2.1倍,而GPU的功耗是其6.5倍;与近年来相关领域文献中提出的方法相比,所提方法具有较高的吞吐量和计算性能.
    • 朱昶胜; 李玉杰; 马芳兰; 冯力; 雷鹏
    • 摘要: 建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光体生长被限制,穿过挡板间隙的珠光体形貌发生改变;当挡板位于渗碳体和铁素体界面正上方时,挡板两侧渗碳体相合并为不规则形状,渗碳体相前沿碳原子不能满足其生长需求,停止生长,相邻铁素体合为一个相.因此挡板的存在可以控制珠光体的生长形貌.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号