CUDA
CUDA的相关文献在2007年到2023年内共计941篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、测绘学
等领域,其中期刊论文695篇、会议论文11篇、专利文献235篇;相关期刊296种,包括科学技术与工程、电子设计工程、电脑知识与技术等;
相关会议5种,包括第十一届中国虚拟现实大会(ICVRV2011)、第三届国际信息技术与管理科学学术研讨会、2010(沈阳)国际安全科学与技术学术研讨会等;CUDA的相关文献由2403位作者贡献,包括张清、王涛、王超等。
CUDA
-研究学者
- 张清
- 王涛
- 王超
- 刘峰
- 李亮
- 杜晓刚
- 田亚平
- 聂新明
- 袁博宇
- 赵新生
- 赵美云
- 迟学斌
- 邓冲
- 陈浩
- 党建武
- 唐杰
- 张峰
- 李劲生
- 李超
- 杨仁忠
- 杨景玉
- 杨鑫
- 汤颖
- 沈铂
- 王伟
- 王卓薇
- 王斌
- 王松
- 王阳萍
- 田捷
- 翁金祖
- 胡玉贵
- 范菁
- 蒋偑钊
- 赵庶旭
- 郭治成
- 闵永智
- 陈刚
- 陈庆奎
- 陈慕羿
- 陈曦
- 陈永
- 付尧
- 侯玉清
- 冯前进
- 刘凯
- 刘双广
- 刘志
- 刘磊
- 刘端阳
-
-
陈禹乔;
孙羽菲;
程大果;
张玉志;
周建宇;
隋轶丞;
石昌青
-
-
摘要:
【目的】TensorFlow是人工智能领域最具代表性的深度学习框架。国产加速设备需要一个支持OpenCL的TensorFlow才能发挥其加速性能,为此需要将TensorFlow框架下的CUDA代码向OpenCL转换。如何验证OpenCL核函数的正确性,是研发任务面对的重要问题。【方法】基于TensorFlow动态链接库自定义算子和raw_ops测试接口,本文提出了一套OpenCL核函数的测试解决方案,包括自定义算子的源码设计规范、测试代码规范、代码审核方法和测试流程。【结果】本文实现了对135个OpenCL核函数代码的审核与测试,在各种数据类型及多种数据规模下进行了测试对比,完成了OpenCL核函数正确性的验证,及其与CUDA核函数的性能比较。【结论】本文为TensorFlow下OpenCL核函数的测试提供了可靠而有效的解决方案。
-
-
汪晋;
刘江
-
-
摘要:
在科学计算和工程领域,大型稀疏线性方程组的求解非常常见,目前已经有许多迭代方法和预处理技术被用于求解这类方程。DILU预处理技术类似于ILU,是开源计算流体力学软件OpenFOAM中重要的预处理技术,但未在OpenFOAM以外的领域引起关注,目前也没有完整的GPU实现。比较了DILU和ILU预处理技术对稳定双共轭梯度法(BiCGStab)加速的效果,以及它们在构造预处理子上的开销,结果表明,DILU在加速效果上不逊于ILU且在稳定性上优于ILU。在GPU并行实现方面,DILU可以使用分层并行和无全局同步并行两种并行策略,详细讨论了DILU预处理技术在这两种策略下的实现方法,给出了相关的算法和参考代码,然后比较了在两种并行策略下DILU预处理技术的性能。数值实验结果表明,在实践中两种并行策略各有优劣,可以根据实际表现进行选择。另外比较了GPU和CPU执行的DILU预处理技术,GPU在性能上具有明显优势,在线性方程组求解上存在性能瓶颈的程序可以移植到GPU平台以提升性能。
-
-
刘士谦
-
-
摘要:
面对互联时代海量的信息数据,图形处理器凭借极强的并行计算处理能力,通过GPU+CPU的架构为现代无线接入网设备的信号处理,提供了一种理想的技术手段。文章设计了一款基于CUDA编程接口的GPU Trace模块,用于在GPU+CPU平台架构中跟踪记录GPU的运行信息。
-
-
刘建涛;
张海彬
-
-
摘要:
GPU具有大规模并行运算的特点,使用GPU作为计算节点可以大量节省硬件投入成本。论文通过对GPU硬件架构分析研究GPU做为新一代信号处理平台的优势,通过对CUDA软件架构的分析,研究影响信号处理算法在GPU上的性能的主要因素和提升性能的方法。最后在Jetson agx xavier平台上实现波束形成算法,并和CPU与DSP上的运算性能进行对比。
-
-
魏强;
白尚旺;
龚大立;
党伟超;
潘理虎
-
-
摘要:
为解决液压支架工长时间作业过程中,因身体疲劳不能及时发现护帮板未护帮的问题,采用实时性高的Tiny-YOLOv3算法检测护帮板状态,但检测任务会受到综采工作面尘雾的影响。因此,提出一种融合图像去雾与Tiny-YOLOv3的目标检测算法,并在此基础上优化图像去雾算法的CUDA实现,首先将暗通道图像用RGB单通道图像代替,然后按列分组求大气光值,合并初始透射率的kernel函数并优化精细化透射率计算方式,提升图像去雾速度,保证算法的实时性。实验结果表明,在煤矿护帮板状态检测场景中,融合算法比Tiny-YOLOv3算法的准确率提高了22.8%,且满足实时检测的要求。
-
-
耿勇胜;
洪中华;
童小华;
刘世杰;
冯永玖;
张云;
周汝雁;
韩彦岭;
潘海燕;
王静;
杨树瑚;
徐利军
-
-
摘要:
针对星载SAR影像匹配中影像文件大、重叠区域小等导致匹配效率低问题,该文提出一种基于重叠区域分块匹配策略的SAR-SIFT特征匹配方法,并采用Fork/Join同步并行模式处理金字塔影像以提高特征匹配效率,在特征点提取和特征描述子构建过程中采用OpenMP在CPU端进行并行计算,在GPU端进行逐像元响应函数的并行计算。为验证该方法的有效性,采用2021年覆盖云南省漾濞县“5·21”地震震区的5景高分三号顺轨影像(7104×5650)开展实验,结果表明:在5景高分三号影像匹配中,对实验影像按6×6分块,采用CPU八线程+GPU并行计算方案时效果最佳,加速比为45.15,处理时间从3683.9 s减少至81.6 s,与分块匹配策略、OpenMP多线程和减层降维3种加速方法相比,该方法效率最高,加速比为8.90,可为提高大区域顺轨影像匹配性能提供新的策略和思路。
-
-
谢双镱;
孙瑞鑫;
郭雪亮;
柴志雷
-
-
摘要:
光束平差法(bundle adjustment,BA)是同步定位和地图构建(simultaneous localization and mapping,SLAM)后端优化的关键技术。在线使用光束平差时能否满足实时性要求,是将其应用于自动驾驶车端等实时系统的关键因素。首先分析特定场景中SLAM数据特点,提出滑动窗口机制降低计算规模;分析局部BA计算中稀疏矩阵性质提升算法的可并行性;最后基于嵌入式GPU对算法进行并行加速。将其应用于车载SLAM系统并在真实场景下测试,实验结果表明,在AGX Xavier嵌入式GPU上,针对720P道路场景,该方法比同平台CPU上处理性能平均提升4.8倍,可以处理15 fps的相机位姿地图数据,满足了30 fps的视频处理需求,达到了车载系统的实时性要求。
-
-
孙瑞鑫;
朱国梁;
谢双镱;
郭雪亮;
柴志雷
-
-
摘要:
在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计算过程中的负载不均衡问题;最后通过降低计算位宽,使得整体性能获得进一步提升。实验结果表明:在Jetson TX2上,针对真实场景所用的720P视频,所提出方法的性能比OpenCV的GPU版本提升了4.1倍,达到30 fps以上;将采用该方法的SLAM系统成功应用于车载场景并在真实环境中测试,使得系统的性能达到了28 fps。新方法有效地提升了位姿和点云的精度,较好地满足了车载场景的实时处理需求。
-
-
魏德凯;
曾赛
-
-
摘要:
CBF是声呐阵列信号处理的常用方法,其特点是权向量不变、运算量小,但阵增益有限、强干扰抑制能力不足。STMV的多目标方位分辨率和干扰抑制能力优于CBF,但STMV最佳权向量求解时利用了接收数据空间协方差矩阵,权向量计算复杂度的提高,使计算量显著增加,因此基于传统数字信号处理系统工程实现时因规模庞大而无法在水下无人平台中使用。为解决此问题,文章基于CUDA编程模型,设计实现了宽带STMV在GPU上并行实现,极大地提高了运算效率。测试结果表明:对于相同数据,GPU并行处理较CPU运算效率可达160倍以上。这说明GPU在大规模计算中优势显著。该硬件实现方式有望应用于水下无人平台声呐信号处理系统中。
-
-
张全;
张杰明;
雷芩;
彭博;
刘书妍
-
-
摘要:
基于压缩感知的地震信号频率补偿算法可有效拓宽地震信号的频谱,提高地震资料的分辨率。虽然该算法具有良好的拓频效果,但对于高维度、大规模的地震数据时效较低。经过分析发现该算法的计算瓶颈在于计算反射系数部分的大量代数运算和重构信号部分的卷积运算,为此,提出一种基于CUDA的并行方案对该算法进行并行优化。首先,改变地震数据的组织形式,使其存取效率更高,且更适合并行处理;然后,重新设计计算反射系数串行代码,利用CUDA(Compute Unified Device Architecture)平台调用GPU大量轻量级线程对其中的代数运算进行并行化;最后,利用卷积定理改变了时域信号卷积计算方式,采用cufft库函数将两个时域信号的卷积转换到频域进行计算。结果表明,在保证计算精度的前提下,与串行算法相比,并行算法在PC端获得了4倍以上的总体加速比。
-
-
-
-
-
-
陈国军;
牛玉美;
申宝明
- 《第十一届中国虚拟现实大会(ICVRV2011)》
| 2011年
-
摘要:
针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外壳。在此平台上将基于体素的可视外壳生成算法转化为CUDA线程块并行计算,仿真实验表明加速效果明显。
-
-
陈国军;
牛玉美;
申宝明
- 《第十一届中国虚拟现实大会(ICVRV2011)》
| 2011年
-
摘要:
针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外壳。在此平台上将基于体素的可视外壳生成算法转化为CUDA线程块并行计算,仿真实验表明加速效果明显。
-
-
陈国军;
牛玉美;
申宝明
- 《第十一届中国虚拟现实大会(ICVRV2011)》
| 2011年
-
摘要:
针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外壳。在此平台上将基于体素的可视外壳生成算法转化为CUDA线程块并行计算,仿真实验表明加速效果明显。
-
-
陈国军;
牛玉美;
申宝明
- 《第十一届中国虚拟现实大会(ICVRV2011)》
| 2011年
-
摘要:
针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外壳。在此平台上将基于体素的可视外壳生成算法转化为CUDA线程块并行计算,仿真实验表明加速效果明显。
-
-
Honglian WU
- 《第三届国际信息技术与管理科学学术研讨会》
| 2011年
-
摘要:
This paper mainly researches the latest GPU parallel computing technique; gives a briefintroduction on the exploring environment of CUDA universal computing;verifies the function of GPUparallel computing through an application case. The result of test confirms that GPU is capable of accelerating.rn In recently years, with the huge development of GPU(Graphics Processing Unit), the processing speed andbandwidth of memory are increasingly promoting;the speed and quantity of graphics processing are improvingas a consequence;the inventionhardware techniques is increasedof creative graphicsin themeanmotivate the development of picture processing,realization, computer emulation greatlytune. It virtual.
-
-
Honglian WU
- 《第三届国际信息技术与管理科学学术研讨会》
| 2011年
-
摘要:
This paper mainly researches the latest GPU parallel computing technique; gives a briefintroduction on the exploring environment of CUDA universal computing;verifies the function of GPUparallel computing through an application case. The result of test confirms that GPU is capable of accelerating.rn In recently years, with the huge development of GPU(Graphics Processing Unit), the processing speed andbandwidth of memory are increasingly promoting;the speed and quantity of graphics processing are improvingas a consequence;the inventionhardware techniques is increasedof creative graphicsin themeanmotivate the development of picture processing,realization, computer emulation greatlytune. It virtual.