图形处理单元
图形处理单元的相关文献在2000年到2022年内共计540篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、测绘学
等领域,其中期刊论文187篇、会议论文39篇、专利文献1232596篇;相关期刊104种,包括测绘科学技术学报、电子与电脑、太赫兹科学与电子信息学报等;
相关会议23种,包括第十三届全国电波传播学术年会、2012年中国智能电网学术研讨会、2012高校GIS论坛等;图形处理单元的相关文献由1094位作者贡献,包括约翰·柏拉勒斯、焦国方、黄锡霖等。
图形处理单元—发文量
专利文献>
论文:1232596篇
占比:99.98%
总计:1232822篇
图形处理单元
-研究学者
- 约翰·柏拉勒斯
- 焦国方
- 黄锡霖
- 于春
- 杜云
- 廖群峰
- 刘昌孝
- 提莫·佩塔西
- 柏瑞斯·柏克潘克
- 扎伊尔德·荷圣
- S·菲施维克
- 安德鲁·格鲁伯
- 李亮
- A·E·格鲁贝尔
- 丛耀宗
- 科林·克里斯托弗·夏普
- 金锡勋
- 陈平
- 陈文中
- 黄晓辉
- A·科克
- G-Y.吕
- G·艾尔德
- J·高尔德斯
- R·布罗德赫斯特
- R·柯杜里
- 叶允明
- 尤卡·佩卡·阿尔沃
- 拉多斯拉夫·丹尼拉克
- 武凤霞
- 焦阳
- 田坤
- 科林·夏普
- 罗伯特·J·辛普森
- 苏奕荣
- 路奎元
- 陈朝荣
- A·R·阿普
- B·韦布
- C·L·胡布雷茨
- H·M·霍佩特
- J.N.劳
- J·K·奥施英斯
- L.沈
- M.姆罗泽克
- M·拉马多斯
- P.K.兰卡
- Z·吕
- 严承华
- 乔纳·M·阿尔本
-
-
李冬;
焦义文;
高泽夫;
杨文革;
毛飞龙;
滕飞
-
-
摘要:
针对相位干涉仪测向系统对于大量高速实时信号的处理需求,设计了基于图形处理单元(graphic processing unit, GPU)的频域互相关(简称为FX)鉴相算法,完成了相应的并行程序设计,进行了实时数据的测试验证。为充分发挥GPU强大的浮点运算能力和并行数据处理能力,将涉及大量并行高速数据计算的核心鉴相算法加载在GPU中,实现了高速并行数据的相关处理和相位提取;利用中央处理器(central processing unit, CPU)完成了数据调度、分发和简单的数据处理功能。实验测试结果表明,在较好地保证鉴相精度的条件下,本文设计的基于GPU的鉴相算法,其数据处理速度是基于CPU平台的140倍左右,鉴相速度明显提升,较为圆满地实现了实时性、可靠性和准确性的设计初衷。
-
-
周琰;
马强
-
-
摘要:
为了提升中央处理单元(CPU)和图形处理单元(GPU)协同检测网络入侵的性能,提出了一种具有数据包有效载荷长度约束的CPU/GPU混合模式匹配算法(LHPMA);在分析CPU/GPU混合模式匹配算法(HPMA)的基础上,设计了长度约束分离算法(LBSA)对传入数据包进行提前分类;当传入数据包加载到CPU之前,LBSA根据有效载荷长度约束减少有效载荷长度的多样性;长度超过约束的数据包直接分配给CPU的预过滤缓冲区进行快速预过滤,剩余数据包则直接发送至CPU主存储器中的全匹配缓冲区,并将较短数据包直接分配给GPU进行全模式匹配,提升了CPU/GPU协同检测网络入侵的性能;实验结果表明,LHPMA的性能优于HPMA以及CPU和GPU的单独处理方法;LHPMA增强了HPMA的处理性能,充分发挥了GPU并行处理较短数据包的优势,并且LHPMA提高了网络入侵检测的吞吐量。
-
-
袁佳伟;
宋庆增;
王雪纯;
姜文超;
金光浩
-
-
摘要:
为解决将数据传回服务器端计算时带来的延迟问题,需将神经网络结构进行调整后部署在边缘计算设备上,但当前对边缘设备性能功耗的测量不够全面.为分析和评测边缘计算设备EDGE TPU计算板的性能与功耗,采用神经网络模型和Roofline模型测量其性能,利用外置功耗测量设备测量其功耗计算性能功耗比.实验结果表明,EDGE TPU计算板能以较快的速度量化神经网络模型,执行速度与能耗节省均优于TX2和NANO,根据TX2的Roofline模型对VGG 16网络进行优化后,其在TX2上的运行速度达到原来的8倍左右.
-
-
石文君;
王登位;
刘万锁;
蒋大钢
-
-
摘要:
面向图像分割应用,提出了一种新颖的GPU加速水平集模型,将来自于不同模型的全局及局部拟合能量有机地整合一起,并且可以自适应地调整全局项的加权系数.无论初始轮廓位于图像中的任何位置,模型都可以有效地分割出具有强度非同质性图像中的前景目标.在数值实现环节,采用格子玻尔兹曼方法的策略来打破传统求解方法对于时间步长参数的限制条件.另外,借助NVIDIA GPU来高效地组织格子玻尔兹曼方法的数值解算过程,以充分利用格子玻尔兹曼方法所具有的并行特性.在合成及真实图像数据上的实验结果验证了所提方法的有效性.另外,还对影响分割结果的数个关键因素进行了深入的分析.
-
-
钱裳云;
邵志远;
郑然;
陈继林
-
-
摘要:
现有的图数据库对于在线分析操作大多采用基于CPU的分布式图计算引擎(如GraphX),但CPU核心数量有限的不足会导致计算效率低下,同时集群间的同步也会产生额外的通信开销.通过使用图形处理单元(GPU)对图计算进行加速,设计并实现图处理系统RockGraph.该系统能够根据用户需求从图数据库中提取出包含核心信息的子图,经过数据格式转换后,利用JNI工具调用动态链接库,采用超显存GPU图计算框架进行在线分析,并将计算结果写回图数据库.实验结果表明,与基于CPU的分布式图计算系统相比,RockGraph的图分析效率可提高3倍~5倍.
-
-
王岩;
田英齐;
金钟;
索兵兵
-
-
摘要:
基于图形处理单元(GPU)的算法和程序为解决量子化学中的计算瓶颈开辟了道路.作者设计了基于GPU的量子化学算法和程序,实现了Hartree-Fock方法和密度泛函理论中双电子排斥积分计算、Fock矩阵构造以及交换相关泛函的计算.由于计算内核使用OpenCL编程框架,程序可以在多种架构的计算设备上执行.对于不同计算模块和分子自洽场计算的测试表明,基于OpenCL的GPU程序相比CPU上的串行程序实现了最快148倍的加速.
-
-
-
周琦;
柴小丽;
马克杰;
俞则人
-
-
摘要:
由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用, 使得Tucker分解算法成为目前重点研究对象.但是当前流行的Tucker分解算法需要对张量进行多次展开, 导致算法加速效率降低.针对上述问题, 提出一种应用于统一计算设备架构 (CUDA) 平台上的改进Tucker分解模块, 通过对Tucker分解算法与CUDA平台进行优化, 在省略张量展开过程的同时, 提高加速效率, 从而降低对加速系统的要求.实验结果表明, 改进Tucker分解算法在CUDA平台上的加速性能具有明显提高.%Because tensor Tucker decomposition is widely used in image processing, face recognition, signal processing and other fields, Tucker decomposition algorithm becomes a key research object.However, the current popular Tucker decomposition algorithm needs to expand tensors many times, which results in that the acceleration efficiency of the algorithm is mostly consumed in tensor multiple expansion.In order to solve the above problems, a modified Tucker decomposition module applied to CUDA platform is proposed.By optimizing the Tucker decomposition algorithm and CUDA platform, the tensor expansion process is omitted, and the requirements of acceleration system are reduced and the acceleration efficiency is improved.Experimental results show that the modified Tucker decomposition algorithm has better acceleration performance on CUDA platform.
-
-
-
陈思业
-
-
摘要:
本文基于实现实时导航卫星软件接收机的目的,采用中央处理单元(CPU)和图形处理单元(GPU)的协同调度方法,利用GPU的多核并行处理性能,通过对导航卫星软件接收机的信号并行化处理,结合信号处理时负载任务的历史信息,提出了一种动态的调度方法,该方法根据估计时间信息在CPU和GPU之间选择合适的设备来执行任务.所提出的方法在CUDA平台上对软件接收机中的信号进行处理,得出基于时间估算的协同调度算法能满足实时软件接收机的需求的结论.
-
-
Liu Jiaxin;
刘佳鑫;
Xu Yandong;
徐延东;
Hua Bei;
华蓓
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
得益于不断增大的内存容量和处理器核心数目,内存数据库成为构建高性能数据库系统的一种重要手段.目前大多数内存关系数据库运行在多核处理器上.随着图形处理单元(GPU)广泛应用于通用计算领域,GPU也被用来加速数据库操作或进行联机分析处理.GPUTx是目前唯一利用GPU执行数据库事务的内存关系数据库.为解决事务冲突,它需要在CPU上建立事务依赖图和为GPU进行可序列化的事务调度.本文在GPU上实现了第一个基于乐观并发控制的事务处理引擎,避免了事务依赖图的建立.此举降低了系统实现复杂度,并提高了系统处理各类事务的通用性.基于该事务处理引擎,本文实现了一个较为初级的GPU内存关系数据库原型系统,并利用TPC-C流量进行了初步的性能测试.
-
-
Xiao Meng;
孟肖;
Li-xin Guo;
郭立新
- 《第十三届全国电波传播学术年会》
| 2015年
-
摘要:
本文首先介绍了一种计算电大尺寸海面电磁散射的基于双尺度模型的射线追踪算法(Two Scale Model-Raytracing,TSM-RT),TSM-RT算法是一种近似的射线追踪算法,与传统的射线追踪算法相比,在保证计算精度的情况下,该算法能够有效减少射线与面元的求交次数,进而提高计算效率.同时,为了进一步减少了计算时间,本文还利用图形处理单元(Graphics Processing Unit,GPU)强大的并行处理能力对TSM-RT算法进行加速,并获得了很好的加速效果,与传统的TSM-RT相比基于GPU的TSM-RT算法的计算时间有了很大程度的减少.
-
-
-
陶伟东;
黄昊;
苑振宇;
杨柳
- 《2012高校GIS论坛》
| 2012年
-
摘要:
针对数字图像处理领域中单个像元之间相互独立的特性,采用图形处理单元(GPU)的CUDA可编程模型,对Roberts算子这种边缘检测梯度算子进行了算法的并行化设计和实现。实验结果表明,本文算法充分利用了GPU强大的浮点并行计算能力,结合对Block和Thread的合理调度,运行效率明显优于常规的边缘检测算法,对高分辨率遥感影像并行处理技术提供了有益借鉴。
-
-
-
Fang Juan;
方娟;
Wei Zelin;
魏泽琳;
Yu Tingwen;
于婷雯
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
在GPU中,一个warp内的所有线程在锁步中执行相同的指令.某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间.在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散.本文对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter-warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响.根据缓存命中率将warp分类,以驱动后面的三个组件:(1)基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;(2)基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除(3)基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求.本文中基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0%.
-
-
Fang Juan;
方娟;
Wei Zelin;
魏泽琳;
Yu Tingwen;
于婷雯
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
在GPU中,一个warp内的所有线程在锁步中执行相同的指令.某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间.在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散.本文对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter-warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响.根据缓存命中率将warp分类,以驱动后面的三个组件:(1)基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;(2)基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除(3)基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求.本文中基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0%.
-
-
Fang Juan;
方娟;
Wei Zelin;
魏泽琳;
Yu Tingwen;
于婷雯
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
在GPU中,一个warp内的所有线程在锁步中执行相同的指令.某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间.在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散.本文对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter-warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响.根据缓存命中率将warp分类,以驱动后面的三个组件:(1)基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;(2)基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除(3)基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求.本文中基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0%.
-
-
Fang Juan;
方娟;
Wei Zelin;
魏泽琳;
Yu Tingwen;
于婷雯
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
在GPU中,一个warp内的所有线程在锁步中执行相同的指令.某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间.在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散.本文对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter-warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响.根据缓存命中率将warp分类,以驱动后面的三个组件:(1)基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;(2)基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除(3)基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求.本文中基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0%.
-