图形处理器(GPU)
图形处理器(GPU)的相关文献在2004年到2022年内共计106篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、测绘学
等领域,其中期刊论文91篇、会议论文1篇、专利文献3898225篇;相关期刊52种,包括同济大学学报(自然科学版)、浙江大学学报(工学版)、石油地球物理勘探等;
相关会议1种,包括2007年全国高性能计算学术年会等;图形处理器(GPU)的相关文献由293位作者贡献,包括张立志、赵士彭、王琳等。
图形处理器(GPU)—发文量
专利文献>
论文:3898225篇
占比:100.00%
总计:3898317篇
图形处理器(GPU)
-研究学者
- 张立志
- 赵士彭
- 王琳
- 章隆兵
- I·C·亨德瑞
- Simon Chong Wee See
- 华锋亮
- 吴先良
- 吴恩华
- 吴玲达
- 吴素萍
- 周清雷
- 宣丽
- 张庆科
- 张拯宁
- 战勇杰
- 文敏华
- 朱翔宇
- 李大禹
- 杨修齐
- 杨冰
- 杨波
- 杨鑫
- 林新华
- 潘昊
- 王亚彬
- 王文成
- 王虹现
- 穆全全
- 肖汉
- 胡立发
- 许端清
- 谭高伟
- 赵磊
- 魏耀都
- 仇金斌
- 何东健
- 何太军
- 余翔
- 佟彬
- 侯氢
- 倪书爱
- 倪小军
- 倪瑶
- 冒艳纯
- 冯前进
- 冯歌
- 刘东
- 刘丽
- 刘君陶
-
-
赵士彭;
张立志;
章隆兵
-
-
摘要:
嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式图形处理器的访存子系统结构设计。该设计主要针对图形处理流水线的访存特点,对cache的结构进行了优化,并提出了一种基于链表方式的结构,提高了访存的效率,减少了面积且降低了功耗。为了使访存子系统适配并行图形流水线,提出了一种屏幕分区方法,可以在消除cache的一致性问题的同时,使访存子系统的负载更加均衡。该设计为嵌入式图形处理器的访存子系统设计提供了借鉴。
-
-
赵士彭;
张立志;
章隆兵
-
-
摘要:
图形处理器(GPU)访存利用率已经成为影响其性能的关键瓶颈之一。在处理器设计中,访存的预取结构设计成为了提高访存利用率的主要方法之一。结合图形处理器的访存密集的特点,在提高预取性能的前提下,减小影响图形流水线正常效率成为热门的研究方向。本文基于一种图形处理器无损压缩的结构,提出了一套图形处理器的预取结构设计。本预取结构设计可在访存密集型的图形流水线中有效提高访存利用率,并不影响当前图形流水线的效率。实验结果表明,在Godson GPU图形处理器平台上,与传统预取结构相比,针对访存密集型测试程序,cache命中率可以提高15%以上。针对访存空闲的测试程序,该设计不会对流水线产生负面影响。
-
-
张立志;
赵士彭;
章隆兵
-
-
摘要:
实现了寄存器传输级(RTL)图形处理器(GPU)研究平台——GPU-Hi。GPU-Hi支持OpenGL 2.0 API,支持统一着色器渲染架构,使用专用集成电路(ASIC)完成图形流水线的固定功能算法,使用单指令多线程(SIMT)架构流处理器完成图形流水线的可编程着色器模块。在使用28 nm工艺的情况下,该平台的物理设计面积为7.9μm^(2)。使用glmark2的测试集作为性能测试程序,完成了该平台的功能正确性验证,同时使用该测试集研究了3D图形应用的计算特性,并进行了GPU微结构级的性能分析。测试结果表明,图形应用的光栅化任务与像素着色任务不随图形应用分辨率等比例增大;同时GPU硬件的光栅化模块性能受着色程序处理能力与显存访问能力的影响。本平台的实现对GPU RTL平台的研究发展有重要的借鉴价值,本文中得到的结论对GPU性能优化具有重要参考意义,有力支持了GPU硬件研究的发展。
-
-
肖汉;
孙陆鹏;
李彩林;
周清雷
-
-
摘要:
直方图统计在图像增强和目标检测等领域有着重要的应用。然而,随着图像规模不断增大、实时性要求越来越高,直方图统计局部增强算法的处理过程较慢,达不到预期满意的速度。针对这一不足,在图形处理器(GPU)平台上实现了直方图统计图像增强算法的并行处理,提升了处理大幅面数字图像的处理速度。首先,通过充分利用统一计算设备架构(CUDA)活动线程块和活动线程来并行处理不同的子图像块和像素点,提升了数据访问的效率。然后,采用内核配置参数优化和数据并行计算技术,实现了直方图统计图像增强算法在GPU平台上的并行化。最后,采用主机端和设备端间高效的数据传输模式,进一步缩短了系统在异构计算平台上的执行时间。研究表明,对于像幅大小不同的图像,图像直方图统计并行算法的处理速度相比CPU串行算法均有两个数量级的提高,处理一幅像幅大小为3241×3685的图像需要787.11 ms,并行算法的处理速度提高了261.35倍,为实现实时大规模图像处理奠定了良好基础。
-
-
张成;
陈杰春;
吴猛;
陈旭
-
-
摘要:
针对戴眼镜、人脸姿态变化以及眯眼睛等复杂场景,提出了一种基于多任务卷积神经网络(MultiTask CascadedConvolutionalNetworks,MTCNN)的人眼检测算法。针对性地调整与优化网络,删除landmark部分以简化网络结构,进而调整网络的输入尺寸,使模型更适用于人眼检测。实验结果表明,基于MTCNN的人眼检测算法在数据集上准确率达92.1%,图形处理器(GraphicsProcessingUnit,GPU)检测速度达112frames/s,可以有效兼顾实时性与准确性。
-
-
冒艳纯;
许建秋
-
-
摘要:
移动对象数据具有规模大、更新频繁的特点,对数据可视化具有较高的性能要求。当数据规模增大时,实时加载数据进行可视化的性能效率会随之降低。为了提高移动对象可视化的效率,提出了GPU环境下的移动对象更新方法,并结合移动对象特征设计出并行查询方案。同时,优化了移动对象的更新函数,通过比较临近的两次可视化查询的时间区间,找出需要更新的时间片,对其进行相应的更新,从而避免了整个时间区间的更新。实验使用了数据规模为400万到1000万的合成数据集,和包含约960万个采样点的真实出租车数据集。实验结果表明,与CPU上的R-Tree查询、GPU上的R-Tree查询和CPU上更新函数中的串行索引查询方法相比,所提方法具有较好的查询性能,加速比最高可达18.48。移动对象更新函数优化后,当临近的两次可视化查询时间区间完全重叠时,加速效率接近100%。
-
-
-
-
郑丽丽;
孙伟;
刘明明
-
-
摘要:
针对粒子滤波定位的计算量和占用内存过大的问题,提出了一种基于栅格地图预处理的加速粒子滤波方法,使自主移动机器人可快速定位并减少内存占用.地图预处理阶段,按照设定的地图分辨率,对每个坐标的每个角度计算并存储最近障碍物的距离,得到查找表的结果;粒子滤波阶段,使用图形处理器(GPU)并行维护粒子,并直接从改进的查找表中查找粒子周围障碍物距离信息,用于计算粒子权重.实验结果表明,该方法占用的内存更少且定位速度也得到明显的提高.
-
-
聂瞾;
张琛;
齐宇心;
马城城
-
-
摘要:
在图形处理器GPU研制过程中,测试工作是保证GPU芯片正确性、有效性的必备手段,由于图形命令分类繁多、绘制方式复杂多样,为了保证测试内容的覆盖性和全面性,通常需要开发成百上千的验证项并逐一进行验证对比,在时间和人力上给测试工作带来巨大挑战.为了解决验证工作中测试过程繁琐、耗时和结果比对不准确的问题,本文提出并设计了一种面向自研GPU的自动化测试工具,采用WPF技术,基于自动化验证思路,完成验证项的检测、合格判据的生成、自动化测试和结果比对等功能,提高测试工作的效率,大大缩短GPU验证时间,提高验证的准确度和正确性.
-
-
李海燕;
张春元;
李礼;
刘东
- 《2007年全国高性能计算学术年会》
| 2007年
-
摘要:
流处理器在处理高度并行、计算密集且输入数据较少重用的流应用方面能够取得很好的性能。本文提出一种通用的流执行模型,并以Imagine流处理器和可编程GPU为例验证流执行模型的可用性与有效性。然后,分别在CPU、Imagine模拟器和GPU上实现了8×8离散余弦变换,实验数据表明,流处理器执行的编码效率远超过当前视频应用的实时需求,具有强大的性能优势。
-
-
李海燕;
张春元;
李礼;
刘东
- 《2007年全国高性能计算学术年会》
| 2007年
-
摘要:
流处理器在处理高度并行、计算密集且输入数据较少重用的流应用方面能够取得很好的性能。本文提出一种通用的流执行模型,并以Imagine流处理器和可编程GPU为例验证流执行模型的可用性与有效性。然后,分别在CPU、Imagine模拟器和GPU上实现了8×8离散余弦变换,实验数据表明,流处理器执行的编码效率远超过当前视频应用的实时需求,具有强大的性能优势。
-
-
李海燕;
张春元;
李礼;
刘东
- 《2007年全国高性能计算学术年会》
| 2007年
-
摘要:
流处理器在处理高度并行、计算密集且输入数据较少重用的流应用方面能够取得很好的性能。本文提出一种通用的流执行模型,并以Imagine流处理器和可编程GPU为例验证流执行模型的可用性与有效性。然后,分别在CPU、Imagine模拟器和GPU上实现了8×8离散余弦变换,实验数据表明,流处理器执行的编码效率远超过当前视频应用的实时需求,具有强大的性能优势。
-
-
李海燕;
张春元;
李礼;
刘东
- 《2007年全国高性能计算学术年会》
| 2007年
-
摘要:
流处理器在处理高度并行、计算密集且输入数据较少重用的流应用方面能够取得很好的性能。本文提出一种通用的流执行模型,并以Imagine流处理器和可编程GPU为例验证流执行模型的可用性与有效性。然后,分别在CPU、Imagine模拟器和GPU上实现了8×8离散余弦变换,实验数据表明,流处理器执行的编码效率远超过当前视频应用的实时需求,具有强大的性能优势。
-
-
李海燕;
张春元;
李礼;
刘东
- 《2007年全国高性能计算学术年会》
| 2007年
-
摘要:
流处理器在处理高度并行、计算密集且输入数据较少重用的流应用方面能够取得很好的性能。本文提出一种通用的流执行模型,并以Imagine流处理器和可编程GPU为例验证流执行模型的可用性与有效性。然后,分别在CPU、Imagine模拟器和GPU上实现了8×8离散余弦变换,实验数据表明,流处理器执行的编码效率远超过当前视频应用的实时需求,具有强大的性能优势。