首页> 中文学位 >面积带宽优化的嵌入式GPU可编程着色器体系结构研究
【6h】

面积带宽优化的嵌入式GPU可编程着色器体系结构研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章绪论

1.1 研究背景

1.2 本文主要研究内容

1.3 本文主要创新工作

1.4 本文组织结构

第二章国内外研究现状

2.1 嵌入式GPU可编程着色器体系结构

2.2 嵌入式GPU存储带宽优化

2.3 嵌入式GPU模拟仿真及性能分析方法

2.4 国内研究近况

第三章嵌入式GPU高层次全系统仿真平台研究

3.1 SoC快速仿真平台构建

3.2 基于多统一着色器的嵌入式GPU体系结构建模

3.3 嵌入式GPU软-硬件协同仿真

3.4 本章小结

第四章面积优化的着色器运算单元数据通路研究

4.1 统一浮点向量运算单元数据通路

4.2 浮点标量特殊功能单元数据通路

4.3 实验结果分析

4.4 本章小结

第五章基于传输触发的可编程着色器体系结构研究

5.1 传输触发体系结构

5.2 基于传输触发的顶点着色器基本结构

5.3 传输触发可编程着色器微结构优化

5.4 实验结果与分析

5.5 FPGA原型系统设计

5.6 本章小结

第六章多统一着色器顶点拾取策略和顶点缓存结构

6.1 面向图元的顶点拾取策略

6.2 多着色器下顶点Cache结构

6.3 实验结果与分析

6.4 本章小结

第七章总结与展望

7.1 本文工作总结

7.2 工作展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

随着VLSI工艺水平的不断提高与应用需求的不断增长,在系统级芯片中集成基于多统一着色器的嵌入式GPU已成为高端移动终端设备的重要发展趋势。但由于芯片面积的严格约束,嵌入式GPU中可容纳的可编程着色器核心数量极为有限。这就要求在体系结构设计中必须有效提升单着色器的计算性能,并保证较小的面积开销;另一方面,嵌入式GPU在绘制过程中需要频繁访问片外图形数据存储资源,造成极高的总线数据访问带宽,增加了嵌入式GPU的系统功耗。因此如何对可编程着色器的逻辑面积和数据访问带宽进行优化成为嵌入式GPU体系结构研究的重要方向。本文将针对上述问题,从多核嵌入式GPU系统级建模方法、面积优化的单着色器运算单元通路与体系结构设计、带宽优化的多着色器顶点缓存结构等方面开展研究工作,为未来多核嵌入式GPU体系结构的研究与设计提供理论和技术基础。
  首先,本文提出一种基于混合建模技术的嵌入式GPU高层次全系统仿真平台。为了有效提升复杂系统软件的仿真速度,提出了基于QEMU虚拟机的微处理器指令集仿真器,并利用SystemC事务级模型对系统级芯片内部互连结构进行建模,有效提升系统仿真效率。之后提出一种基于基于片内数据缓冲区的多统一着色器的嵌入式GPU基础体系结构,并利用周期级建模的方法对其微结构细节特征进行描述。最后将周期级模型与SystemC事务级硬件模型进行整合,从而为本文后续的研究工作提供基础实验平台。
  其次,本文提出了可编程着色器内部面积优化的浮点运算单元数据通路。首先针对浮点向量运算的特点,提出了一种多功能统一浮点向量运算单元结构。通过对已有向量内积运算单元关键硬件模块进行向量化复用,使其支持基本向量运算类指令的处理,并在保证计算性能的同时尽可能降低逻辑面积开销。以此为基础,通过在着色器内部复用空闲向量运算单元,完成标量超越函数二次多项式近似的计算,进一步降低浮点标量特殊功能单元的逻辑开销。
  第三,本文以传输触发结构为基础,从性能和面积开销两个方面对单着色器体系结构进行优化。基于传输触发结构下细粒度数据传输和体系结构层次可见的数据旁路,减少着色指令执行过程中冗余结果数据的写回操作,从而有效发掘着色器内部的指令级并行性,并减少其数据通路中互连结构的设计复杂度。之后以顶点着色器为例,对基于传输触发的可编程着色器微体系结构进行详细设计。通过融合传输触发和顶点处理的特点,定制了着色器微指令集;并分别通过配置运算单元数目和改进寄存器端口及写回机制,达到进一步降低面积开销的目的。最后,本文对该着色器进行了硬件设计和FPGA原型系统搭建,验证了本文所提出的可编程着色器体系结构具有较高的计算性能并能够减少面积开销,从而有效提升着色器的面积效能。
  最后,本文提出一种面向图元的顶点拾取策略,有效消除在多着色器上运行的顶点数据任务间的顺序依赖性。在此基础上,通过改进原有面向单顶点着色器的顶点Cache结构,对多着色器结构下的顶点数据访问带宽进行优化。在进行顶点着色器前,使用Pre-TnL顶点Cache与面向图元顶点拾取策略相结合,缓存最近拾取的顶点数据,降低其总线访问频度;之后通过设计一种tag部分与数据存储部分分离的Post-TnL顶点Cache结构,有效缓存多着色器最近提交的顶点处理结果。最后通过在多核嵌入式GPU任务调度器中设计顺序提交控制逻辑,保证分离Cache缓存结果的正确性。仿真结果表明,分离Post-TnL顶点Cache可以有效减少重复处理的顶点数目,进一步降低顶点访问带宽。
  仿真评估和硬件实现验证结果表明,本文提出的嵌入式GPU可编程着色器体系结构设计方法可以实现对面积开销和顶点数据访问带宽的优化,为未来针对基于多统一着色器嵌入式GPU体系结构的设计与实现进行了有益的探索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号