首页> 中文学位 >处理器数据处理单元的微结构优化方法研究
【6h】

处理器数据处理单元的微结构优化方法研究

代理获取

目录

声明

致谢

第1章 绪论

1.1 研究背景和动机

1.2 研究动态和现状

1.3 模拟器

1.4 论文贡献与内容安排

第2章 数据感知的乘累加单元

2.1 引言

2.2 相关工作

2.3 系统实现

2.4 实验方法

2.5 实验结果

2.6 本章小结

第3章 基于机器学习的数据预取引擎

3.1 背景

3.2 相关工作

3.3 预取结构

3.4 基于机器学习算法的预取自调方法

3.5 实验方法及结果

3.6 本章小结

第4章 多核服务器系统的数据处理单元建模

4.1 背景

4.2 目标分析

4.3 相关工作

4.4 基于ARMv8指令集的4-SMT单核软件模拟器建模

4.5 模拟器评测

4.6 本章小结

第5章 总结与展望

参考文献

作者简历及在学期间所取得的科研成果

展开▼

摘要

随着计算机技术的普遍应用,日益复杂化的应用程序呈现出越发多样的瞬间运行特征。数据处理单元作为系统芯片的核心单元,它的性能与应用程序密切相关,而传统的固定结构设计不能使所有的应用程序都高效运行。本文结合应用程序的特征从数据处理单元(乘累加、预取、单元建模)方面探索优化处理器微结构的方法,使其能够根据应用程序的特征自适应调节。
  本研究主要内容包括:⑴乘累加单元是微处理器和数据信号处理器中重要的计算单元,传统的乘累加单元通常将乘累加操作分隔为多个流水周期完成来提高吞吐量,但同时也会增加延时、能耗和面积的开销。基于无损音频应用APE中有70%以上的32x16模式的乘法,且不同模式间分布离散,本文提出数据感知的乘累加器结构,根据乘法操作数的宽度动态调整乘累加操作的流水线深度,降低乘法操作引起的停顿。设计了数据流跟踪模块实时检测乘法操作的数据宽度,乘累加单元根据32x16模式乘法的密集程度实现乘累加器流水深度的自适应调节。基于可编程逻辑阵列(FPGA)的全系统仿真表明,数据感知的乘累加器可提升APE应用性能11%,能效提升15%。⑵数据预取的效果与应用程序有很大关系,固定的预取方式不能使所有的应用获益,反而会因为一些无用的带宽消耗或者高速缓存污染降低性能。合适预取选择问题实际是参数空间的优化问题,因此,本文结合机器学习方法对预取单元进行优化,提出了一种基于决策树的自调数据预取方法。该方法通过学习应用程序的访存行为特征属性,对预取的配置进行分类;并在运行时动态检测程序运行阶段,当检测到应用的访存行为发生较大变化时,根据应用访存行为属性预测该阶段的最佳配置。采用SPEC CPU2006、EEMBC、Olden标准评测集对学习机制进行训练并验证,软件仿真结果表明,基于决策树的自调数据预取比无预取系统性能提升14%,系统能效提升24%,比经典的预取机制(CDP,GHB, Stream)性能都有所提升。⑶随着未来应用的发展,未来系统对数据处理能力、系统的能效及自调管理有更高要求。针对未来大规模负载应用的特点,实现了多核系统中的数据处理单元的软件建模,该数据处理单元综合考虑能效的权衡,采用基于ARM v8指令集双发射4路同时多线程的顺序处理器结构。在功能模拟器QEMU的基础上对性能模型建模,包括对数据处理单元的流水线、高速缓存、分支预测器、顺序执行调度器,实现了可扩展的单核全系统模拟器。采用SPEC CPU2006评测集对模拟器速度和结构设计进行了评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号