处理器数据处理单元的微结构优化方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术的普遍应用，日益复杂化的应用程序呈现出越发多样的瞬间运行特征。数据处理单元作为系统芯片的核心单元，它的性能与应用程序密切相关，而传统的固定结构设计不能使所有的应用程序都高效运行。本文结合应用程序的特征从数据处理单元（乘累加、预取、单元建模）方面探索优化处理器微结构的方法，使其能够根据应用程序的特征自适应调节。
　　本研究主要内容包括：⑴乘累加单元是微处理器和数据信号处理器中重要的计算单元，传统的乘累加单元通常将乘累加操作分隔为多个流水周期完成来提高吞吐量，但同时也会增加延时、能耗和面积的开销。基于无损音频应用APE中有70％以上的32x16模式的乘法，且不同模式间分布离散，本文提出数据感知的乘累加器结构，根据乘法操作数的宽度动态调整乘累加操作的流水线深度，降低乘法操作引起的停顿。设计了数据流跟踪模块实时检测乘法操作的数据宽度，乘累加单元根据32x16模式乘法的密集程度实现乘累加器流水深度的自适应调节。基于可编程逻辑阵列（FPGA）的全系统仿真表明，数据感知的乘累加器可提升APE应用性能11%，能效提升15%。⑵数据预取的效果与应用程序有很大关系，固定的预取方式不能使所有的应用获益，反而会因为一些无用的带宽消耗或者高速缓存污染降低性能。合适预取选择问题实际是参数空间的优化问题，因此，本文结合机器学习方法对预取单元进行优化，提出了一种基于决策树的自调数据预取方法。该方法通过学习应用程序的访存行为特征属性，对预取的配置进行分类；并在运行时动态检测程序运行阶段，当检测到应用的访存行为发生较大变化时，根据应用访存行为属性预测该阶段的最佳配置。采用SPEC CPU2006、EEMBC、Olden标准评测集对学习机制进行训练并验证，软件仿真结果表明，基于决策树的自调数据预取比无预取系统性能提升14%，系统能效提升24%，比经典的预取机制（CDP，GHB， Stream）性能都有所提升。⑶随着未来应用的发展，未来系统对数据处理能力、系统的能效及自调管理有更高要求。针对未来大规模负载应用的特点，实现了多核系统中的数据处理单元的软件建模，该数据处理单元综合考虑能效的权衡，采用基于ARM v8指令集双发射4路同时多线程的顺序处理器结构。在功能模拟器QEMU的基础上对性能模型建模，包括对数据处理单元的流水线、高速缓存、分支预测器、顺序执行调度器，实现了可扩展的单核全系统模拟器。采用SPEC CPU2006评测集对模拟器速度和结构设计进行了评价。

著录项

作者
周英;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科信息与通信工程
授予学位硕士
导师姓名刘鹏;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类微处理机;程序设计;
关键词
微处理器; 数据处理单元; 微结构; 优化方法;

相似文献

中文文献
外文文献
专利

1. 动态可重构阵列处理器数据流处理单元的设计与实现 [J] . 山蕊 ,李涛 ,蒋林 . 微电子学与计算机 . 2017,第1期
2. CEMS数据采集与处理单元优化策略分析 [J] . 章会龙 . 机电信息 . 2020,第027期
3. 多核处理器下 SKLOIS多级安全数据库查询方法研究 [J] . 叶苗 . 科学技术与工程 . 2017,第002期
4. 通用图形处理器线程调度优化方法研究综述 [J] . 何炎祥 ,张军 ,沈凡凡 . 计算机学报 . 2016,第009期
5. 嵌入式SIMD处理器上G.729的优化方法研究 [J] . 李图平 ,龚素文 . 计算机工程与应用 . 2007,第003期
6. 图形处理器片段处理单元的设计与实现 [C] . TIAN Ze ,田泽 ,ZHANG Shu . 2014年全国开放式分布与并行计算学术年会 . 2014
7. 基于网络处理器的协议处理单元数据平面规则匹配和负载均衡模块的设计与实现 [A] . 王矗 . 2008

处理器数据处理单元的微结构优化方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅