This paper proposes an instruction pre-execution scheme that reduces latency and early scheduling of loads for a high performance processor. Our scheme exploits the difference between the available amount of instruction-level parallelism with an unlimited number of physical registers and that with an actual number of physical registers. We introduce a scheme called two-step physical register deallocation. Our scheme deallocates physical registers at the renaming stage as a first step, and eliminates pipeline stalls caused by a physical register shortage. Instructions wait for the final deallocation as a second step in the instruction window. While waiting, the scheme allows pre-execution of instructions. This enables prefetching of load data and early calculation of memory effective addresses. In particular, our execution-based scheme has the strength on prefetch of data with an irregular access pattern. Considering the strength of an automatic prefetcher for a regular access pattern, combiningit with our scheme offers the best use of our scheme. The evaluation results show that the combined scheme significantly improve performance over a processor with an automatic prefetcher.
本文提出了一种指令预执行方案,该方案可减少高性能处理器的延迟和负载的早期调度。我们的方案利用了无限数量的物理寄存器与实际数量的物理寄存器之间的可用指令级并行量之间的差异。我们介绍了一种称为两步物理寄存器重新分配的方案。作为第一步,我们的方案在重命名阶段取消了物理寄存器的分配,并消除了由于物理寄存器不足而造成的流水线停顿。指令等待最终释放,作为指令窗口中的第二步。在等待期间,该方案允许预先执行指令。这样可以预取负载数据并及早计算存储器有效地址。特别是,我们的基于执行的方案在具有不规则访问模式的数据预取方面具有优势。考虑到针对常规访问模式的自动预取器的优势,将其与我们的方案结合使用可以最好地利用我们的方案。评估结果表明,与采用自动预取器的处理器相比,该组合方案显着提高了性能。 P>
机译:两步物理寄存器解除分配中的节能预执行技术
机译:具有I / O调度的预执行数据预取
机译:用于数据预取的软件控制的自适应预执行
机译:通过使用两步物理寄存器释放的指令预先执行数据预取和地址预先计算
机译:利用关键路径指令提高l1数据高速缓存和寄存器文件的功能。
机译:比较针对久坐行为和身体活动的群体差异的研究中的标准数据和成分数据分析的比较
机译:通过具有两步物理寄存器释放的指令预执行来进行数据预取和地址预计算
机译:IBm个人计算机上16兆字节物理空间内的大数据块的快速移动:aT型