指令级并行
指令级并行的相关文献在1997年到2018年内共计98篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术
等领域,其中期刊论文76篇、会议论文18篇、专利文献112358篇;相关期刊39种,包括电子学报、计算机工程、计算机工程与科学等;
相关会议14种,包括2012全国高性能计算学术年会、2009年全国理论计算机科学学术年会、北京邮电大学信息工程学院第二届学术年会等;指令级并行的相关文献由214位作者贡献,包括汤志忠、张民选、陈书明等。
指令级并行—发文量
专利文献>
论文:112358篇
占比:99.92%
总计:112452篇
指令级并行
-研究学者
- 汤志忠
- 张民选
- 陈书明
- 周兴铭
- 容红波
- 李涛
- 田祖伟
- 冀蓉
- 孙海燕
- 张兆庆
- 王飙
- 程旭
- 郑启龙
- 陈跃跃
- 于学荣
- 冯艳
- 刘元锋
- 刘春林
- 唐遇星
- 张宝印
- 戴紫彬
- 扈啸
- 易学渊
- 曹小林
- 李学明
- 李文龙
- 杨剑新
- 杨欣
- 林冰
- 武林平
- 王海晨
- 王霁
- 罗红兵
- 胡勇华
- 胡定磊
- 莫则尧
- 蒲林
- 赵克佳
- 赵祥模
- 路冬冬
- 连瑞琦
- 邓让钰
- 邓鹍
- 陈怒兴
- LI DongSheng
- LI HuiBa
- LIU ShengYun
- LU XiCheng
- LUO Hong-Bing
- PENG YuXing
-
-
刘有耀;
张仲伟
-
-
摘要:
通过对多核处理器体系结构、多核单元内部结构设计及指令级并行运行模式等方面进行深入研究,探索适用于无线通信的多核并行处理器.在分析SIMD体系结构的基础上,从体系结构系统设计到处理单元PE内部电路设计,给出一种多核处理器体系结构,在处理单元中能够实现指令级并行(Instruction-level Parallelism,ILP)和数据级并行(Data-level Parallelism,DLP)处理.%Through in-depth study of the multi-core processor architecture,the internal structure design of multi-core units and the instruction level parallel operation mode,it's to explore suitable for wireless communication of multi-core parallel processor.And based on analysis of the SIMD architecture,from an architectural system design to the processing unit PE internal circuit design,get a multi-core processor architecture,and instruction level parallelism and data level parallelism can be implemented in the processing unit.
-
-
王玉林;
郑启龙
-
-
摘要:
魂芯DSP处理器是一款32 bit静态超标量、分簇结构的、支持SIMD的VLIW处理器.魂芯DSP芯片有4个执行簇和3个内存块,但簇间数据传输和寻址会占用总线带宽.魂芯DSP上每个簇中有大量的计算部件,但是现有的编译器框架中指令调度算法是针对非分簇结构的,无法充分利用魂芯DSP的分簇结构特点,产生出高效的指令级并行代码.根据魂芯处理器架构分簇的特点,提出了在魂芯DSP上进行指令分簇和指令调度的启发式算法,并且在开源Open64编译器框架上进行了实现.实验结果表明,该算法在魂芯DSP编译器上的实现可以显著提高一些在DSP上有着计算密集型程序的性能.
-
-
周佳佳;
李涛;
黄小康
-
-
摘要:
多核同时多线程处理器(SMT_PAAG)是用于图形、图像及数字信号处理的一种多核处理器.基于这种处理器提出了一种硬件线程调度器,该调度器采用同时多线程技术,最多可同时执行四个线程,支持八个线程阻塞模式下的快速上下文切换.这样避免了因阻塞带来的等待问题,能够有效提高处理器的工作效率和资源利用率.通过在处理器上运行图形处理算法进行性能评测.结果表明,SMT-PAAG处理器通过挖掘指令级并行和线程级并行,将处理器的性能提高了69.25%.
-
-
李乐;
李涛
-
-
摘要:
同时多线程处理器SMT(Simultaneous Multi-Threading)是用于图形、图像及数字信号处理的一种可以实现指令级并行(ILP)和线程级并行(TLP)的轻核处理器.针对这种处理器提出了一种结构简单的动态指令调度器,用于避免四个活跃线程中指令间的结构冲突和对一些特殊指令的不同要求的调度.结果表明,SMT处理器中的指令调度器通过调度各线程的执行先后顺序,四个线程被选中的概率均接近25%.
-
-
黄胜兵;
郑启龙;
郭连伟
-
-
摘要:
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持.由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能.实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比.
-
-
李涛;
杨婷;
易学渊;
蒲林;
钱博文;
黄光新;
黄虎才;
韩俊刚
-
-
摘要:
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机.该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理.采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算.尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌.该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务.
-
-
易学渊;
李涛;
蒲林
-
-
摘要:
In typical graphics rendering pipeline,the stages after projection such as back-surface culling,viewport transformation,raster-ization and pixel shading,only need fixed point arithmetic operations. But the fixed point arithmetic operation range needs to change in different stage of operation. Hence,a multi-format fixed point Processing Element ( PE) for graphics processing is designed. Such mecha-nisms of superscalar technology as dual-issue instruction word and multi-configuration pipeline are adopted when design,no general reg-isters and LD/ST operations because of direct accessing mode. Particularly,a blockbing bit is set in the instruction word for the control of interconnect communication mode,also a few format bits are set in data word for the control of multi-format fixed point data processing. Parallel processing means like Instruction Level Parallel ( ILP) and Data Level Parallel ( DLP) can be found in design of PE.%典型图形处理管线中的隐藏面消除、视窗变换、图元光栅化和像素着色等渲染阶段只需要定点运算,但是这些定点运算的数值范围需要变动。因此,设计了一种多格式定点处理单元来满足这些运算需求。设计中采用了指令双发射和多配置流水线等超标量处理机制,访存采用直接寻址,不含通用寄存器和LD/ST操作。值得一提的是,指令字中设置了阻塞标志位,用于控制互连通信模式,数据字中设置了格式标志位,用于控制多格式定点数据的处理。处理器实现了指令级并行、数据级并行等并行处理方式。
-
-
吴晨曦;
杨惠
-
-
摘要:
嵌入式应用中,单指令流多数据流(SIMD,single instruction multiple data)结构的向量处理器在蓬勃发展的同时,也面临着如何高效利用其丰富处理资源的问题.在SIMD的向量结构上,处理实际应用中无法被向量化运算的部分,尤其是很多非向量化的循环内部往往含有体间相关,使得SIMD结构的丰富运算资源处于空闲状态.因此,传统的SIMD结构受限于此类应用.提出了一种变型的向量处理器,在保持传统SIMD处理数据并行应用高效性的同时,能够高效地执行包含循环体间数据相关的代码段.实验结果表明,它能获得2.4倍的性能加速,而仅仅占用0.97%的面积开销.
-
-
王昊;
黄光红;
王向前
-
-
摘要:
BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现.本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令.实验结果表明,该分簇方法在Open64编译器上的实现可以取得比传统方法更好的效果.
-
-
王飞;
王俊;
李中升
-
-
摘要:
现代超标量RISC处理器大多具有多条可并发执行的指令流水线,目前流行的多核处理器更是将SIMD(Single-Instruction Multi-Data)作为一种提高性能的通用扩展. SIMD扩展流水线独立于标量流水线,并可与标量流水线并发执行.本文针对SIMD体系结构的特点,提出了一种编译器指导下的指令变换和调度优化策略,该方法将一定比例的SIMD指令转换为标量指令,并将混合的标量和SIMD指令分别调度到标量流水线和SIMD流水线并发执行,从而充分开发了程序的指令级并行.目前已在Open64开源编译器上实现了该优化,实验表明优化后可明显提高系统的指令级并行性.
-
-
周海亮;
高军;
张民选
- 《第十届计算机工程与工艺全国学术年会》
| 2006年
-
摘要:
随着计算机应用领域的不断拓宽,流应用正在逐渐成为微处理器的主要负载之一,面向流应用的流处理器也就应运而生,并成为高性能微处理器的一个重要研究方向.本文在分析流处理器三级存储模式的基础上,提出了一种适合于流处理器体系结构的软件流水实现机制.该机制显式地隐藏了软件流水的"填充"、"排空"代码,在很大程度上缓解了流处理器微码存储阵列的空间压力,而且极大程度地开发了程序的指令级并行性,从而使得流处理器中丰富的运算资源可以得到更加充分的利用.
-
-
-
LUO Hong-Bing;
罗红兵;
WU Lin-Ping;
武林平
- 《2013全国高性能计算学术年会》
| 2013年
-
摘要:
当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序性能通常只能达到机器峰值性能的5~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.本文从如何利用硬件事件进行程序指令级优化入手,提出了一种基于硬件事件的性能模型,揭示出程序性能与程序特征、微处理器特征的关系.基于该性能模型,在Xeon微处理器平台上对Euler等程序进行优化,gas1dapproxy等性能热点模块的执行时间可以缩短12%~61%.性能优化实验表明:使用该性能模型可以降低用户进行指令级并行性能优化的难度,指导用户选择正确的性能优化方向.
-
-
张宝印;
莫则尧;
曹小林
- 《2009年全国理论计算机科学学术年会》
| 2009年
-
摘要:
分子动力学数值模拟程序在现代高性能计算机上的计算效率往往很低,只能发挥系统峰值性能的几个百分点。本文对并行分子动力学程序PMD3D在联想深腾6800超级计算机上进行性能优化。通过性能分析,发现粒子相互作用力计算中相互关联的浮点运算严重影响了处理器的指令级并行效率,为此应用计算缓存的方法,将大量不规则的浮点计算进行缓存,达到一定规模后再进行向量化计算。这样使得单机性能在优化后提升4倍多,达到处理器峰值性能5.2GFlops的32.3%。最后,在深腾6800的64个节点的256个CPU上进行了并行性能测试,达到峰值运算性能1.3万亿次的27%。
-
-
冀蓉;
张民选;
邓让钰;
蒋江
- 《2004年全国计算机体系结构学术会议》
| 2004年
-
摘要:
值预测(VP,ValuePrediction)和指令重用(IR,InstructionReuse)是两种通过开发程序执行结果冗余解决数据相关的新技术.本文首先从分析程序执行的行为入手,深入剖析了VP和IR的技术特性,重点分析了它们与传统技术相比所具有的开发指令级并行的潜能,然后研究了它们与微体系结构其他特征间的相互影响,最后评估了这些技术对微处理器整体性能的影响.
-
-
XU Dong-Peng;
徐东鹏;
ZHENG Qi-Long;
郑启龙
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.
-
-
XU Dong-Peng;
徐东鹏;
ZHENG Qi-Long;
郑启龙
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.
-
-
XU Dong-Peng;
徐东鹏;
ZHENG Qi-Long;
郑启龙
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.
-
-
XU Dong-Peng;
徐东鹏;
ZHENG Qi-Long;
郑启龙
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.
-
-
XU Dong-Peng;
徐东鹏;
ZHENG Qi-Long;
郑启龙
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.