SIMD
SIMD的相关文献在1989年到2022年内共计429篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、肿瘤学
等领域,其中期刊论文168篇、会议论文14篇、专利文献247篇;相关期刊92种,包括信息工程大学学报、电子产品世界、计算机工程等;
相关会议13种,包括2010年全国高性能计算学术年会(HPC china2010)、第四届和谐人机环境联合学术会议、2006年全国第六届嵌入式系统学术年会等;SIMD的相关文献由899位作者贡献,包括陈书明、万江华、彭元喜等。
SIMD
-研究学者
- 陈书明
- 万江华
- 彭元喜
- 赵荣彩
- 刘衡竹
- 郭阳
- V·戈帕尔
- 阳柳
- 陈海燕
- 威廉·C·莫耶
- 方滨兴
- 雷元武
- 侯永生
- 杨惠
- 胡铭曾
- 艾瑞克·韦恩·马胡林
- 隋兵才
- J·豪森
- J·里德肖
- 倪晓强
- 姚远
- 季振洲
- 布赖恩·杰夫里·卢卡斯
- 张小云
- 彭林
- 李丽
- 李春江
- 肯特·唐纳德·莫特
- 菲利普·E·马伊
- 詹姆斯·M·诺里斯
- 雷蒙德·B·埃西克四世
- 高志勇
- 黄春
- A·甲雅拉
- C·涂
- D·H·巴特莱
- D·金
- E·奥兹图科
- G·M·沃尔里齐
- G·孙达拉拉彦
- H·谢赫
- J·D·吉尔福德
- J·L·奈
- J·W·戈楼茨巴茨
- K·S·雅普
- M·G·迪克森
- M·琴纳坤达
- P·肖
- R·J·尼茨卡
- S·M·格尔雷
-
-
蒙敏荣;
张勰
-
-
摘要:
基于ARM Cortex A53处理器平台,对NEON协处理器的指令和编程优化方法等技术进行了分析,并以此平台进行了D2C(Depth to Color)算法的优化实现。在树莓派3B+SDK开发板上进行了充分实验,测试结果表明,NEON/VFP协处理器在保持高的算法精度的同时可以较好地提高D2C算法的运算效率,并且保持低功耗、低成本。
-
-
何颂颂;
彭飞;
林传文;
陶剑文
-
-
摘要:
基于龙芯处理器的体系结构和指令系统,提出代码级和指令级优化方案,提升龙芯系列计算机的图像编码和解码速度。分析Libjpeg编解码算法的并行特性,重复使用龙芯处理器的SIMD加速硬件资源进行数据级并行优化。实验结果表明,JPEG编码速率提高70%左右,解码速率提高200%以上。工作成果已经提交到Libjpeg-turbo的主分支,极大改善了国产龙芯系列计算机中多媒体相关应用的用户体验。
-
-
生昌;
刘卫国;
宋振亚;
杨晓丹
-
-
摘要:
海洋数值模式是精准海洋环境预报的核心手段。随着计算分辨率的不断提高,海洋数值模式对计算性能的要求也越来越高。为了提高模式计算性能,充分发挥现代计算机的特点,选取海洋环流模式NEMO开展了代码现代化优化方案在海洋环流模式中的应用研究。首先使用Intel性能分析工具对模式的计算性能进行了分析;随后,针对热点函数,开展了编译选项优化、标量串行代码优化、SIMD优化、内存带宽优化以及多进程扩展。结果显示:经过以上优化步骤,在不增加任何硬件成本的前提下,模式整体性能可提升31%,且在多进程下表现出了较好的负载均衡性。这表明,本研究采用的优化策略是一种切实可行的方法。在此基础上,进一步对代码现代化过程中出现的显著影响计算效率的问题,如大量指针的使用阻止矢量化、循环嵌套过多、内存带宽占用过高等,开展了分析和讨论,为未来模式的设计和改进提供了参考和建议。
-
-
周生昌;
刘卫国;
宋振亚;
杨晓丹
-
-
摘要:
海洋数值模式是精准海洋环境预报的核心手段.随着计算分辨率的不断提高,海洋数值模式对计算性能的要求也越来越高.为了提高模式计算性能,充分发挥现代计算机的特点,选取海洋环流模式NEMO开展了代码现代化优化方案在海洋环流模式中的应用研究.首先使用Intel性能分析工具对模式的计算性能进行了分析;随后,针对热点函数,开展了编译选项优化、标量串行代码优化、SIMD优化、内存带宽优化以及多进程扩展.结果显示:经过以上优化步骤,在不增加任何硬件成本的前提下,模式整体性能可提升31%,且在多进程下表现出了较好的负载均衡性.这表明,本研究采用的优化策略是一种切实可行的方法.在此基础上,进一步对代码现代化过程中出现的显著影响计算效率的问题,如大量指针的使用阻止矢量化、循环嵌套过多、内存带宽占用过高等,开展了分析和讨论,为未来模式的设计和改进提供了参考和建议.
-
-
王正行;
曾令将
-
-
摘要:
不同于传统的标量数学计算,向量数学库提供的加速比高,能够充分利用飞腾M6678的并行计算能力.文章比较了现有的数学函数库,包括标准C数学函数库和TI公司的MAHLIB函数库的运算性能,发现MATHLIB函数库部分函数向量化程度低,可向量化的空间较大.向量函数库选择级数法实现,为使用飞腾M6678的指令集RCPSP和RSQRSP,引入了牛顿迭代法.以开平方运算为例,文章通过深入分析单次循环体内资源占用的情况,详细说明了如何确定一个函数的计算瓶颈.根据瓶颈的不同,选择对应的SIMD优化方法,以及基于飞腾M6678硬件特性的优化方法,构建了一个高性能的向量数学库.测试结果表明,向量数学库典型函数的性能提升可达150%至700%.
-
-
赵永浩;
贾海鹏;
张云泉;
张思佳
-
-
摘要:
在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用.随着A RM架构处理器得到广泛的使用,研究A RM架构下的函数快速算法实现变得更加关键.当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景.因此,对平方根函数进行了高性能的实现与优化.通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,相比于libm算法库,实现的平方根函数的,性能提高了约7倍,相比于A RM V8提供的计算平方根的指令在性能上提高了约3倍.
-
-
叶鸿;
顾乃杰;
林传文
-
-
摘要:
字符串匹配是生物识别、入侵检测的基础,也是大数据互联网时代的研究热点.随着现代信息技术的发展,日常工作生活中移动及手持小型化设备的使用越发普遍.这些设备的应用场景中包含大量有关串匹配的需求,如人脸识别、实时数据查询等.串匹配算法的实时和准确性决定了使用场景的范围,因此在DSP处理器等移动小型化设备的嵌入式处理器上实现高效串匹配算法的问题变得十分迫切.该文针对DSP处理器因缺乏逻辑判断与跳转指令,难以支持高效串匹配运算的问题,提出了一种基于DSP平台特点的改进串匹配算法.该算法采用位并行的思路,在DSP处理器上实现了串匹配算法的并行化.同时通过前序启动、基于VLIW的数学运算替代逻辑判断、Q-grams等优化手段,提高该算法对于DSP平台的适应性与执行效率,最终实现了一种基于HXDSP的高效串匹配算法VBNDM2.实验结果表明,本算法针对DSP平台,有效地提高了串匹配的效率,实现了算法的高效并行化.
-
-
张宇鹏;
高莹;
严宇;
刘翔
-
-
摘要:
ZUC算法,即ZUC-128流密码算法,是首个成为国际商业密码标准的国产密码算法.目前,ZUC-128算法和后续ZUC-256算法的硬件优化工作卓有成效,其IP核的运行速度可以达到100 Gbps.但对ZUC算法软件实现速度的研究一直比较缓慢,相关研究不多.为优化ZUC算法的软件实现速度,我们尝试了 8种软件优化方式.通过实验分析得知,使用多线程并行的方式优化ZUC算法反而会降低算法的运行效率,且有些方法单独使用有效但与其他方法组合之后算法的实现速度不增反减.因此需进行优化组合,通过实验最终选择了顺序组合:(1)使用优化函数的调用过程;(2)编译器优化;(3)延迟取模;(4)合并S盒,探索出了一种ZUC算法软件优化方法的高效组合方式.利用这种高效组合方式,在Intel Core i7-8750H@2.20 GHz处理器上,生成长密钥流时,ZUC算法的软件实现速度达到4.22 Gbps.和已有的最新结果3.34 Gbps相比速度提高26%,本方法同样适用于ZUC-256流密码算法的软件提速.
-
-
白亮;
贾文义;
朱桂桢
-
-
摘要:
序列密码算法ZUC-128是3GPP机密性算法EEA3和完整性算法EIA3的核心.ZUC-256算法是ZUC-128的升级版本,以应对5G通信安全性需要和后量子技术安全挑战.本文探讨ZUC-256流密码算法在x86架构处理器上的软件优化实现方法.我们利用单指令多数据(Single Instruction Multiple Data,SIMD)技术在ZUC-256密钥流算法已有的快速软件实现的基础上,作更进一步的优化,并给出消息认证码生成算法的软件优化实现.在Intel Xeon Gold 6128处理器上,优化后的密钥流算法在16个密钥或16个IV条件下的软件实现性能可以达到21 Gbps,超过了 5G通信加密标准中的下行速度要求.通过实验对比,密钥流算法的实现性能在已有的结果上最多提升了 56%;同无优化的消息认证码实现方法相比,我们利用SIMD技术的软件实现性能提高了 20倍.
-
-
姚建宇;
张祎维;
张广婷;
贾海鹏
-
-
摘要:
作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值.对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化.首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77~6.26倍的时间性能提升,相比ARM_M算法库有1.34~1.5倍的时间性能提升.
-
-
解庆春;
张云泉;
王可;
李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
-
-
解庆春;
张云泉;
王可;
李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
-
-
解庆春;
张云泉;
王可;
李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
-
-
解庆春;
张云泉;
王可;
李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
-
-
解庆春;
张云泉;
王可;
李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
-
-
-
-
-
-
-
-
-
-
-
-
-
- 南京航空航天大学
- 公开公告日期:2022-05-17
-
摘要:
本发明公开了一种基于SIMD向量化的数据流软错误检测方法。包括以下步骤:将源程序编译成中间代码,并构建控制流图和分析数据流指令依赖关系,得到指令依赖顺序;对数据应用相应的数据向量化方法,将原始数据和冗余数据向量化,得到向量数据;对指令应用相应的指令向量化方法,得到向量指令;根据加固策略中的检查点应用相应的检查点规则,生成错误检测代码。本发明提出的方法主要思想是针对冗余执行的数据流算法效率低下问题,根据数据和指令化方法,对程序进行向量化处理,通过利用硬件SIMD数据并行性提升程序性能,根据检查点规则在相应位置生成错误检测代码,实现错误自动检测功能,具有现有方法一般不能检测缓存等部件软错误的优点。
-
-
-