您现在的位置：首页> 研究主题> SIMD

SIMD

SIMD的相关文献在1989年到2022年内共计429篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、肿瘤学等领域，其中期刊论文168篇、会议论文14篇、专利文献247篇；相关期刊92种，包括信息工程大学学报、电子产品世界、计算机工程等；相关会议13种，包括2010年全国高性能计算学术年会(HPC china2010)、第四届和谐人机环境联合学术会议、2006年全国第六届嵌入式系统学术年会等；SIMD的相关文献由899位作者贡献，包括陈书明、万江华、彭元喜等。

SIMD—发文量

期刊论文>

论文：168篇占比：39.16%

会议论文>

论文：14篇占比：3.26%

专利文献>

论文：247篇占比：57.58%

总计：429篇

SIMD—发文趋势图

SIMD
-研究学者

陈书明
万江华
彭元喜
赵荣彩
刘衡竹
郭阳
V·戈帕尔
阳柳
陈海燕
威廉·C·莫耶
方滨兴
雷元武
侯永生
杨惠
胡铭曾
艾瑞克·韦恩·马胡林
隋兵才
J·豪森
J·里德肖
倪晓强
姚远
季振洲
布赖恩·杰夫里·卢卡斯
张小云
彭林
李丽
李春江
肯特·唐纳德·莫特
菲利普·E·马伊
詹姆斯·M·诺里斯
雷蒙德·B·埃西克四世
高志勇
黄春
A·甲雅拉
C·涂
D·H·巴特莱
D·金
E·奥兹图科
G·M·沃尔里齐
G·孙达拉拉彦
H·谢赫
J·D·吉尔福德
J·L·奈
J·W·戈楼茨巴茨
K·S·雅普
M·G·迪克森
M·琴纳坤达
P·肖
R·J·尼茨卡
S·M·格尔雷

SIMD
-相关主题

SIMD
-相关期刊

SIMD
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(28)
2021
(31)
2020
(2)
2019
(2)
2018
(1)
2017
(4)
2016
(7)
2015
(7)
2014
(12)
2013
(11)
2012
(12)
2011
(9)
2010
(9)
2009
(10)
2008
(5)
2007
(13)
2006
(9)
2005
(5)
2004
(7)
2003
(6)
2002
(1)
2001
(4)
2000
(6)
1999
(1)
1998
(1)
1997
(2)
1996
(3)
1993
(2)
1992
(3)
1991
(1)
1990
(1)
1989
(1)

期刊

收录数据库

作者

关键词

SIMD
(181)
VLIW
(13)
DSP
(8)
向量化
(7)
自动向量化
(7)
FPGA
(6)
MMX
(6)
SSE
(6)
图像处理
(5)
并行
(5)
并行处理
(5)
并行算法
(5)
3DNow
(4)
GPU
(4)
VLSI
(4)
仿真
(4)
依赖关系分析
(4)
信号处理
(4)
多媒体
(4)
指令集
(4)
数字信号处理
(4)
数字信号处理器
(4)
数据重组
(4)
算法
(4)
AVX
(3)
AVX2
(3)
Advanced
(3)
Architecture
(3)
Architectures
(3)
Extensions
(3)
SHA-256
(3)
Vector
(3)
可重构
(3)
多核
(3)
媒体处理器
(3)
并行程序设计
(3)
并行计算
(3)
数据级并行
(3)
流处理器
(3)
计算机
(3)
阵列机
(3)
ADSP21161
(2)
ARM V8架构
(2)
AVS
(2)
Competition
(2)
DCT
(2)
DRC
(2)
DSP处理器
(2)
GCC
(2)
H.264
(2)

申请/权力人

;

1. ARM NEON平台的D2C算法实现与优化
- 蒙敏荣；张勰
- 摘要：基于ARM Cortex A53处理器平台,对NEON协处理器的指令和编程优化方法等技术进行了分析,并以此平台进行了D2C(Depth to Color)算法的优化实现。在树莓派3B+SDK开发板上进行了充分实验,测试结果表明,NEON/VFP协处理器在保持高的算法精度的同时可以较好地提高D2C算法的运算效率,并且保持低功耗、低成本。
- ARM NEON
- SIMD
- D2C
- 矢量化
- 树莓派3B+
2. 面向龙芯3A体系结构的Libjpeg库优化
- 何颂颂；彭飞；林传文；陶剑文
- 摘要：基于龙芯处理器的体系结构和指令系统,提出代码级和指令级优化方案,提升龙芯系列计算机的图像编码和解码速度。分析Libjpeg编解码算法的并行特性,重复使用龙芯处理器的SIMD加速硬件资源进行数据级并行优化。实验结果表明,JPEG编码速率提高70%左右,解码速率提高200%以上。工作成果已经提交到Libjpeg-turbo的主分支,极大改善了国产龙芯系列计算机中多媒体相关应用的用户体验。
- Libjpeg
- 龙芯3A
- 代码优化
- SIMD
3. 海洋环流模式NEMO的代码现代化
- 生昌；刘卫国；宋振亚；杨晓丹
- 摘要：海洋数值模式是精准海洋环境预报的核心手段。随着计算分辨率的不断提高,海洋数值模式对计算性能的要求也越来越高。为了提高模式计算性能,充分发挥现代计算机的特点,选取海洋环流模式NEMO开展了代码现代化优化方案在海洋环流模式中的应用研究。首先使用Intel性能分析工具对模式的计算性能进行了分析;随后,针对热点函数,开展了编译选项优化、标量串行代码优化、SIMD优化、内存带宽优化以及多进程扩展。结果显示:经过以上优化步骤,在不增加任何硬件成本的前提下,模式整体性能可提升31%,且在多进程下表现出了较好的负载均衡性。这表明,本研究采用的优化策略是一种切实可行的方法。在此基础上,进一步对代码现代化过程中出现的显著影响计算效率的问题,如大量指针的使用阻止矢量化、循环嵌套过多、内存带宽占用过高等,开展了分析和讨论,为未来模式的设计和改进提供了参考和建议。
4. 海洋环流模式NEMO的代码现代化
- 周生昌；刘卫国；宋振亚；杨晓丹
- 摘要：海洋数值模式是精准海洋环境预报的核心手段.随着计算分辨率的不断提高,海洋数值模式对计算性能的要求也越来越高.为了提高模式计算性能,充分发挥现代计算机的特点,选取海洋环流模式NEMO开展了代码现代化优化方案在海洋环流模式中的应用研究.首先使用Intel性能分析工具对模式的计算性能进行了分析;随后,针对热点函数,开展了编译选项优化、标量串行代码优化、SIMD优化、内存带宽优化以及多进程扩展.结果显示:经过以上优化步骤,在不增加任何硬件成本的前提下,模式整体性能可提升31％,且在多进程下表现出了较好的负载均衡性.这表明,本研究采用的优化策略是一种切实可行的方法.在此基础上,进一步对代码现代化过程中出现的显著影响计算效率的问题,如大量指针的使用阻止矢量化、循环嵌套过多、内存带宽占用过高等,开展了分析和讨论,为未来模式的设计和改进提供了参考和建议.
5. 基于飞腾M6678的向量数学库优化技术研究
- 王正行；曾令将
- 摘要：不同于传统的标量数学计算,向量数学库提供的加速比高,能够充分利用飞腾M6678的并行计算能力.文章比较了现有的数学函数库,包括标准C数学函数库和TI公司的MAHLIB函数库的运算性能,发现MATHLIB函数库部分函数向量化程度低,可向量化的空间较大.向量函数库选择级数法实现,为使用飞腾M6678的指令集RCPSP和RSQRSP,引入了牛顿迭代法.以开平方运算为例,文章通过深入分析单次循环体内资源占用的情况,详细说明了如何确定一个函数的计算瓶颈.根据瓶颈的不同,选择对应的SIMD优化方法,以及基于飞腾M6678硬件特性的优化方法,构建了一个高性能的向量数学库.测试结果表明,向量数学库典型函数的性能提升可达150％至700％.
6. 基于SIMD的Square Root函数高性能实现与优化
- 赵永浩；贾海鹏；张云泉；张思佳
- 摘要：在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用.随着A RM架构处理器得到广泛的使用,研究A RM架构下的函数快速算法实现变得更加关键.当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景.因此,对平方根函数进行了高性能的实现与优化.通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,相比于libm算法库,实现的平方根函数的,性能提高了约7倍,相比于A RM V8提供的计算平方根的指令在性能上提高了约3倍.
7. DSP处理器上的高效串匹配实现
- 叶鸿；顾乃杰；林传文
- 摘要：字符串匹配是生物识别、入侵检测的基础,也是大数据互联网时代的研究热点.随着现代信息技术的发展,日常工作生活中移动及手持小型化设备的使用越发普遍.这些设备的应用场景中包含大量有关串匹配的需求,如人脸识别、实时数据查询等.串匹配算法的实时和准确性决定了使用场景的范围,因此在DSP处理器等移动小型化设备的嵌入式处理器上实现高效串匹配算法的问题变得十分迫切.该文针对DSP处理器因缺乏逻辑判断与跳转指令,难以支持高效串匹配运算的问题,提出了一种基于DSP平台特点的改进串匹配算法.该算法采用位并行的思路,在DSP处理器上实现了串匹配算法的并行化.同时通过前序启动、基于VLIW的数学运算替代逻辑判断、Q-grams等优化手段,提高该算法对于DSP平台的适应性与执行效率,最终实现了一种基于HXDSP的高效串匹配算法VBNDM2.实验结果表明,本算法针对DSP平台,有效地提高了串匹配的效率,实现了算法的高效并行化.
- DSP
- 串匹配
- VLIW
- SIMD
- 位并行
8. ZUC算法软件快速实现
- 张宇鹏；高莹；严宇；刘翔
- 摘要： ZUC算法,即ZUC-128流密码算法,是首个成为国际商业密码标准的国产密码算法.目前,ZUC-128算法和后续ZUC-256算法的硬件优化工作卓有成效,其IP核的运行速度可以达到100 Gbps.但对ZUC算法软件实现速度的研究一直比较缓慢,相关研究不多.为优化ZUC算法的软件实现速度,我们尝试了 8种软件优化方式.通过实验分析得知,使用多线程并行的方式优化ZUC算法反而会降低算法的运行效率,且有些方法单独使用有效但与其他方法组合之后算法的实现速度不增反减.因此需进行优化组合,通过实验最终选择了顺序组合:(1)使用优化函数的调用过程;(2)编译器优化;(3)延迟取模;(4)合并S盒,探索出了一种ZUC算法软件优化方法的高效组合方式.利用这种高效组合方式,在Intel Core i7-8750H@2.20 GHz处理器上,生成长密钥流时,ZUC算法的软件实现速度达到4.22 Gbps.和已有的最新结果3.34 Gbps相比速度提高26％,本方法同样适用于ZUC-256流密码算法的软件提速.
- ZUC算法
- 软件优化
- 流密码
- SIMD
9. ZUC-256算法的快速软件实现
- 白亮；贾文义；朱桂桢
- 摘要：序列密码算法ZUC-128是3GPP机密性算法EEA3和完整性算法EIA3的核心.ZUC-256算法是ZUC-128的升级版本,以应对5G通信安全性需要和后量子技术安全挑战.本文探讨ZUC-256流密码算法在x86架构处理器上的软件优化实现方法.我们利用单指令多数据(Single Instruction Multiple Data,SIMD)技术在ZUC-256密钥流算法已有的快速软件实现的基础上,作更进一步的优化,并给出消息认证码生成算法的软件优化实现.在Intel Xeon Gold 6128处理器上,优化后的密钥流算法在16个密钥或16个IV条件下的软件实现性能可以达到21 Gbps,超过了 5G通信加密标准中的下行速度要求.通过实验对比,密钥流算法的实现性能在已有的结果上最多提升了 56％;同无优化的消息认证码实现方法相比,我们利用SIMD技术的软件实现性能提高了 20倍.
10. 基于SIMD的三角函数高性能实现与优化
- 姚建宇；张祎维；张广婷；贾海鹏
- 摘要：作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值.对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化.首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77～6.26倍的时间性能提升,相比ARM_M算法库有1.34～1.5倍的时间性能提升.

1. SIMD技术与向量数学库研究
- 解庆春；张云泉；王可；李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》 | 2010年
- 摘要：首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
- 向量化
- SSE
- MMX
- 3DNow
- SIMD
2. SIMD技术与向量数学库研究
- 解庆春；张云泉；王可；李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》 | 2010年
- 摘要：首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
- 向量化
- SSE
- MMX
- 3DNow
- SIMD
3. SIMD技术与向量数学库研究
- 解庆春；张云泉；王可；李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》 | 2010年
- 摘要：首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
- 向量化
- SSE
- MMX
- 3DNow
- SIMD
4. SIMD技术与向量数学库研究
- 解庆春；张云泉；王可；李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》 | 2010年
- 摘要：首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
- 向量化
- SSE
- MMX
- 3DNow
- SIMD
5. SIMD技术与向量数学库研究
- 解庆春；张云泉；王可；李炎
- 《2010年全国高性能计算学术年会(HPC china2010)》 | 2010年
- 摘要：首先,结合Intel、AMD 和IBM 处理器,介绍了SIMD 向量化技术,以及各自特点.其次,在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK 函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10.最后,通过对测试结果对比,发现不同数学库中的向量函数之间的性能方面也存在着差异,并对差异原因进行了分析.得出影响性能差异主要是处理器架构,向量计算计算单元个数和访存等因素造成的.
- 向量化
- SSE
- MMX
- 3DNow
- SIMD
6. 多视点视频编码中的SIMD优化研究
- 李彦洁；庞一；孙立峰
- 《第四届和谐人机环境联合学术会议》 | 2008年
- 摘要：多视点视频是当前研究的热门领域，应用前景比较广泛。本文中主要讨论基于IBM 的 CELL 多核处理机的多视点视频编码（Multi-view Video Coding，简称 MVC）中 CELL 支持的 SIMD 指令的应用。本文总结了一些使用 SIMD 指令进行优化的思想，分析使用 SIMD 指令的预期效果。依据这些 SIMD 优化思想，本文提出一个 SIMD 优化算法，来实际说明 SIMD 优化的应用。并且通过列举实验数据说明在DCT和帧间预测模式两部分中使用SIMD优化之后，此部分的速度为未使用SIMD 的情况下的大约 2.28 倍。从而证明 SIMD 指令的应用潜能。同时本文虽然基于 MVC，但是总结的 SIMD 使用思想，对 CELL 上的 SIMD 优化具有普遍意义。
- SIMD
- 多视点视频编码
- cell
- DCT
- 预测模式
7. 多视点视频编码中的SIMD优化研究
- 李彦洁；庞一；孙立峰
- 《第四届和谐人机环境联合学术会议》 | 2008年
- 摘要：多视点视频是当前研究的热门领域，应用前景比较广泛。本文中主要讨论基于IBM 的 CELL 多核处理机的多视点视频编码（Multi-view Video Coding，简称 MVC）中 CELL 支持的 SIMD 指令的应用。本文总结了一些使用 SIMD 指令进行优化的思想，分析使用 SIMD 指令的预期效果。依据这些 SIMD 优化思想，本文提出一个 SIMD 优化算法，来实际说明 SIMD 优化的应用。并且通过列举实验数据说明在DCT和帧间预测模式两部分中使用SIMD优化之后，此部分的速度为未使用SIMD 的情况下的大约 2.28 倍。从而证明 SIMD 指令的应用潜能。同时本文虽然基于 MVC，但是总结的 SIMD 使用思想，对 CELL 上的 SIMD 优化具有普遍意义。
- SIMD
- 多视点视频编码
- cell
- DCT
- 预测模式
8. 多视点视频编码中的SIMD优化研究
- 李彦洁；庞一；孙立峰
- 《第四届和谐人机环境联合学术会议》 | 2008年
- 摘要：多视点视频是当前研究的热门领域，应用前景比较广泛。本文中主要讨论基于IBM 的 CELL 多核处理机的多视点视频编码（Multi-view Video Coding，简称 MVC）中 CELL 支持的 SIMD 指令的应用。本文总结了一些使用 SIMD 指令进行优化的思想，分析使用 SIMD 指令的预期效果。依据这些 SIMD 优化思想，本文提出一个 SIMD 优化算法，来实际说明 SIMD 优化的应用。并且通过列举实验数据说明在DCT和帧间预测模式两部分中使用SIMD优化之后，此部分的速度为未使用SIMD 的情况下的大约 2.28 倍。从而证明 SIMD 指令的应用潜能。同时本文虽然基于 MVC，但是总结的 SIMD 使用思想，对 CELL 上的 SIMD 优化具有普遍意义。
- SIMD
- 多视点视频编码
- cell
- DCT
- 预测模式
9. 多视点视频编码中的SIMD优化研究
- 李彦洁；庞一；孙立峰
- 《第四届和谐人机环境联合学术会议》 | 2008年
- 摘要：多视点视频是当前研究的热门领域，应用前景比较广泛。本文中主要讨论基于IBM 的 CELL 多核处理机的多视点视频编码（Multi-view Video Coding，简称 MVC）中 CELL 支持的 SIMD 指令的应用。本文总结了一些使用 SIMD 指令进行优化的思想，分析使用 SIMD 指令的预期效果。依据这些 SIMD 优化思想，本文提出一个 SIMD 优化算法，来实际说明 SIMD 优化的应用。并且通过列举实验数据说明在DCT和帧间预测模式两部分中使用SIMD优化之后，此部分的速度为未使用SIMD 的情况下的大约 2.28 倍。从而证明 SIMD 指令的应用潜能。同时本文虽然基于 MVC，但是总结的 SIMD 使用思想，对 CELL 上的 SIMD 优化具有普遍意义。
- SIMD
- 多视点视频编码
- cell
- DCT
- 预测模式
10. 多视点视频编码中的SIMD优化研究
- 李彦洁；庞一；孙立峰
- 《第四届和谐人机环境联合学术会议》 | 2008年
- 摘要：多视点视频是当前研究的热门领域，应用前景比较广泛。本文中主要讨论基于IBM 的 CELL 多核处理机的多视点视频编码（Multi-view Video Coding，简称 MVC）中 CELL 支持的 SIMD 指令的应用。本文总结了一些使用 SIMD 指令进行优化的思想，分析使用 SIMD 指令的预期效果。依据这些 SIMD 优化思想，本文提出一个 SIMD 优化算法，来实际说明 SIMD 优化的应用。并且通过列举实验数据说明在DCT和帧间预测模式两部分中使用SIMD优化之后，此部分的速度为未使用SIMD 的情况下的大约 2.28 倍。从而证明 SIMD 指令的应用潜能。同时本文虽然基于 MVC，但是总结的 SIMD 使用思想，对 CELL 上的 SIMD 优化具有普遍意义。
- SIMD
- 多视点视频编码
- cell
- DCT
- 预测模式

1. 一种基于SIMD指令的NVM本地文件管理系统及方法
- 中山大学
- 公开公告日期：2022-03-25
- 摘要：本发明公开了一种基于SIMD指令的NVM本地文件管理系统及方法，该系统包括：基于线性哈希的目录数据块索引模块，用于获取文件所在目录的逻辑块号；基于静态哈希的全局数据块管理模块，用于将逻辑块号转换成物理块号，得到数据块；基于SIMD指令优化的目录块内索引模块，用于在数据块内利用SIMD优化进行块内加速查找。该方法包括应用于上述系统的文件创建、文件链接和文件读取步骤。本发明针对NVM设备的读写特性设计了新的数据块及目录管理方法，并结合SIMD指令优化提高文件系统性能。本发明作为一种基于SIMD指令的NVM本地文件管理系统及方法，可广泛应用于文件管理领域。
2. 一种基于SIMD的卷积运算的并行优化方法
- 北京君正集成电路股份有限公司
- 公开公告日期：2022-01-04
- 摘要：本发明针对SIMD单指令多数据特性，提出提供一种基于SIMD的卷积运算的并行优化方法。在减少运算指令和内存读取的基础上，对feature从宽度方向进行分块，分块的宽度BN由可用的SIMD寄存器数决定，这是为了保证一次内层卷积运算数据都在寄存中，通过feature的合理分块，能够在每个块计算中复用kernel和feature，内存访问次数为原来访问次数的1/BN。具体地，本发明所述方法按块计算输出，对特征向量从宽度方向进行分块，每块的宽度由并行运算所使用的寄存器数决定，根据SIMD指令通过循环优化，在每个块中复用卷积核和部分特征向量，以保证一次内层卷积运算时所有共享数据均在寄存器中，不产生额外访存操作。
3. 一种基于位运算和SIMD并行操作的字符串过滤算法
- 东北大学秦皇岛分校
- 公开公告日期：2022-03-01
- 摘要：本发明提供一种基于位运算和SIMD并行操作的字符串过滤算法，属于字符串匹配和比对领域。该字符串过滤算法在编辑距离矩阵中寻找计算规律，将编辑距离矩阵与偏移汉明掩码原理相结合，从理论上减少位操作的调用次数；计算过程中使用的树形计算结构可以有效的避免重复计算和降低空间复杂度；使用SSE指令集中的位操作函数进行操作，从底层加速位运算的速度，提高算法的实际运行速度。本发明有效解决现有技术中存在的问题，在进行字符串相似性查询前，过滤掉错误阈值不满足条件的字符串，避免消耗不必要的计算资源。本发明相比于现有技术，计算的字符串对可以具有不同的长度，具有更准确的过滤效果，更小的计算复杂度，并且不会错误过滤正确的字符串对。
4. 重复使用相邻SIMD单元用于快速宽结果生成
- 国际商业机器公司
- 公开公告日期：2022-04-15
- 摘要：用于处理具有扩展结果的指令的系统包括第一指令执行单元，其具有用于执行处理器指令的第一结果总线。该系统还包括第二指令执行单元，其具有用于执行处理器指令的第二结果总线。第一指令执行单元被配置成在处理器指令的执行期间，如果第二指令执行单元不被用于执行处理器指令并且如果所接收的处理器指令产生具有大于第一结果总线的宽度的数据宽度的结果，则选择性地将由第一指令执行单元计算的结果的一部分发送到第二指令执行单元。第二指令执行单元被配置为接收由第一指令执行单元计算的结果的该部分，且将所接收的结果放在第二结果总线上。
5. SIMD乘法器及数字处理器
- 上海登临科技有限公司
- 公开公告日期：2022-04-12
- 摘要：本公开提供了新的SIMD乘法器和数字处理器，其中输入单元根据控制信号将被乘数和乘数分配至每个部分积生成单元或者与其对应的常量乘法单元；每个选择器根据控制信号选择将部分积生成单元或其对应的常量乘法单元产生的部分积提供至部分积压缩单元；部分积压缩单元将从各个选择器接收的部分积进行压缩得到的信号输出给与各个部分积生成单元对应的加法器进行合并以产生第一积，并将对各选择器提供的所有部分积进行压缩得到的信号输出给最终积合成单元以产生第二积；输出单元根据控制信号选择输出多个第一积还是一个第二积。该方案复用了已有部件并通过少量硬件改动提高了乘法器的运算速度。
6. 兼容SIMD计算和浮点矩阵乘法的运算部件及其应用方法
- 中国人民解放军国防科技大学
- 公开公告日期：2022-05-20
- 摘要：本发明公开了一种兼容SIMD计算和浮点矩阵乘法的运算部件及其应用方法，运算部件包括可复用操作数堆的浮点和向量执行部件vfu0和vfu1，所述浮点和向量执行部件vfu0和vfu1均包括四个呈阵列状布置的乘加部件，四个乘加部件具有多个操作数以及结果旁路通道。本发明实现了一种兼容SIMD计算和浮点矩阵乘法的运算部件以及执行通路设计，以弥补通用处理器因计算效率和功耗等因素而缺少直接计算矩阵乘法的能力，而所提设计不仅能够兼容原有2×128的SIMD结构，满足微处理器内部对于计算部件的能耗，计算效率等条件，而且能通过原有部件以及旁路的重新设计，在通用处理器实现矩阵乘法功能。
7. 一种基于SIMD向量化的数据流软错误检测方法
- 南京航空航天大学
- 公开公告日期：2022-05-17
- 摘要：本发明公开了一种基于SIMD向量化的数据流软错误检测方法。包括以下步骤：将源程序编译成中间代码，并构建控制流图和分析数据流指令依赖关系，得到指令依赖顺序；对数据应用相应的数据向量化方法，将原始数据和冗余数据向量化,得到向量数据；对指令应用相应的指令向量化方法，得到向量指令；根据加固策略中的检查点应用相应的检查点规则，生成错误检测代码。本发明提出的方法主要思想是针对冗余执行的数据流算法效率低下问题，根据数据和指令化方法，对程序进行向量化处理，通过利用硬件SIMD数据并行性提升程序性能，根据检查点规则在相应位置生成错误检测代码，实现错误自动检测功能，具有现有方法一般不能检测缓存等部件软错误的优点。
8. SIMD处理器中的指令级上下文切换
- 苹果公司
- 公开公告日期：2022-09-02
- 摘要：本发明公开了涉及SIMD处理器中的上下文切换的技术。在一些实施方案中，一种装置包括流水线电路，该流水线电路被配置为执行包括在线程组内的一组单指令多数据(SIMD)线程中的线程中的图形指令。在一些具体实施中，上下文切换电路被配置为原子地：针对该SIMD组，使用一个或多个上下文切换寄存器保存程序计数器和指示该SIMD组中的线程是否活动的信息，针对该SIMD组将所有线程设置为活动状态，并且针对该SIMD组分支到处理程序代码。在一些实施方案中，该流水线电路被配置为执行该处理程序代码以保存该SIMD组的上下文信息，并且随后执行另一线程组的线程。所公开的技术可以允许指令级上下文切换，即使当某些SIMD线程是非活动的时也是如此。
9. 从多个寄存器中选择的SIMD操作数排列
- 苹果公司
- 公开公告日期：2022-07-29
- 摘要：本发明公开了与SIMD流水线之间的操作数路由有关的技术。在一些实施方案中，装置包括多个硬件流水线的集合，该多个硬件流水线的集合被配置为并行执行用于多个线程的单指令多数据(SIMD)指令，其中该指令指定第一架构寄存器和第二架构寄存器。在一些实施方案中，这些流水线包括被配置为使用该流水线的一个或多个流水线阶段来执行操作的执行电路。在一些实施方案中，这些流水线包括路由电路，该路由电路被配置为基于该指令从以下各项中选择用于该执行电路的第一输入操作数：来自另一流水线的线程专用存储装置的该第一架构寄存器的值和来自分配给另一流水线的线程的线程专用存储装置的该第二架构寄存器的值。在一些实施方案中，该路由电路可支持促进在一个或多个寄存器中存储图形帧的任意部分的移位和填充指令。
10. 多SIMD量子处理器中可靠性计算的前瞻性隐形传送
- 超威半导体公司
- 公开公告日期：2022-09-30
- 摘要：提供了一种用于在量子计算设备中处理量子位的技术。该技术包括：确定在第一周期中，第一量子处理区将执行不使用存储在该第一量子处理区中的量子位的第一量子操作；识别第二量子处理区，该第二量子处理区将在晚于该第一周期的第二周期执行第二量子操作，其中该第二量子操作使用该量子位；确定在该第一周期与该第二周期之间，在该第二量子处理区中不执行量子操作；以及将该量子位从该第一量子处理区移动到该第二量子处理区。

SIMD

SIMD—发文量

SIMD—发文趋势图

SIMD-研究学者

SIMD-相关主题

SIMD-相关期刊

SIMD-相关会议

SIMD
-研究学者

SIMD
-相关主题

SIMD
-相关期刊

SIMD
-相关会议