手语识别
手语识别的相关文献在1998年到2022年内共计184篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、语言学
等领域,其中期刊论文109篇、会议论文10篇、专利文献907645篇;相关期刊75种,包括科技资讯、中国生物医学工程学报、电脑知识与技术等;
相关会议9种,包括第五届全国可穿戴计算学术会议暨2015可穿戴与医学变革研讨会、第九届全国信息获取与处理学术会议、全国第八届计算语言学联合学术会议等;手语识别的相关文献由437位作者贡献,包括高文、吴江琴、姚鸿勋等。
手语识别—发文量
专利文献>
论文:907645篇
占比:99.99%
总计:907764篇
手语识别
-研究学者
- 高文
- 吴江琴
- 姚鸿勋
- 陈熙霖
- 姜峰
- 王春立
- 杨全
- 袁甜甜
- 赵德斌
- 原魁
- 彭进业
- 杨学
- 王斐
- 邹伟
- 孙丽娟
- 孙冠
- 张婷
- 张立材
- 曾振
- 李荣颉
- 王卫民
- 王新宇
- 肖秦琨
- 赵树森
- 陈香
- 韩冬
- C-H.李
- K.李
- K.许
- T.门内
- Z.冯
- Z.周
- 严焰
- 任骝
- 余静
- 刘云云
- 刘欢
- 刘蓉
- 叶俊有
- 吴幸
- 周冬跃
- 周宇
- 周正宇
- 周玉枭
- 夏春明
- 姜小花
- 封万俊
- 尹啟坊
- 张嘉言
- 张岱
-
-
孔乐毅;
张金艺;
楼亮亮
-
-
摘要:
生活中似是而非的手语表达语义含糊,欠规范的手势动作易混淆,同时从有限样本中难以获得充足特征用于训练手语识别模型,模型容易过拟合进而导致识别准确率较低.针对此问题,提出一种在有限样本条件下扩充欠规范手语识别容错特征的表示学习方法.该方法基于手语表达时人体骨架的运动信息,面向手语的时空关联性构建自编码器,从手语语料库中少量原始样本提取标准特征;然后利用生成对抗网络从标准特征产生大量欠规范样本,再通过自编码器扩充容错特征,构建新的容错特征集用于后续任务.实验结果表明:该方法在有限样本条件下,产生的欠规范手语样本语义清晰,新的容错特征集中不同类别的特征易于划分.在中文手语数据集上利用该方法构建容错特征集,训练手语识别模型达到97.5%的识别准确率,证明其具有广泛的应用前景.
-
-
杨淑莹;
赵敏;
郭杨杨;
田迪
-
-
摘要:
手语识别在聋哑人与正常人的交流中起至关重要的作用.为了解决传统手语识别算法由于手部特征多尺度造成的手势特征提取不充分、特征融合丢失细节信息等问题,提出了基于改进的EfficientDet-D0的手语检测识别算法.该算法首先在EfficientDet-D0的主干网络中增加了空间注意力机制,能更加准确的定位图像中的手部特征;其次在特征融合网络中,为了描述下采样丢失了的高频细节信息,利用拉普拉斯金字塔的思想,在自上而下的融合路径中将细节特征图进行融合,并增加跨级连接,使不同分辨率的特征信息得到充分利用,从而使获取的高级特征图信息更加丰富;最后使用迁移学习技术和Adam优化器训练整个网络.实验结果表明,该模型能够在各种背景下快速准确的识别出手语动作,最终准确率达到94.1%,比传统算法具有更高的准确率和更强的鲁棒性,同时基于该算法设计了手语双向翻译仿真网站,实际应用性强.
-
-
王佳晓
-
-
摘要:
当下基于深度学习的手语识别方法很多是参照了行为识别的方法,这种方法对整个视频进行特征提取,只关注了视频的全局信息而忽略了手语局部手势特征的学习,而基于传统算法的手语识别需要复杂的人工设计特征过程。为了加强对手语局部特征的学习,提取手部区域,将Mask R-CNN应用到手部区域检测任务中,通过在网络中融入跟踪模块,提升连续视频中的目标检测准确率。通过实验,在自行标注的数据集基础上,训练并测试目标检测网络与跟踪模块的性能,验证了手部区域检测模型的有效性。通过在网络中融入跟踪模块,提升连续视频中的目标检测准确率。
-
-
梅家俊;
王卫民;
戴兴雨
-
-
摘要:
在传统的一阶隐马尔可夫模型(HMM1)中,状态序列中的每一个状态被假设只与前一个状态有关,这样虽然可以简单、有效地推导出模型的学习和识别算法,但也丢失了许多从上文传递下来的信息.因此,在传统一阶隐马尔可夫模型的基础上,为了解决手语识别困难、正确率低的问题,提出了一种基于二阶隐马尔可夫模型(HMM2)的连续手语识别方法.该方法利用滑动窗口算法使手语视频切分成多个手语短视频,通过三维卷积模型得到手语短视频和手语词汇视频的特征向量,由此计算出二阶隐马尔可夫模型的相关参数,并运用Viterbi算法实现连续手语的识别.实验证明,基于二阶隐马尔可夫模型的手语识别取得了88.6%的识别准确率,高于传统的一阶隐马尔可夫模型.
-
-
杨观赐;
韩海峰;
刘赛赛;
蒋亚汶;
李杨
-
-
摘要:
目的 为提高连续手语识别准确率,缓解听障人群与非听障人群的沟通障碍。方法 提出了基于全局注意力机制和LSTM的连续手语识别算法。通过帧间差分法对视频数据进行预处理,消除视频冗余帧,借助ResNet网络提取特征序列。通过注意力机制加权,获得全局手语状态特征,并利用LSTM进行时序分析,形成一种基于全局注意力机制和LSTM的连续手语识别算法,实现连续手语识别。结果 实验结果表明,该算法在中文连续手语数据集CSL上的平均识别率为90.08%,平均词错误率为41.2%,与5种算法相比,该方法在识别准确率与翻译性能上具有优势。结论 基于全局注意力机制和LSTM的连续手语识别算法实现了连续手语识别,并且具有较好的识别效果及翻译性能,对促进听障人群无障碍融入社会方面具有积极的意义。
-
-
邢晋超;
潘广贞
-
-
摘要:
为解决健全人士与听障人士交互信息困难的问题,提出一种改进YOLOv5s网络模型的手语识别网络。应用K-means++算法提高先验锚框的尺寸匹配度,确定了最优先验锚框尺寸,实现先验锚框与实际物体的精确匹配;改进CBAM(convolution block attention module)注意力机制的通道域,解决其因降维而造成的通道信息缺失问题,并将改进后的CBAM加入到YOLOv5s的骨干网络中,使模型更加精准地定位和识别到关键的目标。将Cross Entropy Loss和Lovasz-Softmax Loss加权结合使用,使得网络在模型训练过程中更加稳定地收敛,在精准率上也得到了一定的提升。实验结果表明,与原本的YOLOv5s模型相比,改进后网络模型的平均精度均值(mean average precision,mAP)、精准率和召回率分别提升了3.44个百分点、3.17个百分点、1.89个百分点,有效地提高了手语识别网络的检测精确度。
-
-
基于时序信息对齐的连续手语跨模态知识蒸馏肖正业;
林世铨;
万修安;
方昱春;
倪兰
-
-
摘要:
近年来,连续手语识别的研究工作主要围绕RGB模态的数据展开,并且在现实场景数据集和实验室采集数据集上都取得了显著进展。然而,RGB模态的处理对设备计算能力具有很高的要求,而骨骼关键点模态则由于输入数据复杂度相对低,因此处理速度更快,只是在识别性能上弱于RGB模态。为了综合两种方法的优点,文中提出了一种基于时序关联信息对齐的跨模态知识蒸馏方法(Temporally Related Knowledge Distillation,TRKD)。该方法使用RGB模态的神经网络作为教师网络来指导使用骨骼关键点模态的学生网络,以快速准确地实现连续手语识别。由于教师网络对手语语境的理解能力十分值得学生网络学习,因此提出了具有先验信息以及自适应学习方法的图卷积网络来提取两类模态中的时序关联特征,并通过特征对齐来实现教学。在特征对齐过程中,在教师网络中引入可学习参数会导致教师提供的监督信息丢失。为了解决这个问题,所提出的TRKD方法引入了自监督学习中的对比学习来提供监督信息,从而实现了教师网络与学生网络在时序关联特征上的对齐。文中在Phoenix-2014手语数据集上组织了多项蒸馏任务,以验证所提方法的有效性。
-
-
闫思伊;
薛万利;
袁甜甜
-
-
摘要:
不同于有声语言,手语主要由连续的手势动作构成。手语识别与翻译是促成听障人士与健听人士之间无障碍交流的重要手段。手语识别与翻译研究任务通过对手语视频进行处理分析并以文字形式显示识别结果,是一种典型的多领域交叉研究。近年来,基于深度学习的手语识别与翻译研究获得了长足的进步。为了便于研究者们系统、全面地了解手语识别与翻译研究任务,分别以手语识别和手语翻译两大任务为主线,从三方面展开综述工作:首先,对具备代表性的手语识别和手语翻译研究工作进行分类总结并分析其特点;其次,归纳整理当前常用的不同国别手语识别与翻译研究数据集,分别从孤立词和连续手语语句两个角度进行分类,同时根据手语识别和手语翻译研究任务的差异性,介绍了对应的评价指标体系;最后,从手语视觉特征的有效信息提取、多线索权重分配、手语与自然语言语法对应及手语数据集资源等方面总结了手语识别与翻译研究目前存在的主要挑战。
-
-
张艳琼;
周奕
-
-
摘要:
随着科技的发展和对听障人群关注度的不断提升,越来越多国内外学者开始关注手语识别领域。通过运用信息可视化软件CiteSpace对国际上2000-2021年手语识别领域相关文献数据绘制知识图谱并进行解读发现:2012-2021年间,该领域载文量呈现指数型增长;手语识别的研究热点、研究前沿均集中于计算机视觉与机器学习方面,特别是深度学习等相关技术。
-
-
周舟;
韩芳;
王直杰
-
-
摘要:
基于计算机视觉的手语识别技术可以为聋校的双语教学带来很大的便利,而手语识别技术的难点之一在于视频关键帧的提取.根据手语视频关键帧的特点和手语者的手语习惯,提出了一种面向手语识别的视频关键帧提取和优化算法.首先利用卷积自编码器提取视频帧的深度特征,对其进行K-means聚类,在每类视频帧中采用清晰度筛选取出最清晰的视频帧作为初次提取的关键帧;然后利用点密度方法对初次提取的关键帧进行二次优化,得到最终提取的关键帧进行手语识别.实验结果表明,本文算法能大量消除冗余帧,并能提高手语识别的准确率和效率.
-
-
-
-
姜峰;
叶剑君;
姚鸿勋
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
提出了手语识别的一种新方法:对手语词进行基于隐马尔可夫(HMM)和支持向量机(SVM)的二级识别.由于HMM适于处理连续时序信号,SVM适于处理小样本的分类问题;同时,HMM更多地表达了类别内部的相似性,而SVM则很大程度上反映了类别间的差异,因而根据两者不同的侧重点,可以将两者有效地组合起来.先对测试样本用HMM识别器识别,若识别结果属于某个易混词集,再用相应的SVM识别器对测试样本在该易混词集做最终的识别,同时将每次被错误识别的手语词归类到各个易混词集中,从而使易混词集得到动态更新,优化了下一次的识别性能.实验结果表明,该方法在保证识别速度不受多大影响的情况下,识别率比单独的HMM有所提高。
-
-
-
姜峰;
高文;
中国科学院计算技术研究所;
姚鸿勋
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
针对具体应用设计效果更优的分类器一直是模式识别领域重要的研究内容.对于不同分类器效果的评价,目前的主要途径是建立在识别率的比较上.识别率具有简洁直观的优点,但其受测试集的影响较大,且用其指导更优分类器的设计的能力较弱.基于信息论中有关互传信息量的理论,提出了分类器的可分性度量方法,并提出了模式空间多分辨率分析的概念以及其与分类器可分性度量之间的关系,进而提出了以提高分类器分类能力为目标的模型捆绑方法.在大词汇量中国手语孤立词识别的系统中,应用以上思想指导捆绑模型的设计,并对结果进行了客观的比较.实验结果表明,可分性度量方法可以对分类器的分类效果进行客观的评价,并且用其指导分类器的设计可以获得更好的分类质量。
-
-
方高林;
于浩
- 《全国第八届计算语言学联合学术会议》
| 2005年
-
摘要:
本文提出了利用语言学分析的知识作为最大熵语言模型的候选特征.该方法从经过分析得到的词、词性、基本短语类型、基本短语的中心词和基本短语中心词的词性之中选择一个适当的形式和当前的词形成特征来表示长距离的约束关系,从而将语法、语义、词汇这些语言学知识统一在最大熵框架下.不同于传统的应用方式,本文提出的手语同形词的扩展方法将改进的最大熵语言模型应用在手语识别的后处理中,有效地提高了手语识别的性能,比Trigram模型提高识别率1.5%左右.
-
-
-
AN Xiaochun;
安晓春;
YANG Hongwu;
杨鸿武;
GAN Zhenye;
甘振业
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
针对健全人与聋哑人之间的交流障碍问题,实现了一个手语到汉藏双语语音转换的方法.通过使用基于RBM调节和深度反馈微调的深度学习方法,结合支持向量机对30种静态手势进行识别,根据识别出的手势信息,获得手势的文本,并通过文本分析获得语音合成所需的上下文相关的标注.同时,利用说话人自适应训练技术,实现了一个基于隐Markov模型的汉藏双语语音合成系统,利用该语音合成系统,将手势的上下文相关标注转换为普通话或藏语语音.实验结果表明,设计的系统在静态手势的识别上获得了93.6%的识别率,转换获得的语音平均MOS得分为4.0分.
-
-
AN Xiaochun;
安晓春;
YANG Hongwu;
杨鸿武;
GAN Zhenye;
甘振业
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
针对健全人与聋哑人之间的交流障碍问题,实现了一个手语到汉藏双语语音转换的方法.通过使用基于RBM调节和深度反馈微调的深度学习方法,结合支持向量机对30种静态手势进行识别,根据识别出的手势信息,获得手势的文本,并通过文本分析获得语音合成所需的上下文相关的标注.同时,利用说话人自适应训练技术,实现了一个基于隐Markov模型的汉藏双语语音合成系统,利用该语音合成系统,将手势的上下文相关标注转换为普通话或藏语语音.实验结果表明,设计的系统在静态手势的识别上获得了93.6%的识别率,转换获得的语音平均MOS得分为4.0分.
-
-
AN Xiaochun;
安晓春;
YANG Hongwu;
杨鸿武;
GAN Zhenye;
甘振业
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
针对健全人与聋哑人之间的交流障碍问题,实现了一个手语到汉藏双语语音转换的方法.通过使用基于RBM调节和深度反馈微调的深度学习方法,结合支持向量机对30种静态手势进行识别,根据识别出的手势信息,获得手势的文本,并通过文本分析获得语音合成所需的上下文相关的标注.同时,利用说话人自适应训练技术,实现了一个基于隐Markov模型的汉藏双语语音合成系统,利用该语音合成系统,将手势的上下文相关标注转换为普通话或藏语语音.实验结果表明,设计的系统在静态手势的识别上获得了93.6%的识别率,转换获得的语音平均MOS得分为4.0分.