语音识别与设备属于《中国图书分类法》中的六级类目,该分类相关的期刊文献有2230篇,会议文献有1015篇,学位文献有2975篇等,语音识别与设备的主要作者有赵力、胡光锐、戴礼荣,语音识别与设备的主要机构有上海交通大学电子工程系、清华大学电子工程系、中国科学技术大学电子科学与技术系等。
统计的文献类型来源于 期刊论文、 学位论文、 会议论文
1.[期刊]
摘要: 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面...
2.[期刊]
摘要: 深度卷积神经网络是常用的语音识别模型,可通过卷积结构,保证语音信号时域、频域的平移特性,但是,深度卷积神经网络在实际应用中,仍然会出现语音信号建模能力不足的情...
3.[期刊]
摘要: 针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-G...
4.[期刊]
摘要: 无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署...
5.[期刊]
摘要: 动态时间规整算法(Dynamic Time Warping,DTW)是语音识别中常用的技术之一。为了提升因数据量增加以及算法对数据的高度依赖性所导致的计算性能...
6.[期刊]
摘要: 智能语音识别技术是最常见的人类与机器交互的技术。随着物联网设备变得越来越常见,智能语音识别技术将在物联网中得到更广泛的应用。Kaldi作为目前较为优秀的跨平台...
7.[期刊]
摘要: 语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络(Time-delayed neural network,TDNN)可以提取包含丰富上下文信息的特...
8.[期刊]
摘要: 移动通信网络庞大复杂,不同专业或业务的海量网络资源数据由不同的单位使用不同的方法进行录入和维护,因此存在资源数据难以实现端到端关联的痛点问题。针对该问题,提出...
9.[期刊]
摘要: 从语音识别系统前端信号处理出发研究了语音信号特征的提取方法。对4种语音识别主流算法模型进行部署,构建了不同车载应用场景,并选择字错误率和实时率两种主流评价指标...
10.[期刊]
摘要: 针对贵阳工厂环境下口头任务对接缺乏依据性、出现事故难于追责的问题,引入深度学习模型改善贵阳方言工厂指令识别效果。自制贵阳方言工厂指令数据集,搭建指令识别系统,...
11.[期刊]
摘要: 自从注意力机制在自然语言处理领域(NLP)取得了巨大成功,其被引入了语音情感识别任务(SER)中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经...
12.[期刊]
摘要: 由于传统循环神经网络具有复杂的结构,需要大量的数据才能在连续语音识别中进行正确训练,并且训练需要耗费大量的时间,对硬件性能要求很大。针对以上问题,提出了基于残...
13.[期刊]
摘要: 针对现有最小均方误差(Least Mean Square,LMS)语音自动增益控制(Automatic Gain Control,AGC)算法其功率参量不能准...
14.[期刊]
摘要: 目前的语言在线测试系统大多采用B/C架构来进行构建,但当并发人数过多时,该系统的服务器端压力过大,导致负载能力较差。因此,文中提出一种基于在线交互学习的语言在...
15.[期刊]
摘要: 民族乐器是中国优秀传统音乐文化的瑰宝,人工智能与音乐乐器的结合是传承和弘扬传统文化的大势所趋。目前乐器检测研究大部分集中在西方乐器领域,而中国民族乐器的检测却...
16.[期刊]
摘要: 为了准确地掌握管道线路的运行状态,保障油气管道的安全运行,在基于相位敏感光时域反射(Φ-OTDR)原理的光纤分布式振动系统的基础上,提出了一种泄漏声波信号监测...
17.[期刊]
摘要: 语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的...
18.[期刊]
摘要: 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引...
19.[期刊]
摘要: 现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及...
20.[期刊]
摘要: 语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一...
1.[会议]
摘要: 针对语音信号的非结构化特点,提出了一种基于量子隧穿效应的说话人真伪鉴别方法.以量子隧穿效应为理论依据,首先,在分析语音信号分帧的量子特性基础上,将每一帧语音信...
2.[会议]
摘要: 语音的共振峰结构反映了不同发音人的声道特征,因此在语音识别中起到重要作用.助听器中的多通道响度补偿器可以补偿老年人的听力损失,提高语音识别能力.但是传统的多通...
3.[会议]
摘要: 传统声目标识别算法的研究重点主要集中在对单一纯净声目标的识别方面,通常使用纯净的音频片段来训练模型,再用模型进行声目标分类.但在实际环境中,基本不存在只含单一...
4.[会议]
摘要: 按键音的分类识别是目前键盘制造业普遍关注的一个研究热点,稀疏编码在模式识别领域也得到越来越多的应用.Wright等提出了稀疏表示分类(SRC)方法,将分类问题...
5.[会议]
摘要: 由于在低信噪比环境下,传统语音信号端点检测算法性能迅速降低,本文提出了增强减谱方差联合法以及多窗谱减谱能熵比联合法对语音信号进行端点检测,将去噪与检测处理有效...
6.[会议]
摘要: 随着人工智能的不断发展,作为人工智能落地最成功的领域,语音识别技术正处于快速发展期.本文聚焦研究语音识别技术在医疗领域的探索与应用,基于医疗人工智能技术和大数...
7.[会议]
摘要: 近些年,在物联网领域,伴随看多元化智能硬件的出现,触控式人机交互逐渐被语音人机交互取代已成为趋势.通过声纹生物信息ID解决人作为自然个体而非数字ID的唯一登录...
8.[会议]
摘要: 随着自动大规模语音识别的不断发展,以自动语音识别为基础的计算机辅助发音教学也随之进步,作为传统教学方法的补充,它极大地弥补了传统教育资源不足以及传统教育方法无...
9.[会议]
摘要: 本文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过2万7千个对话问题以及超过8万2千个对话问题的回复...
10.[会议]
摘要: 端到端(end-to-end)模型因其能有效避免传统的管道式设计存在的错误传递和累积问题,成为了近年来口语对话系统(spoken dialogue syste...
11.[会议]
摘要: 语音识别已经在服务、医疗、家电等行业中得到广泛的应用.智能设备中,语音交互系统的能耗较高,往往处于关闭状态.而唤醒词识别功能能耗相对较低,可以在后台保持开启状...
12.[会议]
摘要: 环境声音分类(ESC)是音频处理领域中的重要分支之一,在未来多媒体应用中有重要的作用。音频识别是提取音频中特定的声学特性,将音频分类至样本对应的正确场景,有助...
13.[会议]
摘要: 传统KNN算法存在分类错误的情况,改进的KNN不仅考虑了测试样本周围k个样本不同情感的个数,还考虑了它们距离测试样本的距离,从而提高了识别率,尤其是对于区分高...
14.[会议]
摘要: 针对水声信道低带宽和双扩展特性,提出了一种水下多用户通信过程中,信号同步波形设计方法,通过该方法使接收端能够在同一频带内对多个用户的通信信号识别,该方法研究了...
15.[会议]
摘要: 为了提高嵌入式英语语音识别系统发音误差自动检测能力,提出基于时频分析和关联信息熵特征提取的嵌入式英语语音识别系统发音误差自动检测方法.采用时频特征分解方法进行...
16.[会议]
摘要: 传统英语语音合理性自动化识别模型无法准确有效反映英语语音合理性,结果准确性较低.为此有必要对英语语音合理性自动化识别模型进行研究.规划英语语音合理性自动化识别...
17.[会议]
摘要: 利用传统方法对多媒体网络语音音调数据特征进行识别,存在识别准确性低,识别速度慢的问题.针对上述问题,提出一种新的多媒体网络语音音调数据特征智能识别方法.该方法...
18.[会议]
摘要: 针对目前声纹识别中常用的模式识别算法(LPCC、MFCC等)的不足,为了提高声纹识别系统性能,本研究提出将小波分析和BP神经网络—小生境遗传优化算法(BP-G...
19.[会议]
摘要: 本系统的硬件部分采用STM32F407作为主控芯片,以MAX9817为核心构建信号调理电路,系统软件部分的核心采用了GCC-PHAT算法进行声源入射角的估计....
20.[会议]
摘要: 为了提升连续语音识别系统性能,将深度自编码器神经网络应用于语音信号特征提取.通过堆叠稀疏自编码器组成深度自编码器(Deep Auto-Encoding,DAE...
1.[学位]
摘要: 随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最...
2.[学位]
摘要: 随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最...
3.[学位]
摘要: 随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最...
4.[学位]
摘要: 随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最...
5.[学位]
摘要: 随着数字多媒体技术的快速发展,语音信号凭借自身占用空间小、易于编辑和传输等优点成为人们日常生活沟通的一种重要方式。由于语音具有易编辑特性,这导致语音很容易被篡...
6.[学位]
摘要: 语音合成技术的迅猛发展对自动说话人验证系统构成了威胁。为了提高自动说话人验证系统的安全性,我们需要研究如何鉴别自然语音和合成语音。本文在分析现有合成语音检测技...
7.[学位]
摘要: 随着生物识别技术的发展和人们对生活品质追求的提高,声纹识别技术逐渐应用在生活的方方面面,例如人工智能中声纹识别的应用,另外,在新冠疫情全球蔓延的今天,声纹识别...
8.[学位]
摘要: 经历了多年的发展,深度神经网络针对不同的任务需求演化出多种独特的结构。卷积神经网络(CNN)由于在计算机视觉、语音识别和自然语言处理等领域的出色表现引起了研究...
9.[学位]
摘要: 方言是一种特殊的语言变体,具有珍贵的史学及语言学研究价值。汉语方言作为中华民族优秀的非物质文化遗产,不应该随着普通话的日益普及而消失。汉语方言种类识别是推进汉...
10.[学位]
摘要: 自动说话人确认技术(Automatic speaker verification,ASV)是生物识别技术的一种,通过说话人的语音信号自动确定该说话人的身份。在...
11.[学位]
摘要: 基于传声器阵列的波束形成声源识别技术以其便捷高效、识别范围广、对中高频定位精准、可进行中远距离测量等优点而广泛应用于汽车、航空航天、高速列车等领域。随着实际应...
12.[学位]
摘要: 近场声全息是一种十分有效的噪声源定位及声场可视化技术。等效源近场声全息因不受限于声源形状且数学模型的建立及其传递矩阵的构造简单,近年来得到了广泛的应用。由于倏...
13.[学位]
摘要: 城市声音监控作为视频监控的补充,可以弥补视频监控受天气、遮挡物等影响的不足。对城市声音的有效监控可提高人们的声学舒适度,对城市中各类场所进行安全预警,同时可为...
14.[学位]
摘要: 声音污染不仅让人心烦、睡眠不好,甚至还会引发心脏疾病。基于声学参量阵的声频定向系统能够像激光一样让声波具有方向性,将需要传播的声音信号与超声载波信号进行调制,...
15.[学位]
摘要: 基于逆Patch传递函数(Inverse Patch Transfer Function,iPTF)的声源识别法是近年来提出的一种近场声全息技术,可在嘈杂环境...
16.[学位]
摘要: 得益于互联网与物流技术的变革,电商网购与人们生活密不可分。电商网购规模逐年攀升,通过网购购买手机的消费者越来越多。手机是目前持有量最大的电子产品,已彻底融入人...
17.[学位]
摘要: 说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征...
18.[学位]
摘要: 语音情感识别是音频领域的热点研究内容,尤其是在智能课堂、智能驾驶和智能医疗等人工智能交互领域中有广泛应用。语音情感识别旨在通过机器感知判断,使机器能够捕捉人类...