基于声学特征空间非线性流形结构的语音识别声学模型

张文林; 牛铜; 屈丹; 李弼程; 裴喜龙

首页> 中文期刊>自动化学报 >基于声学特征空间非线性流形结构的语音识别声学模型

基于声学特征空间非线性流形结构的语音识别声学模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型.将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型.将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型.最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定.文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法.基于RM 语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM),新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.%Based on nonlinear manifold structure of acoustic feature space of speech signal, a new type of acoustic model for speech recognition is developed using compressive sensing. The feature space is divided into multiple local areas, with each area approximated by a low dimensional factor analysis model, so that in a mixture of factor analyzers is obtained. By restricting the observation vectors to be located on that nonlinear manifold, the probabilistic model of each context dependent state can be derived. Each state is determined by a sparse weight vector and several low-dimensional factors which follow standard Gaussian distributions. The principle for selection of the dimension for each local area is given, and iterated estimation methods for various model parameters are presented. Continuous speech recognition experiments on the RM corpus show that compared with the conventional Gaussian mixture model (GMM) and the subspace Gaussian mixture model (SGMM), the new acoustic model reduces the word error rate (WER) by 33.1%and 9.2%respectively.

著录项

来源
《自动化学报》|2015年第5期|1024-1033|共10页
作者
张文林; 牛铜; 屈丹; 李弼程; 裴喜龙;
展开▼
作者单位

解放军信息工程大学信息系统工程学院郑州 450002;

解放军信息工程大学信息系统工程学院郑州 450002;

解放军信息工程大学信息系统工程学院郑州 450002;

解放军信息工程大学信息系统工程学院郑州 450002;

解放军信息工程大学信息系统工程学院郑州 450002;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
语音识别; 声学模型; 非线性流形; 混合因子分析;
入库时间 2023-07-25 14:33:20

相似文献

中文文献
外文文献
专利

1. 基于改进门控单元神经网络的语音识别声学模型研究 [J] . 俞建强 ,颜雁 ,刘葳 . 长春理工大学学报（自然科学版） . 2020,第001期
2. 基于声学模型的不良语音识别技术研究 [J] . 杜刚 ,朱艳云 ,张晨 . 电信工程技术与标准化 . 2019,第012期
3. 基于循环神经网络的藏语语音识别声学模型 [J] . 黄晓辉 ,李京 . 中文信息学报 . 2018,第005期
4. 基于自适应心理声学模型的智能语音识别系统 [J] . 熊笑颜 ,陈栩 ,黄灿英 . 沈阳工业大学学报 . 2017,第006期
5. 基于HMM模型语音识别系统中声学模型的建立 [J] . 胡石 ,章毅 ,陈芳 . 通讯世界 . 2017,第008期
6. 基于DNN与RNN声学模型融和的语音识别研究 [C] . Huifeng Zhu ,朱会峰 ,Yong He . 第十三届全国人机语音通讯学术会议 . 2015
7. 基于深度学习的中文儿童语音识别声学模型研究 [A] . 徐高鹏 . 2019

基于声学特征空间非线性流形结构的语音识别声学模型

摘要

著录项

相似文献

相关主题

期刊订阅