首页> 中文学位 >基于非线性理论的汉语语音编码技术研究
【6h】

基于非线性理论的汉语语音编码技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文研究的背景和意义

1.2 语音编码的发展现状

1.3 衡量语音编码性能的重要因素

1.4 语音信号非线性特性的研究现状

1.4.1 基于混沌理论的语音非线性特性的研究现状

1.4.2 基于神经网络的语音非线性特性的研究现状

1.4.3 汉语语音信号处理的发展现状

1.5 论文的研究内容

第二章 语音信号非线性预测机理研究

2.1 语音的发生机理及非线性特性

2.1.1 语音的发生机理

2.1.2 语音的非线性特性

2.1.3 线性预测分析

2.2 语音信号的非线性预测理论

2.2.1 语音信号非线性预测分析

2.2.2 语音信号的相空间重构理论

2.2.3 语音信号非线性预测工具

2.3 本章小结

第三章 汉语语音信号混沌性检测及分形特征

3.1 Lyapunov指数和汉语语音信号的混沌性检测

3.1.1 最大Lyapunov指数计算

3.1.2 汉语语音信号的混沌性检测

3.2 混沌与分形

3.2.1 分形的基本理论

3.2.2 分形现象的特征

3.3 关联维数

3.3.1 汉语语音信号关联联数的计算

3.3.2 汉语语音信号关联维数的计算及其结果分析

3.4 本章小结

第四章 汉语语音信号的延迟时间和嵌入维数计算

4.1 基于C-C算法的延迟时间和嵌入维数的计算

4.1.1 C-C算法的理论

4.1.2 汉语语音音素的延迟时间和嵌入维数的计算

4.1.3 C-C算法求解延迟时间和嵌入维数的结果分析

4.2 自相关法求解延迟时间τ

4.2.1 自相关算法求解延迟时间τ

4.2.2 音素的时延重构图分析

4.3 虚假近邻法求解嵌入维数m

4.4 汉语语音信号延迟时间和嵌入维数鲁棒性研究

4.4.1 采样率对延迟时间和嵌入维数影响的研究

4.4.2 不同说话者对延迟时间和嵌入维数影响的研究

4.5 本章小结

第五章 基于RBF神经网络的汉语语音非线性预测模型

5.1 神经网络的基本理论

5.1.1 神经元

5.1.2 神经网络的拓扑结构

5.1.3 神经网络的学习方式及学习规则

5.2 RBF神经网络基本原理

5.3 基于RBF神经网络的汉语语音预测模型参数设计

5.4 基于RBF汉语语音信号非线性预测模型设计

5.4.1 汉语语音信号非线性预测模型的设计过程

5.4.2 仿真及结果分析

5.4.3 RBF预测器与其它非线性预测器性能比较

5.5 本章小结

第六章 基于小波变换的语音增强处理

6.1 小波变换基本原理

6.2 小波阈值去噪方法

6.2.1 阈值去噪基本原理

6.2.2 小波函数和分解层数的选取

6.3 改进小波阈值

6.3.1 时域噪声方差估计

6.3.2 小波域噪声方差估计

6.4 改进小波阈值函数

6.5 实验仿真

6.6 本章小结

第七章 语音信号E-CENP编码系统

7.1 语音信号CELP编码系统

7.1.1 语音信号码激励线性预测编码—CELP的基本原理

7.1.2 标准4.8kb/s的CELP声码器

7.2 语音信号E-CENP的预测编码系统的设计

7.2.1 语音信号E-CENP的预测编码系统设计

7.2.2 仿真及结果分析

7.3 本章小结

第八章 总结与展望

参考文献

致谢

攻读博士学位期间主要的研究成果

展开▼

摘要

语音的数字化分析和处理是语音信号数字传输和数字存储的重要过程。随着语音通信技术的发展,高音质、低带宽等优点一直是人们追求的目标,语音压缩编码在实现这一目标的过程中担当着十分重要的角色。
  目前语音信号的分析与压缩编码都是采用线性理论和线性预测编码技术,而语音信号的产生系统是一个复杂的非线性时变系统,具有混沌性和分形特征,所以采用线性方法来对语音进行处理无法从根本上提高语音传输和存储的性能。因此,论文在深入研究了语音信号非线性特性的基础上,结合径向基神经网络(简称RBF神经网络,Radical Basis Function Network)构造了一个语音信号非线性预测模型,并基于该模型设计出一个非线性预测编码系统。论文主要研究工作和创新点如下:
  (1)语音信号的混沌性检测和分形特征
  在非线性理论的基础上,针对汉语语音音素非线性特征参数的求解算法进行了研究,提出采用Wolf算法计算出33个汉语语音音素的最大Lyapunov指数,所得结果证明了汉语语音信号具有混沌性。然后采用GP算法求解出33个汉语语音音素的关联维数,根据所得结果说明浊音信号的产生系统是低维系统,而部分清音的发音系统是高维系统。
  (2)语音信号的相空间重构及其参数确定
  对语音信号非线性预测的理论依据以及预测工具进行了分析,并研究相空间重构参数——延迟时间和嵌入维数的确定方法。针对C-C算法存在的局限性,采用结合自相关算法、虚假近邻法的方法分别求解出汉语语音音素的延迟时间和嵌入维数。针对实验中采样率的选择和语音源的问题,论文运用统计分析的方法进行了研究,所得结果表明计算出的延迟时间和嵌入维数对不同的采样率和语音源具有较强的鲁棒性。
  (3)基于RBF神经网络的汉语语音非线性预测模型
  将汉语语音音素的非线性特征参数与RBF神经网络分析方法相结合,提出根据所计算出的33个汉语语音音素的延迟时间及嵌入维数作为RBF神经网络模型中三层网络神经元个数,构造出一个基于RBF神经网络的汉语语音信号非线性预测模型,并将该预测模型与现有的ADPCM线性预测模型进行了性能比较,仿真结果表明非线性预测模型预测误差较小,说明所提出的非线性预测模型具有更好的预测性能。
  (4)基于小波变换的语音增强处理
  针对语音信号的预测编码性能在噪声环境下会迅速下降的问题,研究了基于小波变换的语音增强处理技术,着重对小波去噪算法中的阈值去噪法进行了研究。一方面,针对阈值去噪算法中的传统阈值的选取难以适应非平稳噪声的这一缺点,将MCRA算法应用于小波域计算其噪声方差,得到随实时变化的噪声估计,并利用谱平坦度自适应调整阈值;另一方面,针对传统的软硬阈值函数的不足,在Breiman提出的非负死区阈值函数的基础上进行了改进,设计出一种改进的阈值函数,并从连续性、单调性等方面进行分析,验证其合理性。
  (5)语音E-CENP编码系统的设计
  运用构造出的非线性预测模型,结合增强处理和CELP语音编码算法,设计了一个非线性预测编码系统——E-CENP。系统中,预处理部分加入了所提出的小波变换的语音增强处理,预测器部分采用了所设计的RBF神经网络的非线性预测模型。仿真结果表明:与CELP线性预测编码系统相比,该非线性预测编码系统具有编码语音质量高、鲁棒性好等优点。
  论文运用非线性的理论和方法,构造了一个E-CENP语音编码系统,与CELP编码系统相比,该编码系统编解码后恢复出的语音信号的音质比较高而且鲁棒性较好,说明所提出的非线性理论的研究方法适合于具有非线性特性的语音,为语音信号的处理技术提供了新的思路和新的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号