首页> 中文学位 >面向言语工程的语音转换算法研究
【6h】

面向言语工程的语音转换算法研究

代理获取

目录

文摘

英文文摘

论文说明:插图目录、表格目录、缩略语

独创性声明和关于学位论文使用授权的说明

第1章绪论

1.1研究背景与问题定义

1.2论文研究范围

1.2.1声音转换

1.2.2电话语音转换

1.3论文内容组织

第2章声音转换关键技术分析

2.1引言

2.2声音转换技术的发展概况

2.3说话人特征与语音模型及其参数表示

2.3.1语音产生模型

2.3.2语音频谱表示

2.3.3说话人身份特征

2.4声音转换技术分析

2.4.1声音转换技术要素

2.4.2声音转换算法分析

2.4.3时间对准

2.4.4语音频谱变换

2.4.5激励信号处理

2.4.6基频信息变换

2.4.7语音库设计

2.5声音转换性能评价

2.5.1主观评估

2.5.2客观评估

2.6本章小结

第3章基Sinusoidal模型的语音频谱平滑

3.1引言

3.2相关频谱平滑技术描述

3.2.1波形插值法

3.2.2 LP插值技术

3.3 Sinusoidal+全极点模型

3.3.1 Sinusoidal模型

3.3.2 Sinusoidal+全极点模型

3.4基于Sinusoidal参数的频谱平滑算法

3.4.1平滑算法概述与流程图表示

3.4.2过渡帧LPC目标频谱包络的计算

3.4.3改进的频率弯折函数

3.5 ANBM频谱距离度量方法

3.6频谱平滑实验结果与分析

3.6.1实验结果

3.6.2分析与讨论

3.7本章小结

第4章汉语声音转换的声调码本映射模型

4.1引言

4.2基频模式聚类

4.2.1基频提取

4.2.2语音学对准

4.2.3基频预处理

4.2.4基频模式聚类

4.3声调码本映射算法

4.3.1声调映射码本学习

4.3.2基频曲线转换

4.4声音转换系统

4.4.1联合特征清浊音决策算法

4.4.2声音转换过程描述

4.5实验评估

4.5.1实验数据与方案

4.5.2结果与分析

4.6本章小结

第5章汉语单元音音子的遗传RBF-NN声音转换

5.1 引言

5.2遗传RBF神经网络

5.2.1 RBF神经网络

5.2.2用遗传算法训练RBF神经网络隐层

5.3语音数据的选取

5.4 RBF-NN转换系统

5.4.1语音表示

5.4.2转换方法

5.5实验分析与讨论

5.5.1转换语音的客观性测量

5.5.2转换语音的主观性评价

5.6本章小结

第6章电话语音转换技术

6.1引言

6.2电话语音形成分析

6.2.1送受话器的滤波效应

6.2.2模拟电话线属性

6.2.3线路电路中的滤波特性

6.2.4语音编码

6.2.5电话连接中的其他语音行为

6.3话语音转换模型

6.3.1语音预处理

6.3.2模拟器件频响特性

6.3.3回音和侧音

6.3.4噪声模拟与语音编码传输

6.4换模型有效性频谱分析

6.4.1频谱失真表示形式

6.4.2转换语音频谱分析

6.5识别实验分析

6.5.1方案选取

6.5.2结果与分析

6.6转换语音的自适应识别实验

6.6.1语音识别系统描述

6.6.2 HMM训练与自适应

6.6.3转换语音实验评估

6.7本章小结

结束语

1本文工作总结

2未来工作展望

参考文献

附录ASPKTOOL-语音分析处理工具

附录B攻读博士学位期间所参加的科研项目和会议

攻读博士学位期间所发表的学术论文

致谢

展开▼

摘要

语音语料数据库是语音交互技术和中文信息处理的基础。语音识别系统提高识别率,语音合成系统产生流畅的自然语音,充足可靠和高质量的语音语料库是其性能的重要保证。论文主要研究了语音转换中两个方面的问题。一是如何提高声音转换系统(个性化语音合成系统)的转换语音的质量与目标说话人身份信息;二是如何将纯净语音转换为具有电话语音特征的新语音。对于前一个问题,论文主要从频谱平滑、基频曲线映射和遗传神经网络频谱映射等声音转换关键技术的三个方面进行了研究;对于后一个问题,主要从模拟电话信道条件方面研究了纯净语音到电话语音的转换方法。论文主要取得了以下几个方面的成果: (1)一种基于Sinusoidal参数的语音频谱平滑算法论文针对传统LPC频谱平滑算法中将LPC(LinearPredictiveCoding,线性预测编码)参数和残差分别进行插值而导致平滑后语音质量改善不多的问题,提出了一种将描述语音频谱大尺度信息的LP(LinearPredictive,线性预测)模型参数与擅长表现频谱的细节的Sinusoidal模型参数结合起来进行语音平滑的新算法。该算法先对待平滑语音段的LPC参数进行插值,然后以这些插值得到的LPC频谱包络为目标,使用Sinusoidal+全极点模型对待平滑语音段进行修改,使修改后的语音,不仅频谱包络拟合目标频谱的形状,而且同时保持原语音中的细节性信息,从而避免LP平滑中语音音质下降的问题。实验结果显示,该算法对于拼接单元频谱差异较大的情况表现出很好的效果,拼接点处频谱平滑,语音音质较高。 (2)一种基于汉语音节基频曲线为单位的声调码本映射模型论文提出了一种基于汉语音节基频曲线为单位的声调码本映射模型。该模型以汉语音节的基频曲线所表示的声调模式作为基频信息的转换单位,通过语音切分和对准分别提取各语音单元的基频曲线,用聚类方法分别建立两个说话人的声调码本。根据源-目标说话人语音的时间对准关系,计算各声调模式的对应统计值,由此训练一个汉语声调映射码本。声音转换的评估结果表明声调码本映射模型可以较好地消除孤立基频值映射关系的算法上固有的离散性,反映出目标语音的局部基频动态特性,因此能比较准确地发现不同说话人语音的身份信息对应关系。在短时声学频谱特征转换的基础上,声调码本映射法在汉语声音转换技术中增加了转换语音中目标说话人的身份信息,改善了声音转换系统的性能。 (3)一种基于模拟电话信道条件的电话语音转换模型论文通过分析纯净语音在电话信道中形成电话语音的成因后,发现电话语音的形成是电话信道中各种因素共同作用的结果,从而提出了一种由纯净语音向电话质量语音转换的电话语音转换模型。转换模型采用滤波器技术来模拟电话线路连接中各种模拟传输设备频率响应特性,并对电话信道环境中各种噪音行为和其他电话语音现象进行了仿真。频谱失真分析和MLLR(MaximalLikelihoodLinearRegression,最大似然线性回归)自适应识别实验表明,通过模型参数的合理设置和调整,该模型能有效地实现纯净语音向电话质量语音的模拟转换,由纯净语音转换生成的模拟语音减小了训练语音和测试语音声学性质的不匹配,从而改善电话语音识别性能。该模型为解决由于汉语电话语音资源不足的问题提供了一种可行方案。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号