说话人辨认中的特征参数提取和鲁棒性技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

语音是人类获取信息的主要来源之一，也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题，其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式，其目的不是识别说话人讲的内容，而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步，这种技术的应用为人类的日常生活带来很大的便利。但是，随着说话人识别技术实用化的不断深入，不同应用领域对该技术的要求越来越高。一方面，说话人发音的多变性，要求提取适合说话人识别的特征以保证系统的性能；另一方面，噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务，在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究，主要内容包括：
　　 1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性，一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换，解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题；另一方面，通过引入模糊隶属度函数，处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型，不但能有效减少数据量，起到压缩数据的作用，而且由于聚类变换后的结果是高斯混合模型的均值矢量集，能够很好地代表说话人的特征，起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势，从而改善系统系统的性能。
　　 2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发，基于感知线性预测模型从不同层次模拟了人耳的听觉特性，从语音的频谱细节考虑，去除了会引起说话人信息平滑的临界带频谱分析，提取改进的感知对数面积比系数MPLAR作为说话人特征，具有良好的可分性；并在此基础上，根据说话人识别的声学特性，从匹配得分的整体考虑，对模型输出的似然得分引入非线性变换，拉大目标模型与非目标模型的得分比，拉近同一模型各帧得分值，使得各模型的得分值不仅与当前时刻的似然概率有关，还与之前的K个时刻的似然概率有关，解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征，并且在模型匹配阶段从整体得分的统计特性出发，得到稳定的模型得分，增强了系统在噪声环境下的识别能力。
　　 3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发，模拟了人类听觉系统对声音频率的感知特性，改进了说话人的识别性能，但是这种处理方式并没有对语义特征和说话人个性特征区别对待，而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理，从语音生成的生理学角度分析人类在发音过程中的结构变化，从中获取携带说话人信息的生理特征，进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化，指导设计了与Mel频率尺度不同的自适应频率尺度变换，在说话人信息贡献大的区域分配的滤波器个数增多，带宽变小，频率分辨率提高，而贡献小的区域分配的滤波器个数减少，带宽变大，频率分辨率降低，从而进行自适应的频谱滤波，提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题，对语音频谱进行逐帧逐频率点的预增强处理，去除噪声的干扰，进一步提高系统的鲁棒性。
　　 4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发，对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构，并且其中的元音部分占据了主要的能量和时长，基于此，从汉语语音的特点出发，对汉语拼音的结构、发音特点进行分析，并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等，从短时帧角度将韵母中的元音部分分解为单元音音素的组合，结合大量语音学知识构建了汉语元音映射表，通过汉语元音映射，能够有效地分离语音信号中的语义信息和话者身份信息，将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题，并由此衍生出新的说话人建模方法以及新的识别框架，在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下，提出了一种基于仿生模式识别的说话人辨认算法，在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖；在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别，该算法在开集测试条件下对冒名者具有较好的分辨能力。

著录项

作者
李燕萍;
展开▼
作者单位

南京理工大学;

展开▼
授予单位南京理工大学;
学科模式识别与智能系统
授予学位博士
导师姓名唐振民;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;算法理论;
关键词
说话人识别; 说话人辨认; 模糊最小二乘支持向量机; 高斯混合模型; 感知线性预测; 鲁棒性; 自适应频率规整;

相似文献

中文文献
外文文献
专利

1. 基于自适应直方图均衡化的鲁棒性说话人辨认研究 [J] . 徐利敏 ,唐振民 ,何可可 . 自动化学报 . 2008,第007期
2. 反蓄意模仿说话人识别系统中特征参数提取的研究 [J] . 唐宗渤 ,周萍 ,王茂蓉 . 微型机与应用 . 2016,第012期
3. 基于HHT的语音特征参数提取及其在说话人识别中的应用 [J] . 刘丽伟 ,张瑶 ,赵孔新 . 长春工业大学学报（自然科学版） . 2009,第006期
4. 说话人识别中特征参数提取的一种新方法 [J] . 汪峥 ,连翰 ,王建军 . 复旦学报：自然科学版 . 2005,第1期
5. 说话人辨认中通用背景模型训练时长研究 [J] . 孟君 ,杨大利 . 北京信息科技大学学报（自然科学版） . 2013,第003期
6. 基于子带加权的鲁棒性说话人辨认 [C] . 王金甲 ,王成儒 ,李静 . 全国青年通信学术会议 . 2002
7. 说话人辨认中的特征变换和鲁棒性技术研究 [A] . 徐利敏 . 2007

说话人辨认中的特征参数提取和鲁棒性技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅