首页> 外文OA文献 >К вопросу об устойчивых к эмоциям информативных признаках для задачи распознавания речи
【2h】

К вопросу об устойчивых к эмоциям информативных признаках для задачи распознавания речи

机译:关于抗情感信息特征的语音识别问题

摘要

Описан метод параметризации речевого сигнала, который дает устойчивый к эмоциям и инвариантный к диктору информативный признак (ИП) на основе кепстральных коэффициентов, определенных на экспоненциально-логарифмической шкале частот, для спектра, рассчитанного по параметрам линейного предсказания (ЛПСКК). При помощи полученного информативного признака решается задача распознавания эмоциональной речи на основе скрытых марковских моделей. В экспериментальной части показано, что использование линейного предсказания (ЛП) для вычисления спектра речевого сигнала более предпочтительно по сравнению с быстрым преобразованием Фурье, так как влияние изменения частоты основного тона на качество анализа линейного предсказания практически отсутствует, что обусловливает высокую эффективность распознавания гласных звуков с различной эмоциональной окраской. Также приводятся доводы в пользу применения экспоненциально-логарифмической шкалы частот при расчете кепстральных коэффициентов, так как ее использование позволяет снизить изменчивость пространства признаков. Полученные в ходе эксперимента результаты свидетельствуют о том, что рассматриваемый в статье информативный признак позволяет повысить эффективность распознавания эмоциональной речи на 4 %. = This paper presents a method of the speech signal parameterization that gives a robust to emotions and invariant to a speaker feature vector. For this purpose the cepstral coefficients based on a linear prediction power spectrum defined on the ExpoLog frequency scale is used. The described feature vector is applied for emotional speech recognition based on hidden Markov models. It is shown that usage of linear prediction to calculate the spectrum of a speech signal is more preferably compared with fast Fourier transform as the effect of a change in the pitch frequency on the quality of a linear predictive analysis is very insignificant, and a high recognition efficiency of vowel sounds with different emotional coloring is offered. Also, it is proposed to use the ExpoLog frequency scale in calculations of cepstral coefficients owing to the reduced variability of the feature vector space. The experimental results obtained show that usage of the described feature vector contributes to the improved (by 4 %) efficiency of emotional speech recognition.
机译:描述了语音信号的参数化方法,该方法基于基于线性预测参数(LPSC)计算的频谱的指数对数频率标度确定的倒谱系数,给出了抗情绪和说话者不变的信息符号(PI)。利用获得的信息特征,解决了基于隐马尔可夫模型的情感语音识别问题。在实验部分表明,与快速傅立叶变换相比,使用线性预测(LP)来计算语音信号的频谱更为可取,因为更改基频对线性预测分析的质量几乎没有影响,这会导致不同元音的高识别效率情感的色彩。由于在计算倒谱系数时也赞成使用指数对数频率标度,因为它的使用减少了特征空间的可变性。实验过程中获得的结果表明,本文中所考虑的信息功能使情感语音的识别效率提高了4%。本文提出了一种语音信号参数化方法,该方法可以使人的情绪变得鲁棒,对说话人特征向量保持不变。为此,使用了基于ExpoLog频率标度定义的线性预测功率谱的倒谱系数。所描述的特征向量被用于基于隐马尔可夫模型的情感语音识别。结果表明,与快速傅立叶变换相比,使用线性预测来计算语音信号频谱更可取,因为基音频率的变化对线性预测分析的质量影响很小,而且识别率很高。提供具有不同情感色彩的元音效率。此外,由于特征向量空间的可变性降低,因此建议在倒频谱系数的计算中使用ExpoLog频率标度。获得的实验结果表明,所描述的特征向量的使用有助于提高(4%)情感语音识别的效率。

著录项

  • 作者

    Ткаченя А. В.;

  • 作者单位
  • 年度 2014
  • 总页数
  • 原文格式 PDF
  • 正文语种 ru
  • 中图分类

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号