Описан метод параметризации речевого сигнала, который дает устойчивый к эмоциям и инвариантный к диктору информативный признак (ИП) на основе кепстральных коэффициентов, определенных на экспоненциально-логарифмической шкале частот, для спектра, рассчитанного по параметрам линейного предсказания (ЛПСКК). При помощи полученного информативного признака решается задача распознавания эмоциональной речи на основе скрытых марковских моделей. В экспериментальной части показано, что использование линейного предсказания (ЛП) для вычисления спектра речевого сигнала более предпочтительно по сравнению с быстрым преобразованием Фурье, так как влияние изменения частоты основного тона на качество анализа линейного предсказания практически отсутствует, что обусловливает высокую эффективность распознавания гласных звуков с различной эмоциональной окраской. Также приводятся доводы в пользу применения экспоненциально-логарифмической шкалы частот при расчете кепстральных коэффициентов, так как ее использование позволяет снизить изменчивость пространства признаков. Полученные в ходе эксперимента результаты свидетельствуют о том, что рассматриваемый в статье информативный признак позволяет повысить эффективность распознавания эмоциональной речи на 4 %. = This paper presents a method of the speech signal parameterization that gives a robust to emotions and invariant to a speaker feature vector. For this purpose the cepstral coefficients based on a linear prediction power spectrum defined on the ExpoLog frequency scale is used. The described feature vector is applied for emotional speech recognition based on hidden Markov models. It is shown that usage of linear prediction to calculate the spectrum of a speech signal is more preferably compared with fast Fourier transform as the effect of a change in the pitch frequency on the quality of a linear predictive analysis is very insignificant, and a high recognition efficiency of vowel sounds with different emotional coloring is offered. Also, it is proposed to use the ExpoLog frequency scale in calculations of cepstral coefficients owing to the reduced variability of the feature vector space. The experimental results obtained show that usage of the described feature vector contributes to the improved (by 4 %) efficiency of emotional speech recognition.
展开▼