首页> 外文OA文献 >Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo
【2h】

Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

机译:针对加性和卷积噪声条件的强大语音识别

摘要

El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de RAH que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. En la presente Tesis se ha analizado el comportamiento de un sistema de RAH frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. Para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. Con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros "clásicas" basadas en el análisis de Fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (CMN y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. Asimismo, se ha estudiado la posibilidad de combinación de los parámetros obtenidos de este modo con los obtenidos mediante análisis de Fourier. Mientras que los parámetros basados en la transformada ondicular presentan un funcionamiento similar a los convencionales, la combinación propuesta mejora las tasas de reconocimiento del sistema de manera significativa. A continuación, hemos abordado el problema de la optimización conjunta de los parametrizadores basados en la transformada ondicular y el clasificador basado en modelos ocultos de Markov mediante la aplicación de técnicas de extracción discriminativa de rastos (DFE). Dicha propuesta ha sido evaluada en dos tareas de distinta complejidad, obteniendo unos resultados consistentemente mejores a los obtenidos con las parametrizaciones convencionales. Por último, en el contexto de las distorsiones provocadas por la presencia de ruido aditivo, se ha realizado un estudio comparativo entre técnicas de transformación de parámetros (substracción espectral generalizada) y transformación de modelos acústicos (combinación de modelos en paralelo, PMC). Se han propuestos diversas modificaciones a los algoritmos anteriores basadas en la aplicación de una función de entorno en el dominio de las energías en banda que presenta dos características importantes: conceptualmente, es muy similar para ambos tipos de transformaciones y es más realista que las utilizadas habitualmente. En concreto, en esta función de entorno se ha incorporado una estimación del término cruzado (que habitualmente es ignorado) y que está relacionado con la correlación del habla limpia y el ruido (o el habla ruidosa y el ruido). Se ha evaluado esta estrategia para dos ruidos estacionarios distintos a varias relaciones señale a ruido. Los resultados muestran que esta función de entorno modificada mejora las tasas de reconocimiento obtenidas con las técnicas conveniconales, especialmente en el caso de transformación de parámetros.
机译:当训练数据和测试数据的声学条件非常不同时,自动语音识别系统的操作将严重恶化。这种情况在实际应用中工作的RAH系统中很常见,在该应用中,语音通​​常会被噪声污染。在本文中,针对电话信道的存在和背景噪声引起的三种类型的失真,分析了RAH系统的行为。在对话者可变性的情况下,我们研究了电话环境中大型词汇多模块体系结构识别系统中多种声学(和词汇)建模的集成,其中特别强调了两个基本方面:包含率并不会在计算负载和内存方面不成比例地增加系统要求。在考虑的所有备选方案中,产生较低错误率的方案是每单位使用多个声学模型和一组词汇成本的方案。关于电话信道产生的失真,已经选择了健壮的参数设置。在这一领域,已经基于倒谱域(mel-倒谱参数)和对数谱域(对数能量滤波)对基于傅立叶分析的“经典”参数提取技术的运行进行了分析。 )及其与参数归一化技术(CMN及其变体)的组合。以此分析为参考,已经提出了基于相同域中的波变换的一组替代参数设置。同样,已经研究了将以这种方式获得的参数与通过傅立叶分析获得的参数相结合的可能性。尽管基于波形变换的参数的性能与常规参数相似,但所提出的组合可以显着提高系统识别率。接下来,我们通过应用判别式挖泥机提取(DFE)技术解决了基于波变换和基于隐马尔可夫模型的分类器联合优化参数的问题。该提案已在两个复杂程度不同的任务中进行了评估,与使用常规参数设置获得的结果相比,始终可获得更好的结果。最后,在存在附加噪声而导致的失真的情况下,对参数转换技术(广义谱减法)和声学模型的转换(并行模型,PMC的组合)进行了比较研究。基于环境函数在频带能量域中的应用,对先前算法提出了各种修改,这些修改具有两个重要特征:从概念上讲,这两种类型的转换都非常相似,并且比通常使用的转换更现实。具体地,将交叉项的估计(通常被忽略)并且与干净语音和噪声(或大声语音和噪声)的相关性相关的估计已被合并到该环境函数中。已针对各种信噪比下的两种不同的平稳噪声对这种策略进行了评估。结果表明,该修改后的环境函数提高了通过常规技术获得的识别率,尤其是在参数转换的情况下。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号