首页> 外文OA文献 >Traitement bio-inspiré de la parole pour système de reconnaissance vocale
【2h】

Traitement bio-inspiré de la parole pour système de reconnaissance vocale

机译:用于语音识别系统的生物启发语音处理

摘要

Cette thèse présente un traitement inspiré du fonctionnement du système auditif pour améliorer la reconnaissance vocale. Pour y parvenir, le signal de la parole est filtré par un banc de filtres et compressé pour en produire une représentation auditive. L'innovation de l'approche proposée se situe dans l'extraction des éléments acoustiques (formants, transitions et onsets ) à partir de la représentation obtenue. En effet, une combinaison de détecteurs composés de neurones à décharges permet de révéler la présence de ces éléments et génère ainsi une séquence d'événements pour caractériser le contenu du signal. Dans le but d'évaluer la performance du traitement présenté, la séquence d'événements est adaptée à un système de reconnaissance vocale conventionnel, pour une tâche de reconnaissance de chiffres isolés prononcés en anglais. Pour ces tests, la séquence d'événements agit alors comme une sélection de trames automatique pour la génération des observations (coefficients cepstraux). En comparant les résultats de la reconnaissance du prototype et du système de reconnaissance original, on remarque que les deux systèmes reconnaissent très bien les chiffres prononcés dans des conditions optimales et que le système original est légèrement plus performant. Par contre, la différence observée au niveau des taux de reconnaissance diminue lorsqu'une réverbération vient affecter les données à reconnaître et les performances de l'approche proposée parviennent à dépasser celles du système de référence. De plus, la sélection de trames automatique offre de meilleures performances dans des conditions bruitées. Enfin, l'approche proposée se base sur des caractéristiques dans le temps en fonction de la nature du signal, permet une sélection plus intelligente des données qui se traduit en une parcimonie temporelle, présente un potentiel fort intéressant pour la reconnaissance vocale sous conditions adverses et utilise une détection des caractéristiques qui peut être utilisée comme séquence d'impulsions compatible avec les réseaux de neurones à décharges.
机译:本论文提出了一种受听力系统功能启发以改善语音识别的治疗方法。为此,语音信号由滤波器组滤波并压缩以产生听觉表示。所提出方法的创新在于从获得的表示中提取声学元素(共振峰,过渡和起点)。实际上,由放电神经元组成的检测器组合可以揭示这些元素的存在,从而生成一系列事件来表征信号的内容。为了评估所呈现的处理的性能,事件序列适用于常规语音识别系统,以识别英语发音的孤立人物。对于这些测试,事件序列然后充当用于生成观测值(倒频谱系数)的自动帧选择。通过比较原型和原始识别系统的识别结果,我们注意到,这两个系统在最佳条件下都能很好地识别出数字,原始系统则效率更高。但是,当混响影响要识别的数据并且建议的方法的性能设法超过参考系统时,在识别率上观察到的差异会减小。此外,自动选框在嘈杂的条件下提供了更好的性能。最后,所提出的方法基于随时间变化的特征,具体取决于信号的性质,允许对数据进行更智能的选择,从而导致时间上的简约,在不利条件下为语音识别提供了非常有趣的潜力,并且使用特征检测,可以将其用作与放电神经网络兼容的脉冲序列。

著录项

  • 作者

    Loiselle Stéphane;

  • 作者单位
  • 年度 2010
  • 总页数
  • 原文格式 PDF
  • 正文语种 fre
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号