首页> 外文OA文献 >Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques
【2h】

Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques

机译:电话会议中语音/音乐识别以及说话人识别系统新参数和模型的研究

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

La mise en oeuvre de systèmes de compréhension automatique de parole pouvant fonctionner dans des conditions réelles implique de reproduire certaines aptitudes de l'être humain. Outre les aptitudes à comprendre la parole même lorsqu'elle est corrompue par du bruit, nous sommes capables de tenir une conversation impliquant plusieurs interlocuteurs. Ce dernier point est lié au fait que nous identifions implicitement les interlocuteurs. Cette caractérisation du locuteur nous permet par exemple de réaliser des conversations téléphoniques en mode conférence. En plus de la reconnaissance du vocabulaire ou de l'identification du locuteur, on est également capable de distinguer les séquences de la musique (en alternance, en arrière plan, etc.) qui peuvent apparaître lorsqu'un des correspondants se place en mode attente.ududEn partant de ce contexte, on s'est intéressé à développer un système capable d'une part de discriminer entre les séquences de Parole/Musique et d'autre part d'identifier le locuteur dans des conditions téléphoniques fonctionnant en mode conférence avec une variabilité des combinés. Autrement dit, cette thèse s'intéresse à deux sujets du domaine du traitement de la parole. Le premier sujet porte sur la recherche de nouveaux paramètres pour améliorer les performances des algorithmes qui identifient les locuteurs en mode téléphonique. Le deuxième sujet est consacré à la proposition de nouvelles approches en discrimination de la parole, de la musique et de la musique chantée.ududEn discrimination du locuteur, on présentera une première étude visant à caractériser le locuteur par des paramètres AM-FM synchrones à la glotte, extraits à la sortie d'un banc de filtres cochléaires. L'objectif visé est de trouver de nouveaux paramètres plus robustes aux bruits et à la variabilité des combinés téléphoniques. Comme résultats, on a obtenu des scores presque similaires entre le système proposé et le système de référence. Les meilleures performances ont été enregistrées lorsque le système utilise une architecture parallèle composée de deux reconnaisseurs qui se basent respectivement sur les paramètres MFCC et AM-FM. Dans le même cadre, on s'est intéressé à proposer une nouvelle technique de modélisation qui tient compte de la dépendance temporelle entre la source d'excitation et le conduit vocal. Avec les tests de courtes durées, on a obtenu de meilleures performances en comparaison à l'approche classique. Cependant, quand on augmente la durée de test, on obtient presque les mêmes performances pour tous les systèmes proposés.ududEn discrimination Parole/Musique, on a proposé deux systèmes, le premier utilise trois modèles paramétriques entraînés respectivement pour la parole, la musique et la musique chantée sans effectuer aucune normalisation sur les vecteurs paramètres. Sur une durée test de 100 ms, on a obtenu un taux de reconnaissance en moyenne de 93,77%. Le deuxième système ne requiert aucun entraînement et se base simplement sur un seuil pour effectuer la classification.ud
机译:可以在真实条件下运行的自动语音理解系统的实现涉及再现人类的某些技能。除了即使语音被噪音破坏也能理解语音的能力,我们也能够进行涉及多个对话者的对话。最后一点与我们隐式识别对话者这一事实有关。说话者的这种特征使我们可以例如在会议模式下进行电话对话。除了识别词汇或识别说话者外,我们还能够区分当通讯员进入待机模式时可能出现的音乐序列(交替,在后台等)。从这个背景出发,我们感兴趣的是开发一种系统,该系统一方面可以区分语音/音乐序列,另一方面可以识别在以下条件下使用的电话条件下的讲话者:带有听筒可变性的会议。换句话说,本文主要研究语音处理领域中的两个主题。第一个主题涉及寻找新参数以提高识别电话模式下说话者的算法的性能。第二个主题是关于区分语音,音乐和演唱音乐的新方法的建议。 Ud ud在说话者区分中,我们将进行首次研究,旨在通过AM-FM参数表征说话者与声门同步,在一组耳蜗过滤器的末端提取。目的是找到对电话听筒的噪声和可变性更鲁棒的新参数。结果,在提议的系统和参考系统之间获得了几乎相似的分数。当系统使用由两个分别基于参数MFCC和AM-FM的识别器组成的并行体系结构时,记录了最佳性能。在同一上下文中,我们有兴趣提出一种新的建模技术,该技术考虑了激励源和声道之间的时间依赖性。通过短期测试,与传统方法相比,我们获得了更好的性能。但是,当我们增加测试持续时间时,对于所有拟议的系统,我们都会获得几乎相同的性能。 Ud ud在语音/音乐辨别中,我们提出了两个系统,第一个使用针对语音分别训练的三个参数模型,音乐和演唱音乐,而无需对参数矢量执行任何归一化处理。在100毫秒的测试持续时间内,平均识别率为93.77%。第二个系统无需培训,仅基于阈值即可执行分类。

著录项

  • 作者

    Ezzaidi Hassan;

  • 作者单位
  • 年度 2002
  • 总页数
  • 原文格式 PDF
  • 正文语种 fr
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号