首页> 外文OA文献 >Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral
【2h】

Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral

机译:加强口头对话系统设计中自动化方法的推广

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Les systèmes de dialogue homme machine actuellement utilisés dans l industrie sont fortement limités par une forme de communication très rigide imposant à l utilisateur de suivre la logique du concepteur du système. Cette limitation est en partie due à leur représentation de l état de dialogue sous la forme de formulaires préétablis.Pour répondre à cette difficulté, nous proposons d utiliser une représentation sémantique à structure plus riche et flexible visant à permettre à l utilisateur de formuler librement sa demande.Une deuxième difficulté qui handicape grandement les systèmes de dialogue est le fort taux d erreur du système de reconnaissance vocale. Afin de traiter ces erreurs de manière quantitative, la volonté de réaliser une planification de stratégie de dialogue en milieu incertain a conduit à utiliser des méthodes d apprentissage par renforcement telles que les processus de décision de Markov partiellement observables (POMDP). Mais un inconvénient du paradigme POMDP est sa trop grande complexité algorithmique. Certaines propositions récentes permettent de réduire la complexité du modèle. Mais elles utilisent une représentation en formulaire et ne peuvent être appliqués directement à la représentation sémantique riche que nous proposons d utiliser.Afin d appliquer le modèle POMDP dans un système dont le modèle sémantique est complexe, nous proposons une nouvelle façon de contrôler sa complexité en introduisant un nouveau paradigme : le POMDP résumé à double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformé en un POMDP résumé, plus simple. Un premier suivi de croyance (belief update) est réalisé dans l espace maitre (en intégrant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est réalisé dans l espace résumé, les stratégies obtenues sont ainsi optimisées sur un véritable POMDP.Nous proposons deux méthodes pour définir la projection du POMDP maitre en un POMDP résumé : par des règles manuelles et par regroupement automatique par k plus proches voisins. Pour cette dernière, nous proposons d utiliser la distance d édition entre graphes, que nous généralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un système résumé, reposant sur un modèle statistique par POMDP, et un système expert, reposant sur des règles ad hoc, fournit un meilleur contrôle sur la stratégie finale. Ce manque de contrôle est en effet une des faiblesses empêchant l adoption des POMDP pour le dialogue dans l industrie.Dans le domaine du renseignement d informations touristiques et de la réservation de chambres d hôtel, les résultats sur des dialogues simulés montrent l efficacité de l approche par renforcement associée à un système de règles pour s adapter à un environnement bruité. Les tests réels sur des utilisateurs humains montrent qu un système optimisé par renforcement obtient cependant de meilleures performances sur le critère pour lequel il a été optimisé.
机译:当前在工业中使用的人机对话系统受到非常僵化的通信形式的严重限制,要求用户遵循系统设计者的逻辑。这种局限性部分是由于他们以预先建立的形式来表示对话状态,因此,为了解决这一难题,我们建议使用语义表示形式,其结构更丰富,更灵活,目的是允许用户自由地表达自己的想法。大大妨碍对话系统的第二个困难是语音识别系统的高错误率。为了定量处理这些错误,在不确定的环境中进行对话策略计划的愿望导致了诸如部分可观察的马尔可夫决策过程(POMDP)之类的强化学习方法的使用。但是POMDP范式的缺点是算法过于复杂。最近的一些建议降低了模型的复杂性。但是它们使用形式表示,不能直接应用于我们提议使用的丰富语义表示,为了将POMDP模型应用于语义模型复杂的系统,我们提出了一种新的方法来控制其复杂性引入了新的范例:POMDP总结了信念的双重追踪。在我们的建议中,将复杂的主POMDP转换为一个更简单的摘要POMDP。在主空间中进行第一次信念更新(通过以nbest列表的形式集成概率观察)。然后在摘要空间中进行第二次置信跟踪,从而在真实的POMDP上优化所获得的策略。我们提出了两种方法来定义主POMDP到摘要POMDP的投影:通过手动规则和通过k自动分组最近的邻居。对于后者,我们建议使用图之间的编辑距离,我们将其概括为nbest列表之间的距离;此外,基于POMDP的统计模型的摘要系统与基于POMDP的专家系统之间的耦合根据临时规则,可以更好地控制最终策略。缺乏控制确实是阻碍POMDP用于行业对话的弱点之一,在旅游信息和酒店预订领域,模拟对话的结果表明了这种方法的有效性。与规则系统相关联的强化方法,以适应嘈杂的环境。对人类用户的实际测试表明,通过加固优化的系统可以根据优化标准获得更好的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号