首页> 外文OA文献 >La surveillance efficace de bout-à-bout pour la gestion des pannes dans les systèmes distribués
【2h】

La surveillance efficace de bout-à-bout pour la gestion des pannes dans les systèmes distribués

机译:高效的端到端监控,用于分布式系统中的故障管理

摘要

Dans cette thèse, nous présentons notre travail sur la gestion des pannes dans les systèmes distribués, avec comme motivation principale le suivi de fautes et de changements brusques dans de grands systèmes informatiques comme la grille et le cloud.Au lieu de construire une connaissance complète a priori du logiciel et des infrastructures matérielles comme dans les méthodes traditionnelles de détection ou de diagnostic, nous proposons d'utiliser des techniques spécifiques pour effectuer une surveillance de bout en bout dans des systèmes de grande envergure, en laissant les détails inaccessibles des composants impliqués dans une boîte noire.Pour la surveillance de pannes d'un système distribué, nous modélisons tout d'abord cette application basée sur des sondes comme une tâche de prédiction statique de collaboration (CP), et démontrons expérimentalement l'efficacité des méthodes de CP en utilisant une méthode de la max margin matrice factorisation. Nous introduisons en outre l apprentissage actif dans le cadre de CP et exposons son avantage essentiel dans le traitement de données très déséquilibrées, ce qui est particulièrement utile pour identifier la class de classe de défaut de la minorité.Nous étendons ensuite la surveillance statique de défection au cas séquentiel en proposant la méthode de factorisation séquentielle de matrice (SMF). La SMF prend une séquence de matrices partiellement observées en entrée, et produit des prédictions comportant des informations à la fois sur les fenêtres temporelles actuelle et passé. L apprentissage actif est également utilisé pour la SMF, de sorte que les données très déséquilibrées peuvent être traitées correctement. En plus des méthodes séquentielles, une action de lissage pris sur la séquence d'estimation s'est avérée être une astuce pratique utile pour améliorer la performance de la prédiction séquentielle.Du fait que l'hypothèse de stationnarité utilisée dans le surveillance statique et séquentielle devient irréaliste en présence de changements brusques, nous proposons un framework en ligne semi-supervisé de détection de changement (SSOCD) qui permette de détecter des changements intentionnels dans les données de séries temporelles. De cette manière, le modèle statique du système peut être recalculé une fois un changement brusque est détecté. Dans SSOCD, un procédé hors ligne non supervisé est proposé pour analyser un échantillon des séries de données. Les points de changement ainsi détectés sont utilisés pour entraîner un modèle en ligne supervisé, qui fournit une décision en ligne concernant la détection de changement à parti de la séquence de données en entrée. Les méthodes de détection de changements de l état de l art sont utilisées pour démontrer l'utilité de ce framework.Tous les travaux présentés sont vérifiés sur des ensembles de données du monde réel. Plus précisément, les expériences de surveillance de panne sont effectuées sur un ensemble de données recueillies auprès de l infrastructure de grille Biomed faisant partie de l European Grid Initiative et le framework de détection de changement brusque est vérifié sur un ensemble de données concernant le changement de performance d'un site en ligne ayant un fort trafic.
机译:在本文中,我们介绍了分布式系统故障管理的工作,其主要动机是监视大型计算机系统(例如网格和云)中的故障和突发变化,而不是建立完整的知识体系。像传统的检测或诊断方法中的先验软件和硬件基础结构一样,我们建议使用特定技术在大型系统中执行端到端监视,而使涉及的组件的细节无法访问为了监视分布式系统的故障,我们首先将此基于探针的应用程序建模为静态协作预测(CP)任务,并通过实验证明了CP方法在以下方面的效率:使用最大余量矩阵分解的方法。我们还介绍了CP上下文中的主动学习,并展示了其在处理非常不平衡的数据中的基本优势,这对于识别少数缺陷类别特别有用,然后扩展静态缺陷监控在顺序情况下,通过提出矩阵顺序分解的方法(SMF)。 SMF将一系列部分观察到的矩阵作为输入,并使用当前和过去时间窗口上的信息生成预测。主动学习也用于SMF,因此可以正确处理高度不平衡的数据。除了顺序方法外,对估计序列采取的平滑操作已被证明是提高顺序预测性能的有用技巧,因为静态和顺序监视中使用了平稳性假设在突然发生变化的情况下变得不切实际,我们提供了一种半监督的在线变化检测框架(SSOCD),该框架可检测时间序列数据中的有意变化。这样,一旦检测到突变,便可以重新计算系统的静态模型。在SSOCD中,提出了一种无监督的离线方法来分析数据序列的样本。如此检测到的变化点用于训练有监督的在线模型,该模型提供有关从输入数据序列中检测到变化的在线决策。最新的变化检测方法被用来证明该框架的有效性,所提出的所有工作均已在真实数据集上进行了验证。更具体地说,对从构成欧洲网格倡议一部分的Biomed网格基础设施收集的一组数据上进行故障监视实验,并根据与变化有关的一组数据验证突变检测框架。具有高流量的在线站点的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号