We propose a clustering system to diagnose distributed system by log data of system metrics, and a system that searches process including error causes. We use Naive Bayes and the Tree-augmented Naive Bayes, which extended from Naive Bayes, for clustering. Our system chooses proper metrics clustering node state from log data automatically, reshepes feature vector to refine clustering efficiency, and help administrator finding error causes by noticing process group. We evaluate this system in Intrigger platform.%本稿では、計算機クラスタの各ノードのCPU使用率や通信量などのログからノードの状態分類を行う手法として、Naive BayesとTree-augmented Naive Bayes の2つの確率モデルによる特徴抽出を用いるクラスタリング方法と、各クラスタに分類された原因となるプロセスの追求方法を提案、実装を行った。この手法により確率モデルから分類に用いる統計量の選択、特徴抽出ベクトルへの変換をしクラスタリングの正確性をあげ、調べたい分類状態のプロセスグループごとのまとまりの変化に着目し、原因となるプロセスを発見することができ、従来困難であった並列分散環境での異常発見を容易にすることが可能となった。本稿ではその実装と評価について述べる。
展开▼