首页> 外文期刊>電子情報通信学会技術研究報告 >MPI/OpenMPハイブリッド並列化による潜在的デイリクレ配分法の効率的推定
【24h】

MPI/OpenMPハイブリッド並列化による潜在的デイリクレ配分法の効率的推定

机译:通过MPI / OpenMP混合并行高效估计潜在Dirichlet分配方法

获取原文
获取原文并翻译 | 示例
           

摘要

近年,確率的トピックモデルがテキストデータをはじめとした多様なデータに適用され,有効性が示されている.トピックモデルの代表的なものに潜在的デイリクレ配分法(Latent Dirichlet Allocation: LDA)があげられる.LDAのパラメータ推定には変分ベイズ法やギプスサンプリング法などが用いられるが,大規模データに対して計算コストが要求されるため,効率化が望まれている.本稿では,LDAのためのギプスサンプリング法の効率化のため,並列計算技術を用いる.計算環境として,近年広く普及している分散・共有メモリ型(SMPクラスタ型)を想定する.従来のLDAのための並列推定手法はMPIまたはOpenMPがそれぞれ単独で用いられてきた.それに対してSMPクラスタ型並列計算機では,SMPノード間通信にメッセージパッシングを,SMPノード内並列化にループディレクティブを用いるハイブリッド並列プログラミングモデルが適している.そこで本稿では,LDAのためのMPI/OpenMPハイブリッド型並列推定手法を開発し,SMPクラスタ型計算機において高速化を実現した.%In recent years, probabilistic topic models have been applied to various kinds of data including text data, and its effectiveness has been demonstrated. Latent Dirichlet Allocation (LDA) is one of the well-known topic models. Variational Bayesian inference or Collapsed Gibbs sampling is often employed to estimate parameters in LDA; however, these inference methods require high computational cost for large-scale data. Therefore, high efficiency technology is needed for this purpose. In this paper, we make use of parallel computation technology for the sake of efficient Collapsed Gibbs sampling inference for LDA. We assume to use a shared memory cluster (SMP cluster), which is widely used in recent years. In prior work of efficient inference for LDA, MPI or OpenMP has been used alone. On the other hand, for a SMP cluster it is more suitable to adopt hybrid parallel programming models which use message passing for communication between SMP nodes and loop directives for parallelization within each SMP node. In this paper, we developed a MPI/OpenMP hybrid parallel inference method for LDA, and achieved remarkable speed-up under various settings of a SMP cluster.
机译:近来,概率主题模型已经被应用于诸如文本数据的各种数据,并且已经显示出其有效性。典型的主题模型是潜在狄利克雷分配(LDA)。 LDA的参数推定采用了变分贝叶斯法和石膏取样法,但是由于大规模数据需要计算量,因此需要提高效率。在本文中,我们使用并行计算技术来提高LDA的强制采样方法的效率。作为计算环境,我们假设是分布式/共享内存类型(SMP群集类型),这种类型在最近几年已变得越来越普遍。 MPI或OpenMP已被单独用作LDA的常规并行估计方法。另一方面,对于SMP群集并行计算机,使用消息传递进行SMP节点之间的通信以及使用循环指令在SMP节点内进行并行化的混合并行编程模型是合适的。因此,本文针对LDA开发了一种MPI / OpenMP混合并行估计方法,并在SMP集群计算机上实现了较高的速度。 %近年来,概率主题模型已应用于包括文本数据在内的各种数据,并证明了其有效性。潜在的狄利克雷分配(LDA)是著名的主题模型之一,即变分贝叶斯推断或折叠吉布斯采样通常用于估计LDA中的参数;但是,这些推理方法需要对大型数据进行大量计算,因此,为此需要高效的技术。我们假设使用近年来广泛使用的共享内存集群(SMP集群),在先前对LDA进行有效推理的工作中,仅使用MPI或OpenMP。对于SMP集群,更适合采用混合并行编程模型,该模型使用消息传递进行SMP节点之间的通信,并使用循环指令进行并行化。在本文中,我们为LDA开发了一种MPI / OpenMP混合并行推理方法,并在各种SMP集群设置下实现了显着的加速。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号