...
首页> 外文期刊>電子情報通信学会技術研究報告. 情報論的学習理論と機械学習 >文字列の集合上のLaplace様混合モデルとEMアルゴリズムに基づく文字列クラスタリング
【24h】

文字列の集合上のLaplace様混合モデルとEMアルゴリズムに基づく文字列クラスタリング

机译:一组基于字符串的Laplace类混合模型和基于EM算法的字符串聚类

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

本稿において,我々は,[1],[2],[3]において作られてきた文字列の集合上の確率論を用いて,文字列データに対する混合モデルとEMアルゴリズムの理論を展開することにより,文字列データの教師無しクラスタリングの問題に取り組む.我々は,まず,実数の集合上のLaplace分布をモチーフにして作られたパラメトリックな分布を文字列の集合上に導入し,その基本的な性質を調べる.このLaplace様分布は,位置を表す文字列のパラメーターと散らばりを表す正の実数のパラメーターを持つが,一方のパラメーターが文字列であるため,最尤推定量を陽に書くのが難しい.そこで,我々は,観測文字列の数が増加するに従って,最尤推定量に概収束する推定量を構成し,更にそれらによってパラメーターが強一致推定されることを示す.その後,我々は,Laplace様分布の混合モデルのパラメーターを推定するための反復アルゴリズムを構成し,観測文字列の数とアルゴリズムの反復回数が増加するに従って,そのアルゴリズムがEMアルゴリズムに概収束すること,またそれによりLaplace様混合モデルのパラメーターが強一致推定されることを証明する.我々は,最後に,このLaplace様混合モデルから文字列の教師無しクラスタリング方式を導出し,それが正しい分類を行う事後確率が最大であるという意味で漸近的に最適であることを述べる.
机译:在本文中,我们使用在[1],[2]和[3]中创建的字符串集的概率论,开发了用于字符串数据的混合模型和EM算法的理论。 ,解决字符串数据的无监督聚类问题。我们首先介绍使用拉普拉斯分布在一组实数上创建的参数分布,并将其作为一组字符串上的图案,并研究其基本属性。这种类似Laplace的分布具有代表位置的字符串参数和代表散点的正实数参数,但是由于其中一个参数是字符串,因此很难明确地写出最可能的估计值。因此,我们构造了一个估计值,随着观察字符串数量的增加,该估计值大致收敛至最可能的估计值,并表明参数与它们紧密匹配并被估计。之后,我们构造了一个迭代算法来估计类似Laplace分布的混合模型的参数,并且随着观察字符串的数量和算法迭代次数的增加,该算法大致收敛于EM算法。这也证明了类似Laplace混合模型的参数是强匹配的。最后,我们从这种类似Laplace的混合模型中得出了一种无监督的字符串聚类方法,并指出该字符串在正确分类的后验概率最大的意义上是逐步最优的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号