首页> 外文期刊>電子情報通信学会技術研究報告 >Hierachical Pitman-Yor Topic Model
【24h】

Hierachical Pitman-Yor Topic Model

机译:分层的Pitman-Yor主题模型

获取原文
获取原文并翻译 | 示例
       

摘要

Topic model is a probabilistic generative model that models latent semantics of words as "topic". In this paper, we propose a novel topic model that captures the power-law phenomenon of a word distribution, which is known as Zipf's law in linguistics. We use the Pitman-Yor process to model a generation process of a document. In an experiment using real data, our model outperformed LDA in document modeling in terms of perplexity.%トピックモデルは,単語のもつ潜在的な意味をトピックという概念によってモデル化することで文書の生成過程をモデル化する確率的生成モデルである.本研究では,文書中の単語の出現に関してPower-Lawと呼ばれる性質を導入する.具体的にはPitman-Yor過程を用いて文書中の単語の生成過程をモデル化する.Power-Lawの性質の導入により,少ないトピック数でも低いPerplexityを保持することを実験的に示す.
机译:主题模型是将单词的潜在语义建模为“主题”的概率生成模型,本文提出了一种新颖的主题模型,该模型捕获了单词分布的幂律现象,在语言学中被称为齐普夫定律。使用Pitman-Yor过程对文档的生成过程进行建模在一个使用真实数据的实验中,我们的模型在文档建模方面的困惑度优于LDA。%主题模型是单词潜在含义的概念。它是一种随机生成模型,用于通过建模来对文档生成过程进行建模。在这项研究中,我们引入了一个称为Power-Law的属性来使文档中的单词出现。具体来说,我们使用Pitman-Yor流程对文档中生成单词的流程进行建模。我们通过实验证明,即使有少量主题,Power-Law属性的引入也可以保持较低的困惑度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号