首页> 外文OA文献 >Topic Modeling of Hierarchical Corpora
【2h】

Topic Modeling of Hierarchical Corpora

机译:分层语料库的主题建模

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We study the problem of topic modeling in corpora whose documents areorganized in a multi-level hierarchy. We explore a parametric approach to thisproblem, assuming that the number of topics is known or can be estimated bycross-validation. The models we consider can be viewed as special(finite-dimensional) instances of hierarchical Dirichlet processes (HDPs). Forthese models we show that there exists a simple variational approximation forprobabilistic inference. The approximation relies on a previously unexploitedinequality that handles the conditional dependence between Dirichlet latentvariables in adjacent levels of the model's hierarchy. We compare our approachto existing implementations of nonparametric HDPs. On several benchmarks wefind that our approach is faster than Gibbs sampling and able to learn morepredictive models than existing variational methods. Finally, we demonstratethe large-scale viability of our approach on two newly available corpora fromresearchers in computer security---one with 350,000 documents and over 6,000internal subcategories, the other with a five-level deep hierarchy.
机译:我们研究了语料库中的主题建模问题,该语料库的文档按多层层次结构进行组织。我们假设该主题的数目是已知的,或者可以通过交叉验证进行估计,因此我们探索了针对此问题的参数方法。我们认为的模型可以视为分层Dirichlet流程(HDP)的特殊(有限维)实例。对于这些模型,我们表明对概率推断存在一个简单的变分近似。近似依赖于先前无法利用的不等式,该不等式处理模型层次结构中相邻级别中Dirichlet潜在变量之间的条件依赖性。我们将我们的方法与非参数HDP的现有实现进行了比较。在几个基准上,我们发现我们的方法比Gibbs采样更快,并且比现有的变分方法能够学习更多预测模型。最后,我们在计算机安全研究人员的两个新获得的语料库上证明了我们方法的大规模可行性-一个拥有350,000个文档和6,000多个内部子类别,另一个具有五层深度层次结构。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号