首页> 美国卫生研究院文献>Journal of Computational Biology >The Complexity of the Dirichlet Model for Multiple Alignment Data
【2h】

The Complexity of the Dirichlet Model for Multiple Alignment Data

机译:多重比对数据的Dirichlet模型的复杂性

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

A model is a set of possible theories for describing a set of data. When the data are used to select a maximum-likelihood theory, an important question is how many effectively independent theories the model contains; the log of this number is called the model's complexity. The Dirichlet model is the set of all Dirichlet distributions, which are probability densities over the space of multinomials. A Dirichlet distribution may be used to describe multiple-alignment data, consisting of n columns of letters, with c letters in each column. We here derive, in the limit of large n and c, a closed-form expression for the complexity of the Dirichlet model applied to such data. For small c, we derive as well a minor correction to this formula, which is easily calculated by Monte Carlo simulation. Although our results are confined to the Dirichlet model, they may cast light as well on the complexity of Dirichlet mixture models, which have been applied fruitfully to the study of protein multiple sequence alignments.
机译:模型是用于描述一组数据的一组可能的理论。当使用数据选择最大似然理论时,一个重要的问题是模型包含多少个有效独立的理论。该数字的对数称为模型的复杂度。 Dirichlet模型是所有Dirichlet分布的集合,这些分布是多项式空间上的概率密度。 Dirichlet分布可用于描述多重对齐数据,该数据由n列字母组成,每列中包含c个字母。我们在大n和c的限制下,得出了应用于此类数据的Dirichlet模型的复杂性的闭式表达式。对于小c,我们还对该公式进行了较小的修正,可以通过蒙特卡洛模拟轻松计算出该修正。尽管我们的研究结果仅限于Dirichlet模型,但它们也可能说明了Dirichlet混合物模型的复杂性,该模型已成功应用于蛋白质多序列比对的研究。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号