首页> 外文期刊>統計数理 >複数遺伝子の結合データに基づく分子系統樹の推測: 真核生物の大系統の解析を例として
【24h】

複数遺伝子の結合データに基づく分子系統樹の推測: 真核生物の大系統の解析を例として

机译:基于多基因结合数据推断分子系统发生树:大型真核生物谱系分析的实例

获取原文
获取原文并翻译 | 示例
           

摘要

複数の遺伝子のもつ情報を結合して最尤法により分子進化系統樹に関する推測を行うためのrn方法論の概略を述べ,真核生物の大系統の問題に関するデータ解析の実例を示した.rn結合のための統計モデルとして,単に個々の遺伝子(もしくは全データセットを構成する個々rnの'区分')の連結データに対して1セットの枝長を推定する「連結モデル」,個別の遺伝子(区rn分)それぞれについて独立に枝長の推定を行う「分離モデル」,枝長が遺伝子(区分)間で比例しrnているという仮定を置く「比例モデル」の3つのモデルを取り上げ,真核生物29種からなるrn53個のリボソームタンパク質全5,842座位のデータに適用した.枝長の推定法とデータの分割rn法に関して,異なる6種類のモデルによる解析をAICにより比較した結果,リボソームの大小rnサブユニット区分による分離モデルのAIC値が最も低く,このモデルの適合が最も良いことがrn明らかとなった.遺伝子区分による分離モデルのAIC値は最も高く,パラメータが過剰であるrnと考えられた.このことから,53個のリボソームタンパク質問で進化パターンが比較的均質でrnある可能性が示唆された.系統樹の樹型の選択という観点からは,6種窺の解析結果に大差はrnなく,今回のリボソームタンパク質による解析結果は頑健なものと考えられた.%A maximum likelihood method for phylogenetic inference based on combined analysis of multiple genes is briefly introduced and applied to data analysis of higher-order eukary-otic phylogeny. Three models of branch length estimation are considered assuming that all genes (or partitions for the full data set)have the same branch length (concatenate model), each gene (partition) has a separate set of branch lengths (separate model), and branch lengths are proportional among genes (partitions) (proportional model). Fifty-three ribo-somal protein genes from 29 eukaryotic species were used for the analysis. The data set consisted of 5, 842 amino acid positions. Six different models with different methods for estimating branch lengths and for partitioning the data set were compared by Akaike Information Criterion (AIC). Comparison of the AIC values for the maximum likelihood tree demonstrated that a separate model with a partition between large- and small-subunit ribosomal proteins showed the lowest AIC value, while a separate model with a partition among individual genes had the highest AIC value, suggesting that the former model best approximated the data set and the latter model was over-parameterized. It was suggested also that the tempo and mode of sequence evolution was relatively uniform across different ribosomal protein genes. Since no incongruence was observed among the six models for the selection of alternative trees, the present analysis was considered to be robust.
机译:我们概述了通过使用最大似然法结合多个基因的信息来推断分子进化系统树的方法,并举例说明了有关大型真核系统发生问题的数据分析。作为rn结合的统计模型,一种“链接模型”可以估算单个基因(或组成整个数据集的单个rns的“片段”)的链接数据的一组分支长度。对于每个真核生物,我们采用三个模型:“分离模型”和“比例模型”,“分离模型”分别估计每个分支的分支长度,分支比例与基因(分区)成正比。它已应用于rn53核糖体蛋白物种的所有5,842个基因座的数据。关于分支长度估计法和数据分割rn法,通过AIC对6种不同模型的分析进行了比较,结果以核糖体大小rn亚单位划分的分离模型的AIC值最低,最适合。 Rn变得很清楚。按基因片段的分离模型的AIC值最高,认为该参数过大。这表明53种核糖体蛋白的进化模式可能相对均匀。从选择系统发育树的树类型的角度来看,这六个树种的分析结果没有太大差异,并且核糖体蛋白的分析结果被认为是健壮的。简要介绍了多个基因的组合模型,并将其应用于高阶真核系统发育的数据分析。假设所有基因(或整个数据集的分区)具有相同的分支长度(串联),考虑了三种分支长度估计模型模型),每个基因(分区)都有一组独立的分支长度(独立模型),并且分支长度在各个基因(分区)之间成比例(比例模型)。使用了29个真核生物的53个核糖体蛋白基因数据集由5个842个氨基酸位置组成。使用Akaike信息准则(AIC)比较了六个具有不同方法的不同模型(用于估计分支长度和划分数据集)的模型。最大似然性的AIC值比较树展示了一个带有一部分的单独模型大亚基和小亚基核糖体蛋白之间的分类显示了最低的AIC值,而在单个基因之间具有分区的单独模型具有最高的AIC值,这表明前者模型最适合数据集,而后者模型过参数化还建议在不同的核糖体蛋白基因上序列进化的速度和模式是相对一致的。由于在选择替代树的六个模型中未观察到不一致,因此本分析被认为是可靠的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号