首页> 美国卫生研究院文献>BMC Bioinformatics >Selecting informative subsets of sparse supermatrices increases the chance to find correct trees
【2h】

Selecting informative subsets of sparse supermatrices increases the chance to find correct trees

机译:选择稀疏超矩阵的信息子集会增加找到正确树的机会

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

BackgroundCharacter matrices with extensive missing data are frequently used in phylogenomics with potentially detrimental effects on the accuracy and robustness of tree inference. Therefore, many investigators select taxa and genes with high data coverage. Drawbacks of these selections are their exclusive reliance on data coverage without consideration of actual signal in the data which might, thus, not deliver optimal data matrices in terms of potential phylogenetic signal. In order to circumvent this problem, we have developed a heuristics implemented in a software called mare which (1) assesses information content of genes in supermatrices using a measure of potential signal combined with data coverage and (2) reduces supermatrices with a simple hill climbing procedure to submatrices with high total information content. We conducted simulation studies using matrices of 50 taxa × 50 genes with heterogeneous phylogenetic signal among genes and data coverage between 10–30%.
机译:背景技术具有广泛缺失数据的字符矩阵经常被用于系统基因组学研究中,这可能会对树推断的准确性和鲁棒性产生不利影响。因此,许多研究人员选择了具有较高数据覆盖率的分类单元和基因。这些选择的缺点是它们完全依赖数据覆盖范围,而不考虑数据中的实际信号,因此,就潜在的系统发生信号而言,可能无法提供最佳的数据矩阵。为了解决这个问题,我们开发了一种启发式方法,该方法在名为mare的软件中实施,该方法(1)使用潜在信号的测量方法结合数据覆盖范围来评估超级矩阵中基因的信息含量,并且(2)通过简单的爬坡来减少超级矩阵总信息量较高的子矩阵的过程。我们使用50个分类单元×50个基因的矩阵进行了模拟研究,这些基因之间具有不同的系统发育信号,数据覆盖率在10%至30%之间。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号