首页> 外文学位 >Efficient algorithms for large data sets of genomic sequences in microbial community analysis.
【24h】

Efficient algorithms for large data sets of genomic sequences in microbial community analysis.

机译:微生物群落分析中基因组序列大数据集的高效算法。

获取原文
获取原文并翻译 | 示例

摘要

Microbial analysis of environmental samples uses high-throughput genomic sequencing to determine the diversity and quantity of microbial species. Current sequencing techniques can produce very large data sets that are not handled by current analysis applications, necessitating the design of better approaches. This work presents three new applications: SeqCluster, ParsInsert, and PTreeView. SeqCluster groups sequences based on similarity using a hierarchical clustering method and selects a representative sequence to create operational taxonomic units (OTUs). SeqCluster also supports large distance matrixes exceeding the size of available local memory by using a custom memory management system. ParsInsert introduces an algorithm that can exploit the knowledge provided by publicly available curated phylogenetic trees to efficiently produce both a phylogenetic tree and taxonomies for unknown sequences. PTreeView is a user-friendly visualization application with a broad range of functions and capabilities supporting very large trees. The applications presented here handle hundreds of thousands of sequences efficiently for data clustering, phylogenetic tree building, taxonomic classification, and tree visualization.
机译:环境样品的微生物分析使用高通量基因组测序来确定微生物种类的多样性和数量。当前的测序技术会产生非常大的数据集,而当前的分析应用程序无法处理这些数据集,因此需要设计更好的方法。这项工作提出了三个新的应用程序:SeqCluster,ParsInsert和PTreeView。 SeqCluster使用层次聚类方法基于相似性对序列进行分组,并选择一个代表性序列来创建可操作的分类单位(OTU)。通过使用自定义内存管理系统,SeqCluster还支持超过可用本地内存大小的大距离矩阵。 ParsInsert引入了一种算法,该算法可以利用公开可用的精选系统发育树提供的知识来有效生成未知序列的系统发育树和分类法。 PTreeView是一种用户友好的可视化应用程序,具有广泛的功能和功能,可支持非常大的树木。此处介绍的应用程序可有效处理数十万个序列,用于数据聚类,系统树构建,分类学分类和树可视化。

著录项

  • 作者

    Knox, David A.;

  • 作者单位

    University of Colorado at Boulder.;

  • 授予单位 University of Colorado at Boulder.;
  • 学科 Biology Bioinformatics.;Computer Science.
  • 学位 M.S.
  • 年度 2010
  • 页码 71 p.
  • 总页数 71
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号