首页> 中文学位 >元基因组序列聚类算法研究
【6h】

元基因组序列聚类算法研究

代理获取

目录

摘要

第一章 绪论

1.1 研究背景

1.1.1 元基因组简介

1.1.2 元基因组数据的产生与格式

1.1.3 元基因组归类

1.2 研究现状

1.2.1 基于序列相似度的方法

1.2.2 基于序列组成的方法

1.3 研究目的

1.4 研究内容

1.5 本文结构

第二章 方法

2.1 方法流程

2.2 数据预处理和特征集提取

2.3 特征降维方法

2.4 聚类方法描述

2.5 距离定义

2.6 聚类效果评价方法

第三章 实验结果

3.1 数据集

3.1.1 模拟数据集

3.1.2 真实数据集

3.2 参数优化及选择

3.2.1 k-mer特征提取中k的选择

3.2.2 聚类中距离量度的选择

3.2.3 使用非负矩阵分解进行特征降维的效果

3.3 模拟数据集上的实验结果

3.3.1 在均匀分布数据集上的实验结果

3.3.2 来自不同物种的数据具有不同比例时聚类结果的比较

3.3.3 元基因组中的序列数目对聚类结果的影响

3.4 在真实数据集上的实验结果

3.5 运行时间分析

第四章 总结与展望

参考文献

投稿论文

致谢

声明

展开▼

摘要

最近五到十年间,随着高通量测序技术的发展,生物研究领域产生了大量的基因组测序数据。其中很大一部分是对生物体内和自然环境中的微生物群落取样并测序而产生的元基因组数据。元基因组数据包含了整个微生物群落的基因组信息,可以用来阐释人类健康,自然进化和生态构成等方面的诸多问题。对元基因组数据的处理与分析正在成为一个全新的生物信息学研究领域。
  由于元基因组数据混杂了来自多个物种的DNA片段数据,因此对这些片段的归类成为元基因组数据分析中最重要的问题之一。传统的元基因组序列归类方法大多只能处理已知微生物基因组序列片段的归类问题,但是绝大多数的元基因组数据包含来自未知微生物的基因组序列片段,因此需要一种有效的无监督方法来对这些数据进行归类。
  本文提出了一种基于无监督聚类的元基因组序列归类方法,命名为MCluster。该方法使用k-mer特征提取方法和一种特征权重可变的的无监督聚类方法,可以有效地将来自不同微生物的DNA序列数据区分开来。与以往的有监督方法相比,该方法并不依赖于已知的基因组序列数据。实验结果表明,MCluster在模拟数据集和真实数据集上的表现都超过了已有的无监督聚类方法,可以作为元基因组研究的有利工具对元基因组测序数据进行聚类,以研究其物种组成和分布。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号