首页> 中文学位 >用于高通量DNA测序的编码方法研究
【6h】

用于高通量DNA测序的编码方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 DNA测序与基因组研究

1.2 高通量测序技术及发展

1.3 多样本混合测序

1.3.1 DNA条形码编码

1.3.2 重叠混合编码

1.3.3 内源性DNA条形码编码

1.4 DNA条形码设计的现状

1.5 论文的研究内容以及意义

1.5.1 高通量DNA测序中样本编码的容错设计

1.5.2 搜索物种固有的特异性序列

1.5.3 开发软件

1.6 论文章节安排

第二章 基于线性分组码的多样本编码

2.1 差错控制编码

2.1.1 汉明距离

2.1.2 线性分组码

2.2 基于BCH码的多样本编码

2.2.1 BCH码

2.2.2 生成多项式与纠错性能

2.2.3 编码空间与碱基空间

2.3 条形码的过滤

2.4 基于BCH码的多样本解码

2.4.1 基于解码矩阵的解码

2.4.2 基于最小距离的解码

2.5 BCH码性能评估

2.6 本章小结

第三章 基于最小距离的多样本优化编码

3.1 基于二进制编码的缺陷

3.2 最小距离编码

3.2.1 随机生成搜索种子

3.2.2 基于贪婪策略搜索生成编码

3.2.3 改进空间利用的编码搜索算法

3.3 汉明距离与编辑距离

3.4 基于编辑距离的编码

3.5 最小距离优化搜索编码性能评估

3.6 本章小结

第四章 生物内源性编码

4.1 生物内源性条形码

4.1.1 基于生物内源性条形码的生物多样性调查

4.1.2 线粒体细胞色素氧化酶1

4.1.3 16s rRNA

4.2 生物内源性条形码的变异区域

4.2.1 DNA序列变异区域分析

4.3 评估滑动窗口内的物种辨识度

4.3.1 滑动窗口内序列间的汉明距离

4.3.2 基于通路拓扑距离的进化树比较

4.4 狼蛛属物种CO1变异区域

4.4.1 数据的获取与预处理

4.4.2 单滑动窗口分析

4.4.3 双滑动窗口分析

4.5 肠杆菌科物种16s rRNA变异区域

4.6 快速寻找内源性条形码中多个变异区域

4.7 本章小结

第五章 DNA条形码设计及解码软件BioCoder

5.1 BioCoder的设计综述

5.2 利用BCH码生成DNA条形码

5.3 利用空间优化搜索算法生成DNA条形码

5.4 解码样本

5.5 本章小结

第六章 总结与展望

6.1 论文工作总结

6.2 展望

参考文献

致谢

作者简介

展开▼

摘要

高通量测序技术在分析较低测序通量需求的基因样本时,通常采用多样本混合测序的实验方案。为了辨识不同的样本,会在样本测序片段的一端添加唯一的DNA条形码,从而编码不同的DNA样本。高质量的DNA条形码是多样本研究得以成功进行的关键因素。没有系统性设计的DNA条形码容易引起序列的错误分配并造成数据集交叉污染,从而严重影响后续的数据分析和数据挖掘。
  根据DNA条形码设计的现状,本文利用信息科学中差错控制编码的思路,使用BCH码设计了用于多样本测序的DNA条形码。其中(15,7)条形码能够编码128个样本,在模拟测试中达到99.518%的纠错率。基于BCH码的DNA条形码优势在于可定制的编码长度和容错性能,能够灵活的根据需求设计DNA条形码。
  为了解决编码空间利用率较低、可用编码数量较少的问题,本文提出了一种基于贪婪策略的编码空间优化搜索算法,能够生成任意进制、任意长度的编码,在码字间保持一定距离的情况下,尽可能充分的利用编码空间,并生成更多数量的编码。利用此算法生成8bp长度的1198个编码,码字间保持了3位的汉明距离,在模拟测试中达到96.918%的纠错率。利用此算法,基于编辑距离生成了6bp长度的99个编码,在模拟测试中能够达到97.618%的纠错率。基于编辑距离的编码能够抵抗测序中可能出现的碱基插入或缺失错误,适用于容易产生此类错误的454测序平台。
  生物内源性条形码是指生物体内一段具有较强保守性的基因序列,可用于辨别物种。为了缩短生物内源性条形码的长度,以使其适用于高通量测序,本文使用滑动窗口的方法寻找生物内源性条形码中固有的特异性序列,并提出以样本区分度R2与进化关系相似度Q来评估窗口内序列的物种分辨度。以狼蛛属33个物种的基因CO1序列以及肠杆菌科41个物种的16s rRNA序列为样本,研究并分析了它们的变异区域。其中狼蛛属物种的CO1序列在使用总长80bp的双滑动窗口分析时,样本区分度R2最高可达87.88%,进化关系相似度Q最高可达95.39%。本文还提出了一种快速的多窗口搜索算法,以在较短的时间内寻找内源性条形码内部多个不连续的变异区域。使用此算法寻找肠杆菌科41个物种16s rRNA序列中5个变异区域,并要求物种在区域内的序列能够保持3位汉明距离,在总长度30bp时,此算法寻找到的5个变异区域的样本区分度R2达到100%。
  最后,设计并开发了DNA条形码生成软件BioCoder。BioCoder软件有3个主要模块:BCH码编码模块、搜索算法编码模块以及解码模块。其中BCH码编码模块与搜索算法编码模块能够根据本论文的主要研究内容生成适用于多样本测序的DNA条形码,而解码模块能够在多样本测序之后对测序片段中的DNA条形码进行解码,从而判断此测序片段所归属的样本。软件可从http://sourceforge.net/p/biocoder获取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号