首页> 中文学位 >高通量基因组数据的处理、分析与建模
【6h】

高通量基因组数据的处理、分析与建模

代理获取

目录

声明

摘要

第一章 绪论

1.1 高通量基因组测序技术

1.1.1 第二代高通量基因组测序技术

1.1.2 第三代高通量基因组测序技术

1.1.3 全球测序技术分布

1.2 基于Illumina的高通量基因组测序数据分析

1.2.1 高通量基因组测序数据分析概况

1.2.2 高通量基因组测序序列mapping分析

1.3 本论文主要研究内容

第二章 GRS:基于参考基因组的重测序序列压缩分析研究

2.1 研究背景与研究动机

2.2 实验材料与实验方法

2.2.1 数据来源

2.2.2 软件GRS

2.2.3 算法GRS整体架构体系

2.2.4 评估个体基因组数据差异

2.2.5 记录最长公共子序列和变化序列

2.3 结果与分析

2.3.1 变化序列的Huffman编码与基因组序列重建

2.3.2 软件GRS的压缩性能

2.4 讨论

2.5 本章小结

2.6 基金资助及致谢

第三章 SIPeS:蛋白质和DNA结合位点高通量分析方法研究

3.1 研究背景与研究动机

3.2 实验材料与实验方法

3.2.1 染色质免疫沉淀

3.2.2 数据来源

3.2.3 软件SIPeS

3.2.4 建立双端测序数据的片段模型

3.3 结果与分析

3.3.1 有效基因组长度计算

3.3.2 算法SIPeS

3.3.3 几种peak calling方法的比较

3.4 讨论

3.5 本章小结

3.6 基金资助及致谢

第四章 ANAP:一种整合的拟南芥蛋白质相互作用网络方法研究

4.1 研究背景与研究动机

4.2 实验材料与实验方法

4.2.1 数据来源

4.2.2 工具ANAP构建方法及访问方法

4.2.3 工具ANAP设计流程

4.2.4 蛋白相互作用数据格式

4.3 结果与分析

4.3.1 搜索页与ANAP框架

4.3.2 单个叠白质搜索

4.3.3 多个蛋白质搜索构建网络

4.3.4 与其它资源交互

4.4 讨论

4.5 本章小结

4.6 基金资助及致谢

第五章 基于重测序技术的转基因水稻插入位点分析

5.1 研究背景与研究动机

5.2 实验材料与实验方法

5.2.1 数据来源

5.2.2 生物信息分析流程

5.2.3 在线分析工具

5.3 结果与分析

5.3.1 测序数据分析结果统计

5.3.2 插入位点验证

5.4 讨论

5.5 本章小结

5.6 基金资助及致谢

第六章 结论

参考文献

附录

致谢

攻读博士学位期间已发表或录用的论文

展开▼

摘要

随着高通量测序技术的不断发展,生物学相关数据也越来越多,如何从高通量实验数据中挖掘出有价值的知识和规律是生物信息学及计算生物学研究的热点之一。本文围绕高通量基因组数据处理、分析方法等展开了一系列研究,并取得了以下研究结果。
  1、随着第二代DNA测序技术的发展,人们揭示了越来越多不同物种的参考基因组序列和不同生物个体基因组序列。然而,如何存储和管理数量巨大的不同生物个体的基因组数据,已成为生物学家面临的一个重要挑战。本文提出了一种新颖的压缩工具GRS(Genome ReSequencing),用来储存并分析有参考基因组序列的基因组重测序数据。和以前的方法相比,GRS能够处理没有单核苷酸多态性参考序列和其他变异信息图谱的基因组序列数据,并根据参考基因组序列自动重建个体基因组序列。通过对第一个韩国人个体基因组序列数据的测试,GRS能够实现159倍左右的压缩效率,从原始2986.8 MB大小压缩至18.8 MB。通过对水稻和拟南芥测序数据的测试,水稻基因组数据从原来的361.0 MB大小压缩至4.4 MB,拟南芥基因组数据从115.1 MB压缩至6.5 KB。该压缩工具可以通过http://gmdd.shgmo.org/Computational-Biology/GRS访问。
  2、染色质免疫沉淀后对其进行大规模高通量并行测序(ChIP-Seq)是用于研究蛋白质和基因组DNA相互作用的的重要手段。本文设计了一种可以用来分析来自Illumina双端测序ChIP-Seq数据的新算法,并开发出其对应的分析工具SIPeS(从双端测序数据中鉴定结合位点)。我们获得了拟南芥AMS转录因子(一个参与拟南芥花粉发育过程的基因)ChIP-Seq实验;SIPeS分析结果与现有的分析方法CisGenome和MACS相比,有更高的结合位点识别分辨率。根据双端测序数据,SIPeS可以准确的计算出有效基因组长度(mappable genomelength/effective genome length),并且通过使用动态基线(dynamic baseline)的方法有效地分辨出紧密相邻的结合位点,特别是对于拟南芥等基因密度较大的基因组时非常有效。该分析工具可以通过http:∥gmdd.shgmo.org/Computational-Biology/ChIP-Seq/download/SIPeS访问,目前版本为2.0。
  3、蛋白质的相互作用参与生物体生命活动的各个方面,虽然目前有超过10个以上的公用拟南芥蛋白质相互作用数据库。但是,这些数据库存在某些缺陷,包括使用没有统一标准类型的相互作用证据,缺乏统一的蛋白质或基因标识符以及使用没有标准定义的其它信息等。为了有效地整合来自不同相互作用数据库的数据,并最大限度地利用这些数据,本文提出了一个交互式的生物信息学网络工具,ANAP(拟南芥网络分析流水线)。ANAP是根据拟南芥蛋白质相互作用数据整合及其相互作用网络研究而开发的,它可以方便地进行蛋白质相互作用网络分析。ANAP集成了11个拟南芥蛋白质相互作用数据库,其中共包括201699对唯一的蛋白质相互作用对,15208个标识符(包括11931个TAIR的AGI号),89种相互作用检测方法,73种参与拟南芥蛋白质相互作用的物种,6161篇参考文献。ANAP可以用来作为构建蛋白质相互作用网络的知识库,根据用户的输入,支持蛋白质直接和间接相互作用分析。它有一个直观的图形界面,便于网络的可视化,并为每对相互作用提供详细的证据。此外,通过连接相应TAIR数据库,ANAP可以很方便在生成的相互作用网络中浏览相关基因或蛋白质的功能注释,并且可以比较方便的连接至相关基因或蛋白质对应的AtGenExpress可视化工具(AVT),拟南芥1001基因组GBrowse(1001基因组),蛋白质知识库(UniProtKB),京都基因与基因组百科全书(KEGG)以及Ensembl基因组浏览器(EnsemblGenomes)去更好的进行相互作用网络分析。该工具可以通过http://gmdd.shgmo.org/Computational-Biology/ANAP/ANAP_V1.0访问。
  4、转基因作物的安全性评价是转基因作物研究到其商业化过程中的关键步骤,其中分子特征是安全评价中最基本和最重要的部分,包括评价外源插入位点,旁侧序列及插入拷贝数等。相对于常规使用的检测方法,如Southern杂交,聚合酶链式反应,原位杂交,基因组步移等,建立和发展新的高通量转基因作物分子特征分析方法是有益和必要的。这里,我们在双端测序技术基础上开发了一个准确的高通量方法用以评估转基因水稻全基因组水平的分子特征。对于转基因水稻T1C-19,利用我们建立的方法,可以清楚的发现位于4号和11号染色体上的外源插入位点,该结果同时较好的得到了常规PCR和Sanger测序方法的验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号