首页> 中文学位 >新一代测序技术下的软件开发和转录组学研究
【6h】

新一代测序技术下的软件开发和转录组学研究

代理获取

目录

文摘

英文文摘

声明

第一章前言

1.1新一代测序技术的基本原理及应用

1.1.1 Illumina(Solexa)genome analyzer

1.1.2 Applied Biosystems(SOLiD)sequencer

1.1.3 Roche(454)FLX sequencer

1.1.4新一代测序技术的应用

1.2新一代测序技术下的基因组学及生物信息学研究进展

1.2.1 基因组重测序及多态性检测

1.2.2新物种基因组测序及序列拼接

1.2.3转录组测序及表达分析

1.3本研究的目的及意义

第二章新一代测序技术下短序列比对和SNP检测的算法研究和软件开发

2.1引言

2.2方法

2.2.1开发环境和程序流程

2.2.2连续比对

2.2.3断裂比对

2.2.4群体测序SNP检测和等位基因频率估计

2.3结果与讨论

2.3.1序列比对的准确度

2.3.2 SNP检测和频率估计的准确度

2.3.3软件应用

第三章新一代测序数据分析的网络系统开发

3.1引言

3.2方法与结果

3.2.1开发环境和系统架构

3.2.2网络界面开发

3.2.3后台程序设计

3.2.4数据库架构

3.3网络系统应用

3.3.1果蝇转录组测序分析

3.3.2红树群体测序分析

第四章在有限内存下可视化超大规模序列比对的算法研究和软件开发

4.1引言

4.2方法

4.2.1 MVF文件格式开发

4.2.2文件加载与浏览算法设计

4.3结果与讨论

4.3.1功能操作与软件界面

4.3.2性能

4.3.3软件应用

第五章红树转录组的Solexa测序及分析

5.1.引言

5.2方法

5.2.1样品eDNA制备与Solexa测序

5.2.2生物信息学分析

5.3结果与讨论

5.3.1序列拼接

5.3.2和其他植物的蛋白质同源性比较

5.3.3 Gene Ontology注释

5.3.4表达量估计与分析

参考文献

附录

致谢

展开▼

摘要

近年来基于边合成边测序思想的新一代测序技术迅猛发展,测序通量急速增加,测试成本也呈现直线下降的趋势。该技术正在使基因组研究发生革命性变化,在不久的未来可能将人的基因组测序成本降低到一千美元。目前新一代测序的读长很短,一般只有25-75bp,但是测序的通量非常大,一次可以获得上千万条短序列。虽然新技术已经开始普及,但是测序后的数据分析依然存在巨大的挑战,比如快速而准确的短序列比对,DNA多态性检测,数据管理和可视化等。另外,新一代测序技术在非模式生物转录组和基因组学研究进展十分缓慢。本文主要解决新一代测序技术下的几个核心生物信息学问题和尝试性地利用新一代测序技术进行非模式生物转录组研究。 目前的短序列比对程序(MAQ,SOAP,RMAP,SHRiMP)都只提供了基因组重测序应用下的连续比对功能(一条短序列连续比对上基因组上连续区域),而在比对转录组测序数据时,我们还需要断裂比对(一条短序列跨越两个相邻外显子比对),这对于我们寻找新的转录序列和剪切模式有重要意义。我们开发了MapNext程序不仅能够进行短序列的连续比对,还能够进行转录序列的断裂比对,另外该程序还用于从群体测序中检测SNP和估计频率。 目前新一代测序数据分析的程序都是以命令行方式运行的,没有用户界面,没有数据查询功能,而这对于大多数生物学家来说是及其不友好的。我们开发了WebNext网络系统用于新一代测序短序列比对和群体SNP检测,而且提供了友好的网络界面用于输入参数和查询结果。当用户在网上提交序列和输入参数后,后台程序根据参数开始,然后自动把结果导入到MySQL数据库,并把结果以链接的形式发送到用户指定的邮箱。用户可以方便地在网页上浏览短序列比对和SNP的统计信息,查询基因组上特定区域和感兴趣基因上的序列比对和SNP。 序列比对的可视化对于人工检查SNP和序列比对质量有着重要意义。目前在个人电脑上显示巨大的新一代测序序列比对还存在着巨大的信息学挑战,目前的序列比对可视化软件(Consed,Hawkeye,Eagleview)都是将巨大的拼接文件(ACE文本格式)全部加载到内存,这种基于内存的设计要消耗巨大的内存(对于1000万条短序列要10G以上)。我们开发了Map View软件,用以在个人电脑上可视化上亿条短序列比对,并且还提供了遗传变异检测功能。为了实现可视化浏览任意多数量的短序列比对消耗内存不超过50M,跳转到参考序列的任何位置加载比对信息不超过2秒,我们设计了一种新型的文件格式和动态加载算法。另外Map View支持多线程运行不同任务,比如同时进行浏览序列比对,全基因组SNP检测,统计计算测序深度的分布。 当我们从基因组角度研究一个新物种时,最开始一般是获得该物种大量的EST序列,而目前的新一代测序技术可替代传统的Sanger技术应用到非模式生物的转录组研究。我们将红树植物角果木转录组进行了Solexa测序,获得了4759050条35bp的序列。这些短序列被拼接成2751条contig,平均长度为198bp,最长为1641bp。Blast搜索发现其中1318条(47.90%) contig和Uniprot库里面的蛋白质有同源性,并对1112个基因进行了GO注释。我们用每个转录本里拼接的短序列条数和转录本的长度估计每个转录本的表达量。我们用Solexa测序获得了一个非模式植物角果木的转录组快照,有助于今后进行该物种抗盐相关基因的研究,也表明了新一代测序技术在非模式生物中也有应用前景。

著录项

  • 作者

    包华;

  • 作者单位

    中山大学;

  • 授予单位 中山大学;
  • 学科 生物信息学
  • 授予学位 博士
  • 导师姓名 施苏华,符云新;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.52;
  • 关键词

    测序技术; 软件开发; 转录组学; 基因组学;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号