首页> 中文学位 >基于BAC文库指纹特征的油菜物理图谱构建及其测序、组装
【6h】

基于BAC文库指纹特征的油菜物理图谱构建及其测序、组装

代理获取

目录

声明

摘要

缩略词表

1 前言

1.1 基因组测序研究进展

1.1.1 DNA测序技术的发展和应用

1.1.2 基因组测序策略的发展

1.1.3 基因组物理图谱构建的四种方法

1.1.4 模式生物基因组研究进展

1.2 全基因组组装方法研究进展

1.2.1 序列组装算法的发展

1.2.2 基因组组装软件的发展

1.2.3 全基因组组装中的新技术

1.3 油菜基因组研究进展

1.4 主要研究内容及技术路线

1.5 本课题研究目的与意义

2 材料和方法

2.1 实验材料

2.2 物理图构建

2.3 最小路径BAC挑选

2.4 BAC NGS测序

2.5 BAC NGS组装

2.5.1 探究载体、大肠杆菌DNA污染和PCR重复对NGS组装的影响

2.5.2 寻找最优k-mer

2.5.3 NGS组装软件探究

2.6 中双11号全基因组三代测序

2.7 BAC的subreads抓取、三代组装

2.7.1 抓取条件的探索

2.7.2 三代组装软件探究

2.8 BAC组装结果评估

3 结果与分析

3.1 Whole genome profiling结果

3.2 物理图谱结果

3.3 BAC NGS测序及序列组装条件探索

3.3.1 BAC原始数据质控

3.3.2 载体、大肠杆菌DNA污染和PCR重复对BAC NGS组装的影响

3.3.3 测序深度对BAC NGS组装的影响

3.3.4 最优k-mer测试

3.3.5 NGS组装软件的选择

3.3.6 BAC大规模测序组装

3.4 中双11号全基因组三代测序

3.5 三代subreads辅助组装BAC

3.5.1 subreads抓取条件测试

3.5.2 三代组装软件测试

3.5.3 subreads三代辅助组装结果

3.6 BAC组装结果评估

3.6.1 组装序列正确度评估

3.6.2 BAC NGS覆盖度评估

3.6.3 BAC在已发表的中双11号参考基因组上覆盖度评估

4 讨论

4.1 去杂是基因组组装前的重要步骤

4.2 测序深度对于组装来说并非越高越好

4.3 WGP方法构建物理图的优劣

4.4 测序技术中读长对于组装具有重要意义

4.5 在序列组装时根据不同的需要选择不同的比对软件

参考文献

致谢

展开▼

摘要

油菜(Brassica napus L.)是仅次于大豆和棕榈的第三大油料作物。我国的油菜种植面积和产量曾经均居世界首位,但与欧洲和加拿大等相比,我国的油菜籽含油量和产量偏低,种植油菜的比较效益低,导致近年来我国的油菜种植面积大幅度下降,油菜籽严重依赖进口。通过品种遗传改良,提高我国油菜产量和产油量是提振油菜产业的根本出路。高质量的参考基因组对油菜重要农艺性状基因定位和克隆、品种改良具有重要意义。目前已发表两个油菜品种Darmor-bzh和中双11号的参考基因组,这两个基因组主要是以全基因组鸟枪法测序策略和第二代测序技术完成的,基因组覆盖度为80%左右。这两个参考基因组的共同缺点是基因组覆盖度不高、还有很多scaffold没有定位到染色体上、存在组装错误和大量的gap区域,给基因定位和克隆、染色体结构分析带来很多困惑。因此有必要利用逐步克隆法结合新一代测序技术构建一个高质量的油菜参考基因组。
  本研究中,我们基于中双11号(ZS11)BAC文库利用whole genome profiling方法构建BAC重叠群,并将BAC重叠群定位到染色体上,获得物理图。根据图谱上的最小路径挑选BAC进行测序。同时,用PacBio Sequel测序平台对中双11号进行全基因组测序,并用测序获得的序列辅助组装每个BAC,结果如下:
  (1)物理图谱构建:中双11号BAC文库一共包含有73,728个质粒克隆,存放于192个384孔板中,克隆的平均插入片段长度为120Kb左右。每6个384孔板按“2(列)×3(行)”的格式排列,长、宽方向都为48个克隆。将每行、每列的所有克隆分别混合形成48个行的pool混合池、48个列的pool混合池,存放于96孔板上形成一个单元。整个BAC文库共混合成32个单元,共计3,072个pool。随后,提取pool混池中的质粒、利用SacⅠ/MseⅠ两种酶进行完全酶切,然后加上接头和barcode序列进行NGS双端测序。测序一共得到1.02Gb PE150(paired-end150bp)reads,去掉大肠杆菌污染的reads(4.4%),将PE150reads按照90bp×2的长度截短生成tag标签,并根据barcode序列和行列交叉将所有tag标签分配到各个BAC克隆上。整个BAC文库,tag标签在BAC中的分布范围在0~220之间,10,274个BAC没有tag标签,剩下63,454个BAC平均每个克隆含有16个tag标签。最后通过FPC软件,设置FPC cutoff值为10-15,根据BAC之间的共有tag标签一共构建了4,049个BAC重叠群(contigs),共包含42,331个BAC,另外21,123个没有锚定到contigs的BAC,称为singleton。Contigs中BAC数目分布在0~142之间,平均每个contig含有10个BAC克隆。基于实验室NAM群体构建的高密度遗传图,利用37,607个遗传标记将2,934(72.46%)个contigs定位到基因组染色体。
  (2)BAC挑选、NGS测序:从物理图的最小路径上挑选出10,846个BAC进行二代测序。在开始大规模测序前,我们先评估了不同测序深度对BAC组装的影响,发现测序深度为500×时组装效果最好。分别构建每个BAC克隆的测序文库,平均插入片段为400bp,读长为PE150,测序深度500×,一共得到得到266.74Gb reads,去掉质粒载体、大肠杆菌以及PCR重复后的净数据约为186.9Gb。
  (3)全基因组三代测序:利用PacBio Sequel平台对中双11号进行全基因组三代测序。测序深度80×,共得到97.07Gb subreads,subreads N50为11,767bp,平均读长为8,378bp。
  (4)BAC组装:经过k-mer测试和组装软件选择测试,最终利用SOAPdenovo软件对挑选出的10,846个BAC进行NGS组装,选择k-mer=95作为组装输入参数,组装得到contigs N50平均长度约为10Kb。随后通过blasr软件比对contigs和subreads,按照(a)小于10Kb的contigs比对长度大于自身长度的90%;(b)大于10Kb的contigs比对长度大于自身长度的70%;(c)subreads累计比对长度大于自身长度的50%的条件抽取符合的subreads,平均每个BAC获得的subreads数目为1,800。利用每个BAC抽取的三代测序数据进行组装,共10,764个BAC获得组装结果,其中8,901个BAC克隆组装成一条完整的序列,1,665个BAC克隆组装成2-3条片段,configs N50平均长度为120Kb。
  (5)结果评估:利用随机函数随机抽取6个BAC的组装结果,通过bowtie软件比对,将其NGS数据回贴到组装结果上,检测reads在组装结果的覆盖深度是否均匀、覆盖范围是否全面,最后发现6个克隆的覆盖范围全面且未出现极端覆盖深度的现象,说明BAC克隆组装正确;将10,764个BAC组装结果与已发表的中双11号参考基因组比对,结果显示BAC克隆覆盖了已发表的中双11号参考基因组的67.56%,两者序列相似度达到99%,说明BAC克隆组装准确。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号