首页> 中文学位 >昆虫基因组注释方法改进及两种昆虫基因组分析
【6h】

昆虫基因组注释方法改进及两种昆虫基因组分析

代理获取

目录

声明

摘要

第一章 文献综述

1 引言

2 基因组学研究相关技术

2.1 基因组测序技术

2.2 基因组组装

2.3 基因组注释

3 昆虫基因组测序现状及存在的问题

3.1 昆虫基因组测序现状

3.2 昆虫基因组测序存在的困难

4 本文研究目的和意义

第二章 昆虫基因组注释方法优化与平台构建

1 引言

2 材料和方法

2.1 数据准备

2.2 重复序列的注释

2.3 转录证据的收集

2.4 从头预测证据收集

2.5 同源证据收集

2.6 三类证据整合

2.7 从头预测基因的重新评估

3 结果与分析

3.1 OMIGA注释平台流程

3.2 OMIGA注释结果评估

4 讨论

第三章 二化螟基因组组装、注释和分析

1 引言

2 材料和方法

2.1 昆虫

2.2 基因组、转录组测序和组装

2.3 编码基因和重复序列注释

2.4 直系同源分析

2.5 可变剪接

2.6 GO分析

2.7 microRNA基因

3 结果与分析

3.1 基因组组装

3.2 编码基因注释

3.3 重复序列注释

3.4 可变剪接

3.5 P450基因家族

3.6 OBP和CSP基因家族

3.7 RNA干扰通路的核心基因

3.8 microRNA

4 讨论

第四章 腰带长体茧蜂基因组组装、注释和分析

1 引言

2 材料和方法

2.1 基因组和转录组测序

2.2 基因组组装

2.3 基因组总体特征

2.4 非编码RNA注释

2.5 蛋白编码基因注释

2.6 直系同源及基因组微共线性分析

2.7 基因家族识别和分析

2.8 代谢通路注释

3 结果与分析

3.1 基因组组装和特征分析

3.2 基因组注释和进化分析

3.3 寄主搜索

3.4 解毒代谢

3.5 毒性蛋白

3.6 免疫逃避

3.7 多胚发育

3.8 性别决定

4 讨论

第五章 全文总结与展望

1 全文总结

2 论文创新点

3 展望

参考文献

附录

攻读博士期间论文发表情况

致谢

展开▼

摘要

基因组包含了物种全部的遗传信息,是人们了解和改造生物的基础。因此,基因组测序是生物学研究中一项基础而又十分重要的工作。作为地球上种类最多的动物种群,昆虫对人类生活有着十分重要的影响,人们对昆虫基因组序列的需求越来越迫切。随着测序技术进步,测序成本快速下降、测序通量急速提高,昆虫基因组测序越来越普遍。本文建立和优化了昆虫基因组注释方法,对二化螟(Chilo suppressalis)和腰带长体茧蜂(Macrocentrus cingulum)两个农业昆虫基因组进行了组装、注释和分析。研究结果如下:  一、昆虫基因组注释平台构建和优化  昆虫杂合度高,增加了基因组拼接的难度,导致基因组注释质量不高。为此,本文构建了昆虫基因组注释平台Optimized Maker Based Insect GenomeAnnotation(OMIGA),优化和改进了昆虫基因组的注释方法。首先,建立了计算流程,从转录组数据中挖掘出结构完整的蛋白编码基因,用于从头预测软件的训练,明显提高了基因预测的准确性。其次,从RNA-seq数据中获取基因表达的证据,解决了表达证据不足的问题。再次,整合了同源比对、从头预测和基因表达等三方面的证据,获得高质量的蛋白编码基因集,保证了蛋白编码基因的注释质量。最后,设计和比较了4种不同的基因组注释策略,结果表明OMIGA注释结果最优。  二、低N50二化螟基因组注释和分析  二化螟属鳞翅目螟蛾科,是我国重要的水稻害虫。二化螟进行基因组测序,对研究二化螟的危害习性、抗药性机理以及生长发育规律等具有重要的意义。  1、构建了190bp、380bp、500bp和700bp共4个小片断文库,测序获得20.44Gb数据,分别利用SOAPdenovo,SOAPdenovo2和AbySS等三个软件进行了基因组组装,最优结果是scaffold N50为5.2 Kb。17-mer分析表明,二化螟基因组GC含量为35.78%,大小为824Mb,杂合度为1.5%,为高杂合度基因组。  2、CEGMA分析表明,该基因组虽然N50偏低,但含有76.6%的蛋白编码基因,其中48%具有全长。利用OMIGA平台对低N50二化螟基因组进行了注释,发现10,211个蛋白编码基因,其中9,720个基因在家蚕中具有同源基因,5,651个蛋白基因的上游能够预测到可靠的启动子。  3、发现了1,342选择性剪接事件,涉及1,167个基因,发现选择性剪接的基因比例为11.4%,明显低于果蝇(~70%),可能与二化螟基因组拼接长度偏低,转录组数据不够丰富有关。其中,42.4%为3'端可变剪接,25.4%为5'端可变剪接,17.8%为外显子跳跃,14.4%为内含子保留。  4、利用实验室早期测序获得的小RNA文库,采用miRDeep2软件,预测获得了262个微小RNA,其中45个为新基因,217个为保守的微小RNA,表明低N50基因组在非编码RNA基因预测中可发挥重要的作用。  5、预测发现了126个细胞色素P450基因(cytochrome P450,CYP),数量与赤拟谷盗相似(135个CYP),多于家蚕(82个)和帝王蝶(75个)。发现了和抗性相关的CYP314A1、CYP4M7基因。  6、发现了29个气味结合蛋白基因(OBP)、12个化学感受蛋白基因(CSP)以及主要的RNAi通路核心基因(AGO,Aubergine,piwi,exp-5, PARP, dicer-1,dicer-2和sid-1)。  三、腰带长体茧蜂基因组组装、注释和分析  腰带长体茧蜂属膜翅目姬蜂总科茧蜂科,具有多胚发育特征,专一性寄生亚洲玉米螟(Ostrinia furnacalis),被大量用于玉米螟的生物防治。基因组测序可为深入了解寄生蜂的寄生行为、多胚发育特性及生物防治提供重要的参考。  1、构建了180bp、500bp、800bp三个小片段文库和一个8Kb大片段文库,总共获得了103.67Gb的数据。使用contig组装、scaffold构建和补洞填充等策略对腰带长体茧蜂基因组进行了拼接,获得132Mb基因组序列,contig的N50为64Kb,scaffold的N50为192Kb。CEGMA评估表明,该基因组包含了99%以上的基因,表明拼接完整性很高。  2、以500bp滑动窗在基因组上进行GC含量分析,发现两种寄生蜂的分布模式相似,但与蜜蜂明显不同。腰带长体茧蜂的重复序列占基因组的24.9%,丽蝇蛹集金小蜂占42.1%,蜜蜂占13.6%。  3、预测发现了12,593个蛋白编码基因。腰带长体茧蜂基因的平均外显子数量为4.66、平均内含子长度为473 bp,比丽蝇蛹集金小蜂和意大利蜜蜂小,而平均外显子却更长,这种“紧凑”的基因结构可能是腰带长体茧蜂基因组小的原因之一。对15个物种(其中13个为昆虫)的直系同源基因开展进化分析,表明:1)膜翅目昆虫的分化速度介于双翅目和鳞翅目之间;2)膜翅目锥尾组的分化速度比针尾组更快;3)膜翅目姬蜂总科比小蜂总科更接近针尾组的蜜蜂科。  4、发现了9个OBP基因、82个OR基因、5个CSP基因、26个G-蛋白偶联受体基因、33个离子型受体基因,33个CYP基因、9个GST基因、28个羧酸酯酶基因。腰带长体茧蜂的OBP、OR、CSP和P450基因数量明显比丽蝇蛹集金小蜂少,可能因为腰带长体茧蜂是专一性寄生昆虫,而金小蜂是非专一寄生昆虫有关。  5、识别了21种毒素蛋白,比金小蜂(71种)和蜜蜂(27种)都少。茧蜂和金小蜂之间毒素蛋白的序列相似性更高,3种蜂均具有各自特异的毒素蛋白。  6、识别了dsx、ix、msl-3、dpn、mle、emc、mof、 run、sc、Trl、Tra、Tra2等与性别决定相关的基因。Tra基因可能是膜翅目昆虫特有的基因,在膜翅目昆虫性别决定过程中发挥重要作用。  7、腰带长体茧蜂采用免疫逃避机制躲避寄主的免疫攻击。多聚糖生物合成与代谢通路被认为与免疫逃避机制相关。分析表明,蜜蜂和果蝇缺失了多聚糖降解通路上的lacZ基因。腰带长体茧蜂具有E3.2.1.24、AGA、FUT13、FNG、OGT等基因,为研究寄生蜂免疫逃避提供了重要的线索。  8、腰带长体茧蜂具有多胚发育现象。分析表明,细胞粘连分子通路上的integrin-β基因出现了扩增,具有两个拷贝,该基因已被证实能调控多胚发育。通过对不同发育阶段基因的表达量分析,发现在粘着连接通路上的SMAD2基因,紧密连接通路上的SYMPK、KRAS、EXOC4、ACTB_G1以及gap junction通路上的HRAS、TUBA、TUBB、PRKG等基因在卵期特异性地高表达,可能参与了多胚发育调控。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号