首页> 中文学位 >棉属ESTs数据分析平台的建立及海岛棉EST-SSR标记的挖掘与特征分析
【6h】

棉属ESTs数据分析平台的建立及海岛棉EST-SSR标记的挖掘与特征分析

代理获取

目录

文摘

英文文摘

本文所用主要缩略词

第一部分 文献综述

第一章E ST的研究进展及其在棉花中的应用

1 EST的原理与方法

2 EST的应用

3 局限性与不足

本研究的目的与意义

第二部分 研究报告

第二章 棉属ESTs数据分析平台的建立

1 总体设计

2 EST数据自动化聚类组装平台

3 本地BLAST功能注释平台

4 GO及KEGG功能分类平台

5 基于EST的分子标记挖掘平台

6 讨论

第三章 海岛棉EST-SSR分子标记挖掘与特征分析

1 材料与方法

2 结果与讨论

3 讨论

全文结论

参考文献

附录

致谢

展开▼

摘要

棉花作为纤维的重要来源,是世界范围内最重要的纤维经济作物。随着测序技术和生物信息学的快速发展,GenBank等重要生物数据库中登陆的棉属序列也快速增长,截至2009年2月,NCBI、EMBL和DDBJ3大数据库收录的棉花EST有375,374条,利用生物信息学手段对棉花ESTs数据进行大规模分析显得日益重要.
   本文以生物信息学理论为基础,利用Phred/Phrap/Consed、phd2fasta、CrossMatch、RepeatMasker、cap3、BLAST、BLAST2GO、SSR locator等软件包以及自主基于perl、python平台开发的程序,在Linux操作系统中构建了棉属ESTs数据生物信息分析平台,完成了从测序峰图判读、序列转换、载体序列的去除、重复序列分析、镶嵌克隆去除、序列聚类和组装、ESTs序列功能注释与功能分类以及基于EST的SSR、SNP分子标记的发掘。同时,通过使用Perl语言编写的脚本程序使分析过程自动化,加速对大规模测序数据的分析和利用。此外,为了加快分析速度和避免网络局限性,运用自行编写的程序对棉属蛋白、核酸、ESTs等网络数据资源进行了本地化集成。
   基于EST-SSR挖掘系统,利用海7124-3~6和6~24DPA的胚珠和纤维为材料构建的两个cDNA文库随机测序ESTs序列21,073条、运用脚本程序从Genbank dbEST数据库抽取海岛棉ESTs1,023条,预处理后共计22.087条海岛棉(Gossypiumbarbadense)ESTs序列进行EST-SSRs标记挖掘及特征分析。海岛棉ESTs序列剔除冗余序列,得到非冗余序列9,697条。在非冗余序列中发现含不同重复基元SSRs的EST序列有595条,共617个EST-SSRs,EST-SSRs序列的频率是6,13%,平均相隔10.8kb出现一个SSR。在2-6bp的重复基元中,三核苷酸重复基元的SSRs出现频率最高(27.2%),其次是五核苷酸(26.O%)、六核苷酸(26,3%).统计所有的重复基元类型,所占比例最大的是AAG/CTT(8.09%),其次是AG/CT(7.15%).利用Prime3及virtual PCR程序,并去除CMD收录的已发布的SSR引物冗余后,开发了297对新的SSR引物。对本实验四倍体作图亲本陆地棉TM-1和海岛棉海7124进行多态性检测后,其中60对有多态性,多态性频率为20.2%。这些EST-SSRs可有效用于不同棉种间的分布特征比较及染色体定位等方面研究。
   使用本地BLASTx程序将包含SSR的ESTs序列与nr(non-redundant)蛋白数据库本地数据库进行同源性比较,595条ESTs序列中,457条(76.81%)ESTs序列发现有同源性蛋白,而138条(23,19%)没有任何命中( nohits)。同时,同源蛋白中,142条(23.87%)为推测性或假设性蛋白。
   使用BLAST2GO软件包对包含SSR的ESTs序列进行基因本体学GO分析(GeneOntology)及KEGG代谢途径功能分类。GO分成生物过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)3个类型。细胞组分中所占比例最大的是细胞cell/cell part(30.42%),其次是细胞器organelle(22.01%);生物过程中所占比例最大的是细胞过程cellular process(33.25%),其次是代谢过程metabolic process(30.38%);分子功能中所占比例最大的两个是催化活性catalyticactivity(49.44%)和结合binding(37.45%)。此外,KEGG代谢途径分类中,主要分布在代谢途径类Metabolism(31.36%),而代谢途径分类中,大多数集中在碳水化合物代谢Carbohydrate Metabolism的42.02%。这些为相关基因的克隆和下一步的表达和功能分析提供了序列依据。
   总之,基于本地化的生物信息学综合分析体系的建立及其应用,对于棉花功能基因组学研究具有重要意义。此外,海岛棉EST-SSR分子标记的挖掘为构建遗传图谱、基因定位、发掘新基因、比较基因组和遗传多样性奠定坚实的基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号