首页> 中文学位 >基于从头算法的转座子识别方法研究
【6h】

基于从头算法的转座子识别方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 研究意义

第二章 转座子识别与鉴定方法研究现状

2.1 引言

2.2 转座子识别方法介绍

2.2.1 从头(De novo)算法

2.2.2 基于同源性的算法

2.2.3 联合算法

2.3 转座子的鉴定分类工具

2.4 小结

第三章 转座子从头识别算法研究

3.1 引言

3.2 索引技术

3.2.1 后缀树

3.2.2 散列技术

3.3 Repeatscout原算法的描述

3.4 对Repeatscout算法的改进

3.4.1 冗余数据分析

3.4.2 K-mer种子实际比值

3.4.3 操作简易性

3.4.4 改变b值

3.5 改进算法测试

3.5.1 测试数据与测试条件

3.5.2 Repeatscout算法结果的分析

3.5.3 结果精度的比较

3.5.4 运行时间比较

3.5.5 结果讨论

3.6 小结

第四章 总结与展望

4.1 总结

4.2 继续改进工作

致谢

攻硕期间从事的科研工作及取得的研究成果

参考文献

附录

展开▼

摘要

转座子(Transposable Elements,TE)是可移动的、重复的基因序列,它们在真核基因组中几乎无所不在,并对基因组的结构、功能和进化起到了十分重要的作用。目前,对转座子的研究已经非常深入,从转座子的鉴定和注释,再到对其详细的分类都有了相应的成熟软件或分析工具。
   论文首先总结和分析比较了各种主要的关于转座子的相关软件方法,通过各个方法的比较,我们知道De novo(从头)算法虽然在其得到的转座子家族序列在以后的研究中需要进一步的修正,但它却是在鉴定、注释新基因组中转座子所必要的一步,也通常是全面处理的第一步,其结果对之后的研究中更是能产生深远的影响,但在得到的转座子家族序列以后的研究中尚需要进一步的修正,由此我们对其从头算法进行了改进。
   本研究主要改进的是基于从头算法中的Repeatscout软件,它主要用于发现新的、未注释的转座子家族,对于高频出现的转座子的鉴别尤其有效。其主要优点则是不用与已知的数据库相比较,而主要的缺点是运行时间较长。首先提出了改进的理论依据并阐述了原算法的实现过程,在实现过程中主要是考虑了数据的冗余现象,不仅包括在得到转座子家族的多序列比对中的整体的遍历计算,也考虑了在“隐藏”序列过程中的双序列比对的遍历过程,通过分析其转座子数据的特征性,我们归纳其特征实现了以上两种去除数据的冗余的方法。再者,我们考虑到其碱基序列的本身只要4种情况,而这个改进可以在理论上真正做到无误差的去除冗余情况。
   研究结果表明,在整个算法的实现中,我们总结出了其转座子家族得到的过程可分为四个步骤:(1)从序列中计算得到k-mer种子,并给出每个k-mer种子详细“注释”;(2)依据不同的标准来选取一个k-mer种子;(3)通过选取的k-mer种子进行多序列比对来得到转座子家族,再通过双序列比对来在序列中来“隐藏”出现过的k-mer种子及其序列;(4)调整k-mer种子频率及其他注释再次来选取一个种子。
   本研究中,我们不仅对选取k-mer种子的标准进行了一定的改进,使其在选取种子的标准更加的严谨,这也是本文中对此算法的创新点所在,而且在考虑的造成运行时间长的三种去除冗余的方法方面,最后通过结果比对,包括其精度的比较和运行时间的比较,在一致的选取K-mer种子标准下,我们改进之后的算法结果在其精度未损失的情况下,其运行时间也得到了一定的减少。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号