首页> 中文学位 >基于统计特征的DNA序列特征提取方法研究
【6h】

基于统计特征的DNA序列特征提取方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章 绪论

1.1 研究背景和意义

1.2 研究现状

1.2.1 基于统计特征法

1.2.2 基于图形表示法

1.3 本文的主要工作

1.4 本文的章节安排

第2章 DNA序列的统计特征基础

2.1 单词频率特征

2.2 二联核苷酸相对丰度特征

2.3 碱基对的关联性特征

2.4 相对密码子使用度特征

2.5 统计特征的扩展

2.6 序列特征提取在进化树构建的应用

2.6.1 基于数字特征的距离矩阵构建

2.6.2 基于距离矩阵的进化树构建

2.6.3 评估进化树的软件

2.7 小结

第3章 一种新的DNA序列统计特征方法

3.1 新的统计特征法的基本思想

3.2 新方法的具体步骤

3.3 新方法在进化树构建方面的应用

3.3.1 实验数据

3.3.2 基于序列特征的相似分析

3.3.3 进化树的构建

3.4 小结

第4章 基于信息理论的序列统计特征法

4.1 信息理论

4.2 基于信息理论的统计特征法的基本思想

4.3 新算法的具体步骤

4.4 新方法在进化树构建方面的应用

4.4.1 实验数据

4.4.2 基于序列特征的相似分析

4.4.3 进化树的构建

4.5 小结

结论

参考文献

致谢

附录A 攻读学位期间所发表的学术论文和参加的项目

展开▼

摘要

随着人类基因组计划的完成,以及各种生物基因序列的研究,人们已经获得了大量的基因组序列。在这些序列中含有丰富的信息,隐藏着复杂的生物学知识。如何从已经产生的海量数据中最大限度的挖掘有价值的信息成为科学家们面临的挑战和机遇。DNA序列的特征提取对于解读人类基因组所隐藏的结构和功能具有非常重要的意义。基于序列统计特征是指运用数学和信息科学理论的方法,从错综复杂的基因组序列中,提取一些体现其本质的具有代表性的特征。本文将提出两种不同的基于统计特征的序列提取方法。两种方法都是不需要序列比对,而且比传统的方法包含更多的信息,时间复杂度也很低。
   一种新的基于统计特征法添加了6个碱基之间的相关因子与传统的4维核苷酸组成相结合代表一条DNA序列,这比传统的4维核苷酸组成包含更多的序列影响信息。而且为了计算简单,我们使用了对序列进行分段处理,这样减少了时间复杂度,分段值M是任意取值的,不会影响计算结果。
   另一种新的基于统计特征法是在信息理论基础上提出来的。利用了信息理论中的信息熵和互信息理论,把单个碱基的概率和二联核苷酸的概率作为事件概率,利用信息理论的互信息熵求出四个碱基之间的16个互信息,因此一条DNA序列特征可以用这16个互信息熵表示。这种方法结合信息理论的思想得到了更多的序列影响信息,计算量也很少。
   基于统计特征法应用广泛。通常用于区分基因的不同功能区域,进行序列比较分析,系统进化分析和基因分类等。本文提出的两种方法主要应用于系统进化分析中,在利用这两种新方法提取出来的特征基础上,对物种进行相似性分析,然后利用基于距离法构建进化树,采用PHYLIP软件中的Neighbor.exe程序来评估进化树的构建,通过做实验来验证这两种方法的应用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号