首页> 中文学位 >基于小波变换技术预测DNA序列编码区
【6h】

基于小波变换技术预测DNA序列编码区

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1课题的背景及现状

1.2 本文所要解决的问题和实施方案

1.3全文结构安排

第二章 小波变换

2.1小波变换定义及特点[14-19]

2.2 Mexican hat(mexh)小波

第三章 基于傅立叶技术预测DNA序列编码区

3.1 DNA序列的数值映射

3.2蛋白编码区的特征信号—1/3周期性

3.3. 快速计算方法

3.4 实验结果与分析

第四章 基于小波变换技术预测DNA序列编码区

4.1预测方法

4.2计算机实验

4.3 比较与讨论

第五章 结论

致谢

参考文献

附录1 生物信息学相关知识

1.1 生物信息学相关术语简介

1.2 基因和基因组数据库

在学期间的研究成果

展开▼

摘要

随着人类基因组计划的发展,近年来GenBank里的碱基数目呈指数增长,如何从大量的数据中挖掘出有用的生物信息是生物信息学领域今后几十年都需要致力解决的问题,其中基因识别问题——通过计算的方法识别DNA序列中编码蛋白质的基因更是迫切需要解决的研究课题之一。目前基因识别常用的方法有:人工神经网络方法、复杂度分析方法、傅立叶分析方法、密码学方法和统计学方法等。概括起来,基因预测方法大致分为两类。一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等;另一类是基于编码区的碱基组成与非编码区的差异。对于原核生物,其基因结构较为简单,一些研究小组已经在这方面取得了很好的结果,目前预测准确率可达到98%左右。对于真核生物,它们的基因结构远比原核生物的复杂,因此,要从具有较多内含子的真核生物基因组序列中正确识别出编码区是个相当困难的问题,仍然有大量的工作要做。
  DNA序列蛋白编码区的一个显著的特征就是1/3周期性——在DNA序列的频谱中,如果在f=1/3处存在一个尖峰,这就可能对应于三联密码子。这种周期性在蛋白编码区序列中是普遍存在的,而在大多数非编码序列中却是不存在的。因此,基因组序列的傅立叶频谱中在f=1/3处是否存在峰值,可作为判断该序列是否是编码序列的一个简单可行的标准。
  本文首先利用傅立叶技术分析DNA序列的三周期性,并提出一种快速计算方法。但是由于傅立叶技术分析核苷酸序列不可避免的带来随机涨落,会在频域内引入高频噪声,因此仅仅根据傅立叶分析的结果还难于达到准确识别基因的目的。小波变换是一种新的变换分析方法,具有多分辩分析的特点,而且在时频两域都有表征信号局部特征的能力,被誉为分析信号的显微镜。小波变换在一定的滤波尺度下可有效地除去随机涨落引起的高频噪声,所以本文提出以傅立叶变换为基础,再利用小波变换将随机涨落和有用信号分开,建立一种基因识别的新方法,以达到简便、快速,准确识别基因组序列编码区的目的。通过对来自于 Genbank数据库的DNA序列以及标准DNA序列集ALLSEQ进行大量实验证明,基于小波变换的方法对DNA序列编码区进行预测可以取得良好效果,探测率可达到81%,优于其他方法,正确率可达到75%。新方法十分容易应用,不需要基因组序列的任何先验知识;运算十分快速,运算速度比基于快速傅立叶变换的预测方法还要提高很多倍;同时,该方法可实现对编码区的初步定位,为进一步用实验方法精确定位编码区作指导,节省大量人力和物力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号