首页> 中文学位 >基于纠错编码理论的DNA序列编码特性分析
【6h】

基于纠错编码理论的DNA序列编码特性分析

代理获取

目录

文摘

英文文摘

1 绪论

1.1 生物信息学概述

1.1.1 生物信息学的产生和发展

1.1.2 生物信息学的主要研究内容

1.2 信号处理技术在生物信息学中的应用

1.2.1 信号处理方法在生物信息学方面的应用

1.2.2 纠错编码理论在生物信息方面应用

1.3 本研究工作的意义及内容

1.3.1 研究的理论意义

1.3.2 研究的主要内容

1.4 本文内容(章节)结构安排

2 分子生物学背景知识概述

2.1 DNA的组成与分子结构

2.1.1 DNA的分子结构

2.1.2 DNA的各级结构

2.2 遗传密码及其性质

2.2.1 遗传密码

2.2.2 遗传密码主要性质

2.3 生物信息传递过程

2.4 中心法则(Genetic Central Dogma)

2.5 突变

2.6 本章小结

3 通信编码理论背景知识概述

3.1 数字通信系统的模型

3.2 纠错编码(信道编码)

3.2.1 纠错编码基本原理

3.2.2 纠错编码分类

3.2.3 分组码

3.2.4 卷积码

3.3 信道编码定理

3.4 本章小结

4 基于纠错编码理论的序列分析模型的设计

4.1 用于分析的模型

4.1.1 相关分析模型

4.1.2 现阶段基于纠错编码理论的应用

4.2 分析模型的设计

4.2.1 序列的各种信号表达方法

4.2.2 基本信息单元

4.2.3 密码子上下文关联

4.2.4 长程相关性与短程关联优势

4.2.5 序列运算--分组码模型

4.2.6 序列运算--卷积码模型

4.3 本章小结

5 基于纠错编码理论的序列分析研究

5.1 分析序列的选取与获得

5.1.1 数据库

5.1.2 选取分析对象--模式生物

5.1.3 选取分析对象--分类学知识初步

5.1.4 选取分析对象--GC含量

5.1.5 ORF分析软件

5.1.6 小结

5.2 利用分组码模型分析

5.2.1 分组码模型下序列分析的算法

5.2.2 分组码模型下的序列分析

5.2.3 分组码模型分析方法小结

5.3 利用卷积码模型分析

5.3.1 卷积码模型下序列分析的算法

5.3.2 卷积码模型下的序列分析

5.3.3 卷积码模型分析方法小结

5.4 基于短程关联优势的卷积码模型分析

5.4.1 算法

5.4.2 基于短程关联优势的几种卷积码模型对比分析

5.4.3 基于短程关联优势的卷积码模型分析小结

5.5 利用卷积码模型进行相似性分析

5.5.1 相似性分析的概述

5.5.2 基于卷积码模型的遗传序列相似性分析

5.5.3 基于卷积码模型的相似性分析小结

5.6 本章小结

6 总结与展望

6.1 主要研究内容与结论

6.2 未来研究展望

致谢

参考文献

附 录

A.作者在攻读学位期间发表的论文目录

B.作者在攻读学位期间参与的科研项目

展开▼

摘要

现代生物学的研究不再是单一学科的研究,而是多学科交叉、综合的研究。由于生物系统自身的复杂性,需要将多种分析理论和研究方法应用到该领域。随着基因工程所获得的基因数据的急速增加,引起了人们采用新方法、技术和工具对其进行分析的兴趣。由于生物系统中存在的信息传递、编码与现代通信系统中的信息传输与编码的相似性,因此将现代通信工程中的纠错编码理论应用于生物遗传序列的研究和测试系统的设计并取得了一些可喜的进展。
   本文基于通信工程的纠错编码理论对生物系统信息分析方法进行研究,对若干对象的序列进行分析,旨在为通信纠错编码理论在生物学领域研究中的应用寻求新的途径和方法。
   开展工作如下:
   1、根据三联体密码在遗传信息表达过程中的重要作用,将三联体密码(而不是单个碱基)作为遗传信息的基本信息单元,同时考虑相邻密码子之间的相互作用,借鉴通信编码理论中分组码编码模型的设计、分析方法,通过试验选定基于分组码的(6,3)分组码模型。选定GC含量不同的12种原核生物和9种真核生物作为分析对象,利用(6,3)分组码模型对它们的DNA序列进行分析,利用码距作为特征参数与分析对象的生物特征进行对比。分析结果在表明原核与真核分析对象的平均码距在起始密码子附近和终止密码子附近均呈现出显著变化,在原核生物的SD区域也有显著变化。
   2、在纠错编码中,卷积码是一种具有较好性能的信道编码方式,理论和实际上均已证明卷积码的性能至少不比分组码差,应该可以寻找更好的卷积编码模型来分析DNA序列的编码特性。参考分组码模型分析方法和结果,借鉴通信编码理论中卷积码编码模型的设计、分析方法,基于密码子简并性、密码子上下文关联性、碱基短程关联占优特性,使用三联体密码作为基本信息单元,设计了(6,3,1)卷积码分析模型。利用(6,3,1)卷积码模型对所选12种原核生物和9种真核生物DNA序列进行分析,结果表明原核与真核分析对象的平均码距在起始密码子附近和终止密码子附近均呈现出显著变化,在原核生物的SD区域有显著变化。此外,所有对象的平均码距曲线在编码区表现出明显的周期3特性。根据观察到的不同GC含量的分析对象平均码距曲线分离的特性(特别是对于原核生物),我们在实验中新定义了一个参数:特征平均码距(CACD),它与GC含量具有关联,与原核生物GC含量具有较好的比例特性。这赋予了编码参数以生物特征,表明卷积码模型在生物信息研究中具有深入研究和应用的潜力。
   由于上述分析模型的设计是基于生物遗传信息的通用特性提出,因此对分析对象没有依赖性,可以对多类对象进行分析而不需要对模型调整。
   3、侧重于基于卷积码的分析模型,根据碱基短程关联占优特性,对参数进行了对比分析。考虑通常分析方法中常采用将单个碱基作为基本信息单元,选定(2,1,1)卷积码模型进行分析。考虑过渡状态的对比,选定(3,2,1)卷积码模型进行分析。通过对编码输出长度、码距计算码长等参数的对比分析,初步确定效果较好的(6,3,1)、(3,2,1)和(2,1,1)模型作为分析模型。
   4、将基于纠错编码的分析模型应用于序列相似性分析。使用所设计的(6,3,1)、(3,2,1)和(2,1,1)卷积码模型对11个物种(包括人,山羊,负鼠,鸡,狐猴,小鼠,大鼠,兔子,牛,大猩猩和黑猩猩)的β-球蛋白第一个外显子编码序列的相似性/不相似性进行分析。利用L/L和M/M矩阵的归一化最大特征值构建8分量矢量,计算其两两端点间的欧几里得距离,分析结果反映出3种灵长类对象(人,黑猩猩,大猩猩)之间由于进化关系而存在的强相似性,而与负鼠(距现存哺乳动物最远物种)和鸡(其中唯一非哺乳动物对象)的相似性很弱。数据分析的结果表明所提出的方法可以反映所分析的DNA序列的重要信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号