首页> 中文学位 >生物序列特征信息提取方法及其应用
【6h】

生物序列特征信息提取方法及其应用

代理获取

目录

声明

摘要

插图目录

表格目录

第1章 绪论

1.1 生物信息学海量数据的产生背景

1.1.1 生物信息学简介

1.1.2 两种基本的生物序列

1.2 生物序列比对概述

1.2.1 生物序列比对的意义

1.2.2 两序列比对算法

1.2.3 序列聚类

1.3 生物序列的特征信息提取方法及其应用的研究现状

1.3.1 序列图形化表征

1.3.2 基因组序列数值化表征及应用

1.3.3 蛋白质序列数值化表征及应用

1.3.4 有关K-mer的算法概述

1.4 本文的组织结构

第2章 基于矩阵束联合对角化的DNA序列图形化表征及其应用

2.1 本章引言

2.2 DNA序列的描述符

2.2.1 本章相关的一些工作

2.2.2 构建序列的邻接矩阵

2.2.3 近似联合对角化(AJD)

2.2.4 算法的保距性

2.3 图形化表示法

2.3.1 计算特征值组成的序列表征向量(EVV)

2.3.2 AJD算法收敛性分析

2.3.3 基于特征值组成的表征向量(EVV)的序列图形聚类

2.4 相似度分析

2.4.1 计算成对距离

2.4.2 11条beta球蛋白基因的系统谱系分析

2.4.3 与相关工作的比较

2.5 本章结论

第3章 基于SVD的基因组序列保序变换及其应用

3.1 引言

3.2 从基因组序列向数值向量的保序变换

3.2.1 基因组序列变换矩阵的构建

3.2.2 所提出的序列变换算法具有的良好性质

3.2.3 保序变换-奇异值分解(OPT-SVD)算法的过程描述

3.3 保序变换算法在基因组序列相似度/相异度分析中的应用

3.3.1 基因组序列的2D图形化表征

3.3.2 基因组序列新的数值描述

3.3.3 基因组序列的相似度/相异度分析

3.4 本章小结

第4章 基于保距映射算法的基因组序列Map示图及应用

4.1 引言

4.2 基因组序列的“保距”变换

4.2.1 特征矩阵的构建

4.2.2 基因组序列变换的特性

4.3 基于保距变换算法的基因组序列的相似度分析

4.3.1 第一个数据集上的实验结果

4.3.2 另一个更大规模数据集上的实验结果

4.4 本章小结

第5章 基于NFV-AAA从算法的蛋白质序列相似度分析

5.1 本章引言

5.2 基于氨基酸(AAA)分布的蛋白质序列描述符

5.2.1 描述符的范式

5.2.2 蛋白质序列转换成400×(L-1)稀疏矩阵

5.2.3 AAA优于SAA

5.2.4 对特征矩阵M施行SVD以抽取序列的特征

5.3 NFV在相似度分析中的应用

5.3.1 九条ND5蛋白质序列的相似度分析

5.3.2 在24条转铁蛋白序列的数据集上的应用

5.4 本章结论

第6章 分段K-mer算法及其在序列相似度分析中的应用

6.1 引言

6.2 基因组序列的描述符

6.2.1 序列的K-mer

6.2.2 序列的分段s-K-mer

6.2.3 最优分段的策略

6.2.4 复合的s-K-mer

6.3 s-K-mer在34条线粒体基因组序列数据集上的应用

6.3.1 优化算法的数据准备

6.3.2 对K-mer进行寻优以便获得其最优阶数K*值

6.3.3 s-K-mer算法的性能

6.3.4 利用s-K-mer对基因组作系统发生分析

6.4 本章结论

第7章 基于层级虚拟混合与投影抽取的基因组序列比较

7.1 引言

7.2 基因组序列特征提取模型

7.2.1 基于k-mer虚拟混合器的基因组序列数据预处理

7.2.2 虚拟混合与投影抽取模型

7.2.3 层级的VMPE模型

7.3 HVMPE模型在真实基因组数据集上的应用

7.3.1 先行相关数据的准备

7.3.2 确定虚拟混合器(VM)的最佳阶数K*

7.3.3 对HVMPE模型进行最佳段数s*值的寻优

7.3.4 层级的VMPE模型的效果分析

7.3.5 基于HVMPE模型的基因组序列种系发生分析

7.3.6 在另—个基因组数据集上的应用

7.4 本章结论

第8章 总结与展望

8.1 论文的主要工作与创新点

8.2 下一步工作展望

参考文献

致谢

在读期间发表的学术论文与参与的科研项目

展开▼

摘要

随着后基因组时代的到来,生物学研究的重点已转向分析解释日益积累的海量数据,生物信息学(也称计算分子生物学)便应运而生,研究内容十分丰富,而其中的序列相似度分析尤为重要。这必然会涉及到生物序列的表征方式,以及序列特征信息的提取方法等核心问题。本文从现有的一些方法普遍存在的问题着手,在算法设计层面和数据应用层面上展开了一系列研究,提出了六种有效的特征信息提取算法模型,并和相关研究成果进行了理论与实验上的比较,验证了我们所提出算法的有效性。
   全文的主要工作概括如下:
   (1)生物序列的图形化表示,为我们提供了一个可供研究序列的可视化工具。为了直观地比较不同的DNA序列,本文提出一种新的特征信息抽取模型,可对序列作图形化表示,并作序列之间的相似度分析。引入变换将每条DNA序列用近邻核苷酸矩阵(NNM)来表示。再基于近似联合对角化(AJD),从每条DNA序列变换所得的NNM矩阵中抽取特征值作为表征向量(EVV),视每条EVV向量为各自所对应序列的数值描述子(Descriptor)。基于表征向量EVV可得DNA序列的二维表征图形。此外,利用k-均值法将这些表征各条序列的曲线图聚为若干个合理的子类。利用所得向量计算成对距离(Pair-wise Distance),以用来分析原始序列之间的相似度。本方法能同步、联合地从多重序列中抽取更多的信息,而非孤立地分析各条序列。在经典数据集上,构建系统树图验证了本方法的有效性。
   (2)为了比较不同的基因组序列,提出了新的非比对序列比较方法:考虑到序列具有“序”这一本质属性,基于16种不同类型的2-mer,也即双核苷酸(dinucleotides),定义一种复合变换,能将每条基因组序列转换成16×(L-1)的特征矩阵M。此外,我们还发现上述变换具有“保序”的特性。由矩阵分析理论,对矩阵M施以奇异值分解,来导出16维的向量用以描述每条基因组序列。最后,运用此算法对20条真哺乳亚纲线粒体基因组序列作相似度分析。实验结果表明,在基因组序列图形化表征及相似度分析方面,本算法表现较好。
   (3)为解决基因组序列维数较高,直接在低维空间数值表征很困难。本文还提出了具有“保距”特性的基因组序列的非比对模型。先将基因组序列转换成16×(L-1)的稀疏矩阵M,对所得矩阵M施以奇异值分解,便得16维“特征值”向量F用以表征每条基因组序列。通过主成分分析(PCA),将所得的前几个主元用于序列之间的比较。从理论上证明了:
   a)模型属于保距变换;
   b)16-元组向量与最近邻的双核苷酸数目相关密切。
   利用“特征值”向量F构建了各组哺乳动物基因组序列系统树图。此外,由主成分分析所得的前两个主元绘制物种的二维“Map图”,用以表征所涉物种间的亲缘关系。分析结果符合已知的哺乳动物谱系关系,揭示了线粒体基因组以及全基因组序列均能很好地将不同物种区分开来。本章的算法抓住基因组序列“序”的特性、能够将字符序列“保距”地变换(distane-preserving transformation: DPT)为低维向量空间中的数值向量。尤为值得一提的是,DPT算法非常适合大规模数据集(譬如:10条哺乳动物的全基因组序列数据集,序列平均长度达到2兆bps)。
   (4)基于所有各种近邻氨基酸(AAA)的分布情况,可将每条蛋白质序列映射成400×(L-1)的矩阵M,对M施行奇异值分解,从而可得从原始蛋白质序列抽取出归一化的数学描述符D,其维数为400。所得的400维归一化“特征”向量(NFV)便于对蛋白质序列作定量分析。运用蛋白质序列的归一化表示形式,遴选两个典型数据集作相似度分析。与相关研究工作所得结果对比研究表明,本算法(NFV-AAA)在蛋白质序列相似度分析领域,取得了较好的效果。
   (5)由于计算开销大的原因,传统的多重序列比对(MSA)不再适合基因组规模上的序列比较。本文还提出了改进的K-mer法:将序列分成若干段,并同时将每一段转换成相应的K-mer。该算法的关键在于确定出距离测度d、K值以及段数s的最优组合(d*,s*,K*)。基于从寻优分成的s*个片段的序列转化而来串联在一起的“特征”向量,运用所提出的分段K-mer模型(即:s-K-met),获得34条哺乳动物线粒体基因组序列的系统树状图。结果表明序列相似度分析时,s-K-mer方法运行效果优于传统的K-mer方法。
   (6)比较多重基因组序列时,不仅只考虑全局相似性,还须考虑局部相似性。从信号处理的角度,本文还提出了拟用于基因组序列比较的新算法:先将各条基因组序列分成若干个片段,每段同时转换成相应的k-mer-based的向量,此过程可以视为将多重基因组信号经过虚拟传感器‘virtual mixer’(VM)混合后的数值输出,实现了将长度迥异的原始序列转换为等长的向量。随后,利用ICA-based变换,可将上述混合输出的向量组向独立主成分投影,由此经过‘projection extractor’(PE)捕获得到其投影向量;并从理论上严格证明了复合变换具有保距特性。此外,作为改进,引入双层VM-PE模型,以提高相似度分析的性能。而且经过层级VM-PE模型(HVMPE),大大降低了数据的维度。利用所提出的HVMPE模型,运用于两个线粒体基因组序列数据集作相似度分析,对比分析表明HVMPE模型明显好于现存的一些算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号