首页> 中文学位 >蛋白质序列相似性分析的几种数学方法
【6h】

蛋白质序列相似性分析的几种数学方法

代理获取

目录

声明

摘要

第1章 绪论

1.1 生物序列分析的背景及研究现状

1.2 生物序列图形表示的研究概况

1.2.1 DNA序列的图形表示

1.2.2 蛋白质序列的图形表示

1.3 本文的主要工作

第2章 基于三种重要理化性质的蛋白质序列的3-D图形表示及其应用

2.1 引言

2.2 蛋白质序列的3维空间表示

2.2.1 氨基酸的几个重要理化性质参数和生物学特性

2.2.2 基于氨基酸理化性质的3维图形表示

2.3 图形的刻画方法及序列相似性

2.3.1 主惯性矩

2.3.2 不同坐标方向极差

2.3.3 九个物种ND5蛋白质序列的相似性分析

2.3.4 构建进化树

2.4 小结

第3章 一种基于序列片段方法的蛋白质相似性分析

3.1 引言

3.2 蛋白质序列的2维空间表示

3.2.1 基于两种氨基酸理化性质的2维图形表示

3.2.2 12种杆状病毒解旋酶蛋白质的图形表示

3.3 图形的刻画方法及序列相似性

3.3.1 图形几何中心

3.3.2 序列片段方法

3.3.3 12种解旋酶蛋白质相似性分析

3.3.4 图形比对

3.4 小结

第4章 一种基于统计方法的蛋白质相似性分析

4.1 引言

4.2 统计方法的描述

4.2.1 氨基酸的6种重要理化性质

4.2.2 0-1序列对应的统计方法及序列的数值刻画

4.3 蛋白质序列的相似性、差异性分析

4.4 结论

参考文献

致谢

攻读硕士学位期间发表和完成的论文目录

展开▼

摘要

近年来,随着新一代高通量测序技术的出现,产生了越来越多的分子序列数据。面对海量的数据,如何对这些数据进行科学的分类、处理、分析和储存,给数学、计算机科学提出了严峻的挑战,生物学研究的重点开始由数据积累向数据分析和解释转变,计算生物学便在这种背景下应运而生。其中,生物大分子序列和结构的比较是最基本、最重要的课题之一,对生命科学的研究具有深远的影响。近二十多年来,DNA和蛋白质序列的数学描述是研究生物序列的一条有效途径,各种与之对应的数值刻画及相似性分析比较模型也相继提出。总的来说,现有模型仍存在某些缺陷和问题,比如算法复杂度高、具有退化性、信息单一、知识表达能力较弱等。因此,提出计算上简单可行的、适用于较长序列的数值刻画量,并将其扩展应用于生物信息学的其他领域,是几何表示模型的一个很有发展前景的课题;将多个模型有效加权结合起来,开发混合模型,是提高模型提取序列、结构所携带信息的一条有效途径。论文在蛋白质序列的图形表示、数值刻画、相似性分析和进化树的构造等方面进行研究,主要研究内容和结果如下:
   (1)基于氨基酸的几个重要理化性质,给出了一种蛋白质序列的3-D图形表示,图形坐标具有直接的生物学意义,能反映蛋白质的结构和功能信息。然后,引入了一种相适的物理学概念,转换到一种新的矩阵表示,并运用混合模型的描述子方法对蛋白质序列进行相似性比较。对9个物种ND5蛋白的相似性分析结果展示了方法的有效性。
   (2)提出了序列处理的片段分割法(SSM)。对于特别长的蛋白质序列,通过给出某种序列分割规则,将序列分割为若干子段序列,对应于图形中的多个图形片段,通过对分割后的序列图形片段分析,整合得到原来序列的信息。以12种杆状病毒的解旋酶蛋白为例,运用SSM比较、分析序列的差异性并构建进化树,结果与已知的进化信息一致。这种改进后的方法计算复杂度仅为O(N)。
   (3)依据氨基酸的6种重要理化性质,分别将蛋白质序列简化为特征序列。统计序列元素在特征序列中的分布情况,对应求出子串的‘实际分布’与‘理论分布’。相对熵作为计算理论分布与实际分布的差异度量,将蛋白质序列转化为理化性质描述子向量。结果显示该方法可以有效的应用于同源蛋白的聚类分析。
   本文利用序列的图形表示给出蛋白质序列信息的一种离散度量方法,提出的模型涉及了氨基酸的几种重要理化性质,兼顾了蛋白质局部特征与整体特征信息的提取,既考虑了蛋白序列的氨基酸组成,也考虑了氨基酸的排列顺序。实验结果表明,方法具有数学模型简单,计算复杂度低等优点。这种表示方法及其相似性分析对于蛋白质序列的分析和比较是一种新的推动力,也可以为蛋白质信息分析和应用算法设计提供新的思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号