首页> 中文学位 >基于逐步判别分析的蛋白质序列信息提取的方法研究
【6h】

基于逐步判别分析的蛋白质序列信息提取的方法研究

代理获取

目录

文摘

英文文摘

第一章生物学背景

1.1引言

1.2蛋白质的分子结构

1.2.1一级结构----氨基酸的顺序

1.2.2空间结构

1.3蛋白质的结构与功能统一性

1.4结构类的定义与结构类数据库

1.4.1结构类的定义

1.4.2 SCOP

1.5蛋白质结构类预测

1.6数据库

1.7本章小结

第二章统计背景---------逐步判别分析

2.1逐步判别法的基本思想

2.2两个总体的变量筛选过程

2.3 k个总体的变量筛选过程

2.4偏F-检验

2.5典型变量

第三章方法

3.1预测方法

3.2对预测结果的评价法

第四章结论和讨论

4.1结论

4.1.1对三个不同数据库的预测结果

4.1.2提取的作最终预测的变量

4.1.3它检验的结果

4.2讨论

4.2.2阈值对预测的影响

4.2.3多肽中所包含的信息

第五章方法的应用推广

全文总结与展望

附录A

附录B

参考文献

致谢

展开▼

摘要

人类基因组计划的实施使得蛋白质的一级结构数据与日俱增.但是,人们对蛋白质的三级结构和功能的认识却远远落后于一级结构的积累.后基因组时代迫切需要人们寻找有效的理论方法来从蛋白质一级结构预测三级结构和功能,以便于基础研究或在医学、农业及工业生产中的应用.在这样的前提下,文中提出了一种有效地从氨基酸序列来提取信息,提高预测准确率的新方法.该方法基于多元统计中的逐步判别分析,在每次循环中选取一些相对较为重要的肽,用来产生新的更长的肽.最后用选取的氨基酸和肽进行判别,结果比已有方法有很大改善.文中主要工作如下:1、对三个不同的结构类数据库进行预测,准确率比以往方法高15到20个百分点.2、用从较大的数据库(PDB40-b)中提取出的参数来预测较小的库(PDB40-j),超过80﹪的序列被准确地判别出其结构类型,准确率仍比其它方法高.3、对于其中两个数据库,随机地从中取一部分序列作为检验集,将剩余的序列作为训练集,用从原数据库中选取的变量进行预测.反复进行100次,预测结果都比较高,和1中结论没有很大差距,显示该方法的有效性.4、用从较大数据库中提取的变量进行典型判别,寻找与组有最大可能多重相关的变量的线性组合,得到三个典型变量.用它们作三维描点图,各类数据被很好的区分.5、用该方法对蛋白质亚细胞位置进行预测,也得到很好的预测结果.且所选变量的生物意义比较明显.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号