首页> 中文学位 >均衡数据法在蛋白质二级结构预测中的应用
【6h】

均衡数据法在蛋白质二级结构预测中的应用

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题的研究背景及意义

1.2 蛋白质二级结构的研究发展现状

第2章 蛋白质二级结构预测

2.1 蛋白质二级结构预测的常用工具

2.2蛋白质结构研究中主要用到的数据库

2.3 本文的任务

第3章使用的数据、预测工具及评价方法

3.1 训练集与测试集

3.2本文的实验过程

3.3权重值WH 、WE 、WC的计算方法

3.4本文采用的三种预测工具

3.5采用的评估方法

第4章实验与分析

4.1训练集的测试结果

4.2均衡数据法在测试集中的运用及结果分析

结 论

参考文献

攻读学位期间本人出版或公开发表的论文

致谢

展开▼

摘要

近年来生物学的发展积累了海量的实验数据,研究这些数据中隐含的生物学意义尤为重要。目前,生物信息学中最受关注的问题之一就是怎样从蛋白质的一级序列得到其三级结构,而二级结构是构成三级结构的基本单元。计算机预测方法被广泛应用于蛋白质二级结构的研究,其发展过程大体分为三个阶段:第一阶段以数理统计作为出发点,基于单个氨基酸信息,如Chou-Fasman和GOR方法;第二阶段基于进化信息,主要利用BLAST等工具在序列数据库中对搜索序列进行多重比对以取得同源信息利用PSI-BLAST取得相应的进化信息PSSM;第三阶段的预测方法则在第二阶段的基础上加入了同源序列的信息,所以预测精度更高,现在人们研究的方法大都属于第三阶段。为提高蛋白质二级结构预测精度,本文提出一种均衡数据法来对一般预测工具的结果进行处理。具体做法为:首先在蛋白质结构分类数据库SCOP中选择100条已知结构的蛋白质(共16818个残基),作为训练集。采用PHD、NNPREDICT、SOPMA三种方法进行预测,将每条蛋白质测试的结果与蛋白质的标准结构对比,通过专门用于蛋白质结构预测算法评估的web服务器EVA进行准确率评估,将得到的结果用统计的方法分别计算出能够代表这三种蛋白质二级结构预测方法各自预测能力的权重值。再建立一个包含有个3892残基,共20条已知结构的蛋白质组成的测试集,同样采用PHD、NNPREDICT、SOPMA三种方法进行预测,将训练集实验得出的权重值运用到预测结果中进行重新计算,即将预测结果数据进行均衡处理,得到的预测结果与蛋白质的标准结构对比,通过EVA进行准确率评估,结果表明本文提出的均衡数据预测法能在一定程度上提高蛋白质二级结构的预测精度,起到了优化这三种预测工具预测质量的作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号