首页> 中文学位 >基于GO语义相似性的蛋白质亚细胞定位预测研究
【6h】

基于GO语义相似性的蛋白质亚细胞定位预测研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1. 1 引言

1. 2 研究背景及意义

1. 3 国内外研究现状

1. 4 本文的主要内容和安排

第2章 蛋白质数据与模型

2. 1 蛋白质组成与功能

2. 2 数据库及工具介绍

2. 3 基因本体模型介绍

2. 4 小结

第3章 分类算法

3. 1 单位点蛋白分类算法

3. 2 多位点蛋白分类算法

3.3 ML-SVM分类算法

3. 4 小结

第4章 蛋白质特征提取

4. 1 基于氨基酸组成与位置的方法

4. 2 基于氨基酸理化性质的特征提取方法

4. 3 基于数据库挖掘的特征提取方法

4.4 蛋白质GO特征

4. 5 小结

第5章 基于GO语义相似性的蛋白质亚细胞定位预测

5.1 GO语义相似性特征

5. 2 数据集

5. 3 评价指标

5. 4 实验流程

5. 5 实验结果及分析

5. 6 小结

结论

参考文献

附录

致谢

展开▼

摘要

人类基因组测序完成使得蛋白质序列信息呈指数级增长,大规模蛋白质序列涌入生物学数据库,过快的发展速度导致序列已知的蛋白质与功能已知的蛋白质之间的差距越来越大,这种失衡局面将严重制约蛋白质组研究以及新药物开发。蛋白质功能与蛋白质所属的亚细胞位置关系相当密切,蛋白质只有被运送到正确的亚细胞中,才能发挥其正常的功能,否则,就会给生物体内带来严重的后果。因此,蛋白质亚细胞定位信息有助于蛋白质功能预测,在蛋白质组学中蛋白质亚细胞定位的研究越来越重要。在传统生物学观点看来,基因、蛋白质及亚细胞这三者之间关系是一个基因对应一个蛋白质,一个蛋白质对应一个亚细胞位置,所以大部分蛋白质亚细胞定位预测方法建立在这种传统观点基础上。尽管对于这种单位点蛋白亚细胞定位预测已经取得一定效果,但是仅仅研究单位点蛋白并不能满足需求,因为多位点蛋白也需要被预测,并且可能多位点蛋白具有更加重要的意义,比如多位点蛋白更容易发生定位异常,更可能是引起疾病的原因。目前人们已经开始研究多位点蛋白亚细胞定位预测,但还处于起步阶段,尚不够完善。研究表明,越全面,越具有代表性的特征将越利于提高蛋白质亚细胞定位预测的准确率,而且大量研究人员通过上述方式提高了亚细胞定位的预测准确率。比如说同时考虑 GO注释信息和氨基酸疏水信息获得不错的实验效果。理论上来讲,生物信息越全面,越有利于提高实验结果。所以,如何选择更加全面更加具有代表性的特征,是一个值得人们去探讨和研究的问题。如果一组基因拥有同一生物功能,而且该组基因属于同一种调控机制,那么其GO术语就相似。目前已有文献只是简单考虑GO是否出现,而没有考虑GO术语之间的相似性,我们称这种特征向量为传统GO特征向量。传统 GO特征向量通过1和0来表示GO术语的有和无,而基于GO语义相似性的新GO特征向量将前者中的0值由新计算出来的值代替,而保持1值不变,因此新的GO特征向量是对传统GO特征向量的补充,是一种更加全面的特征代表。
  本文主要研究蛋白质亚细胞定位中的特征提取方法以及分类算法的设计,提出了一个新的蛋白质亚细胞位置预测方法,即GSS-mPloc,不仅考虑GO术语是否出现,还考虑了它们之间的关系。而这通过利用GO术语之间的语义相似性来实现。给定一个蛋白,通过搜索 Gene Ontology数据库来获得 GO术语集合,如果该蛋白被某个GO注释,那么该GO对应的属性值为1,否则为0,据此得到该蛋白的GO特征向量(6749维),其中每一维的值为0或1。然后利用GO术语之间的语义相似性来改进原始GO特征。具体改进如下,将某个未出现的GO与所有出现 GO的语义相似性值平均后,平均值作为该未出现GO的新值。据此得到新的特征向量(6749维),其中每一维的值介于0与1之间。基于多标记多分类支持向量机分类算法ML-SVM被引入来对新的特征向量进行分类。在标准人类数据集上,蛋白质亚细胞位置预测的绝对正确率为71.8%,高出目前已有分类器3.6%。实验证明,GO语义相似性特征优于传统GO特征,而且基于SVM的分类算法优于基于KNN的分类算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号