基于GO语义相似性的蛋白质亚细胞定位预测研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

人类基因组测序完成使得蛋白质序列信息呈指数级增长，大规模蛋白质序列涌入生物学数据库，过快的发展速度导致序列已知的蛋白质与功能已知的蛋白质之间的差距越来越大，这种失衡局面将严重制约蛋白质组研究以及新药物开发。蛋白质功能与蛋白质所属的亚细胞位置关系相当密切，蛋白质只有被运送到正确的亚细胞中，才能发挥其正常的功能，否则，就会给生物体内带来严重的后果。因此，蛋白质亚细胞定位信息有助于蛋白质功能预测，在蛋白质组学中蛋白质亚细胞定位的研究越来越重要。在传统生物学观点看来，基因、蛋白质及亚细胞这三者之间关系是一个基因对应一个蛋白质，一个蛋白质对应一个亚细胞位置，所以大部分蛋白质亚细胞定位预测方法建立在这种传统观点基础上。尽管对于这种单位点蛋白亚细胞定位预测已经取得一定效果，但是仅仅研究单位点蛋白并不能满足需求，因为多位点蛋白也需要被预测，并且可能多位点蛋白具有更加重要的意义，比如多位点蛋白更容易发生定位异常，更可能是引起疾病的原因。目前人们已经开始研究多位点蛋白亚细胞定位预测，但还处于起步阶段，尚不够完善。研究表明，越全面，越具有代表性的特征将越利于提高蛋白质亚细胞定位预测的准确率，而且大量研究人员通过上述方式提高了亚细胞定位的预测准确率。比如说同时考虑 GO注释信息和氨基酸疏水信息获得不错的实验效果。理论上来讲，生物信息越全面，越有利于提高实验结果。所以，如何选择更加全面更加具有代表性的特征，是一个值得人们去探讨和研究的问题。如果一组基因拥有同一生物功能，而且该组基因属于同一种调控机制，那么其GO术语就相似。目前已有文献只是简单考虑GO是否出现，而没有考虑GO术语之间的相似性，我们称这种特征向量为传统GO特征向量。传统 GO特征向量通过1和0来表示GO术语的有和无，而基于GO语义相似性的新GO特征向量将前者中的0值由新计算出来的值代替，而保持1值不变，因此新的GO特征向量是对传统GO特征向量的补充，是一种更加全面的特征代表。
　　本文主要研究蛋白质亚细胞定位中的特征提取方法以及分类算法的设计，提出了一个新的蛋白质亚细胞位置预测方法，即GSS-mPloc，不仅考虑GO术语是否出现，还考虑了它们之间的关系。而这通过利用GO术语之间的语义相似性来实现。给定一个蛋白，通过搜索 Gene Ontology数据库来获得 GO术语集合，如果该蛋白被某个GO注释，那么该GO对应的属性值为1，否则为0，据此得到该蛋白的GO特征向量(6749维)，其中每一维的值为0或1。然后利用GO术语之间的语义相似性来改进原始GO特征。具体改进如下，将某个未出现的GO与所有出现 GO的语义相似性值平均后，平均值作为该未出现GO的新值。据此得到新的特征向量(6749维)，其中每一维的值介于0与1之间。基于多标记多分类支持向量机分类算法ML-SVM被引入来对新的特征向量进行分类。在标准人类数据集上，蛋白质亚细胞位置预测的绝对正确率为71.8％，高出目前已有分类器3.6%。实验证明，GO语义相似性特征优于传统GO特征，而且基于SVM的分类算法优于基于KNN的分类算法。

著录项

作者
张向亮;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名金敏;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
生物数据库; 数据挖掘; 语义分析; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于多标记学习的蛋白质亚细胞定位预测研究综述 [J] . 余静 ,张靖 . 信息技术与信息化 . 2021,第003期
2. 基于特征融合与平衡数据集的蛋白质亚细胞定位预测研究 [J] . 余静 ,张靖 . 信息技术与信息化 . 2021,第003期
3. 基于伪氨基酸组成和支持向量机预测人类蛋白质亚细胞定位的研究 [J] . 李雨 ,杨献光 . 井冈山大学学报 . 2012,第003期
4. 基于伪氨基酸组成和支持向量机预测人类蛋白质亚细胞定位的研究 [J] . 李雨 ,杨献光 . 井冈山大学学报（自然科学版） . 2012,第003期
5. 基于聚类与特征融合的蛋白质亚细胞定位预测 [J] . 王艺皓 ,丁洪伟 ,李波 . 计算机科学 . 2021,第003期
6. 蛋白质亚细胞定位方法在植物病理学研究中的应用 [C] . 左青 ,ZUO Qing ,DUAN Yu-xi . 中国植物病理学会2011年学术年会 . 2011
7. 基于机器学习的多定位点蛋白质亚细胞定位预测方法研究 [A] . 曹隽喆 . 2013

基于GO语义相似性的蛋白质亚细胞定位预测研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅