基于多信息融合的生物大分子序列预测方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着测序技术的发展，生物大分子序列数量快速积累，迫切需要了解序列所蕴含的重要生命信息。近年来，生物大分子序列的结构与功能研究已经成为生物信息学领域研究的热点问题。目前，基于生物大分子序列和机器学习模型的方法是生物信息学领域中预测序列结构和功能的重要研究手段。本文从如何构建有效的序列向量化方法、分类算法、以及高质量数据集角度出发，对生物大分子序列预测的几个具体问题进行了深入研究，包括蛋白质结构类预测、蛋白质折叠模式类预测、细胞因子与受体相互作用预测、细胞穿透肽预测、以及microRNA前体预测。本文的研究内容包括以下几个方面:
　　第一，针对蛋白质结构类预测问题，目前现有预测方法普遍存在的问题是特征中包含信息单一导致特征的表达能力较低。为了克服这一问题，本文提出了基于序列与结构特征的蛋白质结构类预测方法RF_ PSCP。在该方法中，首先利用了基于多信息融合的特征提取方法，将蛋白质的初级序列信息、二级结构信息和序列结构信息融合到特征向量中，从不同角度更加全面刻画不同结构类间蛋白质序列的差异性;然后，将特征向量输入随机森林进行结构类预测。在10折交叉验证中，本文提出的方法RF PSCP在多个基准数据集上的预测准确率上均显著优于现有的方法，表明了方法的有效性。此外，在多个更新数据集上稳定的预测效果表明了方法良好的鲁棒性。
　　第二，在蛋白质折叠模式类预测领域中，目前基于机器学习的预测方法实际的预测效果并不理想。为了进一步提高方法的预测性能，本文提出了基于集成学习的蛋白质折叠模式类预测方法PFPA，从序列向量化方法与分类算法两个方面做了相应改进，从而提升了预测效果。在序列向量化方面，利用了两种新的向量化方法:基于PSI-BLAST和基于PSI-PRED的特征算法，使得特征向量充分包含初级序列信息、进化信息、以及局部和全局二级结构信息。在分类算法方面，本文采用了平均概率的集成策略将五种不同的基分类器结合，从而形成集成分类器对蛋白质序列进行折叠模式类预测。与现有方法在基准数据集上的比较，表明了本文提出的方法的优越性。
　　第三，针对细胞因子与受体相互作用预测问题，本文从蛋白质相互作用具有局部性特点出发，提出了基于局部进化特征的细胞因子与受体相互作用预测方法CRI-Pred。在该方法中，首次引入了蛋白质序列局部信息的概念。为了提取局部信息，利用平均分割的方法将位置特异性得分矩阵分成多个子矩阵，将两个进化特征模型(Pse-PSSM和AAC-PSSM-AC)应用于子矩阵中将蛋白质序列向量化，从而使得特征向量融合了蛋白质序列的局部保守信息、进化信息、以及序列的顺序信息。在分类器方面，本文采用随机森林作为分类器进行预测。实验结果表明，本文提出的方法在整体预测准确率指标上比现有预测方法高5.1％。
　　第四，在细胞穿透肽预测领域中，本文针对现有方法的一些不足做了相应改进，从而提出了基于随机森林的细胞穿透肽预测方法SkipCPP-Pred。在该方法中，本文提出了自适应k-skip-n-gram特征向量化方法，在n-gram模型基础上增加更多的距离和序列氨基酸间相关性，从而一定程度上解决了传统n-gram方法造成的特征空间稀疏问题。其次，在数据集构建方面，本文重新构建了一个新的数据集:降低样本的冗余，增加数据集样本量，提升正反例样本相似性分布，从而克服基于现有数据集构建的预测方法出现的“过预测”问题。为了验证方法的有效性，本文比较了SkipCPP-Pred与现有方法的预测效果。实验结果表明，SkipCPP-Pred比现有方法能够更加准确预测序列是否具有细胞穿透功能。
　　第五，在microRNA前体预测领域中，目前现有的预测方法普遍存在训练集中反例样本不具有代表性，导致预测方法泛化能力差的问题。本文提出了基于高质量反例的人类microRNA前体预测方法miRNAPre。该方法的研究重点是从反例选择的角度出发，提出了高质量反例挖掘方法，通过反复迭代的深度挖掘，从而克服现有反例样本过度依赖参数选择导致与正例样本差异性较大的问题。在预测方法的构建方面，基于多信息融合的方法将序列向量化为包含了多种不同信息的特征，以支持向量机分类器作为特征向量输入进行预测。与现有方法在多个的独立测试集上的比较结果显示miRNAPre均取得了更高的敏感性和特异性，实验表明了miRNAPre能够为生物实验提供可靠的microRNA前体候选预测服务。

著录项

作者
魏乐义;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机科学与技术
授予学位博士
导师姓名廖明宏;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类生物大分子的结构和功能;
关键词
生物大分子; 基因序列; 结构特征; 功能评价; 信息融合;

相似文献

中文文献
外文文献
专利

1. 基于多信息融合的塑壳断路器故障诊断方法研究 [J] . 李奎 ,梁启明 ,赵成晨 . 河南理工大学学报（自然科学版） . 2022,第002期
2. 基于多信息融合的多目标跟踪方法研究 [J] . 张静 ,王文杰 . 计算机测量与控制 . 2020,第009期
3. 基于多信息融合的施工升降机轿厢人数统计方法研究 [J] . 杨静 ,惠秦双 ,徐彬 . 西安理工大学学报 . 2015,第002期
4. 基于ANFIS的多信息融合煤岩识别方法研究∗ [J] . 刘俊利 . 中国煤炭 . 2014,第012期
5. 基于视频的多信息融合公交客流采集方法研究 [J] . 苏彦莽 ,王彦 ,郭志涛 . 河北工业大学学报 . 2013,第004期
6. 基于D-S理论的传感器多信息融合方法研究 [C] . 孟宪松 ,覃于相 ,张铭钧 . 2008中国仪器仪表与测控技术报告大会 . 2008
7. 基于多信息融合的药物和蛋白相互作用预测方法研究 [A] . 陈炳旭 . 2021

基于多信息融合的生物大分子序列预测方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅