首页> 中文学位 >基于机器学习方法的生物序列分类研究
【6h】

基于机器学习方法的生物序列分类研究

代理获取

目录

文摘

英文文摘

上海交通大学博士学位论文答辩决议书

主要符号对照表

第一章 绪论

1.1 课题背景及意义

1.2 机器学习算法

1.2.1 神经网络

1.2.2 支持向量机

1.2.3 决策树

1.2.4 K近邻法

1.3 蛋白质序列特征提取和分类

1.4 核酸序列分类

1.5 论文安排

第二章 蛋白质序列特征提取

2.1 基于序列的传统特征提取方法

2.1.1 氨基酸组份方法

2.1.2 k联体方法

2.2 基于注释的特征提取方法

2.2.1 基因本体(Gene Ontology)

2.2.2 GO特征提取方法

2.2.3 模体特征提取方法

2.3 基于中文分词技术的特征提取

2.3.1 建立词汇表

2.3.2 分词

2.4 基于其他信息的特征提取

2.5 蛋白质亚细胞定位预测实验

2.5.1 基于分词特征的预测结果

2.5.2 与其他方法的比较

2.6 蛋白质同源家族分类实验

2.6.1 SCOP家族分类实验

2.6.2 GPCR蛋白质亚家族分类

2.7 细菌Ⅲ型分泌系统效应蛋白预测

2.7.1 数据集

2.7.2 实验结果

2.8 本章小结

第三章 基于M3-SVM的蛋白质亚细胞定位

3.1 研究现状

3.2 最小最大模块化网络

3.2.1 将多类问题分解为二类问题

3.2.2 进一步分解二类阅题

3.2.3 合并子问题

3.2.4 将二类问题还原为多类问题

3.2.5 多标号问题的分类

3.2.6 任务分解

3.3 实验结果与讨论

3.3.1 实验一

3.3.2 实验二

3.3.3 响应时间比较

3.4 本章小结

第四章 基于领域知识的问题分解

4.1 问题分解的重要性

4.2 随机分解

4.3 超平面分解

4.4 PCA超平面分解

4.5 基于均等聚类的问题分解

4.6 根据领域知识的问题分解

4.6.1 基于生物种属关系的分解策略

4.6.2 基于基因本体的样本划分

4.7 实验结果

4.7.1 基于物种信息分解的实验结果

4.7.2 几种分解策略的比较

4.7.3 基于GO分解的实验结果

4.7.4 与其他方法的比较

4.8 本章小结

第五章 非编码RNA预测

5.1 非编码RNA简介

5.2 实验数据来源

5.3 计算预测流程

5.3.1 生成保守区段

5.3.2 RNA预测工具

5.4 性能评估

5.4.1 查全率

5.4.2 查准率

5.5 实验结果

5.5.1 预测拟南芥ncRNA

5.5.2 根据已知基因和ncRNA筛选

5.5.3 湿实验验证

5.5.4 与APP三元组结果的比较

5.5.5 进一步的结果分析

5.6 本章小结

第六章 总结与展望

参考文献

致谢

个人简历、在学期间的研究成栗及发表的论文

展开▼

摘要

在过去的几十年间,机器学习方法在生物信息领域获得了强劲的发展动力,成为解决许多生物学问题的重要方法。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到机器学习和模式识别技术。本文的工作围绕模式识别的两个关键问题,特征提取和模式分类,对生物序列(包括蛋白质序列和核酸序列)进行深入的分析和分类,以解决蛋白质的亚细胞定位,同源蛋白查找,细菌Ⅲ型分泌系统的分泌蛋白预测以及新的非编码RNA预测等问题。
   本文的主要贡献在以下几个方面。
   1)借鉴中文自然语言处理中的分词技术,提出了一种新的蛋白质序列特征提取方法。我们从蛋白质的氨基酸序列中挑选具有统计意义的子序列构成词典,并将氨基酸序列切分为互不重叠的词,通过统计各个词的出现频率获取蛋白质的特征。相比于传统的氨基酸多联体频率法,所提方法所生成的特征向量具有维数低、准确性高的优点。我们将其应用到蛋白质亚细胞定位和同源蛋白查找中,取得了良好的效果。
   2)针对细菌Ⅲ型分泌系统分泌的效应蛋白序列相似度低和空间结构不稳定的特性,我们首次利用二级结构和溶剂可接触性信息以及氨基酸组份信息预测未知的效应蛋白,在假单胞菌基因组上进行交叉验证,取得了较高准确率,并对根瘤菌的四个不同菌株的基因组进行了预测,得到一批新的效应蛋白。
   3)针对蛋白质定位问题的样本不平衡和多点定位问题,采用最小最大模块化支持向量机解决这一多标号不平衡问题。该方法相比于传统的支持向量机,在总体准确率和类平均准确率指标上均有提高;同时,该方法也大大缩短了训练时间,可用于大规模的数据集。
   4)为最小最大模块化支持向量机提出一种新的基于生物领域知识(物种分类和基因本体注释信息)的任务分解方法,该方法与随机划分和其他划分方法相比具有性能稳定,准确率高的优点。
   5)基于比较基因组学方法,抽取多种植物全基因组序列的基因间隔区,并通过序列比对得到在多个植物基因间隔区中保守的序列片段,对这些片段进行预测,并经过一系列的筛选步骤,得到共计21个新的非编码RNA,分为16个家族。这些新家族均通过生物实验验证其表达性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号