基于机器学习方法的生物序列分类研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

在过去的几十年间,机器学习方法在生物信息领域获得了强劲的发展动力,成为解决许多生物学问题的重要方法。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到机器学习和模式识别技术。本文的工作围绕模式识别的两个关键问题,特征提取和模式分类,对生物序列(包括蛋白质序列和核酸序列)进行深入的分析和分类,以解决蛋白质的亚细胞定位,同源蛋白查找,细菌Ⅲ型分泌系统的分泌蛋白预测以及新的非编码RNA预测等问题。
　　本文的主要贡献在以下几个方面。
　　 1)借鉴中文自然语言处理中的分词技术,提出了一种新的蛋白质序列特征提取方法。我们从蛋白质的氨基酸序列中挑选具有统计意义的子序列构成词典,并将氨基酸序列切分为互不重叠的词,通过统计各个词的出现频率获取蛋白质的特征。相比于传统的氨基酸多联体频率法,所提方法所生成的特征向量具有维数低、准确性高的优点。我们将其应用到蛋白质亚细胞定位和同源蛋白查找中,取得了良好的效果。
　　 2)针对细菌Ⅲ型分泌系统分泌的效应蛋白序列相似度低和空间结构不稳定的特性,我们首次利用二级结构和溶剂可接触性信息以及氨基酸组份信息预测未知的效应蛋白,在假单胞菌基因组上进行交叉验证,取得了较高准确率,并对根瘤菌的四个不同菌株的基因组进行了预测,得到一批新的效应蛋白。
　　 3)针对蛋白质定位问题的样本不平衡和多点定位问题,采用最小最大模块化支持向量机解决这一多标号不平衡问题。该方法相比于传统的支持向量机,在总体准确率和类平均准确率指标上均有提高；同时,该方法也大大缩短了训练时间,可用于大规模的数据集。
　　 4)为最小最大模块化支持向量机提出一种新的基于生物领域知识(物种分类和基因本体注释信息)的任务分解方法,该方法与随机划分和其他划分方法相比具有性能稳定,准确率高的优点。
　　 5)基于比较基因组学方法,抽取多种植物全基因组序列的基因间隔区,并通过序列比对得到在多个植物基因间隔区中保守的序列片段,对这些片段进行预测,并经过一系列的筛选步骤,得到共计21个新的非编码RNA,分为16个家族。这些新家族均通过生物实验验证其表达性。

著录项

作者
杨旸;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机软件与理论
授予学位博士
导师姓名吕宝粮;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
机器学习方法; 生物序列; 蛋白质; 支持向量机; 最小最大模块化; 准确率; 全基因组序列; 氨基酸序列; 预测; 亚细胞定位; 信息; 基因间隔区; 序列特征; 特征提取; 模式识别技术; 分泌系统; 定位问题; 自然语言处理; 分类; 非编码;

相似文献

中文文献
外文文献
专利

1. 基于机器学习方法的母猪高低产分类模型研究 [J] . 李喜阳 ,李信颉 ,赵志超 . 华中农业大学学报 . 2021,第3期
2. 基于机器学习方法的肝癌X射线相衬CT图像分类研究 [J] . 王坤 ,张学良 ,张岁霞 . 中国生物医学工程学报 . 2020,第005期
3. 基于机器学习方法的心电信号分类研究 [J] . 章洁 ,武东 . 科技风 . 2019,第016期
4. 基于多种植被指数时间序列与机器学习的作物遥感分类研究 [J] . 苏腾飞 ,刘全明 ,苏秀川 . 江苏农业科学 . 2017,第016期
5. 基于机器学习LightGBM和异质集成学习方法的新闻分类 [J] . 李安 . 电子制作 . 2019,第004期
6. 基于中医辅助诊断工具的疾病分类机器学习方法研究 [C] . 潘主强 ,张林 ,颜仕星 . 第五届中医药现代化国际科技大会 . -1
7. 机器学习方法在生物序列分析中的应用 [A] . 宋佳 . 2013

基于机器学习方法的生物序列分类研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅