首页> 中文学位 >细胞因子的识别和亚细胞定位方法研究
【6h】

细胞因子的识别和亚细胞定位方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.1.1 细胞因子

1.1.2 机器学习

1.1.3 生物信息学

1.2 国内外研究概况

1.2.1 细胞因子识别研究现状

1.2.2 蛋白质亚细胞定位研究现状

1.2.3 基于机器学习的生物信息学研究概况

1.3 本文主要工作

1.3.1 研究内容

1.3.2 本文结构

第二章 基于集成学习的细胞因子识别方法研究

2.1 引言

2.2 特征提取与分类算法

2.2.1 数据集的建立

2.2.2 细胞因子特征提取方法

2.2.3 集成分类器

2.3 实验结果

2.3.1 数据的采样处理

2.3.2 实验比对分析

2.4 细胞因子识别平台

第三章 蛋白质亚细胞定位预测方法研究

3.1 引言

3.2 数据集的建立

3.2.1 数据来源

3.2.2 数据处理

3.3 亚细胞定位研究方法

3.3.1 亚细胞蛋白质特征提取方法

3.3.2 多标记分类学习方法

3.4 实验结果与分析

3.4.1 实验评价标准的选择

3.4.2 实验验证

3.4.3 实验对比分析

第四章 细胞因子的亚细胞定位分析

4.1 数据统计

4.1.1 数据来源

4.1.2 细胞因子预测实验

4.2 数据分析

第五章 总结和展望

5.1 本文工作总结

5.2 未来工作展望

参考文献

攻读硕士学位期间发表论文及科研情况

致谢

展开▼

摘要

细胞因子的识别以及亚细胞结构定位的研究对于探索细胞因子的多样化功能以及生物化学机制有着重要的生物学意义。目前有关细胞因子的研究仍然存在大量问题:基准数据集规模过大;数据集不同类别样例数量的严重不平衡性;不断被发现的新的细胞因子家族等。本文采用了集成分类的机器学习方法来进行细胞因子的识别以及亚细胞结构定位预测的研究。
  本文主要研究内容包括:
  (1)细胞因子识别方法研究。分析特定理化属性的氨基酸在蛋白序列中的分布情况,我们提取到了120维属性专一有效的蛋白序列特征;针对基准数据集中正反例样本数的严重不平衡性,我们有效地集成了SMOTE与K-Means采样算法,利用集成采样算法重建了标准的训练集;构建动态选择性循环集成分类器LibD3C,对重建后的训练集进行10折交叉验证,保存训练模型。实验表明本方法得出的训练敏感性与特异性的几何平均值高达97.2%,集成采样算法、集成分类框架以及基于独立属性的特征提取算法是本文的亮点。
  (2)蛋白质亚细胞定位方法研究。本文依据实验以及文献资料重新整理了亚细胞蛋白的基准数据集,数据表现更全面更完整;分析每条蛋白质序列的位置特异性得分矩阵PSSM,得到20种氨基酸各自的位置特异性平均得分,即提取了蛋白质序列的20维有效序列特征向量;采用MeanEnsemble算法对7种多标记基分类器进行有效集成并对训练集进行学习,保存训练模型。实验得出本方法亚细胞定位的平均准确率是64.27%,与现有最好的效果基本相当,本文的亮点在于以上结果是基于更加完整全面的数据集得出的。
  (3)细胞因子的亚细胞结构定位分析。利用细胞因子识别的训练模型对Swiss-Prot数据库中下载的548758条未知蛋白序列进行细胞因子预测,对于识别出的4222条细胞因子序列,利用亚细胞定位研究中的训练模型进行测试,测试结果给出了4222条细胞因子在各个亚细胞结构上的分布对比情况,这也是本文的主要创新点之一。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号