首页> 中文学位 >数据挖掘方法在蛋白质组学中的应用研究
【6h】

数据挖掘方法在蛋白质组学中的应用研究

代理获取

摘要

本论文的主要贡献为:1.针对差异蛋白质组数据挖掘中对于疾病病程诊断问题,建立了加权整合分类分析方法(Weighted Integrative Classification Analysis,WICA),为基于蛋白质组学技术的疾病病程诊断研究提供了新的分类分析手段。2.以DNA损伤修复相关的蛋白相互作用研究为关注点,发展了基于定量信息和功能结构域的蛋白相互作用组学聚类分析方法(Quantitive Interactome Domainmapping Clustering Analysis,QIDCA),拓展了聚类分析在蛋白相互作用组学的研究中的新视角。3.通过聚类和统计分析研究丝氨酸、苏氨酸和赖氨酸乙酰化修饰蛋白的序列特征,发现了乙酰化修饰特征位点的信息,为乙酰化修饰的预测提供参考。
  随着蛋白质组学的快速发展,数据挖掘方法在蛋白质组学中发挥着越来越重要的作用。本文将多种最新的数据挖掘方法在差异蛋白质组学、蛋白相互作用组学以及蛋白质翻译后修饰中进行了应用和发展。
  第一章:前言。简介了数据挖掘的分类分析的方法流程,综述了在差异蛋白质组学分类分析中使用的特征选择、特征提取方法、常用的分类器模型和分类器的性能评价指标,并且重点介绍了组合分类器的方法、优势及其在差异蛋白质组学疾病诊断模型中的典型应用。此外,简要介绍了聚类分析的思想及在蛋白质组研究中的应用进展。
  第二章:加权整合分类分析(WICA)方法。在差异蛋白质组学研究中的疾病病程诊断问题中,特征选择、特征提取和分类分析方法发挥着重要的作用,分类器的组合及分析方法的整合正在得到更高的关注。我们在特征空间优化和组合分类器的思想基础上,建立了加权整合分类分析方法(Weighted IntegrativeClassification Analysis,WICA)。将LDA、KNN、SVM、DT、NBC和BP-ANN六种分类器进行组合,结合单变量统计分析,SFS、GA特征选择以及PCA和PLS特征提取方法进行整合,在整合过程中对各个基分类器按照分类准确率赋予权重系数,以模糊属性值作为分类结果的输出形式,并设计了图形化的用户操作界面程序。
  第三章:WICA方法在基于肝病病程的差异蛋白质组学诊断分类中的应用。将WICA方法在基于SELDI技术的肝病病程差异蛋白质组学的研究中进行了应用。结果显示WICA的分类准确性和鲁棒性明显优于LDA、KNN、SVM、DT、NBC和ANN方法,此外,WICA分类结果的模糊属性还提供了关于疾病程度和诊断可靠程度等更为丰富的信息。
  第四章:WICA方法在卵巢癌差异蛋白质组学数据集中的应用。将WICA分析方法在基于SELDI和MALDI的两组卵巢癌公共数据集中进行应用。WICA方法在这两组数据集中表现出了相对其他分类方法更加准确和稳定的优势。研究同时指出了WICA方法的局限性,并为将来的发展和改进提出了建议。
  第五章:基于定量信息和功能结构域的蛋白质相互作用组学的聚类分析。除分类分析以外,聚类分析是另一大类的数据挖掘方法。本章将聚类分析方法应用于DNA损伤修复相关的蛋白相互作用研究中,发展了基于定量信息和功能结构域的蛋白相互作用组学聚类分析方法(Quantitive Interactome Domain mappingClustering Analysis,QIDCA)。此方法很好地帮助我们观察了肝癌细胞和正常肝细胞中H2AX复合物在博来霉素刺激下的变化情况,使得我们对H2AX为中心的DNA损伤调控机制有了更新的认识。
  第六章:丝氨酸、苏氨酸和赖氨酸乙酰化位点相邻氨基酸频率的聚类分析。蛋白质的乙酰化修饰是一个可逆的具有重要功能的翻译后修饰形式。自1968年发现第一个赖氨酸乙酰化蛋白质后,科学家的研究重点一直在于赖氨酸的乙酰化修饰,而丝氨酸和苏氨酸的乙酰化修饰作用的发现进一步增加了信号机制的复杂性。通过聚类分析和统计分析方法研究了丝氨酸、苏氨酸和赖氨酸残基上乙酰化修饰修饰蛋白序列的特征,发现了具有特殊分布频率的氨基酸特征,有助于揭示乙酰化修饰特征位点的信息,并为乙酰化修饰的预测提供参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号