首页> 中文学位 >基于质谱技术的组学数据分析的算法研究及工具开发
【6h】

基于质谱技术的组学数据分析的算法研究及工具开发

代理获取

目录

略缩词列表

1 绪 论

1.1.1 组学技术

1.1.2不同组学之间的生物学关系

1.1.3 蛋白质组学和代谢组学的优势

1.2 基于MS的蛋白质组学和代谢组学在生物医学研究中的应用

1.2.1 应用于发病机制研究

1.2.2 应用于药物的发现与开发

1.2.3 应用于精准医学

1.3.1 生物信息学简介

1.3.2 生物信息学对蛋白质组学和代谢组学研究的影响

1.3.3 生物信息学中的数据挖掘

1.4 基于MS的组学数据分析中存在的科学问题及对策

1.4.1 数据预处理

1.4.2 特征选择方法

1.4.3 生物标志物不稳定

1.5 研究内容和研究创新点

2 基于MS的代谢组学数据预处理方法研究

2.1 背景

2.2 材料与方法

2.2.1 用于信号校正和数据标准化的方法

2.2.2 预处理方法的评估标准

2.2.3 输入文件、数据格式

2.2.4 研究中采用的基准数据集

2.3 结果与讨论

2.3.1 NOREVA的构建和总览

2.3.2 NOREVA中的案例研究

2.4 本章小结

3 基于MS的蛋白组学数据预处理方法研究

3.1 背景

3.2 材料与方法

3.2.1 ANPELA中使用的蛋白质定量工具和数据预处理方法

3.2.2 评估LFQ数据处理流程性能优劣的标准

3.2.3ANPELA web框架的设计和实施

3.3.1 ANPELA流程及功能总览

3.3.2 ANPELA发现新性能最优的数据处理方法

3.3.3 在多个标准下性能同时提高的可行性分析

3.3.4 ANPELA进行多个角度性能评估

3.3.5 基于加标蛋白质和背景蛋白质验证LFQ的准确性

3.4 本章小结

4 基于MS的蛋白质组学特征选择方法的评估

4.1 背景

4.2 材料与方法

4.2.1 基于MS的微生物蛋白质组学数据集的收集

4.2.2 微生物定量蛋白质组学数据的预处理

4.2.3 本研究采用的特征选择方法

4.2.4 使用已知加标蛋白质的信息评估特征选择方法

4.2.5 评估特征选择方法的预测分类能力

4.2.6 特征选择方法性能的聚类分析

4.3.1 数据预处理

4.3.2 评估特性选择方法在预测分类性能上的表现

4.3.3 特征选择方法在预测分类性能上的一致性

4.3.4 评估特征选择方法在筛选真阳性差异蛋白质上的性能

4.3.5 特征选择方法在筛选真阳性差异蛋白质数目上的一致性

4.4 本章小结

5 基于新型稳定识别算法的垂体瘤代谢组学分析

5.1 背景

5.2.1 受试者特征

5.2.2 样品制备和非靶向代谢组学分析

5.2.3 质量控制和数据预处理

5.2.4构建基于一致性评分的稳定标志物识别算法

5.2.5 差异代谢特征离子的稳定性和可靠性评估

5.2.6 代谢物通路富集分析

5.3.1 非靶向代谢组学数据的质量评估

5.3.2 样本大小的分析

5.3.3 基于2种标准分析差异代谢特征的稳定性和预测分类能力

5.3.4 垂体瘤差异代谢物的鉴定和注释

5.3.5 富集分析揭示了脂质代谢紊乱

5.4 本章小结

6 结论与展望

6.1 主要结论

6.2 工作展望

参考文献

附录

A. 作者在攻读博士学位期间发表及拟发表论文目录

B. 作者在攻读学位期间参加的科研项目目录

C. 作者在攻读学位期间学术进修经历

D. 无标定量蛋白质组学数据分析工具中的数据预处理方法的比较

E. ANPELA单机版的详细操作步骤

F. 基于8组DDA数据集的数据处理流程的PCV值的分类图

G. 基于7组SWATH-MS数据集的PCV结果

H. 基于 PXD001064 数据集在精确度和稳定性两个标准下的评估结果

I. 不同浓度基准数据的数据处理流程在准确度评估下的结果

J. 基于PXD002099数据集中10组不同浓度比的RLA图

K.基于CPTAC Study 6数据集中10不同浓度比的RLA图

L. 基于PXD001819数据集中10不同浓度比的RLA图

M. 基于三组加标蛋白数据集中10不同浓度比的PMAD分布图

N. 由随机抽样产生的20组样本集所筛选的特征离子统计

O. 学位论文数据集

致谢

展开▼

摘要

质谱在生物医学研究中扮演着非常重要的作用。基于质谱技术开展的组学分析(如蛋白质组学、代谢组学)已经被广泛应用于药物的发现与开发,疾病的早期诊断、治疗、预后以及疾病的机制研究等各个方面。基于质谱的原始数据通常存在信号漂移,不同程度的实验和生物学上的变异,数据预处理(如标准化)是消除这些不期望的变异最常用的方法。然而不同预处理方法的理论基础不一样,适用范围也不一样,且对下游的统计学分析具有很大的影响。此外,基于质谱的蛋白质组学及代谢组学数据通常具有高维度,低样本量等特点,常常给数据分析带来过拟合等问题,严重影响了研究结果的可靠性。因此,选择准确的、恰当的数据分析方法对复杂的、高通量的蛋白质组和代谢组数据进行预处理和分析就显得尤为重要。随着生物信息学方法在组学数据研究中的快速发展,蛋白质组学和代谢组学的数据处理和分析也遇到了诸多严重问题:①对数据预处理的认识不充分及数据预处理方法的评价指标不统一;②特征选择方法在选择与生物学真正相关的特征方面的重要性被低估;③现有的生物标志物识别算法所发现的标志物不稳定。基于此,本研究全面开展了基于质谱技术的蛋白质组学以及代谢组学数据预处理及生物标志物识别等两个方面的系统性研究,并开发了用于基于质谱技术的蛋白质组学和代谢组学数据预处理和多标准评估的在线工具,同时提出并构建了一种新型生物标志物稳定识别算法,主要完成如下几个方面的工作:  首先,本文整合了基于内标、质量控制代谢物、质量控制样本以及数据标准化等数据预处理方法,提出了对数据预处理方法进行多角度评估的分析策略,并开发了第一个可用于基于质谱的非靶向代谢组学数据预处理及多标准评估的在线分析平台 NOREVA。该工具不仅提供了基于质量控制代谢物和基于内标的预处理方法,还允许基于信号校正后再进行数据标准化处理。NOREVA 可以在网站http://server.idrb.cqu.edu.cnoreva/和http:/idrblab.cnoreva/进行访问。  其次,本文对无标定量蛋白质组学(LFQ)数据处理中的定量方式、定量工具以及数据预处理(转化,标准化,缺失值填充)等步骤进行了系统和全面的研究,同时进一步提出对数据预处理组合方法进行综合性打分来发现最佳的LFQ数据处理流程的新策略,并构建了可用于全面评估LFQ数据预处理组合方法的交互式在线工具 ANPELA(http://idrblab.org/anpela/)。相比于其他在线或需要下载安装的分析工具,ANPELA不仅可以自动检测多种流行的定量工具产生的各种数据格式,还提供了更全面的数据预处理方法。总之,ANPELA 能通过对数据预处理组合方法进行综合性打分排名来发现最佳的LFQ数据处理流程,同时也为LFQ的研究提供重要的参考和指导。  第三,本文对14种常用于无标定量蛋白质组学生物标志物发现的特征选择方法进行了系统性研究,并阐明了不同特征选择方法在预测分类准确度上的性能不仅存在显著差异,而且每种方法筛选的真阳性差异蛋白质数目的差异也很大。研究发现多变量分析方法(如PLS-DA)在筛选真阳性差异蛋白质和预测分类准确度两个方面上都表现出比较理想的效果。总体而言,具体选择哪种特征选择方法用于特定数据分析,除了需要综合考虑以上两个因素以外,还需要结合研究的目的。  最后,本文提出并开发了一套新型生物标志物稳定识别算法,并开展了脑垂体瘤的代谢组学实验验证研究。本研究的新方法将重复随机抽样与一致性评分相结合,并评估不同数据集之间代谢特征排序的一致性。与传统的特征选择方法相比,本研究构建的新策略所筛选的特征表现出很好的稳定性和预测分类能力。基于垂体瘤血浆非靶向代谢组学分析,本文找到了45个与垂体瘤相关的且高度稳定的代谢物。基于差异代谢物的富集分析,研究发现了脂质代谢通路紊乱与垂体瘤密切相关,并为揭示垂体瘤的复杂病理机制提供重要的科学依据。  综上所述,该论文系统性分析了基于质谱的蛋白质组学以及代谢组学数据预处理方法并搭建了在线分析工具,这为我们如何进行准确的、适合的无标记定量蛋白质组学和非靶向代谢组学数据预处理提供了重要的参考和指导,也为做该类分析的研究者提供了数据处理服务平台。此外,本文系统和全面研究了基于质谱技术的蛋白质组学特征选择方法在预测分类能力以及筛选真阳性差异特征能力的综合表现,为质谱组学数据分析中如何选择理想的特征选择方法来筛选准确的、可靠的生物标志物提供有用的指导,同时本研究开发的新型标志物稳定识别算法将为选择稳定的、可靠的潜在生物标志物提供新的算法资源。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号