首页> 中文学位 >寻找差异基因的概率方法研究
【6h】

寻找差异基因的概率方法研究

代理获取

目录

文摘

英文文摘

图清单

表清单

注释表

第一章 绪论

1.1 生物信息学

1.1.1 简介

1.1.2 主要研究方向

1.2 概率方法在寻找差异基因中的运用

1.3 本论文的主要研究内容及思路

1.4 本论文的结构安排

第二章 背景知识

2.1 生物知识背景

2.1.1 遗传学知识

2.1.2 生物芯片技术

2.1.3 生物实验研究过程

2.2 数学知识背景

2.2.1 数据似然函数

2.2.2 贝叶斯推导

2.2.3 变分方法

第三章 相关工作

3.1 探针级别的分折

3.1.1 传统模型

3.1.2 概率模型

3.1.3 本节小结

3.2 寻找差异基因的相关算法

3.2.1 FC

3.2.2 T-test

3.2.3 SAM

3.2.4 Cyber-T

3.2.5 Limma

3.2.6 PPLR

3.2.7 算法评估

3.2.8 本节小结

第四章 IPPLR模型

4.1 改进的目的及思路

4.2 模型描述

4.3 参数估计

4.4 结果评估

4.5 模型实现

4.5.1 实现的基础

4.5.2 实现的过程

4.6 本章小结

第五章 实验结果讨论

5.1 Golden Spike-in数据集

5.1.1 数据集描述

5.1.2 结果分析和讨论

5.1.3 本节小结

5.2 Mouse Embryo数据集

5.2.1 数据集描述

5.2.2 结果分析和讨论

5.3 计算效率比较

5.4 本章小结

第六章 总结与展望

6.1 本文工作总结

6.2 进一步研究工作

6.2.1 单个差异基因的检测

6.2.2 差异基因集的检测

6.3 研究思路和体会

参考文献

致谢

在学期闻的研究成果及发表的学术论文

附录 A Golden Spike-in数据集结果

附录 B Mouse Embryo数据集详细结果

展开▼

摘要

在目前医学及生命科学研究中,基因芯片被广泛用来进行各种生物实验。其中寻找差异基因在芯片实验中是最基本的实验目的,它在基因诊断、药物筛选等方面有着重要作用。由于芯片实验是复杂多步骤的实验过程,产生的基因表达数据包含了大量噪音,另外重复芯片个数太少和基因表达测量值精度低等多方面影响,使得寻找差异基因非常困难。目前的许多方法仅仅利用重复芯片的基因表达数据的点估计来寻找差异基因。而广泛使用的Affymetrix基因芯片利用多探针技术在提供了基因表达值的同时也提供了获得基因表达值测量误差的可能。而概率方法能够自然的结合基因表达值和测量误差。最近提出的概率方法PPLR同时考虑了基因的表达值和测量误差,提高了寻找差异基因的精确度。但是PPLR方法在变分EM算法中采用了重采样近似计算技术,导致了较低的计算效率。本论文改进现有的PPLR模型,获得一个计算效率和计算精度更高的新模型IPPLR。
   IPPLR模型采用多层贝叶斯理论,在同时考虑基因的表达值和测量误差的情况下,在原有PPLR模型中增加一层隐含变量,代表每个基因的真实表达值,利用变分EM算法估计模型中的参数,算法中每步计算都能得到解析解,从而克服了PPLR中低效的重采样过程。通过GoldenSpike-in标准数据集和真实的Mouse Embryo数据集验证,IPPLR模型相比已有模型能同时提高计算精确度和计算效率。进一步验证在大规模数据集,Mouse Hair数据集和Mouse Colitis数据集上,IPPLR模型能大幅度的提高计算效率,而且随着芯片的数目增加,计算效率的提高更加明显。
   为了提供给全球所有生物学家使用,IPPLR模型已经被实现成R语言包,ipplr,可以从http://parnec.nuaa.edu.cn/liux/zhangl下载,同时ipplr也被包含到Bioconductor的基因表达数据概率方法分析软件包puma中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号