首页> 中文学位 >基于图和网络的学习算法及其在系统生物学中的一些应用
【6h】

基于图和网络的学习算法及其在系统生物学中的一些应用

代理获取

目录

文摘

英文文摘

论文说明:主要符号对照表

声明

致谢

1绪论

1.1基于图和网络的学习算法

1.1.1结合链接信息的结点分类

1.1.2链接预测

1.1.3子网发现和图分类

1.1.4 图匹配

1.2当前系统生物学的发展

1.2.1 系统生物学的定义

1.2.2系统生物学的基础-信息

1.2.3系统生物学的灵魂-整合

1.2.4系统生物学的手段-建模和仿真

1.3 图和网络的观点在系统生物学中的应用

1.3.1 图和网络在系统生物学应用中的现状

1.4本文立题依据及主要内容

1.4.1研究动机和思路

1.4.2全文组织结构

2预备知识

2.1图论及其基础知识

2.1.1基本概念

2.1.2拉普拉斯矩阵

2.2半监督学习(Semi—supervised Learning)

2.3核方法相关知识

2.3.1 非线性映射和特征空间

2.3.2核技巧(Kernel Trick)

2.3.3 Mercer定理

2.3.4定义:再生核希尔伯特空间

2.3.5核函数性质

2.3.6表现定理(Representer Theorem)

2.4.半定规划基础知识

2.4.1半定规划定义

2.4.2 Schur补引理

2.5 l1范数稀疏性

2.5.1 LASSO

2.5.2从几何角度理解l1范数的稀疏性

2.5.3 l1范数最小化的优化方法

2.6光学分子成像

2.6.1近红外光成像

2.6.2荧光分子断层扫描

3基于谱变换图核的半监督核Fisher判别分析法

3.1引言

3.2问题描述

3.3核Fisher判别分析法

3.3.1基本概念

3.3.2核技巧(Kernel Trick)

3.4基于半定规划的谱交换

3.4.1半监督KFDA的一般凸公式

3.4.2半定规划求解谱变换

3.5实验结果

3.6本章小结

4基于半监督学习的药物-蛋白相互作用网络预测

4.1引言

4.2数据描述

4.3算法描述

4.3.1整合的权重属性法(Combining weighted profile)

4.3.2 LapRLS和NetLapRLS用于药物-蛋白相互作用预测

4.4实验结果

4.4.1交叉验证下的结果分析

4.4.2最终预测结果分析

4.5本章小结

5基于图的弹性网算法用于基因数据分析中的参数选择和模块辨识

5.1引言

5.2问题描述

5.3优化算法

5.3.1 LARS(Least Angle Regression)

5.3.2提出新的全路径算法解决GENet

5.4 GENet群效应特性的理论分析

5.5仿真结果

5.6实际数据分析

5.7本章小结

6三维CT图像和FMT(荧光分子断层)图像的配准研究

6.1引言

6.2问题描述

6.3序贯蒙特卡罗优化算法

6.3.1浓缩法(条件密度传播)

6.3.2用于配准的动态模型

6.3.3用于配准的观测模型

6.3.4仿真实验结果

6.4结合差分进化和改进的单纯形法的优化算法

6.4.1算法过程

6.4.2算法小结

6.4.3仿真数据

6.5本章小结

7总结和展望

7.1全文总结

7.2研究展望

7.3本章小结

参考文献

附录A 攻博期间完成的论文及参与的项目

展开▼

摘要

随着社会和科学技术的不断发展,人们正在积累越来越多的各个层次的数据和信息,但是这并没有从根本上解决许多具有挑战性的问题。最典型的例子是,二十世纪分子生物学的迅速发展只是获得了细胞各个组分的知识,而并没有攻克很多复杂的疾病,比如癌症等。这意味着我们需要从系统的水平整合不同的知识和数据,研究它们内部的相互关系和作用,从而才能最终掌握复杂系统的规律,对它们进行控制和优化。同时由于海量数据的复杂性,我们需要机器学习和数据挖掘技术对信息进行自动加工。图和网络是表达复杂系统内部不同尺度、不同组分之间相互作用和关联的最直观的方式。因此,我们迫切需要结合实际应用领域,例如系统生物学,发展基于图和网络的学习算法对系统进行研究。
   本文针对基于图和网络的学习算法,以实际分类问题和系统生物学中的一些应用为驱动背景,以图论、统计、优化方法为基本工具,以数据整合为核心,以结点分类、链接预测、子网发现和图匹配问题为对象和目标,对基于图和网络的学习算法进行了深入的研究。本文的主要研究内容和创新点包括以下几个方面:
   1.本文综述了基于图和网络的学习算法,介绍了系统生物学的定义和当前的发展,阐述了图和网络在当前系统生物学中的核心作用,指出了图和网络的方法在以系统生物学为代表的实际应用中的巨大潜力。
   2.考虑基于链接的半监督结点分类问题,以图的拉普拉斯矩阵的谱变换来构造半监督核为目标,本文提出了一种基于图的同时学习最优非参数谱变换和构建分类器的半监督学习方法。该算法的基本思想是以最大化特征空间的Fisher判别率作为谱变换图核学习和分类器构建的共同准则,并转化为一个半定规划的凸优化问题来求解。与利用核配准进行半监督核学习的算法比较,该算法不需要再进行分类器训练,因为分类器的学习和最优核的构造是同时完成的。在7个分类数据集上,该算法性能均优于或相当于当前基于核校准准则的半监督学习算法。
   3.考虑药物—蛋白相互作用网络的预测问题,本文以最大化集成网络中结点属性、链接信息以及未标记样本的信息为目标,提出应用流形正则化的半监督学习算法,并利用核方法整合药物化学分子结构信息、蛋白质序列信息和药物—蛋白网络拓扑结构信息来对未知的药物.蛋白相互作用进行预测,从而提高了预测的精度。用我们提出的方法预测的一些药物—蛋白相互作用已经被最新的药物数据库证实。
   4.从系统生物学的角度出发,考虑把蛋白质—DNA和蛋白质—蛋白质相互作用网络整合到基因微阵列数据的分析中。为了辨识与疾病相关的基因功能模块,本文提出了一个新的基于相互作用网络的正则化项来鼓励系数的绝对值在网络上的平滑,结合l1范数的稀疏特性,得到一种基于图的弹性网算法,并从理论上分析了新的正则化项的数学特性,开发了一种新的求解算法,该算法具有全路径计算的优点。理论分析和仿真结果表明,基于图的弹性网算法能得到更小的预测误差。最后,将我们的算法应用到一个阿尔茨海默病的微阵列基因表达数据集上,辨识出了四个与阿尔茨海默病相关的基因功能模块。
   5.为了融合不同尺度和模态的信息,考虑把反映分子功能信息的三维荧光分子断层扫描(FMT)图像和反映解剖结构的CT图像进行配准,从而在一幅图像上同时表达多方面的信息。但是直接配准最大直径只有几个毫米的肿瘤的三维FMT图像和体长有近十厘米的整个小鼠的三维CT图像是非常困难的。由于我们可以得到二维平面图像跟FMT图像的坐标关系。因此本文提出一个新的思路,即先对FMT成像过程中得到的二维平面图像与三维的CT图像进行预配准,预配准的结果再作为下一步FMT和CT三维配准的初始值,这样就减小了最终三维配准时两个对象的大小差异所导致的配准难度。在配准过程中,对两个对象分别进行分割得到点集,将问题转化为点集图匹配,使配准完全不同模态的图像成为可能。对于匹配的优化算法,结合全局和局部优化的思想,提出了两种优化方法:结合最小二乘进行局部搜索的序贯蒙特卡罗采样算法;结合差分进化和把最小二乘作为另一种搜索方式的单纯形法。大量的仿真实验结果验证了结合全局搜索和局部搜索优化算法在减少迭代次数和寻优能力上的优越性。最后,在两个实际小鼠数据上的运行结果显示这种预配准的方法为下一步三维FMT和CT图像的配准提供了很好的初始值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号