首页> 中文学位 >基于逻辑回归的多数据融合鉴别致病基因
【6h】

基于逻辑回归的多数据融合鉴别致病基因

代理获取

目录

第一个书签之前

绪论

研究背景

研究现状

研究内容及意义

章节安排

相关理论

逻辑回归

不平衡分类问题

分类评估准则

交叉验证

受试者工作特征曲线

本章小结

基于多步逻辑回归和随机重采样的分类算法

算法引入

基于逻辑回归的多源数据融合方法

先验标签的估计

多源数据融合方法

参数估计

方法的具体过程

基于多步LR和随机重采样的分类算法

多步逻辑回归过程

随机重采样

算法描述

本章小结

实验研究与生物意义解释

实验数据集

实验分析与讨论

与其它方法的对比实验

实验结果及对比

与其它算法对比

生物通路富集分析

KEGG与GO注释富集结果

通路富集分析

4.5本章小结

总结与展望

研究总结

研究展望

参考文献

基本情况

教育背景

攻读硕士学位期间的研究成果

发表学术论文

申请(授权)软件著作权

参与科研项目及获奖

展开▼

摘要

癌症亦称为恶性肿瘤,癌症的发生对人类健康产生了巨大的威胁。随着人类基因组计划的完成,寻找与癌症相关的致病基因成为理解癌症病发机理、癌症预防和诊治手段的基础,具有重大的社会和科学意义。因此,在生物医学领域中,人类致病基因的预测已成为研究热点。已有研究显示,生物网络中趋于邻近的基因易导致同种或相似疾病的发生。有效地利用多种生物网络间所隐含的生物信息,能够提高人类致病基因预测的准确性。与此同时,在鉴别与某种癌症相关致病基因问题中,由于已知基因较未知基因数目相差悬殊,使得致病基因的鉴别问题成为一个典型的不平衡分类问题,传统机器学习方法对于致病基因的鉴别效果并不理想。在此背景下,本论文以多种生物网络数据为基础,针对人类致病基因的鉴别问题进行了研究,取得了如下创新性成果: 1.为了将多种生物网络信息进行有效地融合,本研究提出了一种基于逻辑回归的多源数据融合方法。给每个基因分配先验标签的过程中使用了蛋白质复合物数据信息,并通过对二值逻辑回归算法中特征向量的重新构造实现了多种数据源的有效融合,同时充分融入了基因与基因之间的连接信息。该方法提高了致病基因鉴别问题的预测精度,相关实验结果分析对比也进一步表明了该方法的有效性。 2.针对数据的不平衡性,本研究提出了基于多步逻辑回归和随机重采样方法以鉴别人类致病基因。研究主要分为两大阶段。第一阶段是鉴别与癌症类相关的致病基因,通过将所有癌症相关基因融合在一起作为正样本,在一定程度上减少了正负样本的不平衡性。通过多步逻辑回归,在每一步中将负样本中结果最不好的部分基因剔除,以改善正负样本的平衡性,并不断优化结果。第二阶段是鉴别与某一具体癌症相关的致病基因,基于二值逻辑回归,加入了上采样和下采样的随机重采样方法,解决了由于当前癌症已知致病基因数量少而引起的正负样本不平衡问题,提高了预测的准确性。 3.将本研究提出的方法与其它已有方法进行了对比实验,对五种癌症结果进行通路富集分析,并且对相关通路进行了生物意义上的解释。实验结果验证了本文提出的方法在致病基因鉴别问题上的精确性与有效性。 综上,本研究针对人类致病基因鉴别问题中多源数据的融合和数据不平衡问题,提出了相应的方法,提高了致病基因鉴别的准确度。通过研究得到了人类多种癌症可能相关的致病基因,为癌症的预测、诊断和治疗提供了借鉴。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号