首页> 中文学位 >基于UMLS和通路数据的潜在语义分析技术的研究与实现
【6h】

基于UMLS和通路数据的潜在语义分析技术的研究与实现

代理获取

目录

摘要

第1章 绪论

1.1 课题研究的背景与意义

1.2 课题的研究现状及发展趋势

1.2.1 UMLS知识源数据库的组成

1.2.2 UMLS的核心算法Metamap

1.2.3 生物的通路数据

1.3 潜在语义分析技术及应用

1.4 本文研究的内容

第2章 数据的获取及预处理

2.1 Ⅰ型糖尿病基因数据获取

2.2 基于UMLS的基因数据扩展

2.3 文章摘要数据的获取

2.4 基于Metamap的文章摘要分解技术

2.5 本章小结

第3章 Ⅰ型糖尿病候选基因定量交叉影响分析

3.1 交叉影响分析的背景介绍

3.2 定量交叉影响分析算法设计

3.2.1 潜在语义分析的主要内容

3.2.2 奇异值分解

3.2.3 奇异值分解中的减秩

3.2.4 交叉影响概率计算

3.3 实验过程及结果

3.4 本章小结

第4章 面向基因、基因组的潜在语义分析

4.1 加入通路数据

4.2 Sprinkling技术

4.3 相似性分数

4.4 面向基因的潜在语义分析实验

4.4.1 扩展矩阵中通路数据的计算方法

4.4.2 扩展矩阵中P值的选取

4.4.3 加入通路数据对基因排名的影响

4.4.4 加入通路数据对相似性分数的影响

4.5 面向基因组的潜在语义分析实验

4.5.1 整合基因组矩阵

4.5.2 扩展矩阵中P值的取值

4.6 本章小结

结论

参考文献

致谢

攻读学位期间发表的学术论文

声明

展开▼

摘要

在21世纪信息时代的浪潮中,随着高通量基因组技术的飞速发展,生物学领域涌现出众多文献资料,很多文献内部存在着潜在语义,如果能有效的挖掘文献中的潜在语义信息,对我们以后的生物学探索帮助很大。然而数据组织的异构性和知识的不同表达形式对正确的解释生物实验结果提出了挑战,同义词和多义词在完整的整合和准确的提取生物信息方面起到了极大的干扰作用。为了从文献中挖掘基因之间的潜在关系,基于生物信息学和数据挖掘理论的潜在语义分析技术迅速发展起来。本文首先利用UMLS整合从T-HOD网站中提取的Ⅰ型糖尿病相关基因,然后运用交叉影响分析技术将基因合成基因组,最后在潜在语义分析方法中加入通路数据从而得到基因、基因组与疾病之间的相关程度,为疾病的预防、诊断、治疗提供了必要的生物信息学参照,也为生物靶向制药提供了实验依据和研制方向。
  实验的数据来源于两方面,一方面是经过UMLS过滤的Ⅰ型糖尿病相关基因,另一方面是通路数据。UMLS是关于生物医学与人类健康领域的知识数据库,为生物医学研究者提供最新的专业术语及相关概念。UMLS主要的两个功能是查询生物术语,包括它的名称,ID,语义类型,定义,相关概念等等,另一个功能是从文章中提取生物概念,这个过程主要运用了UMLS映射方法的核心——Metamap,文章摘要通过Metamap预处理,能够准确的提取出生物概念,即CUI(生物概念的ID),也可以添加选项选择想要提取的术语的特征。通路数据是从iSubpathwayMiner系统中获取的,作为可信信息参与到算法中,用来提高算法的准确性。iSubpathwayMiner系统是网络生物学资源,作为一种方便的接入点从公共数据库收集生物通路信息。这里所有的数据获取都是免费的。
  在实验中,通过参照通路数据的信息比较基因与疾病的关系排名,结果证明用潜在语义分析方法挖掘基因、基因组与疾病的相关度是合理的。接着将加入通路数据与未加入通路数据的结果进行对比,与疾病关系越大的基因相似性分数增加的越多,结果证明加入通路数据可以提高实验结果的准确度。另外,从基因与疾病的关系排名上可以看出加入通路数据并没有覆盖原信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号