基于UMLS和通路数据的潜在语义分析技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在21世纪信息时代的浪潮中，随着高通量基因组技术的飞速发展，生物学领域涌现出众多文献资料，很多文献内部存在着潜在语义，如果能有效的挖掘文献中的潜在语义信息，对我们以后的生物学探索帮助很大。然而数据组织的异构性和知识的不同表达形式对正确的解释生物实验结果提出了挑战，同义词和多义词在完整的整合和准确的提取生物信息方面起到了极大的干扰作用。为了从文献中挖掘基因之间的潜在关系，基于生物信息学和数据挖掘理论的潜在语义分析技术迅速发展起来。本文首先利用UMLS整合从T-HOD网站中提取的Ⅰ型糖尿病相关基因，然后运用交叉影响分析技术将基因合成基因组，最后在潜在语义分析方法中加入通路数据从而得到基因、基因组与疾病之间的相关程度，为疾病的预防、诊断、治疗提供了必要的生物信息学参照，也为生物靶向制药提供了实验依据和研制方向。
　　实验的数据来源于两方面，一方面是经过UMLS过滤的Ⅰ型糖尿病相关基因，另一方面是通路数据。UMLS是关于生物医学与人类健康领域的知识数据库，为生物医学研究者提供最新的专业术语及相关概念。UMLS主要的两个功能是查询生物术语，包括它的名称，ID，语义类型，定义，相关概念等等，另一个功能是从文章中提取生物概念，这个过程主要运用了UMLS映射方法的核心——Metamap，文章摘要通过Metamap预处理，能够准确的提取出生物概念，即CUI（生物概念的ID），也可以添加选项选择想要提取的术语的特征。通路数据是从iSubpathwayMiner系统中获取的，作为可信信息参与到算法中，用来提高算法的准确性。iSubpathwayMiner系统是网络生物学资源，作为一种方便的接入点从公共数据库收集生物通路信息。这里所有的数据获取都是免费的。
　　在实验中，通过参照通路数据的信息比较基因与疾病的关系排名，结果证明用潜在语义分析方法挖掘基因、基因组与疾病的相关度是合理的。接着将加入通路数据与未加入通路数据的结果进行对比，与疾病关系越大的基因相似性分数增加的越多，结果证明加入通路数据可以提高实验结果的准确度。另外，从基因与疾病的关系排名上可以看出加入通路数据并没有覆盖原信息。

著录项

作者
尚美辰;
展开▼
作者单位

黑龙江大学;

展开▼
授予单位黑龙江大学;
学科计算机技术
授予学位硕士
导师姓名马吉权;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
潜在语义分析技术; UMLS数据库; 通路数据; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于UML和组件技术的软件开发环境IUMLSE的研究与实现 [J] . 杨顺祥 ,葛科 ,高仲仪 . 计算机工程与应用 . 2001,第012期
2. 基于潜在语义分析的智能答疑系统研究与实现 [J] . 乌庆敏 ,杨思春 . 计算机技术与发展 . 2008,第009期
3. 基于UML和XSD的航班信息交换模型研究与实现 [J] . 王忠波 ,罗喜伶 ,齐鸣 . 计算机技术与发展 . 2017,第004期
4. 基于UML的协同式CASE平台的研究与实现 [J] . 邓育 ,陈业斌 ,邰伟鹏 . 安徽工业大学学报（自然科学版） . 2014,第003期
5. 基于UML的移动教务管理系统的研究与实现 [J] . 付晓豹 ,王玉萍 . 软件 . 2014,第005期
6. 基于UML技术的核分析实验数据导入系统的设计实现 [C] . 庞彦广 ,于传松 ,马梅 . 第十二届全国核电子学与核探测技术学术年会 . 2004
7. 基于UML的关系数据库建模研究与实现 [A] . 熊信富 . 2011

基于UMLS和通路数据的潜在语义分析技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅