首页> 中文学位 >人类基因组SNP数据库的数据整合
【6h】

人类基因组SNP数据库的数据整合

代理获取

摘要

随着人类基因组测序工作的完成,单核苷酸多态性(SNP)已成为遗传学研究的关键内容。近年来,我国在SNP研究领域已取得重大进展,各科研机构在研究过程中积累了大量有价值的科学数据。实现这些数据的充分共享,将大力推动我国在该领域的研究发展。 本文的研究目标是实现一个能够反映基因型与临床表型相互关系的SNP数据库,用于收集国内各科研机构递交的相关研究数据,实现不同来源数据的整合,使广大研究人员能够共享这些数据,以满足遗传学研究的需要。如何实现表型数据和SNP数据在数据库中的整合是本文研究的主要问题。 本文首先提出了SNP数据库的数据库模式。为了整合递交数据,本文采用SNP在基因组上的映射位置对SNP进行定义,解决了SNP的标准问题;同时采用国际通用的编码标准来表达表型数据涉及的生物医学概念。本文在数据安全方面,实现了细粒度的访问控制,在保护递交者知识产权的前提下,使数据得到充分共享。 然后本文实现了一个表型本体为表型数据的整合提供领域知识。它涵盖了表型领域的各种概念、术语及其相互关系,其原始知识取自生物医学领域的大型知识库UMLS,本文在关键概念之间构建了有意义的层次关系,弥补了UMLS在表型概念表达方面的不足。同时,本文提出了在数据库中实现本体查询的方法,通过一组存储函数来支持本体的SQL查询,使数据库应用可以不使用API而直接从本体获取知识。利用本体查询可以实现术语表达的复杂概念到数据库标准代码的转换。 在SNP数据的整合方面,本文首先介绍了基于BLAST序列比对算法的SNP聚类过程。然后针对BLAST算法在应用中面临的问题,本文提出了利用SNP的参考序列来寻找SNP基因组映射的方法。该方法通过BLAST搜索基因组数据库,并使用LIS(Longest Increasing Subsequence)算法分析BLAST结果来得到参考序列正确的基因组映射,可同时得到多个SNP的基因组映射,加快了处理速度。 本文成功地解决了SNP数据库的数据整合问题,对于其他生命科学数据库的建设具有参考和指导意义。而本文设计的表型本体经过扩展,可以在生物医学的更多领域得到应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号