首页> 中文学位 >癌症易感基因数据库构建及其拷贝数变异分析
【6h】

癌症易感基因数据库构建及其拷贝数变异分析

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题的研究背景及意义

1.1.1 生物信息学概述

1.1.2 癌症易感基因概念

1.1.3 癌症易感基因的识别

1.1.4 癌症易感基因的遗传机制

1.1.5 癌症易感基因的功能

1.1.6 癌症易感基因的表型

1.1.7 癌症易感基因的风险性

1.2 研究现状

1.3 本文章节安排及创新点

第二章 癌症易感基因数据库构建及其功能分析

2.1 引言

2.2 癌症易感基因数据收集与整合

2.3 癌症易感基因数据库构建

2.4 癌症易感基因数据分析

2.4.1 癌症易感基因功能注释

2.4.2 癌症易感基因数据统计

2.4.3 癌症易感基因功能富集分析

2.4.4 癌症易感基因范癌分析

2.4.5 癌症易感基因网络分析

2.5 癌症易感基因数据库更新

2.6 本章小结

第三章 癌症易感基因的拷贝数变异研究

3.1 引言

3.2 拷贝数缺失的癌症易感基因获取及富集分析

3.2.1 拷贝数缺失的易感基因的获取

3.2.2 拷贝数缺失的易感基因的富集分析

3.3 拷贝数缺失的易感基因表达分析

3.3.1 拷贝数缺失且表达下调的基因的获取

3.3.2 拷贝数缺失且表达下调的基因范癌分析

3.3.3 拷贝数缺失且表达下调的基因网络分析

3.4 本章小结

第四章 总结与展望

4.1 全文工作总结

4.2 后续工作展望

参考文献

附录

致谢

攻读学位期间发表的学术论文

展开▼

摘要

基因突变按照其发生的部位可以分为体细胞突变和生殖细胞突变。体细胞突变只能在体细胞中传递,不能直接遗传下代,而生殖细胞突变则会代代传递下去。携带生殖细胞突变或表观遗传突变,引起癌症发生风险增加的基因,我们称之为癌症易感基因(cancer predisposition gene,CPG)。对癌症易感基因的鉴定、识别及相关生物学机制的研究可以帮助实现癌症的早预防、早诊断和早治疗,同时也有助于癌症病因寻找、发病机制研究和相关药物研发。大部分癌症易感基因与肿瘤抑制基因的作用机制类似,因基因功能丧失,而导致癌症发生。少数易感基因则与癌基因类似,是通过突变获得新的功能,进而使细胞周期紊乱而引发癌症。
  在过去的几十年里,随着高通量技术,特别是全基因组突变分析(包括外显子测序和全基因组测序等)的不断发展和逐步被应用,越来越多的癌症易感基因被发现。然而,这些基因及其功能等信息是分散的,目前还没有一个关于癌症易感基因的系统性数据库。我们通过收集并整理不同来源的癌症易感基因,构建了一个较全面的癌症易感基因数据库资源。为了进一步对癌症易感基因的拷贝数变异进行分析,我们还在范癌(pan-cancer)样本中研究了癌症易感基因拷贝数变异与基因表达之间的关系。全文的主要工作概括如下:
  1.构建癌症易感基因数据库。为了提供一个完整的用于探索癌症易感基因及其分子机制的资源,我们首先从五个来源收集了数据,分别是Rahman's data,PubMed,GeneReview,在线人类孟德尔遗传基因数据库和GeneRIF(GeneReference Into Function)。接着,通过文献阅读和分析,总共收集到827个人癌症易感基因(包括724个蛋白质编码基因,23个非编码基因和80个目前NCBI中没有给出具体信息的基因),637个大鼠和658个小鼠的人同源癌症易感基因。为了更好的理解这些癌症易感基因,我们利用文本挖掘的方法系统地收集了每个基因的基本信息、基因表达、甲基化位点、翻译后修饰、生殖细胞突变、相互作用、通路信息和药物信息等8个方面的注释信息。在此基础上,我们构建了癌症易感基因数据库网站dbCPG(http://bioinfo.ahu.edu.cn:8080/dbCPG/index.jsp)。用户可以非常方便的在该数据库网站上进行数据查询、浏览、上传与下载等操作。最后,为了评估724个编码蛋白质的人癌症易感基因功能,我们用KOBAS和DAVID两个在线工具进行富集分析,并用GenRev中的Klein-Ravi算法进行网络分析。作为第一个癌症易感基因数据库,dbCPG不仅是对已有研究结果的归纳整理,也为癌症研究人员提供了一个更加容易获取数据资源的平台。
  2.癌症易感基因的拷贝数变异研究。根据“two-hit”假说,癌症发生是生殖细胞和体细胞突变不断积累的结果。因此,在癌症生物学中,综合分析生殖细胞突变和体细胞突变对鉴定基因和相关分子通路至关重要。已有研究表明癌症的易感性可能与癌症易感基因的拷贝数变异有关。为了系统地分析癌症易感基因的拷贝数变异,我们在范癌样本中研究易感基因体细胞拷贝数变异与表达改变的关系。首先,基于癌症基因组图谱数据库(TCGA)中的拷贝数变异数据,发现dbCPG数据库中有729个易感基因有明确地拷贝数变异信息。对这些基因进一步分析发现有128个易感基因的拷贝数缺失(CNL)样本数是拷贝数增加(CNG)样本数的两倍。针对这128个基因,我们将TCGA中的表达数据与拷贝数缺失数据结合分析,得到49个拷贝数缺失且表达降低的癌症易感基因。统计发现其中有5个基因在至少50个肿瘤样本中拷贝数缺失和表达下调变化具有一致性,分别是MTAP(216个样本),PTEN(143个),MCPH1(86个),SMAD4(63个)和MINPP1(51个)。这说明在癌症发生过程中拷贝数缺失可能是导致基因表达发生改变的驱动力。对这49个基因进行网络分析,我们发现在提取到的子网络中各基因之间联系较为紧密,进而说明这些基因在癌症发生过程中可能有相似的生物学机制。这是第一次在范癌样本中研究癌症易感基因拷贝数缺失与基因表达下调的关系,尽管有一些不足,但以上结果将会帮助人们更加直观理解易感基因在癌症发生过程中的生物学功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号