首页> 中文学位 >家养动物长非编码RNA鉴定与分析平台构建
【6h】

家养动物长非编码RNA鉴定与分析平台构建

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

缩略语对照表

目录

第一章 绪论

1.1长非编码RNA

1.2研究背景与意义

1.3国内外研究现状

1.5主要内容及章节安排

第二章 基于k-mer方案的长非编码RNA和mRNA判定方法

2.1概述

2.2方法

2.3结果

2.5讨论

2.6小结

第三章家养动物长非编码RNA鉴定和数据库平台构建

3.1概述

3.2方法

3.3结果

3.4可用性和后续工作

3.5讨论

3.6小结

第四章识别家养动物RNA交互关系和构建分析平台

4.1概述

4.2 RNA交互关系的识别

4.3 SNP对RNA交互关系的影响

4.4 miRBond数据存储与分析平台

4.5小结

第五章总结与展望

5.1总结

5.2后续工作与展望

附录A使用PLEKModelling.py创建新的分类器

参考文献

致谢

作者简介

展开▼

摘要

在分子生物学领域,科学家们对非编码RNA的研究正如火如荼的进行着,非编码中的microRNA(miRNA)和长非编码 RNA(lncRNA)是研究的重中之重。microRNA的研究日趋成熟,而对数量众多并且有重要生物学功能的lncRNA的研究才拉开序幕。家养动物是科学家们用来了解表型多样性与遗传多样性的不可替代的生物资源,也是生物医学研究领域的理想模型。鉴定家养动物 lncRNA是研究家养动物 lncRNA的必由之路,是一项十分重要的基础性前沿性工作。对鉴定出来的lncRNA还可以进一步做分子机制研究和功能研究。这些研究都离不开相关的生物信息学算法、软件工具和分析平台。因此,我们开展了相关问题的研究,具体包括以下几个方面:
  (1)首次提出了基于k-mer方案的判别转录本是 mRNA还是 lncRNA的方法,该方法可以准确、快速、鲁棒地区分转录本是mRNA还是lncRNA。
  从原始的转录组生物学实验数据中鉴定 lncRNA并非易事,要联合使用多种数据和多个工具、经过多步的计算和分析才能确定下来:比如转录本组装、转录本质量过滤、转录本编码能力判定、转录本长度过滤、转录本基因结构特征过滤等。其中有一步十分关键,那就是转录本编码能力判定(即区分转录本是 mRNA还是lncRNA)。随着高通量测序技术的发展,越来越多的de novo RNA-seq数据随之产生,这些数据中包含lncRNA和mRNA。一般情况下,使用de novo组装转录组的物种没有基因组数据,也没有基因注释数据,因此需要一个不必基于已有的基因注释的工具来区分转录本是mRNA还是lncRNA。
  为此,我们提出了基于 k-mer方案判别转录本是 mRNA还是 lncRNA的方法,并基于此方法研制了一款判别转录本编码能力的工具,取名为 PLEK(predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme)。在缺少基因组序列和基因注释的情况下,该工具基于改进的k-mer方案(对 k-mer加权处理、滑动窗步长为1、k取值为5)和支持向量机(support vector machine)算法来区分 lncRNA和 mRNA。我们在准确性、鲁棒性和计算复杂度三个方面测试了该方法。
  ①准确性:在人 RefSeq mRNA和 GENCODE长非编码 RNA上做10倍交叉验证,该方法能达到95.6%的准确率。跨物种实验中,我们用人类数据作为训练数据创建了分类模型,用该模型预测其他脊椎动物的转录本,在大部分脊椎动物测试数据集上获得超过90%的准确率。
  ②鲁棒性:在仿真数据集和真实的de novo组装转录组数据集(PacBio和454测序)上表现良好,这些数据集中的indel测序错误率相对较高,也就是说该方法鲁棒性好。
  ③计算复杂度:与其它方法相比,我们的方法比最近新出的CNCI(Coding-Non-Coding Index)要快八倍,比最流行的广泛使用的CPC(Coding Potential Calculator)要快244倍。
  相比其他方法而言,我们的方法(PLEK)尤其适用于 PacBio和454测序数据以及大规模的转录组数据中区分 mRNA和 lncRNA。PLEK的另一个突出优势是,用户可以用PLEK自建预测模型来预测任意高等生物的转录组中的mRNA和lncRNA。PLEK因其准确率高、鲁棒性好、快速、普适性强可为转录组数据的分析提供巨大的帮助,有重要的实际应用价值。
  (2)鉴定了成千上万的家养动物 lncRNA基因并构建了首个功能丰富的家养动物lncRNA数据库平台。
  家养动物和lncRNA都十分重要,但目前可用的家养动物lncRNA基因十分有限(仅449个)。我们联合使用了大量的RNA-seq和 UniGene数据集(156个样本、21种组织、13个文献的数据),并设计了一套完备的鉴定 lncRNA的流程,经过一系列的复杂计算和分析,最终鉴定出12103个猪基因间区的lncRNA转录本,8923个鸡基因间区的lncRNA转录本和8250个牛基因间区的lncRNA转录本。
  为了方便研究人员对这些家养动物 lncRNA开展进一步的研究,我们设计了首个家养动物lncRNA数据库,取名ALDB(domestic-animal lncRNA database)。该数据库是首个聚焦于家养动物 lncRNA研究的综合性数据库平台。我们把鉴定出来的lncRNA数据都存储在 ALDB中并做了注释。ALDB还提供了全基因组表达谱和QTL(quantitative trait loci)。并且,ALDB提供了有用的接口和应用,比如:BLAST(Basic Local Alignment Search Tool),GBrowse(Generic Genome Browser),以及灵活的搜索功能。
  我们鉴定了大量家养动物 lncRNA基因,为科学家们开展家养动物的生物多样性、人工选择、育种、发育、喂养、疾病等方面的研究提供了大量重要的候选基因。ALDB是研究家养动物lncRNA的一个重要平台。研究人员可以查看和下载lncRNA数据、把ALDB中的数据和其他数据做比对分析、研究lncRNA的潜在功能。
  (3)首次全基因组范围鉴别家养动物miRNA-mRNA和miRNA-lncRNA交互作用,并首次全基因组范围分析 SNP对交互作用的影响,建立了首个 RNA交互关系数据存储和分析平台。
  lncRNA发挥作用的机制之一是与其它 RNA分子进行碱基互补靶定。以往研究表明家养动物表型受到 miRNA-mRNA交互作用的影响,但主要集中在单个或几个miRNA-mRNA交互作用。在本研究中,我们设计了一套流程,并借助于已有工具和我们自己开发的工具,在全基因组范围内鉴别出54万个家养动物 miRNA-mRNA和miRNA-lncRNA交互作用。
  在动物进化过程中,家养动物受到很强的有目标性的人工选择。因此,我们找出了位于miRNA中、以及位于miRNA绑定位点的SNP,并随机选择了6个SNP分析其对交互关系的影响。我们发现,SNP的存在可以增强或削弱 miRNA-mRNA和miRNA-lncRNA的交互关系。为研究lncRNA和SNP的功能奠定了基础。
  此外,我们开发了首个 RNA-RNA交互关系数据存储和分析平台 miRBond,用于存储、可视化、分析和下载这些数据。该平台可以用于分析 miRNA、mRNA、lncRNA和 SNP的功能。我们的结果为进一步实验验证家养动物 miRNA-mRNA和miRNA-lncRNA交互作用奠定了基础,也为研究lncRNA的功能提供了分析平台。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号