首页> 中文学位 >基于ME和k-mer的长非编码RNA和mRNA识别研究
【6h】

基于ME和k-mer的长非编码RNA和mRNA识别研究

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

符号对照表

缩略语对照表

目录

第一章 绪论

1.1研究背景与意义

1.2国内外的研究现状

1.3本文的主要工作

1.4本文的结构安排

第二章 长非编码RNA与mRNA识别的相关基础

2.1长非编码RNA和mRNA数据

2.2长非编码RNA和mRNA的生物检测方法

2.3长非编码RNA与mRNA识别方法

2.4支持向量机介绍

2.5本章小结

第三章 基于ME和k-mer的长非编码RNA与mRNA识别方法

3.1基于k-mer的识别算法简介

3.2 最大熵方法简介

3.3基于ME和k-mer的长非编码RNA和mRNA识别算法

3.4本章小结

第四章 实验结果与分析

4.1实验平台

4.2实验数据

4.3基于ME和k-mer的识别算法的实验分析

4.4本章小结

第五章 总结与展望

参考文献

致谢

作者简介

展开▼

摘要

随着高通量测序技术的快速发展,在许多物种中,包括人类、小鼠等常见的哺乳动物,发现了大量的转录本序列。这些转录本序列中,长非编码RNA含量相当丰富,约占RNA的4-9%,而mRNA只约占1-2%,并且研究发现有些长非编码RNA参与了许多重要的生命过程,如细胞分化、免疫反应、信号通路以及新陈代谢调控途径等。大量的研究还表明长非编码RNA还与人类疾病有密切的关系。由此,探索和研究长非编码RNA的功能,以及与人类疾病的相关性已经成为当前的一个研究热点。目前仍有大量的长非编码RNA没有被鉴定出来,如何区分长非编码RNA和mRNA成为当下一个迫切期待解决的问题之一。
  为了构建长非编码RNA和mRNA识别模型,首先必须克服如下两个问题:首先,被高通量测序技术所构建出的转录本序列数目巨大且有很多物种并没有完整的基因组注释信息,特别是长非编码RNA的注释信息更少;其次,测序过程中的不可避免的错误,有可能造成测序序列的失真。这些问题都可能给长非编码RNA和mRNA的识别带来挑战。
  为了解决上述问题,本文提出了一种基于最大熵和k-mer的识别长非编码RNA和mRNA方法。对样本数据进行特征提取,提取出多个k-mers特征,通过基于最大熵的特征选择方法选取部分转录本序列的k-mer特征,然后利用libSVM工具建立长非编码RNA和mRNA的识别模型。使用5-fold交叉验证对方法在训练集上进行了验证,得到94.96%的识别精度。在跨物种的实验表明本文的算法具有一定的适应性。通过模拟indel测序错误序列和真实的测序序列,检测该算法的鲁棒性,并与其他的识别算法进行了对比,并获得了很好的效果。另外在真实的测序序列实验中,显示本文算法具有较好的灵敏性和特异性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号