首页> 中文学位 >桉树基因测序数据SNP的模式识别方法的研究
【6h】

桉树基因测序数据SNP的模式识别方法的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1前言

1.1研究背景及意义

1.2 国内外研究现状

1.3 论文的主要研究内容和技术路线

2 桉树碱基数据的处理

2.1 碱基数据的获取

2.2 测序数据噪声的滤除

2.3 桉树测序数据的合成

2.4碱基数据特征提取

2.5 测试数据的生成

2.6 本章小结

3 SNP位点检测算法分析

3.1 基于BP神经网络的SNP位点检测

3.2 基于支持向量机的SNP位点检测

3.3 基于稀疏识别的SNP位点检测

3.4 各识别算法对比实验结果

3.5 本章小结

4 InDel检测

4.1基于无参考序列InDel检测

4.2 本章小结

5 单个测序文件中SNP和InDel自动检测系统的构建

5.1 检测系统的软件实现

5.2 系统的界面设计

5.3 本章小结

6 各软件试验对比

6.1测序数据的说明及来源

6.2 SNP位点检测与试验分析

6.3 InDel片段检测与试验分析

6.4 本章小结

7 结论与讨论

7.1主要工作总结

7.2 结论

7.3 讨论

致谢

参考文献

附录A 攻读学位期间发表的学术论文

附录B 部分程序代码

展开▼

摘要

随着技术的发展,新一代测序技术已经兴起并广泛应用,但传统的PCR片段测序仍非常重要。单核苷酸多态性(singlenucleotidespolymorphism,SNP)和插入/缺失(insert/deletion,InDel)是新一代DNA分子标记技术,需要一种高效的算法进行验证分析。由于测序厂家提供的软件只能识别各序列位置的最高峰所对应的碱基,对于双峰位置的识别需要第三方软件。而第三方软件均需参考序列,具有局限性,不能有效用于一些序列的分析,并且操作上较为繁琐。因此,本研究运用模式识别方法构建了SNP和InDel自动检测系统,主要内容如下:
  1.通过传统测序文件格式提取出序列信号,分别运用Haar小波,Symlets小波,Coiflets小波以及ReverseBoir小波滤除杂峰信号,并对比了4种小波函数的滤波结果,为双峰碱基的可靠判读提供了高质量的序列。将去噪后的4种碱基数据融合成完整的桉树基因数据,并提取出波峰距离、高度比值以及起伏度比值作为SNP位点检测的特征参数。之后运用模糊推理器生成可供SNP位点分类器训练的测试数据。
  2.研究了SNP及InDel的检测算法。根据获取的训练数据,分别应用基于LM算法的BP神经网络、支持向量机以及稀疏识别分类器进行SNP位点检测,并对三种模式识别算法进行对比分析。运用了PrimeIndel算法及错位对应的数学算法进行InDel检测分析。
  3.采用LabWindows/CVI9.0以及MATLAB2012作为的桉树测序数据系统开发平台,并根据LabWindows/CVI以及MATLAB的混合编程原理,搭建了基于模式识别的二倍体个体内SNP及InDel多态性检测系统。系统集成了数据显示、人工调整以及数据存储等模块。
  4.本文采用桉树基因识别系统DiSNPIndel分别进行了SNP位点与InDel片段检测的准确性验证,并与现存常用软件进行了对比分析。实验证明,DiSNPIndel的SNP识别率为88.5%,高于novoSNP的1.5%及Mutation Sruveyor的17%。并且,DiSNPIndel检测InDel片段的识别率为53.1%,高于PrimeIndel(6.1%)、novoSNP(7.4%)以及Mutation Sruveyor(6.8%)。证实DiSNPIndel在检测无参考序列二倍体个体内SNP位点及InDel片段时,准确率优于其他软件。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号