DNA序列中基于后缀树的重复体识别算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中，识别这些重复体对基因组解码起到了很重要的作用。通过考虑重复体序列的长度和发生频率，提出了一种基于后缀树的识别初级重复体的RepSeeker算法。算法采用最低限制频率，并通过重叠性合并，最大程度地扩展了重复体的长度。算法以DNA序列所构造的后缀树作为输入，并以基于后缀树的查询算法作为手段，最终生成输入的DNA序列的初级重复体分类表。为了进一步地提高RepSeeker算法的效率，我们对后缀树构造算法进行了适应性改进。在构造后缀树时，给叶子节点编号，并在分支节点加入了叶子信息数组LL（Leaf List）。在此基础上，改进了基于后缀树的查询算法，从而避免了RepSeeker算法进行高频度的子树遍历。对Ukkonen后缀树构造算法的改进所带来的问题是对空间要求加大，而构造后缀树算法的时间复杂度几乎没有受到影响。测试中使用了NCBI中的几条典型DNA序列作为测试对象，并与改进Ukkonen前的重复体识别算法做了比较分析。结果表明RepSeeker在没有损失精度的情况下很大程度地缩短了运行时间。

著录项

作者
王小武;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名霍红卫;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 Q523.8;TP311.13;
关键词
DNA序列; 后缀树; 重复体识别; 生物信息学; 基因组序列; RepSeeker算法;

相似文献

中文文献
外文文献
专利

1. DNA序列中基于适应性后缀树的重复体识别算法 [J] . 霍红卫 ,王小武 . 计算机学报 . 2010,第004期
2. 基于后缀树的中文新闻重复网页识别算法 [J] . 钱爱兵 ,江岚 . 现代图书情报技术 . 2008,第003期
3. 人类重复DNA序列多态性：在21三体不分离遗传学研究中的应用 [J] . 连小华 . 国外医学：遗传学分册 . 1994,第004期
4. 基于后缀树的重复文档检测 [J] . 冯金波 . 软件导刊 . 2015,第005期
5. 基于后缀树的重复文档检测 [J] . 冯金波 . 软件导刊 . 2015,第005期
6. 基于PFD过滤器查找DNA序列中相似性重复片段 [C] . 吴青泉 ,东北大学信息科学与工程学院 ,王国仁 . 第二十四届中国数据库学术会议 . 2007
7. 基于后缀树的DNA序列进化树构建研究 [A] . 张欣 . 2019

DNA序列中基于后缀树的重复体识别算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅