首页> 中文学位 >关联规则挖掘在病毒基因数据分析中的应用
【6h】

关联规则挖掘在病毒基因数据分析中的应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景

1.2 课题研究目的及内容

1.3 课题任务及安排

第二章 病毒基因序列二级数据库的构建

2.1 生物信息数据库概述

2.2 本地二级数据库构建框架

2.3 核酸数据库设计过程

2.4 基于 XML 格式构建基因病毒数据库

2.5 本章小结

第三章 数据挖掘技术以及 Apriori 算法

3.1 数据挖掘

3.2 生物信息数据挖掘的方法、对象及任务

3.3 关联规则概述

3.4 Apriori 算法

4.5 本章小结

第四章 改进的 Apriori 算法对病毒基因序列频繁项目集的挖掘

4.1 病毒基因序列

4.2 改进的 Apriori 算法

4.3 频繁项目集挖掘过程及结果

4.4 本章小结

第五章 总结与展望

5.1 主要工作总结

5.2 今后的工作

参考文献

致谢

附录:攻读硕士学位期间的学术论文

展开▼

摘要

2013年2月在浙江省、上海市、江苏省、安徽省爆发的 H7N9甲型流感病毒在全国范围的广泛传播,引起了人们的广泛关注。所谓甲型流感病毒(Influenza A virus),也称为 A型流感病毒,该病毒主要存在于动物中,一旦变异会造成世界流感大流行;而去年这一 H7N9新型病毒的流行,也使得世界卫生部将甲型流感病毒的研究提上议程。随着基因组计划的完成,我们所测得的甲型流感病毒感染者的序列数据越来越多,如何运用一种有效的数据分析工具来分析和处理这些大量和复杂的序列基因数据,已经成为甲型流感病毒乃至现代生物时代的一个重大挑战。在此情况下,将数据挖掘技术与生物信息学进行结合,便是一个最适合,也最有效的办法。
  根据对以往资料、数据的分析和研究,本文以甲型流感病毒 H1N1,H3N2为例,进行基因序列二级专用数据库的构建,在对关系型数据库设计原则、概念设计、逻辑设计研究分析的基础上,提出相应的 E-R图及关系表设计。该甲型流感病毒的数据主要来源于 Genbank数据库中的基因序列,通过该数据库自带的检索工具Entrz来搜索我们所需要的序列数据,将检索得到的数据保存为 XML格式,其目的是方便异构数据库数据的整合,在这里我们使用模板驱动映射,实现 SQL数据与 XML文档数据的映射。在以上工作的基础上,最终构成以 genbank格式存储序列的本地二级基因病毒序列数据库。
  本文另一个重点研究的问题就是数据挖掘的关联规则对病毒基因数据频繁序列的挖掘。本文针对 Apriori算法的致命缺点,提出基于生物序列频繁项目集的改进算法。该算法模型主要思想是使用多支持度的度量方法,涉及局部支持度、分布支持度和总体支持度,用这三种支持度分别衡量一个相应的序列模式在一个指定的序列中出现的频繁度,以及在一个指定的序列集的序列数中出现的频繁程度,和在整个序列集的序列模式中出现的频繁度。这样的序列频繁模式挖掘方法,能更好地适应序列保守序列和重复序列的挖掘,相比 Apriori算法,其具有更强程度的专业型和特色性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号