首页> 中文学位 >基因表达数据的频繁闭合项集挖掘算法研究
【6h】

基因表达数据的频繁闭合项集挖掘算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1.1 研究背景和意义

§1.2 国内外研究现状

§1.3 论文组织结构和研究内容

第二章 频繁闭合项集挖掘

§2.1 数据挖掘概述

§2.2 关联规则挖掘

§2.3 频繁闭合项集挖掘概述

§2.4 基于频繁模式树的FP-growth算法

§2.5 本章小结

第三章 基因表达数据挖掘技术

§3.1 基因表达数据

§3.2 基因表达数据频繁闭合项集挖掘算法

§3.3 本章小结

第四章 基因表达数据中自顶向下频繁闭合项集挖掘

§4.1 引言

§4.2 相关知识

§4.3 TP+-tree结构与后缀类

§4.4 TTP+close算法

§4.5 实验分析

§4.6 本章小结

第五章 基因表达数据中Top-k频繁闭合项集挖掘

§5.1 引言

§5.2 Top-k频繁闭合项集相关概念

§5.3 自顶向下宽度优先搜索策略和TBtop算法

§5.4 实验评估

§5.5 本章小结

第六章 结论与展望

参考文献

致谢

作者在攻读硕士期间主要研究成果

展开▼

摘要

基因表达数据蕴含丰富的生物信息,但由于其高维且数据量大的特点,生物信息的挖掘成为极具挑战性的课题。关联分析由于形式简单且结果易于理解,已逐渐成为基因表达数据重要的分析方法之一。频繁闭合项集挖掘是关联分析中的重点和难点之一。
  本文对基因表达数据中频繁闭合项集挖掘算法做了全面深入的研究。针对当前算法中存在的一些不足提出改进算法。针对目前基因表达数据的频繁闭合项集挖掘均需先设定最小支持度,提出挖掘基因表达数据中 top-k频繁闭合项集问题,并设计了相关算法。本文主要研究工作如下:
  (1)对现有频繁项集和频繁闭合项集挖掘算法进行深入剖析。从已有算法使用的策略和数据结构着手分析算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。
  (2)采用行枚举空间搜索时,已有自底向上策略并未有效利用最小支持度阈值对搜索空间进行修剪,导致算法的时空性能较差。基于自顶向下策略的频繁闭合项集挖掘算法TP+close较好地解决了此问题。然而,TP+close算法在对项集进行闭合性检测时,要对已输出的频繁闭合项集进行扫描,影响了算法性能。通过对TP+close算法和数据结构 TP+-tree深入分析,提出改进的数据结构 TTP+tree和基于该结构的改进算法 TTP+close。算法 TTP+close引入了一种新的闭合性检测方法,即基于痕迹的闭合性检测方法,避免对已输出的频繁闭合项集扫描来判别将输出项集的闭合性。
  (3)已有大多数挖掘基因表达数据的频繁闭合项集需先设定最小支持度,但在实际应用中确定合适的最小支持度并不容易。本文提出在基因表达数据中挖掘 top-k频繁闭合项集问题,并设计了挖掘算法TBtop。算法使用自顶向下宽度优先搜索策略挖掘项集长度不小于给定值min_l的top-k频繁闭合项集,并对搜索空间进行了有效修剪。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号