首页> 中文学位 >密度偏差抽样在海量数据挖掘中的应用研究
【6h】

密度偏差抽样在海量数据挖掘中的应用研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2关联规则挖掘的研究现状

1.2.1基本概念

1.2.2关联规则挖掘算法研究现状

1.3聚类挖掘的研究现状

1.3.1基本概念

1.3.2聚类算法的研究现状

1.4统计学中的抽样调查基本概念及术语

1.5数据挖掘中的抽样技术

1.5.1抽样在数据挖掘中的作用

1.5.2数据挖掘中的抽样技术与统计学中的抽样技术的比较

1.5.3抽样在数据挖掘中应用的研究现状

1.5.4抽样在数据挖掘中需要考虑的问题

1.6论文研究背景及工作内容

1.7论文的组织与结构

第二章密度偏差抽样简介

2.1随机抽样和偏差抽样对比分析

2.2密度偏差抽样理论

2.3基于核函数的密度估计

2.4小结

第三章基于网格的密度偏差抽样算法

3.1引言

3.2网格的概念

3.3基于网格的密度偏差抽样算法

3.3.1 G_DBS的实现

3.3.2基于网格的密度偏差抽样算法

3.4实验测试

3.4.1样本质量对比分析

3.4.2 G_DBS与RS、DBS算法执行时间分析

3.5小结

第四章G_DBS在海量数据挖掘中的应用

4.1密度偏差抽样在关联规则中的应用

4.1.1基于密度偏差抽样的加权挖掘频繁项集的算法

4.1.2 DBS-WR算法描述

4.2 DBS-WR实验测试

4.2.1 DBS-WR算法的效率测试

4.2.2 DBS-WR算法的正确率测试

4.3密度偏差抽样在聚类中的应用

4.4基于G_DBS的聚类挖掘实验测试

4.5小结

第五章结论

致谢

攻读硕士学位期间从事的主要科研工作及发表的论文

参考文献

展开▼

摘要

挖掘海量数据,从中发现有用的信息与知识是当前数据挖掘研究领域面临的重大挑战。到目前为止,海量数据挖掘的主要解决策略包括数据约简和数据降维等,其中,基于统计学中的抽样方法是数据约简方法之一。简单随机抽样方法虽然简单易行,但由于许多数据集含有噪声、非对称、不均匀分布,因此不能正确反映原始数据的总体特性。密度偏差抽样算法通过把数据集密度映射为数据点的抽样概率,调整其抽样概率来达到偏差抽样的目的。 本文在 C.Palmer 的密度偏差抽样算法的基础上,提出了改进的基于网格的密度偏差抽样算法。该算法利用网格结构映射存储数据,经实验证明可以抽取得到高质量的样本,更好的保持了原始数据集的分布特征,并且具有良好的抗噪声能力,因此该算法在实现数据约简的过程中是可行的。 本文针对密度偏差抽样在海量数据挖掘中的聚类和关联规则领域的应用进行了探讨。前者是在密度偏差抽样的样本上进行聚类分析;后者将密度偏差抽样算法与经典 Apriori 算法融合,提出了基于密度偏差抽样的加权挖掘频繁项集的算法。在聚类实验过程中,首先通过基于网格的密度偏差抽样和简单随机抽样方法获得样本,然后在各自的样本上进行聚类的正确识别对比测试,实验证明本文的方法在较低抽样概率的情况下获得了较高的正确识别率。同时,在经实验测试后也验证了基于密度偏差抽样的加权挖掘频繁项集的算法在关联规则挖掘中的高效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号