密度偏差抽样在海量数据挖掘中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

挖掘海量数据，从中发现有用的信息与知识是当前数据挖掘研究领域面临的重大挑战。到目前为止，海量数据挖掘的主要解决策略包括数据约简和数据降维等，其中，基于统计学中的抽样方法是数据约简方法之一。简单随机抽样方法虽然简单易行，但由于许多数据集含有噪声、非对称、不均匀分布，因此不能正确反映原始数据的总体特性。密度偏差抽样算法通过把数据集密度映射为数据点的抽样概率，调整其抽样概率来达到偏差抽样的目的。本文在 C.Palmer 的密度偏差抽样算法的基础上，提出了改进的基于网格的密度偏差抽样算法。该算法利用网格结构映射存储数据，经实验证明可以抽取得到高质量的样本，更好的保持了原始数据集的分布特征，并且具有良好的抗噪声能力，因此该算法在实现数据约简的过程中是可行的。本文针对密度偏差抽样在海量数据挖掘中的聚类和关联规则领域的应用进行了探讨。前者是在密度偏差抽样的样本上进行聚类分析；后者将密度偏差抽样算法与经典 Apriori 算法融合，提出了基于密度偏差抽样的加权挖掘频繁项集的算法。在聚类实验过程中，首先通过基于网格的密度偏差抽样和简单随机抽样方法获得样本，然后在各自的样本上进行聚类的正确识别对比测试，实验证明本文的方法在较低抽样概率的情况下获得了较高的正确识别率。同时，在经实验测试后也验证了基于密度偏差抽样的加权挖掘频繁项集的算法在关联规则挖掘中的高效性。

著录项

作者
张建锦;
展开▼
作者单位

重庆邮电大学;

展开▼
授予单位重庆邮电大学;
学科计算机应用技术
授予学位硕士
导师姓名吴渝;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
数据挖掘; 密度偏差抽样; 关联规则; 聚类分析;

相似文献

中文文献
外文文献
专利

1. 一种基于可变网格划分的密度偏差抽样技术及其在聚类中的应用研究 [J] . 潘春燕 ,吴有富 ,李方 . 凯里学院学报 . 2017,第003期
2. 密度偏差抽样技术在聚类算法中的应用研究 [J] . 余波 ,朱东华 ,刘嵩 . 计算机科学 . 2009,第002期
3. 基于不均匀数据的密度偏差抽样改进算法 [J] . 吕丹 ,龙华 ,高杰 . 软件导刊 . 2018,第002期
4. 基于不均匀数据的密度偏差抽样改进算法 [J] . 吕丹 ,龙华 ,高杰 . 软件导刊 . 2018,第002期
5. 基于可变网格划分的密度偏差抽样算法 [J] . 盛开元 ,钱雪忠 ,吴秦 . 计算机应用 . 2013,第009期
6. 密度偏差抽样及其在海量数据挖掘中的应用 [C] . 张建锦 ,刘小霞 . 2006北京地区高校研究生学术交流会 . 2006
7. 基于大数据的密度偏差抽样算法及应用研究 [A] . 潘春燕 . 2017

密度偏差抽样在海量数据挖掘中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅