基于可变网格划分的密度偏差抽样算法

盛开元; 钱雪忠; 吴秦

首页> 中文期刊>计算机应用 >基于可变网格划分的密度偏差抽样算法

基于可变网格划分的密度偏差抽样算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

As the most commonly used method of reducing large-scale datasets,simple random sampling usually causes the loss of some clusters when dealing with unevenly distributed dataset.A density biased sampling algorithm based on grid can solve these defects,but both the efficiency and effect of sampling can be affected by the granularity of grid division.To overcome the shortcoming,a density biased sampling algorithm based on variable grid division was proposed.Every dimension of original dataset was divided according to the corresponding distribution,and the structure of the constructed grid was matched with the distribution of original dataset.The experimental results show that density biased sampling based on variable grid division can achieve higher quality of sample dataset and uses less execution time of sampling compared with the density biased sampling algorithm based on fixed grid division.%简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失.基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响.为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间.实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高.

著录项

来源
《计算机应用》|2013年第9期|2419-2422|共4页
作者
盛开元; 钱雪忠; 吴秦;
展开▼
作者单位

江南大学物联网工程学院,江苏无锡 214122;

江南大学物联网工程学院,江苏无锡 214122;

江南大学物联网工程学院,江苏无锡 214122;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;算法理论;
关键词
密度偏差抽样; 可变网格划分; 数据挖掘; 大规模数据集; 聚类;
入库时间 2022-08-18 04:56:13

相似文献

中文文献
外文文献
专利

1. 一种基于可变网格划分的密度偏差抽样技术及其在聚类中的应用研究 [J] . 潘春燕 ,吴有富 ,李方 . 凯里学院学报 . 2017,第003期
2. 基于不均匀数据的密度偏差抽样改进算法 [J] . 吕丹 ,龙华 ,高杰 . 软件导刊 . 2018,第002期
3. 基于不均匀数据的密度偏差抽样改进算法 [J] . 吕丹 ,龙华 ,高杰 . 软件导刊 . 2018,第002期
4. 基于密度偏差抽样的聚类算法研究 [J] . 纪良浩 . 重庆邮电大学学报（自然科学版） . 2007,第006期
5. 一种基于密度偏差抽样的孤立点检测算法 [J] . 余建桥 ,葛继科 ,李娅 . 计算机科学 . 2004,第010期
6. 密度偏差抽样及其在海量数据挖掘中的应用 [C] . 张建锦 ,刘小霞 . 2006北京地区高校研究生学术交流会 . 2006
7. 基于大数据的密度偏差抽样算法及应用研究 [A] . 潘春燕 . 2017

基于可变网格划分的密度偏差抽样算法

摘要

著录项

相似文献

相关主题

期刊订阅