数据约简
数据约简的相关文献在2000年到2022年内共计119篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学
等领域,其中期刊论文95篇、会议论文9篇、专利文献544771篇;相关期刊70种,包括吉林大学学报(理学版)、科技广场、现代电子技术等;
相关会议9种,包括第29届中国控制会议、第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC'2007)、第16届全国计算机新科技与教育研讨会等;数据约简的相关文献由319位作者贡献,包括刘清、邓少波、丁家峰等。
数据约简—发文量
专利文献>
论文:544771篇
占比:99.98%
总计:544875篇
数据约简
-研究学者
- 刘清
- 邓少波
- 丁家峰
- 尹林子
- 李乐
- 李靖
- 李龙澍
- 许雪梅
- 黎敏
- 关素洁
- 赵明
- 陈衡
- 丁云正
- 万芳
- 严剑峰
- 于之虹
- 冯诚
- 刘小霞
- 史东宇
- 吴文宝
- 吴新玲
- 唐涛
- 张军
- 张建锦
- 张斌
- 张瀚铎
- 张爽
- 戴红阳
- 朱六兵
- 李伟
- 杨斌
- 杨涛
- 杨超平
- 洪泉根
- 熊敏
- 王剑
- 田蓓
- 程攀
- 胡祎
- 蒋昭辉
- 蒋晓平
- 蒋朝辉
- 蔡伯根
- 那俊
- 邱健
- 郭肇禄
- 马军
- 马天东
- 高峰
- 鲁广明
-
-
陈景年
-
-
摘要:
支持向量机因具有卓越的分类效果和坚实的理论基础而成为了近年来模式识别、机器学习以及数据挖掘等领域中最重要的分类方法之一。然而,其训练时间会随样本增多而明显增长,并且在处理多分类问题时模型训练会更加复杂。为解决上述问题,给出了一种适于多分类问题的训练数据快速约简方法MOIS。该方法以聚类中心为参照点,在删除掉冗余训练样本的同时,选择起决定作用的边界样本来大幅度约简训练数据,并消减类别间的分布不均衡问题。实验结果表明,MOIS在保持甚至提高支持向量机分类效果的同时,能大幅提高训练效率。例如,在Optdigit数据集上,利用所提方法使分类准确率由98.94%提高到99.05%的同时,训练时间缩短到原来的15%;又如,在HCL2000前100类构成的数据集上,在准确率略有提高的情况下(由99.29%提高到99.30%),训练时间更是大幅缩短到不足原来的6%。另外,MOIS本身具有很高的运行效率。
-
-
张幸幸;
朱振峰;
赵亚威;
赵耀
-
-
摘要:
随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值的信息提供了充分的空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用;接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中,前者主要涉及无监督、半监督和全监督方式,后者包括基于相似度、行列式点过程、数据重构和低秩逼近这四大类原型学习方法;最后,对原型学习的未来发展方向进行了展望.
-
-
张孟
-
-
摘要:
针对农业无线传感网络(Wireless Sensor Networks,WSN)能源有限,而发送大量冗余数据造成节点能耗高的问题,本文提出一种基于节点相关性分析进行数据约简的方法。首先利用皮尔逊相关分析分别对传感节点内与相邻节点间数据进行相似度分析;其次,进行数据预测;最后,对皮尔逊相关系数进行改进,使算法能够适用于实际农业环境感知存在异常数据的情况。实验结果表明,该方法在数据约简精度几乎不受影响的前提下,约简率可达69%,适用于传感节点级数据约简。
-
-
张晓琴;
汪云飞;
胡春强
-
-
摘要:
提出一种基于改进极限学习机(Online sequence extreme learning machine,OSELM)的新能源电站数据采集与监控(Supervisory control and data acquisition,SCADA)系统攻击检测模型.首先使用ADASYN算法对数据样本中的异常数据和正常数据进行数量平衡,以满足真实电站SCADA系统环境中异常数据量少的特点.接着使用降噪自编码网络对平衡后的数据进行约简,消除无关或冗余特征以降低检测模型的训练时间.最后在AWID数据集上进行了大量对比实验,结果表明,所提的数据约简方法可有效地降低数据维度,降低了检测时间;与其他基于浅层学习算法的检测分类器相比,本文所提方法在检测准确度和误报率方面也体现出了更优性能.
-
-
-
覃凤婷;
杨有龙;
仇海全
-
-
摘要:
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD).根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值.通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性.
-
-
魏畅;
李光辉
-
-
摘要:
无线传感网络经常被部署于条件恶劣、无人值守的环境中,受到恶劣天气、软硬件故障、能量不足或者恶意攻击等因素的影响,传感器节点感知数据的缺失或错误难以避免.因此,传感器数据流的离群检测对于提高系统可用性至关重要.提出一种基于约简策略与自适应SVDD(Support Vector Data Description)的离群检测方法(RASVDD),该方法首先使用基于马氏距离标准的方法约简数据集,有效地减少了训练样本;然后利用基于数据分布密度准则和数据流时间相关性自适应更新决策模型.针对Intel Berkeley数据集及SensorScope System数据集的仿真实验表明,RASVDD的离群检测正确率TPR(True Positive Rate)平均达98%,误报率FPR(False Positive Rate)平均仅为1%,并且与传统的SVDD算法相比,RASVDD决策模型训练时间减少了20%以上.%Wireless sensor networks are often deployed in the harsh and unattended environment,and the sensor data loss or error usually happens for the sake of bad weather,hardware or software fault,energy dissipation or the ad-verse attack. Outlier detection of the sensor data streams is critical for improving the system's availability. In this pa-per,an outlier detection method( RASVDD) based on the data reduction and adaptive SVDD is proposed. RASVDD uses the Mahalanobis distance criterion to reduce the data set and the training samples,and then the data distribu-tion density criterion and the temporal correlation of data stream are applied to update the training model adaptively. The simulation results for the Intel Berkeley dataset and the SensorScope System dataset showed that,RASVDD had an average true positive rate of 98% and an average false positive rate of 1%,and reduced the model training time more than 20% compared to traditional SVDD.
-
-
刘威;
刘尚;
白润才;
周璇;
周定宁
-
-
摘要:
In this paper, we present a neural network classifier training method based on dynamic data reduction (DDR) to address long training times and the poor generalization ability of neural network classifiers.In our approach, we assigned each sample a weight value, which was then dynamically updated based on the classification error rate at each iteration of the training sample.Subsequently, the training sample was reduced based on the weight of the sample so as to increase the proportion of boundary samples in error-prone classification environments and to reduce the role of redundant kernel samples.Our numerical experiments show that our neural network training method not only substantially shortens the training time of the given networks, but also significantly enhances the classification and generalization abilities of the network.%针对神经网络分类器训练时间长、泛化能力差的问题,提出了一种基于动态数据约简的神经网络分类器训练方法(DDR).该训练方法在训练过程中赋给每个训练样本一个权重值作为样本的重要性度量,依据每次网络迭代训练样本的分类错误率动态更新每个训练样本的权重值,之后依据样本的权重值来约简训练样本,从而增加易错分类的边界样本比重,减少冗余核样本的作用.数值实验表明,基于权重的动态数据约简神经网络训练方法不仅大幅缩短了网络的训练时间,而且还能够显著提升网络的分类泛化能力.
-
-
庞帮艳;
张艳敏
-
-
摘要:
Traditional method exists high redundancy,large dimension,poor accuracy and so on in the process of public network intrusion data detection. In order to improve the real⁃time performance and effectiveness of public network security pro⁃tection,a public network detection method based on the improved rough set theory is put forward to detect and screen the data which has invasion risk,optimize the detecting accuracy based on rough set concept,and reduce the information loss. The MDLP operational criterion is adopted to complete the discretization processing of the data. The genetic algorithm is used to car⁃ry on the data reduction,derive data classification rules and identify the intrusion data. The simulation results show that the pro⁃posed intrusion data detection method is more effective in the aspects of intrusion detection rate and error rate in comparison with the traditional algorithm.%传统方法在对公共网络入侵数据检测时存在冗余度高、维数大、精确度差等问题。为了提高公共网络安全防护的实时性和有效性,提出一种基于优化粗糙集理论的公共网络检测方法。针对有入侵风险的数据进行检测和筛选,在粗糙集(RS)概念基础上对其精度进行优化,减少信息的丢失,运用MDLP运算准则完成对数据的离散化处理,使用遗传算法进行数据约简,导出数据分类规则并识别出入侵数据。仿真试验结果表明,所提出的入侵数据检测方法,在入侵检测率和误差率方面传统算法更为有效。
-
-
-
-
陈玉明;
徐健锋;
邱桃荣
- 《第四届中国Rough集与软计算学术研讨会》
| 2004年
-
摘要:
本文以Rough集发展的粒计算理论为基础建立了知识的率度概念,考虑到等价关系的空间拓扑结构而定义了率度幂图,并给出了在率度幂图中实现数据约简的两种算法.对算法的实现过程作了应用举例,得到和使用分明矩阵法数据约简相同的结果.最后和分明矩阵法作了简单比较.
-
-
Gao Lijun;
高丽君;
Yan Liexiang;
鄢烈祥;
Chen Yazhou;
陈亚洲;
Yang Liang;
杨靓;
Shi Bin;
史彬;
Zhou Li;
周力;
Shen Tifeng;
沈体峰
- 《2019年中国智慧炼化高峰论坛》
| 2019年
-
摘要:
关联规则挖掘是最受欢迎的数据挖掘技术之一,然而,当关联规则应用于生产过程领域的操作优化时,由于生产数据量庞大、变量维数多,且存在异常和噪声等特性,难以从中提取出关联规则.对此,本文提出一种基于数据约简的关联规则优化方法.该方法的主要步骤有:数据量约简、异常和噪声数据的剔除、变量约简、连续变量离散化、关联规则挖掘等.主要创新在于:一是以欧式距离为判据提出了一种数据量约简的算法,应用该算法可有效除去冗余的数据;二是在获得关联规则的基础上,进行外推,推导出新的好规则.该系统化优化方法已应用于某炼厂的加氢裂化反应的操作优化,以航煤收率为优化目标,对比优化前航煤收率提高了2.68%.证明了方法的有效性.
-
-
-
-
张建锦;
刘小霞
- 《2006北京地区高校研究生学术交流会》
| 2006年
-
摘要:
海量的数据信息给数据挖掘带来了新的挑战.在现有的硬件设备(内存)的存储能力相对不足的情况下,如何快速和有效的在海量数据中挖掘有价值的信息,成为现今数据挖掘研究的一个热点.抽样作为数据约简的一种手段,已经被广泛地应用在数据挖掘领域,但所应用的抽样技术主要是简单随机抽样.本文介绍一种新的抽样策略:密度偏差抽样.研究分析了密度偏差抽样的主要思想,特点及其改进方法,进行了对比分析,并对密度偏差抽样在海量数据挖掘中主要是聚类领域的应用进行了深入探讨.
-
-
-
-
刘萍;
王周敬
- 《第16届全国计算机新科技与教育研讨会》
| 2005年
-
摘要:
粒计算是当前备受关注的一个研究方向,它涵盖了模糊集合理论、粗糙集合理论等,目前主要应用于数据挖掘领域.用粒进行计算是粒计算的主要特点,它将问题分解,在信息获取不全的情况下,以降低精确度为代价,一方面降低了问题的复杂度,另一方面节省了计算开销.决策表值的约简算法是基于粗糙集的理论,将粒计算应用到其中有一定实际意义.本文旨在提出一种基于粒计算的算法,探讨与验证两个算法在理论和效果上具有一致性,且粒计算方法更加省时.
-
-
刘萍;
王周敬
- 《第16届全国计算机新科技与教育研讨会》
| 2005年
-
摘要:
粒计算是当前备受关注的一个研究方向,它涵盖了模糊集合理论、粗糙集合理论等,目前主要应用于数据挖掘领域.用粒进行计算是粒计算的主要特点,它将问题分解,在信息获取不全的情况下,以降低精确度为代价,一方面降低了问题的复杂度,另一方面节省了计算开销.决策表值的约简算法是基于粗糙集的理论,将粒计算应用到其中有一定实际意义.本文旨在提出一种基于粒计算的算法,探讨与验证两个算法在理论和效果上具有一致性,且粒计算方法更加省时.