您现在的位置: 首页> 研究主题> 数据约简

数据约简

数据约简的相关文献在2000年到2022年内共计119篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学 等领域,其中期刊论文95篇、会议论文9篇、专利文献544771篇;相关期刊70种,包括吉林大学学报(理学版)、科技广场、成都信息工程学院学报等; 相关会议9种,包括第29届中国控制会议、第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC'2007)、第16届全国计算机新科技与教育研讨会等;数据约简的相关文献由319位作者贡献,包括刘清、邓少波、丁家峰等。

数据约简—发文量

期刊论文>

论文:95 占比:0.02%

会议论文>

论文:9 占比:0.00%

专利文献>

论文:544771 占比:99.98%

总计:544875篇

数据约简—发文趋势图

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 陈景年
    • 摘要: 支持向量机因具有卓越的分类效果和坚实的理论基础而成为了近年来模式识别、机器学习以及数据挖掘等领域中最重要的分类方法之一。然而,其训练时间会随样本增多而明显增长,并且在处理多分类问题时模型训练会更加复杂。为解决上述问题,给出了一种适于多分类问题的训练数据快速约简方法MOIS。该方法以聚类中心为参照点,在删除掉冗余训练样本的同时,选择起决定作用的边界样本来大幅度约简训练数据,并消减类别间的分布不均衡问题。实验结果表明,MOIS在保持甚至提高支持向量机分类效果的同时,能大幅提高训练效率。例如,在Optdigit数据集上,利用所提方法使分类准确率由98.94%提高到99.05%的同时,训练时间缩短到原来的15%;又如,在HCL2000前100类构成的数据集上,在准确率略有提高的情况下(由99.29%提高到99.30%),训练时间更是大幅缩短到不足原来的6%。另外,MOIS本身具有很高的运行效率。
    • 张幸幸; 朱振峰; 赵亚威; 赵耀
    • 摘要: 随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值的信息提供了充分的空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用;接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中,前者主要涉及无监督、半监督和全监督方式,后者包括基于相似度、行列式点过程、数据重构和低秩逼近这四大类原型学习方法;最后,对原型学习的未来发展方向进行了展望.
    • 张孟
    • 摘要: 针对农业无线传感网络(Wireless Sensor Networks,WSN)能源有限,而发送大量冗余数据造成节点能耗高的问题,本文提出一种基于节点相关性分析进行数据约简的方法。首先利用皮尔逊相关分析分别对传感节点内与相邻节点间数据进行相似度分析;其次,进行数据预测;最后,对皮尔逊相关系数进行改进,使算法能够适用于实际农业环境感知存在异常数据的情况。实验结果表明,该方法在数据约简精度几乎不受影响的前提下,约简率可达69%,适用于传感节点级数据约简
    • 张晓琴; 汪云飞; 胡春强
    • 摘要: 提出一种基于改进极限学习机(Online sequence extreme learning machine,OSELM)的新能源电站数据采集与监控(Supervisory control and data acquisition,SCADA)系统攻击检测模型.首先使用ADASYN算法对数据样本中的异常数据和正常数据进行数量平衡,以满足真实电站SCADA系统环境中异常数据量少的特点.接着使用降噪自编码网络对平衡后的数据进行约简,消除无关或冗余特征以降低检测模型的训练时间.最后在AWID数据集上进行了大量对比实验,结果表明,所提的数据约简方法可有效地降低数据维度,降低了检测时间;与其他基于浅层学习算法的检测分类器相比,本文所提方法在检测准确度和误报率方面也体现出了更优性能.
    • 覃凤婷; 杨有龙; 仇海全
    • 摘要: 针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD).根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值.通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性.
    • 魏畅; 李光辉
    • 摘要: 无线传感网络经常被部署于条件恶劣、无人值守的环境中,受到恶劣天气、软硬件故障、能量不足或者恶意攻击等因素的影响,传感器节点感知数据的缺失或错误难以避免.因此,传感器数据流的离群检测对于提高系统可用性至关重要.提出一种基于约简策略与自适应SVDD(Support Vector Data Description)的离群检测方法(RASVDD),该方法首先使用基于马氏距离标准的方法约简数据集,有效地减少了训练样本;然后利用基于数据分布密度准则和数据流时间相关性自适应更新决策模型.针对Intel Berkeley数据集及SensorScope System数据集的仿真实验表明,RASVDD的离群检测正确率TPR(True Positive Rate)平均达98%,误报率FPR(False Positive Rate)平均仅为1%,并且与传统的SVDD算法相比,RASVDD决策模型训练时间减少了20%以上.%Wireless sensor networks are often deployed in the harsh and unattended environment,and the sensor data loss or error usually happens for the sake of bad weather,hardware or software fault,energy dissipation or the ad-verse attack. Outlier detection of the sensor data streams is critical for improving the system's availability. In this pa-per,an outlier detection method( RASVDD) based on the data reduction and adaptive SVDD is proposed. RASVDD uses the Mahalanobis distance criterion to reduce the data set and the training samples,and then the data distribu-tion density criterion and the temporal correlation of data stream are applied to update the training model adaptively. The simulation results for the Intel Berkeley dataset and the SensorScope System dataset showed that,RASVDD had an average true positive rate of 98% and an average false positive rate of 1%,and reduced the model training time more than 20% compared to traditional SVDD.
    • 刘威; 刘尚; 白润才; 周璇; 周定宁
    • 摘要: In this paper, we present a neural network classifier training method based on dynamic data reduction (DDR) to address long training times and the poor generalization ability of neural network classifiers.In our approach, we assigned each sample a weight value, which was then dynamically updated based on the classification error rate at each iteration of the training sample.Subsequently, the training sample was reduced based on the weight of the sample so as to increase the proportion of boundary samples in error-prone classification environments and to reduce the role of redundant kernel samples.Our numerical experiments show that our neural network training method not only substantially shortens the training time of the given networks, but also significantly enhances the classification and generalization abilities of the network.%针对神经网络分类器训练时间长、泛化能力差的问题,提出了一种基于动态数据约简的神经网络分类器训练方法(DDR).该训练方法在训练过程中赋给每个训练样本一个权重值作为样本的重要性度量,依据每次网络迭代训练样本的分类错误率动态更新每个训练样本的权重值,之后依据样本的权重值来约简训练样本,从而增加易错分类的边界样本比重,减少冗余核样本的作用.数值实验表明,基于权重的动态数据约简神经网络训练方法不仅大幅缩短了网络的训练时间,而且还能够显著提升网络的分类泛化能力.
    • 庞帮艳; 张艳敏
    • 摘要: Traditional method exists high redundancy,large dimension,poor accuracy and so on in the process of public network intrusion data detection. In order to improve the real⁃time performance and effectiveness of public network security pro⁃tection,a public network detection method based on the improved rough set theory is put forward to detect and screen the data which has invasion risk,optimize the detecting accuracy based on rough set concept,and reduce the information loss. The MDLP operational criterion is adopted to complete the discretization processing of the data. The genetic algorithm is used to car⁃ry on the data reduction,derive data classification rules and identify the intrusion data. The simulation results show that the pro⁃posed intrusion data detection method is more effective in the aspects of intrusion detection rate and error rate in comparison with the traditional algorithm.%传统方法在对公共网络入侵数据检测时存在冗余度高、维数大、精确度差等问题。为了提高公共网络安全防护的实时性和有效性,提出一种基于优化粗糙集理论的公共网络检测方法。针对有入侵风险的数据进行检测和筛选,在粗糙集(RS)概念基础上对其精度进行优化,减少信息的丢失,运用MDLP运算准则完成对数据的离散化处理,使用遗传算法进行数据约简,导出数据分类规则并识别出入侵数据。仿真试验结果表明,所提出的入侵数据检测方法,在入侵检测率和误差率方面传统算法更为有效。
    • 陈衡; 王凯; 刘玉文
    • 摘要: 该文介绍了系统数据压缩技术,主要涉及网络理论方法与复杂压缩模型.针对目前系统数据压缩技术,通过分析存在的问题,给出系统数据压缩的可行方向.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号