您现在的位置: 首页> 研究主题> 欠采样

欠采样

欠采样的相关文献在1997年到2022年内共计585篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、铁路运输 等领域,其中期刊论文301篇、会议论文8篇、专利文献52340篇;相关期刊181种,包括电讯技术、电子学报、电子信息对抗技术等; 相关会议8种,包括二〇〇八年激光探测、制导与对抗技术发展与应用研讨会、第二届红外成像系统仿真、测试与评价技术研讨会、第七届"测量与控制在资源节约、环境保护中的应用"学术会议等;欠采样的相关文献由1345位作者贡献,包括付宁、乔立岩、黄国兴等。

欠采样—发文量

期刊论文>

论文:301 占比:0.57%

会议论文>

论文:8 占比:0.02%

专利文献>

论文:52340 占比:99.41%

总计:52649篇

欠采样—发文趋势图

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 贺指陈
    • 摘要: 在数据分类分析中,一些特别的类别里往往存在更重要的信息。提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题。该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练。同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的正确分类,达到对少数类样本正确识别的目的。在10个uci的数据集生成的分类任务上进行了对比实验,实验结果表明,该算法能更好地识别少数类样本。
    • 邢鸿; 魏毅强; 李晨龙
    • 摘要: 分类是机器学习领域的一个热点研究内容,不平衡数据导致在分类时产生了很大困难。企业破产预测可以被归结为一个二分类问题,根据企业的一些特征对企业的状态做出预测,可以帮助企业作出更好的决策以减少企业的损失,但在企业破产数据中,破产企业只占很少的一部分,数据存在严重的不平衡。针对企业破产预测中的不平衡数据,本文提出了一种基于G-mean的加权随机森林算法(BSWRF)。对随机森林采集出来的不平衡子训练集,运用自助采样法进行欠采样,将多数类采样到和少数类一致,形成平衡子训练集,将CART决策树作为基分类器,在每个子训练集上进行训练,同时在包外估计样本上测试,根据G-mean为每棵决策树赋予权重,加权投票得到最终的分类器,提高了分类性能。选择台湾企业破产数据集进行实验,在G-mean、Recall和AUC评价指标上,BSWRF的分类效果都优于随机森林和AdaBoost算法。
    • 贺王鹏; 陈彬强; 李阳; 陈晶; 郭宝龙
    • 摘要: 针对高速切削状态监测系统中采样参数设置不合理以及抗混叠滤波器存在滤波陡度导致输出的切削力信号频谱混叠问题,提出了一种基于频域近似稀疏的频谱校正方法。切削系统及采样过程中的非线性往往导致状态监测系统输出波形中含有主轴频率的高次谐波,在傅里叶矩阵上表现出明显的近似稀疏性(傅里叶系数中大多数元素的幅值近似为零,能量主要集中在若干个频率区间上)。通过仅保留频谱上若干个频率区间对其实现稀疏逼近,得到若干个频带子集,并利用欠采样混频原则计算出每个频带子集的真实频率范围,构造切削力信号的真实频谱进而恢复出真实的时间序列。根据频带子集时域波形特点,构造具有一般物理意义的线性调幅正弦波模型,通过对线性调幅正弦波仿真分析及高速铣削铝合金实验验证了该方法的有效性。结果表明,这种方法能够有效地恢复出测试信号的谐波信息,恢复信号与测试信号时域波形的相对包络误差小于4%。该研究成果为稀疏表示理论应用于欠采样信号分析提供了一定的工程技术支撑。
    • 刘学文; 王继奎; 杨正国; 李强; 易纪海; 李冰; 聂飞平
    • 摘要: 在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。
    • 闫家荣; 续进; 吴睿; 王帅琪; 王灏楠
    • 摘要: 由于使用类别不平衡数据集训练的标准AdaBoost模型对于少数类样本识别准确率低,提出了一种基于高斯混合模型欠采样方法的AdaBoost算法GUSBoost。该算法先利用高斯混合模型对多数类样本分布进行拟合,然后在AdaBoost每次训练较基分类器之前,将每个高斯分量中的多数类样本进行随机欠采样。实验结果表明,该算法在一定程度上优于其他对比算法。
    • 李鑫
    • 摘要: 不平衡数据越来越多地出现在各个领域,而传统机器学习分类算法往往会忽略少数类样本的分类精度,针对此问题,提出一种基于密度峰值聚类改进的欠采样算法。该算法利用信息熵对密度峰值聚类算法进行优化,获取最优截断距离;选取密度距离较大的点作为聚类中心并选取所有聚类中心代表整个多数类数据集。将该文算法与几种欠采样算法进行对比实验,结果表明,该方法有效提高了不平衡数据集中少数类的预测精度。
    • 吴署光; 王宏艳; 王宇; 温晓敏; 李海滨; 周尚辉
    • 摘要: 现实网络环境下,正常流量规模所占比例远大于异常流量,这将导致基于机器学习的网络入侵检测系统(NIDS)对于检测少量的异常样本时效果较差。对于该问题,提出一种基于自组织增量神经网络(SOINN)的欠采样方法。该方法首先将多数类正常样本输入SOINN,算法输出的少量样本继承了原始数据的分布特性,然后将平衡后的数据用于训练多种机器学习分类器,提高了分类器性能。由于SOINN采样率随着数据规模的增大而逐渐减小,提出一种分块采样的方法来确定采样后的数据规模。首先计算采样率,然后根据采样率确定分块的规模,最后把每一块的压缩数据进行拼接,形成最终的欠采样数据。实验结果表明,相比于其他欠采样方法,所提方法在决策树、K近邻和支持向量机三种分类器中均保持了较高的准确率和召回率。
    • 吴正江; 杨天; 郑爱玲; 梅秋雨; 张亚宁
    • 摘要: 如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集DA0与DE0下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。
    • 郑峰; 刘晓芳
    • 摘要: 目的:研究一种从欠采样K空间数据中重建高质量磁共振图像的算法。方法:利用密集连接网络与多尺度思想设计一种网络模型来实现磁共振图像的高质量重建。首先以密集连接网络为基础框架,将不同空洞率的组合分别放置在密集连接单元;然后基于切片间的先验信息来建立相邻切片间特征信息的传输通道,并嵌套在密集连接网络当中;最后对K空间进行数据保真,并在网络迭代层加入密集连接机制。结果:对于12.5%和25%的K空间数据,重建的磁共振图像峰值信噪比(PSNR)分别为36.12 dB,40.45 dB。结论:在Calgary-Campinas数据集上的实验结果表明,与传统网络模型相比,所提模型重建精度更高、收敛更快。
    • 任艳平; 郑重; 江一飞; 严远亭; 张燕平
    • 摘要: 欠采样是当前解决类不平衡问题的主流方法之一。现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能。然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究者从不同的角度提出了一系列针对性的方法,但鲜有对欠采样中类别重叠的研究。提出一种融合贝叶斯后验概率和分布密度的欠采样方法(BPDDUS)实现重叠区域样本的检测和清洗,并通过样本的分布信息对清洗后的样本进行欠采样。具体来说,该方法通过贝叶斯后验概率对多数类样本中潜在的噪声和重叠样本进行清洗以增强分类决策边界的清晰度。对清洗后的多数类样本,引入全局分布密度和信息熵来度量样本对不平衡数据分类学习的重要程度并对其分配相应的采样权重。按样本权重欠采样并构建集成分类系统,以提升模型的泛化能力。在43个KEEL数据库数据集上进行的数值实验验证了所提的BPDDUS方法的有效性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号