您现在的位置: 首页> 研究主题> 非平衡数据

非平衡数据

非平衡数据的相关文献在1997年到2022年内共计102篇,主要集中在自动化技术、计算机技术、农作物、统计学 等领域,其中期刊论文89篇、会议论文1篇、专利文献752678篇;相关期刊64种,包括管理评论、管理科学、统计与信息论坛等; 相关会议1种,包括第七届全国信号与信息处理联合会议暨首届全国省(市)级图象图形学会联合年会等;非平衡数据的相关文献由284位作者贡献,包括亓慧、付能、佘庆等。

非平衡数据—发文量

期刊论文>

论文:89 占比:0.01%

会议论文>

论文:1 占比:0.00%

专利文献>

论文:752678 占比:99.99%

总计:752768篇

非平衡数据—发文趋势图

非平衡数据

-研究学者

  • 亓慧
  • 付能
  • 佘庆
  • 史建琦
  • 司学峰
  • 吴阳勇
  • 孙旭
  • 张超
  • 李睿峰
  • 李钦
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 崔丽娜
    • 摘要: 针对传统支持向量机(support vector machine,SVM)处理非平衡的数据分类泛化性能差的问题,提出了一种基于主动学习的非平衡SVM分类方法(the imbalanced SVM classification method based on active learning,ISVM;L)。该方法先对多数的负类样本进行划分采样,再与少数的正类样本合并训练得到初始分类器,并根据负类剩余样本集中样本与分类器间的距离,选择主动学习中的关键信息样本逐次加入到负类训练样本集中,同时删除负类训练样本集中相对次要的非关键信息样本,始终保持负类训练样本集与正类训练集样本规模的平衡性,以稳步提高SVM对于非平衡数据分类的泛化性能。实验结果表明,该方法能够有效改善SVM对于非平衡数据的分类能力,获得令人满意的泛化性能。
    • 韩亚茹; 闫连山; 姚涛
    • 摘要: 随着移动互联网技术的发展,图像数据的规模越来越大,大规模图像检索任务已经成为了一个紧要的问题。由于检索速度快和存储消耗低,哈希算法受到了研究者的广泛关注。基于深度学习的哈希算法要达到较好的检索性能,需要一定数量的高质量训练数据来训练模型。然而现存的哈希方法通常忽视了数据集存在数据类别非平衡的问题,而这可能会降低检索性能。针对上述问题,提出了一种基于元学习网络的深度哈希检索算法。所提算法可以直接从数据中自动学习加权函数。该加权函数是只有一个隐含层的多层感知机(MLP),在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程中的参数同时进行优化更新。元学习网络参数的更新方程可以解释为:较符合元学习数据的样本权重将被提高,而不符合元学习数据的样本权重将被减小。基于元学习网络的深度哈希检索算法可以有效减少非平衡数据对图像检索的影响,并可以提高模型的鲁棒性。在CIFAR-10等广泛使用的基准数据集上进行的大量实验表明,在非平衡比率较大时,所提算法的平均准确率均值(mAP)最佳;在非平均比率为200的条件下,所提算法的mAP比中心相似度量化算法、非对称深度监督哈希(ADSH)算法和快速可扩展监督哈希(FSSH)算法分别提高0.54个百分点,30.93个百分点和48.43个百分点。
    • 叶金俊; 叶金水; 包小梅; 黄琳; 毛海淋
    • 摘要: 为了评价林木非平衡试验资料小区平均值法的分析效果,运用蒙特卡罗(Monte Carlo)模拟数据,以转化分析法为参照对象,比较评价了小区平均值法的优缺点,为筛选的统计方法提供科学依据。基于工作量和普遍性考虑,采用了5个试验,单因素随机区组设计,先以单株观察值参与统计分析,获得转化分析法的结果;然后以小区平均值参与计算,获得小区平均值法的分析结果。在此基础上,评价非平衡试验资料小区平均值法的统计效果。比较分析发现:(1)对于非平衡试验数据,转化分析法具有严密的科学性和优越性,小区平均值法仅适合于无性系试验;(2)小区平均值法无法获得单株遗传变异性信息,故统计效率较低;(3)5个试验的蒙特卡罗模拟数据,小区平均值法,其区组重复因子出现负的方差分量概率,随着区组重复数的减少而增加,试验Ⅳ中区组因子有3%的试验出现负方差分量,试验Ⅴ中区组因子有6%的试验出现负方差分量,而转化分析法则消灭了负的方差分量;(4)小区平均值法偏性和误差均大于转化分析法;(5)小区平均值法的家系遗传力比转化分析法的小,且试验分析的精确性比转化分析法低,这不利于逆向选择和前向选择;(6)在固定模型条件下,小区平均值法关于家系效应的平均值有一定的误差,许多家系的秩与转化分析法的结果不一致,选择的失误概率为1/8~2/8。综合以上结果得出:尽管小区平均值法具有计算量小的优势,但因其缺点太多,建议在林木遗传育种领域中,优先采用转化分析法。
    • 姚晟; 李初宴; 陈悦
    • 摘要: 完备混合型信息系统下的粗糙集模型是传统粗糙集模型的重要扩展,目前关于非平衡数据属性约简的研究仅限于完备混合型的粗糙集模型.针对这一问题,提出一种基于不完备混合型信息系统的非平衡数据属性约简.本文首先将传统的粗糙集模型进行推广,提出不完备混合型信息系统下的粗糙集模型;然后针对数据的非平衡性,根据上下边界区域和类分布的不均匀性定义了一种新的属性重要度;在基于区别矩阵的基础上设计出一种非平衡数据的属性约简算法.实验分析表明该算法针对不完备非平衡数据的属性约简具有一定的有效性和优越性.
    • 李岸达; 张阳; 刘晓杰
    • 摘要: 提出基于改进MOEA/D的特征选择算法识别复杂制造过程中显著影响产品质量的关键因素(特征).首先,构建最大化G-mean指标和最小化特征数的关键质量因素识别模型,G-mean能够针对非平衡制造过程数据准确衡量质量因素重要性;其次,提出多目标进化算法——改进MOEA/D求解识别模型,改进MOEA/D采用了基于信息增益指标的初始化方法和一种新的平衡变异算子以提高算法优化性能.实验结果表明,所提识别方法能够得到少量质量因素并获得对产品质量的高水平预测效果,同时改进MOEA/D具有比传统MOEA/D更佳的优化性能,表明了本文方法的有效性.
    • 王俊红; 郭亚慧
    • 摘要: 动态非平衡数据分类是在线学习和类不平衡学习领域重要的研究问题,用于处理类分布非常倾斜的数据流.这类问题在实际场景中普遍存在,如实时控制监控系统的故障诊断和计算机网络中的入侵检测等.由于动态数据流中存在概念漂移现象和不平衡问题,因此数据流分类算法既要处理概念漂移,又要解决类不平衡问题.针对以上问题,提出了在检测概念漂移的同时对非平衡数据进行处理的一种方法.该方法采用Kappa系数检测概念漂移,进而检测平衡率,利用非平衡数据分类方法更新分类器.实验结果表明,在不同的评价指标上,该算法对非平衡数据流具有较好的分类性能.
    • 费德友
    • 摘要: 运用秩次分析法,对4个年度四川省特殊类型小麦区试参试品种表现的秩次值H2、环境区分指数YM、秩次均方值S2等统计分析,从而对品种间产量的丰产性、稳定性进行比较,对22个可评价参试品种给予客观公正的评价.结果 表明,中科糯麦258、绵糯麦3号、绵糯麦829、蜀紫麦1801等4个品种为高产、稳产品种,具备高产稳产性.
    • 王超发; 王树斌; 王成军
    • 摘要: 传统分类算法在处理非平衡数据时不能有效提高用户的分类效果.本文基于中国移动通信集团公司某分公司的用户数据,从数据平衡性视角出发,对判别用户是否换手机的分类器最优阈值、预期风险和分类代价之间的关系进行了实证分析.研究发现:以平衡数据集为样本对用户换手机进行分类得到的换机准确率高于原始数据集对应的换机准确率;预期风险(同一分类代价比)随着分类器阈值的增大表现出先增大后减小的趋势;对用户是否换手机的分类结果受数据平衡性和分类代价比的双重影响.研究结论能够为手机销售商和制造商完善管理方法提供决策依据.
    • 苗立志; 白瑞思蒙; 刘成良; 翟月昊
    • 摘要: 针对癌症数据集中存在非平衡数据及噪声样本的问题,提出一种基于RENN和SMOTE算法的癌症患者生存预测算法RENN-SMOTE-SVM.基于最近邻规则,利用RENN算法减少多数类样本中噪声样本数量,并通过SMOTE算法在少数类样本间进行线性插值增加样本数量,从而获得平衡数据集.基于美国癌症数据库非平衡乳腺癌患者数据集对癌症患者的生存情况进行预测分析,实验结果表明,与SVM算法、Tomeklinks-SVM算法等5种常用算法相比,该算法的分类及预测效果更好,其正确率、F1-score、G-means值分别为0.883,0.904,0.779.
    • 鲁淑霞; 张振莲
    • 摘要: 为了解决非平衡数据分类问题,提出了一种基于最优间隔的AdaBoostv算法.该算法采用改进的SVM作为基分类器,在SVM的优化模型中引入间隔均值项,并根据数据非平衡比对间隔均值项和损失函数项进行加权;采用带有方差减小的随机梯度方法(Stochastic Variance Reduced Gradient,SVRG)对优化模型进行求解,以加快收敛速度.所提基于最优间隔的AdaBoostv算法在样本权重更新公式中引入了一种新的自适应代价敏感函数,赋予少数类样本、误分类的少数类样本以及靠近决策边界的少数类样本更高的代价值;另外,通过结合新的权重公式以及引入给定精度参数v下的最优间隔的估计值,推导出新的基分类器权重策略,进一步提高了算法的分类精度.对比实验表明,在线性和非线性情况下,所提基于最优间隔的Ada-Boostv算法在非平衡数据集上的分类精度优于其他算法,且能获得更大的最小间隔.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号