您现在的位置: 首页> 研究主题> SMOTE

SMOTE

SMOTE的相关文献在2007年到2022年内共计165篇,主要集中在自动化技术、计算机技术、电工技术、经济计划与管理 等领域,其中期刊论文119篇、专利文献46篇;相关期刊91种,包括计算机工程与科学、计算机科学、计算机系统应用等; SMOTE的相关文献由547位作者贡献,包括上官安琪、付明凯、农文钰等。

SMOTE—发文量

期刊论文>

论文:119 占比:72.12%

专利文献>

论文:46 占比:27.88%

总计:165篇

SMOTE—发文趋势图

SMOTE

-研究学者

  • 上官安琪
  • 付明凯
  • 农文钰
  • 刘云鹏
  • 刘敏
  • 刘斌
  • 利广玲
  • 华丽
  • 吴剑平
  • 吴钊
  • 期刊论文
  • 专利文献

搜索

排序:

年份

期刊

    • 王延安; 刘庆芳; 成卫
    • 摘要: 为了进一步加强道路交通安全管理,提升道路交通安全预警系统的准确度,提出一种基于XGBoost算法的道路交通事故严重程度预测模型。首先利用SMOTE对不平衡数据集进行处理,使正负样本数量达到1∶1;然后利用随机森林算法将影响城市道路交通事故严重程度的特征进行重要性排序,找出对预测模型影响较大的因素;最后基于XGBoost算法构建预测模型,使用网格搜索法进行模型参数寻优,提高预测准确度。通过与KNN、Logistic及随机森林3种模型进行结果对比分析发现,XGBoost模型的分类准确率平均提升0.097。基于XGBoost算法的道路交通事故严重程度预测模型拥有更加优越的预测性能,可为预防和降低交通事故严重程度提供可靠参考。
    • 谢天保; 齐德伟; 陈梦圆; 贾臻
    • 摘要: 该文针对信用卡欺诈客户数据集极不平衡的特点,设计了SMOTE、Borderline SMOTE、ADASYN、SMOTENC四种采样算法,对数据集进行均衡处理,并结合逻辑回归、支持向量机、随机森林、多层神经网络构建欺诈风险识别模型,最后通过准确率、AUC、精确率、召回率和F1等指标对识别模型效果进行评判。实验结果表明,SMOTENC采样方法与随机森林模型相结合构建的识别模型效果最好,准确率达到99%,可为银行进行客户欺诈风险判别提供支撑。
    • 王肖萌; 宋德胜; 张甜甜; 常琴雪; 王淳; 王柯云; 刘媛媛; 李长平; 崔壮; 马骏
    • 摘要: 目的评价Boosting算法结合SMOTE技术预测青年男男性行为者(YMSM)HIV感染状况的性能。方法通过网络和现场抽取2018-2019年天津市YMSM 1179名,分别用XGBoost、LightGBM、CatBoost和logistic结合SMOTE技术建立预测模型,通过AUC、F1、Accuracy、Brier score等指标评价其分类性能。结果应用SMOTE合成数据后,logistic、CatBoost、LightGBM和XGBoost的AUC分别提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分类性能优于logistic模型。结论Boosting算法结合SMOTE技术为类不平衡数据的分类预测提供了新思路。
    • 李坤; 赵俊三; 林伊琳; 刘金福
    • 摘要: 准确的泥石流易发性评价结果对山区泥石流灾害防治具有重要意义。该研究将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)和多粒度级联森林(multi-Grained Cascade Forest,gcForest)运用于泥石流易发性评价,以提高泥石流易发性评价精度。以泥石流多发地东川区为例,在解译泥石流点的基础上,以流域单元为评价单元,基于地质、地形和降水等多源数据,初步选取了15个泥石流孕灾因子,并对初选因子进行贡献率分析和多重共线性检验,筛选出共13个因子构建孕灾因子体系;然后采用SMOTE技术对泥石流与非泥石流样本比例不平衡问题进行处理,构建训练数据集;最后构建gcForest模型对研究区泥石流易发性进行定量分析,计算出各个流域单元的泥石流易发性指数,使用自然断点法将其划分为极低易发区、低易发区、中易发区、高易发区和极高易发区5个等级,并与BP神经网络(Back Propagation neural network,BPNN)和随机森林(Random Forest,RF)模型的预测性能进行对比。结果表明,泥石流极低和低易发区主要集中于研究区东部和西部,极高和高易发区主要集中分布于研究区小江河谷两岸和金沙江南岸,该地区地质环境脆弱,危险性较高;结合流域单元建立的山区泥石流易发性评价模型具有很好的准确性和稳定性,其中多粒度级联森林(gcForest)的受试者工作特征曲线(Receiver-Operating Characteristic,ROC)下面积AUC(Area Under Curve)值和准确度(Accuracy,ACC)分别达到91.76%和81.25%,均高于BP神经网络和RF模型的AUC值和ACC值,表明该模型是一种高性能的泥石流易发性评价方法。利用该方法能更精准地对泥石流进行易发性评价,可为山区泥石流防灾减灾提供科学依据。
    • 张壮; 王士同
    • 摘要: 集成学习是非线性系统的主流建模方法之一。但当常规的集成TSK模糊模型直接用于不平衡数据集时,其学习性能容易受到数据不平衡性的影响,因而常常会导致泛化能力差。为解决这一问题,基于TSK模糊模型提出了一种对不平衡数据处理的分类集成模型。基本思想是:首先利用SMOTE过采样方法对不平衡样本集做预处理,使得类别分布相对平衡,再引入AdaBoost方法对集成TSK模糊模型进行学习,集成时根据权值大小对样本进行随机采样,并通过多次训练对权值进行迭代更新,最后将生成的各个模型结果根据特定的加权方法结合,产生最终输出,使各模型得到充分的训练,进而提升整个集成TSK模糊模型的泛化能力。由此,提出了对应的不平衡数据的集成TSK模糊模型,并使用模型在多个数据集上进行实验,采用均方误差和精度对模型进行评估均有较好的效果,然后改变模型数量和规则数量等参数探究它们对模型性能的影响,并使用图像表示它们的变化情况,实验结果证明了所提出的集成学习算法的有效性。
    • 周志豪; 陈磊; 伍翔; 丘东亮; 梁广升; 曾凡巧
    • 摘要: 随着车联网中车载装备智能化程度的飞速发展,其与互联网对接的程度日益加深,而车载CAN总线受到的网络攻击数量更多、攻击方式更复杂、攻击特征更隐蔽。目前车联网入侵检测才刚起步,基于防火墙或规则库等传统检测模型无法获取隐藏的深层攻击特征,基于深度学习的智能检测模型又因训练参数多、攻击数据不均衡等呈现过/欠拟合以及训练复杂等问题。针对以上问题,文中以车载CAN总线为对象,提出了一种基于SMOTE-SDSAE-SVM的CAN总线入侵检测方法(简称3S),尝试结合深度学习和机器学习理论,从而同时提取网络攻击的深度特征和保证模型训练的高效性,并解决网络攻击类别不平衡、CAN报文含噪声等问题。首先,为了解决网络攻击类别不平衡问题,利用SMOTE技术对不平衡类别的攻击数据进行近邻采样,从而生成更多同类别近似样本;其次,结合稀疏自编码和去噪自编码,以消除噪声数据的影响同时增加特征提取的时效性,并通过堆叠多层稀疏去噪自编码最终实现CAN报文的深度特征提取;最后,利用SVM对提取的深度特征进行精确分类,实现对CAN报文的异常检测,从而发现网络攻击。通过在沃尔沃CAN数据集和CAR-HACKING数据集上的大量实验,有效证明了本文3S算法较其他算法而言拥有更好的入侵检测准确率和更低的漏报率/误报率。
    • 李海英; 沈益涛; 罗雨航
    • 摘要: 深度学习是感知智能电网暂态安全状态的有效方法,针对多层重构学习过程低维特征及结构参数难以全局寻优的问题,提出了一种改进深度置信网络(Deep Belief Network,DBN)方法。首先,该方法利用SMOTE过采样算法,增加样本多样性,促使DBN深层架构的挖掘。其次,直接面向噪声样本,DBN通过网络中各神经元吉布斯抽样的二值状态,增强重构特征的抗噪能力。最后,建立了基于遗传算法(Genetic Algorithm,GA)的GA-DBN模型,有效解决DBN结构参数调试繁琐的问题,确保DBN高精度地从底层量测数据提取低维特征,提高安全分类精度。新英格兰10机39节点系统的仿真实验表明,在样本不平衡、含噪声情况下,所提算法比其他算法的失稳漏判率降低,辩识准确率和F;分数提升。
    • 王曜; 郑列
    • 摘要: 针对传统过采样算法中常常出现的生成噪声点、数据分布边缘化、未增强足够特征的问题,提出了一种新算法:试探性少数类过采样技术(tentative synthetic minority over-sampling technique,TSMOTE)。该算法先将少数类样本进行K-means聚类,然后创建正类安全水平等指标,运用试探性的思想,放出试探点求出每个少数类样本对应的警戒点,获取最适合新样本生成的空间区域,最后在簇心和警戒点之间进行合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE),确保新样本的生成质量。在12个公开数据集上的大量实验表明:TSMOTE算法可以有效提高分类器对少数类样本和整体数据集的分类性能。
    • 纪兴哲; 邵培南
    • 摘要: 为了缓解软件缺陷预测的类不平衡问题,避免过拟合影响缺陷预测模型的准确率,本文提出一种面向软件缺陷预测的基于异类距离排名的过采样方法 (HDR).首先,对少数类实例进行3类实例区分,去除噪声实例,减少噪声数据导致的过拟合的情况,然后基于异类距离将实例进行排名,选取相似度高的实例两两组合产生新实例,以此来提升新实例的多样性,之后将有价值的被删除的少数类实例恢复.实验将HDR算法与SMOTE算法和BorderlineSMOTE算法进行比较,采用RF分类器在NASA的8个实际项目数据集上进行,结果显示在F1-measure和G-Mean两项指标上分别有7.7%和10.6%的性能提升,实验表明HDR算法在处理数据量大并且不平衡率高的软件缺陷预测数据集上明显优于其他两种算法.
    • 张杨; 郝江波
    • 摘要: 针对目前已有的基于深度学习的恶意代码检测方法提取特征不足和准确率低的问题,提出一种基于注意力机制和残差网络(ResNet)的恶意代码检测方法ARMD。为了支持该方法的训练,从Kaggle网站获取了47580个恶意和良性代码的Hash值,并利用VirusTotal分析工具提取每个代码数据调用的API,在此之后将所调用的API整合为1000个不重复的API作为检测的特征来构造训练样本数据;然后根据VirusTotal的分析结果进行良恶性判定进而标记样本数据,并采用SMOTE增强算法使数据样本均衡化;最后构建并训练注入注意力机制的ResNet,从而实现恶意代码检测。实验结果表明ARMD的恶意代码检测准确率为97.76%,且与目前已有的基于卷积神经网络(CNN)和ResNet模型的检测方法相比,平均精确率至少提高了2个百分点,验证了ARMD的有效性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号