首页> 中文期刊> 《软件导刊》 >一种双向采样的恶意PDF文档检测方法

一种双向采样的恶意PDF文档检测方法

         

摘要

随着信息化发展,PDF文档以其良好的特性,成为日常流行的数据交换文件格式,也成为APT攻击事件中常被利用的文件载体。现有的恶意PDF文档检测方法往往采用平衡样本数据集进行评估,但真实环境中恶意文档数量远少于良性文档,因此在样本分类不均衡情况下,提出KM-TBSMOTE双向采样法的恶意PDF文档检测方法。基于BSMOTE算法,利用生成的过渡样本合成新样本,给出TBSMOTE算法,提高负样本比例。利用K-Means算法进行良性PDF文档样本欠采样,结合TBSMOTE算法,使样本分类达到均衡状态。最后采用随机森林方法进行恶意性检测。实验表明,该方法在不均衡PDF样本集上检测效果良好,综合评价指标F1达98.98%,召回率98.91%,误检率0.026%。与传统BSMOTE过采样方法相比,评价指标F1提高1.39%,召回率提高1.96%,误检率降低0.048%。基于KM-TB⁃SMOTE双向采样的恶意PDF文档检测方法能够有效解决样本分类不均衡对分类模型的影响,提高检测效果,适用于现实环境中的PDF文档恶意性检测。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号