首页> 中文期刊>兰州工业学院学报 >基于二元分类的伪装型垃圾网页高效检测方法

基于二元分类的伪装型垃圾网页高效检测方法

     

摘要

为了提高伪装型垃圾网页检测能力,提出一种基于二元分类的伪装型垃圾网页检测算法.对采集的各类网站网页样本进行暗链域名特征分析和网页爬虫分析,构建伪装型垃圾网页分布的相关文本和图片信息特征,对伪装型垃圾网页样本集采用垂直爬虫和异常特征挖掘方法进行垃圾信息过滤;以网页赋权垃圾信息为测试集,采用二元分类方法对伪装型垃圾网页进行路径模板分析,对全部的异常样本进行垂直爬虫检索;提取伪装型垃圾网页的相关文本的字体颜色与网页背景色,将伪装型垃圾网页的特征提取结果输入到二元语义分类器中进行数据分类,结合大数据融合聚类方法实现伪装型垃圾网页检测.仿真结果表明:采用该方法进行伪装型垃圾网页检测的准确性较高,抗垃圾网页和暗链接干扰能力较好,提高了网页安全监控能力.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号