首页> 中文学位 >基于网络爬虫的虚假网页主动智能检测
【6h】

基于网络爬虫的虚假网页主动智能检测

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 虚假网站检测研究现状

1.2.2 网络爬虫研究现状

1.3 论文主要工作及内容安排

第2章 虚假网页主动智能检测及关键技术

2.1 引言

2.2 虚假网页主动检测模式

2.2.1 主动检测模式框架

2.2.2 Levenshtein算法

2.2.3 LD回溯路径

2.2.4 2个字符串之间的相似度

2.3 相似度计算实例

2.3.1 编辑距离计算

2.3.2 相似度计算

2.4 Heritrix爬虫优化模块设计与实现

2.4.1 Heritrix多线程优化设计与实现

2.4.2 Heritrix URL过滤器优化设计与实现

2.5 本章小结

第3章 网页特征提取及预处理

3.1 网页特征提取方法

3.2 页面文档特征提取

3.2.1 文档模型分析

3.2.2 文档特征提取

3.3 网页拓扑特征提取

3.3.1 网站拓扑特征分析

3.3.2 网站拓扑特征提取

3.4 Autoencoder的网页内容特征向量预处理

3.4.1 Autoencoder介绍

3.4.2 Autoencoder网络结构设计

3.4.3 算法流程

3.4.4 实验与结果分析

3.5 本章小结

第4章 基于BVM的虚假网页智能检测方法研究

4.1 球向量机(BVM)的分析与研究

4.1.1 向量机理论

4.1.2 BVM算法介绍

4.1.3 BVM分类器的前期数据准备

4.2 基于BVM的虚假网页分类识别方法及分析

4.2.1 基于BVM的钓鱼网页检测识别流程

4.2.2 实验与结果分析

4.3 本章小结

第5章 基于网络爬虫的虚假网页主动智能检测系统设计与实现

5.1 基于BVM钓鱼网页检测系统的设计

5.1.1 系统设计原则

5.1.2 系统体系架构

5.1.3 系统结构设计

5.2 系统数据库设计

5.3 系统部分功能设计介绍

5.3.1 登陆界面

5.3.2 任务管理

5.3.3 结果展示

5.3.4 本章小结

第6章 结论与展望

参考文献

致谢

展开▼

摘要

网络钓鱼是通过给用户投递来自企业组织或者金融机构的欺骗性垃圾邮件,引诱用户泄露个人私密隐私信息的一种攻击方式。最常见的方式是将用户引诱到与目标正常网页十分类似的虚假网页上,并窃取受害者在其网页上保存的个人私密信息。近几年来随着虚假网页的危害越来越严重,虚假网页检测作为一种反钓鱼技术与措施被人们广泛关注。本文提出一种基于网络爬虫的虚假网页主动智能检测系统,在得到与目标网站相似网页的基础上,通过提取相似网页的特征并对特征向量利用Autoencoder进行降维预处理,最后再利用BVM分类器检测辨别虚假网页。
  首先,由于被动检测的滞后性,论文采用主动检测模式,即使用编辑距离计算出种子站点与目标站点URL地址相似的网页。其次,在得到相似网页的基础上,对这些网页分别进行特征提取,虚假网页的检测结果很大程度上取决于网站特征的提取,本文较全面的提取了网页的文档特征和拓扑特征,并且充实了特征元素的种类,在对网页的文本特征和源码分析的基础上,提出了更加准确全面的虚假网页特征向量,然后利用Autoencoder对其特征向量进行降维预处理,使处理后的特征向量更加符合分类器的要求,并且提高了虚假网页检测的精度。再次,论文利用机器学习算法BVM构建了虚假网页主动智能检测分类器,给出了基于BVM的虚假网页的智能检测的步骤和实验结果,并分析了算法的优缺点。通过大量的实验,得出本文提出的基于BVM虚假网页主动智能检测方法具有较高的精确度并且有较短的消耗时间。最后,本文用Java Web技术实现了一个基于网络爬虫的虚假网页主动智能检测系统,本系统采用B/S结构设计,展示了系统的架构设计和系统的各功能界面。

著录项

  • 作者

    丁杰;

  • 作者单位

    华北电力大学;

    华北电力大学(北京);

  • 授予单位 华北电力大学;华北电力大学(北京);
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 李元诚,董飞鸿;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.08;
  • 关键词

    虚假网页; 主动智能检测; 网络爬虫; 安全管理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号