声明
摘要
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 虚假网站检测研究现状
1.2.2 网络爬虫研究现状
1.3 论文主要工作及内容安排
第2章 虚假网页主动智能检测及关键技术
2.1 引言
2.2 虚假网页主动检测模式
2.2.1 主动检测模式框架
2.2.2 Levenshtein算法
2.2.3 LD回溯路径
2.2.4 2个字符串之间的相似度
2.3 相似度计算实例
2.3.1 编辑距离计算
2.3.2 相似度计算
2.4 Heritrix爬虫优化模块设计与实现
2.4.1 Heritrix多线程优化设计与实现
2.4.2 Heritrix URL过滤器优化设计与实现
2.5 本章小结
第3章 网页特征提取及预处理
3.1 网页特征提取方法
3.2 页面文档特征提取
3.2.1 文档模型分析
3.2.2 文档特征提取
3.3 网页拓扑特征提取
3.3.1 网站拓扑特征分析
3.3.2 网站拓扑特征提取
3.4 Autoencoder的网页内容特征向量预处理
3.4.1 Autoencoder介绍
3.4.2 Autoencoder网络结构设计
3.4.3 算法流程
3.4.4 实验与结果分析
3.5 本章小结
第4章 基于BVM的虚假网页智能检测方法研究
4.1 球向量机(BVM)的分析与研究
4.1.1 向量机理论
4.1.2 BVM算法介绍
4.1.3 BVM分类器的前期数据准备
4.2 基于BVM的虚假网页分类识别方法及分析
4.2.1 基于BVM的钓鱼网页检测识别流程
4.2.2 实验与结果分析
4.3 本章小结
第5章 基于网络爬虫的虚假网页主动智能检测系统设计与实现
5.1 基于BVM钓鱼网页检测系统的设计
5.1.1 系统设计原则
5.1.2 系统体系架构
5.1.3 系统结构设计
5.2 系统数据库设计
5.3 系统部分功能设计介绍
5.3.1 登陆界面
5.3.2 任务管理
5.3.3 结果展示
5.3.4 本章小结
第6章 结论与展望
参考文献
致谢