声明
摘要
缩略语清单
第1章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状
1.2.1 网络爬虫技术
1.2.2 网页信息提取技术
1.2.3 分类模型
1.3 本文主要研究工作
1.4 论文组织结构
第2章 基于视觉特征及DOM树的页面分块
2.1 基于视觉特征的页面分块算法概述
2.2 VIPS算法分块过程
2.2.1 视觉块提取
2.2.2 分隔条检测
2.2.3 内容结构重构
2.3 VIPS算法改进
2.4 算法改进前后页面分块结果对比
2.5 本章小结
第3章 分类模型设计与有效块识别
3.1 分类模型的选择
3.2 核函数选择
3.3 特征选择
3.3.1 视觉表现特征
3.3.2 统计特征
3.3.3 标题现频特征
3.4 特征值规范
3.4.1 根据自身特征进行规范
3.4.2 极值标准化
3.5 训练分类模型
3.5.1 参数选择与寻优
3.5.2 模型训练
3.6 本章小结
第4章 基于路径表达式的网页元数据提取
4.1 XPath表达式
4.2 XPath求值
4.3 路径表达式提取网页元数据
4.3.1 优酷视频路径表达式
4.3.2 爱奇艺视频路径表达式
4.3.3 乐视视频路径表达式
4.4 本章小结
第5章 系统实现与实验分析
5.1 系统实现
5.1.1 实现环境
5.1.2 实验数据
5.1.3 系统设计
5.1.4 系统可视化
5.2 页面分块的实现
5.2.1 优酷视频网页分块
5.2.2 乐视视频网页分块
5.2.3 爱奇艺视频网页分块
5.3 有效块识别
5.3.1 优酷视频网页有效块识别
5.4.2 乐视视频网页有效块识别
5.4.3 爱奇艺视频网页有效块识别
5.4 提取网页元数据
5.5 实验评估
5.6 本章小结
第6章 总结与展望
6.1 论文总结
6.2 工作展望
致谢
参考文献