文摘
英文文摘
论文说明:图表目录
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文所做的工作
第2章 网页净化技术概述
2.1 网页净化
2.1.1 网页噪音
2.1.2 网页净化
2.2 网页净化的方法和步骤
2.2.1 网页净化的方法
2.2.2 网页净化的步骤
2.3 网页净化技术
2.3.1 信息提取
2.3.2 网页分块
2.3.3 网页适应
2.4 小结
第3章 WLB_DOM网页分块模型
3.1 XHTML及文档对象模型
3.1.1 可扩展超文本标记语言(XHTML)
3.1.2 文档对象模型(DOM)
3.2 WLB_DOM模型
3.2.1 模型总体结构
3.2.2 信息单元
3.2.3 WLB数据块
3.3 WLB_DOM模型的构建
3.3.1 预处理
3.3.2 标签过滤
3.3.3 建立WLB_DOM模型
3.4 小结
第4章 基于WLB_DOM模型的网页净化算法
4.1 引言
4.2 算法思想
4.3 算法描述
4.3.1 算法描述
4.3.2 算法流程图
4.4 实验结果与分析
4.4.1 评测指标
4.4.2 数据集的获取
4.4.3 实验结果与分析
4.5 小结
第5章 网页净化系统设计与实现
5.1 系统需求分析
5.2 系统概要设计
5.3 系统详细设计与实现
5.3.1 网页解析模块
5.3.2 WLB_DOM模块
5.3.3 网页净化模块
5.4 系统应用
5.4.1 数据集
5.4.2 评测标准
5.4.3 应用与分析
5.5 小结
结论
参考文献
致谢
附录A 攻读学位期间所获软件著作权目录
附录B 攻读学位期间参与的主要项目