首页> 中文学位 >基于DOM模型的网页净化系统设计与实现
【6h】

基于DOM模型的网页净化系统设计与实现

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文所做的工作

第2章 网页净化技术概述

2.1 网页净化

2.1.1 网页噪音

2.1.2 网页净化

2.2 网页净化的方法和步骤

2.2.1 网页净化的方法

2.2.2 网页净化的步骤

2.3 网页净化技术

2.3.1 信息提取

2.3.2 网页分块

2.3.3 网页适应

2.4 小结

第3章 WLB_DOM网页分块模型

3.1 XHTML及文档对象模型

3.1.1 可扩展超文本标记语言(XHTML)

3.1.2 文档对象模型(DOM)

3.2 WLB_DOM模型

3.2.1 模型总体结构

3.2.2 信息单元

3.2.3 WLB数据块

3.3 WLB_DOM模型的构建

3.3.1 预处理

3.3.2 标签过滤

3.3.3 建立WLB_DOM模型

3.4 小结

第4章 基于WLB_DOM模型的网页净化算法

4.1 引言

4.2 算法思想

4.3 算法描述

4.3.1 算法描述

4.3.2 算法流程图

4.4 实验结果与分析

4.4.1 评测指标

4.4.2 数据集的获取

4.4.3 实验结果与分析

4.5 小结

第5章 网页净化系统设计与实现

5.1 系统需求分析

5.2 系统概要设计

5.3 系统详细设计与实现

5.3.1 网页解析模块

5.3.2 WLB_DOM模块

5.3.3 网页净化模块

5.4 系统应用

5.4.1 数据集

5.4.2 评测标准

5.4.3 应用与分析

5.5 小结

结论

参考文献

致谢

附录A 攻读学位期间所获软件著作权目录

附录B 攻读学位期间参与的主要项目

展开▼

摘要

随着Internet技术的飞速发展,互联网上的信息成几何级数地增长。网络给人们提供了大量信息的同时,也给人们快速准确的获取信息带来了挑战。为了能有效地利用网页资源,就需要对这些资源进行预处理。预处理关键的问题之一是去除掉网页中的噪音数据,即把与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息,也即网页净化。
   本文首先介绍了网页净化的方法和技术。其中网页净化的方法包括基于网页结构的方法、基于模版的方法和基于可视化信息的方法等。网页净化的技术则主要有三个方面:信息提取、网页分块和网页适应。
   接着,本文介绍了可扩展超文本标记语言和文档对象模型的概念及其结构。在此基础上,本文提出了一种基于网页布局的文档对象模型(WLB_DOM模型),该模型的建立包括预处理、标签过滤和模型建立等过程,文中详细介绍了该模型的结构和构建方法。
   然后,本文提出了一种基于WLB_DOM模型的网页净化算法,这是一种基于网页结构的方法和基于可视化信息的方法相结合的算法。该算法认为网页中同层布局空间最大的块即主题信息所在块。为了验证本算法的正确性和有效性,对来自CWT200G测试集的部分语料进行了实验,实验结果表明该算法有较高的准确率。
   最后,本文在提出的模型和算法基础上,在Microsoft Visual Studio2008开发平台下,用C#语言实现了一个基于WLB_DOM模型的网页净化系统原型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号