首页> 中文学位 >基于改进DOM树的主题型网页去噪声研究
【6h】

基于改进DOM树的主题型网页去噪声研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 文章的组织结构

第2章 相关理论与技术

2.1 HTML语言

2.2 XML语言

2.3 DOM概述

2.4 基于网页结构的一般去噪方法

2.5 网页去噪评价标准

2.6 本章小结

第3章 主题型网页的改进DO M树模型

3.1 网页预处理

3.2 主题型网页

3.3 改进DOM树模型

3.4 本章小结

第4章 基于改进DOM树的主题型网页去噪方法

4.1 构建改进的DOM树

4.2 改进DOM树模型去噪

4.3 本章小结

第5章 系统原型及实验分析

5.1 实验环境

5.2 系统原型设计

5.3 网页去噪系统性能评价

5.4 本章小结

第6 章 总结和展望

6.1 工作总结

6.2 未来工作

参考文献

致谢

攻读硕士学位期间公开发表的论文

展开▼

摘要

随着Internet的高速发展,Web上承载的网页数据也与日俱增。一个普通网页上包含的数据一般可以分成两部分:内容块和噪声块,其中噪声块主要包括网页顶部或侧边的导航栏、四周的广告条和底部的版权信息等。噪音数据几乎占据网页的一半比例,并且这个比例还在持续增长。网页噪音数据的持续增长不仅使用户更难获取与主题相关的信息,而且加大用户搜索有用信息的效率,因此如何快速去除网页上与主题信息无关的噪音信息显得尤为重要。
  网页去噪的方法一般分为基于网页模板的去噪方法、基于网页视觉信息的去噪方法和基于DO M树的去噪方法。本文主要基于DO M树结构对主题型网页进行去噪处理。在以往的基于 DO M树的网页去噪研究中,研究者大多根据设定的规则首先将 DO M树节点划分不同类型,然后根据节点类型判断哪些是噪音节点。但根据某单一因素便过早将节点划分不同类型,可能会造成节点类型误判,从而影响后续的去噪效果。另外本文通过分析国内几大门户网站的二级详情页,发现主题型的网页具有主题突出、文字内容较多、图片和链接较少等特征。
  针对以往基于DO M树研究的不足和主题型网页的结构特点、文本特点、标签语义特点等,本文在传统DO M树基础上构建一种改进的DO M树模型,并基于此改进的DO M树模型给出了主题型网页的去噪方法,研究的主要内容如下:
  (1)将HTML标签依据与主题相关性和节点划分粒度分为主题块标签和非主题块标签。综合考虑主题型网页中标签与主题语义关联度、节点内链接特征值、节点内文本长度、节点内子节点纯文本节点数、节点内图片个数,在构建 DO M树时依次给 Node节点添加自定义属性 tagDeg、linkVal、textLen、textNum、picNum。
  (2)提出了改进DOM树模型。首先把HTML文档解析成DOM树结构,然后遍历DO M树依次给DO M树中节点添加自定义属性,在对DO M内非主题块节点进行合并时,同时也对节点内新添加属性tagDeg和link Va l的值进行累加计算,最后构建只包含主题块节点的改进的DO M树模型。
  (3)给出了基于改进 DOM树模型的网页去噪方法。该方法主要包括网页预处理、构建改进DO M树模型和改进DO M树网页去噪。其中,改进DO M树网页去噪中通过分析对比节点内自定义属性值与设定的阈值,从而确定并删除噪音节点,达到网页去噪的目的。最后通过实验分析,表明该方法对主题型网页具有较好的去噪效果。

著录项

  • 作者

    李晓会;

  • 作者单位

    西南大学;

  • 授予单位 西南大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 余建桥;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    主题型网页; DOM树; 去噪处理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号