首页> 中文学位 >基于Web的HTML网页清洗技术的研究与实现
【6h】

基于Web的HTML网页清洗技术的研究与实现

代理获取

目录

文摘

英文文摘

声明及关于学位论文使用授权的说明

第一章绪论

1.1选题背景及意义

1.2国内外研究现状

1.3本文的工作与创新

1.4论文的组织

1.5本章小结

第二章Web页面结构分析

2.1 HTML介绍

2.1.1 HTML组成

2.1.2 HTML结构树

2.2 XML和XHTML

2.2.1可扩展标记语言XML

2.2.2可扩展超文本标记语言XHTML

2.3本章小结

第三章DOM树结构的研究与设计

3.1 DOM技术研究

3.2 DOM树结构设计

3.3 DOM树结构操作

3.4本章小结

第四章网页清洗技术的研究与设计

4.1网页清洗技术

4.2网页清洗步骤

4.3网页清洗技术设计

4.4本章小结

第五章基于Web的HTML网页清洗工具的设计与实现

5.1系统需求分析

5.2系统总体设计

5.3系统详细设计

5.3.1基于HTTP协议的Web代理服务器的设计与实现

5.3.2基于DOM的HTML网页解析

5.3.3 HTML页面清洗算法设计与实现

5.4系统实现

5.4.1开发环境

5.4.2系统界面

5.5实验结果

5.6本章小结

第六章总结与展望

参考文献

致谢

在学期间发表的学术论文和参加科研情况

展开▼

摘要

随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一.但是Web页面中包含了很多与主题无关的信息,例如弹出的广告、多余的图片以及一些无关的链接等.这些信息严重影响了对Web中有用信息的提取,因此网页清洗变得十分重要.本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上,提出了基于DOM(Document obiect Model-文档对象模型)树结构的网页清洗技术,并在Eclipse平台上开发了一个网页清洗工具.该工具能够有效地清洗网页中大多数与主题无关的信息,具有很好的实用价值和应用前景.

著录项

  • 作者

    刘斌;

  • 作者单位

    华北电力大学;

    华北电力大学(北京);

  • 授予单位 华北电力大学;华北电力大学(北京);
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 郑玲;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    数据挖掘; DOM树; 页面清洗技术; HTML文档;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号