基于Web的HTML网页清洗技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一.但是Web页面中包含了很多与主题无关的信息,例如弹出的广告、多余的图片以及一些无关的链接等.这些信息严重影响了对Web中有用信息的提取,因此网页清洗变得十分重要.本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上,提出了基于DOM(Document obiect Model-文档对象模型)树结构的网页清洗技术,并在Eclipse平台上开发了一个网页清洗工具.该工具能够有效地清洗网页中大多数与主题无关的信息,具有很好的实用价值和应用前景.

著录项

作者
刘斌;
展开▼
作者单位

华北电力大学;

华北电力大学(北京);

展开▼
授予单位华北电力大学;华北电力大学(北京);
学科计算机应用技术
授予学位硕士
导师姓名郑玲;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
数据挖掘; DOM树; 页面清洗技术; HTML文档;

相似文献

中文文献
外文文献
专利

1. 基于Web和多媒体技术的《网页设计》教学体系的研究与实现 [J] . 刘三星 . 信息与电脑：理论版 . 2016,第005期
2. 基于Web和多媒体技术的《网页设计》教学体系的研究与实现 [J] . 刘三星 . 信息与电脑 . 2016,第005期
3. 基于Web挖掘的网页清洗技术 [J] . 李嘉佑 ,贾自艳 ,何清 . 计算机工程与应用 . 2006,第025期
4. 基于webGL和HTML5的网页3D动画的设计与实现 [J] . 谭文文 ,丁世勇 ,李桂英 . 电脑知识与技术 . 2011,第028期
5. 基于webGL和HTML5的网页3D动画的设计与实现 [J] . 谭文文 ,丁世勇 ,李桂英 . 电脑知识与技术：学术交流 . 2011,第010期
6. 基于HtmlParser网页解析技术的信息提取实践 [C] . 刘小野 . 第二届中国石油石化产业“互联网+”应用发展大会 . 2016
7. 基于WebSocket协议的实时网页通信的研究与实现 [A] . 包文祥 . 2018

基于Web的HTML网页清洗技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅