基于DOM模型的网页净化系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet技术的飞速发展,互联网上的信息成几何级数地增长。网络给人们提供了大量信息的同时,也给人们快速准确的获取信息带来了挑战。为了能有效地利用网页资源,就需要对这些资源进行预处理。预处理关键的问题之一是去除掉网页中的噪音数据,即把与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息,也即网页净化。
　　本文首先介绍了网页净化的方法和技术。其中网页净化的方法包括基于网页结构的方法、基于模版的方法和基于可视化信息的方法等。网页净化的技术则主要有三个方面:信息提取、网页分块和网页适应。
　　接着,本文介绍了可扩展超文本标记语言和文档对象模型的概念及其结构。在此基础上,本文提出了一种基于网页布局的文档对象模型(WLB_DOM模型),该模型的建立包括预处理、标签过滤和模型建立等过程,文中详细介绍了该模型的结构和构建方法。
　　然后,本文提出了一种基于WLB_DOM模型的网页净化算法,这是一种基于网页结构的方法和基于可视化信息的方法相结合的算法。该算法认为网页中同层布局空间最大的块即主题信息所在块。为了验证本算法的正确性和有效性,对来自CWT200G测试集的部分语料进行了实验,实验结果表明该算法有较高的准确率。
　　最后,本文在提出的模型和算法基础上,在Microsoft Visual Studio2008开发平台下,用C＃语言实现了一个基于WLB_DOM模型的网页净化系统原型。

著录项

作者
罗黎敏;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名林亚平,彭一江;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.07;
关键词
网页净化; 网页噪音; 网页分块; 网页布局; 文档对象模型;

相似文献

中文文献
外文文献
专利

1. 基于视觉特征去噪和DOM树的网页信息提取方法 [J] . 陈壮 ,葛斌 . 山西师范大学学报（自然科学版） . 2021 ,第004期
2. 基于网页DOM树节点路径相似度的正文抽取 [J] . 潘心宇 ,陈长福 ,刘蓉 . 微型机与应用 . 2016 ,第019期
3. 基于DOM树的网页去噪技术 [J] . 朱逢春 . 电子制作 . 2015 ,第008期
4. 基于超链接和 DOM 结构树的网页标题实时抽取方法 [J] . 张兵 ,汤进 ,罗斌 . 计算机与现代化 . 2015 ,第008期
5. 基于DOM树层次特征的多记录网页抽取∗ [J] . 陈巧灵 ,廖祥文 ,魏晶晶 . 模式识别与人工智能 . 2015 ,第002期
6. 基于DOM模型的XML查询处理器的设计与实现 [C] . 周巍 ,孙冰 ,战立明 . 第18届全国数据库学术会议 . 2001
7. 基于DOM结构聚类的钓鱼网页检测方法研究 [A] . 张莹 . 2019

基于DOM模型的网页净化系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅