首页> 中文学位 >Web网页正文抽取方法研究
【6h】

Web网页正文抽取方法研究

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1问题的提出及意义

1.2研究内容

1.3论文结构

第2章 相关知识

2.1信息抽取

2.1.1数据的组织形式

2.1.2信息抽取概述

2.1.3 Web信息抽取概述

2.2 HTML

2.2.1 HTML的历史

2.2.2 HTML基本语法

2.2.3 HTML的特点

2.3 DOM

2.3.1 DOM的定义及特点

2.3.2 DOM的一些操作

2.4网页正文的定义

2.5本章小结

第3章 研究现状

3.1基于统计的方法

3.2基于DOM的方法

3.3基于网页分块的方法

3.4基于标签窗的方法

3.5基于模板的方法

3.6本章小结

第4章 网页正文抽取

4.1网页预处理

4.1.1字符编码问题

4.1.2网页规范化

4.1.3噪音信息过滤

4.2 DTE算法与模板生成

4.2.1节点类型定义

4.2.2节点比较算法

4.2.3 DOM树匹配算法

4.2.4候选子树中评论信息发现

4.3处理节点内容

4.3.1构造正文特征向量T

4.3.2抽取网页标题

4.3.3内容块中图片、表格等信息的处理

4.4使用模板抽取网页正文

4.5本章小结

第5章 原型系统的实现及实验

5.1工作环境

5.2原型系统的设计与实现

5.3实验与分析

5.3.1评价标准

5.3.2实验数据集

5.3.3实验结果及分析

5.4本章小结

第6章 结论与展望

6.1论文总结

6.2进一步的工作

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

随着Internet的迅速发展,WWW已发展为一个庞大的信息空间,为人们供了极其丰富的信息资源。然而一个网页的正文四周,通常会夹杂着许多与正文不相关的“噪音信息”,这些内容往往对人们浏览网页造成干扰。如何帮助人们提取出网页正文,避开不相关的信息干扰,对于Web数据清洗、文档自动摘要的形成以及文档分类等诸多领域的应用都是非常有意义的。
   本文对DSE(Data-rich Sub-tree Extraction)算法进行分析,提出了一种改进的基于网页结构和内容的网页正文抽取算法--DTE(DOM-Based TextExtraction),设计并实现了一个网页正文抽取原型系统,并将该算法应用到其中。DTE算法弥补了许多已有算法只关注网页结构或只关注网页内容的不足,同时考虑网页的结构和内容。
   DTE算法在把网页解析成DOM树的基础上,通过对DOM树的节点比较和匹配,确定网页的噪音信息节点和正文信息节点,从而精确获取网页模板。当新网页出现时,使用得到的网页模板去除大部分噪音信息后,结合语义,准确抽取正文信息。文中采用了一定的算法,定位出网页的评论、采用语义去除无关图片,能使保证正文图片和表格的完整性。
   实验表明,该方法可取得较高的准确率和完整性,能有效地抽取网页正文信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号