首页> 中文学位 >基于多特征的网页信息抽取技术的研究与应用
【6h】

基于多特征的网页信息抽取技术的研究与应用

代理获取

目录

声明

摘要

1.绪论

1.1 课题背景与意义

1.2 国内外研究现状

1.2.1 网页信息形式化组织研究现状

1.2.2 信息抽取技术研究现状

1.3 论文研究思路及创新点

1.4 论文组织结构

2.网页信息抽取相关技术介绍

2.1 网页信息抽取概念

2.2 网页信息抽取关键技术

2.2.1 HTML

2.2.2 XML

2.2.3 DOM

2.2.4 正则表达式

2.3 网页信息抽取评价标准

2.4 本章小结

3.网页信息形式化描述模型

3.1 网页信息形式化描述概念及原理

3.1.1 网页信息形式化描述概念

3.1.2 网页信息形式化组织原理

3.2 网页信息粒度模型

3.3 网页形式化模型优点

3.4 本章小结

4.基于结构与视觉相结合的信息抽取算法改进

4.1 网页结构分析技术

4.1.1 利用DOM树分析页面结构

4.1.2 利用HTML标签特性分析

4.1.3 利用网页视觉特征

4.2 网页DOM结构预处理

4.2.1 HTML格式标准化

4.2.2 网页噪声信息清除

4.2.3 DOM树节点标记信息处理

4.3 基于DOM结构的HTML标签分析

4.3.1 HTML结构性标签分析

4.3.2 HTML可视性标签分析

4.4 文本视觉特征提取与处理

4.4.1 基于CSS样式的视觉特征处理

4.4.2 基于文本特征的视觉特征处理

4.5 基于提取特征的块聚类

4.6 阈值的分析与确定

4.6.1 标签阈值

4.6.2 文本阂值

4.7 本章小结

5.仿真及应用实验系统设计

5.1 传统网站移动化系统简介

5.2 实验环境

5.3 仿真实验系统架构设计

5.3.1 信息抽取模块

5.3.2 网页预处理模块

5.3.3 DOM结构处理模块

5.3.4 视觉信息处理模块

5.3.5 信息块处理模块

5.3.6 超链接处理模块

5.4 仿真实验结果及分析

5.4.1 网页抽取与组织实验

5.4.2 运行结果分析

5.5 应用系统实验结果及分析

5.5.1 应用及优势

5.5.2 运行效果演示

5.6 本章小结

6.总结与展望

6.1 主要工作

6.2 主要创新点

6.3 存在问题及未来方向

参考文献

个人简历

在校期间研究成果

致谢

展开▼

摘要

随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上,所有的网页不仅含有重要信息,同时也包含了与主题信息无关的噪声信息,比如广告信息,导航栏等。它们严重影响了信息抽取的准确性,因而网页信息抽取技术的研究应运而生,成为研究的热点。
  另一方面,在现有的网页信息抽取方法中,其重点在于区分页面的重要信息和噪声信息,提高重要信息抽取的准确性和效率性,但对于抽取后网页信息数据却缺乏形式化组织,导致获取的重要信息相互杂糅在一起,形成了无法区分的整段信息,无法对重要信息再进行分类,导致抽取的网页信息粒度较粗,在后续应用中可用性较差。
  本文介绍了网页信息抽取技术的发展、原理和相关技术,深入讨论了现有网页信息抽取技术,重点研究了VIPS算法。本文主要研究点如下:
  (1)针对现有网页信息形式化组织的缺乏,本文提出了一种网页信息形式化描述,在清除了网页噪声信息的基础上,将原有网页重要信息的粗粒度进行细分,针对互联网中比重最大的门户类网站,我们将网页重要信息描述为主题,发表日期,浏览次数,正文信息,多媒体信息,评论信息等形式化结构,同时为每部分形式化描述设置不同权重,根据信息抽取结果中是否存在相应部分来判断单个网页的信息抽取的准确性。同时抽取的重要信息通过形式化描述进行了细化,形成了更加规范和严格的数据组织形式,为以后的数据分析和其他应用提供了更高的可用性。
  (2)针对现有信息抽取算法对本文提出的网页信息形式化组织支持方面的缺乏以及现有抽取技术的不足,本文提出了一种针对网页信息形式化组织的基于VIPS算法改进的网页信息抽取技术。本技术结合了DOM结构和视觉特征两方面,采用自上而下,逆序解析DOM结构,同时利用视觉特征和DOM结构特征作为信息抽取的依据,将标签分块和视觉分块相互结合,同时根据网页信息的形式化描述结构对块进行分类,对于同属一个形式化描述结构的相似块,根据其标签路径等特征对相似块进行合并,最终将网页抽取的重要信息根据其形式化描述分成不同块,此技术综合了网页DOM结构和视觉特征的优势,提高了网页信息抽取的准确率。
  最后,将本文提出的信息抽取方法与其他传统的信息抽取算法进行了比较,并将其抽取结果应用于提出的网页信息形式化组织。经过仿真实验表明,本文提出的网页信息形式化描述更规范,更有利用价值,同时提出的方法抽取信息具有更高的分类准确性。最终我们将其在现有的传统网页移动化系统中进行了应用试验,实例是基于青岛某大学的PC网站设计的移动校园网站,该移动网站主要用于在移动设备上访问,包括Android以及iOS等智能终端,较好的提高了网页信息重组后的用户体验,取得了比较理想的实验效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号