首页> 中文学位 >Deep Web页面结构分析与核心内容提取研究
【6h】

Deep Web页面结构分析与核心内容提取研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪论

1.1 课题研究背景与研究意义

1.2 国内外研究现状

1.3 研究方法

1.4 本文的主要工作

1.5 本章小结

2 本文相关理论与技术

2.1 HTML技术介绍

2.2 CSS技术介绍

2.3 HTML Parser

2.4 Web文档结构相似性算法

2.5 本章小结

3 Deep Web页面的标签特征和视觉特征分析

3.1 标签特征

3.2 视觉特征

3.3 本章小结

4 Deep Web页面内容结构提取

4.1 Tag-Tree噪声节点过滤

4.2 视觉块聚类

4.3 本章小结

5 Deep Web查询结果页面rich-content area提取

5.1 查询页面和查询结果页面的比较

5.2 rich-content area的提取

5.3 本章小结

6 实验结果与分析

6.1 树型相似性算法的实验结果

6.2 内容结构提取的实验结果

6.3 核心内容域提取的实验结果

6.4 本章小结

7 总结和展望

7.1 本文总结

7.2 展望

致谢

参考文献

展开▼

摘要

随着互联网的高速发展和广泛应用,网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著,称这部分资源为Deep Web。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。
  在Deep Web数据提取方面,很多工作都是对Deep Web页面数据记录或是数据项的研究,如何深入分析Deep Web整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分,但是这两项研究内容对Deep Web语义标注、Deep Web数据提取、Web信息检索和文本处理具有重要意义。因此,本文主要的研究工作聚焦于任意Deep Web页面内容结构的提取和Deep Web查询结果页面核心内容域的提取。主要研究及成果如下:
  第一:Deep Web页面的标签特征和视觉特征
  本文通过分析大量的Deep Web页面发现,Deep Web页面具有标签和视觉两方面的特征。从这两个方面入手,提出了一种结合标签信息和视觉信息分析页面的方法,该方法从客观和主观两方面分析了Deep Web页面的特征。采用树型的结构来表述页面的标签信息和视觉信息,分别使用Tag-Tree表示页面的标签信息,使用Visual-AttributeTree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。
  第二:Deep Web页面内容结构的提取
  本文采用树型结构来表示页面的内容结构,将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面,树中的每个块对应着页面中的一个矩形区域,树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法,实验表明该算法能很好地提取页面的内容结构。
  第三:Deep Web查询结果页面核心内容域(rich-contentarea)的提取
  本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块,从这些内容块中提取出rich-contentarea,实验表明了该方法的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号