首页> 中文学位 >基于CEF的页面分割算法的研究
【6h】

基于CEF的页面分割算法的研究

代理获取

目录

声明

论文说明

摘要

1 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文研究的问题和内容

1.4 本文的组织结构

2 相关技术研究

2.1 HTML语言介绍

2.2 DOM技术研究

2.2.1 DOM结点的分类

2.2.2 DOM树结构及其操作

2.3 网页中的视觉信息

2.4 基于视觉信息的页面分割算法

2.5 小结

3 基于JS的CEF功能的扩展

3.1 问题的描述

3.2 浏览器控件

3.2.1 WebBrowser

3.2.2 CEF框架

3.2.3 WebBrowser和CEF对比试验

3.3 利用JS获取页面的视觉信息

3.4 在CEF中访问页面结点

3.5 小结

4 基于CEF的VIPS算法的实现

4.1 问题的描述

4.2 视觉块抽取

4.2.1 内容一致度DoC以及PDoC

4.2.2 结点的分类

4.2.3 视觉块抽取算法

4.3 分隔条探测

4.3.1 分隔条探测算法

4.3.2 分隔条权重

4.4 内容结构构建

4.4.1 内容结构构建算法

4.4.2 内容结构构建示例

4.5 算法设计中的问题

4.6 实验结果与分析

4.7 小结

5 总结和展望

5.1 总结

5.2 展望

参考文献

致谢

个人简历

展开▼

摘要

当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。
  为了提高效率,本文选择在CEF(Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。
  本文主要工作如下:
  (1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。
  (2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。
  (3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。
  实验表明,本文提出的方法可以有效的对页面进行视觉块划分。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号