基于CEF的页面分割算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当前，对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法，基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖，只利用网页的视觉信息抽取数据，提高了抽取的准确性。然而，利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前，已经有许多方法可以实现对网页的划分。在这些方法中，VIPS算法（基于视觉信息的页面分割算法）取得的效果是最好的。相比于其他的方法，VIPS算法不依赖网页的结构，即使网页结构发生变化，VIPS算法也能取得很好的效果。鉴于VIPS算法的优点，本文采用VIPS算法实现了对网页的分割。
　　为了提高效率，本文选择在CEF（Chromium Embedded Framework）框架中实现VIPS算法，并在CEF框架中实现了对页面结点视觉信息的获取。
　　本文主要工作如下:
　　(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割，将不能被分割的DOM结点作为一个视觉块存放在集合中。
　　(2)分隔条探测。首先将整个页面当作一个分隔条，根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。
　　(3)内容结构构建。从权重最小的分隔条集合开始，依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块，以此类推，直到遇到权重最大的分隔条集合。最终，内容结构构建完成，得到该页面对应的视觉块树。
　　实验表明，本文提出的方法可以有效的对页面进行视觉块划分。

著录项

作者
朱冰阳;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科计算机技术
授予学位硕士
导师姓名张巍;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
计算机网络; 网页分割算法; 视觉信息; 嵌入式Chromium框架;

相似文献

中文文献
外文文献
专利

1. 基于文本频率页面分割算法对论坛正文提取 [J] . 马凯凯 ,钱亚赫 ,阮东跃 . 中国水运（下半月） . 2018 ,第002期
2. 文本图像页面分割算法研究 [J] . 刘仁金 ,高远飙 ,郝祥根 . 中国科学技术大学学报 . 2010 ,第005期
3. 基于页面集的异步刷新页面爬取技术研究 [J] . 张萌 . 科技创新导报 . 2020 ,第024期
4. CEF-100方案与CEF-60方案对乳腺癌辅助化疗临床耐受性的随机对照研究 [J] . 李津凯 . 现代中西医结合杂志 . 2011 ,第003期
5. 基于CEF浏览器渲染引擎插件的混合式桌面开发研究 [J] . 吴翔 . 数字技术与应用 . 2015 ,第006期
6. 基于页面模板和配置文件的web页面生成方法 [C] . 朱雷 ,袁兆山 ,潘玲 . 全国第18届计算机技术与应用学术会议(CACIS) . 2007
7. 浅谈基于新媒体平台的HTML5页面艺术设计——以H5邀请函页面设计为例进行分析 [A] . 高涵 . 2017

基于CEF的页面分割算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅