【24h】

Extracting Content Structure for Web Pages Based on Visual Representation

机译:基于视觉表示的网页内容结构提取

获取原文
获取原文并翻译 | 示例

摘要

A new web content structure based on visual representation is proposed in this paper. Many web applications such as information retrieval, information extraction and automatic page adaptation can benefit from this structure. This paper presents an automatic top-down, tag-tree independent approach to detect web content structure. It simulates how a user understands web layout structure based on his visual perception. Comparing to other existing techniques, our approach is independent to underlying documentation representation such as HTML and works well even when the HTML structure is far different from layout structure. Experiments show satisfactory results.
机译:提出了一种基于视觉表示的Web内容结构。这种结构可以使许多Web应用程序(例如信息检索,信息提取和自动页面适应)受益。本文提出了一种自上而下的,与标签树无关的自动方法来检测Web内容结构。它根据用户的视觉感受模拟用户如何理解Web布局结构。与其他现有技术相比,我们的方法独立于诸如HTML之类的基础文档表示形式,即使HTML结构与布局结构相差甚远,其效果也很好。实验结果令人满意。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号