首页> 外文会议>Information Reuse and Integration, 2007 IEEE International Conference on >Visual Segmentation-Based Data Record Extraction from Web Documents
【24h】

Visual Segmentation-Based Data Record Extraction from Web Documents

机译:从Web文档中基于可视分段的数据记录提取

获取原文
获取原文并翻译 | 示例

摘要

Semi-structured data records contained in the Web pages provide useful information for shopping agents and metasearch engines. In this paper, we present a visual segmentation-based data record extraction (VSDR) method to extract data records from those Web pages. VSDR method first segments a Web page into semantic blocks using the spatial closeness and visual resemblance of data records, then neighboring and non-neighboring data records are extracted based on a compress and collapse technique. Experimental results show that unlike the existing methods which only generate good results on their test domains, VSDR is a general data record extraction method that is able to produce quite stable and good results on a wide range of Web pages.
机译:网页中包含的半结构化数据记录为购物代理商和元搜索引擎提供了有用的信息。在本文中,我们提出了一种基于视觉分段的数据记录提取(VSDR)方法,以从那些Web页面中提取数据记录。 VSDR方法首先使用数据记录的空间紧密性和视觉相似性将网页划分为语义块,然后基于压缩和折叠技术提取相邻和不相邻的数据记录。实验结果表明,与现有方法仅在其测试域上产生良好结果的方法不同,VSDR是一种通用的数据记录提取方法,它能够在各种Web页面上产生相当稳定且良好的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号