【24h】

EGA: An Algorithm for Automatic Semi-structured Web Documents Extraction

机译:EGA:一种自动半结构化Web文档提取算法

获取原文
获取原文并翻译 | 示例

摘要

With the fast expansion of World Wide Web, more and more semi-structured web documents appear on the web. In this paper, we study how to extract information from the semi-structured web documents by automatically generated wrappers. To automate the wrapper generation and the data extraction process, we develop a novel algorithm EGA (EPattern Generation Algorithm) to conduct the extraction pattern based on the local structural context features of the web documents. These optimal or near optimal extraction patterns are described in XPath language. Experimental results on RISE and our own data sets confirm the feasibility of our approach.
机译:随着万维网的快速扩展,越来越多的半结构化Web文档出现在Web上。在本文中,我们研究了如何通过自动生成的包装程序从半结构化Web文档中提取信息。为了使包装器的生成和数据提取过程自动化,我们开发了一种新颖的算法EGA(EPattern生成算法)来基于Web文档的局部结构上下文特征进行提取模式。这些最佳或接近最佳的提取模式以XPath语言描述。 RISE和我们自己的数据集的实验结果证实了我们方法的可行性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号