首页> 外文会议>International Conference on Data Mining >FiVaTech: Page-Level Web Data Extraction from Template Pages
【24h】

FiVaTech: Page-Level Web Data Extraction from Template Pages

机译:fivatech:从模板页面提取页面级网页数据

获取原文
获取外文期刊封面目录资料

摘要

In this paper, we proposed a new approach, called FiVaTech for the problem of Web data extraction. FiVaTech is a page-level data extraction system which deduces the data schema and templates for the input pages generated from a CGI program. FiVaTech uses tree templates to model the generation of dynamic Web pages. FiVaTech can deduce the schema and templates for each individual Deep Web site, which contains either singleton or multiple data records in one Web page. FiVaTech applies tree matching, tree alignment, and mining techniques to achieve the challenging task. The experiments show an encouraging result for the test pages used in many state-of-the-art Web data extraction works.
机译:在本文中,我们提出了一种新的方法,称为Fivatech用于Web数据提取问题。 Fivatech是一种页面级数据提取系统,用于推导到从CGI程序生成的输入页面的数据模式和模板。 Fivatech使用树模板来模拟动态网页的生成。 Fivatech可以为每个Deep Web站点推断架构和模板,其中包含一个网页中的单例或多个数据记录。 Fivatech应用树匹配,树对齐和采矿技术来实现具有挑战性的任务。实验表明,在许多最先进的网络数据提取工作中使用的测试页面的令人鼓舞的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号