首页> 外文期刊>SIGMOD record >Automatic Composite Wrapper Generation for Semi-Structured Biological Data Based on Table Structure Identification
【24h】

Automatic Composite Wrapper Generation for Semi-Structured Biological Data Based on Table Structure Identification

机译:基于表结构识别的半结构化生物数据自动生成复合包装

获取原文
获取原文并翻译 | 示例
           

摘要

Biological data analyses usually require complex manipulations involving tool applications, multiple web site navigation, result selection and filtering, and iteration over the internet. Most biological data are generated from structured databases and by applications and presented to the users embedded within repeated structures, or tables, in HTML documents. In this paper we outline a novel technique for the identification of table structures in HTML documents. This identification technique is then used to automatically generate composite wrappers for applications requiring distributed resources. We demonstrate that our method is robust enough to discover standard as well as non-standard table structures in HTML documents. Thus our technique outperforms contemporary techniques used in systems such as XWrap and AutoWrapper. We discuss our technique in the context of our PickUp system that exploits the theoretical developments presented in this paper and emerges as an elegant automatic wrapper generation system.
机译:生物数据分析通常需要复杂的操作,包括工具应用程序,多个网站导航,结果选择和过滤以及通过Internet进行迭代。大多数生物数据是从结构化数据库和应用程序生成的,并呈现给嵌入HTML文档中重复结构或表格中的用户。在本文中,我们概述了一种用于识别HTML文档中的表结构的新颖技术。然后,使用此标识技术为需要分布式资源的应用程序自动生成复合包装。我们证明了我们的方法足够强大,可以发现HTML文档中的标准和非标准表结构。因此,我们的技术优于XWrap和AutoWrapper等系统中使用的现代技术。我们在PickUp系统的背景下讨论了我们的技术,该系统利用了本文介绍的理论发展,并成为一个优雅的自动包装器生成系统。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号