【24h】

Record-Boundary Discovery in Web Documents

机译:Web文档中的录制边界发现

获取原文

摘要

Extraction of information form unstructured or semistructured Web documents often requires a recognition and delimitation of records. (By "record" we mean a group of information relevant to some entity.) Without first chunking documents that contain multiple records according to record boundaries, extraction of record information will not likely succeed. In this paper we describe a heuristic approach to discovering record boundaries in Web documents. In our approach, we capture the structure of a document as a tree of nested HTML tags, locate the subtree containing the records of interest, identify candidate separator tags within the subtree using five independent heuristics, and select a consensus separator tag based on a combined heuristic. Our approach is fast (runs linearly for practical cases within the context of the larger data-extraction problem) and accurate (100% in the experiments we conducted).
机译:信息表单的提取非结构化或半系统的Web文件通常需要记录的识别和界定。 (通过“记录”,我们的意思是一组与某些实体相关的信息。)如果没有根据记录边界包含多个记录的第一块块文档,则提取记录信息的提取将不太可能成功。在本文中,我们描述了一种在Web文档中发现录制边界的启发式方法。在我们的方法中,我们将文档的结构捕获为嵌套HTML标签的树,找到包含感兴趣记录的子树,使用五个独立启发式识别子树内的候选分隔符标记,并基于组合选择共识分离器标签启发式。我们的方法很快(在更大的数据提取问题的背景下线性运行),准确(我们进行的实验中100%)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号