【24h】

Recognition of HTML Table Structure

机译:识别HTML表结构

获取原文
获取外文期刊封面目录资料

摘要

Tables in HTML Web pages have become precious knowledge sources. Therefore it is reasonable and necessary to develop an algorithm to extract knowledge from them. For this, we need a system to identify the boundary between attributes and values of a table in HTML. In this paper, we propose an algorithm for this purpose. The outline of the algorithm is that if we find a row(or column) having low similarity with other rows (or columns), it is probably an attribute name row (or column), otherwise value data rows(or columns). The algorithm based on this idea results in 82% accuracy of recognition of lengthways and 78% accuracy of recognition of sideways for 300 tables in HTML of Web pages downloaded from the Web.
机译:HTML网页中的表已成为珍贵的知识来源。 因此,开发一种从中提取知识的算法是合理和必要的。 为此,我们需要一个系统来标识HTML中表的属性和值之间的边界。 在本文中,我们为此目的提出了一种算法。 算法的轮廓是,如果我们找到与其他行(或列)具有低相似性的行(或列),则可能是属性名称行(或列),否则值数据行(或列)。 基于此思想的算法导致82%的识别概率识别和78%的识别精度为300张来自Web的网页的HTML中的300个表。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号