首页> 外文会议>International conference on teaching and computational science;WTCS 2009 >Automatic Data Extraction from Lists in Web Pages Based on XML
【24h】

Automatic Data Extraction from Lists in Web Pages Based on XML

机译:基于XML的网页列表中的自动数据提取

获取原文
获取外文期刊封面目录资料

摘要

This paper proposes an automatic web information extraction method based on XML. Using the similarity of information structure in the web page template to create the DOM tree, it gets the recording mode of web information automatically by analyzing the PathPattern of the DOM tree. The whole process of this approach is fully automatic, avoiding any sample collection and man-made mark. Besides, some experiments were made to test the approach. It proved that this approach is totally feasible.
机译:提出了一种基于XML的自动Web信息提取方法。利用网页模板中信息结构的相似性创建DOM树,通过分析DOM树的PathPattern自动获取Web信息的记录方式。此方法的整个过程是全自动的,避免了任何样品收集和人为标记。此外,还进行了一些实验来测试该方法。证明了这种方法是完全可行的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号