首页> 中文期刊> 《现代计算机:上半月版》 >模板化的Web列表页面信息自动抽取方法的研究

模板化的Web列表页面信息自动抽取方法的研究

         

摘要

提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号