首页> 中文期刊>计算机工程与设计 >Web页面细粒度数据抽取方法研究

Web页面细粒度数据抽取方法研究

     

摘要

尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切.提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来.对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性.实验结果表明,该方法具有良好的抽取功率和准确率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号