首页> 中文期刊> 《山东师范大学学报:自然科学版》 >基于Heritrix和Jsoup的信息抽取系统的设计与实现

基于Heritrix和Jsoup的信息抽取系统的设计与实现

         

摘要

应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号