首页> 中文期刊>信息技术 >物流车货源信息自动抽取系统研究与实现

物流车货源信息自动抽取系统研究与实现

     

摘要

针对物流车货源信息自动抽取方法匮乏,手工构建繁琐且难于维护,物流信息抽取冗余且效率低下的问题,文中根据车货源页面结构特点,通过标签路径识别页面主体元素,并通过元素CLASS选择器自动构建抽取规则,提出了基于标签路径及CSS选择器的全自动抽取模板的构建方法,在一定程度上实现了物流车货源信息的自动化采集工作,降低了人工构建包装器的成本,保证了抽取规则的准确度,并通过搭建基于Scrapy-redis的分布式爬虫,实现物流信息的高效抽取,并将抽取的数据存储在MongoDB数据库中.实验表明自动生成的抽取规则可以替代人工构建的抽取模板,分布式抽取方式与传统单机抽取方法在抽取效率上有明显的提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号