一种按需配置的Web文本信息定向抓取方法

摘要

本文提出一种模拟客户端HTTP请求定向获取web 文本并进一步加工以抓取所需数据的方法,以第二次提取数据的形式实施数据的重复利用.利用一个可以制定抓取页面内容并制定抓取页面保存结果的配置文件,通过HttpClient模拟用户对服务器页面的请求并利用HtmlParser 提取指定的DOM 结构,有针对性的对页面信息进行抓取和保存.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号