首页> 中文期刊> 《电脑编程技巧与维护》 >基于CSS选择器技术的信息提取系统设计与实现

基于CSS选择器技术的信息提取系统设计与实现

         

摘要

随着互联网的发展,社交媒体的壮大,个人用户和自媒体登上历史舞台,对于网络信息的整理和分析正在成为运营个人账户和自媒体的一种必要技能.现存网页爬虫技术非常成熟,但是对于自媒体和小团队来说功能冗余、复杂度相对较高,并且由于网页爬虫的设计是基于全量网页分析设计的,而自媒体和小团队往往只对有限的网址目标感兴趣,如果采用网页爬虫技术会得到很多无用信息,还需要投入精力清洗数据费时费力.设计实现一种基于CSS选择器技术的目标信息抽取系统,可以通过配置文章特征,利用DOM数据自动提取目标文章,实现更精准的信息收集.另外,由于采用模拟DOM响应的方式获取信息,同步解决了URL动态生成,网页爬虫无法抓取文章URL的问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号