首页> 中文期刊>硅谷 >微博爬虫研究与实现

微博爬虫研究与实现

     

摘要

研究了微博爬虫程序的4个关键模块:模拟登录、页面抓取、页面解析、任务调度。介绍了模拟登录的三种方法,通过账号密码登录、使用Cookie登录、使用第三方账号登录,并且探讨了三者登录方法的优缺点。探讨了HTMLParser和正则表达式在解析微博页面时的运用方法和原则。提出了微博搜索爬虫的任务调度基本算法并且在此基础上进行改进增加了任务调度优化算法。在这些研究的基础上实现了一个微博搜索爬虫程序,该程序可以针对新浪微博和搜狐微博经关键词搜索的页面进行爬取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号