首页> 中文期刊> 《电脑与电信 》 >定向网络信息采集系统的研究

定向网络信息采集系统的研究

             

摘要

通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统.该系统针对目标网站,抓取主题及回复网页.获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化.同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取.系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号