首页> 中文会议>第五届全国信息检索学术会议CCIR2009 >基于版块的论坛增量搜集策略

基于版块的论坛增量搜集策略

摘要

本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的蕈抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出丁基于版块的论坛增量搜集策略。该策略将属十同一版块的信息定义为一个版块对象,并以版块对象为重抓取的基本单位。同时该策略利用版块权重和局部时间规律分配抓取资源和确定抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.4%,并且与平均调度方法相比系统总延迟最高可减小42%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号