首页> 外文会议>IT in Medicine and Education, 2008 IEEE International Symposium on >Efficient focused crawling strategy using combination of link structure and content similarity
【24h】

Efficient focused crawling strategy using combination of link structure and content similarity

机译:结合链接结构和内容相似性的高效集中式爬网策略

获取原文
获取外文期刊封面目录资料

摘要

At present, focused crawler usually crawl pages using the link structure or page contents. But both of them have some flaws. So we designed an efficient crawling strategy, which combine the link structure with content similarity. We extracted topic feature vector automatically and judge the topic similarity of a page using combination of link structure and page content. We also forecast the URL similarity using link structure in topic pages. Experiments showed that this strategy effectively increase the precision of fetching topic pages.
机译:目前,专注的爬虫通常使用链接结构或页面内容来爬网页面。但是它们两者都有一些缺陷。因此,我们设计了一种有效的爬网策略,该策略将链接结构与内容相似性相结合。我们自动提取主题特征向量,并使用链接结构和页面内容的组合来判断页面的主题相似度。我们还使用主题页面中的链接结构来预测URL的相似性。实验表明,该策略有效地提高了获取主题页面的精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号