首页> 中文会议>第四届全国信息检索与内容安全学术会议 >基于Web链接的主题爬行虫初始URL的研究

基于Web链接的主题爬行虫初始URL的研究

摘要

主题爬虫根据用户查询确定主题信息,通过网页间的超链接,有选择性的在Web上遍历,获取与主题相关网页.它遍历的是整个Web中特定的部分区域.因此为了在较短时间内获取更多的主题信息,起始地址的选择显得异常重要.超链接,作为整个Web网络的连接者,隐含着大量的主题信息.本文使用一个关于网页链接的文本集来模拟Web结构,通过实验结果分析主题区域在Web上的分布规律,验证根据查询主题选择初始URL对主题爬行虫有重大意义.最后结合图论中的相关知识,针对目前初始URL选择所存在的问题给出相应的解决方案.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号