首页> 中文期刊> 《计算机应用研究》 >基于贝叶斯分类器的主题爬虫研究

基于贝叶斯分类器的主题爬虫研究

         

摘要

主题爬虫是实现定题搜索引擎的核心技术.提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法.爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度.实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号