首页> 中文期刊>计算机与数字工程 >可动态自适应主题爬虫的研究

可动态自适应主题爬虫的研究

     

摘要

针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题.论文提出了一种可动态自适应互联网信息的主题爬虫.其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上.另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法.相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号