首页> 中文期刊> 《科技导报》 >基于Deep Web Search技术的主题式爬虫模块研究与设计

基于Deep Web Search技术的主题式爬虫模块研究与设计

         

摘要

随着Web技术的飞速发展,海量数据的管理与搜索变得尤为重要。海量信息的异构性和动态性特点要求信息集成需要Web爬虫来自动获取这些页面,以便进一步处理数据。而一些企业内部的资料既要保密又要供不同的内部职员使用,这种既开放又保守的特点成为企业发展的瓶颈。为了帮助用户完成这样的任务,本文改变传统的资源共享形式,为企业提供了一个高效便利保密的资源共享管理平台--企业搜索引擎(ESE),提出了一种基于主题式爬虫的Deep Web页面的企业搜索引擎(ESE)的和基于开源Java Lucene的索引企业搜索系统设计与实现方法。通过在电信行业Deep Web站点部署实验,经运行检验,结果达到了设计指标要求,为电信行业搜索发挥了作用。并对搜索的精度、速度,以及垃圾网页反舞弊等方面研究进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号