首页> 中文学位 >暗网资源挖掘的关键技术研究
【6h】

暗网资源挖掘的关键技术研究

代理获取

摘要

进入21世纪后,科技发展日新月异,互联网技术飞速发展,特别是Web2.0技术的引入使得互联网应用渗透到社会生活的各领域。人们从互联网上获取信息的手段通常是使用浏览器,而浏览器搜索的基础是搜索引擎,搜索引擎是指自动从互联网搜集信息,经相关整理后给用户进行查询的系统。搜索引擎索引的资源通过搜索程序检索信息,这些搜索程序就像蜘蛛一样在网络间爬来爬去,被称为网络爬虫,网络爬虫根据网页中的超链接关系抓取资源,这些资源被称为浅层网络资源。然而,互联网中还存在很多资源无法通过网络爬虫直接获取,这些资源隐藏在Web数据库中,只能通过与数据库相关的查询接口提交查询的方式访问,这些资源被称为暗网资源。如果搜索引擎能够对其进行检索,将对提高搜索引擎的资源覆盖率有重要的现实意义。
  本文针对暗网(Hidden Web)资源挖掘进行了深入研究,分析暗网资源挖掘中的难点问题并提出了解决这些问题的算法。本文的主要工作包括以下几个部分:
  (1)对暗网查询接口识别和分类的分析与研究;
  (2)设计了暗网查询接口的查询构造方法;
  (3)设计并实现了算法来验证构造的URL链接的有效性,URL链接的有效性基于该URL对应的页面信息的有效性;
  (4)设计并实现了更多链接发现算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号