首页> 中文学位 >基于两阶段的深层网络数据源发现系统研究
【6h】

基于两阶段的深层网络数据源发现系统研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究内容

1.4 论文组织结构

2 SmartCrawler深层网络数据源发现系统的设计

2.1 主要设计思想

2.2 体系结构与功能模块

2.3 系统工作流程

2.4 本章小结

3 特征提取和自适应排序

3.1 学习智能体

3.2 在线特征空间构建

3.3 排序机制

3.4 本章小结

4 增量式深层网络数据源发现

4.1 基于反向爬行的站点收集

4.2 增量式的爬取

4.3 站内搜索

4.4 层次表单分类

4.5 本章小结

5 实验结果与分析

5.1 测试指标与测试集

5.2 测试环境

5.3 功能测试

5.4 性能测试

5.5 本章小结

6 总结和展望

6.1总结

6.2展望

致谢

参考文献

附录1 攻读学位期间参加的主要科研项目

附录2 攻读学位期间申请的国家发明专利

展开▼

摘要

互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量,高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息的前提。由于Web本质是动态变化的,不断有新的数据源加入和旧的数据源撤出,以及查询表单稀疏分布的特点,现有的深层网络数据源发现系统会访问大量无关页面,导致效率低下。
  基于两阶段的深层网络数据源发现系统(SmartCrawler),将数据源发现过程分为站点定位阶段和站内搜索阶段,并具有自适应、增量式和高效等特点。站点定位阶段借助搜索引擎反向爬行已发现的深层网络站点来收集站点数据,保证站点队列有充足的候选数据;采用自适应的站点排序机制实现优先选取潜在深层网络站点以及站点分类器来实现聚焦爬行。站内搜索阶段采取平衡的优先访问策略,在优先访问潜在指向含查询表单页面同时,通过设计树型结构来保证站点内部的覆盖范围。站点和链接优先选取策略采用学习智能体方法,通过自动抽取爬行过程中发现的深层网络站点和表单路径特征,并构建相应的特征空间作为站点和链接排序的依据,能够自适应的调节爬行过程中站点和链接的选取。
  为了验证两阶段爬虫的性能,通过实现三种不同策略的爬虫,在8个具有代表性的领域,分别访问100,000个页面。测试结果表明,SmartCrawler能够有效提高爬行效率,在相同条件下能够收获更多的查询表单和覆盖更广的深层网络站点。自适应学习机制可以有效学习到新的特征,指导爬行过程中站点和链接的选取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号