首页> 中文学位 >Deep Web网络蜘蛛研究与初步设计
【6h】

Deep Web网络蜘蛛研究与初步设计

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1问题的提出

1.1.1 Internet信息组织结构

1.1.2 Deep Web概念

1.1.3 Deep Web研究目的与意义

1.2 Deep Web国内外研究与发展现状

1.3论文研究内容

1.4论文结构

第二章传统搜索引擎与Deep Web信息集成系统概述

2.1搜索引擎简介

2.2搜索引擎的发展历史与现状

2.2.1传统搜索引擎的发展历史与现状

2.2.2Deep Web信息集成系统发展历史和现状

2.3传统搜索引擎的工作原理与体系结构

2.3.1传统搜索引擎的工作原理

2.3.2传统搜索引擎的体系结构

2.3.3传统搜索引擎的不足

2.4 Deep Web信息集成系统工作原理与体系结构

2.4.1 Deep Web不可见原因

2.4.2 Deep Web信息集成系统工作原理

2.4.3 Deep Web信息集成体系结构

2.5传统搜索引擎与Deep Web信息集成系统的区别

2.6本论文的工作重点与创新点

第三章Deep Web网络蜘蛛总体设计

3.1 Deep Web网络蜘蛛设计中的有关问题

3.1.1 Deep Web网络蜘蛛要完成的任务

3.1.2解决发现Web数据库方法的研究

3.2 Deep Web网络蜘蛛设计

3.2.1 Deep Web网络蜘蛛工作流程设计

3.2.2Deep Web网络蜘蛛体系结构设计

3.2.3 Deep Web网络蜘蛛运行控制界面设计

3.3系统开发环境简述

第四章Web服务器扫描设计与实现

4.1 Web服务器扫描模块体系结构

4.2 Web服务器扫描模块具体流程设计

4.3数据存贮结构设计

4.4 Web服务器扫描具体设计中考虑问题与解决方法

4.4.1Web服务器扫描具体设计中考虑问题

4.4.2问题的解决方法与实现

4.5 Web服务器扫描模块实验数据与分析

第五章Deep Web查询接口抽取与预处理

5.1 Deep Web查询接口提取的作用与困难

5.2 Deep Web查询接口抽取研究现状

5.3网页中的表单结构分析

5.4 Deep Web查询接口表示模型

5.5表单接口提取设计

5.5.1网页标记树模型构建

5.5.2网页标记树实现算法

5.5.3查询接口抽取实现算法

5.6查询接口提取与预处理模块具体实现

5.7实验数据与分析

第六章Deep Web查询接口合并与分类

6.1 Deep Web数据库分类

6.2 Deep Web数据库分类研究

6.3 Deep Web数据库分类实现

6.3.1Deep Web数据库查询接口模型合并模式

6.3.2通过聚类集合近似求解(ISIP)

6.4实验结果和数据

第七章结束语

7.1总结

7.2进一步的讨论及展望

参考文献

攻读学位期间取得的研究成果

致谢

展开▼

摘要

目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep Web信息。如何快速有效获取Deep Web信息正成为搜索引擎研究的热点和和发展趋势。 本文重点对网络蜘蛛(Spider or crawler)的研究和改进,以及Deep Web信息提取涉及到的相关技术和算法问题,设计和实现了一个Deep Web网络蜘蛛。论文的主要工作包括以下几个方面: 1.分析了传统搜索引擎的设计思想、工作原理和体系结构,从而发现传统搜索引擎在技术上存在的缺陷、不足之处和可改进的地方。 2.分析了Deep Web信息集成系统的工作原理和体系结构,并简要说明Deep Web信息集成系统工作流程,系统组成模块中各个模块的功能。 3.在以上相关理论和研究结果的基础上,提出了本文中设计Deep Web网络蜘蛛的思想、体系结构和工作流程。 4.针对网页采集问题,提出有选择的采集网页类型策略和控制重复网页采集策略,有效地过滤了噪音信息和重复网页抓取问题。 5.针对从静态网页中提取Deep Web数据库查询接口问题,提出通过分析网页构建网页标记树模型,通过遍历网页标记树来寻找查询接口。提出用对象模型表示(DWI)查询接口和存储表单数据,为后续查询接口合并与分类提供有效的数据表示模型和良好的存储结构,并给出具体实现算法。 6.针对Deep Web查询接口合并与分类问题,提出通过聚类方法实现对其合并与分类,并设计和实现了Lmax算法,使得查询接口分类与合并的准确性有很大的提高。 7.总结了Deep Web网络蜘蛛研究与开发经验,并指出了不足之处以及下一步研究的重点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号