首页> 中文学位 >基于网格技术的Web信息采集系统
【6h】

基于网格技术的Web信息采集系统

代理获取

目录

文摘

英文文摘

学位论文版权使用授权书及硕士学位论文原创性声明

第1章绪论

1.1课题背景

1.2课题内容

1.3论文安排

第2章Web信息采集系统

2.1基本原理

2.2系统结构

2.3研究现状

2.4Nutch项目

2.4.1Nutch项目简介

2.4.2Nutch系统结构

2.4.3Nutch采集部分

2.5小结

第3章网格技术

3.1网格概念

3.2体系结构

3.2.1五层沙漏结构

3.3.2开放网格服务体系结构

3.3研究现状

3.4 Globus项目

3.4.1 Globus项目简介

3.4.2 GT4 WSRF架构

3.4.3 GT4核心组件

3.5小结

第4章网格Web信息采集系统设计

4.1核心问题

4.1.1页面并行采集

4.1.2采集页面选择

4.1.3页面刷新问题

4.1.4动态页面采集

4.1.4工程问题

4.2设计思路

4.3整体架构

4.4网格服务资源

4.4.1存储节点和传输控制节点

4.4.2采集节点

4.4.3信息服务节点

4.4.4任务调度节点

4.4.5 CA中心

4.5采集功能模块

4.5.1采集工作流程

4.5.2并行采集策略

4.5.3页面选择策略

4.5.4提取JS动态网址

4.6小结

第5章网格Web信息采集系统实现

5.1实验环境

5.2网格基础平台

5.3网格服务资源

5.3.1存储节点和传输控制节点

5.3.2采集节点

5.3.3信息服务节点

5.3.4任务调度节点

5.3.5 CA中心

5.4采集功能模块

5.4.1安装与配置

5.4.2采集工作流程

5.4.3 URL过滤

5.4.4提取JS动态网址

5.4.5采集结果合并

5.5小结

第6章结论与展望

6.1结论

6.2进一步工作的方向

致谢

参考文献

个人简历 在读期间发表的学术论文与研究成果

展开▼

摘要

互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。 搜索引擎是一种用于帮助因特网用户查询信息的搜索工具。一个高效的采集系统是一个好的搜索引擎的重要基础。大型搜索引擎都是采用基于集群的分布式采集系统。但是随着信息量的爆炸式增长,搜索引擎需要越来越多的计算资源、存储资源,并且维护一个庞大的集群系统是耗费巨大的。 本文提出把网格技术和搜索引擎技术结合起来,将互联网上大量闲置的资源利用起来,以满足我们的需要。网格被视为21世纪的新型网络基础架构以及未来10年中IT商业应用的主流。网格利用互联网把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、信息资源、软件资源、通信资源、知识资源、专家资源等的全面连通与共享。 本文首先论述了Web信息采集的基本原理,关键技术和系统结构,并分析和研究了开源搜索引擎Nutch项目。接着简单介绍了网格概念,分析比较了五层沙漏结构和OGSA架构,并详细介绍了主流的网格开发软件平台Globus。随后提出一个基于网格技术的Web信息采集系统,分析和研究了基于网格技术的Web信息采集系统的组成结构和各部分的主要功能,并详细地探讨了Web信息采集几个关键技术问题的解决方法。最后实现了一个具有服务发现和监视,数据可靠传输,资源协同分配,分布式采集等功能的网格Web信息采集原型系统,并阐明了Web服务资源的编程、通知机制和各服务模块的实现过程。该系统构建在G10bus最新的技术规范WSRF及其具体实现GT4基础上。 论文的研究和实现工作是当前网格技术研究的一个新课题,为相关研究提供了一些新的思想和方案。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号