文摘
英文文摘
学位论文版权使用授权书及硕士学位论文原创性声明
第1章绪论
1.1课题背景
1.2课题内容
1.3论文安排
第2章Web信息采集系统
2.1基本原理
2.2系统结构
2.3研究现状
2.4Nutch项目
2.4.1Nutch项目简介
2.4.2Nutch系统结构
2.4.3Nutch采集部分
2.5小结
第3章网格技术
3.1网格概念
3.2体系结构
3.2.1五层沙漏结构
3.3.2开放网格服务体系结构
3.3研究现状
3.4 Globus项目
3.4.1 Globus项目简介
3.4.2 GT4 WSRF架构
3.4.3 GT4核心组件
3.5小结
第4章网格Web信息采集系统设计
4.1核心问题
4.1.1页面并行采集
4.1.2采集页面选择
4.1.3页面刷新问题
4.1.4动态页面采集
4.1.4工程问题
4.2设计思路
4.3整体架构
4.4网格服务资源
4.4.1存储节点和传输控制节点
4.4.2采集节点
4.4.3信息服务节点
4.4.4任务调度节点
4.4.5 CA中心
4.5采集功能模块
4.5.1采集工作流程
4.5.2并行采集策略
4.5.3页面选择策略
4.5.4提取JS动态网址
4.6小结
第5章网格Web信息采集系统实现
5.1实验环境
5.2网格基础平台
5.3网格服务资源
5.3.1存储节点和传输控制节点
5.3.2采集节点
5.3.3信息服务节点
5.3.4任务调度节点
5.3.5 CA中心
5.4采集功能模块
5.4.1安装与配置
5.4.2采集工作流程
5.4.3 URL过滤
5.4.4提取JS动态网址
5.4.5采集结果合并
5.5小结
第6章结论与展望
6.1结论
6.2进一步工作的方向
致谢
参考文献
个人简历 在读期间发表的学术论文与研究成果
北京信息科技大学;
北京机械工业学院;