基于网格技术的Web信息采集系统

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。搜索引擎是一种用于帮助因特网用户查询信息的搜索工具。一个高效的采集系统是一个好的搜索引擎的重要基础。大型搜索引擎都是采用基于集群的分布式采集系统。但是随着信息量的爆炸式增长，搜索引擎需要越来越多的计算资源、存储资源，并且维护一个庞大的集群系统是耗费巨大的。本文提出把网格技术和搜索引擎技术结合起来，将互联网上大量闲置的资源利用起来，以满足我们的需要。网格被视为21世纪的新型网络基础架构以及未来10年中IT商业应用的主流。网格利用互联网把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”，实现计算资源、存储资源、信息资源、软件资源、通信资源、知识资源、专家资源等的全面连通与共享。本文首先论述了Web信息采集的基本原理，关键技术和系统结构，并分析和研究了开源搜索引擎Nutch项目。接着简单介绍了网格概念，分析比较了五层沙漏结构和OGSA架构，并详细介绍了主流的网格开发软件平台Globus。随后提出一个基于网格技术的Web信息采集系统，分析和研究了基于网格技术的Web信息采集系统的组成结构和各部分的主要功能，并详细地探讨了Web信息采集几个关键技术问题的解决方法。最后实现了一个具有服务发现和监视，数据可靠传输，资源协同分配，分布式采集等功能的网格Web信息采集原型系统，并阐明了Web服务资源的编程、通知机制和各服务模块的实现过程。该系统构建在G10bus最新的技术规范WSRF及其具体实现GT4基础上。论文的研究和实现工作是当前网格技术研究的一个新课题，为相关研究提供了一些新的思想和方案。

著录项

作者
陈言敏;
展开▼
作者单位

北京信息科技大学;

北京机械工业学院;

展开▼
授予单位北京信息科技大学;北京机械工业学院;
学科计算机应用技术
授予学位硕士
导师姓名肖诗斌;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP274.2;
关键词
Web信息采集; 开放网格服务体系结构; Web服务; 资源框架; 网格技术;

相似文献

中文文献
外文文献
专利

1. 基于WEB的智能信息采集及处理系统的关键技术 [J] . 谭媛媛 ,王伟 . 中国新技术新产品 . 2010,第011期
2. 基于Web信息抽取的技术成果信息采集系统 [J] . 王钢明 ,屠建飞 . 成组技术与生产现代化 . 2007,第004期
3. 基于Web-Harvest的Web铁路信息采集系统的设计与应用 [J] . 汤立 ,李雪山 . 铁路计算机应用 . 2013,第003期
4. WebCom:一个基于Web技术的计算网格入口工具包 [J] . 何戈 ,伍卫国 ,吴维刚 . 计算机研究与发展 . 2004,第001期
5. 基于MongoDB的Web信息采集系统应用研究 [J] . 孙美卫 . 湖南邮电职业技术学院学报 . 2017,第002期
6. 基于网格技术的Web信息采集系统 [C] . 陈言敏 ,肖诗斌 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 分布式信息采集系统Web划分技术研究 [A] . 魏一帆 . 2010

基于网格技术的Web信息采集系统

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅