一种面向主题的分布式爬虫系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增，庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息，只靠单台计算机，无论是处理能力还是存储容量都无法胜任。若采用大型机，则效费比相对变低。因此，研究和开发廉价的搜索技术的需求越来越大，而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性，学术界和企业界均在开展相关技术的研究和应用，基于云计算的搜索引擎是其中重要的应用之一。
　　基于此，本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究，利用服务器搭建起hadoop应用环境，并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发，探讨了云计算领域里最为著名的两个分布式文件系统;第二，对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究;第三，对网络爬虫Heritrix做了详细的源代码分析，为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上，本文提出了基于字典、文本分析和网页结构三个主题模型，基于这些主题模型，提出了面向主题的分布式爬虫系统的整体架构，确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构，深入研究并应用了其中的关键技术，最终实现了该爬虫系统。
　　在实验室提供的环境下，对整个系统所做的大量测试表明，该系统达到了设计目标，具有良好的可用性和可扩展性。

著录项

作者
高景生;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名王大玲;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
分布式技术; 爬虫系统; 主题模型; 云计算;

相似文献

中文文献
外文文献
专利

1. 面向主题的域内垂直搜索引擎系统的研究与实现 [J] . 王恒 ,王少山 ,高玉琢 . 宁夏大学学报（自然科学版） . 2013,第001期
2. 面向主题的垂直搜索引擎系统的研究与实现 [J] . 施佺 ,王恒山 ,肖仰华 . 微电子学与计算机 . 2011,第7期
3. 一种面向海关EDI通关系统的物流数据交换方法研究与实现 [J] . 李俚 ,程鑫 ,黄海院 . 计算机应用与软件 . 2016,第006期
4. 一种面向数据采集系统的网络接入研究与实现 [J] . 杨健 ,张慧慧 ,于东琴 . 微计算机信息 . 2006,第008期
5. 一种面向数据采集系统的网络接入研究与实现 [J] . 杨健 ,张慧慧 ,于东琴 . 微计算机信息 . 2006,第03Z期
6. 一种面向主题的搜索引擎系统模型 [C] . Wang Congrui ,王聪睿 ,Zhang Cuixiao . 2013年“计算机科学与技术及教育技术”学术研讨会 . 2013
7. 支持AJAX的分布式爬虫系统的研究与实现 [A] . 邬柏 . 2013

一种面向主题的分布式爬虫系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅