基于Nutch的分布式主题爬虫研究和实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今社会已进入信息爆炸时代，如何通过搜索引擎精准获取有用的信息是摆在面前的一个重要课题。虽然用户采用通用搜索引擎可以检索出自己关心的内容，但也包含了许多无关信息，主题爬虫是主题搜索引擎重要的组成部分，为解决搜索引擎检索结果不够精准的问题，研究主题爬虫具有重要的理论价值和实际意义。
　　随着大数据技术快速发展，诸多大数据处理工具例如Hadoop、Spark被开发出来处理海量数据，利用分布式集群来完成以前需要花费大量时间和内存的计算任务。本文对主题爬虫相关技术、开源搜索引擎Nutch和基于learning automaton的主题爬行算法进行了研究后，构建了一个基于改进learning automaton算法的分布式主题爬虫。该爬虫对Nutch的Fetch模块和Parse模块进行了改造，引入多种种子网页采集策略，使得爬虫的主题爬行具有了自适应能力，并且提高了爬虫的准确率、召回率和抓取效率。
　　最后，对本文提出的基于Nutch分布式主题爬虫算法的性能进行了仿真实验，结果表明在保证准确率的前提下，所构建的分布式主题爬虫能够更高效地抓取到更多与主题相关网页。

著录项

作者
敬烜;
展开▼
作者单位

成都理工大学;

展开▼
授予单位成都理工大学;
学科计算机科学与技术
授予学位硕士
导师姓名鲁红英;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
信息处理; 搜索引擎; 主题爬虫; 自适应能力;

相似文献

中文文献
外文文献
专利

1. 基于校园分布式主题网络爬虫技术基础框架实现研究 [J] . 袁小玲 . 电子世界 . 2020,第020期
2. 基于Hadoop的分布式主题网络爬虫的设计与实现 [J] . 施磊磊 ,施化吉 ,宋玉平 . 信息技术 . 2015,第007期
3. 基于P2P的分布式主题爬虫系统的设计与实现 [J] . 朱学芳 ,韩占校 . 情报学报 . 2010,第003期
4. 分布式多主题网络爬虫系统的研究与实现 [J] . 白鹤 ,汤迪斌 ,王劲林 . 计算机工程 . 2009,第019期
5. 基于Python的分布式多主题网络爬虫的研究与设计 [J] . 张胜敏 ,王爱菊 . 开封大学学报 . 2021,第001期
6. 一种基于URL分类的移动应用商店主题爬虫的研究与实现 [C] . Dong Qiao ,董巧 . 中国移动通信信息安全管理与运行中心第七届信息安全专家论坛 . 2017
7. 基于Nutch的分布式爬虫研究与优化 [A] . 胡伟 . 2015

基于Nutch的分布式主题爬虫研究和实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅