首页> 中文学位 >基于Nutch的分布式主题爬虫研究和实现
【6h】

基于Nutch的分布式主题爬虫研究和实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 国内研究现状

1.2.2 国外研究现状

1.3 研究目标及拟解决的关键问题

1.4 论文组织结构

1.5 本章小结

第2章 Nutch及主题爬虫

2.1.2 Nutch数据目录结构

2.1.3 Nutch组件

2.1.4 Nutch总体架构

2.1.5 Nutch工作流程

2.2 Hadoop分布式计算平台

2.2.1 Hadoop概述

2.2.2 HDFS介绍

2.2.3 MapReduce编程模型

2.3 主题爬虫相关技术

2.3.1 主题爬虫概述

2.3.2 爬行协议

2.3.3 隧道技术

2.3.4 支持向量机分类器

2.3.5 朴素贝叶斯分类器

2.4 本章小结

第3章 自适应主题爬虫算法改进

3.1 learning automaton

3.1.1 变化决策集learning automaton

3.2 基于learning automaton的主题爬行概述

3.2.1 learning automaton在主题爬行中的应用

3.2.2 爬行过程

3.2.3 调整learning automaton

3.3 基于learning automaton的主题爬行算法改进

3.3.1 相似度计算算法改进

3.3.2 爬行效率改进

3.4 本章小结

第4章 Nutch爬行方法改造

4.1 Nutch评分插件

4.2 爬行流程改造

4.3 本章小结

第5章 Seed URL采集及网页分类策略

5.1 Seed URL的重要性

5.2 Seed URL采集策略

5.2.1 ODP

5.2.2 通用搜索引擎

5.3 网页分类策略

5.3.1 主题关键词选取

5.3.2 支持向量机分类器

5.3.3 朴素贝叶斯分类器

5.4 本章小结

第6章 分布式主题爬虫实现及结果分析

6.1 分布式主题爬虫实现

6.1.1 Nutch运行环境搭建

6.1.2 分布式主题爬虫总体架构

6.2 实验仿真与结果分析

6.2.1 改进自适应主题爬行算法实验对比分析

6.2.2 分布式主题爬虫性能实验及结果分析

6.3 本章小结

结论

致谢

参考文献

攻读学位期间取得学术成果

展开▼

摘要

当今社会已进入信息爆炸时代,如何通过搜索引擎精准获取有用的信息是摆在面前的一个重要课题。虽然用户采用通用搜索引擎可以检索出自己关心的内容,但也包含了许多无关信息,主题爬虫是主题搜索引擎重要的组成部分,为解决搜索引擎检索结果不够精准的问题,研究主题爬虫具有重要的理论价值和实际意义。
  随着大数据技术快速发展,诸多大数据处理工具例如Hadoop、Spark被开发出来处理海量数据,利用分布式集群来完成以前需要花费大量时间和内存的计算任务。本文对主题爬虫相关技术、开源搜索引擎Nutch和基于learning automaton的主题爬行算法进行了研究后,构建了一个基于改进learning automaton算法的分布式主题爬虫。该爬虫对Nutch的Fetch模块和Parse模块进行了改造,引入多种种子网页采集策略,使得爬虫的主题爬行具有了自适应能力,并且提高了爬虫的准确率、召回率和抓取效率。
  最后,对本文提出的基于Nutch分布式主题爬虫算法的性能进行了仿真实验,结果表明在保证准确率的前提下,所构建的分布式主题爬虫能够更高效地抓取到更多与主题相关网页。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号