首页> 中文学位 >感动Hadoop平台的教育资源垂直搜索系统的设计与实现
【6h】

感动Hadoop平台的教育资源垂直搜索系统的设计与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题研究背景及意义

1.1.1 背景及意义

1.1.2 目前现状

1.2 教育资源搜索存在的问题

1.3 本文主要工作

1.4 本文的组织结构

第二章 HADOOP平台架构

2.1 Hadooo的产生

2.2 基于Hadoop分布式架构的优势

2.3 Hadoop组件

2.4 本章小结

第三章 MDVSP平台需求分析

3.1 教育资源垂直搜索的用户群

3.2 MDVSP搜索资源类型需求

3.3 MDVSP搜索平台功能需求

3.4 本章小结

第四章 基于HADOOP平台的MDVSP模型

4.1 分布式文件系统HDFS与Map/Reduce技术

4.1.1 分布式文件系统HDFS

4.1.2 Map/Reduce技术

4.2 基于Hadoop的MDVSP平台的多层分布式架构

4.2.1 系统体系结构

4.2.2 MDVSP平台数据处理模型整体框架

4.2.3 MDVSP平台数据在HDFS中存放结构

4.3 MDVSP通信数据模型设计

4.3.1 数据模型分析

4.3.2 数据模型设计

4.3.3 主表设计

4.4 本章小结

第五章 基于HADOOP平台的MDVSP的关键技术

5.1 MDVSP中聚焦蜘蛛

5.1.1 工作原理

5.1.2 关键技术

5.2 Map/Reduce设计

5.2.1 Map/Reduce逻辑结构设计

5.2.2 Map/Reduce数据流设计

5.2.3 容错和可靠性设计

5.2.4 任务粒度和backup任务性能优化设计

5.3 远程调用设计

5.3.1 MDVSP采用的RPC远程调用设计思想

5.3.2 MDVSP-RPC数据表示设计

5.3.3 MDVSP-RPC服务器端的实现

5.3.4 MDVSP-RPC客户端的实现

5.4 Hadoop的HA设计

5.4.1 Health Check设计

5.4.2 Hadoop Failover流程设计

5.5 本章小结

第六章 MDVSP平台的实现

6.1 方案部署

6.1.1 硬件配置

6.1.2 SSH公钥认证配置

6.1.3 Hadoop平台搭建

6.1.4 Hbase平台搭建

6.1.5 与垂直搜索引擎结合

6.2 开发平台及其开发工具

6.2.1 操作系统

6.2.2 硬件平台

6.2.3 开发工具

6.3 MDVSP系统的实现

6.3.1 聚焦蜘蛛模块的实现

6.3.2 教育资源搜索结果

6.3.3 教育资源信息自动抽取的实现

6.3.4 LUCENE倒排文件索引结构

6.3.5 教育资源信息的存储实现

6.4 用户查询功能的实现

6.4.1 用户查询主要函数实现

6.4.2 教育资源信息查询

6.5 运行结果与对比

6.6 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

参考文献

致谢

展开▼

摘要

互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。
   本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括:
   (1)通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。
   (2)基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。
   (3)研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。
   (4)以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号