首页> 中文学位 >基于NoSQL存储的海量文档全文检索系统的研究与实现
【6h】

基于NoSQL存储的海量文档全文检索系统的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景及研究的目的和意义

1.2 NoSQL数据库的发展现状

1.3 全文检索技术发展现状

1.4 本文的研究内容及论文章节安排

第2章 关键技术

2.1 引言

2.2 MongoDB主要特点

2.2.1 功能和适用场景

2.2.2 集群和分片

2.2.3 GridFS简介

2.3 ElasticSearch的基本原理

2.3.1 Lucene核心概念

2.3.2 构建分布式搜索引擎原理

2.3.3 复制

2.3.4 管理工具

2.4 本章小结

第3章 海量文档全文检索系统的设计

3.1 引言

3.2 问题分析及解决方案

3.3 总体架构设计

3.3.1 基于OSGi的J2EE企业级模块化框架

3.3.2 面向服务架构

3.4 模块设计

3.4.1 文件处理模块设计

4.4.2 文本提取模块设计

3.4.3 全文索引模块设计

3.4.4 查询模块设计

3.5 本章小结

第4章 海量文档全文检索系统的实现

4.1 引言

4.2 基于OSGi的J2EE企业级模块化框架的实现

4.3 系统处理流程

4.4 文件处理模块的实现

4.4.1 用户界面

4.4.2 文件上传下载

4.4.3 文件保存读取

4.5 文本提取模块的实现

4.5.1 文本提取主框架

4.5.2 文本提取插件

4.6 全文索引模块的实现

4.6.1 分布式索引库配置

4.6.2 索引管理实现

4.7 查询模块的实现

4.8 本章小结

第5章 结论与展望

5.1 结论

5.2 展望

参考文献

致谢

作者简介

展开▼

摘要

基于NoSQL存储的海量文档全文检索系统是一种结合了分布式全文检索和分布式存储的新型文档管理系统。它提供了文档管理系统升级的一种方案,使文档存储满足海量存储要求,使文档检索更加准确高效。
  传统的文档管理系统大多使用文档外部特征作为文档查询关键字,通过这些关键字和文档内容建立关联并保存到关系型数据库,文档内容直接保存到操作系统文件系统中。这种方式一般会造成两个问题,一个是文档都保存在一台服务器上,造成系统存储容量有限,扩展性不好。另一个是使用外部特征搜索文档内容,搜索的准确性很低。为解决这两个问题,本文把业界两种新兴技术NoSQL和分布式全文检索引擎引入到文档管理系统中。
  MongoDB在NoSQL领域非常有名,在DB Engines的排行榜中已进入前5,在行业中的应用非常普遍。本文分析了MongoDB的特点、功能和适合场景,并重点研究了MongoDB实现分片和复制的原理,为学习分布式存储提供了很好的案例。
  ElasticSearch是一个基于Lucene构建的开源引擎,包涵有分布式、RESTful等功能。虽然是一个新兴的分布式搜索引擎,但在性能、扩展性、成熟度多方面都表现很优秀。本文重点深入ElasticSearch源码,分析了其实现分布式搜索的原理。
  本文主要研究工作是基于NoSQL存储的海量文档全文检索系统的研究与实现。根据功能需要,本文设计了基于OSGi的模块化插件结构的系统架构,并把业务功能分为文件处理、文本提取、全文索引和查询四个主要模块。系统应用插件结构保证了系统的扩展性,能够支持新出现的文档格式;应用Mongo-DB解决了文档海量存储的问题;应用ElasticSearch搜索引擎解决了全文检索准确性和查询效率问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号