首页> 中文学位 >基于大数据平台的百度式数据检索系统设计与实现
【6h】

基于大数据平台的百度式数据检索系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 选题依据和意义

1.2 搜索引擎简介

1.3 国内外研究现状

1.4 研究的主要内容

1.5 章节安排

第二章 相关技术介绍

2.1 Hadoop 与大数据

2.2 Lucene

2.3 Solr

2.4 Spark Streaming(流处理技术)

2.5 Bootstrap(Web前端CSS框架)

2.6 Apache+Tomcat

2.7 DB2 数据库

2.8本章小结

第三章 企业级智能云搜索系统可行性和需求分析

3.1 建立企业级数据检索系统的可行性分析

3.2 智能云搜索系统需求背景

3.3 结合应用场景分析

3.4 架构初步设计

3.5本章小节

第四章 智能云搜索系统概要设计及详细设计

4.1 方案说明

4.2 分词设计

4.3 DB2优化

4.4 分布式搜索引擎设计

4.5据更新机制和其他设定

4.6权限管控

4.7原始设计结果呈现

4.8本章小结

第五章 系统实现

5.1 功能实现架构设计图

5.2系统目录结构

5.3 自然语言解析词库

5.4 混搭架构下的任务协同计算框架

5.5 Web前端页面

5.6本章小结

第六章 系统测试

6.1 测试目标

6.2 功能测试

6.3性能测试

6.4兼容性测试

6.5实时索引测试

6.6本章小节

第七章 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

展开▼

摘要

21世纪毫无疑问是互联网时代,如今互联网中的信息每天都在爆炸式的增长,面对海量数据的存储和分析,传统的集中式搜索引擎显得拙荆见肘。因此人们提出了分布式搜索引擎的策略。分布式文件系统基于云计算可以合理的利用硬件资源,进行高效的并行检索。互联网每天产生的海量数据都是宝贵的财富,但是没有搜索引擎它们只是一堆杂乱的数据,需要耗费大量的人力去挖掘。传统的搜索引擎都是采用关键字匹配查询,无法揣测人们的意图,使得用户很难精准的获得自己想要的信息,因此搜索引擎的分布式智能化是未来发展的趋势。
  对于企业来说一个数十万员工的企业,分支机构分布在世界各地,需要在企业内部门户上提供面向全体员工的统一搜索服务,搜索的内容包括企业内应用所产生的业务数据以及企业员工相关信息。大部分企业不能充分发掘自身数据的价值,比如说现在企业数据中大多数是非结构化数据,这其中包括了Word文档,Excel表格,PDF文件,扫描图片,电子邮件,电话记录、语音留言、纸质文档、照片、网页、视频以及其他形式的内容。由于很多企业缺乏能够理解并有效利用这些内容的技术,使得非常有价值又充满战略意义的资源常常无法发挥其作用。企业数据多且杂缺少统一管理平台,业务人员缺乏技术支持,对底层数据结构不熟悉只能通过技术人员提数,效率很低。那么一款基于自然语言的智能云搜索系统对于企业的价值是不可估量的。
  本系统基于大数据平台通过新建移动行业专业术语词库、自学习的动态语义网解析模型,采用Lucene/Solr分词服务器,实现了使用人员可以输入自然语言检索经分数据。通过动态语义网语义解析模型,系统可自动收集、分析、丰富词条语义,持续完善“自然语言与技术语言”对应词库。利用元数据配置库和统一计算框架实现异构数据访问,融合文件、传统数据库、XML、MPP和HADOOP等结构化/非结构化的多种类型平台数据,信息查询服务由平台统一提供;利用智能任务协同,实现查询分布式处理,快速响应信息查询服务。系统还通过利用Spark Streaming流处理技术,采用内存索引方式,建立后台数据的增量索引更新机制,及时向使用者提供最新数据情况。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号