基于大数据平台的百度式数据检索系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

21世纪毫无疑问是互联网时代，如今互联网中的信息每天都在爆炸式的增长，面对海量数据的存储和分析，传统的集中式搜索引擎显得拙荆见肘。因此人们提出了分布式搜索引擎的策略。分布式文件系统基于云计算可以合理的利用硬件资源，进行高效的并行检索。互联网每天产生的海量数据都是宝贵的财富，但是没有搜索引擎它们只是一堆杂乱的数据，需要耗费大量的人力去挖掘。传统的搜索引擎都是采用关键字匹配查询，无法揣测人们的意图，使得用户很难精准的获得自己想要的信息，因此搜索引擎的分布式智能化是未来发展的趋势。
　　对于企业来说一个数十万员工的企业，分支机构分布在世界各地，需要在企业内部门户上提供面向全体员工的统一搜索服务，搜索的内容包括企业内应用所产生的业务数据以及企业员工相关信息。大部分企业不能充分发掘自身数据的价值,比如说现在企业数据中大多数是非结构化数据，这其中包括了Word文档，Excel表格，PDF文件，扫描图片，电子邮件，电话记录、语音留言、纸质文档、照片、网页、视频以及其他形式的内容。由于很多企业缺乏能够理解并有效利用这些内容的技术，使得非常有价值又充满战略意义的资源常常无法发挥其作用。企业数据多且杂缺少统一管理平台，业务人员缺乏技术支持，对底层数据结构不熟悉只能通过技术人员提数，效率很低。那么一款基于自然语言的智能云搜索系统对于企业的价值是不可估量的。
　　本系统基于大数据平台通过新建移动行业专业术语词库、自学习的动态语义网解析模型，采用Lucene/Solr分词服务器，实现了使用人员可以输入自然语言检索经分数据。通过动态语义网语义解析模型，系统可自动收集、分析、丰富词条语义，持续完善“自然语言与技术语言”对应词库。利用元数据配置库和统一计算框架实现异构数据访问，融合文件、传统数据库、XML、MPP和HADOOP等结构化/非结构化的多种类型平台数据，信息查询服务由平台统一提供；利用智能任务协同，实现查询分布式处理，快速响应信息查询服务。系统还通过利用Spark Streaming流处理技术，采用内存索引方式，建立后台数据的增量索引更新机制，及时向使用者提供最新数据情况。

著录项

作者
管明亮;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名陈云坪;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类企业现代化管理;
关键词
企业管理; 数据检索系统; 程序设计; 大数据平台;

相似文献

中文文献
外文文献
专利

1. 基于分离式金字塔模型的测绘立体影像数据检索系统设计与实现 [J] . 李东颖 ,唐新明 ,闫浩文 . 测绘工程 . 2012,第005期
2. 基于虚拟天文台的HXMT卫星数据检索发布系统设计与实现 [J] . 姜旭 ,佟继周 ,崔辰州 . 天文研究与技术－国家天文台台刊 . 2014,第004期
3. 基于WebGIS的遥感数据检索系统设计与实现 [J] . 王站立 ,方裕 . 测绘通报 . 2005,第7期
4. 基于大数据平台的科研病种库系统设计与实现 [J] . 王觅也 ,刘然 ,王尧 . 医疗卫生装备 . 2021,第009期
5. 基于手机信令数据的智慧交通大数据平台系统设计与实现 [J] . 宋欣航 ,王梓蔚 . 大众标准化 . 2020,第016期
6. 基于分布式大数据平台的水电站群设备状态监测与评价系统设计与建设 [C] . 胡玉梅 ,桂中华 ,孙慧芳 . 2017年抽水蓄能学术交流会 . 2017
7. 面向百度知道的协作式问答系统设计与实现 [A] . 王伟程 . 2014

基于大数据平台的百度式数据检索系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅