首页> 中文学位 >基于Hadoop的非结构化数据管理在离散制造业中的研究与实现
【6h】

基于Hadoop的非结构化数据管理在离散制造业中的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景

1.2 国内外研究现状

1.3 本文研究的目的和内容

1.4 本文的主要章节安排

第二章 Hadoop环境下文件管理技术研究

2.1 HDFS下文件读写流程

2.2 Hadoop下小文件管理技术

2.3 全文检索引擎lucene

2.4 struts2.0介绍

2.5 本章小结

第三章 非结构化数据存储研究

3.1 非结构化文件存储管理功能介绍

3.2 非结构化数据上传策略

3.3 非结构化数据更新、删除策略

3.4 基于Hbase的小文件自动合并策略

3.5 非结构化数据存储应用

3.6 本章小结

第四章 hadoop环境下基于lucene的全文检索方法研究

4.1 分词的处理技术

4.2 索引构建

4.3 索引查询

4.4 非结构化数据全文检索方法应用

4.5 本章小结

第五章 非结构化数据管理策略在离散制造业中的实现

5.1 企业非结构化数据管理存在问题

5.2 在企业中实现非结构化数据管理策略的总体设计

5.3 非结构化数据管理策略在企业管理系统中的实现

5.4 本章小结

第六章 总结与展望

6.1 论文总结

6.2 论文展望

参考文献

攻读学位期间所取得的相关科研成果

致谢

展开▼

摘要

近年来离散制造企业高度重视信息化的建设,经过几年的发展,已初具成效。在几年的业务发展中,企业内产生了大量的信息化数据,包括办公文档、业务订单、数据报表、图片、音频、视频等信息。企业通常采用的提取有效信息存储到数据库,将原文件保存到磁盘的方式,一定程度解决了企业数据管理的问题。但是随着数据量的急剧增长,对这些非结构化数据合理有效的管理与利用成了企业面临的一个新的大问题,也是增强企业国际竞争力的一个关键。
  本文以某离散制造企业内非结构化数据管理系统为背景,结合当前流行的hadoop分布式框架,设计实现了基于hadoop的非结构化数据管理系统。在研究此离散制造业非结构化数据的过程中发现企业内文件大小较小,以及hadoop在存储小文件需要相关人员定期手工进行小文件合并难的问题,通过分布式数据库hbase中计数器的合理利用,在企业进行非结构化数据存储时提出了一种基于hbase的小文件自动归档合并策略;其次,为了克服以往将原文档直接保存到磁盘无法进行按内容查找的问题,本文利用lucene全文检索引擎技术工具包,设计了一种在hadoop环境下基于lucene的全文内容检索策略;最后,将此非结构化数据管理系统应用到某离散制造业现有的管理系统中,解决企业在原有系统中大量附件上传带来的文件存储安全与文件备份、查找等问题。
  在本文设计实现的非结构化数据管理系统中,通过对某离散制造企业多年办公文档的存储管理,可以看到此系统一方面通过小文件自动归档合并,解决了hadoop进行小文件存储影响系统性能的问题;另一方面通过lucene全文检索引擎方便了用户通过文档内容进行文档检索,提高了办公效率;通过与企业内原有的系统整合,解决了原系统在附件管理中存在的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号