首页> 中文学位 >面向非结构化文本大数据预处理中间件系统的设计与实现
【6h】

面向非结构化文本大数据预处理中间件系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题来源

1.2 研究背景、目的和意义

1.3 研究现状综述

1.4 论文主要内容及组织结构

第2章 分布式预处理中间件系统框架设计

2.1 分布式计算框架

2.2 基于Hadoop的预处理中间件系统

2.3 本章小结

第3章 基于Hbase的数据管理系统设计

3.1 Hbase构架

3.2 Hbase数据表Schema设计

3.3 数据管理系统框架设计

3.4 数据管理系统模块设计

3.5 本章小结

第4章 基于Spark的预处理算法库设计

4.1 分布式编程框架

4.2 预处理算法分布式化设计

4.3 本章小结

第5章 系统实现与性能测试

5.1 实现环境及平台搭建

5.2 系统模块实现

5.3 系统测试与性能对比

5.4 本章小结

第6章 总结与展望

6.1 工作总结

6.2 未来展望

致谢

参考文献

展开▼

摘要

据统计,大数据时代通过互联网采集的数据中85%以上都是非结构化数据,它们有些来源于自动化生成,有些出自各大媒体的新闻报刊,有些来自各种社交软件。数据源的广泛使得原始数据往往包含许多噪声并具有动态的异构性。因此,数据预处理目的在于能根据挖掘算法要求,通过对数据进行清洗去噪、统一格式、向量化表示、筛选过滤等操作,从而实现数据的非结构化。然而,非结构化的文本预处理过程繁琐而耗时,往往占据数据挖掘整体工作量的60%以上。尤其在大数据时代背景下,企业战略性数据挖掘更讲求时效性,迫切需要提升数据预处理速度,缩短挖掘周期。故研发高性能的分布式数据预处理中间件,可为企业级数据挖掘提供很大程度上的便利。
  极速膨胀大数据要求数据预处理中件间系统需具备两项基本能力,一是能存储、管理PB级非结构化文本数据,二是可以快速完成海量大数据的预处理任务。本文在移动通信企业大数据分析的应用背景下,针对上述需求,主要研究了以下三个方面的内容:
  1.针对单机数据预处理工具在数据量激增后不能满足挖掘时效性的问题,通过研究分布式计算框架的逻辑设计、集群特性以及部分功能特点,并从文本预处理的需求角度,设计且实现了基于Hadoop的非结构化文本大数据预处理中间件的系统框架;
  2.针对传统关系型数据库不能有效存储大数据的问题,通过研究分布式数据库Hbase的结构特性、物理构架、键值模式、集群性能等技术特点,从数据检索效率、集群负载均衡等角度,设计了满足大规模非结构化数据存储的数据表结构,并实现了基于Hbase的数据管理系统;
  3.针对单机预处理程序并不能直接分布式化运行的问题,通过仔细对比MapReduce和Spark两种分布式编程框架的优劣,既而深入研究四种常用文本预处理算法流程,依照 Spark的运算处理逻辑,实现了这些算法在 Spark平台上分布式化改进。
  最后,本文使用多个性能指标,在单机和分布式两种环境下对同一数据集进行多项预处理测试,证明本文提出的面向非结构化文本大数据预处理系统性能优秀,可以达到非结构化文本大数据预处理需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号