面向非结构化文本大数据预处理中间件系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

据统计，大数据时代通过互联网采集的数据中85％以上都是非结构化数据，它们有些来源于自动化生成，有些出自各大媒体的新闻报刊，有些来自各种社交软件。数据源的广泛使得原始数据往往包含许多噪声并具有动态的异构性。因此，数据预处理目的在于能根据挖掘算法要求，通过对数据进行清洗去噪、统一格式、向量化表示、筛选过滤等操作，从而实现数据的非结构化。然而，非结构化的文本预处理过程繁琐而耗时，往往占据数据挖掘整体工作量的60%以上。尤其在大数据时代背景下，企业战略性数据挖掘更讲求时效性，迫切需要提升数据预处理速度，缩短挖掘周期。故研发高性能的分布式数据预处理中间件，可为企业级数据挖掘提供很大程度上的便利。
　　极速膨胀大数据要求数据预处理中件间系统需具备两项基本能力，一是能存储、管理PB级非结构化文本数据，二是可以快速完成海量大数据的预处理任务。本文在移动通信企业大数据分析的应用背景下，针对上述需求，主要研究了以下三个方面的内容：
　　1.针对单机数据预处理工具在数据量激增后不能满足挖掘时效性的问题，通过研究分布式计算框架的逻辑设计、集群特性以及部分功能特点，并从文本预处理的需求角度，设计且实现了基于Hadoop的非结构化文本大数据预处理中间件的系统框架；
　　2.针对传统关系型数据库不能有效存储大数据的问题，通过研究分布式数据库Hbase的结构特性、物理构架、键值模式、集群性能等技术特点，从数据检索效率、集群负载均衡等角度，设计了满足大规模非结构化数据存储的数据表结构，并实现了基于Hbase的数据管理系统；
　　3.针对单机预处理程序并不能直接分布式化运行的问题，通过仔细对比MapReduce和Spark两种分布式编程框架的优劣，既而深入研究四种常用文本预处理算法流程，依照 Spark的运算处理逻辑，实现了这些算法在 Spark平台上分布式化改进。
　　最后，本文使用多个性能指标，在单机和分布式两种环境下对同一数据集进行多项预处理测试，证明本文提出的面向非结构化文本大数据预处理系统性能优秀，可以达到非结构化文本大数据预处理需求。

著录项

作者
印聪;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科信息与通信工程
授予学位硕士
导师姓名周祖德;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本预处理; 非结构化数据; 中件间系统; 分布式数据库; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 面向大数据短文本的高并发语种识别系统的设计与实现 [J] . 伊克拉木·伊力哈木 ,艾山·吾买尔 ,王路路 . 现代计算机（专业版） . 2020,第020期
2. 面向文本非结构化数据的输变电系统故障诊断方法 [J] . 黄良 ,王佳丽 ,赵立进 . 电力科学与技术学报 . 2017,第003期
3. 面向医疗检验仪器的LIS中间件系统设计与实现 [J] . 徐彬彬 ,马旭东 ,房芳 . 工业控制计算机 . 2018,第004期
4. 面向密文数据库的中间件系统设计与实现 [J] . 宋天煜 ,杨庚 . 计算机应用 . 2018,第012期
5. 空管系统中面向消息中间件技术的设计与实现 [J] . 宋加强 ,龚维强 . 指挥信息系统与技术 . 2010,第005期
6. 面向情势分析的智慧江苏时空大数据可视化系统设计与实现 [C] . 张浩 ,王丹 ,李真 . 2019年江苏省测绘地理信息学会学术年会 . 2019
7. 面向非结构化文本的问答系统中答案抽取技术研究 [A] . 麻俊满 . 2019

面向非结构化文本大数据预处理中间件系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅