首页> 中文学位 >基于Hadoop的文本聚类算法的优化研究与实现
【6h】

基于Hadoop的文本聚类算法的优化研究与实现

代理获取

目录

声明

1.引 言

1.1 研究背景及意义

1.2 国内外的研究现状

1.3 论文的主要研究工作

1.4 论文的组织结构

2.Hadoop平台概述

2.1 Hadoop平台的背景

2.2 Hadoop的分布式文件系统

2.3 Hadoop的分布式计算模型

2.4 Hadoop新版本的特性

2.5本章小结

3.文本聚类技术

3.1 文本聚类

3.2 分词技术

3.3 文本特征表示

3.4 文本特征降维

3.5 相似度计算方法

3.6 文本聚类算法

3.7 本章小结

4.文本聚类算法研究与优化

4.1 K-Means算法

4.2 Canopy算法

4.3 改进的Canopy-K-Means算法

4.4 本章小结

5.算法的并行设计与实现

5.1 改进算法的并行设计

5.2 K-Means算法的并行设计

5.3 K-Means算法的并行实现

5.4 Canopy算法的并行设计

5.5 Canopy算法的并行实现

5.6 TF-IDF 并行实现

5.7 改进的距离测度方法的实现

5.8 本章小结

6.实验和分析

6.1 实验环境的搭建

6.2 实验数据集与评价标准

6.3 实验结果与分析

6.4 本章小结

7.总结与展望

7.1 总结

7.2 展望

参考文献

后记

致谢

在读期间科研成果目录

展开▼

摘要

近些年,计算机技术以及网络通信技术发展的非常迅速,互联网应用也越来越普遍,极大的改善了人们的生产以及生活方式。互联网使得信息的传递更加的高效,它成为了一种重要的信息来源和载体,网络上已经存储了非常多的数据,并且数据正在以非常快的速度增长。从互联网上获得的数据,很多都是文本数据,面对海量的文本数据,如何从海量的文本数据中挖掘出有价值的信息,对很多计算机科学研究者来说都是一项艰巨而重大的任务。在数据挖掘技术中聚类是一种非常重要的数据处理方法,同时在机器学习以及其他领域中聚类也发挥着非常重要的作用。文本聚类在信息检索和数据挖掘领域中具有重要的研究价值,同时为管理和处理海量的文本信息提供了一种有效的解决方案,是一种重要的数据处理方法。由于现在互联网信息化程度比较高,每天都会产生大规模且具有多样性的文本数据,数据正在以指数级别的速度快速的增长,在单台计算机上采用串行的数据处理方法,仅仅依靠不断的提高单台计算机的性能,不能有效的对大规模的离线文本数据进行存储和计算,难以应对具有较高要求的海量数据处理的复杂任务,需要采用云计算的思想和有关技术来帮助解决大规模数据的处理问题。Hadoop是一个云数据处理平台,其集群并行的工作方式使其具备了海量数据的存储能力以及快速处理能力。传统的聚类算法有其自身的特点和局限性,需要根据其自身的特点,充分利用Hadoop的MapReduce分布式计算模型,实现算法的并行化并对算法进行优化,使其可以高效的处理海量的离线文本数据。
  本文首先介绍 Apache下开源项目 Hadoop的有关内容与原理,然后对Hadoop的可靠的海量数据存储与并行计算这两个比较重要的技术进行了详细的研究。研究了文本聚类处理有关内容与原理,以及文本信息处理过程中采用的一些重要方法。介绍了文本聚类的有关算法,对常用的K-Means算法进行了深入的研究与分析,同时也深入研究了另外一种非传统聚类算法Canopy算法,根据这两种算法各自的优点和缺点提出了一种改进优化的措施,并且根据Hadoop的分布式计算思想对相关的算法进行设计与优化,使其能够高效的处理海量的离线数据。设计和实现并行的文本聚类算法,搭建Hadoop集群实验环境,对实验的数据进行预处理,使其符合实验的要求,然后通过相关的实验来检验优化后的聚类算法的聚类的质量和性能。从实验结果可以看出,以Hadoop平台为基础,实现的处理文本数据的聚类算法具有较高的处理效率和非常好的扩展性,优化和改进后的算法在数据处理的速度和准确度上有一定的提高,而且在对大规模的文本数据进行处理的时候,具有非常高的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号