基于Hadoop的文本聚类算法的优化研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近些年,计算机技术以及网络通信技术发展的非常迅速，互联网应用也越来越普遍，极大的改善了人们的生产以及生活方式。互联网使得信息的传递更加的高效，它成为了一种重要的信息来源和载体，网络上已经存储了非常多的数据,并且数据正在以非常快的速度增长。从互联网上获得的数据,很多都是文本数据，面对海量的文本数据，如何从海量的文本数据中挖掘出有价值的信息，对很多计算机科学研究者来说都是一项艰巨而重大的任务。在数据挖掘技术中聚类是一种非常重要的数据处理方法，同时在机器学习以及其他领域中聚类也发挥着非常重要的作用。文本聚类在信息检索和数据挖掘领域中具有重要的研究价值，同时为管理和处理海量的文本信息提供了一种有效的解决方案，是一种重要的数据处理方法。由于现在互联网信息化程度比较高，每天都会产生大规模且具有多样性的文本数据，数据正在以指数级别的速度快速的增长，在单台计算机上采用串行的数据处理方法，仅仅依靠不断的提高单台计算机的性能，不能有效的对大规模的离线文本数据进行存储和计算，难以应对具有较高要求的海量数据处理的复杂任务，需要采用云计算的思想和有关技术来帮助解决大规模数据的处理问题。Hadoop是一个云数据处理平台，其集群并行的工作方式使其具备了海量数据的存储能力以及快速处理能力。传统的聚类算法有其自身的特点和局限性，需要根据其自身的特点，充分利用Hadoop的MapReduce分布式计算模型，实现算法的并行化并对算法进行优化，使其可以高效的处理海量的离线文本数据。
　　本文首先介绍 Apache下开源项目 Hadoop的有关内容与原理，然后对Hadoop的可靠的海量数据存储与并行计算这两个比较重要的技术进行了详细的研究。研究了文本聚类处理有关内容与原理，以及文本信息处理过程中采用的一些重要方法。介绍了文本聚类的有关算法，对常用的K-Means算法进行了深入的研究与分析，同时也深入研究了另外一种非传统聚类算法Canopy算法，根据这两种算法各自的优点和缺点提出了一种改进优化的措施，并且根据Hadoop的分布式计算思想对相关的算法进行设计与优化，使其能够高效的处理海量的离线数据。设计和实现并行的文本聚类算法，搭建Hadoop集群实验环境，对实验的数据进行预处理，使其符合实验的要求，然后通过相关的实验来检验优化后的聚类算法的聚类的质量和性能。从实验结果可以看出，以Hadoop平台为基础，实现的处理文本数据的聚类算法具有较高的处理效率和非常好的扩展性，优化和改进后的算法在数据处理的速度和准确度上有一定的提高，而且在对大规模的文本数据进行处理的时候，具有非常高的效率。

著录项

作者
龚运;
展开▼
作者单位

西南财经大学;

展开▼
授予单位西南财经大学;
学科计算机应用技术
授予学位硕士
导师姓名王之怡;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本聚类; 海量数据; 分布式; 云计算; 优化策略;

相似文献

中文文献
外文文献
专利

1. 基于 Hadoop MapReduce并行近似谱聚类算法研究与实现 [J] . 杨煜 ,赵成贵 . 计算机应用与软件 . 2015,第008期
2. 基于Hadoop平台的一种改进K-means文本聚类算法 [J] . 潘俊辉 ,王辉 ,张强 . 微型电脑应用 . 2022,第1期
3. 基于Hadoop的客服运维文本聚类算法研究 [J] . 王玮 ,严文涛 ,苏琦 . 青岛大学学报（工程技术版） . 2018,第001期
4. 基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究 [J] . 周功建 . 安徽广播电视大学学报 . 2018,第004期
5. 基于Hadoop平台的K-means聚类算法优化研究 [J] . 卢胜宇 ,王静宇 ,张晓琳 . 内蒙古科技大学学报 . 2016,第003期
6. 一种基于Hadoop云计算平台的聚类算法优化的研究 [C] . ZHANG Shi-lei ,张石磊 ,WU Zhuang . 中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会 . 2012
7. 基于Hadoop的短文本聚类算法的研究与应用 [A] . 王志沿 . 2015

基于Hadoop的文本聚类算法的优化研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅