首页> 中文学位 >基于Hadoop平台混核并行支持向量机文本分类的研究
【6h】

基于Hadoop平台混核并行支持向量机文本分类的研究

代理获取

目录

第1章 绪 论

1.1 课题研究背景及目的

1.2 国内外研究现状

1.3 本文的主要研究内容

第2章 Hadoop与支持向量机

2.1 分布式平台

2.2 支持向量机

2.3 核函数

2.4 实验及结果分析

2.5 本章小结

第3章 文本分类

3.1 文本分类

3.2 分布式文本的预处理

3.3 特征选择及并行化实现

3.4 特征权重量化

3.5 本章小结

第4章 并行支持向量机的研究

4.1 并行支持向量机的实现

4.2 并行支持向量机算法的研究

4.3 混合式并行支持向量机

4.4 实验测试

4.5 本章小结

第5章 并行文本分类实验及分析

5.1 文本数据

5.2 环境搭建

5.3 数据处理

5.4 并行支持向量机对比

5.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

在当代,随着科技的发展,移动智能设备的普及,万物联网的方便,信息量的几何级增长,大数据浪潮已然来临。众多海量数据中,文本数据占据了很大一部分。面对日益增长的文本数据,如何存储、挖掘这些数据就变得非常重要。文本分类是很常用的数据处理手段,传统的基于人工的文本分类方法,早已被知识工程和基于机器学习和统计学方法所取代。尤其是在近几十年,基于机器学习和统计的方法应用越来越广泛。
  目前,已有的基于机器学习和统计学习的文本分类方法已经很难处理越来越多的文本数据,无论是分类器的训练时间过长还是内存的限制问题都需要解决。针对大量文本数据,选用云平台,做分布式文本处理变得很有必要。随着Hadoop分布式开源社区的兴起,很多传统的单机数据存储和处理被转移到Hadoop平台上。本文就是利用 Hadoop平台的特性,基于 MapReduce框架,实现大量文本的文本分类。主要包括文本预处理的并行化设计、特征降维的并行化设计、特征权重量化的并行设计以及文本分类器的并行化设计。
  在逻辑回归、决策树、支持向量机、神经网络、KNN等众多分类算法中,本文选用基于VC维和结构风险最小化的支持向量机作为文本的分类器。SVM虽然具有解决维度灾难、很少过拟合以及分类效果好等优点,但是由于求解最优分类超平面的复杂度很高,在面对大量样本数据时, SVM分类器存在训练时间过长的问题。
  本文在深入研究了解支持向量机的基础上,探讨了目前已有的一些基于Hadoop机制的并行支持向量机算法,包括层叠式 PSVM、分组式 PSVM、反馈式 PSVM的优缺点,提出了 n2反馈式 PSVM算法。通过实验验证了新式PSVM降低了训练时间,提高了分类的准确率。同时,对SVM中的核函数进行了深入的研究,在 PSVM中引入混合核函数思想。在研究各种已有的核函数后,提出了新的混合核函数。并通过实验验证了新的混合核函数在分类方面的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号