基于Hadoop平台混核并行支持向量机文本分类的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在当代，随着科技的发展，移动智能设备的普及，万物联网的方便，信息量的几何级增长，大数据浪潮已然来临。众多海量数据中，文本数据占据了很大一部分。面对日益增长的文本数据，如何存储、挖掘这些数据就变得非常重要。文本分类是很常用的数据处理手段，传统的基于人工的文本分类方法，早已被知识工程和基于机器学习和统计学方法所取代。尤其是在近几十年，基于机器学习和统计的方法应用越来越广泛。
　　目前，已有的基于机器学习和统计学习的文本分类方法已经很难处理越来越多的文本数据，无论是分类器的训练时间过长还是内存的限制问题都需要解决。针对大量文本数据，选用云平台，做分布式文本处理变得很有必要。随着Hadoop分布式开源社区的兴起，很多传统的单机数据存储和处理被转移到Hadoop平台上。本文就是利用 Hadoop平台的特性，基于 MapReduce框架，实现大量文本的文本分类。主要包括文本预处理的并行化设计、特征降维的并行化设计、特征权重量化的并行设计以及文本分类器的并行化设计。
　　在逻辑回归、决策树、支持向量机、神经网络、KNN等众多分类算法中，本文选用基于VC维和结构风险最小化的支持向量机作为文本的分类器。SVM虽然具有解决维度灾难、很少过拟合以及分类效果好等优点，但是由于求解最优分类超平面的复杂度很高，在面对大量样本数据时， SVM分类器存在训练时间过长的问题。
　　本文在深入研究了解支持向量机的基础上，探讨了目前已有的一些基于Hadoop机制的并行支持向量机算法，包括层叠式 PSVM、分组式 PSVM、反馈式 PSVM的优缺点，提出了 n2反馈式 PSVM算法。通过实验验证了新式PSVM降低了训练时间，提高了分类的准确率。同时，对SVM中的核函数进行了深入的研究，在 PSVM中引入混合核函数思想。在研究各种已有的核函数后，提出了新的混合核函数。并通过实验验证了新的混合核函数在分类方面的有效性。

著录项

作者
聂伟;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科信息与通信工程
授予学位硕士
导师姓名樊滨温;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本分类; 核函数; 并行支持向量机; 分布式文件管理系统;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台的海量文本分类的并行化 [J] . 向小军 ,高阳 ,商琳 . 计算机科学 . 2011,第010期
2. 基于Hadoop平台的海量文本分类的并行化 [J] . 向小军 ,高阳 ,商琳 . 计算机科学与探索 . 2011,第010期
3. 基于Hadoop平台FP-Growth算法并行化研究与实现 [J] . 戴伟敏 . 宁夏大学学报（自然科学版） . 2020,第001期
4. 基于Hadoop平台的K-means聚类算法并行化改进研究 [J] . 禤世丽 ,刘建明 . 玉林师范学院学报 . 2020,第3期
5. 基于Hadoop平台的DBIK-means聚类算法并行化研究 [J] . 卜天然 . 新余学院学报 . 2016,第004期
6. 基于支持向量机的文本分类技术研究 [C] . 张锦 ,蒋海军 ,郑涛 . 第五届全国数字博物馆与文化自然遗产数字化及保护研讨会 . 2007
7. 基于支持向量机的文本分类在并行环境中的性能分析及应用 [A] . 殷勇 . 2006

基于Hadoop平台混核并行支持向量机文本分类的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅