基于MapReduce的K-means聚类算法的FPGA加速研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据时代，互联网每天都会产生大量的数据，利用数据挖掘算法可以从中分析出有价值的数据。在聚类分析方法中，K-means聚类算法是应用最广泛的一种划分方法。该算法简单，且收敛速度快，但面对大数据集时，通用处理器遇到运算量大的瓶颈，基于单核单机的串行程序已经无法满足要求。针对这些问题，基于Hadoop2.0，采用CPU和FPGA的集群架构，提出了一种大数据量下基于MapReduce的K-means聚类算法的FPGA加速系统，利用并行处理技术以提高大数据量下K-means聚类算法的处理速度。
　　首先，分析K-means聚类算法，找出该算法中最耗时的计算过程。利用MapReduce并行编程模型的优点，对K-means算法进行并行化设计，确定map过程和reduce过程的任务。为了减少中间结果的回传，在map过程后设立一个combine过程。在单个计算节点上通过PCI-express总线连接若干个FPGA加速卡，利用驱动程序将MapReduce过程中最耗时的计算任务发往FPGA上进行计算，利用FPGA片上功能模块间流水化、功能模块内并行化优势，大幅提高了系统的运算速度。
　　Map加速器处理逻辑包括接口部分和计算部分，其中接口部分包括PCIe接口模块、硬件平台接口模块、数据接收模块和数据发送模块；计算部分包括map报文解析模块、多个map计算模块、调度模块以及combine计算模块。Reduce加速器处理逻辑的接口部分和Map加速器使用的相同；计算部分包括Reduce报文解析模块、文档数累加模块以及文档向量累加模块。利用Verilog描述语言实现了Map加速器和Reduce加速器的处理逻辑。
　　最后，对在FPGA上实现的所有功能模块进行仿真，整体联合仿真通过后，将整个处理逻辑下载到FPGA上进行验证，实验结果表明实现的处理逻辑正确。对整个系统进行集成测试，与传统Hadoop2.0平台下的K-means相关实现相对比，分析实验结果，验证新架构的可行性和和性能优势。

著录项

作者
阳美玲;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名李开;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
大数据集; MapReduce编程; 聚类分析; K-means算法; FPGA芯片; 并行处理; PCI-express总线;

相似文献

中文文献
外文文献
专利

1. 一种基于MapReduce的改进k-means聚类算法研究 [J] . 郭晨晨 ,朱红康 . 河北工业大学学报 . 2016,第005期
2. 基于MapReduce框架下的K-means聚类算法的改进 [J] . 宋阳 ,石鸿雁 . 计算机与现代化 . 2019,第008期
3. MapReduce框架下基于抽样的分布式K-Means聚类算法 [J] . 杨杰明 ,吴启龙 ,曲朝阳 . 吉林大学学报（理学版） . 2017,第001期
4. 基于MapReduce的单遍K-means聚类算法 [J] . 唐浩 ,杨余旺 ,辛智斌 . 计算机技术与发展 . 2017,第009期
5. 基于MapReduce的改进k-means文本聚类算法 [J] . 刘澎 ,陆介平 . 信息技术 . 2016,第011期
6. k-means聚类算法的MapReduce并行化实现 [C] . 李锦文 ,张清辉 ,魏化震 . 第三届中国国家网格学术年会 . 2011
7. 基于MapReduce的k-means聚类算法研究 [A] . 李阳辉 . 2016

基于MapReduce的K-means聚类算法的FPGA加速研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅