基于MapReduce的并行图序列社区挖掘算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

作为数据挖掘的重要研究方向，图序列社区挖掘在社交网络等实际问题中有着广泛应用。如何精确地获得图序列中有价值的信息，以及如何加快算法在大规模数据集上的速度尤为关键。现有社区挖掘方法大多基于树状图记录的分裂算法或自底向上的凝聚算法，且多为静态挖掘而无时间方面的考虑。针对上述问题，本文提出基于编码代价的图序列社区挖掘算法GSCM，并设计出基于谱聚类的GSCM-SC算法，在Hadoop MapReduce并行计算框架下对后者进行并行化研究提出了PGSCM算法。
　　本文研究二值图序列，首先提出了编码代价的概念，通过优化此代价函数提出GSCM算法。算法不需任何参数，并借鉴最小描述长度原理使社区划分的复杂性与社区结构的质量达到平衡。将信息压缩后再聚类以获得较好的初始划分，并利用遗传算法的随机演化和择优思想来避免被困于局部极小值。根据新图对编码代价的影响，及时判断出社区结构的变化。并在实际数据集上验证了GSCM的有效性。
　　而后基于谱聚类提出GSCM-SC算法，并对其性能瓶颈进行并行化提出并行图序列社区挖掘算法PGSCM。利用相似度矩阵数据点间的独立性对其并行化；利用Lanczos方法解决图拉普拉斯矩阵特征向量计算的并行化；利用K-Means计算数据点与聚类中心距离及迭代的独立性对其并行化。并用多台虚拟机构成机器集群来搭建Hadoop平台，验证算法在真实数据集上的有效性及其性能提升。
　　最后，初步探索了图序列社区挖掘灰度方面的问题，为今后提供了很好的研究方向。

著录项

作者
汤军;
展开▼
作者单位

南京航空航天大学;

展开▼
授予单位南京航空航天大学;
学科计算机应用技术
授予学位硕士
导师姓名陈松灿;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 社交网络; 图序列社区挖掘算法; MapReduce并行计算;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce的并行频繁项集挖掘算法研究 [J] . 刘卫明 ,张弛 ,毛伊敏 . 计算机应用研究 . 2021,第003期
2. 基于MapReduce计算模型的并行关联规则挖掘算法研究综述 [J] . 肖文 ,胡娟 ,周晓峰 . 计算机应用研究 . 2018,第001期
3. 基于 MapReduce 的大规模图挖掘并行计算模型 [J] . 饶君 ,张仁波 ,东昱晓 . 应用科技 . 2012,第003期
4. 大数据挖掘中的MapReduce并行聚类优化算法研究 [J] . 吕国 ,肖瑞雪 ,白振荣 . 现代电子技术 . 2019,第011期
5. 大数据挖掘中的MapReduce并行聚类优化算法研究 [J] . 林丹楠 ,黄锐 . 太原师范学院学报（自然科学版） . 2019,第004期
6. 基于MapReduce并行架构的大数据社会网络社团挖掘方法 [C] . Deng Bo ,邓波 ,Zhang Yuchao . 中国计算机学会第一届CCF大数据学术会议 . 2013
7. 基于MapReduce的并行频繁项集挖掘算法研究 [A] . 蒋成功 . 2016

基于MapReduce的并行图序列社区挖掘算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅