首页> 中文期刊> 《计算机科学与应用》 >基于Spark的层次聚类算法的研究与应用

基于Spark的层次聚类算法的研究与应用

             

摘要

cqvip:信息化高速发展的时代,信息数据大量产生,如没得到较好的整理归类,就无法满足对数据查找和使用上的快捷便利与准确性。随着信息安全科学技术的发展,这些数据在整理分类上的需求日益增长,但是在传统的聚类算法上,已经不能满足现在信息数据处理的需要。因此,对原算法的优化改进或重建新的算法成为现在最为迫切的事情。同时,在海量的数据处理上,单台计算机的硬件设施也无法满足对数据处理分类的需求。针对上述情况,基于Spark在分布式计算框架的基础上,本文对聚类算法进行了优化改进。利用Apache Spark的大数据处理框架,扩展了对计算模型的使用,并在内存上提供可以并行的计算框架,利用借着中间结果缓存在内存中,减少磁盘I/O的重复操作次数,从而可以更好地为迭代式计算、交互式查询等多种计算需求服务。通过对聚类算法的优化提高对数据分析处理归类的计算效率,实现本文研究的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号