首页> 中文会议>第六届中国计算机学会大数据学术会议 >基于Spark和SimHash的大数据K-近邻分类算法

基于Spark和SimHash的大数据K-近邻分类算法

页面导航

摘要
著录项
相似文献
相关主题

摘要

在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第一次从磁盘读入内存,生成一种抽象的内存对象RDD(Resilient Distributed Datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.

著录项

来源
《第六届中国计算机学会大数据学术会议》||1-7|共7页
会议地点
作者
ZHANG Su-fang; 张素芳; WANG Ting-ting; 王婷婷; ZHAO Chun-ling; 赵春玲; ZHAI Jun-hai; 翟俊海;
展开▼
作者单位

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP311.131;
关键词
大数据处理; K-近邻算法; 哈希算法;
入库时间 2022-08-17 11:29:40

相似文献

中文文献
外文文献
专利

1. 基于Spark和SimHash的大数据K-近邻分类算法 [J] . 翟俊海 ,沈矗 ,张素芳 . 河北大学学报（自然科学版） . 2019,第002期
2. 一种基于近邻搜索的快速k-近邻分类算法 [J] . 王壮 ,胡卫东 ,郁文贤 . 系统工程与电子技术 . 2002,第004期
3. 基于MapReduce和Spark的大规模压缩模糊K-近邻算法 [J] . 王谟瀚 ,翟俊海 ,齐家兴 . 计算机工程 . 2020,第011期
4. 融合互近邻和可信度的 K-近邻分类算法 [J] . 石鑫鑫 ,胡学钢 ,林耀进 . 合肥工业大学学报（自然科学版） . 2014,第009期
5. 基于K-近邻分类算法的供需数据智能匹配研究 [J] . 温志芳 . 机械工程与自动化 . 2021,第002期
6. 基于微粒群优化的快速K-近邻分类算法 [C] . 林令娟 ,刘希玉 . 第三届中国智能计算大会 . 2009
7. 基于K-最近邻、K-均值聚类和投影寻踪模式识别方法的有机物熔点的QSPR研究 [A] . 马昕 . 2018

基于Spark和SimHash的大数据K-近邻分类算法

摘要

著录项

相似文献

相关主题

期刊订阅