基于Spark的高维数据相似性连接算法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

高维数据的相似性连接是指在给定的具有较高维度的数据集中，根据要求的距离计算公式，计算出距离小于给定阈值的向量对。该操作在图像相似度匹配、文本聚类、朋友推荐中有着广泛的应用。但是随着信息技术的发展，数据量的急剧增加，高维数据的相似性连接面临许多挑战。因此，对高维数据的相似性连接的研究有助于提高相关应用领域的效率。通过对现有高维数据相似性连接技术的研究，我们发现很多算法都存在数据冗余、计算重复、占用资源较多等问题，同时实验的效果也不够理想。为了解决以上问题，我们在本文中提出了自己的算法SAVD。其主要是将数据降维技术分段聚合表示(PAA)、符号化聚合表示(SAX)和垂直划分技术相结合。它的具体思想为首先将标准化向量进行PAA和SAX表示;其次对其进行垂直划分;然后通过使用本文提出的过滤方法处理垂直分区得到候选集;最后聚合各分区候选集并进行验证，找出所有满足距离要求的结果集。该方法解决了已有工作中存在的问题，提高了算法的执行效率。同时我们将算法进行了优化，提出了通过三角不等式比较来过滤掉不必要的向量间计算，这样可以极大的提高算法的执行效率和降低算法的复杂度。为了验证本文中提出的算法的效率，在实验部分分别用MapReduce和Spark框架对该算法进行了实现，并在公开的数据集上与已有的算法进行了对比验证。实验结果表明，本文中提出的方法比现有方法有更高的效率。另外，针对现有使用场景中数据量持续增长的问题，我们将本文提出的算法SAVD在增量高维数据集中进行了拓展研究。首先将原始数据SAX降维处理后并垂直分区的中间运算结果存储到指定位置，然后对增量数据按相同的标准降维和垂直分区后与原始数据的中间输出合并运算，最后分别计算增量数据与原始数据集的相似性连接和计算增量数据与该数据集中的连接。实验证明，我们提出的方法要比直接使用相似性连接有更高的效率。

著录项

作者
成小海;
展开▼
作者单位

天津工业大学;

展开▼
授予单位天津工业大学;
学科计算机技术
授予学位硕士
导师姓名荣垂田,窦友众;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类汽车工程 ;
关键词
Spark; 高维; 数据相似性;

相似文献

中文文献
外文文献
专利

1. 基于Spark的高维数据相似性连接 [J] . 成小海 . 计算机技术与发展 . 2018 ,第008期
2. 基于卡方分布的高维数据相似性连接查询算法 [J] . 马友忠 ,贾世杰 ,张永新 . 计算机应用 . 2016 ,第007期
3. 基于相似性度量的高维数据聚类算法研究 [J] . 王晓阳 ,张洪渊 ,沈良忠 . 计算机技术与发展 . 2013 ,第005期
4. 基于相似性保持和特征变换的高维数据聚类改进算法 [J] . 王家耀 ,谢明霞 ,郭建忠 . 测绘学报 . 2011 ,第003期
5. 一种基于相似性度量的高维数据聚类算法的研究 [J] . 黄斯达 ,陈启买 . 计算机应用与软件 . 2009 ,第009期
6. 基于双缀过滤的大数据相似性连接处理算法 [C] . DENG Shizhuo ,邓诗卓 ,XIN Junchang . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 时间序列相似性连接算法的研究与实现 [A] . 陈莉莉 . 2019

基于Spark的高维数据相似性连接算法的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅