面向流式数据近似最近邻查询的降维与量化方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

最近邻查询是各种大数据实时分析的基础问题，其目标是衡量不同对象间的差异性或相似性，在数据中寻找内容相似或者语义相关的对象。这里的对象可以是文本、网页、图像，在数学上都可以表示为向量或者向量的集合。理想的大数据相似性查询应该支持低延迟、高吞吐、持续稳定运行等特性，流数据场景下实时最近邻查询相关问题极具研究价值，在智能电网、智慧城市和公共服务等诸多实时分析领域具有广泛的应用前景。本文通过研究流式数据的抽样算法，使用滑动窗口分层抽样算法对海量流式数据进行数据浓缩，并通过对浓缩后的数据进行维度上的采样进行维度约简实现降维，同时研究一种有效的近似最近邻查询的量化与距离度量方式，最大限度地保持原始数据的近邻结构，实现流式数据的近似最近邻查询，提高查询准确率。本文的主要研究工作如下所述: 1、提出一种在滑动窗口模型下，基于时间权重的滑动窗口分层抽样算法，通过将滑动窗口划分成多个基本窗口，然后根据预设的衰减函数为每个基本窗口设定相应的权重，再根据此权重值和基本窗口中数据元素的个数设定其抽样比，根据此抽样比对流数据进行抽样实现数据浓缩，同时通过计算不同数据维度的重要程度对数据维度进行抽样实现降维。 2、针对目前基于hash学习的近似最近邻查询方法通常学习一组用于数据投影的超平面，并且简单地对来自每个超平面划分的结果进行二值化编码，而忽视了信息可能不均匀地分布在整个投影中，每一维投影中数据取值范围可能不一样的事实，本文提出一种动态自适应编码量化方法，根据投影维度的信息量动态地为该维度分配相应的二进制编码位数，并通过动态规划使得所有投影的总信息量最大，以尽可能地保持原始数据的近邻结构。 3、在前述动态自适应编码量化算法的基础上，提出一种动态自适应距离度量算法，根据每一投影维度的编码位数计算其二进制编码间的距离，以解决现有距离度量方法将整个二进制串看作一个整体计算距离，仅仅只适用于单位量化的弊端。针对上述提出的相关算法，本文在最后进行了实验验证，实验结果表明，经过滑动窗口分层抽样算法对流式数据进行抽样，有效地保持了流式数据的概要信息，并证明了动态自适应编码量化方法较传统的hash量化方法有显著的改进，动态自适应编码方法和距离度量方式对原始数据的近邻结构保持优于传统固定位数量化编码以及海明距离度量方式。

著录项

作者
赵亮;
展开▼
作者单位

南京理工大学;

展开▼
授予单位南京理工大学;
学科智能计算与系统
授予学位硕士
导师姓名王永利;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
流式数据; 最近邻查询; 降维; 量化;

相似文献

中文文献
外文文献
专利

1. 基于维度分组降维的高维数据近似k近邻查询 [J] . 李松 ,胡晏铭 ,郝晓红 . 计算机研究与发展 . 2021,第003期
2. 一种基于学习的高维数据c-近似最近邻查询算法 [J] . 袁培森 ,沙朝锋 ,王晓玲 . 软件学报 . 2012,第008期
3. 面向不确定数据的概率障碍k聚集最近邻查询 [J] . 于嘉希 ,李松 ,张丽平 . 计算机科学与探索 . 2018,第002期
4. 时空数据库中反向最近邻查询的方法研究 [J] . 常明 ,郝忠孝 . 齐齐哈尔大学学报（自然科学版） . 2005,第002期
5. 移动查询点的最近邻查询方法研究 [J] . 李松 ,郝忠孝 . 齐齐哈尔大学学报（自然科学版） . 2005,第002期
6. 一种面向近似查询的图数据库索引方法 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. 面向重点舰船目标识别的近似最近邻查询方法研究 [A] . 张万麒 . 2017

面向流式数据近似最近邻查询的降维与量化方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅