基于中间层的可扩展学习索引技术

高远宁; 叶金标; 杨念祖; 高晓沨; 陈贵海

首页> 中文期刊>软件学报 >基于中间层的可扩展学习索引技术

基于中间层的可扩展学习索引技术

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型假设工作负载是静态的、只读的,对于索引更新问题没有提出很好的解决办法.提出了基于中间层的可扩展的学习索引模型Dabble,用来解决索引更新引发的模型重训练问题.首先,Dabble模型利用K-Means聚类算法将数据集划分为K个区域,并训练K个神经网络分别学习不同区域的数据分布.在模型训练阶段,创新性地把数据的访问热点信息融入到神经网络中,从而提高模型对热点数据的预测精度.在数据插入时,借鉴了LSM树延迟更新的思想,提高了数据写入速度.在索引更新阶段,提出一种基于中间层的机制将模型解耦,从而缓解由于数据插入带来的模型更新问题.分别在Lognormal数据集以及Weblogs数据集上进行实验验证,结果表明,与当前先进的方法相比,Dabble模型在查询以及索引更新方面都取得了非常好的效果.

著录项

来源
《软件学报》|2020年第3期|620-633|共14页
作者
高远宁; 叶金标; 杨念祖; 高晓沨; 陈贵海;
展开▼
作者单位

上海市可扩展计算与系统重点实验室上海200240;

上海交通大学计算机科学与工程系上海200240;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
学习索引; 聚类; 神经网络; 动态更新;

相似文献

中文文献
外文文献
专利

1. 基于中间层协议的可扩展文档格式转换处理机 [J] . 黄炜 ,陈启祥 ,林剑锋 . 湖北工业大学学报 . 2005,第001期
2. SLC:基于跳表的可扩展云数据索引 [J] . 何婧 ,姚绍文 ,蔡莉 . 中南大学学报 . 2018,第010期
3. 基于临界点动态调整的可扩展哈希索引算法 [J] . 陈茂乾 ,樊皓楠 ,郑锦 . 中国科技论文 . 2017,第020期
4. 基于临界点动态调整的可扩展哈希索引算法 [J] . 陈茂乾 ,樊皓楠 ,郑锦 . 中国科技论文 . 2017,第020期
5. csgIndex：一种可扩展的对比子图索引模型 [C] . 陶剑文 ,丁佩芬 ,赵杰煜 . 第27届中国控制会议 . 2008
6. 基于Mapreduce框架可扩展数据索引的研究与实现 [A] . 邵佳翼 . 2017

基于中间层的可扩展学习索引技术

摘要

著录项

相似文献

相关主题

期刊订阅