首页> 中文学位 >数字图书馆中海量数据存储组织的研究与实现
【6h】

数字图书馆中海量数据存储组织的研究与实现

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章 绪论

1.1 课题背景

1.2 研究意义

1.3 本文的主要工作

1.4 本文的组织结构

1.5 本章小节

第2章 相关研究综述

2.1 数字图书馆

2.2 CADAL项目概况

2.3 分布式存储相关技术

2.3.1 分布式文件系统

2.3.2 分布式哈希表算法

2.4 分布式检索相关技术

2.4.1 非结构化数据索引技术

2.4.2 分布式索引思想

2.4.3 分布式检索中查询结果合并技术

2.5 本章小结

第3章 分布式数字图书馆体系架构

3.1 系统需求

3.2 系统框架

3.3 动态文件副本调整

3.3.1 复制失效分析

3.3.2 副本数目调整方法

3.3.3 性能评估

3.3.4 分析总结

3.4 本章小结

第4章 海量数据综合分布式索引和查询技术

4.1 常用的索引

4.1.1 顺序索引

4.1.2 HASH索引

4.1.3 树索引

4.1.4 倒排索引

4.2 分布式索引和查询系统框架

4.2.1 索引架构

4.2.2 查询架构

4.2.3 协同工作架构

4.3 设计实现

4.3.1 数据结构

4.3.2 系统模块结构

4.4 本章小结

第5章 海量小文件的存储管理与集成技术

5.1 HDFS中的小文件存储分析

5.2 海量小文件的集成管理

5.2.1 文件相关性

5.2.2 文件合并策略

5.3 基于FTP协议的数据管理系统

5.4 实验测试

5.4.1 实验环境

5.4.2 数据集

5.4.3 读写测试

5.5 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

作者简历

展开▼

摘要

多媒体资源的海量增长,使得数据的高效存储和组织成为数字图书馆分布式服务体系中的重要应用之一。本文针对数字图书馆中海量数据的自身特点和用户的访问习惯,致力于研究和实现一种适用于大规模数据集的数据存储组织机制,满足数字图书馆中海量异构数据的分布式并发需求。
   本文的主要工作如下:
   一、利用CADAL中海量资源特点和用户阅读日志,研究分布式文件系统的副本技术,提出了一种支持高效副本维护的数字图书馆分布式体系架构,满足高性能、高可靠、高可用、可扩展的数字图书馆服务需求。
   二、提出结合局部索引和全局索引的分布式混合索引机制以及并发式统一查询技术,构建了一种基于文件系统的,可插拔的,统一查询的分布式信息检索架构,支持数字图书馆中海量数据的高效、精准、灵活、可靠搜索。
   三、基于文件的相关性聚类,提出了一种海量小文件的集成策略,其基本思想是数据合并和索引构建,相比于直接存储,改进了数据的存储和访问性能,提高了系统的IO速率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号