第一个书签之前
摘 要
Abstract
目 录
缩略语
1 绪论
1.1 研究背景及意义
1.2 相关技术研究现状
1.2.1 华为的二级索引方案
1.2.2 基于Lucene的索引检索方案
1.3 研究内容和章节安排
2 Hadoop和全文索引相关理论及技术
2.1 分布式计算平台Hadoop及Hbase
2.1.1 HDFS分布式文件系统
2.1.2 HBase
2.2 MapReduce大数据计算模型
2.3 全文索引的相关技术
2.3.1 倒排索引
2.3.2 分词
2.3.3 TF和IDF值
2.3.4 向量空间模型
2.4 本章小结
3 基于Hbase的分布式全文索引架构和方案设计
3.1 索引存储模型及分布式缓存模型
3.2 基于Hbase的倒排索引存储结构设计
3.2.1 Hbase的文件存储系统
3.2.2 倒排索引表的设计
3.3 索引构建及索引全局信息统计
3.3.1 MapReduce构建倒排索引的过程
3.3.2 倒排索引的全局信息统计
3.4 基于向量空间模型的检索方案
3.4.1 查询引擎工作原理
3.4.2 查询引擎内存占用优化
3.5 本章小结
4 索引表的压缩算法及索引构建检索的优化技术
4.1 索引表的压缩
4.1.1 压缩算法
4.1.2 解压缩算法
4.1.3 压缩算法分析
4.1.4 压缩一个键值对(Key/Value)
4.2 索引缓存策略研究
4.3 流水线式的索引构建加速方法
4.4 本章小结
5 实验及结果分析
5.1 索引构建时间开销分析
5.2 索引大小及索引压缩比分析
5.3 检索性能及缓存命中率分析
5.4 本章小结
6 总结与展望
6.1 论文总结
6.2 论文展望
致 谢
附录
参考文献
华中科技大学;