声明
1 绪 论
1.1 项目研究背景
1.2 研究目的和意义
1.3 国内外研究现状
1.3.1 国内研究现状
1.3.2 国外研究现状
1.4 论文结构
2 会话语料库特点与相关技术
2.1 会话语料库特点
2.2 Hadoop平台架构
2.2.1 技术背景
2.2.2 分布式文件系统HDFS
2.2.3 Map/Reduce计算框架
2.3 Spark计算框架
2.3.1 技术背景
2.3.2 集群模型
2.3.3 RDD计算框架
2.3.4 键值对操作
2.4 本章小结
3 系统需求分析和设计
3.1 需求分析
3.1.1 功能性需求
3.1.2 非功能性需求分析
3.2 架构设计
3.3 HDFS存储模块
3.3.1 原始语料存储模型概述
3.3.2 转换语料存储模型概述
3.3.3 HDFS存储模型概述图3.5 HDFS中结构图
3.4 查询模块
3.4.1 XPath查询解析
3.4.2 XQuery查询解析
3.4.3 XML编码方案
3.4.4 Spark RDD操作查询
3.5 本章小结
4 基于Spark的分布式查询
4.1 传统查询
4.1.1 传统查询概述
4.1.2 存在问题
4.2 分布式查询
4.2.1 分布式查询概述
4.2.2 分布式查询的Spark实现
4.2.3 分布式查询和传统查询对比
4.3 本章小结
5 系统的实现与测试
5.1 系统实现
5.1.1 Hadoop集群搭建
5.1.2 Spark集群搭建
5.1.3 HDFS存储模块实现
5.1.4 分布式查询模块实现
5.2 系统测试
5.2.1 集群容错性测试
5.2.2 查询模块功能测试
5.3 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
附录
致谢
河北师范大学;