文摘
英文文摘
声明
第1章绪论
1.1系统开发背景
1.2国内外博客搜索引擎发展现状
1.2.1博客搜索引擎的原型
1.2.2国内外知名博客搜索引擎分析
1.3本文的主要工作
1.4本文的组织结构
第2章系统架构设计
2.1博客搜索引擎系统需求分析
2.2系统设计目标和原则
2.3开发环境
2.4系统功能架构设计
2.4.1总体功能架构
2.4.2插件机制
2.4.3MapReduce分布式处理模型
2.5系统技术架构
2.5.1爬取设计
2.5.2索引和检索
第3章系统详细设计
3.1重要模块详细设计
3.1.1爬取
3.1.2网页预处理
3.1.3文档解析
3.1.4索引和检索
3.2分布式处理和存储
3.3日志
第4章系统实现与测试
4.1系统功能实现
4.2网页重要度计算
4.3正向最大匹配分词算法的实现
4.4执行脚本
4.5入链提取
4.6网页相似度计算
4.7系统测试结果与分析
第5章结论
参考文献
致谢
山东大学;