声明
摘要
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织结构
2 站内搜索及通用搜索引擎关键技术
2.1 站内搜索概述
2.1.1 站内搜索引擎的实现技术
2.1.2 方案选择及优势
2.2 通用搜索引擎的发展及分类
2.2.1 通用搜索引擎的发展
2.2.2 通用搜索引擎的分类
2.3 通用搜索引擎的组成
2.4 通用搜索引擎中的关键技术
2.4.1 搜索引擎中的分词技术
2.4.2 通用搜索引擎中的排序技术
2.5 本章小结
3 通用搜索搭建方式介绍及原生系统搭建
3.1 用户搭建通用搜索的主要技术路线
3.1.1 多开源工具的结合
3.1.2 开源搜索引擎框架
3.1.3 两种构建方式对比
3.2 Nutch简介
3.2.1 Nutch架构
3.2.2 Nutch工作原理及流程
3.2.3 Nutch插件机制
3.3 原生Nutch系统的实现
3.3.1 Nutch运行环境搭建
3.3.2 Nutch基本配置
3.3.3 Nutch抓取页面配置与执行
3.2.4 Nutch在Tomcat下配置
3.4 本章小结
4 基于双分词器站内搜索系统实现
4.1 原生系统的不足
4.1.1 单字切分的分词程序
4.1.2 低效复杂的Nutch排序算法
4.2 基于双分词器站内搜索模型的提出
4.2.1 对用户输入查询的分析
4.2.2 基于双分词器站内搜索模型定义
4.3 基于双分词器站内搜索模型的实现
4.3.1 模型中StandardTokenizer的实现
4.3.2 模型中SpecialTokenizer的实现
4.4 本章小结
5 对比实验
5.1 查询结果数和查询时间对比
5.2 查准率和排序合理性对比
5.3 拼音及模糊查询对比
5.4 本章小结
6 总结与展望
6.1 本文工作总结
6.2 下一步工作展望
参考文献
致谢