声明
摘要
第1章 绪论
1.1 研究背景
1.2 研究现状
1.3 本文研究内容与组织结构
第2章 垂直搜索引擎概述
2.1 搜索引擎分类
2.1.1 目录搜索
2.1.2 基于爬虫的搜索
2.1.3 元搜索
2.1.4 协作式搜索
2.2 垂直搜索引擎特点及发展方向
2.2.1 垂直搜索引擎与综合搜索引擎的区别
2.2.2 垂直搜索引擎发展方向
2.3 垂直搜索引擎工作原理
2.4 本章小结
第3章 婴幼商品网络爬虫设计
3.1 聚焦爬虫关键技术
3.1.1 爬取目标描述
3.1.2 网页分析算法
3.1.3 网页搜索策略
3.2 婴幼商品聚焦爬虫设计
3.2.1 数据源选取
3.2.2 网页抓取
3.2.3 数据抽取
3.3 婴幼商品聚焦爬虫数据存储
3.3.1 MongoDB概述
3.3.2 爬取数据存储
3.4 本章小结
第4章 婴幼商品领域中文分词算法设计
4.1 中文分词概述
4.1.1 技术难点
4.1.2 性能评判标准
4.1.3 代表系统
4.2 分词算法分类
4.2.1 基于字符串匹配的分词方法
4.2.2 基于统计模型的分词方法
4.2.3 基于理解的分词方法
4.3 面向婴幼商品领域的分词算法
4.3.1 分词词典设计
4.3.2 分词算法设计
4.4 分词效果测试
4.4.1 分词准确率测试
4.4.2 分全率与分词效率测试
4.4.3 歧义词切分测试
4.5 本章小结
第5章 商品搜索排序算法设计
5.1 TF-IDF算法
5.1.1 TF值的计算
5.1.2 IDF值的计算
5.1.3 算法流程
5.1.4 TF-IDF算法的不足
5.2 改进TF-IDF算法
5.3 结果排序
5.4 实现流程
5.5 权值评估实验
5.5.1 位置权重确定
5.5.2 命名实体权重确定
5.5.3 实验结果及分析
5.6 本章小结
第6章 婴幼商品搜索引擎设计与实现
6.1 系统总体框架设计
6.2 系统开发环境
6.3 网络爬虫模块设计与实现
6.3.1 网页抓取
6.3.2 数据抽取
6.4 索引模块设计与实现
6.4.1 Lucene分析
6.4.2 系统索引模块
6.5 检索模块设计与实现
6.5.1 视图层设计
6.5.2 控制层设计
6.5.3 模型层设计
6.6 系统评估
6.6.1 压力测试
6.6.2 搜索结果评估
6.6.3 其他性能评估
6.7 本章小结
第7章 总结与展望
7.1 本文工作总结
7.2 未来工作展望
参考文献
致谢