首页> 中文学位 >一种针对婴幼儿商品的搜索引擎的设计与实现
【6h】

一种针对婴幼儿商品的搜索引擎的设计与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究现状

1.3 本文研究内容与组织结构

第2章 垂直搜索引擎概述

2.1 搜索引擎分类

2.1.1 目录搜索

2.1.2 基于爬虫的搜索

2.1.3 元搜索

2.1.4 协作式搜索

2.2 垂直搜索引擎特点及发展方向

2.2.1 垂直搜索引擎与综合搜索引擎的区别

2.2.2 垂直搜索引擎发展方向

2.3 垂直搜索引擎工作原理

2.4 本章小结

第3章 婴幼商品网络爬虫设计

3.1 聚焦爬虫关键技术

3.1.1 爬取目标描述

3.1.2 网页分析算法

3.1.3 网页搜索策略

3.2 婴幼商品聚焦爬虫设计

3.2.1 数据源选取

3.2.2 网页抓取

3.2.3 数据抽取

3.3 婴幼商品聚焦爬虫数据存储

3.3.1 MongoDB概述

3.3.2 爬取数据存储

3.4 本章小结

第4章 婴幼商品领域中文分词算法设计

4.1 中文分词概述

4.1.1 技术难点

4.1.2 性能评判标准

4.1.3 代表系统

4.2 分词算法分类

4.2.1 基于字符串匹配的分词方法

4.2.2 基于统计模型的分词方法

4.2.3 基于理解的分词方法

4.3 面向婴幼商品领域的分词算法

4.3.1 分词词典设计

4.3.2 分词算法设计

4.4 分词效果测试

4.4.1 分词准确率测试

4.4.2 分全率与分词效率测试

4.4.3 歧义词切分测试

4.5 本章小结

第5章 商品搜索排序算法设计

5.1 TF-IDF算法

5.1.1 TF值的计算

5.1.2 IDF值的计算

5.1.3 算法流程

5.1.4 TF-IDF算法的不足

5.2 改进TF-IDF算法

5.3 结果排序

5.4 实现流程

5.5 权值评估实验

5.5.1 位置权重确定

5.5.2 命名实体权重确定

5.5.3 实验结果及分析

5.6 本章小结

第6章 婴幼商品搜索引擎设计与实现

6.1 系统总体框架设计

6.2 系统开发环境

6.3 网络爬虫模块设计与实现

6.3.1 网页抓取

6.3.2 数据抽取

6.4 索引模块设计与实现

6.4.1 Lucene分析

6.4.2 系统索引模块

6.5 检索模块设计与实现

6.5.1 视图层设计

6.5.2 控制层设计

6.5.3 模型层设计

6.6 系统评估

6.6.1 压力测试

6.6.2 搜索结果评估

6.6.3 其他性能评估

6.7 本章小结

第7章 总结与展望

7.1 本文工作总结

7.2 未来工作展望

参考文献

致谢

展开▼

摘要

随着互联网的蓬勃发展和电子商务的日益普及,许多消费者网购时,会经历在不同网站间比较相似商品的复杂过程,影响了购物体验。如何使消费者免去到各个网站比较商品的繁琐步骤,能够方便快捷的在更广的范围内有效的找到所需商品,成为了电子商务领域亟须解决的问题。
  婴幼商品是消费者网上购物时关注的一个重点,但针对婴幼商品领域的垂直搜索技术研究却非常少,领域相关的中文分词算法与排序算法目前也并不完善。因此,本文主要研究面向婴幼商品领域的垂直搜索引擎技术,主要内容如下:
  1.对现有的垂直搜索引擎相关技术做出介绍,并针对聚焦爬虫技术进行了研究,在这基础上研究了面向多网站婴幼商品的爬取方法。婴幼商品聚焦爬虫采用基于网页内容的分析方法与广度优先搜索策略完成网页抓取,对相关商品制定抽取规则实现数据抽取,并使用MongoDB作为数据库存储婴幼商品信息。
  2.研究并分析了中文分词技术的现状、难点、主要方法,并设计了一种面向婴幼商品领域的分词算法。该分词方法结合了基于词典的字符串匹配方法与基于统计的分词方法,实现了婴幼商品领域相关度更高的中文分词算法。实验结果表明该算法性能可靠,稳定有效。
  3.在现有TF-IDF算法的基础上,提出了一种考虑了词条位置与内容的适用于本搜索引擎的改进TF-IDF算法。通过权值评估实验得到了各项所需参数的数值。在此基础上设计了基于商品结构化信息的排序优化算法。
  4.设计与实现了一个针对婴幼儿商品的垂直搜索引擎。首先对该引擎设计了总体框架,接着依次设计与实现了搜索引擎的各个关键模块,最后进行实验验证了本引擎的各项性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号