首页> 中文学位 >基于可扩展分布式架构的高校搜索引擎研究与实现
【6h】

基于可扩展分布式架构的高校搜索引擎研究与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 搜索引擎技术发展历史与现状

1.2 研究意义与目的

1.3 课题研究内容

1.4 本文的组织结构

第二章 搜索引擎与分布式技术分析

2.1 Web爬虫

2.2 倒排索引

2.3 中文分词

2.4 排序算法

2.5 分布式系统理论

2.6 可扩展网络服务

2.7 本章小结

第三章 搜索引擎的基本架构设计

3.1 整体架构

3.2 爬虫子系统

3.3 预处理子系统

3.4 查询子系统

3.5 本章小结

第四章 可扩展分布式架构设计

4.1 整体架构

4.2 LVS负载均衡集群

4.3 Memcache分布式缓存部署

4.4 分布式索引

4.5 本章小结

第五章 实验与评价

5.1 搜索界面实验

5.2 查全率和查准率实验

5.3 分布式缓存实验

5.4 负载均衡性能实验

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读学位期间的研究成果目录

致谢

展开▼

摘要

近年来,高校信息系统的信息量随着互联网技术的迅速发展,呈爆炸趋势增长,它的资源日趋丰富,应用范围也在不断扩大。经爬虫检测,从东华大学网站首页进入可到达的Web网页即超过10万篇,而广大师生对信息的需求还不仅如此,校外的精品课程信息、入学招生信息都可以纳入师生的需求范围。这就增强了高校师生对搜索技术的依赖性,搜索引擎成为了师生获取知识信息的工具,也成为高校网站中使用率最高的工具之一。
   本文结合东华大学对于信息检索的需求,并考虑到今后快速不断增加的信息量与访问量,研究了搜索引擎基本原理与分布式系统基本原理,并基于Linux系统,结合开源软件提出了一个分布式架构,这个架构具有很好的可扩展性,可随着用户数量和网页数量的不断增加而轻易的扩展其系统性能,无需中断服务。作为一个理论与实践相结合的研究课题,本文的主要工作和研究成果包括:
   1.搜索引擎基本理论和算法的研究,包括爬虫的算法和架构、中文分词算法、倒排索引的结构和建立方法、搜索结果排序算法等。
   2.分布式系统理论研究,包括负载平衡算法、分布式缓存、MapReduce计算模型等。
   3.提出具有爬虫子系统、预处理子系统、查询子系统的东华大学搜索引擎架构的设计方案,其中使用Lucene作为倒排索引的建立和检索框架,使用中科院ICTLAS组件作为中文分词工具。着重解决了爬虫子系统中URL解析和扩展队列问题、Lucene中文分词扩展问题和搜索结果的排序评分算法。
   4.提出分布式架构的设计,包括使用LVS构建负载均衡集群、使用Memcache构建分布式缓存系统以及使用Map/Reduce分布式计算模型将Lucene改造为分布式索引存储。整个分布式架构具有很好的可扩展性,可随着系统的内容和用户数量的增加,扩展其计算能力而不必中断服务。
   5.按照上述架构设计开发实现东华大学搜索引擎,并对分布式搜索的性能和准确度进行实验评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号