基于可扩展分布式架构的高校搜索引擎研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，高校信息系统的信息量随着互联网技术的迅速发展，呈爆炸趋势增长，它的资源日趋丰富，应用范围也在不断扩大。经爬虫检测，从东华大学网站首页进入可到达的Web网页即超过10万篇，而广大师生对信息的需求还不仅如此，校外的精品课程信息、入学招生信息都可以纳入师生的需求范围。这就增强了高校师生对搜索技术的依赖性，搜索引擎成为了师生获取知识信息的工具，也成为高校网站中使用率最高的工具之一。
　　本文结合东华大学对于信息检索的需求，并考虑到今后快速不断增加的信息量与访问量，研究了搜索引擎基本原理与分布式系统基本原理，并基于Linux系统，结合开源软件提出了一个分布式架构，这个架构具有很好的可扩展性，可随着用户数量和网页数量的不断增加而轻易的扩展其系统性能，无需中断服务。作为一个理论与实践相结合的研究课题，本文的主要工作和研究成果包括：
　　 1．搜索引擎基本理论和算法的研究，包括爬虫的算法和架构、中文分词算法、倒排索引的结构和建立方法、搜索结果排序算法等。
　　 2．分布式系统理论研究，包括负载平衡算法、分布式缓存、MapReduce计算模型等。
　　 3．提出具有爬虫子系统、预处理子系统、查询子系统的东华大学搜索引擎架构的设计方案，其中使用Lucene作为倒排索引的建立和检索框架，使用中科院ICTLAS组件作为中文分词工具。着重解决了爬虫子系统中URL解析和扩展队列问题、Lucene中文分词扩展问题和搜索结果的排序评分算法。
　　 4．提出分布式架构的设计，包括使用LVS构建负载均衡集群、使用Memcache构建分布式缓存系统以及使用Map/Reduce分布式计算模型将Lucene改造为分布式索引存储。整个分布式架构具有很好的可扩展性，可随着系统的内容和用户数量的增加，扩展其计算能力而不必中断服务。
　　 5．按照上述架构设计开发实现东华大学搜索引擎，并对分布式搜索的性能和准确度进行实验评价。

著录项

作者
张佶;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科计算机软件与理论
授予学位硕士
导师姓名曹奇英;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
搜索引擎; 分布式架构; 高校信息系统; 信息检索; Linux系统; 中文分词;

相似文献

中文文献
外文文献
专利

1. 基于Lucene的高校图书垂直搜索引擎的研究与实现 [J] . 付强 . 太原师范学院学报（自然科学版） . 2011,第004期
2. 基于多中文搜索引擎的可扩展网络混合爬虫 [J] . 潘志舟 ,赵靖 . 安徽科技学院学报 . 2012,第006期
3. 一种基于MySQL的可扩展ETL系统的研究与实现 [J] . 冯运辉 . 电子技术与软件工程 . 2018,第005期
4. 基于可扩展标记语言的信息发布系统研究与实现 [J] . 李浩光 . 软件工程师 . 2014,第005期
5. 基于 RCP 的可扩展性应用平台研究与实现 [J] . 黄德瑞 ,王秋海 . 计算机光盘软件与应用 . 2012,第023期
6. 基于教务系统的站内搜索引擎研究与实现 [C] . 郭鹤 ,鲍泓 ,梁军 . 中国计算机用户协会网络应用分会2011年第十五届网络新技术与应用年会 . 2011
7. 基于分布式架构的元搜索引擎系统的设计与实现 [A] . 董乐 . 2013

基于可扩展分布式架构的高校搜索引擎研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅