首页> 中文学位 >一种可扩展的面向中文主题搜索引擎的研究与设计
【6h】

一种可扩展的面向中文主题搜索引擎的研究与设计

代理获取

目录

封面

中文摘要

英文摘要

目录

第一章 绪论

1.1 通用搜索引擎

1.2 主题搜索引擎

1.3 主题搜索引擎的实现难点

1.4 本文的主要工作和组织

第二章 搜索引擎相关理论

2.1 搜索引擎工作流程

2.2 实现搜索引擎的关键技术

2.3 搜索引擎评价原则

2.4 本章小结

第三章 中文Web网页的搜集方式

3.1 搜集Web信息

3.2 多线程

3.3 搜集策略

3.4 避免搜集镜像网页及更新策略

3.5 网络蜘蛛模型

3.6 本章小结

第四章 面向主题的网络蜘蛛的设计

4.1 网络蜘蛛功能需求分析

4.2 主题网页链接发现

4.3 初始种子URL的更新

4.4 搜索策略的选择

4.5 抓取主题页面

4.6 相应的实验设计

4.7 本章小结

第五章 中文Web网页预处理

5.1 信息抽取技术概述

5.2 中文Web网页解析

5.3 中文分词

5.4 建立倒排索引

5.5 实现结果与分析

5.6 本章小结

第六章 查询服务实现

6.1 全文检索工具包Lucene

6.2 索引更新

6.3 索引压缩

6.4 Lucene与中文分词技术

6.5 查询接口实现的关键点

6.6 增强用户体验的Ajax技术

6.7 本章小结

第七章 结论与展望

7.1 本文的主要工作和贡献

7.2 下一步的工作和展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

声明

展开▼

摘要

面向主题的搜索引擎是一种分类精确细致、更新及时的搜索引擎,是搜索引擎的细分和延伸。随着Web信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。与通用搜索引擎相比,主题搜索引擎由于检索范围较小,查准率和查全率易于保证。本文的研究对象是Web这样的动态海量信息载体,研究的主要目的是要得到一种支持海量网页信息搜集、具有健壮的网页预处理、并提供相应规模的索引和查询接口的中文主题搜索引擎系统。本文所做的可扩展性工作主要体现在网络蜘蛛信息搜集和查询服务实现两方面。
  基于对网页性质及其分布的认识,本文提出一种可扩展网络蜘蛛信息搜集系统体系结构。系统可以让用户根据自己对信息的兴趣,配置用于引导系统搜集的主题导向词,以及搜集范围。同时,尽可能地使用和遵循现有的标准和协议。在不需要改动或改动很少的配置的情况下,适用不同主题的信息抓取。搜集系统力图在搜集策略、开放性、可定制性等方面得到一个很好的折衷。网络蜘蛛采用Fish搜索算法动态地调整爬行方向,从而保证了抓取网页的主题相关性。网络蜘蛛的可扩展性主要体现在种子链接发现、增量式抓取、多线程和限定抓取类型等。实验结果表明,网络蜘蛛具有较强的抓取能力,很好地解决了搜索引擎的数据来源问题。
  针对网络蜘蛛搜集来的主题网页进行一系列的预处理,抽取其中的网页URL、标题、正文内容、锚文本等。针对网页URL编码的不同而造成的网页乱码现象,采用统一的字符集和编码方案。设计一个中文搜索引擎,索引创建需要一个高效的倒排算法。本文从索引文件本身出发,采用分级的倒排表索引组织结构,提高了索引创建的效率。本文还结合中文分词技术,构建一定规模的词库,尝试解决中文搜索引擎存在的查准率和检索精度问题。
  在查询服务阶段,增量和合并的配置策略对索引进行了扩展,实现索引文档的动态更新。本文结合Lucene索引包特点,在达到索引合并阈值时,通过微调Lucene内置参数,有效避免频繁地改动和合并大索引块。同时,本文还给出基于Ajax技术的搜索引擎异步模式,这样极大地丰富了Web的表现力,也因此提高了搜索引擎的效用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号