首页> 中文学位 >元搜索引擎的排序合成技术研究及实现
【6h】

元搜索引擎的排序合成技术研究及实现

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 课题背景与意义

1.2 国内外研究现状

1.2.1 元搜索引擎发展

1.2.2 元搜索引擎的排序合成研究

1.3 本文的主要研究内容

1.4 本文的结构安排

第2章 元搜索引擎技术

2.1 元搜索引擎概述

2.2 元搜索引擎分类

2.3 元搜索引擎关键技术

2.4 其他相关技术

2.4.1 基本信息检索

2.4.2 中文分词

2.4.3 缓存服务

2.4.4 服务器日志

2.5 本章小结

第3章 排序合成算法

3.1 排序合成简介

3.2 算法的思想基础

3.2.1 Skimming效应

3.2.2 Chorus效应

3.2.3 DarkHorse效应

3.2.4 排序合成的三元组

3.3 排序合成算法设计

3.3.1 文档有效性计算

3.3.2 搜索引擎有效性计算

3.3.3 结果整合

3.4 本章小结

第4章 元搜索引擎的设计与实现

4.1 系统整体框架

4.2 模块设计

4.2.1 网页抓取模块

4.2.2 网页分析模块

4.2.3 去重模块

4.2.4 PageRank算法

4.2.5 中文分词模块

4.2.6 缓存模块

4.3 系统相关参数及优化

4.3.1 元搜索引擎URL参数

4.3.2 页面抓取

4.3.3 线程池

4.4 系统实现和有效性验证

4.4.1 系统实现

4.4.2 有效性验证

4.5 本章小结

结论

参考文献

致谢

展开▼

摘要

搜索引擎是在互联网上海量的信息中检索到所需信息的重要途径。但是,不同的搜索引擎所采用的算法以及搜索范围并不相同,致使对于同样的关键字,不同的搜索引擎通常返回不同质量的搜索结果。而元搜索引擎的目的就是高效利用多个传统搜索引擎所返回来的检索结果,以提高搜索的覆盖率和准确率。
  排序合成是元搜索引擎的核心问题。本文结合文档有效性和搜索引擎有效性设计了一种新的排序合成算法:对于文档有效性因素,考虑搜索结果的原排序位置、用户搜索关键字与标题或摘要的匹配度、搜索结果在成员搜索引擎中的重复度等因素来确定;对于搜索引擎有效性,考虑每个成员搜索引擎包含的有效文档数量来确定;然后综合计算得到搜索结果的最终权重信息,并以此为依据来进行重新排序。
  借鉴传统的元搜索引擎开发方法,引入两级缓存结构和线程池技术,本文给出了一种优化的元搜索引擎的设计方案。该方案中,数据库缓存和内存缓存相结合,既避免了服务器资源的重复请求,又有效的提高了系统效率;线程池的使用避免了服务器频繁创建线程引起的资源损耗;针对三大搜索引擎,URL参数优化可以有效的减少页面抓取的时间损耗,进而减少了用户的等待时间。
  本文依据优化后的设计方案,对元搜索引擎进行了实现,并通过一款谷歌浏览器插件对开发的元搜索引擎进行了验证。最终的测试结果验证了该设计方案在搜索准确性方面的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号