首页> 中文学位 >个性化时政信息搜索引擎的研究与实现
【6h】

个性化时政信息搜索引擎的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

缩略语对照表

目录

第一章 绪论

1.1 研究背景

1.2检索技术概述

1.3 垂直搜索引擎

1.4 本文主要内容

1.5 本文结构

第二章 VSM及垂直搜索技术

2.1 VSM研究

2.2 垂直搜索的基本原理

2.3 垂直搜索的爬行策略和索引技术

2.4 垂直搜索的文本分类技术

2.5 本章小结

第三章 个性化搜索技术研究与改进

3.1. 网页采集技术研究与改进

3.2 文本分类技术的研究与改进

3.3用户兴趣模型设计与改进

3.4 本章小结

第四章 个性化时政信息搜索引擎的研究设计

4.1 PPISE总体设计

4.2 个性化爬虫模块研究与设计

4.3 索引模块研究设计

4.4 搜索模块的研究设计

4.5 个性化时政信息管理模块研究设计

4.6 PPISE界面设计

4.7本章小结

第五章 个性化时政信息搜索引擎测试

5.1个性化搜索性能测试

5.2 PPISE爬虫测试

5.3 PPISE文本分类算法测试

5.4 本章小结

第六章 总结

6.1 工作结论

6.2 研究展望

参考文献

致谢

作者简介

展开▼

摘要

当前社会计算机技术快速发展,网络中各种数据爆增,大数据的时代已经来了。面对这个问题,GOOGLE、百度等搜索引擎诞生了,而且很快成长为全球顶尖的互联网公司,这正是因为它们满足了大部分互联网用户的需要,顺应了时代的发展。但在当下,数据量正呈几何倍数增长,并且用户对数据的获取要求在不断提高,他们要求搜索引擎能在更短的时间内提供给更准确的符合自己预期需要的结果,因此普通的搜索引擎已经远远不能满足这些要求,这时就需要我们设计一种改进型的搜索引擎,来适应用户精确化、快速化、时鲜化的需要。当前针对用户这种需求的技术有很多种,如垂直搜索技术、个性化技术等。垂直搜索技术可以帮用户在自己所处的专业领域进行信息的深度挖掘,并且效率比一般的搜索更高,结果也更准确。个性化技术是指对每一个用户制定一个符合他需求的检索方案,通过这种“私人订制”可以大大提高用户对检索结果的满意程度。所以加入了个性化技术、垂直搜索技术的搜索引擎正是符合当下时代需求的搜索引擎,因此很有必要进行研究。最重要的是现在党政部门正在大力推进电子政务内网建设,而本文对个性化时政信息搜索的研究将对未来电子政务内网的应用发挥具大的作用。
  本文首先分析了目前各国搜索引擎技术发展的现状,介绍了当下大数据时代用户对搜索引擎提出的新的要求,并对通用搜索引擎的关键组成部分如网络爬虫、网页排序、索引机制等功能及其原理进行了详细的描述。然后通过对垂直搜索引擎的概念、基本原理、组成结构等的学习,并研究其网络爬虫、关键词检索、索引等重要模块,最后建立了一个用户兴趣模型,将这些全都应用于普通搜索引擎当中,设计出了一个满足用户垂直搜索需求、个性化需求的搜索引擎,并以PPISE实例来实现。网络爬虫模块的主要作用是爬取网站中的数据,并对这些数据进行主题相关度URL筛选;检索模块主要是将文本分类技术和用户兴趣模型结合在一起,以提高检索结果与用户需求之间的相关性;索引模块主要是在构建索引时根据用户的兴趣等对不同类的文本进行分类,它用到了文本分类技术,并确保了索引效率。
  本文主要有三个方面的研究设计,并在一定程度上进行了改进创新:一是设计了一种引入了URL相关性过虑机制专业爬虫,通过这个设计使当前搜索引擎没有过滤掉不相关噪声网页的缺陷得到一定程度的改善,同时这种爬虫通过网页相关性规则过滤掉了许多不相关的网页,减少了爬虫对它们不必要的爬取,使信息的采集效率得到一定的提升。二是设计了一种文本分类方法,其加入了经过改进的特征选择函数、文本分类技术。它使个性化时政信息搜索引擎对文本的分类更细化,类别判断更准确,也更符合用户的个性化需求。三是设计了一个经相关反馈技术改进并完善的用户兴趣模型,使搜索引擎具有的个性化能力得到提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号