首页> 中文学位 >垂直搜索引擎在烟草行业的研究与应用
【6h】

垂直搜索引擎在烟草行业的研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章绪论

1.1 研究背景及意义

1.2国内外研究现状

1.3 搜索模型概述

1.4 研究内容

1.5 本文组织结构

第二章搜索引擎的整体架构与关键技术

2.1 搜索引擎的体系结构

2.2 中文分词

2.3 倒排索引

2.4 链接分析

第三章

3.1 引言

3.2 PageRank的原始求和方法

3.3 “黑洞”问题

3.4 马尔科夫修正

3.5 本章小结

第四章针对烟草行业的主题判别

4.1 引言

4.3 种子URL的选取

4.3 超链接判别

4.4 元信息判别

4.5 词库判别

4.6 本章小结

第五章 垂直搜索引擎的设计与实现

5.1 需求分析

5.2 主题爬虫的设计与实现

5.3 文档评分及排序

5.4 查询交互页面

5.5搜索引擎的评价原则

5.6 本章小结

第六章 总结与展望

6.1 全文总结

6.2 研究展望

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

互联网的飞速发展一方面给我们提供了极其丰富的信息,另一方面也加大了信息过滤的难度。互联网用户越来越依赖于搜索引擎来缩小信息检索的范围,从而更高效地获取自己感兴趣的内容。但是,用户的期望结果是小而精,通用搜索引擎追求的目标是大而全,与用户的特定需求南辕北辙。在这种背景下,垂直搜索引擎应运而生。如果把互联网当作一个服务提供者,则其成熟的一条重要标志就是由通用化向订制化发展,垂直搜索引擎的出现即是这种转换的具体表现,也是搜索引擎未来的发展方向。
  首先,本文结合互联网的发展史,综述了垂直搜索引擎的出现背景及意义。以烟草行业为例,深入分析了企业日益增长的信息检索需求与通用搜索引擎固有局限性之间的矛盾,论证了垂直搜索引擎应用于企业的必要性与可行性。然后结合笔者在烟草企业的实习经历,设计并实现了一种针对烟草行业的垂直搜索引擎。在对垂直搜索引擎的整体架构和关键技术充分研究的基础上,提出了一种“三度过滤”的主题判别方法,并提高了PageRank算法在实际应用中的适应性。然后对开源项目Lucene进行了本地化改造,最终开发出一款适用于烟草行业的垂直搜索引擎。
  本文主要研究内容如下:
  (1)在研习搜索引擎典型架构的基础上,详细阐述了中文分词、倒排索引和链接分析三项关键技术的实现原理。通过横向对比总结出了各种搜索模型的优缺点,以布尔模型实现基础的文本筛选,以空间向量模型实现高级的匹配运算,从而建立起符合烟草行业特点的搜索模型,兼具简单易行和支持相关性评分两方面优势。
  (2)编程模拟了PageRank算法的迭代过程,对出链-入链矩阵中的黑洞问题和PageRank向量的数据失衡问题进行了深入的分析。黑洞问题会造成部分网页垄断PageRank得分,使评分结果有失客观性与科学性;而数据失衡问题会造成迭代过程的收敛速度过慢,无法应用于大规模的计算。本文通过引入马尔科夫链理论对模型加入两次随机性调整,使之更符合上网者随机浏览网页的过程,从根本上杜绝了黑洞问题的产生并加快了PageRank的收敛速度。
  (3)提出了一种“三度过滤”的主题判别方法。借助烟草行业的专业词库,在主题判别的过程中将预判因子、元信息因子、词库因子纳入主题相关度的计算,有效过滤了与主题无关的网页,大大提高了搜索引擎的查准率。另一方面,该算法得出的预判因子还用于调整URL队列的优先级,帮助主题爬虫优先抓取主题相关度更高的网页。
  (4)通过对Lucene源代码的本地化改造,实现了开源项目与系统开发的兼容性整合。结合原始的空间向量模型,对影响网页欢迎度与主题相关度的各项因子进行调整,将查询词的词频、词类、通用性以及文档长度纳入综合统计,并对不同的查询域进行差异化加权,最终得出了符合烟草行业特点的评分公式。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号