首页> 中文学位 >一种用于站内搜索的层次链接分析算法
【6h】

一种用于站内搜索的层次链接分析算法

代理获取

目录

文摘

英文文摘

独创性说明及大连理工大学学位论文版权使用授权书

1绪论

1.1本文的应用背景

1.2 Web搜索

1.2.1搜索引擎结构和工作原理

1.2.2搜索引擎的主要指标

1.3站内搜索与Web搜索的比较分析

1.4论文组织结构

2链接分析技术

2.1链接分析技术产生的背景

2.1.1引言

2.1.2超链分析的思想起源:引文分析

2.1.3超链分析的Web图表示

2.2现有的链接分析算法

2.2.1 PageRank

2.2.2 HITS

2.2.3 LBHITS

3站内搜索现状

3.1基于内容的检索

3.1.1词条频率的检索方法

3.1.2词条位置信息检索方法

3.2基于链接分析的检索

3.2.1构造隐含链接用于站内搜索

3.2.2 LPageRank

4站内层次链接分析算法

4.1站点的结构特征

4.1.1站点全局的分析

4.1.2站内单个页面的分析

4.2站内搜索的特点

4.3站内层次链接分析算法框架

4.4目录式页面和内容式页面的区分

4.4.1基于信息熵的区分

4.4.2基于方差的区分

4.4.3基于链接的区分

4.4.4各种区分方法的比较分析

5实验

5.1系统模型

5.2计算页面的重要性权值

5.3计算页面与关键字的匹配度

5.4实验结果及其分析

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

随着信息电子化的不断发展,站内搜索已经成为继Web搜索后另一个日益重要的领域:Google、百度都拥有站内搜索功能,国内外许多站点都有自己的站内搜索引擎。为了整合站内的所有信息资源,最大限度地完成信息传递的任务,使网站的资源得到充分的发挥,建立一个快速、健壮的站内搜索引擎尤为重要。 目前已存在一些关于站内搜索的研究,它们大多数采用基于文本相似度排序的全文本检索技术。也有一些站内搜索引擎采用和Web搜索引擎相同的技术,效果并不理想。由于基于文本相似度的排序面临着许多困难,以及传统的Web链接分析技术并不能直接用于站内搜索,已有一些方面的工作在研究适于站内搜索的链接分析方法以提高站内查询质量。 本文首先介绍了Web搜索中链接分析技术的发展概况和相关技术,并且分析了现有的一些用于站内搜索的方法。为了提高站内查询的质量,本文在充分分析站点的层次性质与站内搜索的特点的基础上,引入目录式页面与内容式页面的概念应用于站内搜索,提出一种站内层次链接分析算法,并给出了算法实现步骤。此算法为站内的每条链接重新合理地分配推荐性权重,使用HITS算法中页面的权威度与中心度的概念,计算页面的权威值来衡量站内页面的重要性。针对本文提出的站内层次链接分析算法,本文同时给出了两种有效区分站点中目录式页面与内容式页面的方法,对于站点的信息挖掘也有一定的意义。本文在实验中依照站内层次链接分析算法计算出页面的重要性重新排序文本查询的结果以提高查询质量。实验证明,相对于文本查询及Google站内搜索,此站内层次链接分析算法能充分提高查询的精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号