首页> 中文学位 >Web挖掘及其在网络搜索引擎中的应用研究
【6h】

Web挖掘及其在网络搜索引擎中的应用研究

代理获取

目录

文摘

英文文摘

声明

第1章前言

1.1课题的背景与意义

1.2国内外研究现状

1.3论文研究内容

1.4论文组织结构

第2章搜索引擎研究

2.1搜索引擎的定义

2.2搜索引擎的分类

2.2.1按检索工具发展过程分类

2.2.2按检索范围分类

2.2.3按工作方式分类

2.3搜索引擎的工作原理

2.3.1搜索引擎的体系结构

2.3.2搜索引擎的工作流程

2.4搜索引擎检索性能评价

2.4.1查全率

2.4.2查准率

2.4.3相关性范畴

2.4.4相对查准率

2.5搜索引擎的发展趋势

第3章Web挖掘及其在搜索引擎中的应用

3.1 Web挖掘的定义

3.2 Web挖掘的分类

3.2.1 Web内容挖掘(Web Content Mining)

3.2.2 Web结构挖掘(Web Structure Mining)

3.2.3 Web日志挖掘(Web Usage Mining)

3.3 Web挖掘在搜索引擎中的应用研究

3.3.1 Web内容挖掘在搜索引擎中的应用

3.3.2 Web结构挖掘在搜索引擎中的应用

3.3.3 Web日志挖掘在搜索引擎中的应用

第4章Web结构挖掘算法PageRank改进研究

4.1 PageRank算法

4.1.1传统PageRank算法

4.1.2主题敏感的PageRank算法

4.1.3结合文本内容的PageRank算法

4.2 PageRank算法问题描述

4.3传统PageRank算法改进研究

4.3.1 Web页面相似度

4.3.2算法改进思想

4.3.3改进策略

4.3.4实验验证

4.3.5实验结果分析

4.4主题敏感PageRank算法改进研究

4.4.1主题向量的定义

4.4.2算法改进思想

4.4.2算法改进策略

4.4.3算法改进分析

4.5小结

第5章改进Web挖掘算法在搜索引擎中的应用

5.1网页搜集

5.2网页预处理

5.2.1计算页面与各主题向量的相似度

5.2.2计算页面的PageRank值

5.3查询服务

5.3.1计算查询词与主题的相关度

5.3.2计算查询词与网页的相关度

5.3.3计算页面排序值

5.3.4搜索结果返回

5.4检索性能评价

5.4.1检索性能评价指标

5.4.2计算搜索引擎查准率

5.5结果分析

5.6小结

第6章总结与展望

6.1全文总结

6.2课题创新点

6.3研究展望

参考文献

致谢

个人简历及在学期间的研究成果

展开▼

摘要

随着网络技术的迅猛发展,Internet已成为当今世界上最大的信息库,也是全球范围内信息传播的重要渠道。由于Web本身的庞大性、动态性、异构性和半结构化等特点,导致了Web信息搜索的困难。目前人们从这些海量数据中查找有用信息,使用最多的就是网络搜索引擎,然而当前搜索引擎的检索效果很难使用户满意。作为知识挖掘中新的研究内容Web挖掘,由于其在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大的借鉴作用,所以通过应用Web挖掘技术,可以改善搜索引擎的检索性能。查准率是搜索引擎检索性能评价体系中的重要指标,它的高低直接影响用户对搜索引擎的满意度。课题旨在研究Web挖掘技术,并将其应用到搜索引擎中,找到提高搜索引擎查准率的方法。探讨了网络搜索引擎和Web挖掘的相关技术,重点研究了Web结构挖掘算法,分析了目前应用广泛的PageRank算法存在的问题,结合Web内容挖掘中的页面相似度改进了传统的PageRank算法,实验证明对算法的改进是有效的。在此基础上,改进了主题敏感的PageRank算法。通过一个小型Web结构图,阐述了改进的主题敏感PageRank算法是如何应用到搜索引擎中的。同时计算了搜索引擎在分别使用传统PageRank、主题敏感PageRank算法和改进主题敏感PageRank算法时的相对查准率。实验结果表明,针对不同的查询,改进的主题敏感PageRank算法使搜索引擎的相对查准率高于传统的PageRank算法和主题敏感PageRank算法,进而证明了改进的Web挖掘算法能够提高搜索引擎的查准率,改善搜索引擎的检索性能。

著录项

  • 作者

    杨春伟;

  • 作者单位

    中国石油大学(华东);

  • 授予单位 中国石油大学(华东);
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 李村合;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 国际互联网;
  • 关键词

    网络搜索引擎; Web挖掘; 互联网;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号