首页> 中文学位 >基于频繁链接的Web权威资源挖掘
【6h】

基于频繁链接的Web权威资源挖掘

代理获取

目录

摘 要

Abstract

第一章引言

1.1研究背景

1.2本文的工作成果

1.3本文组织

第二章相关研究

2.1 Web权威资源发现的常用算法

2.1.1 HITS(Hyperlink-Induced Topic Search)算法

2.1.2 PageRank算法

2.1.3社团(Community)挖掘

2.2频繁模式的挖掘算法

2.3网络抓取程序

2.4一些常用的数据模型

2.5本章小结

第三章FARMING算法描述

3.1基本术语和定义

3.1.1频繁度(freq),支持度(sup),频繁(子)图

3.1.2权威页面,权威社团

3.2算法准备——生成图库

3.2.1图库生成方法

3.2.2 PageSnagger

3.2.3生成图库存放格式

3.3算法过程

3.4实验分析

3.4.1权威页面

3.4.2权威社团

3.4.3小结

3.5本章结论

第四章SFP算法描述

4.1无向图SFP算法描述

4.2为Web挖掘环境修改原始SFP算法

4.3性能比较

4.3本章小结

第五章改进方向和系统展望

5.1 改进方向

5.2 系统展望

参考文献

致 谢

附录文章与项目

论文独创性声明和论文使用授权声明

展开▼

摘要

如何有效地利用Web这个巨大的信息库?传统的基于关键字的搜索引擎取得了一定的成绩,但是存在着查准率不高的问题.Web页面间链接结构事实隐含地表达着权威的信息,当网页的创建者在页面内向别的页面作链接时,某种意义上,在表达着他所链页面重要性的一种认可.于是,如何有效地利用链接结构来进行权威资源发现成为了信息检索研究者们的一个重要课题.而HITS、PageRank等相关算法的提出,更是坚定了人们对Web链接结构有效性的信心.到目前为止,链接结构在Web信息检索(包括搜索引擎)性能的改善方面,已取得了较好的效果,但依然存在很大的改善空间.为此,该文在对当前的Web做了充分的研究后,提出了FARMING(基于频繁度的Web图的权威资源挖掘)算法和SFP算法,以期用频繁模式挖掘原理挖掘相关于查询主题的Web权威资源.文章诠释了新的权威页面定义,提出了带阶的频繁子图和权威社团等概念,并用实验证实了FARMING算法的有效性.该文的最后对进一步研究和利用研究成果进行系统开发提出了今后努力的方向.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号