首页> 中文学位 >Web链接结构挖掘中HITS算支的分析与改进
【6h】

Web链接结构挖掘中HITS算支的分析与改进

代理获取

目录

文摘

英文文摘

声明

第一章 绪 论

第二章 Web 数据挖掘简介

第三章 Web 结构挖掘中的HITS 算法及其问题分析

第四章 改进的HITS 算法——G-HITS 算法

第五章 实验及性能分析

第六章 总结与展望

参考文献

致 谢

攻读硕士期间发表论文及攻读硕士期间参与科研项目

展开▼

摘要

近年来,随着Internet/Web 技术的快速普及和迅猛发展,它为人们提供了丰富的信息资源的同时,其所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给Web 资源的发掘造成了相当的难度。因此,将数据挖掘技术和Web 结合起来,进行Web 数据挖掘也就随之成为解决Web 挖掘问题的重要途径。
   在传统的信息检索技术己经成熟的现状下,从Web 数据本身的特点出发,充分地挖掘Web 上庞大的超链接资源,通过超链接进行搜索,建立有效的Web 信息检索模型,从而找到需要的信息。但传统的基于超链接的网页搜索排序算法是纯粹地基于链接分析(即Web 结构挖掘)来发现权威网页,没有考虑网页的具体内容,存在所谓的“主题漂移”问题,即算法的结果往往包含这样一些网页,它们相互链接密度较高,但在内容上却偏离了查询主题。
   本文通过对经典的Web 结构挖掘算法HITS算法的研究学习,针对HITS算法中只考虑Web 页面之间的超链接分析而忽略了Web 页面的内容,从而导致分析结果出现“主题偏移”和主题之间的多重加强关系等不足,提出了一种结合超链接分析和内容相关性分析的关于HITS算法的改进算法——G-HITS算法,该算法通过对不同Web 页面进行内容分析并赋予链接之间不同的权重来实现对HITS算法的改进,一定程度上改善了HITS算法的不足,更好的实现了权威网页的查找。最后通过实验证明G-HITS算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号