首页> 中文学位 >基于语义相似度的WEB结构挖掘研究及实现
【6h】

基于语义相似度的WEB结构挖掘研究及实现

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1引言

1.2研究概述

1.3本论文主要工作及组织结构

2 Web数据挖掘与语义相似度

2.1 Web数据挖掘概述

2.2 Web数据挖掘的类别

2.2.1Web内容挖掘

2.2.2 Web使用挖掘

2.2.3Web结构挖掘

2.3 Web数据挖掘流程

2.4 Web数据挖掘的应用前景

2.5语义相似度的含义及分类

2.6《知网》语义字典

2.6.1《知网》简介

2.6.2《知网》的系统结构

2.6.3《知网》中的描述语言

2.7本章小结

3 Web结构挖掘算法

3.1 PageRank算法

3.1.1 PageRank的基本思想

3.1.2 PageRank的数学定义

3.1.3 PageRank的修正式

3.1.4 PageRank的性能分析

3.1.5 PageRank的结果讨论

3.2其它算法简介

3.2.1 HITS算法

3.2.2阈值算法

3.2.3 SALSA算法

3.3本章小结

4基于语义相似度的PageRank算法改进

4.1 PageRank算法存在的缺陷

4.2现有的改进方法

4.2.1 Hilltop算法

4.2.2主题相关的PageRank算法

4.2.3 PageRank-Pro算法

4.2.4融入时间权值的改进算法

4.2.5 dPageRank算法

4.3基于《知网》语义相似度的计算

4.3.1语义距离及其与语义相似度的关系

4.3.2相似度计算应考虑的因素

4.3.3相似度基本算法

4.3.4义原相似度的计算

4.3.5词语相似度的计算

4.3.6复合短语和句子的相似度计算

4.4融入语义相似度的PageRank算法优化

4.4.1锚文本

4.4.2融入语义相似度的PageRank修正式

4.5本章小结

5模拟系统的实现及测试

5.1系统框架设计

5.2数据收集阶段

5.3网页预处理和解析模块

5.4正向索引及倒排索引

5.4.1正向索引

5.4.2倒排索引

5.5链接拓扑结构图

5.6融入语义相似度的PageRank值计算

5.7查询服务

5.8测试结果分析

5.8.1查准率分析

5.8.2满意度分析

5.8.3统计分析

5.8.4分析总结

6总结与展望

6.1本文的主要工作和研究成果

6.2进一步的工作展望

致 谢

参考文献

展开▼

摘要

目前,Internet/Web技术逐渐趋于成熟,Web已经成为人们的重要信息来源之一。但在提供丰富的信息资源的同时,它所具有的数据半结构化或非结构化、数据海量、实时的动态性以及用户的多态性等特点也给Web资源的使用造成了一定的难度。因此,将数据挖掘技术和Web特性结合起来,在浩瀚的信息资源中快捷、准确地检索到人们需要的信息,已成为一项迫切而有意义的研究课题。 本文以体现网页链接结构关系的当代经典PageRank算法为对象,深入分析其基本思想并指出其对网页评分时存在的不足。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,而实际上每个链接的重要性和链接之间的相关性都是有差异的。它完全忽略了网页内容的语义信息,很容易受到无关链接的影响,降低了搜索结果的用户满意度。 针对上述缺陷,本文通过引入基于《知网》的语义相似度,使链接锚文本的质量和其所指向网页的内容产生联系。融入出链接与目标网页主题相似度信息,使得那些没有价值的页面,或者主题不相关的网页分得较少的PageRank值,提升了真正与主题相关、有价值的页面的PageRank值。据此更加精确的体现各个链接之间的竞争。 最后实现了一个模拟的搜索引擎。该模拟系统几乎包含了搜索引擎的全部基本功能。并且在互联网真实环境下进行测试,对融入语义相似度的PageRank算法进行验证。通过实验和分析,新的算法在不影响原算法的优点和效率的情况下能更好地对网页进行评分,提升了用户满意度。它在网页优先级算法上向人工智能和语义Web又迈进了一步。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号