文摘
英文文摘
声明
1绪论
1.1引言
1.2研究概述
1.3本论文主要工作及组织结构
2 Web数据挖掘与语义相似度
2.1 Web数据挖掘概述
2.2 Web数据挖掘的类别
2.2.1Web内容挖掘
2.2.2 Web使用挖掘
2.2.3Web结构挖掘
2.3 Web数据挖掘流程
2.4 Web数据挖掘的应用前景
2.5语义相似度的含义及分类
2.6《知网》语义字典
2.6.1《知网》简介
2.6.2《知网》的系统结构
2.6.3《知网》中的描述语言
2.7本章小结
3 Web结构挖掘算法
3.1 PageRank算法
3.1.1 PageRank的基本思想
3.1.2 PageRank的数学定义
3.1.3 PageRank的修正式
3.1.4 PageRank的性能分析
3.1.5 PageRank的结果讨论
3.2其它算法简介
3.2.1 HITS算法
3.2.2阈值算法
3.2.3 SALSA算法
3.3本章小结
4基于语义相似度的PageRank算法改进
4.1 PageRank算法存在的缺陷
4.2现有的改进方法
4.2.1 Hilltop算法
4.2.2主题相关的PageRank算法
4.2.3 PageRank-Pro算法
4.2.4融入时间权值的改进算法
4.2.5 dPageRank算法
4.3基于《知网》语义相似度的计算
4.3.1语义距离及其与语义相似度的关系
4.3.2相似度计算应考虑的因素
4.3.3相似度基本算法
4.3.4义原相似度的计算
4.3.5词语相似度的计算
4.3.6复合短语和句子的相似度计算
4.4融入语义相似度的PageRank算法优化
4.4.1锚文本
4.4.2融入语义相似度的PageRank修正式
4.5本章小结
5模拟系统的实现及测试
5.1系统框架设计
5.2数据收集阶段
5.3网页预处理和解析模块
5.4正向索引及倒排索引
5.4.1正向索引
5.4.2倒排索引
5.5链接拓扑结构图
5.6融入语义相似度的PageRank值计算
5.7查询服务
5.8测试结果分析
5.8.1查准率分析
5.8.2满意度分析
5.8.3统计分析
5.8.4分析总结
6总结与展望
6.1本文的主要工作和研究成果
6.2进一步的工作展望
致 谢
参考文献