声明
摘要
第1章 概述
1.1 研究的背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究目标与内容
1.3.1 研究目标
1.3.2 研究内容
1.4 论文专业术语对照表
1.5 论文结构
第2章 网页去重及相似度判断流程与关键技术
2.1 文本重复及相似概述
2.2 网页去重及相似度判断流程
2.3 网页去重及相似度判断关键技术
2.4 样本集来源
2.5 网页预处理及正文内容提取
2.5.1 网页预处理
2.5.2 网页正文内容提取
2.6 中文分词及特征提取
2.6.1 分词方法选择
2.6.2 特征加权算法
2.7 本章小结
第3章 网页去重及相似度判断算法及实现
3.1 MD5算法
3.1.1 MD5算法的实现
3.2 向量空间模型
3.2.1 向量空间模型实现
3.3 基于《知网》的语义相似度计算
3.3.1 《知网》简介
3.3.2 基于《知网》的词汇语义相似度的计算
3.4 潜在语义分析
3.4.1 LSA具体实现
3.5 本章小结
第4章 中文农业网页去重及相似度判断实验及结果分析
4.1 相似度判断评价标准
4.2 实验及结果分析
4.2.1 样本集构建
4.2.2 网页去重实验结果
4.2.3 不同相似度判断方法的实验结果
4.2.4 相同相似度计算方法不同权重的结果对比
4.2.5 相同相似度判断方法不同权重结果比较
4.2.6 相同权重不同相似度判断方法结果比较
4.3 本章小结
第5章 总结与展望
5.1 总结
5.2 研究展望
参考文献
致谢
作者简历