首页> 中文学位 >中文农业网页去重及相似度判断研究
【6h】

中文农业网页去重及相似度判断研究

代理获取

目录

声明

摘要

第1章 概述

1.1 研究的背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究目标与内容

1.3.1 研究目标

1.3.2 研究内容

1.4 论文专业术语对照表

1.5 论文结构

第2章 网页去重及相似度判断流程与关键技术

2.1 文本重复及相似概述

2.2 网页去重及相似度判断流程

2.3 网页去重及相似度判断关键技术

2.4 样本集来源

2.5 网页预处理及正文内容提取

2.5.1 网页预处理

2.5.2 网页正文内容提取

2.6 中文分词及特征提取

2.6.1 分词方法选择

2.6.2 特征加权算法

2.7 本章小结

第3章 网页去重及相似度判断算法及实现

3.1 MD5算法

3.1.1 MD5算法的实现

3.2 向量空间模型

3.2.1 向量空间模型实现

3.3 基于《知网》的语义相似度计算

3.3.1 《知网》简介

3.3.2 基于《知网》的词汇语义相似度的计算

3.4 潜在语义分析

3.4.1 LSA具体实现

3.5 本章小结

第4章 中文农业网页去重及相似度判断实验及结果分析

4.1 相似度判断评价标准

4.2 实验及结果分析

4.2.1 样本集构建

4.2.2 网页去重实验结果

4.2.3 不同相似度判断方法的实验结果

4.2.4 相同相似度计算方法不同权重的结果对比

4.2.5 相同相似度判断方法不同权重结果比较

4.2.6 相同权重不同相似度判断方法结果比较

4.3 本章小结

第5章 总结与展望

5.1 总结

5.2 研究展望

参考文献

致谢

作者简历

展开▼

摘要

随着网络信息技术的飞速发展,农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的朋友们带来方便的同时,也增加了快速、准确获取有效信息的难度。如何对农业网页中重复以及近似重复的网页进行有效的管理,成为农业垂直搜索引擎领域研究的重要课题之一。本文的工作主要包括以下几个方面:
  1)深入研究了文本去重及相似度判断的关键技术,网页预处理、网页正文内容提取、中文分词、特征加权算法、网页去重方法、文本相似度计算方法以及相似度评价标准技术,以农业网页语料库为基础,重点研究了网页去重技术、特征加权算法以及相似度计算的方法。
  2)对中文农业网页中重复及近似重复的网页的定义标准进行研究,构建出中文农业网页语料库。建立一个由人工鉴别出的网页集合,包含225组网页集,每组网页集中有2至14张近似重复网页,共1110篇网页作为网页测试集。
  3)首先对网页进行预处理,使用MD5方法去除网页集合中完全相同的网页,再对其余网页提取出正文内容,利用庖丁解牛分词方法进行分词、去除停用词后,分别使用布尔权重、词频权重、词频倒文档权重三种方法对特征词进行加权计算;最后分别使用三种相似度算法(向量空间模型、基于《知网》的语义相似度、潜在语义分析)对三种不同权重的特征向量空间模型进行了相似度计算,最终得到9组中文农业网页相似度判断结果。
  4)分析比较了9组实验的准确率、召回率、F1测度。结果表明,没有哪种特征加权算法对相似度判断有绝对的优势,三种特征加权算法在不同的相似度判断中各有优劣。不同相似度判断方法分析对比表明潜在语义分析相似度判断结果最好。
  通过MD5方法去除了41篇与其它网页完全重复的网页,对剩余1069篇网页使用不同的相似度判断方法结合权重计算对农业网页去重及相似度判断进行了深入研究。通过实验结果的分析与对比,结果表明潜在语义分析结合布尔权重值获得的结果,对农业网页相似度判断有最好的结果,综合评价F1测度为90.1%,且准确率达到了93.7%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号