中文农业网页去重及相似度判断研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着网络信息技术的飞速发展，农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的朋友们带来方便的同时，也增加了快速、准确获取有效信息的难度。如何对农业网页中重复以及近似重复的网页进行有效的管理，成为农业垂直搜索引擎领域研究的重要课题之一。本文的工作主要包括以下几个方面:
　　1)深入研究了文本去重及相似度判断的关键技术，网页预处理、网页正文内容提取、中文分词、特征加权算法、网页去重方法、文本相似度计算方法以及相似度评价标准技术，以农业网页语料库为基础，重点研究了网页去重技术、特征加权算法以及相似度计算的方法。
　　2)对中文农业网页中重复及近似重复的网页的定义标准进行研究，构建出中文农业网页语料库。建立一个由人工鉴别出的网页集合，包含225组网页集，每组网页集中有2至14张近似重复网页，共1110篇网页作为网页测试集。
　　3)首先对网页进行预处理，使用MD5方法去除网页集合中完全相同的网页，再对其余网页提取出正文内容，利用庖丁解牛分词方法进行分词、去除停用词后，分别使用布尔权重、词频权重、词频倒文档权重三种方法对特征词进行加权计算;最后分别使用三种相似度算法（向量空间模型、基于《知网》的语义相似度、潜在语义分析）对三种不同权重的特征向量空间模型进行了相似度计算，最终得到9组中文农业网页相似度判断结果。
　　4)分析比较了9组实验的准确率、召回率、F1测度。结果表明，没有哪种特征加权算法对相似度判断有绝对的优势，三种特征加权算法在不同的相似度判断中各有优劣。不同相似度判断方法分析对比表明潜在语义分析相似度判断结果最好。
　　通过MD5方法去除了41篇与其它网页完全重复的网页，对剩余1069篇网页使用不同的相似度判断方法结合权重计算对农业网页去重及相似度判断进行了深入研究。通过实验结果的分析与对比，结果表明潜在语义分析结合布尔权重值获得的结果，对农业网页相似度判断有最好的结果，综合评价F1测度为90.1％，且准确率达到了93.7％。

著录项

作者
赵涛;
展开▼
作者单位

新疆农业大学;

展开▼
授予单位新疆农业大学;
学科农业机械化工程
授予学位硕士
导师姓名张太红;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
中文农业网页; 文本去重; 特征加权; 向量空间模型; 相似度判断; 潜在语义分析;

相似文献

中文文献
外文文献
专利

1. 中文农业网页去重及相似度判断研究 [J] . 赵涛 ,张太红 ,陈燕红 . 计算机技术与发展 . 2015,第001期
2. 基于新闻网页主题要素的网页去重方法研究 [J] . 王鹏 ,张永奎 ,张彦 . 计算机工程与应用 . 2007,第028期
3. 文本相似度去重并行化算法研究 [J] . 蔡艳婧 . 电子制作 . 2018,第010期
4. 近似镜像网页去重方法研究 [J] . 陈剑 ,史有群 ,陶然 . 电气工程与自动化：中英文版 . 2016,第002期
5. 网页去重技术问题研究 [J] . 马辉 . 移动信息 . 2015,第008期
6. 基于新闻网页主题要素的网页去重方法研究 [C] . 王鹏 ,张永奎 . 中国中文信息学会二十五周年学术会议 . 2006
7. 新闻垂直搜索引擎中文分词与网页去重的应用与研究 [A] . 李小三 . 2014

中文农业网页去重及相似度判断研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅