基于重复串的STC网页去重算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网上搜索信息的功能。然而在搜索引擎返回的检索结果中,存在大量的重复网页,其中大部分网页主要来自网站之间的转载。这些冗余网页既占用了网络带宽,又浪费存储资源,如何有效消除这些重复网页,提高检索的准确率,节省用户的时间和精力,提高用户满意度,成为当今搜索引擎领域中一个重要的研究方向。因此,网页去重工作有着十分重要的研究意义。
　　本文在深入学习数据挖掘知识的基础上,对搜索引擎工作原理进行剖析,对现有去重算法进行了分析。重点对STC算法和重复序列算法进行了详细比较,对两种算法进行性能测试后,分析二者利弊,提出一种基于重复串的STC改进算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。
　　为了验证所提出算法的有效性并比较其去重效果,本文开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,通过该系统实现了算法的改进,并验证了其有效性。
　　在实验过程中,首先对算法进行了编辑测试语料的模拟实验,将一篇文档内容进行标题和正文的删除、修改后生成修改文档。使用改进算法将修改文档与原文进行相似度判断。结果表明,算法能有效判定文档相似度。然后在实现了该算法的搜索引擎实验原型系统中,进行互联网实测。实验结果表明,本文的改进算法具有较高的召回率、去重准确率和较低的漏删率及误删率。
　　本文的研究成果和搜索引擎实验原型系统在信息急剧膨胀的时代,具有较高的应用价值和推广意义,同时也具有良好的社会效益和经济效益。

著录项

作者
殷波;
展开▼
作者单位

桂林电子科技大学;

展开▼
授予单位桂林电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名蒋华;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
网页去重; 搜索引擎; STC算法; 重复序列; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于网页正文结构和特征串的相似网页去重算法 [J] . 熊忠阳 ,牙漫 ,张玉芳 . 计算机应用 . 2013,第002期
2. 基于特征串的网页文本并行去重算法 [J] . 谢瑶兵 . 微电子学与计算机 . 2015,第2期
3. 基于特征串的网页去重算法 [J] . 姚新波 ,马治坤 . 科技信息 . 2008,第028期
4. 基于特征串的大规模中文网页快速去重算法研究 [J] . 吴平博 ,陈群秀 ,马亮 . 中文信息学报 . 2003,第002期
5. 基于关键长句及正文长度预分类的网页去重算法研究 [J] . 周杨 . 软件导刊 . 2012,第010期
6. 基于新闻网页主题要素的网页去重方法研究 [C] . 王鹏 ,张永奎 . 中国中文信息学会二十五周年学术会议 . 2006
7. 基于网页正文结构树的近似网页去重算法研究 [A] . 牙漫 . 2013

基于重复串的STC网页去重算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅