布隆过滤器在网页去重中的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源，而另一方面也给人们搜索有用的信息带来巨大的负担。根据中国互联网络信息中心CNNIC在2012年的统计:2011年全球网页的数量已经达到866亿个，而2012年这个数字已经增加到了1227亿个。因此如何更有效的消除互联网中的重复信息，让人们便捷的找到所求，已经成为现代互联网的一个重要的问题。
　　布隆过滤器(Bloom Filter)是1970年提出的一种去重算法，它实际上是由一个很长的二进制向量和一系列随机映射函数组成的。如今，他已经运用在了很多领域，并且通过国内外的研究，逐渐改进了算法的缺点。
　　本文从理论和应用同时入手，通过实验的方法，找到布隆过滤器在网页去重领域比较好的改进方案。
　　首先，本文介绍了重复网页的概念和种类，总结了重复网页产生的原因。并且简要介绍了一些相关概念。
　　其次，重点介绍了布隆过滤器以及其改进算法。以改进布隆过滤器的缺陷为出发点，选定了计数布隆过滤器和多维布隆过滤器这两种改进算法，并且在理论上对它们进行了分析，阐述了三种算法运行效率和优缺点。
　　最后，论文进行了实验设计，通过创建一定规模的集合来分析三种算法，并且根据分析结果得出了结论，为进一步改进布隆过滤器在网页去重中的应用指出了参考方向。

著录项

作者
黄涛;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机技术
授予学位硕士
导师姓名刘玉秀;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
布隆过滤器; 网络爬虫; URL去重; 互联网; 运行效率;

相似文献

中文文献
外文文献
专利

1. Hadoop下改进布隆过滤器算法的网页去重 [J] . 黄伟建 ,杨海龙 . 计算机工程与科学 . 2017,第002期
2. 基于布隆过滤器的网页搜索去重方法 [J] . 黄恩博 . 现代计算机（专业版） . 2013,第014期
3. 布隆过滤器在网页消重中的应用 [J] . 潘昊 ,鄂海红 ,宋美娜 . 软件 . 2015,第012期
4. 基于网页正文结构和特征串的相似网页去重算法 [J] . 熊忠阳 ,牙漫 ,张玉芳 . 计算机应用 . 2013,第002期
5. 基于网页正文逻辑段落和长句提取的网页去重算法 [J] . 张小娣 ,宋余庆 . 图书情报研究 . 2012,第002期
6. 基于新闻网页主题要素的网页去重方法研究 [C] . 王鹏 ,张永奎 . 中国中文信息学会二十五周年学术会议 . 2006
7. 基于布隆过滤器算法的网页消重技术的实现与应用 [A] . 王征 . 2010

布隆过滤器在网页去重中的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅