基于在线自学习的页面更新频率预测算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度,也无法保证所有页面的时效性。而就单个页面而言,只有部分页面的变化频率较快。因而,通过页面更新频率预测算法使爬虫只下载那些变化了的网页,对减轻爬虫的工作压力有着重要的意义。
　　本文围绕着如何在实际环境中有效预测网页变化的需要,在深入研究了网页变化规律的基础上,基于在线抽样检测的算法思想,研究了网页不同特征集对基于聚类的抽样检测算法的影响,特征集包括词向量特征、文本特征、URL特征、动态特征等。在此基础上创新性的提出了遗传基因特征的概念,利用遗传基因特征实现了自学习的优化算法。为了确定实验效果、评价我们的算法,我们搜集了一个真实网页集合的真实变化情况,建立了实验数据集。
　　本文研究的内容和成果归结为以下方面:
　　首先,建立了评价网页更新频率预测效果的实验数据集。实验数据集来源于不同类型网站的不同类型网页,保证网页集合的多样性与代表性,使得其他研究人员可以在此数据集上进行网页更新的预测的相关研究。数据集网页数量约为30万,分布在不同的122个网站上。
　　然后,提取了网页的词向量特征、文本特征、URL特征、动态特征等,研究了不同特征集对基于聚类的在线抽样检测算法的影响,并利用预测命中率评价指标量化了不同特征集对聚类算法实验效果的影响,进而分析了聚类算法的有效性与性能上限。
　　最后,本文提出了利用遗传基因特征自动优化下一轮的特征,进而实现了在线自学习的页面更新预测算法。遗传基因特征根据上一轮预测结果生成惩罚或奖励因子,从而优化下一轮的网页特征,实现了算法的在线自学习过程。本文提出利用格雷码代替二进制字符串实现遗传基因特征,达到了利用普通的加减法实现奖励或惩罚的目的。
　　结果表明,基于在线自学习的页面更新预测算法,有效地预测了页面的变化规律,预测命中率比随机算法提高了约43个百分点,比基于网站的抽样检测算法提高了约20个百分点,因而能够有效的节省爬虫网络带宽。

著录项

作者
夏俭磊;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐晓飞;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;算法理论;
关键词
页面更新频率; 爬行策略; 在线自学习; 抽样检测算法;

相似文献

中文文献
外文文献
专利

1. 基于分配空间自学习的在线动态索引混合更新机制 [J] . 刘小珠 ,彭智勇 . 计算机研究与发展 . 2012,第010期
2. 基于在线更新LSTM网络的短期4D航迹预测算法 [J] . 石庆研 ,王文青 ,韩萍 . 信号处理 . 2021,第001期
3. 基于USB接口的在线可更新DDS频率合成器 [J] . 赵俭 ,张效义 . 微计算机信息 . 2006,第008期
4. 基于USB接口的在线可更新DDS频率合成器 [J] . 赵俭 ,张效义 . 微计算机信息 . 2006,第03Z期
5. 基于页面内容和链接结构的超链接主题预测算法 [J] . 刘红 ,邵晓良 ,胡吉兵 . 现代图书情报技术 . 2005,第005期
6. 基于分配空间自学习的在线动态索引混合更新机制 [C] . Liu Xiaozhu ,刘小珠 ,Peng Zhiyong . 第29届中国数据库学术会议 . 2012
7. 基于频率预测算法的极地远程短波通信关键技术研究 [A] . 叶建成 . 2016

基于在线自学习的页面更新频率预测算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅