一种改进Best-First算法的主题爬虫搜索算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

飞速发展的互联网带来了海量的信息资源，用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时，通用搜索引擎难以为其提供满意的结果。为了打破通用搜索引擎的这一局限性，研究具有专业特点的智能化搜索引擎成为一种趋势，因而顺理成章的诞生了垂直搜索引擎。垂直搜索引擎中的主题爬虫犹如人的心脏一样，起着非常基础与关键的作用。主题爬虫按照用户给定的目标主题，智能化的搜索Web，快速、准确地提取出主题相关页面，满足用户所需。研究高效的主题爬虫对于提高垂直搜索引擎的性能有着非常重要的作用。
　　本文主要从以下三个方面展开所要研究的内容：
　　首先，本文对网络爬虫的基本原理进行了介绍，然后分析了主题爬虫的工作流程，之后讨论了关于主题的描述方法，接着重点分析了网页预处理技术，包括HTML标签、网页标题和正文内容的提取、锚文本的提取以及中文分词技术，为后文主题相关性计算奠定了坚实的基础。
　　其次，分析了基于页面内容评价的Best-First算法，针对向量空间模型中权重计算方法，只考虑特征词的词频，忽略了特征词的位置信息这一不足，本文提出利用HTML标签的修饰功能，采用加权频率来计算权重，提高主题相关性判断的准确率。另外，讨论了Best-First算法的贪婪性，针对Best-First算法难以获得全局范围内最优解的局限性，本文对主题爬虫的搜索策略做了一点改进，提出不仅注重搜索与主题相似度很高的链接，同时还考虑某些蕴涵很大远期价值的链接，从而使得主题爬虫能在一定程度上获得全局范围的最优解。
　　最后，本文通过上述分析的理论基础，设计并实现了一个简单的主题爬虫系统。实验结果表明，相比于宽度优先搜索算法和基于页面内容评价的传统的Best-First算法，本文提出的改进算法具有更高的准确率和召回率，它是有效的。

著录项

作者
丁发梅;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名张玉芳;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
Best-First算法; 准确率; 召回率; 搜索引擎; 主题爬虫; 网页预处理;

相似文献

中文文献
外文文献
专利

1. 一种改进Best-First算法的主题爬虫搜索算法 [J] . 丁发梅 . 信息通信 . 2015,第004期
2. 面向主题爬虫改进算法的个性化搜索引擎应用研究 [J] . 张安妮 ,姜华 ,郝相莲 . 海南大学学报：自然科学版 . 2011,第003期
3. 面向主题爬虫改进算法的个性化搜索引擎应用研究 [J] . 张安妮 ,姜华 ,郝相莲 . 海南大学学报（自然科学版） . 2011,第003期
4. 一种基于蚁群算法的主题爬虫搜索策略 [J] . 陈永彬 ,张琢 ,张添 . 微型机与应用 . 2011,第001期
5. 一种改进的基于遗传和蚁群算法的主题爬虫 [J] . 孔伟俊 ,胡广朋 . 信息技术 . 2017,第009期
6. 垂直搜索引擎主题爬虫搜索算法的一种改进算法 [C] . 左晓骏 ,张开拓 . 2010年亚太青年通信与技术学术会议 . 2010
7. 基于Best-First和PageRank算法的农业信息主题爬虫的研究与设计 [A] . 逄锦秀 . 2019

一种改进Best-First算法的主题爬虫搜索算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅