基于网页内容和链接的主题爬虫研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。主题爬虫是垂直搜索引擎的核心部分。主题爬虫对网络带宽的利用率、硬件资源的使用以及搜索效率都有重要的影响,因此对主题爬虫的研究具有重要的意义。
　　本文首先介绍爬虫的基本原理,接着讨论主题爬虫的关键技术如中文分词,主题判断的方法以及主题向量的建立等,重点介绍了主题爬虫的爬行策略。本文详细介绍了每类爬行策略的代表算法,并对这些算法的优缺点进行了分析,并在此基础上提出了算法改进方法。
　　本文对传统向量空间模型特征词的权值计算方法进行改进:对文本中不同位置的特征词赋予不同的权重;对Hits算法中不合理的链接互相加强关系进行了改进:在扩展根集时,如果一个网站B上有n个其它网页指向另外一个网站上的某个网页A时,则将这些链接的权重设为1/n,其它链接的权重依然设为1;针对Shark-Search算法产生“近视”和Hits算法产生“主题漂移”的不足,将这两种算法的优点结合起来形成两种新的主题爬虫算法:S-Hits算法和MT-Hits算法,并实现了这两种爬虫算法。实验表明新的算法效果较好。

著录项

作者
罗林波;
展开▼
作者单位

海南大学;

展开▼
授予单位海南大学;
学科计算机应用技术
授予学位硕士
导师姓名陈绮;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
网页内容; 链接; 主题爬虫; 爬虫算法; 垂直搜索引擎; 爬行策略; 特征词; 权重; 主题漂移; 主题判断; 硬件资源; 向量; 网站; 网络带宽; 搜索效率; 空间模型; 计算方法; 关键技术; 改进方法; 信息量;

相似文献

中文文献
外文文献
专利

1. 基于网页内容相似度改进算法的主题网络爬虫 [J] . 魏晶晶 ,杨定达 ,廖祥文 . 计算机与现代化 . 2011 ,第009期
2. 一种基于网页内容和链接分析的主题搜索算法 [J] . 杨仁广 ,孟祥增 ,原佳丽 . 情报杂志 . 2008 ,第006期
3. 基于候选链接主题边缘文本的主题爬虫研究 [J] . 张环 . 山东师范大学学报（自然科学版） . 2018 ,第004期
4. 一种基于链接和内容分析的自适应主题爬虫算法 [J] . 朱庆生 ,徐宁 ,周瑜 . 计算机与现代化 . 2015 ,第009期
5. 基于内容与链接分析的主题爬虫研究与设计 [J] . 舒奔 ,尹珂 . 计算机与现代化 . 2014 ,第004期
6. 基于多链接分析的主题爬虫设计实现 [C] . 刘兵 ,胡学钢 . 全国第20届计算机技术与应用（CACIS）学术会议 . 2009
7. 基于内容和链接的主题爬虫的研究与实现 [A] . 王鹏达 . 2016

基于网页内容和链接的主题爬虫研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅