首页> 中文学位 >基于网页内容和链接的主题爬虫研究与实现
【6h】

基于网页内容和链接的主题爬虫研究与实现

代理获取

目录

文摘

英文文摘

1 序言

1.1 论文的背景

1.2 国内外研究现状

1.3 研究的目的及意义

1.4 本文的组织工作

2 主题爬虫的工作原理及关键技术

2.1 爬虫原理

2.1.1 通用网络爬虫的工作原理

2.1.1 主题爬虫的工作原理

2.2 主题相关度计算

2.2.1 向量空间模型

2.2.2 布尔模型

2.2.3 贝叶斯方法

2.3 中文分词简介

2.3.1 中文分词

2.3.2 常用的分词算法

2.3.3 常见的中文分词开源项目

2.4 主题向量的建立

2.5 本章小结

3 爬虫的爬行策略研究

3.1 传统网络爬虫的爬行策略

3.2 主题爬虫的爬行策略

3.2.1 基于内容的主题爬行策略

3.2.2 基于链接的主题爬虫爬行策略

3.2.3 基于分类器的主题爬行策略

3.3 本章小结

4 Hits算法及其改进

4.1 Hits算法的基本思想

4.2 Hits算法的过程

4.2.1 构造Web子图

4.2.2 计算权威值和中心值

4.3 Hits算法的优缺点

4.4 S-Hits算法

4.5 MT-Hits算法

4.6 本章小结

5 系统设计及实验

5.1 系统开发环境

5.2 系统开发的目标

5.3 系统设计

5.4 爬虫主要类介绍

5.5 系统界面

5.6 实验结果及分析

5.7 本章小结

总结与展望

参考文献

攻读硕士学位期间发表的论文

后记

展开▼

摘要

随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。主题爬虫是垂直搜索引擎的核心部分。主题爬虫对网络带宽的利用率、硬件资源的使用以及搜索效率都有重要的影响,因此对主题爬虫的研究具有重要的意义。
   本文首先介绍爬虫的基本原理,接着讨论主题爬虫的关键技术如中文分词,主题判断的方法以及主题向量的建立等,重点介绍了主题爬虫的爬行策略。本文详细介绍了每类爬行策略的代表算法,并对这些算法的优缺点进行了分析,并在此基础上提出了算法改进方法。
   本文对传统向量空间模型特征词的权值计算方法进行改进:对文本中不同位置的特征词赋予不同的权重;对Hits算法中不合理的链接互相加强关系进行了改进:在扩展根集时,如果一个网站B上有n个其它网页指向另外一个网站上的某个网页A时,则将这些链接的权重设为1/n,其它链接的权重依然设为1;针对Shark-Search算法产生“近视”和Hits算法产生“主题漂移”的不足,将这两种算法的优点结合起来形成两种新的主题爬虫算法:S-Hits算法和MT-Hits算法,并实现了这两种爬虫算法。实验表明新的算法效果较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号