首页> 中文学位 >基于领域本体的主题爬虫系统研究与实现
【6h】

基于领域本体的主题爬虫系统研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 课题研究主要内容

1.4 论文的组织结构

第二章 相关理论与技术

2.1 WEB搜索引擎概述

2.2 蜘蛛爬虫概述

2.3 本体概述

2.4 超文本传输协议

2.5 windows多线程概念

2.6 MD5算法

2.7 K-means算法

2.8 本章小结

第三章 主题搜索算法研究与设计

3.1 网络蜘蛛通用搜索算法

3.2 主题蜘蛛搜索算法研究

3.3 基于领域知识本体的系统新算法设计

3.4 本章小结

第四章 基于领域本体的网络爬虫系统设计与实现

4.1 主题爬虫系统整体设计

4.2 主题爬虫系统重点模块实现

4.3 系统测试

4.4 本章小结

第五章 总结与展望

致谢

参考文献

攻读硕士期间取得的科研成果

展开▼

摘要

搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等,这些搜索引擎面向的是广大的互联网用户,提供的都是横向的信息搜索服务。但是,由于互联网中的信息量巨大,网页内容参差不齐,如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。
  本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略,主要进行了以下几个方面的工作。
  首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后,掌握了网络爬虫的工作原理以及具体的实现技术,在结合了主题爬虫通用工作模型理论之后,提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后,结合知识节点之间的关系,对整个集合中的特征词计算权重,以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中,系统采用一种将网页内容相似度与链接结构相结合的算法,来对URL的重要程度进行计算,将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度,同时还考虑了关键词的位置,关键词所在位置不同,相应的权重也不同。在考虑链接结构时,本算法对 HITS算法进行了一些改进,仅考虑了页面的Hub值,网页Hub值越大,越有可能是导航页,导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合,同时还考虑了父链接的重要度对子链接的贡献,可以提高链接价值的预测准确度,能够确保爬虫总是优先搜集重要程度高的页面。
  其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础,通过对网页文本内容进行分词,计算分词与主题词的凝聚度,对页面的搜索结果就以该凝聚度为标准来排序。
  最后,实现了一个基于领域知识本体的主题爬虫系统,利用数学知识本体库,通过实验对本系统进行测试。对实验结果进行了分析,并与相关算法进行了比较,验证了算法的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号