基于领域本体的主题爬虫系统研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等，这些搜索引擎面向的是广大的互联网用户，提供的都是横向的信息搜索服务。但是，由于互联网中的信息量巨大，网页内容参差不齐，如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。
　　本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略，主要进行了以下几个方面的工作。
　　首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后，掌握了网络爬虫的工作原理以及具体的实现技术，在结合了主题爬虫通用工作模型理论之后，提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后，结合知识节点之间的关系，对整个集合中的特征词计算权重，以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中，系统采用一种将网页内容相似度与链接结构相结合的算法，来对URL的重要程度进行计算，将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度，同时还考虑了关键词的位置，关键词所在位置不同，相应的权重也不同。在考虑链接结构时，本算法对 HITS算法进行了一些改进，仅考虑了页面的Hub值，网页Hub值越大，越有可能是导航页，导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合，同时还考虑了父链接的重要度对子链接的贡献，可以提高链接价值的预测准确度，能够确保爬虫总是优先搜集重要程度高的页面。
　　其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础，通过对网页文本内容进行分词，计算分词与主题词的凝聚度，对页面的搜索结果就以该凝聚度为标准来排序。
　　最后，实现了一个基于领域知识本体的主题爬虫系统，利用数学知识本体库，通过实验对本系统进行测试。对实验结果进行了分析，并与相关算法进行了比较，验证了算法的可行性。

著录项

作者
卢凡;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名王庆先;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
计算机网络; 主题爬虫系统; 信息搜索; 知识本体;

相似文献

中文文献
外文文献
专利

1. 基于本体的TBT电子信息产品领域主题爬虫研究 [J] . 蒋国瑞 ,王秋利 . 情报杂志 . 2011,第007期
2. 领域本体的藏文主题爬虫搜索策略研究 [J] . 高红梅 ,仁青诺布 ,普次仁 . 计算机应用与软件 . 2015,第009期
3. 基于扩展主题特征库的领域主题爬虫 [J] . 吴岳廷 ,李石君 . 计算机工程与设计 . 2015,第005期
4. 网络舆情监控系统中主题网络爬虫的研究与实现 [J] . 方星星 ,鲁磊纪 ,徐洋 . 舰船电子工程 . 2014,第009期
5. 分布式多主题网络爬虫系统的研究与实现 [J] . 白鹤 ,汤迪斌 ,王劲林 . 计算机工程 . 2009,第019期
6. 一种基于URL分类的移动应用商店主题爬虫的研究与实现 [C] . Dong Qiao ,董巧 . 中国移动通信信息安全管理与运行中心第七届信息安全专家论坛 . 2017
7. 基于领域本体的主题爬虫研究及实现 [A] . 林碧霞 . 2010

基于领域本体的主题爬虫系统研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅