基于语义的主题爬行方向研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网信息以指数级别增长，目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料，目前全世界数字信息量每年以数量级1018节的速度剧增。在如此类型繁多更新速度之快的形势下，Web数据挖掘已经成为现在人们信息获取的主要方式，搜索引擎成为人们获取信息的重要工具。但是现在通用搜索引擎抓取信息的速度远远落后于真实产生的网页。著名的Web搜索引擎Google索引的网页数量目前已经达到80亿，然而，这个数字据估计只占网页总量92PT（1PT=106GB）的1/500，并且还在以每天60TB的速度增长。鉴于此，主题搜索成为研究的热点。主题搜索通过只抓取互联网上与主题相关的页面来满足用户查询的需求，它具有花费时间少，所需存储空间小，能够满足用户个性化需求等优势。其中，爬行策略的研究是主题搜索的焦点，作者在调研了主题搜索的研究现状后，发现大多数文献通过分析要爬取页面的父页面所在的层次来预测待爬行URLs的得分，这种策略存在两个问题，一是没有计算语义相似度，不能反映和查询主题的相关度：二是将一个网页内的所有待爬行URLs一样看待，没有考虑它们在网页中所处的段落主题以及它的上下文。为了解决以上问题，本文提出了基于语义的爬行策略。包括两个部分，一是通过利用数学工具形式概念分析，提出了概念相似背景图，通过计算概念之间的语义相似度，能够寻找与用户主题语义关联度紧密的概念，从而决定爬虫的爬行顺序：二是将Web网页解析成Dom-Tree结构，结合文本语义相似度和网页层次结构对网页中不同段落的URLs赋予不同的预测得分。本文的主要贡献如下：（1）提出了基于形式概念分析的概念相似背景图，通过计算背景图中概念和核心概念的相似度来预测待爬行URLs的得分。算法的基本思想是利用爬行回来的网页构建形式背景，生成概念格，在概念格中计算概念的相似程度来构建概念相似背景图。和传统背景图的主要区别在于，不只是通过URIs之间的链接关系进行分层，而且利用概念之间的语义相似程度进行层次划分，通过待爬行URIs所在的层次进行得分预测，最终决定爬行顺序。（2）提出了基于编辑距离和向量空间模型相结合的相似度计算方法，传统的相似度计算方法将段落中的词条看成相互独立的，没有考虑词条在位置上的依赖关系，同样的几个词条位置不同表达的意思可能完全不同。算法思想是结合传统的向量空间模型和词条之间的编辑距离来解决自然语言中文本段落之间的相似程度，两种方法的结合可以扬长避短，达到更好的效果。（3）提出了使用Web网页的内部层次结构来计算待爬行URIs预测得分。一个Web网页中可能存在多个主题，结合元数据抽取的思想，将Web网页进行分层，使得每个层次的主题单一化，根据层次结构，将不同主题的层次段落联系起来。文章中将Web网页解析成为其对应的Dom-Tree结构，通过研究归纳层次结构的内部特性，并结合本文提出的相似度计算方法，将网页中的不同段落联系起来，最后根据URLs所在的段落来计算其预测得分。通过实验和其它几种爬行策略进行了对比，将结果进行准确率分析，表明本文提出的策略模型优于其它几种爬行策略，说明了本文算法的优越性。

著录项

作者
杨月奎;
展开▼
作者单位

西华大学;

展开▼
授予单位西华大学;
学科计算机应用技术
授予学位硕士
导师姓名杜亚军;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
搜索引擎; 主题爬虫; 形式概念分析; Dom树; 编辑距离;

相似文献

中文文献
外文文献
专利

1. 基于语义的主题爬行策略 [J] . 叶育鑫 ,欧阳丹彤 . 软件学报 . 2011,第009期
2. 基于VSM主题爬虫爬行策略的研究 [J] . 张锦 ,罗钊 . 信息通信 . 2014,第002期
3. 基于复杂网络局部社团发现的主题爬行研究 [J] . 沈桂兰 ,孙洁 ,杨小平 . 河南师范大学学报：自然科学版 . 2014,第4期
4. 一种基于Lucene的面向主题爬行搜索引擎的研究 [J] . 严良达 . 福建电脑 . 2013,第005期
5. 基于本体的主动学习主题爬行的研究与实现 [J] . 任斌 ,毛应爽 . 长春工程学院学报（自然科学版） . 2011,第001期
6. 基于遗传算法的主题爬行技术研究 [C] . . 2008年全国理论计算机科学学术年会 . 2008
7. 基于语义理解和动态网页的主题爬行研究 [A] . 涂津 . 2012

基于语义的主题爬行方向研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅