首页> 中文学位 >基于语义的主题爬行方向研究
【6h】

基于语义的主题爬行方向研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1课题研究的背景和意义

1.2国内外研究现状

1.3本文的主要研究内容

2主题爬虫的背景知识

2.1主题爬虫分类

2.2查询意图提取

2.3 Web网页分析

2.4相关性计算

3基于概念相似背景图的爬虫策略

3.1形式概念分析

3.2概念相似度计算

3.3概念相似背景图构建

3.4爬行策略

4基于Dom-Tree结构的爬虫策略

4.1 Dom-Tree特征及其应用

4.2编辑距离及其应用

4.3基于网页层次的相似度计算

4.4基于网页分层的预测模型

5实验

5.1系统构建

5.2实验过程

5.3结果分析

6总结和展望

6.1总结

6.2主题爬虫展望

7参考文献

8作者在读期间科研成果简介

11致谢

展开▼

摘要

随着互联网信息以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料,目前全世界数字信息量每年以数量级1018节的速度剧增。在如此类型繁多更新速度之快的形势下,Web数据挖掘已经成为现在人们信息获取的主要方式,搜索引擎成为人们获取信息的重要工具。但是现在通用搜索引擎抓取信息的速度远远落后于真实产生的网页。著名的Web搜索引擎Google索引的网页数量目前已经达到80亿,然而,这个数字据估计只占网页总量92PT(1PT=106GB)的1/500,并且还在以每天60TB的速度增长。 鉴于此,主题搜索成为研究的热点。主题搜索通过只抓取互联网上与主题相关的页面来满足用户查询的需求,它具有花费时间少,所需存储空间小,能够满足用户个性化需求等优势。其中,爬行策略的研究是主题搜索的焦点,作者在调研了主题搜索的研究现状后,发现大多数文献通过分析要爬取页面的父页面所在的层次来预测待爬行URLs的得分,这种策略存在两个问题,一是没有计算语义相似度,不能反映和查询主题的相关度:二是将一个网页内的所有待爬行URLs一样看待,没有考虑它们在网页中所处的段落主题以及它的上下文。为了解决以上问题,本文提出了基于语义的爬行策略。包括两个部分,一是通过利用数学工具形式概念分析,提出了概念相似背景图,通过计算概念之间的语义相似度,能够寻找与用户主题语义关联度紧密的概念,从而决定爬虫的爬行顺序:二是将Web网页解析成Dom-Tree结构,结合文本语义相似度和网页层次结构对网页中不同段落的URLs赋予不同的预测得分。 本文的主要贡献如下: (1)提出了基于形式概念分析的概念相似背景图,通过计算背景图中概念和核心概念的相似度来预测待爬行URLs的得分。算法的基本思想是利用爬行回来的网页构建形式背景,生成概念格,在概念格中计算概念的相似程度来构建概念相似背景图。和传统背景图的主要区别在于,不只是通过URIs之间的链接关系进行分层,而且利用概念之间的语义相似程度进行层次划分,通过待爬行URIs所在的层次进行得分预测,最终决定爬行顺序。 (2)提出了基于编辑距离和向量空间模型相结合的相似度计算方法,传统的相似度计算方法将段落中的词条看成相互独立的,没有考虑词条在位置上的依赖关系,同样的几个词条位置不同表达的意思可能完全不同。算法思想是结合传统的向量空间模型和词条之间的编辑距离来解决自然语言中文本段落之间的相似程度,两种方法的结合可以扬长避短,达到更好的效果。 (3)提出了使用Web网页的内部层次结构来计算待爬行URIs预测得分。一个Web网页中可能存在多个主题,结合元数据抽取的思想,将Web网页进行分层,使得每个层次的主题单一化,根据层次结构,将不同主题的层次段落联系起来。文章中将Web网页解析成为其对应的Dom-Tree结构,通过研究归纳层次结构的内部特性,并结合本文提出的相似度计算方法,将网页中的不同段落联系起来,最后根据URLs所在的段落来计算其预测得分。 通过实验和其它几种爬行策略进行了对比,将结果进行准确率分析,表明本文提出的策略模型优于其它几种爬行策略,说明了本文算法的优越性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号