首页> 中文学位 >基于本体概念相似度的主题爬虫中网页排序模型研究
【6h】

基于本体概念相似度的主题爬虫中网页排序模型研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究发展现状

1.2.1 搜索引擎网页排序发展现状

1.2.2 网页排序算法综述

1.3 论文的研究内容、方法及研究目标

1.3.1 论文研究内容与方法

1.3.2 论文的结构安排

1.3.3 论文的研究目标

1.4 论文研究创新点

1.5 本章小结

第2章 相关算法研究与选择

2.1 本体构建研究现状评述

2.1.1 本体概念

2.1.2 本体构建方法评述

2.2 本体相似度算法研究

2.2.1 本体概念相似度概念性质

2.2.2 本体概念相似度算法评述

2.3 网页排序算法研究

2.3.1 Pagerank算法

2.3.2 HITS算法

2.3.3 Pagerank算法与HITS算法比较

2.3.4 关键词加权排序算法

2.4 网页排序算法的效率与选择

2.5 本章小结

第3章 基于本体的主题爬虫中网页排序模型的设计——以盐湖领域为例

3.1 主题爬虫设计原则

3.2 构建盐湖领域本体的方法设计与实现

3.2.1 构建盐湖领域本体的方法设计

3.2.2 构建盐湖领域本体的步骤实现

3.3 网页排序模型设计与实现

3.3.1 网页排序模型设计

3.3.2 基于本体的主题爬虫中网页排序的实现

3.4 本章小结

第4章 实验验证

4.1 实验环境

4.2 实验数据来源

4.3 实验结果考查的性能指标

4.4 实验步骤实现

4.5 实验结果及分析

4.6 本章小结

第5章 结论和展望

5.1 结论

5.2 展望

参考文献

个人简历

致谢

展开▼

摘要

相比通用搜索引擎,专注于某一具体领域的主题搜索引擎可以带来更高精度的信息采集,为用户带来更好信息检索服务。主题爬虫作为主题搜索引擎的核心模块,提高检索信息的领域相关度就显得尤为重要。 但是由于网络资源规模巨大且呈高度动态的增长,采集结果仍然会存在大量不相关的网页信息,从而导致采集效率下降。针对这种问题,本文通过研究主题爬虫设计中的相关性分析技术,主要是网页排序算法的研究,分析总结目前网页排序算法的优缺点,并结合盐湖领域特点,利用本体在表达语义方面的优势,提出一种新的基于本体概念相似度的网页排序算法,以此提高主题相关性计算准确度。 该方法首先选择出合适网页作为初始领子种子集合,然后通过构建盐湖领域本体获取本体概念集,并对概念集分类且给予权重,利用概念相似度计算方法计算网页内所有概念与本体概念集中概念的相似度,根据综合得分对网页进行排序,将得分高的网页存放到主题爬虫中,为将来的网页采集做准备。最后通过实验证明,该算法不仅大大减少了不相关的结果,提高了采集网页的主题相关度,而且也提高了检索的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号