首页> 中文学位 >基于概念树的主题爬取技术研究
【6h】

基于概念树的主题爬取技术研究

代理获取

目录

文摘

英文文摘

论文说明:插图索引、附表索引

湖南大学学位论文原创性声明及版权使用授权书

第1章绪论

1.1概述

1.2主题爬取技术的研究现状

1.3现有主题爬取技术存在的问题和不足

1.4选题背景及意义

1.5本文的主要工作和创新点

1.5.1本文的主要工作

1.5.2本文的创新点

1.6本文的组织结构

1.7小结

第2章主题爬取的相关技术基础

2.1 Web页面爬取原理

2.1.1操作表示

2.1.2爬取机理

2.1.3 Web页面爬取

2.2网络机器人关键技术

2.2.1分析HTTP协议

2.2.2网络机器人排斥机制

2.3小结

第3章基于概念树的主题爬取方法

3.1概念及概念树

3.2基于概念树的主题搜索机器人的工作原理

3.2.1系统结构

3.2.2算法步骤

3.3基于概念树的主题爬取方法的关键技术

3.3.1主题层次的构造

3.3.2 HTML的解析

3.3.3基于主题层次的Web文档的自动分类

3.3.4 URL链接的分类与排序

3.3.5地址格式的分析

3.4小结

第4章基于概念树的主题搜索机器人原型实现

4.1模型简化

4.2系统设计与实现

4.2.1程序结构

4.2.2系统结构

4.2.3主要类的属性与方法描述

4.3小结

第5章 实验

5.1实验目的与意义

5.2实验环境

5.3实验比较条件

5.4实验数据

5.5采集率分析

5.6模拟比较实验分析

5.7小结

结论

参考文献

致谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

网络机器人的爬取方式一般可分为无遗漏爬取和主题爬取。企图爬取Web上所有页面的无遗漏爬取消耗巨大的存储和带宽资源,同时用户利用它很难找到他们特定需要的Web文档。而主题爬取只搜索属于特定语义相关主题的重要Web文档的WWW子集,减少了网络流量和下载量,发展主题爬取技术显得非常重要。但目前的主题爬取技术仍有一些欠缺,主要表现为由初始URL链接导向某目标主题集的能力有限,当与目标主题集的邻近区域没有相关的文档时,导向其它不相邻的主题区域的能力不足。 本文在研究Web页面爬取原理与网络机器人关键技术的基础上,提出了基于概念树的主题爬取方法(简称FCMCT方法),它利用领域概念树赋予待爬取的URL对象以层次语义,以期改进主题爬取的采集率性能。在FCMCT方法中,由目标主题,从领域概念树中获取“knowledge-path”,按照“knowledge-path”构造主题层次Web文档与主题层(语义不相关层除外)都表示为类主题词的向量形式,采用余弦相似度判断它们之间的相似性;将Web文档中所析取的URL链接分配至与该文档相关的主题层对应的等待队列,从而赋予了URL链接以Web文档内容方面的层次语义信息;考虑赋予URL链接以类主题词的层次语义和其它度量的组合对各等待队列排序。因此待爬取URL链接对象具有Web文档内容与类主题词两方面的层次语义信息。 基于FCMCT方法,采用非递归方式和多线程机制构造了一个基于概念树的主题搜索机器人原型。基于内存的作业管理器,负责管理爬取过程中URL链接的加入、排序、分配等作业。使用线程池管理多个爬取器线程,并发爬取Web文档。 实验表明,与传统不考虑主题层次语义的基于文档分类结构的主题爬取方法相比,FCMCT方法,由初始URL链接更快导向某目标主题集的Web文档。同时,当与目标主题集的邻近区域没有相关的文档时,逐步放宽主题范围,在较宽的主题中爬取,能较快地导向其它不相邻的主题区域。 总之,在主题爬取过程中,考虑层次语义,对于改进主题爬取的采集率具有显著作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号