基于概念树的主题爬取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络机器人的爬取方式一般可分为无遗漏爬取和主题爬取。企图爬取Web上所有页面的无遗漏爬取消耗巨大的存储和带宽资源，同时用户利用它很难找到他们特定需要的Web文档。而主题爬取只搜索属于特定语义相关主题的重要Web文档的WWW子集，减少了网络流量和下载量，发展主题爬取技术显得非常重要。但目前的主题爬取技术仍有一些欠缺，主要表现为由初始URL链接导向某目标主题集的能力有限，当与目标主题集的邻近区域没有相关的文档时，导向其它不相邻的主题区域的能力不足。本文在研究Web页面爬取原理与网络机器人关键技术的基础上，提出了基于概念树的主题爬取方法(简称FCMCT方法)，它利用领域概念树赋予待爬取的URL对象以层次语义，以期改进主题爬取的采集率性能。在FCMCT方法中，由目标主题，从领域概念树中获取“knowledge-path”，按照“knowledge-path”构造主题层次Web文档与主题层(语义不相关层除外)都表示为类主题词的向量形式，采用余弦相似度判断它们之间的相似性；将Web文档中所析取的URL链接分配至与该文档相关的主题层对应的等待队列，从而赋予了URL链接以Web文档内容方面的层次语义信息；考虑赋予URL链接以类主题词的层次语义和其它度量的组合对各等待队列排序。因此待爬取URL链接对象具有Web文档内容与类主题词两方面的层次语义信息。基于FCMCT方法，采用非递归方式和多线程机制构造了一个基于概念树的主题搜索机器人原型。基于内存的作业管理器，负责管理爬取过程中URL链接的加入、排序、分配等作业。使用线程池管理多个爬取器线程，并发爬取Web文档。实验表明，与传统不考虑主题层次语义的基于文档分类结构的主题爬取方法相比，FCMCT方法，由初始URL链接更快导向某目标主题集的Web文档。同时，当与目标主题集的邻近区域没有相关的文档时，逐步放宽主题范围，在较宽的主题中爬取，能较快地导向其它不相邻的主题区域。总之，在主题爬取过程中，考虑层次语义，对于改进主题爬取的采集率具有显著作用。

著录项

作者
曾义聪;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名杨贯中;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器人;
关键词
网络机器人; 主题搜索机器人; 主题爬取; 无遗漏爬取; 机器人; 概念树;

相似文献

中文文献
外文文献
专利

1. 基于概念树的主题爬取技术研究 [J] . 曾义聪 ,杨贯中 ,刘柯 . 科学技术与工程 . 2005,第012期
2. Python框架下基于主题的数据爬取技术研究与实现 [J] . 严斐 ,肖璞 . 计算机时代 . 2018,第11期
3. 基于语义树与VSM的主题爬取策略研究 [J] . 张金 ,倪晓军 . 计算机技术与发展 . 2017,第011期
4. 基于本体概念图的web文档主题爬取探讨 [J] . 曾义聪 ,邱春荣 . 科技创新导报 . 2010,第008期
5. 基于Python的网页信息爬取技术研究 [J] . 陈海燕 ,朱庆华 ,常莹 . 电脑知识与技术 . 2021,第008期
6. 基于"链接"层次分类的主题爬取 [C] . 周毅 ,江云亮 ,张铭 . 第二十四届中国数据库学术会议 . 2007
7. 基于主题的增量网页并行爬取问题研究 [A] . 黄秋艳 . 2013

基于概念树的主题爬取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅