首页> 中文学位 >面向定题领域的事件驱动和协议驱动的主题爬虫应用研究
【6h】

面向定题领域的事件驱动和协议驱动的主题爬虫应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2主题爬虫的国内外研究现状

1.3本文的研究内容

1.4本文结构

第二章 主题爬虫相关理论知识

2.1主题爬虫的原理和分类

2.2 当前网页应用热点技术及其发展趋势

2.3深层网络主题爬虫

2.4事件驱动

2.5 DOM树结构

2.6本章小节

第三章 主题爬虫相关算法分析

3.1中文分词

3.2相关性分析

3.3过滤算法

3.4本章小节

第四章 基于定题领域及事件驱动的深层主题爬虫研究

4.1 基于定题领域及事件驱动的深层主题爬虫的相关定义与模型

4.2 EDDTC的设计

4.3 EDDTC的实现

4.4测试结果与分析

4.5本章小结

第五章 基于定题领域及协议驱动的主题爬虫研究

5.1系统概述

5.2各模块的算法与实现

5.3实验与测试结果

5.4 本章小节

第六章 总结与展望

致谢

参考文献

附录A 攻读硕士期间发表的论文目录

附录B 攻读硕士期间参加的研究项目

展开▼

摘要

网络数据根据呈现的结构被分为表层网页数据和深层网页数据,深层网络数据占网络数据的大部分。由于通用主题爬虫注重抽取表层网络数据,没有重视深层网页数据的抓取,查全率不高;另外通用爬虫返回的结果多而杂乱,且内容的准确率不高。因此,一个能抓取深层网络数据的,且返回的网页数据的准确度能达到用户需求的主题爬虫是当前研究课题的主要问题。本文针对定题领域,采用事件驱动模式和协议驱动模式,结合定题的主题网页特征,构建定题爬虫应用模型。本文主要工作有:
  1.研究了主题爬虫的相关理论和相关算法。探索事件驱动的触发方式,提高了传统主题爬虫的召回率;提出结合布尔模型和向量空间模型的方式来计算主题相关性,比较了使用布尔模型与使用布尔和向量空间模型结合的主题相关性预测的两种方式,分析表明后者在定题的相关性结果上更准确。
  2.提出了基于事件驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬全率。该模型用事件驱动方式抓取深层网页。在链接分析时使用布隆过滤器去重。在链接相关性预测时采用基于链接的BM字符串匹配算法结合主题链接特征条件,降低了链接匹配和网页下载的开销;使用基于向量空间模型的内容过滤算法,把匹配到的主题关键字射映到向量空间模型中对应的项,提高了链接预测的准确性。该模型以车型参数作为定题主题,实现了该领域信息的自动抽取和解析,提高了网页召回率。
  3.建立了基于协议驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬准率。提出了在特定领域分词时采用正向最大字符串匹配法结合正向主题关键词特殊匹配法,该方法能切出更多的主题关键词,提高了抓取信息的准确性,并降低了误过滤主题相关的数据。在链接预测时结合了布尔模型和向量空间模型,提高了链接预测的准确性。该模型以旋转机械故障诊断知识作为主题,展开了对该主题爬虫的应用研究。实验结果表明,抓取结果网页集与主题的相关性高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号