首页> 中文学位 >使用多分类器进行Deep Web数据源的分类和判定
【6h】

使用多分类器进行Deep Web数据源的分类和判定

代理获取

目录

文摘

英文文摘

声明

第1章引言

1.1问题的提出

1.2国内外主要研究现状

1.3论文主要研究内容

1.4论文结构

第2章理论基础

2.1自动文本分类技术

2.1.1文本的表达

2.1.2文本预处理

2.1.3索引

2.1.4统计与特征选取

2.1.5统计学习的文本分类方法

2.1.6分类性能评价

2.2强化学习基础

2.2.1强化学习简述

2.2.2强化学习Q-learning算法简介

2.2.3强化学习应用

2.3本章小结

第3章Deep Web网络爬虫系统

3.1网络爬虫技术

3.1.1网络爬虫的原理

3.1.2网络爬虫的搜索策略

3.1.3网络聚焦爬虫

3.2基于强化学习的Deep Web表单聚焦爬虫

3.2.1表单聚焦爬虫框架

3.2.2页面分类器

3.2.3链接分类器

3.2.4基于强化学习的Deep Web表单聚焦爬虫框架

3.3本章小结

第4章Deep Web数据源的分类和判别框架

4.1.Deep Web数据源分类和判别概述

4.2.Deep Web数据源的分类和判别框架

4.2.1 Deep Web数据源表单页面提取

4.2.2查询表单分类器

4.2.3领域表单分类

4.3 本章小结

第5章实验结果与分析

5.1实验数据来源与评价标准

5.2训练查询表单分类器

5.3训练表单领域分类器

5.4多分类器deep Web数据源判定与分类框架实验

5.5本章小结

第6章总结与展望

6.1工作总结

6.2工作展望

参考文献

在攻读学位期间发表的学术论文和参加科研情况

致 谢

展开▼

摘要

Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动分类和判别的方法:将Deep Web数据源的发现过程阶段化,每个重要的阶段使用有效的分类器对其进行处理。本文给出了数据源发现的框架图,并根据TEL-8 Query Interfaces提供的数据和一些收集数据实现了数据源发现的框架,并对其效率进行了评估。本文主要研究内容包括以下四个方面: (1)对国内外Deep Web资源的规模、结构进行了调查研究,并指出国内外对Deep Web资源发现的新进展。 (2)针对传统搜索引擎爬虫程序在Deep Web领域资源发现上的缺陷,设计了一个面向查询表单的聚焦爬虫,并将强化学习的思想用于爬虫程序对超链接的选择上,实验表明爬虫的效率及其准确性有了很大的提高。 (3)采用分步的思想,将Deep Web的资源发现过程阶段化,提出了资源发现的框架设计,针对于每个阶段的主要任务,使用有效的分类器对其进行处理,从而最大限度地提高其资源发现的回报率与准确率。 (4)针对于查询表单分类器和领域表单分类器所选取的分类特征,设计了一个表单信息提取器,对表单的结构特征和文本特征进行解析。 本文最后根据Deep Web数据源的分类和判别框架,利用TEL-8 Query Interfaces采集到的查询接口的数据集和自己搜集的非查询接口的数据集对分类器进行训练,并使用表单聚焦爬虫抓取特定的数据集来对整个框架在各个领域的精度进行了实验。实验结果表明,其在查询接口的判定上精度有很大提高,在查询接口的分类方面也有一定改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号