首页> 中文学位 >不确定数据流环境下正例和未标记数据分类算法的研究与实现
【6h】

不确定数据流环境下正例和未标记数据分类算法的研究与实现

代理获取

目录

声明

摘要

第1章绪论

1.1研究背景及意义

1.2国内外研究现状

1.3问题的提出和本文主要工作

1.4本文组织结构

第2章相关工作概述

2.1数据流挖掘

2.1.1数据流的定义及特征

2.1.2数据流处理模型

2.1.3数据流挖掘算法的特点

2.1.4概念漂移

2.1.5数据流分类算法

2.2不确定数据概述

2.2.1不确定数据产生的原因和表现形式

2.2.2不确定数据分类算法

2.3 PU学习

2.3.1 PU学习定义

2.3.2两步走方法

2.3.3 PU学习相关算法

2.4极限学习机

2.4.1 ELM

2.4.2 weighted ELM

2.5本章小结

第3章不确定数据流环境下正例和未标记数据分类算法

3.1问题提出

3.2问题定义

3.3不确定数据正例和未标记数据分类算法

3.3.1相关概念

3.3.2不确定数据处理

3.3.3可信正例与可信负例的抽取

3.3.4分类器的建立与分类

3.3.5算法描述

3.4不确定数据流环境下正例和未标记数据分类算法

3.4.1相关概念

3.4.2集成分类策略

3.4.3概念漂移检测和处理

3.4.4算法描述

3.5本章小结

第4章实验及结果分析

4.1实验环境

4.2数据集

4.3实验分析

4.3.1参数的选取

4.3.2参数对算法性能的影响

4.3.3概念漂移的检测情况

4.4本章小结

第5章总结与展望

5.1本文总结

5.2工作展望

参考文献

致谢

攻读硕士期间参与项目及发表的论文

展开▼

摘要

数据流是大数据时代的典型代表,具有连续、单遍扫描、快速变化和海量无穷等特点,数据的不确定性是现实应用中数据广泛具有的属性,包括属性级不确定性和存在级不确定性,人们迫切的希望能从不确定数据流中获取有用的知识。作为数据挖掘中的重要基础工作,分类技术在各个领域均有着广泛的应用。然而,传统分类问题需要花费昂贵的代价去获得完全标记的样本,并且无法有效的处理数据流中知识随着时间变化的现象,即无法处理概念漂移。正例和未标记样本学习(Learning from Positive and Unlabeled examples,PU学习)不需要对样本进行完全标注,它是在只有正例和未标记样本环境下进行的学习。 基于此,本文研究不确定数据流环境下只包含正例和未标记数据的分类问题。 首先,介绍了不确定数据流、PU学习问题,概述了相关工作和研究背景及意义,并对国内外研究现状进行了总结。 其次,提出了只包含正例和未标记样本的不确定数据分类算法。该算法基于Weighted Extreme Learning Machine(ELM)分类器,采用降维技术对不确定性进行处理,使用聚类技术提取可信正例和可信负例。算法不仅可以同时处理属性级不确定性和存在级不确定性,还能适应只包含正例和未标记样本的PU学习环境。 最后,提出了只包含正例和未标记样本环境下不确定数据流的分类算法。算法使用先前提出的静态不确定数据分类器作为基分类器,采用集成分类策略。在对数据流中的概念漂移进行处理时,使用当前数据块与历史数据块簇集的相似性对概念漂移进行检测。当簇集的相似性大于相应的阈值时,认为发生了概念漂移。依据检测出的概念漂移的类别,分别采用不同的策略更新分类器。实验表明,算法可以对只包含正例和未标记样本环境下的不确定数据流进行分类,并且能够较好的对概念漂移进行检测和处理。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号