首页> 中文学位 >多标签数据流分类中的类别增量学习与概念漂移检测的研究
【6h】

多标签数据流分类中的类别增量学习与概念漂移检测的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

§1.1 研究背景与意义

§1.2 数据流分类研究现状

§1.3 多标签分类研究现状

§1.4 多标签数据流分类研究现状

§1.5 本文主要研究内容

§1.6 论文组织结构

第二章 理论基础

§2.1 数据流分类算法简介

§2.2 多标签分类算法简介

§2.3 多标签分类性能评价指标

§2.4 EM算法

§2.5 Apriori算法

§2.6 熵

§2.7本章小结

第三章 多标签概念漂移数据流分类中的类别增量学习

§3.1 问题分析

§3.2 算法描述

§3.3 实验数据

§3.4 实验设计

§3.5 实验结果与分析

§3.6本章小结

第四章 基于概率相关性的多标签数据流概念漂移检测

§4.1 问题分析

§4.2 基本概念与原理

§4.3 算法描述

§4.4 实验数据

§4.5 实验设计

§4.6 实验结果与分析

§4.7 本章小结

第五章 基于标签分组与熵的多标签数据流概念漂移检测

§5.1 问题分析

§5.2 算法描述

§5.3 标签分组优势分析

§5.4 实验数据

§5.5 实验设计

§5.6 实验结果与分析

§5.7 本章小结

第六章 总结与展望

参考文献

致谢

作者在攻读硕士期间主要研究成果

展开▼

摘要

随着大数据时代的来临,数据以数据流的形式快速产生,多标签数据流应用亦更加普遍。例如:电子邮件分类、新闻推送、医学诊断、图像识别等。由于多标签数据流具有速度快、数据量大、概念漂移、样本属于多个标签与标签依赖等特征,要求学习模型能够同时处理数据流与多标签数据的特性,给数据流的概念漂移检测和分类问题的研究提出了新的挑战。
  在多标签数据流中,样本属于多个类别标签,使用问题转换法可将一个多标签数据流转化成一个或多个单标签数据流。但是,这种转换方法不适用于多标签数据流环境。因为在概念会随时间而变化的数据流环境下,样本属于的标签组合不断变化;样本所属标签之间的依赖关系也会发生变化。
  针对以上问题,本文开展了以下三个方面的工作:
  (1)通过分析多标签概念漂移数据流分类算法 EaHTps中存在频繁标签组合未被保存,影响了最终分类准确率的情况,提出了一种基于类别增量学习的算法EaHTcl。该算法动态地识别新的频繁标签组合,以类别增量学习方式更新训练的多标签分类器。实验结果表明:该算法有效地提高了分类准确率;
  (2)通过分析多标签数据流中样本与标签之间的关联性,提出一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移产生的原因出发,利用样本与标签之间的概率相关性近似描述数据分布,监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明:提出的算法能够比较快速、准确地检测到概念漂移;
  (3)通过分析多标签数据流中普遍存在的标签依赖,包括标签之间和特征与标签集合之间的关联性,提出了一种基于标签分组与熵的概念漂移检测算法,采用标签分组技术将相互关联的标签聚集成组,再利用熵度量特征与标签子集之间的分布关系,最后引入阈值法判定样本分布是否发生变化,以检测概念漂移。验证实验主要集中于涉及不同类型概念漂移的模拟数据集,实验结果表明:考虑标签之间的关联性有助于处理多标签数据流中概念漂移问题,提出的算法取得的分类准确率优于其他算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号