多标签数据流分类中的类别增量学习与概念漂移检测的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的来临，数据以数据流的形式快速产生，多标签数据流应用亦更加普遍。例如：电子邮件分类、新闻推送、医学诊断、图像识别等。由于多标签数据流具有速度快、数据量大、概念漂移、样本属于多个标签与标签依赖等特征，要求学习模型能够同时处理数据流与多标签数据的特性，给数据流的概念漂移检测和分类问题的研究提出了新的挑战。
　　在多标签数据流中，样本属于多个类别标签，使用问题转换法可将一个多标签数据流转化成一个或多个单标签数据流。但是，这种转换方法不适用于多标签数据流环境。因为在概念会随时间而变化的数据流环境下，样本属于的标签组合不断变化；样本所属标签之间的依赖关系也会发生变化。
　　针对以上问题，本文开展了以下三个方面的工作：
　　（1）通过分析多标签概念漂移数据流分类算法 EaHTps中存在频繁标签组合未被保存，影响了最终分类准确率的情况，提出了一种基于类别增量学习的算法EaHTcl。该算法动态地识别新的频繁标签组合，以类别增量学习方式更新训练的多标签分类器。实验结果表明：该算法有效地提高了分类准确率；
　　（2）通过分析多标签数据流中样本与标签之间的关联性，提出一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移产生的原因出发，利用样本与标签之间的概率相关性近似描述数据分布，监测新旧数据分布变化，判断概念漂移是否发生。实验结果表明：提出的算法能够比较快速、准确地检测到概念漂移；
　　（3）通过分析多标签数据流中普遍存在的标签依赖，包括标签之间和特征与标签集合之间的关联性，提出了一种基于标签分组与熵的概念漂移检测算法，采用标签分组技术将相互关联的标签聚集成组，再利用熵度量特征与标签子集之间的分布关系，最后引入阈值法判定样本分布是否发生变化，以检测概念漂移。验证实验主要集中于涉及不同类型概念漂移的模拟数据集，实验结果表明：考虑标签之间的关联性有助于处理多标签数据流中概念漂移问题，提出的算法取得的分类准确率优于其他算法。

著录项

作者
石中伟;
展开▼
作者单位

桂林电子科技大学;

展开▼
授予单位桂林电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名文益民;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
多标签数据流; 概念漂移; 类别增量学习; 标签依赖;
入库时间 2022-08-17 11:21:15

相似文献

中文文献
外文文献
专利

1. 基于概念漂移检测的网络数据流分类 [J] . 章恒 ,鞠时光 . 计算机与现代化 . 2021,第007期
2. 基于概念漂移检测算法的数据流分类模型 [J] . 孙娜 . 计算机工程与设计 . 2013,第009期
3. 数据流分类中的概念漂移转移估计方法研究 [J] . 张杰 ,孙曰瑶 . 统计与信息论坛 . 2011,第012期
4. 概念漂移数据流分类中的多源在线迁移学习算法 [J] . 秦一休 ,文益民 ,何倩 . 计算机科学 . 2019,第001期
5. 面向非平衡与概念漂移的数据流分类的研究 [J] . 陈荣 . 现代计算机（专业版） . 2020,第004期
6. 一种面向周期性概念漂移的数据流分类算法 [C] . 罗秀 ,王大玲 ,冯时 . NDBC2009第26届中国数据库学术会议 . 2009
7. 数据流概念漂移检测和不平衡数据流分类算法研究 [A] . 白洋 . 2017

多标签数据流分类中的类别增量学习与概念漂移检测的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅