不确定数据流环境下正例和未标记数据分类算法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据流是大数据时代的典型代表，具有连续、单遍扫描、快速变化和海量无穷等特点，数据的不确定性是现实应用中数据广泛具有的属性，包括属性级不确定性和存在级不确定性，人们迫切的希望能从不确定数据流中获取有用的知识。作为数据挖掘中的重要基础工作，分类技术在各个领域均有着广泛的应用。然而，传统分类问题需要花费昂贵的代价去获得完全标记的样本，并且无法有效的处理数据流中知识随着时间变化的现象，即无法处理概念漂移。正例和未标记样本学习(Learning from Positive and Unlabeled examples，PU学习)不需要对样本进行完全标注，它是在只有正例和未标记样本环境下进行的学习。基于此，本文研究不确定数据流环境下只包含正例和未标记数据的分类问题。首先，介绍了不确定数据流、PU学习问题，概述了相关工作和研究背景及意义，并对国内外研究现状进行了总结。其次，提出了只包含正例和未标记样本的不确定数据分类算法。该算法基于Weighted Extreme Learning Machine(ELM)分类器，采用降维技术对不确定性进行处理，使用聚类技术提取可信正例和可信负例。算法不仅可以同时处理属性级不确定性和存在级不确定性，还能适应只包含正例和未标记样本的PU学习环境。最后，提出了只包含正例和未标记样本环境下不确定数据流的分类算法。算法使用先前提出的静态不确定数据分类器作为基分类器，采用集成分类策略。在对数据流中的概念漂移进行处理时，使用当前数据块与历史数据块簇集的相似性对概念漂移进行检测。当簇集的相似性大于相应的阈值时，认为发生了概念漂移。依据检测出的概念漂移的类别，分别采用不同的策略更新分类器。实验表明，算法可以对只包含正例和未标记样本环境下的不确定数据流进行分类，并且能够较好的对概念漂移进行检测和处理。

著录项

作者
李硕儒;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名韩东红;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
不确定数据流; 环境; 未标记数据;
入库时间 2022-08-17 10:58:20

相似文献

中文文献
外文文献
专利

1. 大数据环境下的不确定数据流在线分类算法 [J] . 吕艳霞 ,王翠荣 ,王聪 . 东北大学学报（自然科学版） . 2016,第009期
2. 针对不确定正例和未标记学习的最近邻算法 [J] . 潘世瑞 ,张阳 ,李雪 . 计算机科学与探索 . 2010,第009期
3. 基于随机标记子集的多标记数据流分类算法 [J] . 孙艳歌 ,尤磊 ,卲罕 . 信阳师范学院学报：自然科学版 . 2018,第1期
4. 一种基于数据不确定性的概念漂移数据流分类算法 [J] . 吕艳霞 ,王翠容 ,王聪 . 应用科学学报 . 2017,第005期
5. 面向不完全标记数据流的集成分类算法 [J] . 王中心 ,孙刚 ,王浩 . 阜阳师范学院学报（自然科学版） . 2016,第003期
6. 基于朴素贝叶斯和无监督学习的数据流分类算法 [C] . Han Jie ,韩杰 ,Ni Zhi-Wei . 第十二届（2017）中国管理学年会 . 2017
7. 不确定数据流环境下聚类算法的研究与实现 [A] . 王坤 . 2011

不确定数据流环境下正例和未标记数据分类算法的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅