概念漂移
概念漂移的相关文献在2005年到2022年内共计290篇,主要集中在自动化技术、计算机技术、经济计划与管理、电工技术
等领域,其中期刊论文232篇、会议论文8篇、专利文献5059篇;相关期刊94种,包括电子学报、计算机工程、计算机工程与科学等;
相关会议7种,包括第33届中国数据库学术会议(NDBC2016 )、第七届全国平行管理会议、2015中国计算机网络安全年会等;概念漂移的相关文献由612位作者贡献,包括胡学钢、刘三民、张玉红等。
概念漂移
-研究学者
- 胡学钢
- 刘三民
- 张玉红
- 李培培
- 韩萌
- 孙艳歌
- 文益民
- 邓大勇
- 李南
- 黄厚宽
- 王志海
- 刘涛
- 郭躬德
- 乔俊飞
- 汤健
- 王勇
- 包理群
- 原继东
- 孙子健
- 孙知信
- 张杰
- 徐健锋
- 李光辉
- 李祥林
- 李舟军
- 杜诗语
- 梁斌
- 王俊红
- 王建民
- 王文剑
- 王海燕
- 王涛
- 王黎明
- 琚春华
- 申明尧
- 白洋
- 程光
- 谈海宇
- 赵蕴龙
- 郭虎升
- 闻立杰
- 陈黎飞
- 颜跃进
- 于化龙
- 于戈
- 任家东
- 任广伟
- 何路
- 侯传宇
- 修宇
-
-
夏源;
赵蕴龙;
范其林
-
-
摘要:
在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力。目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得。为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法。首先使用随机特征子空间对每个基分类器进行初始化来构建集成分类器;其次基于每个新到来的数据块构建一个新的基分类器来替换集成中权重最低的基分类器;然后基于信息熵的权重更新策略实时对基分类器中的权重进行更新;最后满足要求的基分类器参与加权投票,得到分类结果。将所提算法和几个经典学习算法进行对比,实验结果表明,所提方法的分类准确性有着明显优势,并且适合多种类型的概念漂移环境。
-
-
张喜龙;
韩萌;
陈志强;
武红鑫;
李慕航
-
-
摘要:
数据流中的不平衡问题会严重影响算法的分类性能,其中概念漂移更是流数据挖掘研究领域的一个难点问题。为了提高此类问题下的分类性能,提出了一种新的基于Hellinger距离的不平衡漂移数据流Boosting分类BCA-HD算法。该算法创新性地采用实例级和分类器级的权重组合方式来动态更新分类器,以适应概念漂移的发生,在底层采用集成算法SMOTEBoost作为基分类器,该分类器内部使用重采样技术处理数据的不平衡。在16个突变型和渐变型的数据集上将所提算法与9种不同算法进行比较,实验结果表明,所提算法的G-mean和AUC的平均值和平均排名均为第1名。因此,该算法能更好地适应概念漂移和不平衡现象的同时发生,有助于提高分类性能。
-
-
陆克中;
陈超凡;
蔡桓;
吴定明
-
-
摘要:
数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,并且大多数算法过于理想,只能在人工设置的数据流上才能发挥较好的性能,无法适用于复杂的真实数据流.针对这一问题,提出了一种同时处理概念漂移和类不平衡复杂数据流的算法——具有自适应遗忘因子的加权在线顺序极限学习机集成算法.该算法首先融合加权机制和遗忘机制,初步提出具有遗忘机制的加权在线顺序极限学习机算法.为了更好地适应复杂数据流,进一步以初步算法为基分类器,设计包含自适应遗忘因子和概念漂移检测机制的在线集成策略.大量仿真实验表明,所提算法在所有数据集上都取得了最佳的Gmean值,具有更好的概念漂移和类不平衡适应能力,表现出了更稳定、更平衡以及更准确的分类效果.
-
-
刘云;
张轶;
郑文凤
-
-
摘要:
在时间矩阵分解方法的基础上,利用概念漂移检测捕获随时间动态变化的用户兴趣和项目偏好特征,可以有效提高个性化推荐算法的准确性。为此,该文提出特征漂移约束(feature drift constraint,FDC)算法,首先,根据输入样本的评级反馈构建评级矩阵的时间序列,采用矩阵分解方法将评级矩阵分解为用户特征矩阵和项目特征矩阵;其次,在输入新的评级样本后训练模型,采用随机梯度下降方法获得优化的学习参数,计算概念漂移的动态特征加权用于调整模型;最后,结合用户兴趣特征向量和项目偏好特征向量内积计算得到预测的项目评级,实现项目推荐。仿真结果表明,与MF、TSVD++、TMF和MCFTT算法相比,特征漂移约束算法在推荐准确性和概念漂移检测的有效性方面均有较好提升。
-
-
文益民;
刘帅;
缪裕青;
易新河;
刘长杰
-
-
摘要:
在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视.因此,在全面收集数据流半监督分类研究工作的基础上,对现有带概念漂移的数据流的半监督分类算法进行了多角度划分;并以算法采用的分类器类型为线索,对已有的多个算法进行了介绍与总结,包括现有数据流半监督分类采用的概念漂移检测方法;在一些被广泛使用的真实数据集和人工数据集上,对部分代表性数据流半监督分类算法进行了多方面的比较与分析;最后,提出了当前概念漂移数据流半监督分类中一些值得进一步深入探讨的问题.实验结果表明:数据流半监督分类算法的分类准确率与众多因素有关,但与数据分布的变化关系最大.本综述将有助于感兴趣的研究者快速进入数据流半监督分类问题领域.
-
-
韦磊;
姜海富;
于化龙
-
-
摘要:
针对传统的采用遗忘因子的在线学习方法难以实时精确地跟踪数据所发生的漂移问题,利用在线数据通常所具有的特征结构不变特性,提升在线学习模型的自适应能力.结合在线离散化和在线聚类技术,追踪和刻画数据的特征结构,并在聚类结构中,采用一种类似深度森林算法中的特征构造策略来提取辅助的在线结构特征.通过整合样本的原始特征和额外提取的结构特征共同动态地训练并更新在线神经网络模型,采用在线序列极限学习机算法作为在线神经网络的训练算法,通过8个基准的在线数据集验证算法的有效性、可行性和优越性.实验结果表明:文中算法可很好地追踪数据所发生的概念漂移,并具有较强的自适应性.
-
-
汪玉;
王鑫;
张淑娟;
郑国强;
赵龙;
郑高峰
-
-
摘要:
知识融合是知识图谱技术的关键环节,而传统机器学习算法较难满足异构大数据环境中知识融合的准确性及实时性需求。提出一种结合概念漂移检测算法与无监督反向验证算法的高可靠、低复杂度知识融合方法。该方法利用贝叶斯估计进行实体对齐与属性融合的同时,周期性进行基于孤立深林算法的概念漂移检测与基于自组织映射网络的反向实体消歧,以此有效互补监督学习的样本依赖性及无监督学习的高复杂度特性,从而提高知识融合的可靠性与实时性。提出算法在公开数据集与国网安徽省电力公司知识图谱数据库中分别进行了数据实验,通过对数据模型可靠性、实体对齐能力、F1分数和运行时间的比较,分析了提出算法在多维、异构大数据环境的应用可行性。
-
-
郭虎升;
任巧燕;
王文剑
-
-
摘要:
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.
-
-
张海翔;
李培培;
胡学钢
-
-
摘要:
极限学习机因具有高效处理、性能优越以及更少人工参数设定等优点,已成功应用于批处理多标签分类问题。然而,实际应用领域涌现的数据流呈现海量快速、多标签和概念漂移等特点,使得这些传统的多标签分类算法面临精度与时空的挑战。本文提出一种基于核极限学习机的多标签数据流集成分类方法。首先,为适应数据流环境,利用滑动窗口机制将数据流划分为数据块,在前k个数据块上构建k个核极限学习机的集成分类模型;同时,考虑类标签相关性,利用Apriori算法得到每个数据块的标签间的关联规则,并将关联规则中的同现标签的置信度引入到基于集成模型的预测过程中,以提高整体的分类精度;其次,引入MUENLForeset模型检测新到来的数据块是否发生概念漂移,对分类器设置损失函数更新集成模型以适应概念漂移问题。最后,在实际多标签数据上的大量实验表明:与经典多标签批处理和流数据分类方法相比,所提方法不仅能适应多标签数据流中的概念漂移问题,同时在分类精度上具有显著优势。
-
-
崔瑞华;
林玲
-
-
摘要:
随着大数据时代的到来,一种区别于传统数据的流式数据大量涌入人们的生活,其特征是高速、连续、多变、无限、概念漂移.概念漂移是指数据的分布随时间发生变化的一种现象,如何检测概念漂移,即检测数据分布发生变化的时间点是数据流挖掘的研究热点.对概念漂移检测算法进行综述,首先,介绍概念漂移的定义、来源、概念漂移检测的一般框架;然后,按照概念漂移类型将现有概念漂移检测算法划分为主动检测和被动适应两大类,分别对比了每一类主要算法的优缺点;最后,展望了概念漂移检测算法的未来研究工作.
-
-
Lu Lili;
陆莉莉;
Zhang Yongpan;
张永潘;
Tan Hiayu;
谈海宇;
Ji Yimu;
季一木
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
随着大数据应用研究的不断深入和分布式机器学习中流计算框架的涌现,针对数据流中概念漂移问题的研究是面向大数据挖掘领域的研究热点之一.现有的针对概念漂移的研究成果主要还是依赖于数据结构和算法优化上,主要还是通过计算资源有限的独立计算机完成概念漂移的检测.为此,本文提出一种面向大数据的基于Storm的抵抗概念漂移的分类挖掘算法及系统.该系统采用并行化窗口和S-CVFDT算法,利用并行化窗口机制检测数据流中的突变型概念漂移从而自适应的改变并行窗口大小,并通过S-CVFDT算法不断更新渐进性概念漂移时的模型.分析与实验结果表明:该算法可以快速有效地检测到突变型概念漂移降低系统因为突变型概念漂移造成的资源浪费,且模型建立效率、分类精度得到提高.
-
-
-
-
-
-
- 《第二十五届中国数据库学术会议(NDBC2008)》
| 2008年
-
摘要:
数据的概念漂移特性是广泛存在的.提出一种挖掘概念漂移数据的自适应集成学习算法(adaptive multiple classifiers ensemble,AMCE).该算法通过给每个分类器分配独立的权重调整参数,增强自适应能力;并且利用基于KL距离的剪枝策略删除集成中存在的冗余个体分类器.实验结果表明,该算法能够有效地改善发生概念漂移时的分类预测结果,同时减少存储空间的使用,提高算法速度,并且其对噪音数据具有较强的鲁棒性。
-
-
张一;
靳晓明
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
概念漂移(conceptdrifts)是流数据分类所面临的一个重要问题.当前解决该问题的主流方法是将训练数据分割成数据块,并使用集成学习(ensemblelearning)方法进行分类.但是,这些算法都基于一个理想的假设--训练数据的充足性;而在实际应用中,手工分类的训练数据往往是不充足的.为了解决训练数据不充足时的概念漂移问题,提出了一种针对流数据的分类方法.该方法通过训练数据合并,动态地从历史数据中搜索可用的训练数据,同时保持对概念漂移的敏感性.实验表明,与已有的方法相比,本算法具有更好的分类精度和更高的运行效率。
-
-
文益民;
湖南工业职业技术学院;
杨旸;
吕宝粮
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
如何能有效地保持原本学习过的知识,又能不断获取新知识?这是增量学习面临的难题.将集成学习算法移植应用于增量学习,建立了模块化增量学习模型,研究了BehaviorKnowledgeSpace(BKS)、DynamicClassifierSelection(DCS)和MajorityVoting(MV)3种集成学习算法应用于增量学习的可能性,并提出了算法BKSbasedonDCS(BoD).仿真实验表明,DCS表现最好,BKS和MV表现次之,BoD很好地提升了BKS而与DCS完全相当;提出的增量学习模型不但能完全保持以前学习过的知识,而且能有效地获取当前的新知识(包括概念漂移conceptdrift)。