基于聚类森林的文本流分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的兴起，大规模数据流（特别是文本数据流）在实际应用中不断涌现。文本流的高维性、大规模性和概念漂移性等特点使传统静态分类方法很难有效的处理文本流分类问题，因而近年来，面向文本流的分类问题引起了学者的广泛关注。本文针对高维文本流的特点，提出了四种基于集成学习的文本流分类算法，以解决文本流面临的分类问题。
　　归纳起来，文本流具有以下五个特点：第一，文本流具有概念漂移的特点。第二，文本流具有大规模性和高维性的特点。第三，由于样本的人工标注信息难以及时获取，文本流中充斥着大量无类标样本。第四，文本流往往伴随着类别不平衡的特点。第五，在实际应用中，样本可能属于多个类别（即一个类别子集）。由于类别子集的可能组合极多，导致了分类的复杂性。
　　针对文本流以上特点所带来的复杂的分类问题，本文提出了四种文本流分类算法，主要研究工作如下：
　　首先，针对文本流概念漂移和海量高维性的特点，提出了一种基于集成学习的动态聚类森林分类算法（DCF）。该算法有两个关键策略，即自适应选择策略和投票策略。自适应选择策略通过定义精度权重来评估子分类器对当前数据块的性能，从而动态地选择最优子树。为了在兼顾历史数据的基础上充分挖掘最新数据的信息，DCF算法的投票策略结合了精度权重和置信权重。本文从理论上优化了DCF算法的参数选择并分析了DCF算法的性能。在八个模拟文本流和真实文本流上的实验结果表明：DCF算法具有较好的平均精度和点精度性能。
　　其次，针对文本流的部分标注问题，设计了一种半监督聚类森林分类算法（CCEM-PL）。CCEM-PL算法提出了一种新的半监督聚类树模型作为子分类器。半监督聚类树通过生成实节点和虚节点充分挖掘了无类标样本的信息，不仅使之辅助划分类别分界面，还反映了最新概念的分布情况。CCEM-PL算法根据半监督聚类树的结构分布定义实精度权重和相似度权重，并依据这两类权重对半监督聚类树进行投票。在四个文本流上的实验结果表明CCEM-PL算法具有良好的分类性能。
　　再次，针对文本流动态不平衡性问题，提出了一种不平衡文本流的聚类森林分类算法（CFIM）。为了着重分析少数类概念的漂移情况，CFIM算法设计了动态重抽样策略。该策略通过自适应的收集符合当前概念的少数类样本和错分样本，不但能平衡不同类别的样本数，同时还能加强对错分样本的训练，从而达到提高分类器性能的目的。通过对五个不平衡的文本流进行实验，结果表明，CFIM算法与传统的分类算法相比，具有良好的分类性能。
　　最后，针对多类标文本流的分类问题，本文提出了一种多类标聚类森林分类算法（MLDE）。该算法以多类标聚类树为子分类器，在自适应的选择多类标聚类树后，通过集成策略得到基于子集精度权重和子集置信权重的最终投票结果。通过对四个多类标文本流进行实验，结果表明，多类标聚类森林算法的分类性能明显优于其他四种经典的多类标分类算法。

著录项

作者
宋歌;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机软件与理论
授予学位博士
导师姓名叶允明;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本流分类; 集成学习; 聚类森林分类; 半监督聚类树; 子集精度权重;

相似文献

中文文献
外文文献
专利

1. 一种基于聚类和模式串匹配的未知协议比特流分类方法研究 [J] . 王兆丰 ,单甘霖 . 军械工程学院学报 . 2015,第004期
2. 基于文本聚类的档案数据全自动分类方法研究 [J] . 于红 . 电子测试 . 2021,第014期
3. 基于文本聚类的主题发现方法研究综述 [J] . 李璐萍 ,赵小兵 . 情报探索 . 2020,第011期
4. 基于句法结构分析的中文文本聚类方法研究 [J] . 尹积栋 ,谢茶花 ,彭崧 . 计算机与数字工程 . 2018,第005期
5. 基于多重文本关系图中clique子团聚类的主题识别方法研究 [J] . 郭红梅 ,孔贝贝 ,张智雄 . 情报学报 . 2017,第005期
6. 基于协同聚类的两阶段文本聚类方法研究 [C] . . 第四届全国信息检索与内容安全学术会议 . 2008
7. 基于特征扩展与选择的短文本数据流分类方法研究 [A] . 何路 . 2019

基于聚类森林的文本流分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅