基于粗糙集属性约简的集成分类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用，例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、数字图书馆资源管理等。集成学习是机器学习的主要研究方向之一，其思想是使用多个子分类器对样本进行分类，并使用某种组合方式将各个子分类器的分类结果进行整合，得到最终的分类结果。相比单分类算法，集成学习具有更高的分类准确率和泛化能力。本文将集成学习运用到文本分类中，研究了文本自动分类和集成学习的相关理论，对文本分类和集成学习的关键技术进行了详细介绍。提出了一种适用于高维数据的特征选择方法和两种改进的集成分类算法。具体来说，本文做了以下几方面的工作：
　　1、在将文本转换为向量空间模型后，将会得到一个高维稀疏矩阵。对数据进行降维时，单独使用信息增益或粗糙集属性约简的方法均有一些不足。本文将两种方法进行结合，提出一种基于粗糙集的二次特征选择方法，该方法可以发挥两种特征选择方法的优势，最大限度过滤冗余特征。
　　2、提出了RRE_Classifers集成分类算法。该算法借鉴了Bagging和随机森林的思想，首先对原始训练集样本进行有放回的抽样，将得到的结果进行特征抽样，产生最终的训练集。由此训练差异性较大的子分类器，相比于Bagging，该算法可以使用更多的有差异性的子分类器，并且分类效果更好。
　　3、提出了EBB_Classififers集成分类算法。该算法维护一个错误池，错误池中存放之前的子分类器错误分类的样本，之后随机将这些错分样本加入后续的训练集。使之前的训练结果能够对后续训练有帮助。
　　4、对Bagging和提出的两种改进算法进行复杂度分析，并通过实验对三种算法的运行时间进行对比。
　　5、在TanCorp、搜狗语料库和复旦大学语料库三组中文标准语料库上进行实验，实验结果表明，本文提出的特征选择和集成分类算法有较好的性能。

著录项

作者
赵靖;
展开▼
作者单位

贵州大学;

展开▼
授予单位贵州大学;
学科计算机软件与理论
授予学位硕士
导师姓名皮建勇;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
集成分类算法; 文本分类; 粗糙集; 特征选择; 集成学习;

相似文献

中文文献
外文文献
专利

1. 一种基于粗糙集属性约简的多分类器集成方法 [J] . 杨传振 ,朱玉全 ,陈耿 . 计算机应用研究 . 2012 ,第005期
2. 基于粗糙集的数据挖掘改进属性约简算法研究 [J] . 卢秀芸 . 镇江高专学报 . 2015 ,第001期
3. 基于粗糙集理论的遗传属性约简算法研究 [J] . 孙玲芳 ,许锋 ,周家波 . 江苏科技大学学报（自然科学版） . 2014 ,第003期
4. 基于属性相容度和重要度的粗糙集属性约简混合算法研究 [J] . 付光远 ,吴汉钊 ,杨小冈 . 科学技术与工程 . 2013 ,第019期
5. 基于差别矩阵的启发式粗糙集属性约简算法研究 [J] . 田志军 ,李芳芳 . 科技通报 . 2012 ,第2期
6. 粗糙集理论在属性约简及知识分类中的应用 [C] . 丁文霞 ,束金龙 . 第一届不确定系统年会 . 2003
7. 基于粗糙集属性约简的模糊规则提取及集成约简森林分类 [A] . 戴光耀 . 2019

基于粗糙集属性约简的集成分类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅