首页> 中文学位 >基于粗糙集属性约简的集成分类算法研究
【6h】

基于粗糙集属性约简的集成分类算法研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1研究背景与研究意义

1.2国内外研究现状

1.3本文的研究内容

1.4论文的组织结构

本章小结

第二章 文本分类概述

2.1文本分类产生背景及发展过程

2.2 问题定义

2.3数据预处理

2.4常用分类方法

2.5分类器性能评估

本章小结

第三章 集成学习相关理论

3.1集成学习关键技术

3.2主要的集成学习算法

本章小结

第四章 基于粗糙集的二次特征选择方法

4.1粗糙集属性约简相关理论

4.2基于粗糙集的二次特征选择方法

4.3实验结果与分析

本章小结

第五章 集成分类算法改进

5. 1 基于Bagging算法的改进

5.2实验平台及关键代码分析

5.3算法复杂度分析

5.4分类准确率实验结果与分析

本章小结

第六章 总结与展望

致谢

参考文献

附录

图版

展开▼

摘要

自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用,例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、数字图书馆资源管理等。集成学习是机器学习的主要研究方向之一,其思想是使用多个子分类器对样本进行分类,并使用某种组合方式将各个子分类器的分类结果进行整合,得到最终的分类结果。相比单分类算法,集成学习具有更高的分类准确率和泛化能力。本文将集成学习运用到文本分类中,研究了文本自动分类和集成学习的相关理论,对文本分类和集成学习的关键技术进行了详细介绍。提出了一种适用于高维数据的特征选择方法和两种改进的集成分类算法。具体来说,本文做了以下几方面的工作:
  1、在将文本转换为向量空间模型后,将会得到一个高维稀疏矩阵。对数据进行降维时,单独使用信息增益或粗糙集属性约简的方法均有一些不足。本文将两种方法进行结合,提出一种基于粗糙集的二次特征选择方法,该方法可以发挥两种特征选择方法的优势,最大限度过滤冗余特征。
  2、提出了RRE_Classifers集成分类算法。该算法借鉴了Bagging和随机森林的思想,首先对原始训练集样本进行有放回的抽样,将得到的结果进行特征抽样,产生最终的训练集。由此训练差异性较大的子分类器,相比于Bagging,该算法可以使用更多的有差异性的子分类器,并且分类效果更好。
  3、提出了EBB_Classififers集成分类算法。该算法维护一个错误池,错误池中存放之前的子分类器错误分类的样本,之后随机将这些错分样本加入后续的训练集。使之前的训练结果能够对后续训练有帮助。
  4、对Bagging和提出的两种改进算法进行复杂度分析,并通过实验对三种算法的运行时间进行对比。
  5、在TanCorp、搜狗语料库和复旦大学语料库三组中文标准语料库上进行实验,实验结果表明,本文提出的特征选择和集成分类算法有较好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号