首页> 中文学位 >基于改进粗糙集模型的文本分类方法优化研究
【6h】

基于改进粗糙集模型的文本分类方法优化研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 本文组织结构

第2章 文本分类技术概述

2.1 文本预处理

2.1.1 预处理

2.1.2 中文分词

2.2 文本的表示

2.2.1 向量空间模型

2.2.2 布尔逻辑模型

2.2.3 概率模型

2.3 特征选择

2.3.1 文档频度

2.3.2 信息增益

2.3.3 互信息

2.3.4 CHI统计

2.4 权重计算

2.5 文本分类算法

2.5.1 质心向量分类算法

2.5.2 贝叶斯分类算法

2.5.3 k-近邻分类算法

2.5.4 支持向量机

2.6 分类性能评估

2.7 本章小结

第3章 粗糙集理论

3.1粗糙集理论简述

3.1.1 信息表知识表达系统

3.1.2 粗糙集的基本概念

3.2 粗糙集模型的特征

3.3 属性约简

3.3.1 属性约简与核

3.3.2 属性约简算法

3.4 本章小结

第4章 改进的粗糙集理论及其属性约简

4.1 基于差异关系的粗糙集

4.1.1 不完备的信息系统

4.1.2 差异关系

4.1.3 改进的差异关系

4.1.4 限制差异关系

4.2 改进差异关系的变精度粗糙集

4.3 改进差异关系粗糙集的属性约简

4.4 数值实验

4.4.1 信息表的数值实验

4.4.2 Irsi数据集上的数值实验

4.5 本章小结

第5章 基于X值的粗糙集文本分类方法

5.1 分类方法的基本原理

5.1.1 文本分类近似规则

5.1.2 CHI特征选择的改进

5.2 基于X值和改进粗糙集的规则抽取算法

5.2.1 规则提取主要步骤

5.2.2 分类规则抽取算法

5.3 数值实验过程与结果分析

5.4 本章小结

第6章 总结与展望

6.1 全文总结

6.2 后续研究工作展望

致谢

参考文献

攻读硕士学位期间论文发表情况

展开▼

摘要

文本分类是指按照一定的分类体系或标准将未知文本区分一个或多个类别的过程.当前文本数据逐步呈现出海量、多元、易变等新特性,给文本分类技术带来巨大挑战.粗糙集在处理数据的不确定性和模糊性等问题上,具有天然的优势,其主要思想是在不削减分类能力的前提下,通过属性约简得到基本的决策和分类规则.针对上述相关问题,本文通过对粗糙集的研究,结合文本分类现有的技术,提出了一种新的文本分类方法.具体研究工作如下: 首先,通过对差异关系的研究,本文提出了改进的差异关系和限制差异关系.在构建关系的过程中,结合容差粗糙集的边界控制理念,重新定义了属性间差异度的概念.基于改进的差异关系,构建了不完备信息系统中的拓展粗糙集模型,一定程度上解决了粗糙集知识粒度过粗和经典粗糙集对复杂数据处理的局限性等问题. 其次,在改进差异关系上引入采用错误分类率的变精度粗糙集,构建了改进差异关系的变精度粗糙集模型,较好地解决了数据中存在的噪声问题.较传统的变精度粗糙集,提高了粗糙集的分类精度,分类结果更加合理、精确.在改进粗糙集的基础上提出了改进的属性约简算法,化解了数据的高维危机,提高分类决策能力.采用UCI中的数据集开展数值实验,改进算法的约简能力得到了较好的验证. 最后,针对文本分类中的特征选择与粗糙集的属性约简的互通性,在改进CHI特征选择的过程中引入了属性约简,设计了新的规则抽取算法.将改进CHI特征选择中的负贡献特征项融入到算法中,得到否定决策规则,从负面参与分类决策.基于此构建了新的文本分类方法,并在数值实验中进行了对比分析,实验结果证实了算法的可行性.相较本文涉及的分类方法,改进的新方法在可适用文本数量上增长12.86%,改进效果良好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号