基于改进粗糙集模型的文本分类方法优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是指按照一定的分类体系或标准将未知文本区分一个或多个类别的过程.当前文本数据逐步呈现出海量、多元、易变等新特性,给文本分类技术带来巨大挑战.粗糙集在处理数据的不确定性和模糊性等问题上,具有天然的优势,其主要思想是在不削减分类能力的前提下,通过属性约简得到基本的决策和分类规则.针对上述相关问题,本文通过对粗糙集的研究,结合文本分类现有的技术,提出了一种新的文本分类方法.具体研究工作如下: 首先,通过对差异关系的研究,本文提出了改进的差异关系和限制差异关系.在构建关系的过程中,结合容差粗糙集的边界控制理念,重新定义了属性间差异度的概念.基于改进的差异关系,构建了不完备信息系统中的拓展粗糙集模型,一定程度上解决了粗糙集知识粒度过粗和经典粗糙集对复杂数据处理的局限性等问题. 其次,在改进差异关系上引入采用错误分类率的变精度粗糙集,构建了改进差异关系的变精度粗糙集模型,较好地解决了数据中存在的噪声问题.较传统的变精度粗糙集,提高了粗糙集的分类精度,分类结果更加合理、精确.在改进粗糙集的基础上提出了改进的属性约简算法,化解了数据的高维危机,提高分类决策能力.采用UCI中的数据集开展数值实验,改进算法的约简能力得到了较好的验证. 最后,针对文本分类中的特征选择与粗糙集的属性约简的互通性,在改进CHI特征选择的过程中引入了属性约简,设计了新的规则抽取算法.将改进CHI特征选择中的负贡献特征项融入到算法中,得到否定决策规则,从负面参与分类决策.基于此构建了新的文本分类方法,并在数值实验中进行了对比分析,实验结果证实了算法的可行性.相较本文涉及的分类方法,改进的新方法在可适用文本数量上增长12.86%,改进效果良好.

著录项

作者
刘阳;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科数学
授予学位硕士
导师姓名王卫华;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
改进; 粗糙集模型; 文本分类方法;

相似文献

中文文献
外文文献
专利

1. 基于粗糙集与改进KNN算法的文本分类方法的研究 [J] . 邵莉 . 计算机与现代化 . 2012,第002期
2. 基于改进ERNIE模型的中文文本分类方法 [J] . 邢照野 ,刘晓群 . 信息与电脑 . 2021,第008期
3. 一种基于改进信息增益特征选择的最大熵模型文本分类方法 [J] . 何明 . 西南师范大学学报（自然科学版） . 2019,第003期
4. 基于粗糙集和最小二乘支持向量机的文本分类方法 [J] . 张庙林 ,牛犇 . 影像研究与医学应用 . 2017,第005期
5. 基于粗糙集和最小二乘支持向量机的文本分类方法 [J] . 张庙林 ,牛犇 . 信息记录材料 . 2017,第005期
6. 基于粗糙集理论和BP神经网络的文本自动分类方法研究 [C] . 白如江 ,王效岳 . 第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006） . 2006
7. 基于改进主题模型的中文文本分类方法 [A] . 李兴 . 2018

基于改进粗糙集模型的文本分类方法优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅