首页> 中文学位 >文本挖掘中的特征选择方法研究
【6h】

文本挖掘中的特征选择方法研究

代理获取

目录

摘要

1 绪论

1.1 课题背景及意义

1.2 国内外研究现状

1.3 本文主要研究工作

1.4 结构安排

2 文本分类技术

2.1 文本分类概述

2.2 文本预处理

2.2.1 文本向量空间表示

2.2.2 中文分词

2.2.3 删除停用词

2.2.4 词频统计

2.3 特征降维

2.3.1 特征选择

2.3.2 特征抽取

2.4 特征加权

2.5 分类算法

2.6 分类器性能评价标准

3 基于粗糙集的文本分类

3.1 粗糙集相关概念

3.2 基于粗糙集的文本分类流程

4 基于粗糙集和特征位置重要度的特征加权方法

4.1 特征位置重要度

4.2 可变精度粗糙集和特征位置重要度的加权方法

4.3 模拟实验与结果分析

5 基于多粒度粗糙集的启发式属性约简

5.1 基于粗糙集的启发式属性约简

5.2 乐观多粒度的下近似和上近似

5.3 基于多粒度属性重要度的属性约简

5.4 基于多知识粒度的启发式属性约简算法(MGRSHAR算法)

5.5 模拟实验与结果分析

6 一种改进的基于变精度粗糙集的KNN分类算法

6.1 传统KNN

6.2 改进的基于变精度粗糙集的KNN算法

6.2.1 基本概念

6.2.2 本文新定义

6.2.3 改进的基于变精度粗糙集的KNN分类算法

6.3 实验结果与分析

参考文献

致谢

作者简介

声明

展开▼

摘要

21世纪是信息时代,万维网上出现了海量的文本资源。对于互联网用户来说面对如此海量的文本信息,出现了拥有海量信息但知识相对贫乏的现象,人们从互联网海量的信息中获取对自己有用的知识变得相对困难,因此将互联网上的文本信息按照内容分门别类是一个迫切需要解决的问题也是互联网发展的必由之路。自从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的一个分支,它已经在搜索引擎等领域有较好的应用。文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程。所以寻找优秀的特征选择方法对特征空间进行降维,当前已是一个非常有实际价值的研究课题。下面是本文所做的主要工作:
  1、本文首先研讨了选题的现实意义,研究了构成文本分类流程中各个环节的要素,分析了传统文本分类的特征选择方法,在介绍粗糙集基本理论的基础上,把粗糙集应用到特征选择中,分析这样做的优点,并且介绍了目前常见基于粗糙集理论的特征选择方法。
  2、在文本分类中特征的权重体现了特征对于文本重要性。因此,好的特征权重计算算法也就显得非常重要,本文在分析了前人的特征权重计算算法的基础上提出了基于粗糙集和特征位置重要度的特征权重计算算法。
  3、在分析前人属性约简的基础上,利用多粒度粗糙集的相关概念给出了一种新的多知识粒度概念,利用它构造了一种新的粒度函数,将此粒度函数运用到属性重要度的计算中,基于此针对决策信息系统建立了一种新的启发式属性约简算法。
  4、经过分析把变精度粗糙集引入到KNN分类器中,将变精度粗糙集的核、负域和边界域作为衡量训练样本集的类内、类外和类边界的指标;然后对处于类内、外和边界区域的待分类样本,在判断其类别时区别对待,这样就可以有效降低训练样本集的规模,提高分类的效率和精度;最后本文对类别函数进行了改进,使得类别函数更能体现待分类样本的类别。
  最后,把这些算法应用到模拟实验中,验证了这些算法在文本分类中有较高的召回率、准确率和F1值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号