首页> 中文学位 >文本分类中的特征选择研究
【6h】

文本分类中的特征选择研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题的研究意义

1.2 课题的研究现状

1.2.1 常用文本特征选择方法

1.2.2 新的评价方法

1.2.3 特征冗余的研究

1.2.4 研究趋势

1.3 课题的研究内容

1.4 论文的组织结构

第二章 文本分类相关技术

2.1 文本分类概述

2.2 文本分类中的关键技术

2.2.1 文本表示

2.2.2 特征降维

2.2.3 分类算法

2.3 文本分类的性能评价

第三章 文本特征选择技术

3.1 特征选择技术概述

3.1.1 特征选择的意义

3.1.2 特征选择的分类

3.2 文本特征选择的特点

3.3 文本特征选择的常用方法

3.3.1 文档频率(DF)

3.3.2 信息增益(IG)

3.3.3 互信息(MI)

3.3.4 x2统计量

3.4 文本特征选择中的特征冗余

3.4.1 特征相关性和特征冗余

3.4.2 特征相关冗余性的度量

3.4.3 考虑特征冗余的文本特征选择

第四章 基于特征分布差异性的特征选择

4.1 特征的分布信息

4.1.1 特征的文档内分布DTD

4.1.2 特征的类内分布DTC

4.1.3 特征的类间分布DTCS

4.2 基于类间分布差异性的特征选择

4.2.1 分布信息的定量描述

4.2.2 两种差异性度量因子

4.2.3 基于分布信息的特征选择DIFS

4.2.4 DIFS方法的两种实现算法

4.2.5 对DIFS特征选择的说明

4.3 实验结果及分析

4.3.1 数据集

4.3.2 实验设计

4.3.3 实验结果与分析

第五章 基于特征分布相似性的冗余评价

5.1 主要思想

5.2 特征冗余度量

5.2.1 基于特征向量模型的特征相似度

5.2.2 基于特征分布函数的特征相似度

5.3 基于特征分布相似冗余的特征选择

5.4 实验结果及分析

5.4.1 数据集

5.4.2 实验设计

5.4.3 实验结果与分析

结论和展望

工作总结

主要贡献

进一步研究工作

参考文献

攻读硕士学位期间取得的学术成果

致谢

展开▼

摘要

文本分类中特征选择的目的是通过从原始特征集合中去除分类无关特征和冗余特征,以减少文本特征向量维数,提高分类的效率和精度。
   传统文本特征选择方法通常引入特征之间的条件独立性假设,注重单一特征的评价,即只考虑特征和类别之间的相关性构造特征评价函数。然而,现实文本中条件独立性多数情况下难以满足,不同特征之间常常存在相关性,这使得特征子集中仍存在大量的冗余特征。
   本文采用“相关分析+冗余分析”的特征选择研究思路,在对特征分布信息进行分析的基础上,首先研究类别相关的特征选择方法确定初始特征子集,然后考虑特征之间的相关性去除冗余特征。特征分布信息更能够客观地反映特征与文本、特征与类别之间的关联性。本文从对三种特征分布信息概念进行定义出发,分析并量化三种特征分布信息的可能因素以及它们之间的关系,分析特征分布信息与特征相关、特征冗余之间的关系,提出了基于特征分布差异性的特征类别贡献评价方法,以及基于特征分布相似性的特征冗余评价方法。通过公共数据集进行实验验证,表明本文提出的方法可以有效地去除分类无关特征和冗余特征,提高文本分类的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号