首页> 中文学位 >中文文本特征选择方法的比较与研究
【6h】

中文文本特征选择方法的比较与研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景和意义

1.2国内外研究状况

1.3当前研究重点

1.4本文研究内容

1.5本论文的结构安排

1.6本章小结

第二章文本分类技术

2.1文本分类概述

2.2文本分类的特点

2.3文档表示

2.3.1文档集

2.3.2文档特征

2.3.3文档表示

2.4向量空间模型

2.4.1关于VSM的基本概念

2.4.2项的选择

2.4.3项的权重计算

2.4.4改进的权重计算

2.4.5向量空间模型应用

2.5文本分类方法

2.5.1分类方法概述

2.5.2简单向量距离分类法

2.5.3朴素贝叶斯

2.5.4决策树

2.5.5神经网络

2.5.6 K近邻

2.5.7支持向量机

2.6本章小结

第三章特征提取技术

3.1文档分词处理

3.2特征选择方法概述

3.3常用特征选择算法及评价

3.3.1文档频率

3.3.2信息增益

3.3.3期望交叉熵

3.3.4互信息

3.3.5x2统计

3.3.6证据权值

3.4基于类别信息特征选择方法

3.5本章小结

第四章中文文本自动分类系统

4.1中文文本自动分类模型

4.1.1分类模型的任务

4.1.2文本分类工作流程

4.2系统开发平台和系统模型

4.3系统的具体设计

4.3.1系统的用例图

4.3.2系统中的主要的类

4.3.3几个类之间的关系图

4.3.4顺序图

4.3.5系统中关键算法

4.3.6分类性能评估

4.4本章小结

第五章实验与分析

5.1实验环境

5.2比较特征选择方法的目的

5.3实验及性能分析

5.3.1特征选择方法在KNN中的比较

5.3.2特征选择方法在SVM中的比较

5.3.3数据不平衡时KNN的实验结果

5.3.4数据不平衡时SVM的实验结果

5.4本章小结

结论与展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

文本自动分类就是由计算机自动提取文本的特征项,依据一定的算法将文本按照内容或特征归到一个或多个类别的过程。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需的信息和分流信息。 中文文本分类要解决的问题是:中文文本编码的转换,中文文本的分词处理,提取文本的特征词,计算文本和类模板之间的相似度,根据阈值确定该文本所属的类别。目前对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类的方法探索与改进上。然而,文本分类中的特征提取一直是文本分类的关键技术和瓶颈技术。本文介绍文本分类的主要技术,研究了在中文文本分类中各种特征选取方法对分类效果的影响。 本文分析了信息增益(IG)、期望交叉熵(CE)、互信息(MI)、X<'2>统计(X<'2>)、证据权值(WE)这几种常用的特征提取方法特点,然后在KNN和SVM分类器上实现了一种基于类别信息的中文文本特征提取方法,并与常用的特征提取方法进行比较。通过实验比较了基于类别信息的特征提取方法与其它几种特征提取方法在KNN和SVM分类器中对中文文本分类性能的影响;在KNN和SVM分类器中,使用用基于类别信息的特征提取方法得到的准确率比其它常用的特征提取方法得到的准确率有所提高。通过在训练集中减少某种类别的样本数量,研究了当数据分布不平衡时KNN和SVM分类器性能。当数据分布不平衡时,对含有较少训练样本的稀疏类的分类正确率将降低;KNN和sVM分类器都存在一个训练样本数量临界点,如果训练样本的数量再少于该临界点时,分类器的分类正确率将急剧下降,以至不能正确区分出这类样本。通过比较这些特征选择方法对SVM和KNN分类器性能的影响,得出同样的特征选择方法在SVM分类器中对中文文本的分类比在KNN分类器中性能好,在相同特征提取数时SvM分类器的精度比KNN高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号