首页> 中文学位 >中文文本分类中卡方特征提取和对TF-IDF权重改进
【6h】

中文文本分类中卡方特征提取和对TF-IDF权重改进

代理获取

目录

声明

1 绪论

1.1 选题背景与意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文的布局

2 文本分类相关技术

2.1 文本分类过程

2.2 文本预处理

2.3 文本表示模型

2.4 特征降维

2.5 特征加权

2.6 文本分类算法

2.7 评价方法

2.8 本章小结

3 特征选择方法研究

3.1 特征选择

3.2 传统特征选择方法

3.3 传统卡方统计算法

3.4 卡方统计算法的不足

3.5 卡方统计的改进

3.6 本章小结

4 TFIDF特征权重改进算法

4.1 TFIDF权重

4.2 传统TFIDF算法的不足

4.3 结合卡方统计和信息熵改进的TFIDF方法

4.4 本章小结

5 实验过程及结果分析

5.1 实验数据集

5.2 分类性能评估

5.3 分类流程及实验过程

5.4 实验结果分析

5.5 本章小结

6 总结与展望

6.1 本文总结

6.2 展望

参考文献

致谢

展开▼

摘要

进入21世纪以来,随着互联网和信息技术的高速发展,信息以指数级速度增长,人类获取的信息量已经十分庞大,其中含有大量的文本信息,但是如何从中及时、高效地获取所需的信息变得异常困难,文本分类能够有效地解决这一问题,在信息过滤、自动文摘、数字化图书馆、文本数据库等领域应用广泛。因此,文本分类方法的研究具有重要的理论意义和广阔的应用前景。
  特征选择能够从高维的特征空间中选择出最具代表文本内容的特征词,能够提高文本分类的效率和精度。特征加权能够根据特征词对类别区分能力的不同赋予不同的权值。特征选择和特征加权是文本分类过程中极为重要的两个环节。本文以此为主要研究内容,主要工作及创新点如下:
  首先,论文全面分析了目前常用的特征提取方法,包括文档频数、互信息、信息增益、卡方统计、相关系数,深入研究了卡方统计,针对传统卡方统计在选择特征词会对低频词有偏向性的缺陷,引入词频因子,针对卡方统计倾向于选择在其它类中大量出现而在指定类中很少出现的特征词,本文引入类间集中度系数和修正系数加以改进,提出了词频因子、类间集中度系数、修正系数的改进卡方统计SCHI。
  其次,分析了常见特征加权方法,重点针对传统TFIDF权重的缺陷进行了分析,TFIDF权重在对特征词加权时忽略了特征项在类别内和类别间的分布,提出一种结合取常用对数卡方统计和类内信息熵的TFIDF权重计算方法。
  最后,通过两组对比实验来验证本文提出的卡方统计改进算法和TFIDF改进算法的有效性和可行性,本文以复旦中文语料库为数据集作两组对比实验,结果表明本文改进后的卡方统计算法和改进后的TFIDF特征加权算法与传统方法、已有改进方法相比均可使各个类中查准率、召回率、F1值和整体查准率、召回率、F1值得到了明显的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号