中文文本分类中卡方特征提取和对TF-IDF权重改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

进入21世纪以来，随着互联网和信息技术的高速发展，信息以指数级速度增长，人类获取的信息量已经十分庞大，其中含有大量的文本信息，但是如何从中及时、高效地获取所需的信息变得异常困难，文本分类能够有效地解决这一问题，在信息过滤、自动文摘、数字化图书馆、文本数据库等领域应用广泛。因此，文本分类方法的研究具有重要的理论意义和广阔的应用前景。
　　特征选择能够从高维的特征空间中选择出最具代表文本内容的特征词，能够提高文本分类的效率和精度。特征加权能够根据特征词对类别区分能力的不同赋予不同的权值。特征选择和特征加权是文本分类过程中极为重要的两个环节。本文以此为主要研究内容，主要工作及创新点如下：
　　首先，论文全面分析了目前常用的特征提取方法，包括文档频数、互信息、信息增益、卡方统计、相关系数，深入研究了卡方统计，针对传统卡方统计在选择特征词会对低频词有偏向性的缺陷，引入词频因子，针对卡方统计倾向于选择在其它类中大量出现而在指定类中很少出现的特征词，本文引入类间集中度系数和修正系数加以改进，提出了词频因子、类间集中度系数、修正系数的改进卡方统计SCHI。
　　其次，分析了常见特征加权方法，重点针对传统TFIDF权重的缺陷进行了分析，TFIDF权重在对特征词加权时忽略了特征项在类别内和类别间的分布，提出一种结合取常用对数卡方统计和类内信息熵的TFIDF权重计算方法。
　　最后，通过两组对比实验来验证本文提出的卡方统计改进算法和TFIDF改进算法的有效性和可行性，本文以复旦中文语料库为数据集作两组对比实验，结果表明本文改进后的卡方统计算法和改进后的TFIDF特征加权算法与传统方法、已有改进方法相比均可使各个类中查准率、召回率、F1值和整体查准率、召回率、F1值得到了明显的提高。

著录项

作者
石俊涛;
展开▼
作者单位

西华大学;

展开▼
授予单位西华大学;
学科控制工程
授予学位硕士
导师姓名黄小莉,岳波;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 卡方统计; 特征提取; TF-IDF权重; 特征词加权;
入库时间 2022-08-17 11:18:10

相似文献

中文文献
外文文献
专利

1. 基于卡方统计改进的TF-IDF的文本分类的研究 [J] . 王露瑶 ,张涛 ,陈才 . 电子世界 . 2019,第006期
2. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰 . 软件导刊 . 2018,第012期
3. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰1 . 软件导刊 . 2018,第012期
4. 基于改进的TF-IDF权重的短文本分类算法 [J] . 杨彬 ,韩庆文 ,雷敏 . 重庆理工大学学报（自然科学版） . 2016,第012期
5. 基于改进的TF-IDF权重的短文本分类算法 [J] . 杨彬1 ,韩庆文1 ,雷敏2 . 重庆理工大学学报 . 2016,第012期
6. 文本分类中TF-IDF算法的一种改进方法 [C] . ZHANG Lei ,张磊 ,XIE Xu-sheng . 中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会 . 2014
7. 基于改进TF-IDF特征提取的文本分类模型的设计与实现 [A] . 杜朋朋 . 2016

中文文本分类中卡方特征提取和对TF-IDF权重改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅