中文文本特征选择方法的比较与研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本自动分类就是由计算机自动提取文本的特征项，依据一定的算法将文本按照内容或特征归到一个或多个类别的过程。文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱的问题，方便用户准确地定位所需的信息和分流信息。中文文本分类要解决的问题是：中文文本编码的转换，中文文本的分词处理，提取文本的特征词，计算文本和类模板之间的相似度，根据阈值确定该文本所属的类别。目前对于文本分类技术的研究，大多数研究者的精力主要放在各种不同分类的方法探索与改进上。然而，文本分类中的特征提取一直是文本分类的关键技术和瓶颈技术。本文介绍文本分类的主要技术，研究了在中文文本分类中各种特征选取方法对分类效果的影响。本文分析了信息增益(IG)、期望交叉熵(CE)、互信息(MI)、X<'2>统计(X<'2>)、证据权值(WE)这几种常用的特征提取方法特点，然后在KNN和SVM分类器上实现了一种基于类别信息的中文文本特征提取方法，并与常用的特征提取方法进行比较。通过实验比较了基于类别信息的特征提取方法与其它几种特征提取方法在KNN和SVM分类器中对中文文本分类性能的影响；在KNN和SVM分类器中，使用用基于类别信息的特征提取方法得到的准确率比其它常用的特征提取方法得到的准确率有所提高。通过在训练集中减少某种类别的样本数量，研究了当数据分布不平衡时KNN和SVM分类器性能。当数据分布不平衡时，对含有较少训练样本的稀疏类的分类正确率将降低；KNN和sVM分类器都存在一个训练样本数量临界点，如果训练样本的数量再少于该临界点时，分类器的分类正确率将急剧下降，以至不能正确区分出这类样本。通过比较这些特征选择方法对SVM和KNN分类器性能的影响，得出同样的特征选择方法在SVM分类器中对中文文本的分类比在KNN分类器中性能好，在相同特征提取数时SvM分类器的精度比KNN高。

著录项

作者
屈军;
展开▼
作者单位

华南理工大学;

展开▼
授予单位华南理工大学;
学科软件工程
授予学位硕士
导师姓名陈琼,赖志文;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文文本分类; 文本特征; 特征提取; 分类器; 提取方法; 信息; 训练样本; 关键技术; 样本数量; 选择方法; 性能; 数据分布; 准确率; 正确率; 临界点; 不平衡; 探索与改进; 自动提取; 自动分类; 正确区分;

相似文献

中文文献
外文文献
专利

1. 中文文本特征选择方法研究综述 [J] . 徐泓洋 ,杨国为 . 工业控制计算机 . 2017,第011期
2. 基于粗糙集的中文文本特征选择方法研究 [J] . 张翔 ,周明全 ,耿国华 . 计算机应用与软件 . 2010,第003期
3. 一种改进的中文文本特征选择方法 [J] . 王培涌 ,陈好刚 ,王树峰 . 现代计算机（专业版） . 2009,第012期
4. 面向中文专利SAO结构抽取的文本特征比较研究 [J] . 饶齐 ,王裴岩 ,张桂平 . 北京大学学报：自然科学版 . 2015,第2期
5. 中文文本分类中特征选择方法的比较研究 [J] . 刘洋 . 科技信息 . 2007,第003期
6. 面向中文专利SAO结构抽取的文本特征比较研究 [C] . RAO Qi ,饶齐 ,WANG Peiyan . 第三届CCF国际自然语言处理与中文计算会议 . 2014
7. 基于云模型的新闻文本特征选择方法研究 [A] . 宋丽 . 2018

中文文本特征选择方法的比较与研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅