文本挖掘中的特征选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

21世纪是信息时代，万维网上出现了海量的文本资源。对于互联网用户来说面对如此海量的文本信息，出现了拥有海量信息但知识相对贫乏的现象，人们从互联网海量的信息中获取对自己有用的知识变得相对困难，因此将互联网上的文本信息按照内容分门别类是一个迫切需要解决的问题也是互联网发展的必由之路。自从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来，现今文本分类已经成为数据挖掘领域非常重要的一个分支，它已经在搜索引擎等领域有较好的应用。文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程。所以寻找优秀的特征选择方法对特征空间进行降维，当前已是一个非常有实际价值的研究课题。下面是本文所做的主要工作:
　　1、本文首先研讨了选题的现实意义，研究了构成文本分类流程中各个环节的要素，分析了传统文本分类的特征选择方法，在介绍粗糙集基本理论的基础上，把粗糙集应用到特征选择中，分析这样做的优点，并且介绍了目前常见基于粗糙集理论的特征选择方法。
　　2、在文本分类中特征的权重体现了特征对于文本重要性。因此，好的特征权重计算算法也就显得非常重要，本文在分析了前人的特征权重计算算法的基础上提出了基于粗糙集和特征位置重要度的特征权重计算算法。
　　3、在分析前人属性约简的基础上，利用多粒度粗糙集的相关概念给出了一种新的多知识粒度概念，利用它构造了一种新的粒度函数，将此粒度函数运用到属性重要度的计算中，基于此针对决策信息系统建立了一种新的启发式属性约简算法。
　　4、经过分析把变精度粗糙集引入到KNN分类器中，将变精度粗糙集的核、负域和边界域作为衡量训练样本集的类内、类外和类边界的指标;然后对处于类内、外和边界区域的待分类样本，在判断其类别时区别对待，这样就可以有效降低训练样本集的规模，提高分类的效率和精度;最后本文对类别函数进行了改进，使得类别函数更能体现待分类样本的类别。
　　最后，把这些算法应用到模拟实验中，验证了这些算法在文本分类中有较高的召回率、准确率和F1值。

著录项

作者
王勋;
展开▼
作者单位

内蒙古民族大学;

展开▼
授予单位内蒙古民族大学;
学科应用数学
授予学位硕士
导师姓名裴志利;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类函数论;
关键词
文本分类; 特征选择方法; 特征权重; 属性约简; KNN分类器;

相似文献

中文文献
外文文献
专利

1. Web文本挖掘中的特征选取方法研究 [J] . 和亚丽 ,陈立潮 . 计算机工程 . 2005,第005期
2. 不平衡情感分类中的特征选择方法研究 [J] . 王志昊 ,王中卿 ,李寿山 . 中文信息学报 . 2013,第004期
3. 武器系统费用估算中的特征选择方法研究 [J] . 蒋铁军 ,薛峰 ,张怀强 . 武汉理工大学学报（信息与管理工程版） . 2010,第006期
4. 文本分类中特征选择方法研究及分析 [J] . 洪亮 . 科技广场 . 2009,第007期
5. 垃圾邮件过滤中特征选择方法研究 [J] . 王军 ,史科 ,王辉 . 合肥工业大学学报（自然科学版） . 2009,第012期
6. 不平衡情感分类中的特征选择方法研究 [C] . 王志昊 ,王中卿 ,李寿山 . 第六届全国青年计算语言学会议 . 2012
7. 网络健康社区中的文本挖掘方法研究 [A] . 吕英杰 . 2013

文本挖掘中的特征选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅