首页> 中文学位 >文本分类特征选取技术研究
【6h】

文本分类特征选取技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章 引言

1.1课题研究背景及意义

1.2国内外研究现状

1.3本文的主要内容

第二章 文本分类的概念和向量空间模型

2.1文本分类的概念

2.1.1现代文本分类的基础理论——机器学习

2.1.2文本分类的定义

2.2向量空间模型

2.3分类系统的性能评价

2.3.1常用的评估参数介绍

2.3.2其他一些评估参数介绍

2.4粗糙集理论

2.4.1粗糙集的基本概念

2.4.2决策表的离散化

2.5将粗糙集理论用于文本分类的可行性分析

第三章 文本分类系统中关键技术问题

3.1系统总体框架

3.2文本的预处理

3.2.1文本预处理方法

3.2.2基于词性选择的文本预处理

3.3特征选择方法

3.3.1文档频率

3.3.2互信息

3.3.3信息增益

3.3.4期望交叉熵

3.3.5文本证据权(WET)

3.3.6基于扩展互信息算法的特征选择方法(EMI)

3.4特征项权重公式

3.4.1布尔权重

3.4.2词频权重

3.4.3 TF-IDF权重

3.5文本分类方法

3.5.1朴素贝叶斯分类法(NB)

3.5.2 K-邻近算法

3.5.3支持向量机算法

3.6分类方法对比研究

3.6.1几种方法的比较

3.7实验系统的各项参数

3.8实验用语料库

3.9实验结果与分析

第四章 基于粗糙集属性约简的特征选择方法

4.1基于粗糙集属性约简的特征选择方法

4.1.1文本预处理

4.1.2决策表的建立

4.1.3决策表的离散化

4.1.4基于属性重要度的条件属性约简

4.1.5特征的选择

4.2实验结果及其分析

第五章 中文文本自动分类工具的设计与实现

5.1分类工具的体系结构

5.2主要功能模块介绍

5.2.1文本处理及特征选择模块

5.2.2文本分类模块

5.2.3分类测试与结果评估模块

第六章 总结与展望

6.1本文主要工作和创新点

6.2不足及对未来的展望

参考文献

致谢

展开▼

摘要

随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。而文本分类作为信息过滤、搜索引擎、文本数据库、数值化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。 本文从文本模型的向量模型表示、特征选择、权重公式和分类器训练这个步骤较系统地研究了文本自动分类,同时将粗糙集理论应用到了文本分类中。 1.介绍了文本分类的概念和向量空间模型,分类系统的性能评价参数与粗糙集基本理论。 2.针对文本分类系统中关键技术问题,讨论了文本表示的整个过程--文本预处理,特征选择,权重计算,生成文本向量空间,提出了基于词性筛选的预处理方法,对互信息特征选择算法进行了扩展,引入了改进的权重公式MTF-IDF。 对当前性能较好的三种文本分类算法:朴树贝叶斯、KNN法和支持向量机进行了研究,对现有特征选择方法及权重公式进行了对比实验。 3.结合粗糙集的优点,提出了基于粗糙集的特征选择方法,利用粗糙集的约简技术实现了文本的特征选择,通过与其他方特征选择法实验对比,结果表明基于粗糙集的特征选择方法的准确率较高。 4.实现了一个文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练与分类。 5.对本文进行了总结与展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号