文摘
英文文摘
论文说明:图表目录
声明
第一章 引言
1.1课题研究背景及意义
1.2国内外研究现状
1.3本文的主要内容
第二章 文本分类的概念和向量空间模型
2.1文本分类的概念
2.1.1现代文本分类的基础理论——机器学习
2.1.2文本分类的定义
2.2向量空间模型
2.3分类系统的性能评价
2.3.1常用的评估参数介绍
2.3.2其他一些评估参数介绍
2.4粗糙集理论
2.4.1粗糙集的基本概念
2.4.2决策表的离散化
2.5将粗糙集理论用于文本分类的可行性分析
第三章 文本分类系统中关键技术问题
3.1系统总体框架
3.2文本的预处理
3.2.1文本预处理方法
3.2.2基于词性选择的文本预处理
3.3特征选择方法
3.3.1文档频率
3.3.2互信息
3.3.3信息增益
3.3.4期望交叉熵
3.3.5文本证据权(WET)
3.3.6基于扩展互信息算法的特征选择方法(EMI)
3.4特征项权重公式
3.4.1布尔权重
3.4.2词频权重
3.4.3 TF-IDF权重
3.5文本分类方法
3.5.1朴素贝叶斯分类法(NB)
3.5.2 K-邻近算法
3.5.3支持向量机算法
3.6分类方法对比研究
3.6.1几种方法的比较
3.7实验系统的各项参数
3.8实验用语料库
3.9实验结果与分析
第四章 基于粗糙集属性约简的特征选择方法
4.1基于粗糙集属性约简的特征选择方法
4.1.1文本预处理
4.1.2决策表的建立
4.1.3决策表的离散化
4.1.4基于属性重要度的条件属性约简
4.1.5特征的选择
4.2实验结果及其分析
第五章 中文文本自动分类工具的设计与实现
5.1分类工具的体系结构
5.2主要功能模块介绍
5.2.1文本处理及特征选择模块
5.2.2文本分类模块
5.2.3分类测试与结果评估模块
第六章 总结与展望
6.1本文主要工作和创新点
6.2不足及对未来的展望
参考文献
致谢
内蒙古大学;