文摘
英文文摘
致谢
第1章总体介绍
1.1文本分类和文本聚类的重要性
1.2文本分类和文本聚类所面临的挑战
1.3特征选择和特征抽取的研究现状
1.3.1特征选择的研究现状
1.3.2特征抽取的研究现状
1.4本文的研究
1.5论文大纲
第2章文本数据的数学描述
2.1文本预处理
2.1.1词根还原
2.1.2停用词过滤
2.1.3英文文本预处理的过程
2.2向量空间模型
2.2.1文本向量表示
2.2.2距离计算方法
2.3单词权重计算方法
2.3.1单词权重的考虑因素
2.3.2 TF*IDF
2.3.3其他单词权重调整方法
第3章文本分类
3.1文本分类的简单介绍
3.1.1文本分类的定义
3.1.2文本分类的过程
3.1.3单分类和多分类
3.2常用的文本分类算法
3.2.1 K最近邻算法
3.2.2支持向量机
3.3文本分类结果的评价方法
3.3.1 Precision、Recall和F-Measure
第4章文本聚类
4.1文本聚类的简单介绍
4.1.1文本聚类的定义
4.1.2文本聚类的过程
4.2常用的文本聚类算法
4.2.1 K-Means
4.2.2 Single-Link
4.2.3 DBSCAN
4.3文本聚类结果的评价方法
4.3.1 Entropy
4.3.2 Precision
第5章用于文本聚类的特征选择算法
5.1特征选择简介
5.1.1特征选择的概念
5.1.2为什么要特征选择
5.1.3特征选择的分类
5.1.4特征选择的过程
5.2各种特征选择算法
5.2.1信息增益(IG)
5.2.2 X2统计(CHI)
5.2.3互信息(MI)
5.2.4文档频数(DF)
5.2.5单词权(TS)
5.2.6单词熵(EN)
5.2.7其他算法
5.3三种新的无监督特征选择算法
5.3.1单词贡献度(TC)
5.3.2迭代特征选择算法(IF)
5.3.3基于K-Means的特征选择算法(KFS)
第6章用于文本分类的特征抽取算法
6.1特征抽取简介
6.1.1特征抽取的概念
6.1.2为什么要特征抽取
6.1.3特征抽取的过程
6.1.4特征抽取算法
6.2潜在语义索引(LSI)
6.2.1 LSI的基本概念
6.2.2 LSI应用举例
6.2.3 LSI的讨论和分析
6.3 LSI在文本分类上的应用
6.3.1全局LSI(Global LSI)
6.3.2局部LSI(Local LSI)
6.4局部相关加权LSI(LRW-LSI)
第7章用于文本聚类的特征选择算法实验
7.1实验设计
7.1.1标准数据集及其预处理
7.1.2聚类算法
7.1.3评价标准
7.2有监督特征选择算法实验(理想实验)
7.3无监督特征选择算法实验
7.4迭代特征选择算法实验
7.5基于K-Means的特征选择算法实验
第8章用于文本分类的特征抽取算法实验
8.1实验设计
8.1.1标准数据集及其预处理
8.1.2分类算法
8.1.3奇异值分解算法
8.1.4评价标准
8.2全局LSI和局部LSI实验
8.3局部相关加权LSI实验
第9章总结
9.1用于文本聚类的特征选择
9.2用于文本分类的特征抽取
附录1中英文关键词对照表
参考文献
英文参考文献
中文参考文献