声明
摘要
第—章 绪论
1.1 研究背量及意义
1.2 研究内容
1.3 国内外研究现状
1.3.1 国外研究现状
1.3.2 国内研究现状
1.4 本文主要工作
第二章 文本分类相关技术
2.1 文本分类系统的工作原理
2.2 文本预处理
2.2.1 中文文本分类的特点
2.2.2 文档集
2.2.3 文档表示模型
2.2.4 中文分词技术
2.2.5 中文停用词处理
2.3 文本特征选择方法
2.3.1 信息增益(Information Gain)
2.3.2 互信息(Mutual Information)
2.3.3 x2统计(x2)
2.3.4 交叉熵(Cross Entropy)
2.3.5 文本频率(Document Frequency)
2.4 特征权重算法
2.4.1 布尔加权法(Boolean Weighting)
2.4.2 词频权重
2.4.3 TFIDF权重
2.5 基于统计方法的分类算法
2.5.1 类中心向量算法
2.5.2 朴素贝叶斯算法(Navie Bayes)
2.5.3 支持向量机分类算法(SVM)
2.5.4 K近邻算法(KNN)
2.6 分类性能评估
2.6.1 单类赋值
2.6.2 多类排序
2.7 本章小结
第三章 基于KNN的多要素中文文本分类协调算法
3.1 基于KNN的中文文本分类系统构建
3.1.1 训练阶段
3.1.2 测试阶段
3.1.3 分类器评估阶段
3.2 基于Bayes定理的多分类器协调算法
3.2.1 Bayes理论相关知识
3.2.2 基于Bayes定理的多分类结果协调算法
3.3 模拟退火算法在多要素文本分类上的应用
3.3.1 模拟退火算法
3.3.2 模拟退火算法在多要素文本分类上的应用
3.4 本章小结
第四章 实验结果与分析
4.1 语料库说明
4.2 文本分类算法
4.2.1 特征数目对分类效果的影响
4.2.2 特征选择算法对分类效果的影响
4.2.3 KNN算法中K值对分类效果的影响
4.3 基于KNN算法的多要素文本分类算法分类效果
4.3.1 KNN算法对多要素中文文本的分类结果
4.3.2 经协调后的多要素分类算法与传统分类方法对比l
4.4 本章小结
第五章 结论
5.1 总结
5.2 后续工作
参考文献
攻读硕士学位期间发表的论文
致谢
厦门大学;