文摘
英文文摘
论文说明:图表目录
声明
致谢
第一章 绪 论
1.1 课题的研究背景和意义
1.2 文本分类的基本概念
1.2.1数据挖掘及文本挖掘的概念
1.2.2文本分类的定义
1.2.3文本分类算法的类型
1.3 文本分类的发展和研究现状
1.4 本文组织和安排
第二章 KNN中文文本自动分类技术
2.1 中文文本分类技术的一般过程
2.2 特征选取算法
2.2.1文档频率
2.2.2信息增益
2.2.3互信息
2.2.4 χ2检验
2.2 分类算法
2.4 质量评估方法
2.5 本章小结
第三章 K-KNN:基于中心文档的KNN中文文本分类算法
3.1 引言
3.2文本表示与相似度的相关概念
3.2.1向量空间模型
3.2.2相似度计算
3.3 基于知网的词语相似度
3.3.1词语相似度与距离
3.3.2知网及词语相似度计算
3.4 K-KNN:基于中心文档的KNN分类
3.4.1聚类中心文档
3.4.2文档间相似度计算
3.4.3算法描述
3.5 实验结果与分析
3.6 本章小结
第四章 基于KNN训练样本集不均衡的一种处理方法
4.1 引言
4.2 训练样本集不均对分类结果的影响
4.3 基于较小K值分类相交类别文本算法
4.3.1算法有效性分析
4.3.2边界文本及其判定方法
4.3.3算法描述
4.4 实验结果与分析
4.5 本章小结
第五章 总结与展望
5.1 本文主要工作总结
5.2 进一步的研究工作
参考文献
攻读硕士学位期间发表的学术论文