声明
摘要
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 主要研究内容及工作
1.4 论文组织结构
第二章 改进的TFIDF方法
2.1 文本表示
2.2 常见的特征选择方法
2.2.1 文档频率
2.2.2 信息增益
2.2.3 卡方统计量
2.2.4 互信息法
2.2.5 TFIDF
2.3 TFIDF的改进方法
2.3.1 TFIDF的不足
2.3.2 TFIDFCV方法
2.4 本章小结
第三章 混合模型文本分类方法研究
3.1 主题模型的发展
3.1.1 LSA模型
3.1.2 PLSA模型
3.1.3 LDA模型
3.2 PST-LDA
3.3 混合模型分类方法
3.4 本章小结
第四章 实验设计与结果分析
4.1 实验准备
4.1.1 语料库选择
4.1.2 语料库预处理
4.1.3 实验环境
4.2 分类器的选择
4.2.1 常见的分类方法
4.2.2 LIBSVM简介
4.3 分类评价标准
4.3.1 正确率与召回率
4.3.2 F测度
4.3.3 宏平均及微平均
4.4 特征选择方法实验
4.5 混合模型分类实验
4.5.1 LDA建模相关参数
4.5.2 PST-LDA中的最佳词集组合
4.5.3 TFIDFCV选择特征的比例
4.5.4 实验结果分析
4.6 本章小结
第五章 总结与展望
参考文献
在校期间发表的论文、科研成果
致谢