声明
摘要
第一章 绪论
1.1 研究背景和意义
1.2 相关研究工作
1.2.1 VSM模型
1.2.2 统计概率模型
1.2.3 主题模型
1.3 本文的研究内容
1.4 本文的组织结构
第二章 文本分类技术概述
2.1 文本预处理
2.2 文本表示
2.3 特征提取
2.3.1 互信息
2.3.2 主成分分析
2.4 文本分类方法
2.4.1 KNN分类
2.4.2 朴素贝叶斯分类
2.4.3 支持向量机
2.5 性能评估
2.6 R语言介绍
2.7 小结
第三章 主题模型概述
3.1 LDA模型
3.2 CTM模型
3.2.1 后验推断和参数估计
3.2.2 CTM模型在文本分类中的应用
3.3 小结
第四章 CTM模型的优化及文本分类
4.1 CTM模型主题数目优化
4.1.1 复杂度
4.1.2 对数似然函数
4.1.3 主题数目优化过程
4.2 CTM模型的特征选择优化
4.2.1 互信息和主成分分析的缺陷
4.2.2 基于MIPCA的特征提取
4.2.3 CTM模型的特征提取
4.3 基于CTM模型的文本分类
4.3.1 CTM模型的文本分类描述
4.3.2 优化的CTM模型文本分类过程
4.4 小结
第五章 仿真实验
5.1 实验方法和数据描述
5.1.1 实验平台
5.1.2 实验数据描述
5.1.3 实验环境搭建以及数据预处理
5.2 仿真实验
5.2.1 优化模型主题数
5.2.2 CTM模型的特征提取
5.2.3 可视化显示
5.3 小结
第六章 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
致谢