声明
摘要
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 概率主题模型研究现状
1.2.2 短文本分类研究现状
1.3 研究内容及创新点
1.4 论文结构安排
第二章 相关理论知识概述
2.1 文本分类
2.1.1 文本分类概述
2.1.2 文本分类的流程
2.1.3 文本分类介绍
2.2 文本预处理
2.2.1 文本切分
2.2.2 分词
2.2.3 去除噪音
2.3 特征选择方法和建模
2.3.1 特征选择
2.3.2 建模
2.4 文本分类性能评价指标
2.5 本章小结
第三章 基于主题相似度的短文本模型构造
3.1 短文本特征分析
3.2 LDA主题模型
3.2.1 LDA主题模型的生成过程
3.2.2 吉布斯抽样原理
3.3 文本主题向量化
3.4 基于LDA模型的短文本分类
3.5 实验结果与分析
3.5.1 文本集预处理
3.5.2 实验结果分析
3.6 本章小结
第四章 改进KNN分类算法设计实现
4.1 文本分类器
4.1.1 KNN分类算法
4.1.2 相似性度量
4.1.3 改进的KNN算法
4.2.1 实验流程
4.2.2 参数设置
4.2.3 对比实验设计
4.3 实验结果与分析
4.3.1 实验环境
4.3.2 实验语料处理
4.3.3 吉布斯抽样过程
4.3.4 结果分析
4.4 本章小结
5.1 总结
5.2 展望
参考文献
致谢