声明
摘要
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容及主要工作
1.4 论文的组织结构
第二章 相关技术概述
2.1 文本分类介绍与预处理
2.1.1 文本分类介绍
2.1.2 文本预处理
2.2 文本表示模型
2.3 文本特征选择方法
2.3.1 文档频数
2.3.2 信息增益
2.3.3 x2统计量
2.3.4 互信息
2.4 常用文本分类算法
2.4.1 朴素贝叶斯
2.4.2 支持向量机
2.4.3 KNN算法
2.5 文本分类评估指标
2.5.1 准确率和召回率
2.5.2 F值
2.5.3 宏平均和微平均
2.6 本章小结
第三章 互信息特征选择方法改进
3.1 传统互信息特征选择
3.1.1 传统互信息特征选择方法
3.1.2 传统互信息特征选择方法不足
3.2 影响强信息特征的因素
3.3 特征词词频
3.3.1 特征类频度
3.3.2 特征类内文本平均次数
3.3.3 最小词频数
3.4 类别区分词
3.4.1 类内分散度
3.4.2 类间离散度
3.5 特征词词频与类别区分词结合的改进
3.6 实验结果与分析
3.6.1 实验语料预处理
3.6.2 KNN算法中K值确定
3.6.3 实验对比分析
3.7 本章小结
第四章 特征选择与LDA相结合的分类实现
4.1 主题模型
4.1.1 PLSA模型
4.1.2 LDA模型
4.2 改进的互信息特征选择与LDA模型相结合
4.2.1 基本流程图
4.2.2 LDA模型初始参数设定
4.2.3 LDA模型的推断
4.2.4 特征选择与LDA相结合的分类过程
4.3 实验结果与分析
4.3.1 实验环境与工具
4.3.2 实验语料预处理
4.3.3 主题数的选取
4.3.4 LDA训练过程
4.3.5 实验对比分析
4.4 本章小结
第五章 总结与展望
5.1 全文总结
5.2 研究展望
参考文献
在校期间发表的论文、科研成果
致谢