首页> 中文学位 >优化特征选择的CTM模型在文本分类中的应用研究
【6h】

优化特征选择的CTM模型在文本分类中的应用研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.2 相关研究工作

1.2.1 VSM模型

1.2.2 统计概率模型

1.2.3 主题模型

1.3 本文的研究内容

1.4 本文的组织结构

第二章 文本分类技术概述

2.1 文本预处理

2.2 文本表示

2.3 特征提取

2.3.1 互信息

2.3.2 主成分分析

2.4 文本分类方法

2.4.1 KNN分类

2.4.2 朴素贝叶斯分类

2.4.3 支持向量机

2.5 性能评估

2.6 R语言介绍

2.7 小结

第三章 主题模型概述

3.1 LDA模型

3.2 CTM模型

3.2.1 后验推断和参数估计

3.2.2 CTM模型在文本分类中的应用

3.3 小结

第四章 CTM模型的优化及文本分类

4.1 CTM模型主题数目优化

4.1.1 复杂度

4.1.2 对数似然函数

4.1.3 主题数目优化过程

4.2 CTM模型的特征选择优化

4.2.1 互信息和主成分分析的缺陷

4.2.2 基于MIPCA的特征提取

4.2.3 CTM模型的特征提取

4.3 基于CTM模型的文本分类

4.3.1 CTM模型的文本分类描述

4.3.2 优化的CTM模型文本分类过程

4.4 小结

第五章 仿真实验

5.1 实验方法和数据描述

5.1.1 实验平台

5.1.2 实验数据描述

5.1.3 实验环境搭建以及数据预处理

5.2 仿真实验

5.2.1 优化模型主题数

5.2.2 CTM模型的特征提取

5.2.3 可视化显示

5.3 小结

第六章 总结与展望

6.1 本文工作总结

6.2 未来工作展望

参考文献

致谢

展开▼

摘要

随着互联网的快速发展、海量信息的出现,人们已经从信息资源匮乏的年代过渡到信息资源丰富的大数据时代。如何快速、有效地从海量信息中提取所需的信息是当今信息科学和技术领域面临的一大挑战,而文本分类就是解决这一问题的途径之一。其中特征选择和文本表示是影响文本分类的重要因素,现阶段相关主题模型CTM(Correlated Topic Model)已作为有效的文本表示方应法用在文本分类中,该模型能很好的表现出主题之间的相关性,同时在力求保证信息完整性的条件下有效地降低文本数据的维度,对分类精度和速度都得到了提高。然而该模型输入特征的选择和最优主题数的确定仍然是一大难题。
  本文针对CTM模型在文本分类中的特征选择方法,以及模型的最优主题数确定做了一定的研究,完成了以下工作:
  (1)分析当前文本分类中文本表示遇到的困难以及CTM模型在文本表示中的优点;
  (2)采用基于复杂度和对数似然值的方法,确定CTM模型中的最佳主题数;
  (3)采用一种基于主成分分析与互信息相结合的CTM模型特征选取方法,从而减少冗余特征;
  (4)基于上述理论方法,采用R语言的相关函数包建立CTM模型,并构建文本分类实验系统,验证了所使用方法的有效性,为进一步开发文本分类应用系统提供了帮助。
  最后,对所做的工作进行了总结,并对以后将要研究的内容进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号