优化特征选择的CTM模型在文本分类中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展、海量信息的出现，人们已经从信息资源匮乏的年代过渡到信息资源丰富的大数据时代。如何快速、有效地从海量信息中提取所需的信息是当今信息科学和技术领域面临的一大挑战，而文本分类就是解决这一问题的途径之一。其中特征选择和文本表示是影响文本分类的重要因素，现阶段相关主题模型CTM(Correlated Topic Model)已作为有效的文本表示方应法用在文本分类中，该模型能很好的表现出主题之间的相关性，同时在力求保证信息完整性的条件下有效地降低文本数据的维度，对分类精度和速度都得到了提高。然而该模型输入特征的选择和最优主题数的确定仍然是一大难题。
　　本文针对CTM模型在文本分类中的特征选择方法，以及模型的最优主题数确定做了一定的研究，完成了以下工作:
　　(1)分析当前文本分类中文本表示遇到的困难以及CTM模型在文本表示中的优点;
　　(2)采用基于复杂度和对数似然值的方法，确定CTM模型中的最佳主题数;
　　(3)采用一种基于主成分分析与互信息相结合的CTM模型特征选取方法，从而减少冗余特征;
　　(4)基于上述理论方法，采用R语言的相关函数包建立CTM模型，并构建文本分类实验系统，验证了所使用方法的有效性，为进一步开发文本分类应用系统提供了帮助。
　　最后，对所做的工作进行了总结，并对以后将要研究的内容进行了展望。

著录项

作者
杨正良;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机技术
授予学位硕士
导师姓名马长林;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
特征选择; 文本分类; 相关主题模型; 复杂度; 对数似然值; 主成分分析;

相似文献

中文文献
外文文献
专利

1. 文本分类中CTM模型的优化和可视化应用研究 [J] . 马长林 ,杨正良 ,谢罗迪 . 计算机工程与科学 . 2017,第003期
2. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
3. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
4. 类依赖特征选择算法在文本分类中的优化研究 [J] . 刘云 ,肖雪 ,黄荣乘 . 计算机与数字工程 . 2021,第010期
5. 一种基于改进信息增益特征选择的最大熵模型文本分类方法 [J] . 何明 . 西南师范大学学报（自然科学版） . 2019,第003期
6. 一种免疫克隆特征选择算法在文本分类中的应用 [C] . 陈绯 ,郑华 . 2009年全国理论计算机科学学术年会 . 2009
7. 最优特征选择算法在文本分类上的应用研究 [A] . 王新莹 . 2013

优化特征选择的CTM模型在文本分类中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅