首页> 中文学位 >基于词性与LDA主题模型的文本分类技术研究
【6h】

基于词性与LDA主题模型的文本分类技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题背景

1.2 国内外研究现状

1.3 研究意义

1.4 研究内容及主要工作

1.5 论文组织结构

第二章 文本分类技术

2.1 文本分类的一般流程

2.1 文本的表示

2.2 预处理

2.3 特征选择

2.3.1 特征评估算法

2.3.2 特征搜索算法

2.4 特征权重

2.5 分类算法

2.6 性能评估

2.6.1 评估方法

2.6.2 评估指标

2.7 本章小结

第三章 基于词性与LDA主题模型的特征选择

3.1 词性与LDA主题模型

3.2 传统的特征选择

3.3 基于词性与LDA主题模型的特征选择

3.4 本章小结

第四章 实验与分析

4.1 实验平台

4.2 实验数据

4.3 基于词性的传统文本特征选择

4.3.1 实验目标

4.3.2 实验流程

4.3.3 实验步骤

4.3.4 结果分析

4.4 基于词性与LDA主题模型的特征选择

4.4.1 实验目标

4.4.2 实验流程

4.4.3 实验步骤

4.4.4 结果分析

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

附录

致谢

展开▼

摘要

随着“互联网+”时代的到来,需要处理的数据越来越多,文本挖掘的工作也显得越来越重要,人们希望能够从海量的信息文本中准确地获得想要的信息,于是对于现有的文本数据挖掘技术,人们提出来一系列更高的需求。文本分类作为文本数据挖掘的重要组成部分之一,目前已经广泛应用于信息过滤、搜索引擎、数字化图书馆、个性化推荐等多个领域,对它的研究拥有很强的现实意义。
  首先,本文介绍了文本分类技术的价值,简要介绍了当前时代下文本分类的课题背景;阐述了国内外目前对于文本表示、特征选择的研究现状;对传统文本分类技术的特征提取方法进行了剖析,针对其存在的特征空间维度大、分类效率低、准确率相对偏低的现状,结合词性在文本中的地位,提出了使用基于词性的特征选择的方法,同时将其与LDA主题模型结合使用,并深刻分析了该方法存在的意义与价值,以及其应用在LDA主题模型上的优势,以及对最终分类结果的性能评估的影响。
  其次,对文本分类过程中重要的环节,包括预处理、文本分词、特征提取、特征权重、分类算法、性能评估等,都选择了目前比较常用经典的算法以及实验中将会使用到的算法、指标等,进行了简要的介绍与原理分析,对文本分类的整体流程进行了系统性的介绍。
  然后,针对提出的基于词性的特征选择方法与结合LDA主题模型的方式,重点介绍了词关于词性的这个特性,以及LDA主题模型。为了验证词性的可用性,研究了典型特征提取算法提取的特征词的词性分布;然后有选择的筛选词性作为特征,研究其对特征空间降维的影响以及分类结果的影响;并对比筛选不同词性特征词组合的分类结果,分析各种词性的重要程度,以及它们在文本中的实际价值;最后结合词性与LDA主题模型,研究词性在LDA主题模型的作用于意义。通过系统的实验,使用真实的数据进行了最终的结果分析,得出名词、动词、形容词构成文本的主体,它们基本决定了文本的属性,其中尤其以名词表现最为突出的结论,验证了词性的重要性,同时也发现词性在传统特征选择算法中,并没有发挥太大的作用,反而能够从语料的角度来说,能够缩减原始数据集,从另一个角度降低分类算法的需要处理的数据量,从而节约了时间与空间,还能保持原有的正确率。同时在原有实验基础上,验证了LDA主题模型对于词性的依赖,证明了词性在LDA主题模型上的适用性,而且词性与LDA主题模型的结合使用拥有非常好的分类效果。
  最后,结合实验中遇到的问题,总结了下一步的研究方向,展望了文本分类技术在未来的发展趋势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号