首页> 中文学位 >改进的互信息与LDA结合的特征降维方法研究
【6h】

改进的互信息与LDA结合的特征降维方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 研究内容及主要工作

1.4 论文的组织结构

第二章 相关技术概述

2.1 文本分类介绍与预处理

2.1.1 文本分类介绍

2.1.2 文本预处理

2.2 文本表示模型

2.3 文本特征选择方法

2.3.1 文档频数

2.3.2 信息增益

2.3.3 x2统计量

2.3.4 互信息

2.4 常用文本分类算法

2.4.1 朴素贝叶斯

2.4.2 支持向量机

2.4.3 KNN算法

2.5 文本分类评估指标

2.5.1 准确率和召回率

2.5.2 F值

2.5.3 宏平均和微平均

2.6 本章小结

第三章 互信息特征选择方法改进

3.1 传统互信息特征选择

3.1.1 传统互信息特征选择方法

3.1.2 传统互信息特征选择方法不足

3.2 影响强信息特征的因素

3.3 特征词词频

3.3.1 特征类频度

3.3.2 特征类内文本平均次数

3.3.3 最小词频数

3.4 类别区分词

3.4.1 类内分散度

3.4.2 类间离散度

3.5 特征词词频与类别区分词结合的改进

3.6 实验结果与分析

3.6.1 实验语料预处理

3.6.2 KNN算法中K值确定

3.6.3 实验对比分析

3.7 本章小结

第四章 特征选择与LDA相结合的分类实现

4.1 主题模型

4.1.1 PLSA模型

4.1.2 LDA模型

4.2 改进的互信息特征选择与LDA模型相结合

4.2.1 基本流程图

4.2.2 LDA模型初始参数设定

4.2.3 LDA模型的推断

4.2.4 特征选择与LDA相结合的分类过程

4.3 实验结果与分析

4.3.1 实验环境与工具

4.3.2 实验语料预处理

4.3.3 主题数的选取

4.3.4 LDA训练过程

4.3.5 实验对比分析

4.4 本章小结

第五章 总结与展望

5.1 全文总结

5.2 研究展望

参考文献

在校期间发表的论文、科研成果

致谢

展开▼

摘要

文本分类是文本挖掘中的一个热门研究领域。分类的流程包含关键的几个环节,每个环节处理的合适与否都对文本分类的结果有一定的影响,其中文本特征降维是分类过程中最重要的环节之一。如何将文本的特征有效的选择出来是目前一个较热门的研究课题。
  本文主要以文本特征选择中的互信息方法为研究对象,通过分析互信息特征选择方法存在的不足,提出了一种互信息特征选择改进的方法。由于传统方法进行特征选择时都是以数理统计为基础的,忽视了词项间的语义关系。结合LDA主题模型在分类领域中的应用,通过将传统的特征选择方法与LDA结合的思路来对文本进行特征降维,以便提高分类的效果。本文的主要工作如下:
  1、研究文献资料,在分析中文文本分类研究的发展现状,重点以文本分类中互信息特征选择为例进行研究。分析互信息方法在做特征选择时表现的不足,提出了一种互信息特征选择的改进方法。
  2、由于互信息特征选择方法没有将特征词的词频信息以及文本类别之间的信息考虑进来,而只是考虑了特征词在文本集中的文本频率。针对这个问题在基于文本词频互信息改进的基础上,引入类间离散度和类内分散度两个概念,提出了一种特征词词频与类别区分词相结合的互信息特征选择方法,实验分析表明本文提出的改进方法能够使文本分类的效果得到一定程度的提高。
  3、针对传统方法在做特征选择时都是以数理统计为基础的,并未考虑词项间的语义信息,将本文改进的互信息与LDA相结合来对文本进行特征降维,在Linux环境下对LDA进行建模学习,并通过实验选取合适的参数,然后采用数据挖掘工具WEKA中提供的KNN分类算法来对文本进行分类判定,与本文提出的互信息方法进行对比,得出将本文改进的互信息与LDA结合的方法能达到更好的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号