改进的互信息与LDA结合的特征降维方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是文本挖掘中的一个热门研究领域。分类的流程包含关键的几个环节，每个环节处理的合适与否都对文本分类的结果有一定的影响，其中文本特征降维是分类过程中最重要的环节之一。如何将文本的特征有效的选择出来是目前一个较热门的研究课题。
　　本文主要以文本特征选择中的互信息方法为研究对象，通过分析互信息特征选择方法存在的不足，提出了一种互信息特征选择改进的方法。由于传统方法进行特征选择时都是以数理统计为基础的，忽视了词项间的语义关系。结合LDA主题模型在分类领域中的应用，通过将传统的特征选择方法与LDA结合的思路来对文本进行特征降维，以便提高分类的效果。本文的主要工作如下:
　　1、研究文献资料，在分析中文文本分类研究的发展现状，重点以文本分类中互信息特征选择为例进行研究。分析互信息方法在做特征选择时表现的不足，提出了一种互信息特征选择的改进方法。
　　2、由于互信息特征选择方法没有将特征词的词频信息以及文本类别之间的信息考虑进来，而只是考虑了特征词在文本集中的文本频率。针对这个问题在基于文本词频互信息改进的基础上，引入类间离散度和类内分散度两个概念，提出了一种特征词词频与类别区分词相结合的互信息特征选择方法，实验分析表明本文提出的改进方法能够使文本分类的效果得到一定程度的提高。
　　3、针对传统方法在做特征选择时都是以数理统计为基础的，并未考虑词项间的语义信息，将本文改进的互信息与LDA相结合来对文本进行特征降维，在Linux环境下对LDA进行建模学习，并通过实验选取合适的参数，然后采用数据挖掘工具WEKA中提供的KNN分类算法来对文本进行分类判定，与本文提出的互信息方法进行对比，得出将本文改进的互信息与LDA结合的方法能达到更好的分类效果。

著录项

作者
黄勇;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名陈利;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 改进互信息; LDA模型; 特征降维; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 基于改进的互信息结合边缘互方差的医学图像配准方法研究 [J] . 刘青芳 ,李月娥 . 测试技术学报 . 2009,第006期
2. 基于ReliefF与互信息结合的特征评价、筛选的家庭负荷类型辨识方法研究 [J] . 薛冰 ,温克欢 ,李伟华 . 电测与仪表 . 2020,第012期
3. 邻域灰度与空间特征相结合的互信息配准方法研究 [J] . 魏玉兰 ,颜云辉 ,李兵 . 中国机械工程 . 2011,第004期
4. 基于互信息的文本分类改进方法研究 [J] . 余璇 ,孙伟 ,张翔 . 微型机与应用 . 2017,第019期
5. 基于改进单纯形的互信息配准方法研究 [J] . 王玉 ,王明泉 ,张志杰 . 计算机仿真 . 2013,第010期
6. 像质评价结合互信息在激光图像配准中的应用 [C] . FAN You-chen ,范有臣 ,ZHAO Hong-li . 2015年光学精密工程论坛 . 2015
7. 基于改进互信息的医学图像配准方法研究 [A] . 刘青芳 . 2010

改进的互信息与LDA结合的特征降维方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅