首页> 中文学位 >基于流形学习的文本分类方法研究
【6h】

基于流形学习的文本分类方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1-1研究背景及意义

§1-2研究现状

§1-3研究内容和目标

§1-4本文的组织结构

第二章 文本分类的关键技术

§2-1文本特征生成

§2-2常用分类器介绍

§2-3分类效果评价

§2-4本章小结

第三章 流形学习方法简介

§3-1流形学习的基本概念

§3-2线性流形学习算法

§3-3非线性流形学习算法

§3-4本章小结

第四章 基于流形学习的文本分类方法

§4-1基于流形学习的文本分类模型

§4-2特征词相交距离

§4-3改进的流形学习算法

§4-4本章小结

第五章 实验及结果分析

§5-1数据集

§5-2数据降维及参数选择

§5-3实验结果

§5-4本章小结

第六章 总结与展望

§6-1总结

§6-2展望

参考文献

致谢

攻读学位期间所取得的相关科研成果

展开▼

摘要

文本分类在信息检索、文本过滤、文档组织等多个领域有着广泛的应用。在文本分类中,通常用特征词向量来表示文本数据,由于特征词较多导致文本数据的维数过高,经常达数千甚至数万。利用现有的分类方法处理这些高维的文本数据时会产生维数灾难的问题,不仅分类效率低,而且精度也不高。为此,将流形学习应用于文本分类中,利用流形学习算法对文本数据降维,获取低维数据后将其用于分类。本文主要工作如下:
  首先,提出了一种基于流形学习的文本分类方法。将流形学习应用于文本分类中,通过流形学习对待分类的文本数据做降维处理,获得的低维数据用于文本分类,低维数据的维数比原始文本数据要低得多,从而极大地提高了分类的效率。
  其次,在流形学习算法中,当在高维空间中求解近邻时,采用的欧氏距离存在失效性,不能真正地表示样本之间的相似程度,造成经流形学习算法降维后的文本数据分类精度降低。针对这一问题,提出了一种新的相似性度量措施——特征词相交距离。特征词相交距离表示的是样本中特征词相同的部分,也就是样本与样本间互相交叉的程度,它可以较好地表示样本间的相似程度。实验结果表明,特征词相交距离替换欧氏距离后的流形学习算法对文本数据降维后,所得到的低维数据用于分类时分类精度得到了极大地提高。
  最后,将夹角余弦距离和特征词相交距离相结合后形成新的距离代替欧氏距离。在实验中,将夹角余弦距离、特征词相交距离以及二者结合分别代替流形学习算法中的欧氏距离,利用距离替换后的流形学习算法对文本数据进行降维,并将降维后的低维数据用于分类。在实验中,利用的流形学习算法包括ISOMAP、LLE和LE三种算法,分类算法包括SVM、NB和KNN三种算法。实验结果表明,利用基于距离结合的流形学习方法对文本数据降维后再进行分类取得的分类效果最佳,分类精度和分类效率都得到了较大的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号