首页> 中文学位 >一种基于特征选择的层次化文本分类算法
【6h】

一种基于特征选择的层次化文本分类算法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状与热点

1.3 论文主要研究内容

1.4 论文组织结构

第2章 相关理论与技术

2.1 层次化文本分类描述

2.2 特征选择算法

2.3 SVM理论

2.4 本章小结

第3章 基于特征选择的层次化文本分类

3.1 文本的相关度和冗余度的描述及定义

3.2 特征选择算法rrHTC描述及分析

3.3 SVM算法改进及分析

3.4 本章小结

第4章 实验验证与结果分析

4.1 分类效果评价体系

4.2 实验环境及内容介绍

4.3 实验验证及结果分析

4.3 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。
  本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号