一种基于特征选择的层次化文本分类算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。
　　本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。

著录项

作者
史良;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机软件与理论
授予学位硕士
导师姓名张健沛;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本分类; 层次结构; rrHTC算法; 不均衡数据集; SVM-KNN算法; 特征选择;

相似文献

中文文献
外文文献
专利

1. 基于特征选择和深度信念网络的文本情感分类算法 [J] . 向进勇 ,杨文忠 ,吾守尔·斯拉木 . 计算机应用 . 2019,第007期
2. 智能搜索中基于特征选择和贝叶斯的文本分类算法浅析 [J] . 杨小强 . 广播电视信息 . 2013,第008期
3. 改进的基于层次距离的基因表达式编程特征选择分类算法 [J] . 湛航 ,何朗 ,黄樟灿 . 计算机应用 . 2021,第009期
4. 一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法 [J] . 李青 ,陈阳 ,谢浩然 . 计算机工程与科学 . 2012,第001期
5. 一种基于特征选择的不平衡数据分类算法 [J] . 肖鹰 ,吴哲夫 ,张彤 . 集成技术 . 2016,第001期
6. hRIPPER:一种基于层次规则学习的文本分类算法 [C] . 杨敏 ,杜小勇 . 第二十二届中国数据库学术会议 . 2005
7. 基于KNN的文本分类特征选择与分类算法的研究与改进 [A] . 黄娟娟 . 2014

一种基于特征选择的层次化文本分类算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅