基于密度的样本裁剪算法的改进及在kNN中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的飞速发展和迅速普及，人们可以方便快捷地获得大量的信息。
　　然而，在浩瀚的信息海洋里，如何快速准确地找到所需要的信息已经成为人们不得不面对的现实问题。因此，海量信息的组织管理和高效利用已经成为急需解决的问题。目前，大多数信息表现为文本形式，为了有效利用这些文本信息，对它们进行高效、合理的分类是非常必要的。所以，文本分类已经成为处理大量文本信息的关键技术，并已成为数据挖掘领域中一个重要的研究方向。
　　本文对文本分类及其相关技术进行了研究。首先介绍了文本分类的发展概况和文本分类过程中的相关技术，重点介绍了文本预处理、文本的表示、文本特征向量的提取、特征向量的加权、文本分类的经典算法kNN（k nearest neighbor)、训练样本裁剪算法以及文本分类效果评估等；其次，分析了kNN 算法和训练样本裁剪算法的不足并对其做出了改进。本文研究内容和创新工作主要包括以下两大方面：
　　第一，对训练样本裁剪算法进行改进。在文本分类中，训练集的分布状态会直接影响kNN 分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法，发现它存在两大不足：一是裁减之后的均匀状态只是以e 为半径的球形区域意义上的均匀状态，而非最理想的均匀状态即两两样本之间的距离相等；二是未对低密度区域的样本做任何处理，裁减之后仍存在大量不均匀的区域。
　　针对这两处不足，提出了以下两点改进：一是优化了裁减策略，使裁减之后的训练集更趋于理想的均匀状态；二是实现了对低密度区域样本的补充。通过实验表明，改进后的算法在稳定性和准确率方面都有明显提高。
　　第二，对kNN算法进行改进。原始kNN 算法中最佳k值的确定目前还没有很好的方法，一般采用先设定一个初始值（一般为几百到几千之间），然后根据实验测试的结果来不断的调整k 值。这不利于kNN算法在实际中的推广应用。针对这种不足，本文在基于密度的训练样本裁剪算法的基础上提出一种改进算法。改进算法的基本思路是：在给定新文本后，考虑训练文本集中，属于该新文本的e邻域的k篇文本，根据这k篇文本所属的类别判定新文本所属的类别。通过实验表明，改进算法较好的解决了kNN算法中参数k 取值的问题，同时，在时间效率上也要优于原始kNN算法。在分类效果上，改进算法跟原始kNN 算法基本一致。

著录项

作者
杨营辉;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名熊忠阳;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本信息; kNN算法; 快速分类; 样本裁剪算法; 数据挖掘; 裁减策略;

相似文献

中文文献
外文文献
专利

1. 基于密度的kNN分类器训练样本裁剪方法的改进 [J] . 熊忠阳 ,杨营辉 ,张玉芳 . 计算机应用 . 2010,第003期
2. 基于密度的KNN分类器样本裁剪算法 [J] . 苟和平 ,景永霞 ,冯百明 . 佳木斯大学学报（自然科学版） . 2013,第002期
3. 基于聚类和密度裁剪的改进KNN算法 [J] . 王艳飞 ,郝卫杰 ,范支菊 . 青岛大学学报（自然科学版） . 2017,第002期
4. 基于密度的kNN文本分类器训练样本裁剪方法 [J] . 李荣陆 ,胡运发 . 计算机研究与发展 . 2004,第004期
5. 基于冗余度的KNN训练样本裁剪新算法 [J] . 王子旗 ,何锦雯 ,蒋良孝 . 计算机工程与应用 . 2019,第022期
6. 基于粗糙集和分布密度理论的KNN分类样本选取方法 [C] . 刘毅 ,杨燕 . 2006年全国信息、电子与控制技术学术会议(IECT'2006) . 2006
7. 基于聚类和密度裁剪的改进KNN算法 [A] . 王艳飞 . 2018

基于密度的样本裁剪算法的改进及在kNN中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅