基于聚类算法的KNN文本分类系统研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着社会的进步和Internet高速发展，如何快速准确地获取自己所需的信息已经成为目前我们迫切需要解决的问题之一。文本分类和聚类是信息处理的重要技术，因而也成为了目前研究的热点。本文主要研究了文本分类和聚类的相关算法，分析了其中的相关技术以及难点。
　　首先，介绍了文本分类中所涉及的主要技术：文本表示、特征选择与抽取、分类算法和分类性能的评测。其次，着重剖析了KNN文本分类算法，指出其优点及不足。为了克服KNN分类器速度慢的缺陷，提出采用文本聚类对训练集样本库进行合并，将若干样本合并为少量样本中心来减少计算量。再次，介绍了几种常见的文本聚类算法。对基于划分的分类算法：k-means和k-medoids进行了深入的分析与研究，发现k-means等基于划分的聚类算法对聚类初始点选择十分敏感。应用较多的随机选取聚类初始点的方法虽然简单，但是聚类结果很不稳定，时间开销大。针对这一点，本文提出了基于文档相似度的初始化聚类中心点算法，随后通过实验验证了其优越性，并采用这种基于文档相似度的k-means聚类算法对训练集样本库进行合并。最后，本文设计并初步实现了一个基于聚类算法的快速KNN文本分类系统，通过实验验证了采用文本聚类对训练集样本库进行合并，将若干样本合并为少量样本中心，可以在保证分类准确率的情况下，大幅提高KNN文本分类器速度。

著录项

作者
王维娜;
展开▼
作者单位

海南大学;

展开▼
授予单位海南大学;
学科通信与信息系统
授予学位硕士
导师姓名康耀红;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
信息处理; 文本分类; 聚类算法; KNN文本分类器;

相似文献

中文文献
外文文献
专利

1. 基于聚类算法的KNN文本分类算法研究 [J] . 江涛 ,陈小莉 ,张玉芳 . 计算机工程与应用 . 2009,第007期
2. 基于KNN模型的藏文文本分类研究与实现 [J] . 苏慧婧1 ,群诺1 ,贾宏云1 . 高原科学研究 . 2019,第002期
3. 基于KNN算法的医药信息文本分类系统的研究 [J] . 许幸 ,张启蕊 . 计算机技术与发展 . 2009,第004期
4. 浅谈基于SVD和KNN的文本聚类算法系统 [J] . 杨小强 . 广播电视信息 . 2013,第010期
5. 基于粗糙集和模糊聚类理论的文本分类系统的研究与实现 [J] . 郑丽英 ,王海涌 ,刘丽艳 . 铁道学报 . 2007,第001期
6. 基于Rocchio和KNN提出的新的文本分类技术 [C] . 邱定 ,张激 ,王金华 . 2017年西南三省一市（贵州、重庆、四川、云南）自动化与仪器仪表学术年会 . 2017
7. 基于改进KNN分类算法的文本分类关键技术研究与实现 [A] . 袁通 . 2012

基于聚类算法的KNN文本分类系统研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅