K-近邻中文文本分类方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在浩瀚的数据资源中，为了实现对特定主题的搜索或提取，文本自动分类技术已经成为目前研究的热点。K-近邻(KNN)是一种重要的文本自动分类方法，能够处理大规模数据，且具有较高的稳定性。本文在全面概述中文文本分类的基础上，对KNN中文文本分类进行了研究。全文的主要内容如下：
　　 (1)概述了文本分类的研究背景和发展现状，详细介绍了中文文本分类的一般过程和关键技术以及文本分类的质量评估的标准和方法。
　　 (2)针对KNN文本分类处理大规模数据，存在的分类速度慢的问题，提出了基于中心文档的K-KNN算法，在KNN方法的基础上，引入特征项间的语义关系，并根据语义关系进行聚类生成中心文档，减少了KNN要搜索的文档数，提高了分类速度。仿真实验表明，该算法在不损失分类精度的情况下，显著提高了分类的速度。
　　 (3)为了减小训练集中各类别资源分布不均衡对分类性能造成的影响，提出了一种处理方法，在K-KNN的基础上，利用较小的K值对训练集中的边界文本的进行多次测试，将其分到权重最大的类别中。这种方法降低了在类边界区域训练样本分布的不均匀性可能造成的测试样本误判的问题，仿真实验显示，这种方法具有很好的分类性能。

著录项

作者
鲁婷;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机软件与理论
授予学位硕士
导师姓名王浩;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 语义相似度; 数据处理; 质量评估;

相似文献

中文文献
外文文献
专利

1. 基于k-近邻方法的渐进式中文文本分类技术 [J] . 袁方 ,杨柳 ,张红霞 . 华南理工大学学报（自然科学版） . 2004,第0z1期
2. 联合局部二值模式与K-最近邻算法的高光谱图像分类方法 [J] . 赵晋陵 ,胡磊 ,严豪 . 红外与毫米波学报 . 2021,第003期
3. 基于局部分布的k-最近邻分类方法 [J] . 叶建龙 . 广东技术师范学院学报(社会科学版) . 2016,第011期
4. 基于数据块混合度量的加速K-近邻分类方法 [J] . 邓曦辉 ,赵丽 . 计算机与现代化 . 2016,第012期
5. 一种改进的快速K-近邻分类方法 [J] . 李伟 ,程利涛 . 现代计算机（普及版） . 2015,第012期
6. 基于k-近邻方法的渐进式中文文本分类技术 [C] . 袁方 ,杨柳 ,张红霞 . 第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004) . 2004
7. 基于K-最近邻、K-均值聚类和投影寻踪模式识别方法的有机物熔点的QSPR研究 [A] . 马昕 . 2018

K-近邻中文文本分类方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅