首页> 中文学位 >K-近邻中文文本分类方法的研究
【6h】

K-近邻中文文本分类方法的研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章 绪 论

1.1 课题的研究背景和意义

1.2 文本分类的基本概念

1.2.1数据挖掘及文本挖掘的概念

1.2.2文本分类的定义

1.2.3文本分类算法的类型

1.3 文本分类的发展和研究现状

1.4 本文组织和安排

第二章 KNN中文文本自动分类技术

2.1 中文文本分类技术的一般过程

2.2 特征选取算法

2.2.1文档频率

2.2.2信息增益

2.2.3互信息

2.2.4 χ2检验

2.2 分类算法

2.4 质量评估方法

2.5 本章小结

第三章 K-KNN:基于中心文档的KNN中文文本分类算法

3.1 引言

3.2文本表示与相似度的相关概念

3.2.1向量空间模型

3.2.2相似度计算

3.3 基于知网的词语相似度

3.3.1词语相似度与距离

3.3.2知网及词语相似度计算

3.4 K-KNN:基于中心文档的KNN分类

3.4.1聚类中心文档

3.4.2文档间相似度计算

3.4.3算法描述

3.5 实验结果与分析

3.6 本章小结

第四章 基于KNN训练样本集不均衡的一种处理方法

4.1 引言

4.2 训练样本集不均对分类结果的影响

4.3 基于较小K值分类相交类别文本算法

4.3.1算法有效性分析

4.3.2边界文本及其判定方法

4.3.3算法描述

4.4 实验结果与分析

4.5 本章小结

第五章 总结与展望

5.1 本文主要工作总结

5.2 进一步的研究工作

参考文献

攻读硕士学位期间发表的学术论文

展开▼

摘要

在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。K-近邻(KNN)是一种重要的文本自动分类方法,能够处理大规模数据,且具有较高的稳定性。本文在全面概述中文文本分类的基础上,对KNN中文文本分类进行了研究。全文的主要内容如下:
   (1)概述了文本分类的研究背景和发展现状,详细介绍了中文文本分类的一般过程和关键技术以及文本分类的质量评估的标准和方法。
   (2)针对KNN文本分类处理大规模数据,存在的分类速度慢的问题,提出了基于中心文档的K-KNN算法,在KNN方法的基础上,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。
   (3)为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,提出了一种处理方法,在K-KNN的基础上,利用较小的K值对训练集中的边界文本的进行多次测试,将其分到权重最大的类别中。这种方法降低了在类边界区域训练样本分布的不均匀性可能造成的测试样本误判的问题,仿真实验显示,这种方法具有很好的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号