首页> 中文学位 >基于可信最邻近分类器的文本分类的研究
【6h】

基于可信最邻近分类器的文本分类的研究

代理获取

目录

文摘

英文文摘

声明

致谢

1引言

1.1研究背景及意义

1.2国内外研究现状

1.3课题研究的主要内容

1.4各章内容提要

2文本分类及聚类综述

2.1文本分类

2.1.1文本分类概述

2.1.2文本的特征表示

2.1.3文本特征选择

2.1.4文本分类器性能指标

2.2聚类分析

3随机性理论与可信度

3.1随机性理论

3.2置信度理论

3.2.1置信度的含义

3.2.2置信学习机器实现的一般方法

4直推式可信最邻近分类算法及其改进

4.1最邻近分类算法

4.2直推式可信最邻近算法

4.2.1 随机性检测函数的确定

4.2.2 TCM-NN算法

4.3改进的TCM-NN算法

4.3.1基于层次聚类的K-means算法

4.3.2改进后的TCM-NN算法

4.3.3 K值的确定

4.4在文本分类中的应用

4.4.1文本预处理

4.4.2分类过程及结果

5结论与展望

5.1全文总结

5.2问题与不足

参考文献

作者简历

展开▼

摘要

直推式可信最邻近分类器(TCM-NN)是基于算法随机性理论提出的一种新的分类算法,它不仅能够判断样本的类别,还能够为每一个判断提供可信度,这对于分类机器的应用是很有意义的。但因为这种分类器需要将每一个待分类样本逐一在所有的类别中进行计算,使得计算量大大的增加。这一点对于多类别和大数据量的文本分类尤为明显。本文在深入研究该算法的基础上,利用聚类分析对其进行了改进,并将这一算法及其改进后的算法用在文本分类中。实验表明改进后的算法和原算法相比准确率相近,但在计算速度上有了大幅度的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号