首页> 中文学位 >聚类分析及其在大类别汉字识别中的应用
【6h】

聚类分析及其在大类别汉字识别中的应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1聚类的发展及其在模式识别中的应用

1.1.1聚类的发展

1.1.2聚类在模式识别中的应用现状

1.1.3汉字识别的研究现状

1.2本文的研究工作

1.2.1本文研究的工作

1.2.2本文的结构

第二章聚类分析的方法综述

2.1聚类的定义

2.2相似性测度

2.3聚类分析中的聚类准则函数

2.3.1误差平方和准则函数法

2.3.2加权平均平方距离和准则法

2.3.3类间距离和准则

2.4聚类三步曲

2.5聚类的分类

2.5.1划分聚类

2.5.2分层聚类

2.5.3基于密度的聚类

2.5.4基于模型的聚类

2.6聚类算法的普遍问题

2.7本章小结

第三章聚类分析在大类别汉字识别中的应用

3.1三种典型的聚类算法

3.1.1 K-means算法

3.1.2 LVQ算法

3.1.3核聚类算法

3.1.4上述三种聚类算法的实验对比

3.2两种特征提取算法简介

3.2.1 Gabor特征

3.2.2梯度特征

3.3 LDA降维算法

3.4实验结果分析

3.4.1手写体汉字识别实验

3.4.2印刷体汉字识别实验

3.5本章小结

第四章两种提高汉字识别的时间和空间效率的聚类算法

4.1 Split VQ算法

4.1.1 Split VQ算法思想

4.1.2实验结果分析

4.2两级聚类算法

4.2.1两级聚类算法思想

4.2.2实验结果分析

4.3本章小结

第五章一种用于确定聚类数目的改进RPCL算法

5.1 RPCL算法的介绍

5.2改进RPCL算法的介绍和实现

5.3实验结果分析

5.3.1实验一

5.3.2实验二

5.3.3实验三

5.3.4实验四

5.4本章小结

结论

参考文献

攻读硕士学位期间取得的研究成果

致谢

评定意见

展开▼

摘要

随着科学技术的快速发展,人们可以得到越来越多的信息。但是,要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式,人们引入了聚类分析技术。今天,聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式汉字识别中的应用。 本文首先详细分析了聚类算法的思想、步骤和理论基础。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类,这些方法各有优缺点,也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验,其中,又对比了LVQ算法的改进算法MLVQ,最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率,在特征提取算法中,我们着重分析了两种特征提取算法:Gabor特征和梯度特征,实验证明梯度特征的识别效率略优于我们常用的Gabor特征,并且经由LDA降维后的特征向量识别率也有很大的提高。 由于本文是针对大类别的汉字识别,大类别样本聚类后一般产生的分类码本较大,分类时间长。这些特点阻碍了大类别汉字识别在实际应用中的推广。因此,在第四章,我们提出了运用Split VQ算法和两级聚类算法,分别从时间和空间上进行识别效率的提高,通过大量实验数据表明:这两种算法不仅能够完全保证识别正确率,还能大幅度的压缩码本存储量和降低识别时间。 传统的K-means算法要求预先设置聚类数目,在聚类数目不正确的情况下,K-means算法会产生错误的聚类结果。RPCL算法可以自动确定聚类数目,但是这种算法对学习率和遗忘率敏感。本文第五章从评价获胜者和次获胜者间的竞争实力出发,提出了一种改进的RPCL算法。实验证明,新算法可以比RPCL算法更快和方便得找到正确的聚类数目,并且改进算法不需要预先设置遗忘率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号