聚类分析及其在大类别汉字识别中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科学技术的快速发展，人们可以得到越来越多的信息。但是，要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式，人们引入了聚类分析技术。今天，聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式汉字识别中的应用。本文首先详细分析了聚类算法的思想、步骤和理论基础。目前，已经提出了很多的聚类算法，它们基本上可以分为以下几种方法：基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类，这些方法各有优缺点，也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验，其中，又对比了LVQ算法的改进算法MLVQ，最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率，在特征提取算法中，我们着重分析了两种特征提取算法：Gabor特征和梯度特征，实验证明梯度特征的识别效率略优于我们常用的Gabor特征，并且经由LDA降维后的特征向量识别率也有很大的提高。由于本文是针对大类别的汉字识别，大类别样本聚类后一般产生的分类码本较大，分类时间长。这些特点阻碍了大类别汉字识别在实际应用中的推广。因此，在第四章，我们提出了运用Split VQ算法和两级聚类算法，分别从时间和空间上进行识别效率的提高，通过大量实验数据表明：这两种算法不仅能够完全保证识别正确率，还能大幅度的压缩码本存储量和降低识别时间。传统的K-means算法要求预先设置聚类数目，在聚类数目不正确的情况下，K-means算法会产生错误的聚类结果。RPCL算法可以自动确定聚类数目，但是这种算法对学习率和遗忘率敏感。本文第五章从评价获胜者和次获胜者间的竞争实力出发，提出了一种改进的RPCL算法。实验证明，新算法可以比RPCL算法更快和方便得找到正确的聚类数目，并且改进算法不需要预先设置遗忘率。

著录项

作者
杨军;
展开▼
作者单位

华南理工大学;

展开▼
授予单位华南理工大学;
学科通信与信息系统
授予学位硕士
导师姓名金连文;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
聚类分析算法; 大类别; 汉字识别; 聚类算法; 梯度特征; 提取算法; 聚类数; 改进算法; 数据挖掘; 模式识别; 实验; 遗忘率; 识别率; 方法; 识别正确率; 证明; 应用; 样本聚类; 选取; 效率;

相似文献

中文文献
外文文献
专利

1. 潜类别分析原理及其在聚类分析中的应用 [J] . 孟灿 ,武俊青 ,李玉艳 . 中国卫生统计 . 2010,第003期
2. 聚类分析法在临盘油田大芦家沙二下层系细分中的应用 [J] . 曹增辉 ,王会东 ,张竹林 . 内江科技 . 2010,第011期
3. 环流型聚类分析及其在贵阳地区5—6月大—暴雨短期预防中的应用 [J] . 田淑珍 ,雷云 . 贵州气象 . 1991,第002期
4. 潜在类别与潜在类别因子分析在异质性群体分类中的比较及应用 [J] . 李观海 ,赵丽 ,邓凯升 . 广东药学院学报 . 2020,第001期
5. 潜在类别与潜在类别因子分析在异质性群体分类中的比较及应用 [J] . 李观海 ,赵丽 ,邓凯升 . 广东药科大学学报 . 2020,第001期
6. 浅析汉字识别技术在档案管理中的应用 [C] . 特古斯朝克图 . 第六次华北地区档案学会学术讨论会 . 2010
7. 小类别无限制手写体汉字识别研究 [A] . 朱宁波 . 2004

聚类分析及其在大类别汉字识别中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅