首页> 中文学位 >基于BP神经网络的印刷字符识别系统
【6h】

基于BP神经网络的印刷字符识别系统

代理获取

摘要

光学字符识别(OCR)是人类的一项琐碎任务,但要建立一个计算机程序进行字符识别是很困难的。识别这些模式仅仅是这些琐碎任务中的一件,人能很好的做到但计算机不能,主要因为是实际应用中有许多可变因素。例如,由随机变化的模式组成的噪声,特别是靠近边缘处,并且有许多噪音的字符很可能被计算机程序解释成一个完全不同的字符。另一个混乱的来源是高水平的抽象化;必须认识到有成千上万风格的常用类型和字符,其中大部分对识别程序是没有用的。这些因素以及其他因为使得这个领域非常有趣和有挑战性,这就是为什么选择这方面作为论文的研究来源。还应该提到的是:在过去几十年里,光学字符识别已成为许多研究者的研究目标,是因为它在许多不同的行业,如银行业,航运,商业,通信,市场营销,车牌识别等有重要影响。由于这一领域的重要性和美好未来,人们对这一领域的研究兴趣非常浓厚。
   光学字符识别在大约1929年开始并由古斯塔夫陶舍所做。光学字符识别,通常缩写为OCR,是图像的机械或电子转换成机器可编辑的文本。虽然,在这一领域的学术研究仍在继续,对光学字符识别的重点已转移到技术证明。用光学技术,例如光学反射镜和透镜技术的光学字符识别,用扫描仪和计算机算法的数字字符识别,起初都被认为是单独的领域,现已扩大到包括数字图像处理领域中。
   商业上,光学字符阅读器出现在20世纪50年代,从那时起,字符和文档识别技术已经提供了非常先进的产品和系统,以满足整个开发过程中的工业和商业的需要。同时,基于此项技术的企业投资到研究和开发更先进的技术。在这里我们可以看到一个良性循环,即新技术促使新的应用,以及新的应用支持开发更先进的技术。
   因此,我们认为研究和发明一个能够识别机打印字符的系统是非常有意义的。虽然,我们知道创造一个百分之百正确识别率的系统在充斥噪音和不同的字体风格的世界里很可能无法实现,因为在不同系列的特征上算法的作用普遍多于人类不同的功能设置。不过,我们仍然可以开发一个能够识别出大量样品的系统。总之,本论文提出了一个识别系统,这个系统使用功能特征提取和神经网络分类器的反向传播算法训练,可以正确识别一定数量的印刷英文字符。
   事实上,这存在着几个不同的技术来识别字符,但我们选择使用人工BP神经网络。这是因为人工神经网络在OCR中应用可以大大简化代码,提高识别质量,同时实现良好的性能。利用光学字符识别的另一个好处是神经网络系统的可扩展性,它能够识别比初始定义的更多的字符集。因此,人工神经网络(ANN)是一种奇妙的工具,有助于解决此类问题。人工神经网络,往往善于解决对于传统技术过于复杂的问题,例如,没有一个算法解决问题或对于这个问题解决方案的算法由于过于复杂而无法找到,它们是优良的模式识别器和强大的分类器。对于不同的分类问题,提供了理想的解决方案,如讲话,性格,信号识别,以及预测功能和系统建模(其中的物理过程很难理解,或者是高度复杂的),由于这些优势,所以我们选择BP神经网络作为分类器。
   该系统首先应用于二值化,是指一个灰度图像转换成二值图像,以及其他主要的预处理,通过假设输入数据有噪声。有了这个假设,然后继续寻找特征点。特征点的选择问题意味着从一整套可用的功能子集的选择,允许判别性地选择合适的子集。一个良好的特征点集的选择是分类过程的关键,如果所考虑的特征点集不包括所有的信息需求,以区分属于不同阶级的样本,不管学习算法的有效性,所达到的性能可能会不理想。
   在我们的工作中,所描述的特征点提取一共有两种方法:第一种是所谓的离散特征点提取,这种方法扫描图像的某些预先确定的点,依次检查每一个像素,同时它检查其8个邻居点,并对现有的系统有10个显着特征点的定义,这足够实现我们的目标,其优势是不会拥有太多无趣的点,使特征点提取更快和更可靠。第二种方法是所谓的分区,这需要以图像的亮度图为基础功能,划分区域中的图像,并计算每个亮度图的平均水平。
   一旦我们从特征提取中收集数据,仍然需要修复图像。其功能需要我们从特征矩阵转移到一个向量形式,以使用它作为输入向量送入神经网络来学习和分类。为了达到这个目标,需要改变矩阵的值,以适应变化的差别。这只是因为根据分类器(神经网络)每个字母都是一种模式。基本上,每个训练模式包括:两个浮点数字的一维数组的以及输入和输出(目标)阵列。输入数组包含每个特征提取方法的每个字母的特征向量表示,输出数组代表预期的反应,在输出数组系统能够识别和字符一样多的元素。因此,为了使人们认识所有的英文词汇字母,我们将需要26个输出数组元素。
   我们在所有的模式设置完毕后,加入神经网络。该网络被设计成一个使用三层S形输出功能和反向传播算法。但清晰的反向传播运行很慢,我们希望它更快。因此,我们有一些可以被设置为加快学习阶段的调整。对一些输出功能进行调整与修改,这使系统运算要求不高,其次我们依照一些技术在每一层找到适当的隐藏层和神经元的数量。进行一些测试之后,发现变量更适合我们设计的系统。随着这些都作了调整,并对网络进行有效训练,可以尝试对表现最好的训练集中识别所有的模式。
   在实验部分,用不同的样本进行了多次试验。在第一个实验中,从英语词汇所有的26个字母中选择了一个非正规的图像数据集(模糊,倾斜和洗图像),发现训练时间之间存在差异,这是因为使用离散特征接近网络所用的收敛时间比使用分区方法要长。另一个重要区别是识别率,用分区制得到85%的识别率,但是用离散特征只得到78%的识别率,略低于分区制。
   第二个实验是调查输入特征向量的大小如何会影响识别率的准确性。因此,我们尝试了四种不同的图像大小,并运用两种方法进行测试。对于离散特征方法,注意到增加特征向量的大小越多,在网络融合所花费的时间越多,而字符的识别率下降越多。至于分区方法,用同一种方法进行实验,但网络的行为结果却不同,在这种情况下,发现随着向量大小的增加,可以得到更好的识别率,直至到达一个点才开始下降。
   我们还进行了第三个实验,这一次是当我们在样本中分别添加模糊和噪声时观察网络的行为。首先,我们添加模糊特性到样本中,通过使用高斯方法对字符数据加入噪声。之后,将模糊的样本输入到系统,接着进行识别过程,正如预期的那样,用分区制和离散特征方法都增加了模糊量样本的识别率。即用分区方法也可以取得较高的识别率。在这个实验的第二部分,为了研究,如果增加噪音到样本中将得到什么样的结果,采用椒盐噪声添加到字符中。在四个运行阶段的每一步,我们都增加噪音量,这明显降低两者的识别率。我们注意到,用图像噪音并用分区的方法可得到更好的效果。
   最后,总结我们的工作,文章开始提到如何调查和对模式识别的研究,特别是光学字符识别系统,详细阐述了它的背景、定义、应用和技术。选择离散特征和分区制作为特征提取的两种方法。研究的另一项内容是分类器,选择BP神经网络,实验证明了这种网络的优越性。在达到良好的识别性能的同时能够改善质量,并使得系统更具有扩展性,能够识别比初始定义更多的字符集。
   仔细分析和研究了上述过程之后可以发现,先前提到的两个特征点提取的技术在结合神经网络分类器,对机器印刷的英文字符识别时存在差异。实验结果表明上述描述的光学字符识别系统的性能相当高。当考虑到所测试几个非正常的图像(原始的,干净的,模糊的,有噪声的图像)时,我们没有使用任何噪声滤波技术。在我们的研究中,使用分区制技术获得高达85%的识别率,用离散特征技术获得78.57%的识别率。显然,我们看到的分区制技术稍微好一点,尽管大多数实验中得知,两种技术的得到的识别率都很高。
   此外,我们对样本进行添加噪声和不同幅度模糊处理两种方法做了比较,结果显示:性能呈现一定程度下降,并对于这两种方法是令人满意的。尽管用分区制得到了更好的识别率。结果还表明:使用神经网络设计光学字符识别系统,发现面向对象模型是适当的和有益的。
   未来的研究工作包括用更多的样本数据进一步对字符识别系统进行测试。另外,还可以通过结合上面提到的两种特征提取方法改进系统,以提高识别能力和获得更好的学习过程。往后还将尝试使用不同的学习算法提高系统的适应性和健壮性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号