首页> 中文学位 >古籍手写汉字图像分割算法研究
【6h】

古籍手写汉字图像分割算法研究

代理获取

摘要

文本图像的分割对于进行正确的单字提取和字符识别有着重大的影响和使用价值,而古籍手写汉字图像分割更是古籍汉字识别过程中的难点。同时古籍手写汉字图像的分割对开展古籍文物研究、文献研究及文字研究工作具有十分重要的价值。由于古籍汉字资料保存时间久远,大量存在纸张变色、破损、文字残缺等现象,导致古籍手写汉字图像噪声很大,处理难度很大。现有的大多数预处理及单字切分算法多以印刷文本图像为处理对象,在对古籍手写汉字图像进行处理时往往效果欠佳。因此,论文根据古籍手写汉字分割的要求对现有的方法进行改进,并设计了新的文本图像处理方法,以期得到满意的单字图像分割结果。
   在参与对敦煌遗书等古籍进行研究的社科基金项目的过程中,分析了古籍手写汉字图像的特点和复杂性,在阈值分割、连通域标记和基于偏微分方程的目标轮廓提取等理论与算法的基础上,对古籍手写汉字图像的分割问题进行了深入的研究。主要内容有:
   ①针对单纯采用全局阈值法或局部阈值法对图像进行分割时的不足,提出了整体阈值与局部阈值相结合的二次OTSU算法。算法综合考虑全局阈值与局部阈值来确定各像素点的阈值。与单纯采用全局阈值法和单纯采用局部阈值法相比,该算法在克服了以上两种算法的缺点的同时,继承了以上两种算法的优点,既考虑到了局部图像的特殊性,也兼顾了整个图像的整体性。通过实验证明,这种方法很好地将全局阈值的概括性与局部阈值的针对性结合了起来,能够取得明显优于原来两种算法的处理结果,这给后续的字符切分打下了良好的基础。
   ②针对传统连通域标记算法需要多次扫描才能完成像素标记,运算时间较长的缺点,提出了快速非递归连通域生成及合并算法。算法对二值图像只需进行一次扫描,对需要识别的目标进行标记,遇到分叉时即进行连通域的合并。因此,在扫描过程中就可得到已扫描区域中的连通域,一次扫描后,无需再进行任何处理,就得到了二值图像的连通域的正确划分。实验证明,算法对于简单图像、一次分叉图像、多次分叉图像、连通域相互包含的图像,都可以J下确、快速地进行连通域的标记处理。
   ③应用快速非递归连通域生成及合并算法,设计了基于连通域特征的去噪去边框算法,及基于连通域并结合方块字特征进行单字切分的算法。并进一步采用局部投影法进行粘连字的切分。对应用快速连通域标记算法进行手写汉字图像处理的算法都进行了实验及结果分析。实践证明算法对手写汉字图像进行连通域生成、去噪、去边框及单字切分效果良好。
   ④针对传统C-V主动轮廓模型达到稳定状态所需的迭代次数过多,对图像的尺寸比较敏感的缺点,提出了局部C-V主动轮廓模型快速图像分割算法。算法对图像进行预先的分块,将各分块单独作为输入图像以C-V模型算法进行分割处理。实验证明,算法在保证处理效果的前提下速度上得到了极大的提高。
   ⑤根据手写汉字每个汉字单独成块的特点,提出了窄带快速C-V手写汉字图像分割方法。算法首先采用阈值法对汉字进行初步的分割,再利用汉字图像的连通域信息,进行汉字图像轮廓标记及窄带的构造,进一步进行基于窄带C-V模型的手写汉字图像分割。实验表明,采用窄带法对手写汉字进行分割,能够保留更多的文字细节,更加真实自然,同时处理速度进一步提高,有利于对文字进行后续的分析研究。
   综合本文提出的各种手写汉字图像分割算法,设计出了对手写汉字图像进行分割处理的完整的算法流程。对灰度化的手写汉字图像采用二次OTSU算法,对整幅图像进行二值化处理。接着采用非递归快速连通域算法,标记出图像的连通域情况。根据手写汉字的特点,进行去边框、去噪及单个汉字的分割操作。根据连通域情况初步分割出单个汉字后,再从原灰度图像中的对应位置取出小图像,采用OTSU算法进行二值化,以避免由于一个汉字处理不同区域采用不同阈值造成的差异。对以此方法得到的二值化图像进行轮廓标记。对每个单个汉字的原图像区域,以刚得到的轮廓为窄带划分的依据,采用前述的窄带C-V算法,进行汉字图像的细致分割。
   采用本文所提出的一系列算法对古籍手写汉字图像进行分割,能在提高处理效率的同时得到良好的分割效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号