首页> 中文学位 >复杂背景下彝文古籍文本提取方法研究
【6h】

复杂背景下彝文古籍文本提取方法研究

代理获取

目录

文摘

英文文摘

声明

第1章 绪 论

第2章 复杂背景下文本提取方法

第3章 彝文古籍中文本区域检测、定位及提取方法

第4章 实验结果与分析

第5章 结论和展望

参 考 文 献

致 谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

彝文古籍承载了彝族的古老文明,生存现状艰难,急需采用数字化手段对其保护和利用。从彝文古籍中准确提取文本是对其进行识别的重要前提。彝文古籍由于其自身特点及年代久远、退化严重,具有较复杂背景,对其中文本提取方法进行深入研究不仅有利于其保护和利用,而且可以探索复杂背景下文本提取的新思路和方法。
   本文首先介绍了复杂背景下文本提取的基本步骤,包括文本检测、文本定位和前/背景分割,并详细分析和比较了文本区域检测的各种方法,然后根据彝文古籍的特点,并针对基于边缘或纹理单一特征的检测方法的不足,提出结合边缘和纹理特征的新方法来准确检测文本区域。在此基础上,提出了彝文古籍文本提取的完整解决思路和技术方案。主要工作如下:
   首先,彝文字符大多由四个方向的笔划组成,而笔划中的像素通常具有很强的边缘,因此本文采用四个方向的Sobel算子检测边缘,并在每个边缘图上提取像素点所在局部窗口的特征;同时古籍中的文本也具有规则的纹理,本文采用小波变换分解原始图像,并在高频子图上提取像素点所在局部窗口的特征,以反应图像的细节纹理。本文将综合边缘和纹理特征以准确反映彝文古籍图像中文本特点。
   然后,对于文本和非文本像素的分类问题,本文采用基于GBDT(Gradient Boost Descent Tree)学习理论设计分类器。将Boosting学习理论与决策树进行组合,可以有效的改进决策树的准确性,并能很好地抵抗过拟合问题。同时采用决策树作为基学习器,无需对不同量纲的特征进行归一化处理,并能获得易于解释的规则集合,因此,适合于图像中文本和非文本的分类问题。
   最后,采用形态学变化和先验规则以准确定位文本区域,对文本区域先采用Wiener滤波器对其进行处理,平滑不一致背景、消除部分噪声点和加强文本与背景的对比,并采用局部阈值方法二值化。
   实验结果表明,与基于边缘或纹理单一特征的方法相比,采用综合边缘和纹理特征的方法能较大提升彝文古籍中文本区域检测的准确率。本文所提出方法能准确提取彝文古籍中文本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号