复杂背景下彝文古籍文本提取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

彝文古籍承载了彝族的古老文明，生存现状艰难，急需采用数字化手段对其保护和利用。从彝文古籍中准确提取文本是对其进行识别的重要前提。彝文古籍由于其自身特点及年代久远、退化严重，具有较复杂背景，对其中文本提取方法进行深入研究不仅有利于其保护和利用，而且可以探索复杂背景下文本提取的新思路和方法。
　　本文首先介绍了复杂背景下文本提取的基本步骤，包括文本检测、文本定位和前/背景分割，并详细分析和比较了文本区域检测的各种方法，然后根据彝文古籍的特点，并针对基于边缘或纹理单一特征的检测方法的不足，提出结合边缘和纹理特征的新方法来准确检测文本区域。在此基础上，提出了彝文古籍文本提取的完整解决思路和技术方案。主要工作如下：
　　首先，彝文字符大多由四个方向的笔划组成，而笔划中的像素通常具有很强的边缘，因此本文采用四个方向的Sobel算子检测边缘，并在每个边缘图上提取像素点所在局部窗口的特征；同时古籍中的文本也具有规则的纹理，本文采用小波变换分解原始图像，并在高频子图上提取像素点所在局部窗口的特征，以反应图像的细节纹理。本文将综合边缘和纹理特征以准确反映彝文古籍图像中文本特点。
　　然后，对于文本和非文本像素的分类问题，本文采用基于GBDT(Gradient Boost Descent Tree)学习理论设计分类器。将Boosting学习理论与决策树进行组合，可以有效的改进决策树的准确性，并能很好地抵抗过拟合问题。同时采用决策树作为基学习器，无需对不同量纲的特征进行归一化处理，并能获得易于解释的规则集合，因此，适合于图像中文本和非文本的分类问题。
　　最后，采用形态学变化和先验规则以准确定位文本区域，对文本区域先采用Wiener滤波器对其进行处理，平滑不一致背景、消除部分噪声点和加强文本与背景的对比，并采用局部阈值方法二值化。
　　实验结果表明，与基于边缘或纹理单一特征的方法相比，采用综合边缘和纹理特征的方法能较大提升彝文古籍中文本区域检测的准确率。本文所提出方法能准确提取彝文古籍中文本。

著录项

作者
肖荣;
展开▼
作者单位

中南民族大学;

展开▼
授予单位中南民族大学;
学科计算机应用技术
授予学位硕士
导师姓名覃俊;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
复杂背景; 文本提取; 文本检测; 边缘检测;

相似文献

中文文献
外文文献
专利

1. 浅析信息社会背景下彝文古籍的保护与利用——彝文古籍数字化 [J] . 吉木友色 . 科技资讯 . 2012,第005期
2. 复杂背景下的图像文本区域定位方法研究 [J] . 周翔 ,陈会 ,张锴 . 计算机工程与应用 . 2013,第012期
3. 论“摩史”在彝族民间信仰中的地位和作用——基于彝文古籍《摩史苏》的文本分析与田野调查 [J] . 王俊 ,吴勰 ,罗沁 . 毕节学院学报 . 2014,第002期
4. 复杂背景下的粉笔数字字符自动提取方法研究 [J] . 吴炜 ,骆剑承 ,胡晓东 . 计算机应用研究 . 2009,第010期
5. 复杂背景下的车辆牌照字符提取方法研究 [J] . 权炜 ,郑南宁 ,贾新春 . 信息与控制 . 2002,第1期
6. 楚雄彝族自治州图书馆彝文古籍文献资源数字化建设与策略 [C] . 代海燕 ,赵梓燚 . 第十五次全国民族地区图书馆学术研讨会 . 2018
7. 复杂背景下文本提取方法研究及其应用 [A] . 张引 . 1999

复杂背景下彝文古籍文本提取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅