首页> 中国专利> 一种基于多光谱成像技术的低质量文档图像二值化方法

一种基于多光谱成像技术的低质量文档图像二值化方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于多光谱成像技术的低质量文档图像二值化方法，包括读取多光谱图像、光谱分量图像阈值化、目标检测和阈值图像融合处理等四步骤；与其它经典的文档图像二值化方法相比，无论是从输出图像质量，还是算法性能指标，本发明提出的基于多光谱成像技术的低质量文档图像二值化方法，都要具有明显优势，在较好保留字符笔画细节的同时，能够有效抑制墨迹浸润、页面污渍、纹理背景和光照不均等现象。

著录项

公开/公告号CN106295648A

专利类型发明专利
公开/公告日2017-01-04

原文格式PDF
申请/专利权人湖北工业大学;
展开▼

申请/专利号CN201610613720.4
发明设计人熊炜;李敏;徐晶晶;赵诗云;赵楠;刘敏;王改华;吴俊驰;刘小镜;
展开▼

申请日2016-07-29
分类号G06K9/38;G06K9/46;G06T7/00;
代理机构武汉科皓知识产权代理事务所(特殊普通合伙);
代理人魏波
地址 430068 湖北省武汉市武昌区南湖李家墩1村1号
入库时间 2023-06-19 01:16:00

法律信息

法律状态公告日

法律状态信息

法律状态
2019-03-19

授权

授权
2017-02-01

实质审查的生效 IPC(主分类):G06K9/38 申请日:20160729

实质审查的生效
2017-01-04

公开

公开

说明书

技术领域

本发明属于数字图像处理、模式识别与机器学习技术领域，特别是涉及一种基于多光谱成像(MSI)技术的低质量文档图像二值化方法。

背景技术

历史文献数字化是指利用现代信息技术对古籍文献进行加工处理，使其转化为电子数据形式，通过光盘、网络等介质保存和传播。历史文献数字化是对古籍或古籍内容的再现和加工，是古籍再生性保护的重要手段。

目前，古籍文献图像处理方面的问题已经引起了许多研究者的关注，学术界也提出了多种文档图像处理方法，可大致分为两类：基于灰度图像和基于多光谱成像(MSI)技术的处理方法。

基于灰度图像的处理方法使用阈值分割技术提取前景文字，并实现文档背景分离，通过两者融合以恢复原始文档内容。然而，受图像对比度、墨迹浸润、页面污渍或光照不均等因素的影响，使得针对灰度或彩色低质量文档图像的处理具有极大的挑战。

基于MSI技术的处理方法主要是以目标对不同波长光线的吸收存在差异为原理，通过对目标在一组特定波长范围中的光强度变化来实现检测、识别等应用需求。随着多光谱成像技术的不断提高，其应用范围也在不断扩大，尤其在军事、遥感、医学、农业以及安检等领域都有着重要的应用。

近年来，MSI技术已成功应用于艺术品研究和古籍手稿转录等领域，是非常重要的历史文献分析工具，它允许研究人员在不损毁目标的前提下，尽可能多地获取有价值信息。由于同时使用紫外、红外、可见光等多个光谱，该技术被称为非侵入式研究方法。通过MSI技术可以揭示人为篡改或手写注释区域、鉴别油墨的化学成份、增强文字笔画的可见性、检测历史文献中的退化迹象等，也有助于了解人类的文化传承(这些是使用传统的彩色摄影所无法达到的)。

从多光谱文档图像中提取原始文本，即多光谱文档图像二值化，是一个非常重要的步骤，它直接影响后续文档分析与识别(DAR)系统的性能。为了提高历史文档图像中弱笔画与复杂背景间的对比度，研究人员提出了一系列方法，例如主成分分析法(PCA)、独立成分分析法(ICA)、线性判别分析法(LDA)、约束能量最小化法(CEM)、自适应匹配滤波器法(AMF)等。为了实现历史文档图像二值化，研究人员还提出了许多其它方法，如卷积神经网络法(CNN)、高斯混合建模法(GMM)、背景估计法、马尔可夫随机场法(MRF)、比特平面切分法、判别结构分类法、轮廓波变换法(CT)、局部对比度法、拉普拉斯能量法等。

发明内容

本发明的目的在于提供一种基于多光谱成像(MSI)技术的低质量文档图像二值化方法。

本发明所采用的技术方案是：一种基于多光谱成像技术的低质量文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：读取待处理文档的多光谱图像，并做线性归一化处理，获得到光谱分量图像；

步骤2：对光谱分量图像进行阈值化处理；包括局部对比度增强处理、高对比度像素检测处理、笔画宽度估计处理和局部精细二值化处理；

步骤3：目标检测；包括对步骤2中处理后的光谱分量图像进行光谱图像特征提取、估计自适应相干图像、基于梯度算子的图像阈值化和消除误判处理；

步骤4：阈值图像融合处理；包括二值图像融合和图像后处理。

作为优选，步骤1中所述获得到光谱分量图像，包括1个紫外光谱(340nm)、3个可见光谱(500nm、600nm、700nm)和4个红外光谱(800nm、900nm、1000nm、1100nm)。

作为优选，步骤1中所述线性归一化处理，计算公式如下：

$I^{'} (x, y) = \frac{I (x, y) - I_{m i n}}{I_{\max} - I_{m i n}},$

其中，I(x,y)和I′(x,y)分别表示归一化前、后的图像灰度值，I_max和I_min分别表示光谱分量图像的灰度最大值和最小值。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：对光谱分量图像进行局部对比度增强处理，计算公式如下：

$C (x, y) = \frac{I_{m a x} (x, y) - I_{m i n} (x, y)}{I_{\max} (x, y) + I_{m i n} (x, y)},$

其中，C(x,y)表示图像的局部对比度，I_max(x,y)和I_min(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的灰度最大值和最小值；

步骤2.2：对于步骤2.1的输出图像进行高对比度像素检测处理；

对于步骤2.1的输出图像，记t∈[0,L-1]为图像前景与背景的分割阈值，L为灰度级分辨率；如果前景像素占图像比例前景像素平均灰度值背景像素占图像比例背景像素平均灰度值则图像的总体平均灰度值为其中，p_i表示归一化直方图；

定义前景和背景图像的类间方差为：

$σ_{B}^{2} (t) = ω_{0} (t) {[μ_{0} (t) - μ_{T}]}^{2} + ω_{1} (t) {[μ_{1} (t) - μ_{T}]}^{2} = ω_{0} (t) ω_{1} (t) {[μ_{0} (t) - μ_{1} (t)]}^{2},$

实现高对比度像素检测的准则是，通过确定全局最优阈值t₀，使分割后的前景和背景差异最大，即：

步骤2.3：基于步骤2.2检测出的高对比度像素进行笔画宽度估计处理；

步骤2.3.1：基于步骤2.2检测出的高对比度像素，利用Canny算子对图像进行边缘检测，每个边缘像素点p都具有一个方向梯度值dp；

步骤2.3.2：如果像素点p位于笔画边缘，计算p的方向梯度dp，并沿着射线r＝p±n×dp(n≥0)梯度查找与之对应的另一个边缘像素点q，计算q的方向梯度dq，dp与dq的方向是大致相反的，即：

步骤2.3.3：执行下述判断；

如果边缘像素点p找不到对应匹配的q或者其方向梯度dp与dq不满足大致相反的要求，则舍弃该射线r；

如果边缘像素点p找到对应匹配的q或者其方向梯度dp与dq满足大致相反的要求，则在[p,q]路径上的每个像素点都指定为笔画宽度属性值，即欧式距离dist＝||p-q||，除非该像素点已经被指定了一个更小的笔画宽度属性值；

步骤2.3.4：重复步骤2.3.2，直到计算出所有未被舍弃路径上的像素笔画宽度值，并统计其分布直方图H(dist)，则笔画宽度估计为：SWE＝argmax[H(dist)]；

步骤2.4：基于步骤2.3估计的字符笔画宽度进行局部精细二值化处理；

基于步骤2.3估计的字符笔画宽度确定滑动邻域窗尺寸，从而实现字符前景与页面背景的精细分割，具体公式为：

其中，为w×w邻域内检测出的高对比度像素总数，为w×w邻域内由文档字符笔画宽度确定的最少像素下限值，I(x,y)为图像(x,y)处的灰度值，μ_w(x,y)和σ_w(x,y)分别表示以(x,y)为中心的w×w邻域内光谱分量图像的灰度平均值和标准偏差，B₀(x,y)表示获得的二值图像。

作为优选，步骤3的具体实现包括以下子步骤：

步骤3.1：基于步骤2中处理后的光谱分量二值图像B₀(x,y)进行光谱图像特征提取处理；

步骤3.1.1：基于步骤2中处理后的光谱分量二值图像B₀(x,y)估计多光谱图像前景像素灰度平均值μ_FG、背景像素灰度平均值μ_BG及其差值Δ＝μ_FG-μ_BG；

步骤3.1.2：计算多光谱图像背景像素间的协方差矩阵：

Σ＝E[(I-μ_BG)^T(I-μ_BG)]，

其中，I表示多光谱图像灰度矩阵，T表示矩阵转置，E表示数学期望；

步骤3.1.3：估计其广义逆矩阵Σ^-1，使同时满足以下条件：

步骤3.2：估计自适应相干图像；

基于步骤3.1提取的多光谱图像特征，估计自适应相干图像计算公式为：

$\hat{I} (x, y) = \frac{{[{(I - μ_{B G})}^{T} Σ^{- 1} (μ_{F G} - μ_{B G})]}^{2}}{[{(I - μ_{B G})}^{T} Σ^{- 1} (I - μ_{B G})] [{(μ_{F G} - μ_{B G})}^{T} Σ^{- 1} (μ_{F G} - μ_{B G})]},$

并将其动态范围限制在[0,1]之间，即：

步骤3.3：基于梯度算子的图像阈值化；

步骤3.2输出图像在位置(x,y)处的梯度定义为：

$▿ \hat{I} (x, y) = {[G_{x}^{2} + G_{y}^{2}]}^{1 / 2} \approx | G_{x} | + | G_{y} |,$

其中，和分别表示图像沿x和y方向的一阶导数；

针对梯度图像进行高对比度像素检测处理、笔画宽度估计处理和局部精细二值化处理，获得二值化输出图像B₁(x,y)；

步骤3.4：消除误判处理；

步骤3.4.1：基于步骤3.2估计的自适应相干图像进行全局最优阈值化处理，得到二值图像B₁′(x,y)；

步骤3.4.2：将二值图像B₀(x,y)和B₁′(x,y)同时标记为前景的像素点视为真正的前景像素TP，并以此删除B₀(x,y)中所有的伪前景点，得到二值图像B₂(x,y)：

其中，为w×w邻域内检测出的TP前景像素总数，为w×w邻域内预先确定的TP像素下限值。

作为优选，步骤4的具体实现包括以下子步骤：

步骤4.1：二值图像融合；

针对二值图像B₁(x,y)和B₂(x,y)，采用以下公式进行二值图像融合：

其中，B(x,y)为融合后的二值图像；

步骤4.2：图像后处理

去除字符笔画边缘少于10个像素的椒盐噪声，并填充字符笔画内部少于10个像素的笔画空洞。

本发明与现有技术相比，其显著优点在于：

①通过多光谱图像采集系统获取历史文献的多光谱图像，比传统灰度或彩色图像包含更多有价值信息，可用于鉴别原始文本或人为批注、提高弱笔画的可见性、检测文档背景及退化迹象等；

②对某一特定频谱的分量图像采用局部对比度增强和笔画宽度估计的方法进行阈值化处理，并由此提取多光谱图像的特征性状参数，从而实现自我参考，无需指定外界参考点；

③采用自适应相干估计(ACE)实现非线性目标检测算法，其性能优于线性的CEM和AMF等方法。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于多光谱成像(MSI)技术的低质量文档图像二值化方法，主要包括以下步骤：

步骤1：读取多光谱图像；

读取待处理文档的多光谱图像，包括1个紫外光谱(340nm)、3个可见光谱(500nm、600nm、700nm)和4个红外光谱(800nm、900nm、1000nm、1100nm)，并做线性归一化处理，计算公式如下：

$I^{'} (x, y) = \frac{I (x, y) - I_{m i n}}{I_{\max} - I_{m i n}},$

其中，I(x,y)和I′(x,y)分别表示归一化前、后的图像灰度值，I_max和I_min分别表示各光谱分量图像的灰度最大值和最小值。

步骤2：光谱分量图像阈值化；

2.1局部对比度增强；

本发明定义图像的局部对比度为：

$C (x, y) = \frac{I_{m a x} (x, y) - I_{m i n} (x, y)}{I_{\max} (x, y) + I_{m i n} (x, y)},$

其中，I_max(x,y)和I_min(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的灰度最大值和最小值。

2.2高对比度像素检测；

对于步骤2.1的输出图像，记t∈[0,L-1]为图像前景与背景的分割阈值，L为灰度级分辨率。如果前景像素占图像比例前景像素平均灰度值背景像素占图像比例背景像素平均灰度值则图像的总体平均灰度值为其中，p_i表示归一化直方图。

定义前景和背景图像的类间方差为：

$σ_{B}^{2} (t) = ω_{0} (t) {[μ_{0} (t) - μ_{T}]}^{2} + ω_{1} (t) {[μ_{1} (t) - μ_{T}]}^{2} = ω_{0} (t) ω_{1} (t) {[μ_{0} (t) - μ_{1} (t)]}^{2},$

实现高对比度像素检测的准则是，通过确定全局最优阈值t₀，使分割后的前景和背景差异最大，即：

2.3笔画宽度估计；

①基于步骤2.2检测出的高对比度像素，其大多位于字符笔画边缘附近，利用Canny算子对图像进行边缘检测，得到每个边缘像素点p都具有一个方向梯度值dp；

②如果像素点p位于笔画边缘，其方向梯度dp一定大致垂直于笔画方向，沿着射线r＝p±n×dp(n≥0)梯度查找与之对应的另一个边缘像素点q，那么dp与dq的方向是大致相反的，即此时会出现两种情况：

(1)如果边缘像素点p找不到对应匹配的q或者其方向梯度dp与dq不满足大致相反的要求，则舍弃该射线r；

(2)如果找到满足要求的边缘像素点q，那么在[p,q]路径上的每个像素点都被指定为笔画宽度属性值，即欧式距离dist＝||p-q||，除非该像素点已经被指定了一个更小的笔画宽度属性值。

③重复步骤②，直到计算出所有未被舍弃路径上的像素笔画宽度值，并统计其分布直方图H(dist)，则笔画宽度估计SWE＝argmax[H(dist)]。

2.4局部精细二值化；

基于步骤2.3估计的字符笔画宽度确定滑动邻域窗尺寸，从而实现字符前景与页面背景的精细分割，具体公式为：

其中，为w×w邻域内检测出的高对比度像素总数，为w×w邻域内由文档字符笔画宽度确定的最少像素下限值，I(x,y)为图像(x,y)处的灰度值，μ_w(x,y)和σ_w(x,y)分别表示以(x,y)为中心的w×w邻域内光谱分量图像的灰度平均值和标准偏差。

步骤3：目标检测算法；

3.1多光谱图像特征提取；

①基于二值图像B₀(x,y)估计多光谱图像前景像素灰度平均值μ_FG、背景像素灰度平均值μ_BG及其差值Δ＝μ_FG-μ_BG。

②计算多光谱图像背景像素间的协方差矩阵Σ＝E[(I-μ_BG)^T(I-μ_BG)]，其中，I表示多光谱图像灰度矩阵，T表示矩阵转置，E表示数学期望。

③估计其广义逆矩阵Σ^-1，使同时满足以下条件：

3.2自适应相干估计；

基于步骤3.1提取的多光谱图像特征，估计自适应相干图像计算公式为：

$\hat{I} (x, y) = \frac{{[{(I - μ_{B G})}^{T} Σ^{- 1} (μ_{F G} - μ_{B G})]}^{2}}{[{(I - μ_{B G})}^{T} Σ^{- 1} (I - μ_{B G})] [{(μ_{F G} - μ_{B G})}^{T} Σ^{- 1} (μ_{F G} - μ_{B G})]},$

并将其动态范围限制在[0,1]之间，即：

3.3基于梯度算子的图像阈值化；

步骤3.2输出图像在位置(x,y)处的梯度定义为：

$▿ \hat{I} (x, y) = {[G_{x}^{2} + G_{y}^{2}]}^{1 / 2} \approx | G_{x} | + | G_{y} |,$

其中，和分别表示图像沿x和y方向的一阶导数(差分)。

针对梯度图像的后续处理流程同步骤2.2～2.4(此处略)，其二值化输出图像记为B₁(x,y)。

3.4消除误判；

①基于步骤3.2估计的自适应相干图像按照步骤2.2进行全局最优阈值化处理，得到二值图像B₁′(x,y)。

②本发明将二值图像B₀(x,y)和B₁′(x,y)同时标记为前景的像素点视为真正的前景像素(TP)，并以此删除B₀(x,y)中所有的伪前景点，得到二值图像B₂(x,y)：

其中，为w×w邻域内检测出的TP前景像素总数，为w×w邻域内预先确定的TP像素下限值(如)。

步骤4：阈值图像融合处理；

4.1二值图像融合；

对于前述步骤所得二值图像B₁(x,y)和B₂(x,y)，本发明采用以下公式进行二值图像融合：

其中，B(x,y)为融合后的二值图像。

4.2图像后处理；

去除字符笔画边缘较小(少于10个像素)的椒盐噪声，并填充字符笔画内部较小(少于10个像素)的笔画空洞。

与其它经典的文档图像二值化方法相比，无论是从输出图像质量，还是算法性能指标，本发明提出的基于多光谱成像技术的低质量文档图像二值化方法，都要具有明显优势，在较好保留字符笔画细节的同时，能够有效抑制墨迹浸润、页面污渍、纹理背景和光照不均等现象。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多光谱成像技术的低质量文档图像二值化方法 [P] . 中国专利： CN106295648B . 2019.03.19
2. 一种基于D-LinkNet的低质量文档图像二值化方法 [P] . 中国专利： CN110717523A . 2020-01-21
3. A method of binarizing a document image using fuzzy logic [P] . 韩国专利： KR920017368A . 1992-09-26

机译：一种使用模糊逻辑对文档图像进行二值化的方法
4. Document image binarization method based on content type separation [P] . 美国专利： US9965695B1 . 2018-05-08

机译：基于内容类型分离的文档图像二值化方法
5. Scan is a method and system for classification based on the marking type a consolidated group of foreground pixel group in a document image [P] . 日本专利： JP5379085B2 . 2013-12-25

机译：扫描是一种基于标记类型的分类的方法和系统，该标记类型是文档图像中前景像素组的合并组