首页> 中国专利> 一种基于beta过程的非参数稀疏张量字典的学习方法

一种基于beta过程的非参数稀疏张量字典的学习方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于beta过程的非参数稀疏张量字典的学习方法，其不仅可以利用学习到稀疏字典，而且还可以学习到稀疏表示中误差的方差，并且在高维张量数据中张量字典的学习可以利用原始数据的空间结构信息。该方法包括步骤：(1)beta过程的一维字典学习；(2)beta过程的张量字典学习；(3)求解所有变量的后验分布；(4)利用吉布斯方法进行采样。

著录项

公开/公告号CN104866905A

专利类型发明专利
公开/公告日2015-08-26

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201510204653.6
发明设计人孙艳丰;句福娇;胡永利;尹宝才;
展开▼

申请日2015-04-27
分类号
代理机构北京中北知识产权代理有限公司;
代理人冯梦洪
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-12-18 10:36:06

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-16

授权

授权
2015-09-23

实质审查的生效 IPC(主分类):G06N5/00 申请日:20150427

实质审查的生效
2015-08-26

公开

公开

说明书

技术领域

本发明属于稀疏编码的技术领域，具体地涉及一种基于beta过程的非参数稀疏张量字典的学习方法。

背景技术

稀疏表示或稀疏编码是信号可以近似表示成一个过完备字典 D＝[d₁，d₂，...，d_M]中所有列的线性组合，组合系数是稀疏的。过去十几年中稀疏表示在图像去噪，图像超分辨重建，分类，人脸识别和其他应用中成为一种很流行的工具。从数学上讲，稀疏表示就是通过将信号x近似成字典 D与稀疏系数α的线性表示，从而求解原始信号与其重构误差||x-Dα||₂的最小优化问题。

找到一个能使信号尽可能稀疏的字典是稀疏表示中的关键问题。 MOD(method of directions)方法中最优的字典D是通过计算稀疏系数矩阵的伪逆得到的。Lee等人将字典学习问题转化为最小二乘问题进而转化为拉格朗日对偶问题进行求解。Aharon等人提出了分类的K-SVD算法来学习一个过完备的稀疏字典。字典学习的概率模型提出要追溯到2003年。在概率模型中，Paisley和Carin利用基于beta过程的非参数贝叶斯方法来学习稀疏字典。这种字典学习方法已经应用到许多图像处理的问题中。由于beta 过程的引入，字典每一个原子的重要性通过非参数贝叶斯方法推断。

在实际应用中，我们对噪声并不太了解，因此在稀疏表示的模型中提前假定噪声方差大小不太合理。另一方面，样本集也有可能存在误差，因此我们对样本集的信任程度也无法确定。非参数的贝叶斯方法就适用于这两种情况且在实际中有越来越广泛的应用，例如矩阵分解，即PMF (Probabilistic Matrix Factorization)。

在图像处理中，要应用字典学习方法往往是将2D数据化为向量的形式运算。而一幅图像要展成向量就会破坏原来图像的结构信息，不能利用像素内部间存在的关系。同时，由于样本维度的增加，为了确保算法精准度，我们会需要更多的样本数据。因此，研究者更倾向于研究2D数据或多维数据的字典学习方法。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于beta 过程的非参数稀疏张量字典的学习方法，其不仅可以利用学习到稀疏字典，而且还可以学习到稀疏表示中误差的方差，并且在高维张量数据中张量字典的学习可以利用原始数据的空间结构信息。

本发明的技术解决方案是：这种基于beta过程的非参数稀疏张量字典的学习方法，该方法包括以下步骤：

(1)beta过程的一维字典学习；

(2)beta过程的张量字典学习；

(3)求解所有变量的后验分布；

(4)利用吉布斯方法进行采样。

本发明将一维beta过程的字典学习推广到高阶张量的字典学习，然后求解所有变量的后验分布，利用吉布斯方法进行采样，所以不仅可以利用学习到稀疏字典，而且还可以学习到稀疏表示中误差的方差，并且在高维张量数据中张量字典的学习可以利用原始数据的空间结构信息。

具体实施方式

这种基于beta过程的非参数稀疏张量字典的学习方法，该方法包括以下步骤：

(1)beta过程的一维字典学习；

(2)beta过程的张量字典学习；

(3)求解所有变量的后验分布；

(4)利用吉布斯方法进行采样。

优选地，所述步骤(1)中一维字典学习模型为公式(5)：

x＝Dα+ε (5)

其中是一维信号，是字典，系数α由两个参数来控制 α＝zοw，其中ο表示的哈德玛积，z是二值变量，它的每一个分量代表系数α对应位置的值是否为0，其中z由公式(6)决定：

z_k～Bernoulli(π_k)，π_k～Beta(a/J，b(J-1)/J) (6)

其中z_k表示z的第k个分量，a和b是beta分布的两个参数。

优选地，所述步骤(2)中

给定训练样本每个样本都是一个N阶张量将每个样本对应的核张量分成两部分

对于每个样本写成公式(1)：

其中变量的每个分量都是由beta过程决定的，D_n表示模n上的字典，把的每个分量记为假设每个分量是独立的且服从相同的高斯分布精确度为γ_b，误差项ε_i的每个分量是独立的服从相同均值为0，精确度为γ_e的高斯分布，所有字典原子(列)的先验分布设为均值为0，协方差矩阵为单位矩阵的高斯分布，则张量字典学习的分层结构表示为公式(2)：

其中表示D_n的第k个原子，表示张量的高斯分布，假设每一模上的字典有相同的大小和的大小为K×…×K，表示Π的第-(i_i，i₂，…，i_N)个元素值，它的值表示的是的概率，以上分层模型中假设的分布都属于共轭指数分布集，

公式(2)的似然函数为公式(3)：

其中D＝{D₁，D₂，…，D_N}，

优选地，所述步骤(3)包括以下分步骤：

(3.1)根据公式(4)对模n字典的每一原子采样：

其中和分别是样本和稀疏系数的模n矩阵展开形式，为的第k行，并且 ${\tilde{X}}_{(n)}^{i} = X_{(n)}^{i} - D_{n} A_{(n)}^{i} {\overline{D}}_{n}^{T} + d_{k}^{n} \cdot c_{nk}^{i};$

则的后验分布表示为公式(7)：

其中 $μ_{nk} = \frac{γ_{e}}{Λ_{nk}} Σ_{i = 1}^{M} {\tilde{X}}_{(n)}^{i} {(c_{nk}^{i})}^{T}, Λ_{nk} = γ_{e} Σ_{i = 1}^{M} c_{nk}^{i} {(c_{nk}^{i})}^{T} + I_{n};$

(3.2)根据公式(11)对和中的每个元素采样：将(1)写成向量的形式:

即，x_i＝D(b_iοz_i)

其中并且

$D = D_{N} \otimes D_{N - 1} \otimes \cdot \cdot \cdot \otimes D_{1} .$

这样，的每个元素的采样为：

$p (z_{ik} | x_{i}, D, b_{i}, π_{k}, γ_{e}) = Bernoulli (\frac{p_{1}}{p_{0} + p_{1}}) . - - - (11)$

其中， $p_{1} = π_{k} \exp {- \frac{γ_{e}}{2} (b_{ik}^{2} d_{k}^{T} d_{k} - 2 b_{ik} d_{k}^{T} {\tilde{x}}_{i}^{- k})},$ p₀＝1-π_k.

并且

另外，的每个元素的采样为：

其中， $μ_{b_{ik}} = γ_{e} z_{ik} σ_{b_{ik}} d_{k}^{T} {\tilde{x}}_{i}^{- k}, σ_{b_{ik}} = {(γ_{b} + γ_{e} z_{ik}^{2} d_{k}^{T} d_{k})}^{- 1}$

(3.3)根据公式(8)对Π中的每个元素采样：

M表示样本个数，K表示字典的列数

(3.4)根据公式(9)对γ_b采样：

M表示样本个数，K表示字典的列数

(3.5)根据公式(10)对γ_e采样：

M表示样本个数，K表示字典的列数，D_n表示第n模方向的字典。

优选地，该方法还包括步骤(5)：利用K-SVD算法优化公式(12)

$E = Σ_{i = 1}^{M} {| | {\tilde{X}}_{(n)}^{i} - d_{k}^{n} \cdot c_{nk}^{i} | |}_{F}^{2} + λ {| | d_{k}^{n} | |}_{2}^{2} - - - (12)$

其中 $λ = I_{n}^{2} / γ_{e}^{2} .$

下面更详细地说明本方法。

1 beta过程的一维字典学习

考虑字典学习模型：

x＝Dα+ε

其中是一维信号，是字典。受概率因子分析的启发， Paisley等人提出了由beta过程控制的稀疏字典学习的概率模型。这个模型中假设系数α可以由两个参数来控制α＝zοw。其中ο表示的哈德玛积，即对应元素的乘积。z是二值变量，它的每一个分量代表系数α对应位置的值是否为0。其中二值变量z可由以下beta过程决定：

z_k～Bernoulli(π_k)，π_k～Beta(a/J，b(J-1)/J)

其中z_k表示z的第k个分量。a和b是beta分布的两个参数。当J→∞时，上面的方法称为beta过程。

2 beta过程的张量字典学习

给定训练样本每个样本都是一个N阶张量假设每个样本对应的核张量都可以分成两部分

也就是说，对于每个样本可以写成：

其中变量的每个分量都是由beta过程决定的，D_n表示模n上的字典。为了方便，我们把的每个分量记为假设每个分量是独立的且服从相同的高斯分布精确度为γ_b。误差项ε_i的每个分量是独立的服从相同均值为0，精确度为γ_e的高斯分布。所有字典原子(列)的先验分布设为均值为0，协方差矩阵为单位矩阵的高斯分布。则张量字典学习的分层结构可以表示为：

这里的表示D_n的第k个原子，表示张量的高斯分布。在下面计算中我们假设每一模上的字典有相同的大小和的大小为 K×…×K。表示Π的第-(i_i，i₂，…，i_N)个元素值，它的值表示的是的概率。以上分层模型中假设的分布都属于共轭指数分布集，因此可利用吉布斯采样推断模型中的参数。

上述分层模型的似然函数为：

其中记D＝{D₁，D₂，…，D_N}，以及这样利用吉布斯采样可以逐次推导所有变量的后验分布。

3吉布斯采样

1)对模n字典的每一原子采样：为了计算D_n在其他所有变量下的后验分布，我们找出似然函数(1)中与D_n有关的所有项。首先定义以及 ${\overline{D}}_{n} = D_{N} \otimes \cdot \cdot \cdot \otimes D_{n + 1} \otimes D_{n - 1} \otimes \cdot \cdot \cdot \otimes D_{1} .$ 和分别是样本和稀疏系数的模n矩阵展开形式。为的第k行。并且令

${\tilde{X}}_{(n)}^{i} = X_{(n)}^{i} - D_{n} A_{(n)}^{i} {\overline{D}}_{n}^{T} + d_{k}^{n} \cdot c_{nk}^{i}$

因此有：

则的后验分布可以表示为：

其中 $μ_{nk} = \frac{γ_{e}}{Λ_{nk}} Σ_{i = 1}^{M} {\tilde{X}}_{(n)}^{i} {(c_{nk}^{i})}^{T}, Λ_{nk} = γ_{e} Σ_{i = 1}^{M} c_{nk}^{i} {(c_{nk}^{i})}^{T} + I_{n}$

2)对和中的每个元素采样：首先将(1)式张量字典的表示形式化为向量运算：x_i＝D(b_iοz_i)。其中x_i，b_i，z_i都是向量，且

$D = D_{N} \otimes D_{N - 1} \otimes \cdot \cdot \cdot \otimes D_{1} .$ 令：

经计算可得z_ik服从伯努利分布：

$p (z_{ik} | x_{i}, D, b_{i}, π_{k}, γ_{e}) = Bernoulli (\frac{p_{1}}{p_{0} + p_{1}})$

其中 $p_{1} = π_{k} \exp {- \frac{γ_{e}}{2} (b_{ik}^{2} d_{k}^{T} d_{k} - 2 b_{ik} d_{k}^{T} {\tilde{x}}_{i}^{- k})},$ p₀＝1-π_k。π：＝vec(Π) 并且π_k表示π的第k个元素。

经计算也可得到，b_ik服从高斯分布：

其中均值和协方差为：

$μ_{b_{ik}} = γ_{e} z_{ik} σ_{b_{ik}} d_{k}^{T} {\tilde{x}}_{i}^{- k}, σ_{b_{ik}} = {(γ_{b} + γ_{e} z_{ik}^{2} d_{k}^{T} d_{k})}^{- 1} .$

3)对Π中的每个元素采样：找出(3)中与π_k相关的项，可得：

这样π_k服从beta分布：

4)对γ_b采样：找出(3)中与γ_b相关的项，计算可得：

5)对γ_e采样：同理找到(3)中与γ_e相关的项，计算可得：

4改进的字典学习算法

从公式(4)可以知道，字典D_n的每一列都服从高斯分布，并且其后验分布的对数为：

这里C是一个常数。当高阶参数γ_e固定时，极大化上面的对数函数等价于极小化下面的优化函数：

$E = Σ_{i = 1}^{M} {| | {\tilde{X}}_{(n)}^{i} - d_{k}^{n} \cdot c_{nk}^{i} | |}_{F}^{2} + λ {| | d_{k}^{n} | |}_{2}^{2}$

其中因此，可以利用K-SVD算法解此优化问题。称这种字典学习方法为改进的beta过程张量字典学习方法。

下面说明本方法的实验效果。

将把beta过程的非参数张量字典学习算法应用到视频重构和图像去噪上。实验软件环境是matlab R2012b，硬件环境Intel Core 2 Duo T6400 CPU (2.00GHz)+12G RAM。

1视频序列的重建

在DynTex++数据库做视频重建的实验。这个数据库包含345个不同场景的视频序列。选择两个典型的视频序列，‘spring’和‘river’。 ‘spring’序列中存在不规则的运动，以及运动是不连续的，而‘river’ 呈现光滑运动以及整体是规则的运动。每个动态序列都包含50帧图像，每一帧图像的大小是150×150，所有序列都是彩色视频。实验中分别对R,G,B三个通道分别重建。

从给定的视频序列中随机提取样本块，每个样本块的都是一个三阶张量。目标是学习字典D₁，D₂和D₃，其中D₁，D₂分别是行和列方向上的字典，D₃表示时间方向的字典。随机初始化三个字典，参数设为a₀＝b₀＝1以及c₀＝d₀＝e₀＝f₀＝1_e-4。Π的每个分量设为1。当学习到字典后，利用正交匹配追踪算法(OMP)求解稀疏系数。然后分别对R,G,B三个通过的视频序列进行重建。利用视频序列的平均重构误差来评价重构结果。平均误差定义为：

其中和分别是原始和重构的视频序列。N表示视频序列的帧数。M是每一帧图像的像素个数。

表1是取不同大小的样本块的重建结果(大小为10^-3)。因此，当样本块越小时重建的误差越小。因此在下面测试中，选择样本块的大小为 4×4×4。

4×4×4 5×5×5 6×6×6 7×7×7 8×8×8 river 4.27 4.31 6.21 6.80 8.72 spring 2.93 3.46 4.20 4.91 6.82

表1

利用提出的张量字典学习方法能很好的重构出原始的视频序列。

2图像去噪

第二个实验是用来说明提出的非参数张量字典学习算法的去噪效果。 256×256的图像加上标准差分别为2,5,10的高斯噪声，考虑对其去噪的效果。这个实验可以看成是模型(2)中N＝2时二阶张量字典学习的特例。为了方便，将beta过程的非参数字典学习记为2D-BP，将改进的随机二维字典学习方法记为2D-IPBP，将一维beta过程随机字典的学习算法记为 1D-BP。

在训练阶段，字典是通过带噪声的图像学习到的。给出的二维字典学习模型中字典具有分离形式，即D₁和D₂分别为行和列方向上的字典。1D-BP算法中的字典是无结构的，并设定字典大小为64×256，而二维字典学习中两个字典D₁和D₂大小都是8×16。所有训练样本块的大小为 8×8。得到字典后，利用正交匹配追踪算法求解稀疏系数。用PSNR来衡量去噪效果。

除了提出的2D-IPBP算法，还涉及到其他三种方法(i)基于二维合成模型的字典学习(2D-SSM)，(ii)分离字典学习和快速收缩阈值求解稀疏系数算法(FISTA+separable SeDiL)。(iii)FISTA+unstructured SeDiL。 (iv)K-SVD算法。前两种算法是二维分离结构字典的学习方法，后两种算法是一维字典学习方法。表2是噪声的方差分别为5和10的去噪结果。本方法可以得到与其他四种方法可比性的结果，或更优的结果。例如当噪声方差为5时，即带噪声的图像的PSNR为34.15,利用本算法在‘peppers’图像去噪的结果的PSNR为38.31，这比分离字典学习(SeDiL)算法的PSNR高 1dB。这说明本方法是合理有效的。

表2

下面主要是与1D-BP算法进行比较。表3列出的是在 ‘house’,‘peppers’和‘camera man’三幅带噪声图像上的去噪结果。从图表中可以看出二维非参数随机字典方法的去噪时间要比一维字典要少很多。并且当噪声的方差越小时，1D-BP方法的去噪结果越差。当噪声图像的PSNR为42.11时，由1D-BP算法得到去噪图像的PSNR并没有太大提高，有些甚至没有提高。不管是从去噪时间还是去噪结果，本方法都优于一维的非参数字典学习方法。

表3

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于beta过程的非参数稀疏张量字典的学习方法 [P] . 中国专利： CN104866905B . 2018.01.16
2. 一种基于beta过程的非参数稀疏张量字典的学习方法 [P] . 中国专利： CN104866905A . 2015-08-26
3. METHOD FOR AUTOMATIC CONSTRUCTION OF ACRONYM DICTIONARY BASED ON ACRONYM TYPE, RECORDING MEDIUM THEREOF AND APPARATUS FOR AUTOMATIC CONSTRUCTION OF ACRONYM DICTIONARY BASED ON ACRONYM TYPE [P] . 韩国专利： KR20080026931A . 2008-03-26

机译：一种基于字典类型的字典自动构建方法，其记录介质及基于字典类型的字典自动构建方法
4. METHOD AND SYSTEM FOR FACE RECOGNITION BY MEANS OF DICTIONARY LEARNING BASED ON KERNEL NON-NEGATIVE MATRIX FACTORIZATION, AND SPARSE FEATURE REPRESENTATION [P] . 世界知识产权组织专利： WO2018149133A1 . 2018-08-23

机译：基于核非负矩阵分解和稀疏特征表示的基于字典学习的人脸识别方法和系统
5. Method for operating illustration web-fed printing machine, involves predicting objective parameters by adaptive system on basis of machine process and operational parameters, and controlling operation of machine on basis of parameters [P] . 德国专利： DE102009026987A1 . 2011-08-04

机译：一种用于插图卷筒纸印刷机的操作方法，该方法包括：基于机器过程和操作参数，通过自适应系统预测目标参数;以及基于参数来控制机器的操作