法律状态公告日
法律状态信息
法律状态
2018-01-16
授权
授权
2015-09-23
实质审查的生效 IPC(主分类):G06N5/00 申请日:20150427
实质审查的生效
2015-08-26
公开
公开
技术领域
本发明属于稀疏编码的技术领域,具体地涉及一种基于beta过程的非 参数稀疏张量字典的学习方法。
背景技术
稀疏表示或稀疏编码是信号可以近似表示成一个过完备字典 D=[d1,d2,...,dM]中所有列的线性组合,组合系数是稀疏的。过去十几年中 稀疏表示在图像去噪,图像超分辨重建,分类,人脸识别和其他应用中成 为一种很流行的工具。从数学上讲,稀疏表示就是通过将信号x近似成字典 D与稀疏系数α的线性表示,从而求解原始信号与其重构误差||x-Dα||2的最 小优化问题。
找到一个能使信号尽可能稀疏的字典是稀疏表示中的关键问题。 MOD(method of directions)方法中最优的字典D是通过计算稀疏系数矩阵 的伪逆得到的。Lee等人将字典学习问题转化为最小二乘问题进而转化为拉 格朗日对偶问题进行求解。Aharon等人提出了分类的K-SVD算法来学习一 个过完备的稀疏字典。字典学习的概率模型提出要追溯到2003年。在概率 模型中,Paisley和Carin利用基于beta过程的非参数贝叶斯方法来学习 稀疏字典。这种字典学习方法已经应用到许多图像处理的问题中。由于beta 过程的引入,字典每一个原子的重要性通过非参数贝叶斯方法推断。
在实际应用中,我们对噪声并不太了解,因此在稀疏表示的模型中提 前假定噪声方差大小不太合理。另一方面,样本集也有可能存在误差,因 此我们对样本集的信任程度也无法确定。非参数的贝叶斯方法就适用于这 两种情况且在实际中有越来越广泛的应用,例如矩阵分解,即PMF (Probabilistic Matrix Factorization)。
在图像处理中,要应用字典学习方法往往是将2D数据化为向量的形式 运算。而一幅图像要展成向量就会破坏原来图像的结构信息,不能利用像 素内部间存在的关系。同时,由于样本维度的增加,为了确保算法精准度, 我们会需要更多的样本数据。因此,研究者更倾向于研究2D数据或多维数 据的字典学习方法。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于beta 过程的非参数稀疏张量字典的学习方法,其不仅可以利用学习到稀疏字典, 而且还可以学习到稀疏表示中误差的方差,并且在高维张量数据中张量字 典的学习可以利用原始数据的空间结构信息。
本发明的技术解决方案是:这种基于beta过程的非参数稀疏张量字典 的学习方法,该方法包括以下步骤:
(1)beta过程的一维字典学习;
(2)beta过程的张量字典学习;
(3)求解所有变量的后验分布;
(4)利用吉布斯方法进行采样。
本发明将一维beta过程的字典学习推广到高阶张量的字典学习,然后 求解所有变量的后验分布,利用吉布斯方法进行采样,所以不仅可以利用 学习到稀疏字典,而且还可以学习到稀疏表示中误差的方差,并且在高维 张量数据中张量字典的学习可以利用原始数据的空间结构信息。
具体实施方式
这种基于beta过程的非参数稀疏张量字典的学习方法,该方法包括以 下步骤:
(1)beta过程的一维字典学习;
(2)beta过程的张量字典学习;
(3)求解所有变量的后验分布;
(4)利用吉布斯方法进行采样。
本发明将一维beta过程的字典学习推广到高阶张量的字典学习,然后 求解所有变量的后验分布,利用吉布斯方法进行采样,所以不仅可以利用 学习到稀疏字典,而且还可以学习到稀疏表示中误差的方差,并且在高维 张量数据中张量字典的学习可以利用原始数据的空间结构信息。
优选地,所述步骤(1)中一维字典学习模型为公式(5):
x=Dα+ε (5)
其中是一维信号,是字典,系数α由两个参数来控制 α=zοw,其中ο表示的哈德玛积,z是二值变量,它的每一个分量代表 系数α对应位置的值是否为0,其中z由公式(6)决定:
zk~Bernoulli(πk),πk~Beta(a/J,b(J-1)/J) (6)
其中zk表示z的第k个分量,a和b是beta分布的两个参数。
优选地,所述步骤(2)中
给定训练样本每个样本都是一个N阶张量将 每个样本对应的核张量分成两部分
对于每个样本写成公式(1):
其中变量的每个分量都是由beta过程决定的,Dn表示模n上的字典, 把的每个分量记为假设每个分量是独立的且服从相同的高斯 分布精确度为γb,误差项εi的每个分量是独立的服从相同均 值为0,精确度为γe的高斯分布,所有字典原子(列)的先验分布设 为均值为0,协方差矩阵为单位矩阵的高斯分布,则张量字典学习的 分层结构表示为公式(2):
其中表示Dn的第k个原子,表示张量的高斯分布,假设每一模上 的字典有相同的大小和的大小为K×…×K,表 示Π的第-(ii,i2,…,iN)个元素值,它的值表示的是的概率, 以上分层模型中假设的分布都属于共轭指数分布集,
公式(2)的似然函数为公式(3):
其中D={D1,D2,…,DN},
优选地,所述步骤(3)包括以下分步骤:
(3.1)根据公式(4)对模n字典的每一原子采样:
其中和分别是样本和稀疏系数的模n矩阵展开形式,为 的第k行,并且
则的后验分布表示为公式(7):
其中
(3.2)根据公式(11)对和中的每个元素采样:将(1)写成向 量的形式:
即,xi=D(biοzi)
其中并且
这样,的每个元素的采样为:
其中,
并且
另外,的每个元素的采样为:
其中,
(3.3)根据公式(8)对Π中的每个元素采样:
M表示样本个数,K表示字典的列数
(3.4)根据公式(9)对γb采样:
M表示样本个数,K表示字典的列数
(3.5)根据公式(10)对γe采样:
M表示样本个数,K表示字典的列数,Dn表示第n模方向的字典。
优选地,该方法还包括步骤(5):利用K-SVD算法优化公式(12)
其中
下面更详细地说明本方法。
1 beta过程的一维字典学习
考虑字典学习模型:
x=Dα+ε
其中是一维信号,是字典。受概率因子分析的启发, Paisley等人提出了由beta过程控制的稀疏字典学习的概率模型。这个模 型中假设系数α可以由两个参数来控制α=zοw。其中ο表示的哈德玛积,即 对应元素的乘积。z是二值变量,它的每一个分量代表系数α对应位置的值 是否为0。其中二值变量z可由以下beta过程决定:
zk~Bernoulli(πk),πk~Beta(a/J,b(J-1)/J)
其中zk表示z的第k个分量。a和b是beta分布的两个参数。当J→∞时, 上面的方法称为beta过程。
2 beta过程的张量字典学习
给定训练样本每个样本都是一个N阶张量假设 每个样本对应的核张量都可以分成两部分
也就是说,对于每个样本可以写成:
其中变量的每个分量都是由beta过程决定的,Dn表示模n上的字典。 为了方便,我们把的每个分量记为假设每个分量是独立的且服从 相同的高斯分布精确度为γb。误差项εi的每个分量是独立的服从 相同均值为0,精确度为γe的高斯分布。所有字典原子(列)的先验分布设 为均值为0,协方差矩阵为单位矩阵的高斯分布。则张量字典学习的分层结 构可以表示为:
这里的表示Dn的第k个原子,表示张量的高斯分布。在下面计 算中我们假设每一模上的字典有相同的大小和的大小为 K×…×K。表示Π的第-(ii,i2,…,iN)个元素值,它的值表示的是 的概率。以上分层模型中假设的分布都属于共轭指数分布集,因 此可利用吉布斯采样推断模型中的参数。
上述分层模型的似然函数为:
其中记D={D1,D2,…,DN},以及 这样利用吉布斯采样可以逐次推导所有变量的后验分 布。
3吉布斯采样
1)对模n字典的每一原子采样:为了计算Dn在其他所有变量下的后验分 布,我们找出似然函数(1)中与Dn有关的所有项。首先定义 以及
因此有:
则的后验分布可以表示为:
其中
2)对和中的每个元素采样:首先将(1)式张量字典的表示形式化 为向量运算:xi=D(biοzi)。其中xi,bi,zi都是向量,且
经计算可得zik服从伯努利分布:
其中
经计算也可得到,bik服从高斯分布:
其中均值和协方差为:
3)对Π中的每个元素采样:找出(3)中与πk相关的项,可得:
这样πk服从beta分布:
4)对γb采样:找出(3)中与γb相关的项,计算可得:
5)对γe采样:同理找到(3)中与γe相关的项,计算可得:
4改进的字典学习算法
从公式(4)可以知道,字典Dn的每一列都服从高斯分布,并且其后 验分布的对数为:
这里C是一个常数。当高阶参数γe固定时,极大化上面的对数函数等价 于极小化下面的优化函数:
其中因此,可以利用K-SVD算法解此优化问题。称这种字典 学习方法为改进的beta过程张量字典学习方法。
下面说明本方法的实验效果。
将把beta过程的非参数张量字典学习算法应用到视频重构和图像去噪 上。实验软件环境是matlab R2012b,硬件环境Intel Core 2 Duo T6400 CPU (2.00GHz)+12G RAM。
1视频序列的重建
在DynTex++数据库做视频重建的实验。这个数据库包含345个不同 场景的视频序列。选择两个典型的视频序列,‘spring’和‘river’。 ‘spring’序列中存在不规则的运动,以及运动是不连续的,而‘river’ 呈现光滑运动以及整体是规则的运动。每个动态序列都包含50帧图像,每 一帧图像的大小是150×150,所有序列都是彩色视频。实验中分别对R,G,B三 个通道分别重建。
从给定的视频序列中随机提取样本块,每个样本块的都是一个三阶 张量。目标是学习字典D1,D2和D3,其中D1,D2分别是行和列方向上的字 典,D3表示时间方向的字典。随机初始化三个字典,参数设为a0=b0=1以 及c0=d0=e0=f0=1e-4。Π的每个分量设为1。当学习到字典后,利用 正交匹配追踪算法(OMP)求解稀疏系数。然后分别对R,G,B三个通过的视 频序列进行重建。利用视频序列的平均重构误差来评价重构结果。平均误 差定义为:
其中和分别是原始和重构的视频序列。N表示视频序列的帧数。M是 每一帧图像的像素个数。
表1是取不同大小的样本块的重建结果(大小为10-3)。因此,当样本 块越小时重建的误差越小。因此在下面测试中,选择样本块的大小为 4×4×4。
表1
利用提出的张量字典学习方法能很好的重构出原始的视频序列。
2图像去噪
第二个实验是用来说明提出的非参数张量字典学习算法的去噪效果。 256×256的图像加上标准差分别为2,5,10的高斯噪声,考虑对其去噪的效 果。这个实验可以看成是模型(2)中N=2时二阶张量字典学习的特例。为 了方便,将beta过程的非参数字典学习记为2D-BP,将改进的随机二维字 典学习方法记为2D-IPBP,将一维beta过程随机字典的学习算法记为 1D-BP。
在训练阶段,字典是通过带噪声的图像学习到的。给出的二维字典学 习模型中字典具有分离形式,即D1和D2分别为行和列方向上 的字典。1D-BP算法中的字典是无结构的,并设定字典大小为64×256,而二 维字典学习中两个字典D1和D2大小都是8×16。所有训练样本块的大小为 8×8。得到字典后,利用正交匹配追踪算法求解稀疏系数。用PSNR来衡量 去噪效果。
除了提出的2D-IPBP算法,还涉及到其他三种方法(i)基于二维合成模 型的字典学习(2D-SSM),(ii)分离字典学习和快速收缩阈值求解稀疏系数 算法(FISTA+separable SeDiL)。(iii)FISTA+unstructured SeDiL。 (iv)K-SVD算法。前两种算法是二维分离结构字典的学习方法,后两种算法 是一维字典学习方法。表2是噪声的方差分别为5和10的去噪结果。本方 法可以得到与其他四种方法可比性的结果,或更优的结果。例如当噪声方 差为5时,即带噪声的图像的PSNR为34.15,利用本算法在‘peppers’图 像去噪的结果的PSNR为38.31,这比分离字典学习(SeDiL)算法的PSNR高 1dB。这说明本方法是合理有效的。
表2
下面主要是与1D-BP算法进行比较。表3列出的是在 ‘house’,‘peppers’和‘camera man’三幅带噪声图像上的去噪结果。 从图表中可以看出二维非参数随机字典方法的去噪时间要比一维字典要少 很多。并且当噪声的方差越小时,1D-BP方法的去噪结果越差。当噪声图像 的PSNR为42.11时,由1D-BP算法得到去噪图像的PSNR并没有太大提高, 有些甚至没有提高。不管是从去噪时间还是去噪结果,本方法都优于一维 的非参数字典学习方法。
表3
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的 限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等 同变化与修饰,均仍属本发明技术方案的保护范围。
机译: 一种基于字典类型的字典自动构建方法,其记录介质及基于字典类型的字典自动构建方法
机译: 基于核非负矩阵分解和稀疏特征表示的基于字典学习的人脸识别方法和系统
机译: 一种用于插图卷筒纸印刷机的操作方法,该方法包括:基于机器过程和操作参数,通过自适应系统预测目标参数;以及基于参数来控制机器的操作