法律状态公告日
法律状态信息
法律状态
2019-12-20
授权
授权
2018-01-05
实质审查的生效 IPC(主分类):G01R23/16 申请日:20170720
实质审查的生效
2017-12-08
公开
公开
技术领域
本发明涉及奇异谱分析技术领域,尤其涉及一种用于模式重建和预测的广义多元奇异谱分析方法。
背景技术
众所周知,任何模式分类或预测系统的性能通常都会受到噪声的显著影响。模式重建和/或特征增强方法是在提取特征之前减少此性能下降的普遍方法。这种预处理的目标是重建关键拓扑结构,或产生与干净数据的特征近似的特征估计。过去几十年中已出现了许多用于图像模式重建的方法。Schonfeld和Goutsias提出了一种形态滤波器,可实现有噪声二进制图像的最优重建。他们的模式重建方法可得出最优解,方法是使用数学形态学和决策理论的基本工具。他们将差集距离函数定义为图像间的比较尺度。该函数用于引入平均差函数,作为对形态滤波造成的几何和拓扑失真程度的定量测度。Laine等人使用超完备多分辨率表示对乳腺x线图像特征重建进行了研究。他们通过测量已知乳腺x 线图像特征的局部对比,对三种不同种类的小波变换与传统的图像增强技术的效果进行了比较。他们证明了,从多分辨率表示中提取的特征可以提供完成局部对比增强的适应机制。Murray等人提出了调幅与调频(AM-FM)解调方法,用于重建和分析一般图像。基于这些技术,近期出现了一些新的混合方法或变体方法,可进一步改进图像模式表示和重建。
对于一元时间序列(工程学术语中的信号),还可以通过基于小波变换或矩阵分解的类似技术来增强观测到的混合干净数据和噪声源的特征。奇异谱分析 (SSA)是用于时间序列分析和模式识别的先进技术,融合了经典时间序列分析、线性代数、多元统计、多元几何、模式识别和信号处理等元素。SSA旨在将时间序列分解成少量可解读分量的总和,例如缓慢变化的趋势、振荡分量和“无结构”噪声。基于这些分量,已经出现了一系列针对广泛领域进行模式重建、特征增强、去噪、特征提取、预测和分类的不同算法。以SSA作为预处理过程,可以显著减小神经网络或支持向量机模型的分类或预测误差。基本SSA算法仅适用于单点记录,即一元时间序列。到目前为止,各个领域中的大多数SSA应用都在进行此类一元时间序列分析。
当前,SSA已经发展到多元或多通道奇异谱分析(MSSA),以适应多元时间序列。MSSA和SSA的主要区别在于其最初的嵌入步骤,该步骤将基于每个时间序列构造的多个轨迹矩阵以行或列的方式堆叠,形成一个大型轨迹矩阵。然后采用奇异值分解(SVD),以与SSA相同的方式将该整体矩阵分解为特征三元组。Hasani等人将MSSA应用到8项英国工业生产指数的预测中,预测食品、化学品、基本金属和金属制品、机械、电机、车辆、电力和天然气行业的实际产出。他们发现MSSA的性能优于矢量自回归(VAR),在随机性方面,预测误差较小。Ghodsi等人使用MSSA检测胎儿畸形,在联合6导联心电图中成功提取了胎儿信号。
传感器技术的创新和数字设备更强的可购性成就了今天的“大数据时代”,“大数据”是表示大量数字数据的数量和多样性激增的涵盖性术语。大数据的特点是维度高和样本量大。这两个特征带来了独特的挑战:(I)高维度带来了噪声累积、伪相关和偶然齐次性等问题;(II)维度高且样本量大会导致诸如计算成本高和算法不稳定等问题。MSSA在分析一些实际多元时间序列方面取得了一定的成功。然而,当所有变量的轨迹矩阵连接成一个矩阵时,这个矩阵的维数非常大。由于矩阵较大,而训练样本相对较少,因此难以准确地估计协方差矩阵。除了“高维度”困难和“样本量少”问题外,计算大矩阵的奇异向量还需要很大的计算量。此外,在堆叠单矩阵中,多元时间序列中的空间(结构) 信息会丢失或失真。还存在其他问题,如后续预测或模式分类中的数值不稳定性,以及如何降低计算复杂度和存储要求等。
因此,因此,如何通过奇异谱分析实现对高维度和样本量少的矩阵进行模式重建和预测成为本领域亟待解决的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种用于模式重建和预测的广义多元奇异谱分析方法,以解决现有技术中的问题。
作为本发明的第一个方面,提供一种用于模式重建和预测的广义多元奇异谱分析方法,其中,所述用于模式重建和预测的广义多元奇异谱分析方法包括:
通过嵌入方式获得轨迹矩阵Ai,
其中,
对所述轨迹矩阵Ai(i=1,…,c)进行秩分解得到d个秩为1的矩阵
将所有所述秩为1的矩阵
以L={l1,l2,…,lp}表示一组指数l1,l2,…,lp,
将与组L对应的矩阵
将索引集{1,2,…,d}拆分为不相交的子集L1,L2,…,Ls,得到重组矩阵的求和结果
将
优选地,所述对所述轨迹矩阵Ai(i=1,…,c)进行秩分解得到d个秩为1的矩阵
分别定义轨迹矩阵集
将U作为F的特征向量矩阵以及将V作为G的特征向量矩阵得到:
定义Mi,j=UTAiV(:,j)=UTAivj(i=1,…,c;j=1,…,d);
定义
优选地,所述将
采用对角平均法,对正斜率对角线分组求平均值,生成每个结式矩阵的重构元素,其中所述重构元素与原始序列中相应元素的位置相同,矩阵
令d*=min(m,d)、m*=max(m,d)及n=m+d-1;
若m<d,则
根据对角线平均法将矩阵
原始序列Ti被分解为S个序列之和:
优选地,所述将所有所述秩为1的矩阵
当所述序列包含信号和噪声时,则采用两组索引集L1={1,2,…,k}和>2={k+1,…,d};
分别将L1={1,2,…,k}与信号分量关联以及将L2={k+1,…,d}与噪声分量关联。
优选地,所述将所有所述秩为1的矩阵
根据
定义矩阵Ai的样本熵等效于时间序列Ti的样本熵,其中Ai的第e个向量序列为:
向量
在公差r范围内,
其中,Θ表示赫维赛德函数,且
两个向量序列与d点匹配的概率
通过Ti构建Ai的d+1维嵌入向量
获得在n→∞下的矩阵Ai或时间序列Ti的样本熵估值:
其中,SampEn表示样本熵。
本发明提供的用于模式重建和预测的广义多元奇异谱分析方法,通过将多元时间序列同时分解成其组成分量,而无需将每个时间序列的轨迹矩阵重新排列成一个矩阵,能够用于多元时间序列模式重建、特征增强和去噪,并能够准确地估计协方差矩阵,且在多元时间序列中的空间信息不会发生失真。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1为本发明提供的用于模式重建和预测的广义多元奇异谱分析方法的流程图。
图2为本发明提供的10%NL下有噪声的Lorenz序列的广义多元奇异谱的分解图。
图3为本发明提供的10%NL下有噪声的
图4为本发明提供的以2%为间隔从2%到10%的各种噪声级别下有噪声的Lorenz序列的样本熵。
图5为本发明提供的以2%为间隔从2%到10%的各种噪声级别下有噪声的
图6为本发明提供的纯Lorenz的重建拓扑结构以及基于添加了10%噪声级别的各种分量之和得出的重构拓扑图。
图7为本发明提供的
图8为本发明提供的纯
图9为本发明提供的10%NL下Lorenz和
图10为本发明提供的10%NL下Lorenz和
图11为本发明提供的上海证券交易所(SSE)综合指数2000个数据点的样本熵。
图12为本发明提供的上海证券交易所(SSE)综合指数的实际收盘价格,以及使用支持向量机与广义多元奇异谱结合和支持向量机的预测的价格图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
作为本发明的一个方面,提供一种用于模式重建和预测的广义多元奇异谱分析方法,其中,如图1所示,所述用于模式重建和预测的广义多元奇异谱分析方法包括:
S110、通过嵌入方式获得轨迹矩阵Ai,
其中,
S120、对所述轨迹矩阵Ai(i=1,…,c)进行秩分解得到d个秩为1的矩阵
S130、将所有所述秩为1的矩阵
以L={l1,l2,…,lp}表示一组指数l1,l2,…,lp,
将与组L对应的矩阵
S140、将索引集{1,2,…,d}拆分为不相交的子集L1,L2,…,Ls,得到重组矩阵的求和结果
S150、将
本发明提供的用于模式重建和预测的广义多元奇异谱分析方法,通过将多元时间序列同时分解成其组成分量,而无需将每个时间序列的轨迹矩阵重新排列成一个矩阵,能够用于多元时间序列模式重建、特征增强和去噪,并能够准确地估计协方差矩阵,且在多元时间序列中的空间信息不会发生失真。
作为一种具体地实施方式,提供了秩分解的具体实施步骤,所述对所述轨迹矩阵Ai(i=1,…,c)进行秩分解得到d个秩为1的矩阵
分别定义轨迹矩阵集
将U作为F的特征向量矩阵以及将V作为G的特征向量矩阵得到:
定义Mi,j=UTAiV(:,j)=UTAivj(i=1,…,c;j=1,…,d);
定义
作为另一种具体地实施方式,提供了时间序列重建的具体实施过程,所述将
采用对角平均法,对正斜率对角线分组求平均值,生成每个结式矩阵的重构元素,其中所述重构元素与原始序列中相应元素的位置相同,矩阵
令d*=min(m,d)、m*=max(m,d)及n=m+d-1;
若m<d,则
根据对角线平均法将矩阵
原始序列Ti被分解为S个序列之和:
进一步地,当所述序列包括信号和噪声时,提供了将每个所述秩为1的矩阵
当所述序列包含信号和噪声时,则采用两组索引集L1={1,2,…,k}和>2={k+1,…,d};
分别将L1={1,2,…,k}与信号分量关联以及将L2={k+1,…,d}与噪声分量关联。
所述将所有所述秩为1的矩阵
根据
定义矩阵Ai的样本熵等效于时间序列Ti的样本熵,其中Ai的第e个向量序列为:
向量
在公差r范围内,
其中,Θ表示赫维赛德函数,且
两个向量序列与d点匹配的概率
通过Ti构建Ai的d+1维嵌入向量
获得在n→∞下的矩阵Ai或时间序列Ti的样本熵估值:
其中,SampEn表示样本熵。
通过采用修正版的样本熵,对于噪声可实现更好的相对一致性和更强的稳健性。奇异谱分析旨在将原始序列分解成少量可解读的独立分量的总和,例如缓慢变化的趋势、振荡分量和无结构噪声。样本熵值越大,光谱带越宽,而样本熵越小,光谱带越窄。因此,将样本熵值较大的
从广义低秩逼近的角度来看,广义多元奇异谱分析方法将矩阵分解为多个秩为一的分量之和,相当于下式的最小二乘法最优解:
其中,vj是协方差矩阵G的第j个特征向量。为进行简化,假设>1,v2,…,vk)和Mi≡(Mi1,Mi2,…,Mik),因此上式的最优解可表示为:
J的近似值Jopt的全局最优解可以由下式得出:
R=V(:,1:k)=(v1,v2,…,vk),Mi=AiVk,
由于||A||2=Tr(ATA)且Tr(AB)=Tr(BA),因此,
当斜率为零时,此二次函数的Mi可以达到最小值:
因而,J的最简化形式为:
从线性代数角度看,R的最优解由R=(v1,v2,…,vk)Π给出,其中Π是任意k>由于V是满秩正交矩阵,因此,VTV=I,因而轨迹可以表示为:
因此,最优解可以表示为:
因此,广义多元奇异谱为基于原始多元时间序列
前面对广义多元奇异谱分析方法进行了详细描述,并证明它是低秩逼近的全局最优解。使用广义多元奇异谱分析方法可以在广泛的应用中以更有效的方式开发用于多元时间序列模式重建、特征增强、特征提取、分类、预测和压缩的各种算法。模式重建和预测是两个基本的重要问题,这不仅限于模式识别和学习系统,在其他领域中也是如此。下面详细说明使用广义多元奇异谱分析方法进行拓扑结构重建以及多元时间序列预测的结果。
1、关于多元时间序列的模式重建。
基于观测到的有噪声时间序列重建拓扑结构通常是模式识别的第一步。然后可采用适当的统计特征或其他特征提取方法来训练分类器或预测器。为了证明所提出的MGSSA方法的可用性,我们利用它来重建嵌入到噪声中的两个基准数据集:三元Lorenz混沌时间序列和四元
Lorenz时间序列具有三个变量x、y、z,而
其中,图2(A)10%NL下有噪声的Lorenz序列的3个状态变量(x、 y、z)。图2(B)使用广义多元奇异谱时每个变量的10个重构分量为T1到T10。第一个分量显示主要趋势,类似于两个数据集的原始序列。这些结果表明,广义多元奇异谱可以同时将多个原始时间序列分解成其组成分量,突出显示了其在各种多元分析中的应用,包括高维数据模式重建、特征增强、分类、预测和压缩。
图3(A)10%NL下有噪声的
如图4和图5所示,图4和图5说明了以2%为间隔从2%到10%的各种噪声级别下,相同的Lorenz序列和
图6显示了纯Lorenz的重建拓扑结构以及基于添加了10%噪声级别的各种分量之和得出的重构拓扑,其中的第一个图像显示第一个分量的拓扑。经目视检查发现,纯拓扑包络超出了图像A中第一个分量的拓扑包络,表示仅使用第一个分量重建模式时会发生信息丢失。图6的图像C和D分别显示由前5 个和10个分量之和形成的重构拓扑结构。这两个图像的包络超出了干净数据的包络。因而前三个分量包含多元Lorenz时间序列最必要的信息(如图4所示)。因此,可以通过选择使用广义多元奇异谱得出的适当数量的分量来重建有噪声的Lorenz时间序列的拓扑轨迹。
四元
图8为纯
2、关于多元时间序列的预测。
通过采用将支持向量机与广义多元奇异谱结合,实现对多元时间序列的预测,具体可以包括如下步骤:
(a1)将多元数据的每个时间序列嵌入具有近似维度的矩阵中;
(a2)使用前文所述的广义多元奇异谱分解矩阵,并选择最富信息的分量,从而使用样本熵标准重构矩阵
(a3)构建预测模型输入输出对。输入集包括
(a4)训练支持向量机的预测模型。
(a5)按所需提前期h预测时间序列。
下面通过实验对支持向量机与广义多元奇异谱结合的方法进行评估。从前三个基本矩阵(即
下面将广义多元奇异谱应用于金融数据集-上海证券交易所(SSE)综合指数,以测试广义多元奇异谱对实际数据的适用性。
由于证券市场是非常复杂的非线性系统,其价格波动的统计特征不稳定。将收盘价格、开盘价格、最高价格和最低价格时间序列合并为一个多元时间序列,预测收盘价格的演变。这种多源输入已应用于使用ANN预测收盘价格。与上述评估支持向量机与广义多元奇异谱结合的方法类似的方式预测收盘价格。数据长度是自2005/09/26开始的2000个每日数据点。前1500个数据点用于训练,其余数据点用于预测测试。图11显示4个序列的样本熵分布,基于此分布将主分量的数目确定为2个。图12显示实际收盘价和使用这两种方法提前5天预测的收盘价。表1总结了预测时间从1到5天的MSE和CC,进一步说明了混合广义多元奇异谱方法对于实际数据预测的优越性。
表1上海证券交易所综合指数预测的RMS和CC
本发明提供的用于模式重建和预测的广义多元奇异谱分析方法,可以将多个时间序列同时分解成各自的组成分量,包括缓慢变化的趋势、振荡分量和无结构噪声。可以使用通过广义多元奇异谱获得的这些分量来开发各种模式重建、特征增强、去噪、特征提取、分类和预测方法。由于广义多元奇异谱处理每个时间序列的轨迹矩阵,而不是所有轨迹矩阵的高维矩阵堆叠,因此在广义多元奇异谱中不再需要解决维度难题。此外,由于要分析的输入特征向量实际上是训练样本的行向量,所以特征集明显扩大。因此,广义多元奇异谱中不存在样本量小的问题。因此,广义多元奇异谱中协方差矩阵的估值比多通道奇异谱分析更加稳健,更加准确。此外,通过使用原始矩阵,二维空间信息能够完好地保留下来。确定分量的最佳数量是分量学习或建模的根本问题。本发明中提供的采用样本熵标准估计主要分量,可以用于任何种类的奇异谱分析、多元奇异谱分析或其他分量分析技术。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
机译: 模重构和预测的广义多元奇异谱分析方法
机译: 预测模式选择方法,一种基于主边的方向性来减少预测模式候选的数量的装置,一种使用该方法的运动图像压缩方法,一种包括该装置的运动图像编码器以及一种编码器执行该方法的程序
机译: 选择宏块内编码的预测模式的方法,选择视频数据宏块的至少一种预测模式,在计算机可读介质上装载的计算机程序产品以启用预测模式的选择以及编码的编码预测模式