首页> 中国专利> 基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法

基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法，采取一种先进的多元回归分析方法，主要用来解决多元回归分析中变量多重相关性及自变量多于样本变量等实际问题。设法将多个变量中综合为少数几个代表性变量，既能够代表原始变量的绝大多数信息，又互不相关，其提取的主成分既能教好的解释因变量，又能很好的解释自变量，并且在新的综合变量基础上，可以进一步的统计分析，为后来的能耗与产量的平衡优化研究打下理论基础，达到高效率、高产量、低能耗的目的，对挖泥船进行能耗与产量优化具有重要意义。

著录项

公开/公告号CN103995467A

专利类型发明专利
公开/公告日2014-08-20

原文格式PDF
申请/专利权人河海大学常州校区;
展开▼

申请/专利号CN201410224607.8
发明设计人李凯凯;许焕敏;周玉刚;穆乃超;
展开▼

申请日2014-05-26
分类号G05B13/04;
代理机构常州市科谊专利代理事务所;
代理人袁兴隆
地址 213022 江苏省常州市新北区晋陵北路200号
入库时间 2023-12-17 00:50:37

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-15

未缴年费专利权终止 IPC(主分类):G05B13/04 授权公告日:20160824 终止日期:20190526 申请日:20140526

专利权的终止
2016-08-24

授权

授权
2014-09-17

实质审查的生效 IPC(主分类):G05B13/04 申请日:20140526

实质审查的生效
2014-08-20

公开

公开

说明书

技术领域

本发明涉及偏最小二乘法在绞吸式挖泥船众多能耗影响因素中提取主成分的应用，属于疏浚工程领域。

背景技术

在实际疏浚作业中，科研人员通过相应的设备记录到大量的数据，以便进行分析寻找规律。多变量、大样本无疑会为科学研究提供丰富的信息，但在大多数情况下，许多变量之间存在的相关性增加了问题分析的复杂性。因此需要找到一个合理的方法，在减少分析变量的同时，尽量减少原变量包含信息的损失，对所收集的资料做全面的分析。偏最小二乘法就是这样一种方法，它可以在众多变量中，找出少数几个综合性变量，来反映原来因变量及自变量所反映的主要信息，使问题简化。偏最小二乘法的作用在于：①能降低所研究的数据空间的维数；②提取的主成分对原始变量系统有很好的解释能力；③构造回归模型,可以用于能耗预测分析；④可以对变量进行分类。

偏最小二乘法(Partial least squares,PLS)是一种先进的多元回归分析方法，主要用来解决多元回归分析中变量多重相关性及自变量多于样本变量等实际问题。通过将自变量和因变量的高维数据空间投影到相应的低维特征空间，分别得到自变量和因变量的相互正交特征向量，再建立自变量和因变量特征向量的一元线性回归关系。与主成分分析(Primary Component Analysis，PCA)相比较:在PCA中，首先它完全撇开因变量，单独考虑对自变量系统提取主成分，这就有可能导致主成分对因变量的相关性很低，从而导致自变量与因变量的相关性分析不合理；而PLS是从原有自变量中提取相互正交的成分，成分提取时既考虑了与因变量的相关性，使成分与因变量的协方差达到最大，也考虑了与自变量的相关性，使成分包含X的信息达到最大。它在选取特征向量时强调自变量对因变量的解释和预测作用，去除了对回归无益噪声的影响，是模型包含最少的变量数，因而PLS模型具有更好的鲁棒性和预测稳定性。PLS分析是集多元线性回归分析、典型相关分析、主成分分析的基本功能为一体的一种分析方法。

在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。PLS是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，提取出来这些新变量不仅对原始变量有最佳解释能力，而且在反映课题的信息方面保持较多的原有信息。

疏浚作为水下作业，影响因素众多，其中众多参数变量之间常常存在一定的相关性。这势必增加了分析问题的复杂性。如何确保合理有效的工艺决策，减少调控参数，降低操作复杂性，成为疏浚低能耗、低排放、高效率的关键问题。

PLS方法是一种变量系统的投影分析与还原解释方法，其技术的核心是在线性最小二乘算法中嵌入数据信息综合与变量筛选技术,在最大限度保证与自变量系统与因变量系统相关性的前提下,化简自变量系统,消除自变量的多重相关性,并且在新的综合变量基础上，可以进一步的统计分析。为后来的能耗与产量的预测研究打下理论基础。

发明内容

本发明利用现有的偏最小二乘方法，对绞吸式挖泥船上影响能耗众多的因素进行分析计算。使之能通过降维的作用减少变量的个数，分析起来更够更加清晰明了。

本发明具体技术方案如下：

一种基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法，包括以下步骤：

步骤(1)：收集影响绞吸式挖泥船能耗因素变量的数据资料，确定p个分析能耗变量，列出因变量与自变量样本矩阵；其中，p为正整数；

步骤(2)：对样本矩阵进行标准化处理；

步骤(3)：根据标准样本矩阵，分别计算矩阵的最大特征值所对应单位特征向量,得自变量和因变量的第一个主成分；

步骤(4)：计算缩减后标准样本数据的残差矩阵，重复步骤(3)，依次求出其他主成分；

步骤(5)：根据提取主成分终止判断准则，依次计算出主成分对自变量、因变量信息的解释能力；

步骤(6)：确定主成分个数；

步骤(7)：将标准化处理后的样本矩阵数据带入提取各主成分表达式，分别计算出各主成分的变量。

上述步骤(1)中样本矩阵如下：

设对p个自变量x₁,x₂,...x_p和q个因变量y₁,y₂,...y_q进行了n次观测,分别记自变量与因变量的“样本点×变量”型的数据矩阵为：

X＝(x_ij)_n×p＝(x₁,x₂,...x_p),i＝1,2...,n；j＝1,2,...p

Y＝(y_ij)_n×q＝(y₁,y₂,...y_q),i＝1,2...,n；j＝1,2,...q

上述步骤(2)中矩阵标准化处理如下：

记标准化后的数据矩阵为

E₀＝(e_ij)_n×p和F₀＝(f_ij)_n×q，

其中 $> e_{ij} = \frac{x_{ij} - \overline{x_{j}}}{{sx}_{j}}, i = 1,2 . . ., n; j = 1,2, . . . p, - - - (1 - 1)$ >

$> f_{ij} = \frac{y_{ij} - \overline{y_{j}}}{{sy}_{j}}, i = 1,2 . . ., n; j = 1,2, . . . q, - - - (1 - 2)$ >

式中(1-1)和式中(1-2)中，分别为矩阵X与Y的第j列数据的平均值，sx_j，sy_j为矩阵X与Y的第j列数据的标准差。

上述步骤(3)中第一个主成分提取的计算步骤如下：

求矩阵的最大特征值所对应单位特征向量w₁,得自变量的第一个主成分，t₁＝E₀w₁

求矩阵的最大特征值所对应单位特征向量c₁,得因变量的第一个主成分，u₁＝F₀c₁

求残差矩阵

$> E_{1} = E_{0} - t_{1} p_{1}^{T} - - - (1 - 3)$ >

$> F_{1} = F_{0} - t_{1} r_{1}^{T} - - - (1 - 4)$ >

式中(1-3)中,式中(1-4)中

上述步骤(4)中其他主成分的计算步骤如下：

令E₀＝E₁，F₀＝F₁,对残差矩阵进行新一轮的主成分提取

设第h步的计算结果为

t_h＝E_h-1w_h (1-5)

U_h＝F_h-lc_h (1-6)

$> E_{h} = E_{h - 1} - t_{h} p_{h}^{T} - - - (1 - 7)$ >

$> F_{h} = F_{h - 1} - t_{h} r_{h}^{T} - - - (1 - 8)$ >

式(1-5)～(1-8)中,h＝1，2，...，m，m《rank(E₀)，

上述步骤(5)中的提取主成分终止判断准则采用复测定系数准则，

由统计量

$> R_{h}^{2} = \frac{Σ_{k = 1}^{h} {| | t_{k} | |}^{2} \times {| | r_{k} | |}^{2}}{{| | F_{0} | |}^{2}} - - - (1 - 9)$ >

评价自变量系统的前h个主成分是否对因变量Y系统有足够的解释能力；

复测定系数度量的是由前h个主成分构建的回归方程能够解释的变异信息量占总变异的百分比，当h＝m且复测定系数的值足够大时，可在第m步终止主成分提取计算，其中

在复测定系数的应用中，往往参考统计量

$> Q_{h}^{2} = \frac{Σ_{k = 1}^{h} {| | t_{k} | |}^{2} \times {| | p_{k} | |}^{2}}{{| | E_{0} | |}^{2}} - - - (1 - 10)$ >

值的大小，度量的是自变量X系统被提取的变异信息量。

上述步骤(5)中主成分对自变量、因变量信息的解释能力的计算过程如下：

记ρ²(y_j；t_h)是主成分t_h与因变量y_j的简单相关系数的平方,t_h对因变量系统Y的解释能力:

Rd(y_j；t_h)＝ρ²(y_j；t_h) (1-11)

$> Rd (Y; t_{h}) = \frac{1}{q} Σ_{j = 1}^{q} Rd (y_{j}; t_{h}) - - - (1 - 12)$ >

t₁,t₂,...,t_m对因变量系统Y的累计解释能力:

$> Rd (Y; t_{1}, t_{2}, . . . t_{m}) = Σ_{h = 1}^{m} Rd (Y; t_{h}) - - - (1 - 13)$ >

依据式(1-11)～(1-13)，计算各主成分对能耗因变量Y的解释能力；

记ρ²(x_j；t_h)是主成分t_h与自变量x_j的简单相关系数的平方,t_h对自变量系统X的解释能力:

Rd(x_j；t_h)＝ρ²(x_j；t_h) (1-14)

$> Rd (X; t_{h}) = \frac{1}{p} Σ_{j = 1}^{p} Rd (x_{j}; t_{h}) - - - (1 - 15)$ >

t₁,t₂,...,t_m对自变量系统X的累计解释能力:

$> Rd (X; t_{1}, t_{2}, . . . t_{m}) = Σ_{h = 1}^{m} Rd (X; t_{h}) - - - (1 - 16)$ >

依据式(1-14)～(1-16)计算各主成分对能耗影响因素X的解释能力。

上述步骤(6)中主成分个数的确定如下：

分别绘制主成分和主成分对能耗因变量Y解释能力总信息及能耗影响因素X解释能力总信息柱状图，找出Rd_h(Cum)≥85％时，两者的主成分个数，然后对其两者取主成分个数交集，这样不仅保证了主成分对能耗因变量Y有较好的解释能力，而且也保证了主成分对能耗影响因素X的具有较好的解释能力。

有益效果是：本发明公开了一种基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法，采取一种先进的多元回归分析方法，主要用来解决多元回归分析中变量多重相关性及自变量多于样本变量等实际问题。设法将多个变量中综合为少数几个代表性变量，既能够代表原始变量的绝大多数信息，又互不相关，其提取的主成分既能教好的解释因变量，又能很好的解释自变量，并且在新的综合变量基础上，可以进一步的统计分析，为后来的能耗与产量的平衡优化研究打下理论基础，达到高效率、高产量、低能耗的目的，对挖泥船进行能耗与产量优化具有重要意义。

附图说明

图1是本发明的分析方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

PLS方法提取主成分,不是照搬主成分分析的算法,而是兼顾自变量系统与因变量系统的相关性的同时,逐步提取两个变量系统的各自的主成分。

PLS建模准则是把主成分分析准则和主成分回归准则相结合而形成一个新的残差平方和指标。其被广泛应用的准则函数为：

$> J = \max_{| | w | | = 1, | | c | | = 1} cov (u_{i}, t_{i}) = \max_{| | w | | = 1, | | c | | = 1} \sqrt{Var (u_{i}) Var (t_{i})} Corr (u_{i}, t_{i})$ >

注：式中称w为模型效应权重，c为因变量权重u_i,t_i分别为因变量与自变量的主成分。(i＝1,2,...m)。

一种基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法，包括以下步骤：

步骤(1)：收集影响绞吸式挖泥船能耗因素变量的数据资料，确定p个分析能耗变量，列出因变量与自变量样本矩阵；其中，p为正整数；

步骤(2)：对样本矩阵进行标准化处理；

步骤(3)：根据标准样本矩阵，分别计算矩阵的最大特征值所对应单位特征向量,得自变量和因变量的第一个主成分；

步骤(4)：计算缩减后标准样本数据的残差矩阵，重复步骤(3)，依次求出其他主成分；

步骤(5)：根据提取主成分终止判断准则，依次计算出主成分对自变量、因变量信息的解释能力；

步骤(6)：确定主成分个数；

步骤(7)：将标准化处理后的样本矩阵数据带入提取各主成分表达式，分别计算出各主成分的变量。

上述步骤(1)中样本矩阵如下：

设对p个自变量x₁,x₂,...x_p和q个因变量y₁,y₂,...y_q进行了n次观测,分别记自变量与因变量的“样本点×变量”型的数据矩阵为：

X＝(x_ij)_n×p＝(x₁,x₂,...x_p),i＝1,2...,n；j＝1,2,...p

Y＝(y_ij)_n×q＝(y₁,y₂,...y_q),i＝1,2...,n；j＝1,2,...q

上述步骤(2)中矩阵标准化处理如下：

记标准化后的数据矩阵为

E₀＝(e_ij)_n×p和F0＝(f_ij)_n×q，

其中 $> e_{ij} = \frac{x_{ij} - \overline{x_{j}}}{{sx}_{j}}, i = 1,2 . . ., n; j = 1,2, . . . p, - - - (1 - 1)$ >

$> f_{ij} = \frac{y_{ij} - \overline{y_{j}}}{{sy}_{j}}, i = 1,2 . . ., n; j = 1,2, . . . q, - - - (1 - 2)$ >

式中(1-1)和式中(1-2)中，分别为矩阵X与Y的第j列数据的平均值，sx_j，sy_j为矩阵X与Y的第j列数据的标准差。

上述步骤(3)中第一个主成分提取的计算步骤如下：

求矩阵的最大特征值所对应单位特征向量w₁,得自变量的第一个

成分，t₁＝E0w₁

求矩阵的最大特征值所对应单位特征向量c₁,得因变量的第一个主成分，u₁＝F₀c₁

求残差矩阵

$> E_{1} = E_{0} - t_{1} p_{1}^{T} - - - (1 - 3)$ >

$> F_{1} = F_{0} - t_{1} r_{1}^{T} - - - (1 - 4)$ >

式中(1-3)中,式中(1-4)中

上述步骤(4)中其他主成分的计算步骤如下：

令E₀＝E₁，F₀＝F₁,对残差矩阵进行新一轮的主成分提取

设第h步的计算结果为

t_h＝E_h-1w_h (1-5)

u_h＝F_h-1c_h (1-6)

$> E_{h} = E_{h - 1} - t_{h} p_{h}^{T} - - - (1 - 7)$ >

$> F_{h} = F_{h - 1} - t_{h} r_{h}^{T} - - - (1 - 8)$ >

式(1-5)～(1-8)中,h＝1，2，...，m，m《rank(E₀)，

上述步骤(5)中的提取主成分终止判断准则采用复测定系数准则，

由统计量

$> R_{h}^{2} = \frac{Σ_{k = 1}^{h} {| | t_{k} | |}^{2} \times {| | r_{k} | |}^{2}}{{| | F_{0} | |}^{2}} - - - (1 - 9)$ >

评价自变量系统的前h个主成分是否对因变量Y系统有足够的解释能力；

在复测定系数的应用中，往往参考统计量

$> Q_{h}^{2} = \frac{Σ_{k = 1}^{h} {| | t_{k} | |}^{2} \times {| | p_{k} | |}^{2}}{{| | E_{0} | |}^{2}} - - - (1 - 10)$ >

值的大小，度量的是自变量X系统被提取的变异信息量。

上述步骤(5)中主成分对自变量、因变量信息的解释能力的计算过程如下：

记ρ²(y_j；t_h)是主成分t_h与因变量y_j的简单相关系数的平方,t_h对因变量系统Y的解释能力:

Rd(y_j；t_h)＝ρ²(y_j；t_h) (1-11)

$> Rd (Y; t_{h}) = \frac{1}{q} Σ_{j = 1}^{q} Rd (y_{j}; t_{h}) - - - (1 - 12)$ >

t₁,t₂,...,t_m对因变量系统Y的累计解释能力:

$> Rd (Y; t_{1}, t_{2}, . . . t_{m}) = Σ_{h = 1}^{m} Rd (Y; t_{h}) - - - (1 - 13)$ >

依据式(1-11)～(1-13)，计算各主成分对能耗因变量Y的解释能力；

记ρ²(x_j；t_h)是主成分t_h与自变量x_j的简单相关系数的平方,t_h对自变量系统X的解释能力:

Rd(x_j；t_h)＝ρ²(x_j；t_h) (1-14)

$> Rd (X; t_{h}) = \frac{1}{p} Σ_{j = 1}^{p} Rd (x_{j}; t_{h}) - - - (1 - 15)$ >

t₁,t₂,...,t_m对自变量系统X的累计解释能力:

$> Rd (X; t_{1}, t_{2}, . . . t_{m}) = Σ_{h = 1}^{m} Rd (X; t_{h}) - - - (1 - 16)$ >

依据式(1-14)～(1-16)计算各主成分对能耗影响因素X的解释能力。

上述步骤(6)中主成分个数的确定如下：

实施例

绞吸式挖泥船能耗影响因素主成分提取

(1)绞吸式挖泥船能耗影响因素具有众多参数变量，首先收集数据资料，确定分析变量。绞吸式挖泥船主要能耗变量如表1所示。

表1绞吸式挖泥船主要能耗

绞吸式挖泥船能耗影响因素如表2所示。

表2绞吸式挖泥船能耗影响因素

(2)对原始数据进行标准化

原始数据进行标准化的目的是为了消除由于量纲的不同可能带来的一些不合理的影响。

根据(1-1)和(1-2)式分别对能耗因变量Y和能耗影响因素X进行数据标准化后可得因变量为Y′,自变量为X′。其数据矩阵为：

X′＝(x′_ij)_n×12＝(x′₁，x′₂，...，x′₁₂)和Y′＝(y′_ij)_n×6＝(y′₁，y′₂...y′₆)

(3)提取主成分

令E₀＝X′，F₀＝Y′,求矩阵的最大特征值所对应单位特征向量w₁,得自变量的第一个主成分。

t₁＝E₀w₁

求矩阵的最大特征值所对应单位特征向量c₁,得因变量的第一个主成分。u₁＝F₀c₁

再按照式(1-3)～(1-8)的方法，依次求出自变量及因变量的其他主成分t_h和u_h(h＝l，2，...，m，m《rank(E₀))。

(4)分别计算主成分对因变量及自变量得解释能力

依据式(1-9)、(1-11)～(1-13)，计算各主成分对能耗因变量Y的解释能力，其结果如表3所示。

表3主成分对能耗变量Y的解释能力

依据式(1-10)、(1-14)～(1-16)计算各主成分对能耗影响因素X的解释能力，其结果如表4所示。

表4主成分对能耗影响因素X的解释能力

(5)确定主成分个数

分别绘制主成分和主成分对能耗因变量Y解释能力总信息及能耗影响因素X解释能力总信息柱状图。找出Rd_h(Cum)≥85％时，两者的主成分个数，然后对其两者取主成分个数交集，这样不仅保证了主成分对能耗因变量Y有较好的解释能力，而且也保证了主成分对能耗影响因素X的具有较好的解释能力。

(6)将样本数据带入提取主成分的相应表达式，可以得到绞吸式挖泥船能耗影响因素的主成分个数，其主成分个数既考虑了与能耗因变量的相关性，使成分与因变量的协方差达到最大，也考虑了与自变量的相关性，使成分包含X的信息达到最大。则可在在许多分析中使用这些主成分，进一步做综合评价、聚类分析以及回归预测分析。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法 [P] . 中国专利： CN103995467B . 2016.08.24
2. 基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法 [P] . 中国专利： CN103995467A . 2014-08-20
3. Speech recognition method including biased principal components [P] . 美国专利： US4718093A . 1988-01-05

机译：包含有偏主成分的语音识别方法
4. SPEECH RECOGNITION METHOD INCLUDING BIASED PRINCIPAL COMPONENTS [P] . CA1229923A . 1987-12-01

机译：包含偏主成分的语音识别方法
5. METHOD FOR EXTRACTING AT LEAST ONE FIRST AND A SECOND BLOOD COMPONENT CONTAINED IN A PRIMARY POCKET OF A POCKET SYSTEM [P] . 法国专利： FR3015902A1 . 2015-07-03

机译：口袋系统主口袋中至少一个第一和第二血液成分的提取方法