技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种工业软测量中考虑因果效应的辅助变量选择方法。
背景技术
软测量是以难测的关键性能指标作为输出(主导变量),并选取与其相关且易测的变量作为输入(辅助变量),构造某种数学关系来实现对主导变量的预测和估计,其多用于评价产品质量、生产效率、能源消耗、污染物排放等指标。显然,如何选取合适的辅助变量成为工业软测量的首要难题,直接决定软测量模型的复杂度、预测准确性及应用可靠性。现有辅助变量选择方法一般基于:领域专家知识、统计数据分析和机器学习方法。
1)领域专家知识:通过对软测量对象的工艺机理进行仔细的分析和认识之后,根据专家经验或者物理化学先验知识,从候选变量集中挑选出对主导变量有较大影响的变量作为辅助变量。由于复杂工业系统认知方面的不足,以及专家水平的限制,该类方法通常仅用于辅助变量的初始化选择。
2)统计数据分析:通过统计学中的方差分析、相关分析方法进行辅助变量选择。方差分析用来衡量变量本身的发散程度,在辅助变量选择中通常去除发散程度较小(即方差较小)的变量,它不考虑输入输出之间的关联关系;相关分析借助皮尔逊相关系数、互信息或最大信息系数分析候选变量与主导变量之间的关联程度,选择与主导变量关联较大的候选变量作为辅助变量。其缺陷在于,一方面难以考虑共线性问题,另一方面需要设置一个阈值,该阈值直接影响辅助变量选择的结果。
3)机器学习方法:主要包括基于主成分分析(PCA)、典型变量分析(CVA)、偏最小二乘(PLS)等的特征提取方法、以及基于过滤式、包裹式和嵌入式的特征选择方法。该类方法以机器学习模型为基础对候选变量集进行分析,应用较为广泛。然而,这些方法本质上仍然是基于关联关系,或者是性能导向,严重依赖于机器学习模型,计算成本高,可解释性差。
发明内容
本发明针对现有辅助变量选择方法依赖于阈值或模型,可解释性差等问题,提出一种工业软测量中考虑因果效应的辅助变量选择方法,通过考虑候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
本发明是通过以下技术方案实现的:
本发明涉及一种工业软测量中考虑因果效应的辅助变量选择方法,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集。
所述的历史数据集
所述的预处理是指:采用基于直方图的等长划分方法来离散化数据,有效考虑工业数据中存在的离群点问题,最佳划分长度n
所述的每一个候选变量与主导变量的互信息是指:I(X;Y)=H(X)+H(Y)-H(X,Y),其中:X和Y表示两个离散随机变量,H(X)和H(Y)分别表示X和Y的香农熵,表示随机变量所含的平均信息量或不确定性的大小;H(X,Y)表示X和Y的联合香农熵;香农熵H(X)=-∑
所述的每一个候选变量与主导变量的互信息,优选为降序排列。
所述的每一个候选变量与主导变量的因果效应
两个联合条件互信息进一步表示为联合香农熵的形式,具体为:H(Y|X
所述的基于因果效应的变量筛选算法是指:根据包含M-1个候选辅助变量的集合F={X
本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、辅助变量选择模块、软测量模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到辅助变量选择及软测量建模所需历史数据集;辅助变量选择模块根据历史数据信息,选择与主导变量关系密切的辅助变量集合,从而剔除冗余信息、降低软测量建模难度和模型复杂度;软测量模型构建模块综合考虑历史数据和应用对象,选定合适的软测量方法建立模型;模型维护模块根据软测量模型投入周期性使用的性能下降趋势,对软测量模型进行在线校正,以保证模型预测的准确性和可靠性。
技术效果
本发明通过辅助变量选择模块计算候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,整体解决了现有辅助变量选择方法依赖于专家经验、阈值或模型,可解释性差等问题,本发明准确性及解释性均高于现有技术。
附图说明
图1为本发明流程图;
图2为二元随机变量X和Y的香农熵和互信息关系示意图;
图3为间歇过程最终产品质量模型示意图;
图4为因果效应计算曲线;
图5为工业软测量结果的实验对比图;
图6为工业软测量结果的散点对比图及估计误差概率密度曲线对比图。
具体实施方式
本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。
如图1所示,本实施例公开了一种工业软测量中考虑因果效应的辅助变量选择方法,包括以下步骤:
步骤A:获取传感器采集的工业数据集
表1来自某柴油发动机装配过程的工业数据集
表2变量名称及单位描述
步骤B:数据预处理。在本实施例中,N=1763,自动确定各变量的最佳划分长度n
表3各变量的最佳划分长度n
步骤C:计算每一个候选辅助变量与主导变量的互信息,并按照大小进行排序。在本实施例中,38个候选变量与标定工况功率Y之间的互信息计算及排序结果,如表4所示。
表4各变量互信息排序结果
步骤D:按照互信息大小顺序,计算每一个候选变量对主导变量的因果效应。在本实施例中,因果效应计算结果如表5所示。
表5因果效应计算结果
步骤E:通过基于因果效应的变量筛选算法,获得选择的辅助变量集S。在本实施例中,如表5和图4所示,仅有X
为了进一步比较本发明的技术优越性和先进性,采用AdaBoost集成决策树构建标定工况功率Y的软测量模型,并以方差选择法、皮尔逊相关系数法(PCC)和最大信息系数法(MIC)作为3个基准方法,进行对比实验验证,采用均方根误差(RMSE)和决定系数R
表6为不同辅助变量选择方法下软测量模型的RMSE和R
表6不同辅助变量选择方法下软测量模型的RMSE和R
如图5所示,为在不同辅助变量选择方法下标定工况功率的软测量结果,可以看出,本方法比3个基准方法更准确地估计了标定工况功率值。
如图6所示,为不同辅助变量选择方法下软测量结果的散点图和估计误差的概率密度曲线,与3个基准方法相比,本方法的估计值更接近实际的标定工况功率,估计误差的概率密度曲线是“更瘦”和“更高”,更有力地证明本方法的优异性能,能够有效降低软测量结果的不确定性。
经过具体实际实验,在Windows/Python 3.7的具体环境设置下,以某柴油发动机装配过程的工业数据集测试本发明,运行上述方法能够得到的实验数据是:如表6所示的各项指标均优于现有技术。
与现有技术相比,本方法根据候选变量与主导变量之间的因果效应,且不依赖于任何模型,只需要按照一定的顺序遍历所有候选变量,而不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
机译: 非对称密码系统的数据确定方法,包括输出辅助变量,从两个辅助变量确定数学运算结果,并在协处理器中确定更新的辅助变量
机译: 总线系统中的数据保护涉及将要传输的数据中的有用数据与辅助变量中的偏移值进行组合,以形成与辅助变量一起传输的数据安全字节
机译: 氮氧化物含量的确定方法柴油机的氮氧化物捕集阱,涉及通过考虑捕集阱,发动机和/或组件的老化功能中的一个变量的变化来确定一组变量