首页> 中国专利> 利用自动化机制挑选影响力指标的方法及电子装置

利用自动化机制挑选影响力指标的方法及电子装置

摘要

本发明提供一种利用自动化机制挑选影响力指标的方法及电子装置。此方法包括下列步骤。取得原始数据,并且原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。最后,计算候选指标与身体相关变数的相关性以决定影响力指标。

著录项

说明书

技术领域

本发明涉及一种自动挑选技术,尤其涉及一种利用自动化机制挑选影响力指标的方法及具有利用自动化机制挑选影响指标功能的电子装置。

背景技术

一般来说老人相对于年轻人具有较少的肌肉量,并且随着年纪的增长,肌肉量也容易流失,而肌肉过度流失容易引发肌少症的现象。因此,研究人体内蛋白质与肌肉量的关系,并找到可以用来预测肌肉量的蛋白质,便可以较早的预防肌少症,以延缓老化的速度。

然而,若逐一针对蛋白质进行实验来分析各个蛋白质是否跟肌肉量有关,会花费许多时间及费用。因此必须研发挑选具有影响力的蛋白质的技术。

发明内容

有鉴于此,本发明提供一种利用自动化机制挑选影响力指标的方法及电子装置,其可从多个待测指标中挑选出具影响力的指标。

本发明的实施例提供一种利用自动化机制挑选影响力指标的方法,适用于电子装置。而利用自动化机制挑选影响力指标的方法包括下列步骤。取得原始数据,其中上述原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。以及计算候选指标与身体相关变数的相关性以决定影响力指标。

从另一观点来看,本发明的实施例提供一种电子装置,此电子装置包括存储装置及计算装置。存储装置存储一或多个指令,而计算装置耦接存储装置并用以执行上述指令以执行下列步骤。取得原始数据,其中上述原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。以及计算候选指标与身体相关变数的相关性以决定影响力指标。

基于上述,本发明诸实施例所述利用自动化机制挑选影响力指标的方法及电子装置,其设定不同的身体相关变数为目标参数,并将身体相关变数及与身体相关变数对应的多个待测指标输入至模型验证,以根据模型验证的输出结果排序各待测指标取得排名数据。并且利用筛选条件根据排名数据挑选具有重要性的待测指标,再计算候选指标与身体相关变数的相关性以验证候选指标是否对身体相关变数具有影响力。藉此,可从多个待测指标中挑选出对身体相关变数具关联性的影响力指标。

附图说明

包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。

图1示出本发明一实施例的电子装置的框图;

图2示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图;

图3示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图;

图4A示出本发明一实施例的检定男性蛋白质Q7含量显着性的范例;

图4B示出本发明一实施例的检定女性蛋白质Q7含量显着性的范例。

附图标号说明

100:电子装置;

110:计算装置;

120:存储装置;

S202~S210:步骤;

401、402:盒须图。

具体实施方式

现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。本发明的部份实施例接下来将会配合附图来详细描述,以下的描述所引用的元件符号,当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本发明的一部份,并未揭示所有本发明的可实施方式。更确切的说,这些实施例只是本发明的权利要求中的方法以及电子装置的范例。

图1示出本发明一实施例的电子装置的框图。参考图1,电子装置100包括但不限于计算装置110以及存储装置120。计算装置110耦接至存储装置120,而可存取并执行记录在存储装置120中的指令,以实现本发明实施例的利用自动化机制挑选影响力指标的方法。电子装置100例如是个人计算机(personal computer,PC)、工作站(work station)、服务器(server)、笔记本电脑(notebook)、个人数字助理(personal digital assistant,PDA)、智能手机(smart phone)、平板计算机(tablet PC)等具有运算能力的电子装置,本发明不在此限制。

在不同实施例中,计算装置110例如是中央处理单元(Central Processing Unit,CPU),或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可编程控制器、特殊应用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、可编程逻辑装置(Programmable Logic Device,PLD)或其他类似装置或这些装置的组合,本发明不在此限制。

存储装置120例如是任意型式的固定式或可移动式随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash memory)、硬件或其他类似装置或这些装置的组合,而用以存储可由计算装置110执行的一或多个指令,这些指令可载入计算装置110。

图2示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图。请同时参照图1及图2,本实施例的方法适用于上述的电子装置100,以下即搭配电子装置100的各项装置及元件说明本实施例的利用自动化机制挑选影响力指标的方法的详细步骤。

首先,由计算装置110取得原始数据,其中原始数据包括身体相关变数及身体相关变数对应的多个待测指标(步骤S202)。详细而言,原始数据所包括的待测指标是可用于研究特定生理现象的人体组成成分,而身体相关变数是与特定生理现象相关联并且可通过测量而得到的数据。以研究肌少症(Sarcopenia)的相关因子为例,肌少症是随着老化历程造成与运动相关四肢骨胳肌流失,以致活动功能丧失的状况。由此可知,肌少症的发生会与肌肉量的变化有关系。由于肌肉的组成是蛋白质,因此可以研究人体内蛋白质与肌肉量之间的关联性,并找出影响肌肉量相关的蛋白质。于此,待测指标例如是不同的蛋白质。当研究人员想要研究找出与肌肉量相关的蛋白质时,可以利用与肌肉量数值相关的身体相关变数来研究哪些蛋白质可能影响肌肉量。举例来说,与肌肉量数值相关的身体相关变数例如是握力(Grip strength)、除脂肪体重(Lean Body Mass,LBM)、四肢骨格肌质量(appendicular skeletal muscle mass,ASM)以及四肢骨骼肌质量指数(relativeappendicular skeletal muscle mass,RASM,四肢骨胳肌质量指数的计算方法为ASM/(身高2))。

之后,计算装置110会设定身体相关变数为目标参数(步骤S204)。具体而言,由于本发明实施例提供的自动化机制会使用多个机器学习的模型来辅助筛选重要的蛋白质,需要建构Y=f(X)的函数,因此计算装置110会先将身体相关变数Y设定为目标参数。以前述肌少症研究为例,身体相关变数Y例如是握力、除脂肪体重、四肢骨格肌质量以及四肢骨胳肌质量指数,而函数中的X例如是待测指标,即,上千个蛋白质的侦侧含量。

接着,计算装置110会将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据(步骤S206)。具体而言,计算装置110会根据机器学习方法建立预测目标参数(即,身体相关变数Y)的多个模型验证(modelvalidation),利用建立的各个验证模型预测待测指标X对于身体相关变数Y的重要性,并根据待测指标X对于身体相关变数Y的重要性排序各待测指标X以产生排名数据。举例而言,计算装置110可建立回归方法、树状方法或神经网络模型等模型验证来计算Y=f(X)的函数中各个待测指标X的重要性。回归方法例如是线性回归(Linear regression)、Lasso算法(Lasso regression)、岭回归(Ridge regression)、支持相量回归(Support Vectorregression)或偏最小二乘回归(Partial Least Square regression)等回归方法。树状方法例如是回归树(Regression Tree)、随机森林(Random Forest)等树状方法。神经网络模型例如是深度神经网络(Deep Neural Networks,DNN)等神经网络模型。在建立验证模型后,计算装置110利用各个验证模型中衡量待测指标X重要性的准则来决定每个待测指标X的重要性。举例而言,可决定待测指标X的重要性的准则例如是回归方法中待测指标X的权重或是p-value是否显着、树状方法中拿掉待测指标X后模型精度下降的程度,或者,神经网络中神经元的权重。

在计算装置110获得各个待测指标X对于身体相关变数Y的重要性的数据后,计算装置110会根据取得的重要性数据排序每个待测指标X,并产生排名数据。产生排名数据的方法例如是利用待测指标X的重要性或者是使用计算次数的方法来排名待测指标X。在一实施例中,计算装置110可以取得每个模型验证预测出的各个待测指标X对于身体相关变数的重要性的排名名次,并分别加总各待测指标X对应的排名名次以产生排名数据。在另一实施例中,计算装置110还可以是使用计算次数的方式来记录待测指标X。具体而言,计算装置110在取得每个模型验证预测出的各个待测指标X对于身体相关变数的重要性的排名名次后,根据预设的名次数量从排名名次中挑选待测指标X,接着计算待测指标X被挑选的次数以产生排名数据。

之后,计算装置110利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标(步骤S208)。在通过多个验证模型计算出排名数据后,计算装置110可以选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,而挑选此(些)待测指标X为候选指标。

此外,计算装置110还可以根据其他的筛选条件来进一步筛选或给予更多的证据支持从待测指标X中挑选出候选指标。在一实施例中,计算装置110可以是在利用建立的各个验证模型计算出待测指标X对于身体相关变数Y的重要性,并根据待测指标X对于身体相关变数Y的重要性排序各待测指标X以产生排名数据后,额外限制重要性对应的相关系数必须大于某个预设数值才被挑选为产生排名数据的待测指标X。具体而言,计算装置110会计算每个待测指标X与身体相关变数Y的相关系数(correlation coefficient),并挑选排名数据中,与身体相关变数Y的相关系数大于预设阈值的待测指标X为候选指标。预设阈值可经由一连串的事先分析而决定,并将其保存于存储装置120之中,例如,可以限制预设阈值为0.4。

在另一实施例中,计算装置110可以利用多组排名数据之间的交集来挑选候选指标。需先说明的是,由于待测指标X与身体相关变数Y皆为测量值,并且各个测量值的单位不一,因此在步骤S206之前,计算装置110可以先标准化原始数据中的身体相关变数Y及待测指标X为经转换数据,再将经标准化转换的身体相关变数及经标准化转换的待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。据以,通过对原始数据进行数据转换,将原始数据中的身体相关变数及待测指标转换为符合模型验证规则的经转换数据,可以满足用于模型验证方法的需求或消除系统性的误差。其中系统性的误差发生的原因,是由于测量仪器本身有误差而可能发生同一个人的同一个蛋白质在不同仪器测量结果不同的现象。数据转换的方法例如是标准化(Standardization)及/或对数转换(Log transformation)。标准化方法可表示成方程式(1),对数转换方法可表示成方程式(2):

X

其中,X

在利用多组排名数据之间的交集来挑选候选指标的方法中,首先,计算装置110会标准化身体相关变数及待测指标X为经转换数据,并将经转换数据输入模型验证中以取得经转换排名数据。利用模型验证取得经转换排名数据的方式与步骤S206中取得排名数据的方式相似,故在此不再赘述。接着,计算装置110根据原始数据的排名数据以及经转换数据的排名数据中待测指标X的排名以从待测指标X中挑选候选指标。详细而言,计算装置110可以直接加总原始数据的排名数据以及经转换数据的排名数据中各待测指标X对应的排名名次,并选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,而挑选此(些)待测指标X为候选指标。另一方面,计算装置110也可以先分别从原始数据的排名数据以及经转换数据的排名数据中选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,再选择两者之中重复被挑选次数最高或重复被挑选次数在特定挑选次数之前的待测指标X为候选指标,本发明不在此限制。

换句话说,在排名数据以及经转换排名数据中排名越前面的待测指标X代表重要性越高。据此,交集法可通过交叉比对待测指标X在排名数据以及经转换排名数据中的排名,挑选排名较高且排名交集最多的待测指标X作为候选指标。

在另一实施例中,计算装置110可以利用上述步骤S206的模型验证排序方法,取得关联于相同特定生理现象的多个身体相关变数的多组排名数据。于此,利用多组排名数据之间的交集来挑选候选指标的方式与上述步骤S208中挑选候选指标的方式相似,故在此不再赘述。

最后,计算装置110计算候选指标与身体相关变数的相关性以决定影响力指标(步骤S210)。在经由前述步骤后,计算装置110可以从多个待测指标X中挑选出对于身体相关变数Y最重要的候选指标。接着,计算装置110可建立用于检验的模型以确认候选指标与身体相关变数Y的相关性是否符合两者之间的特性关系,亦即,通过特性关系确认选出的候选指标是可以用于预测身体相关变数Y的影响力指标。具体来说,计算装置110利用统计模型验证候选指标与身体相关变数的相关性,以确定候选指标是否为对应至身体相关变数的影响力指标。例如,建立利用模型系数方向性(model accuracy)或模型系数显着性(modelsignificance)等统计方法的验证模型来确认挑选出的候选指标的重要性。

在本发明的另一实施例中,还可以通过从原始数据中随机选取数据的机制,来重现对身体相关变数而言重要指标的重现性。藉此,可避免筛选出的候选指标是因为某次数据偏斜性而胜出。并且,进一步利用模型验证预测多组随机选取数据中待测指标X的多组排名数据,后续通过这些排名数据来决定不同模型验证的权重。藉此,可利用取得的权重反馈至图2的步骤S206中来更准确的决定待测指标X的最终排名数据。

具体而言,计算装置110会从原始数据中随机选取多组子数据,并将子数据输入模型验证,以根据模型验证的输出结果取得多个排名数据。于此,利用多组排名数据之间的交集来挑选候选指标的方式与上述步骤S208中挑选候选指标的方式相似,故在此不再赘述。在另一实施例中,也可以标准化随机选取的多组子数据,并利用多组标准化子数据取得的多组排名数据与利用多组子数据取得的多组排名数据之间的交集来挑选候选指标。

进一步而言,计算装置110还可以利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。具体而言,计算装置110根据各子数据对应的排名数据中,待测指标X被挑选为候选指标的次数计算待测指标X的平均特征数。接着,计算装置110再根据平均特征数的倒数决定模型验证的权重,并根据模型验证的权重决定待测指标X的重要性。举例而言,请参照下表1。假设从原始数据中随机选取10组子数据,并且利用模型验证Lasso、RF、SVR的输出结果排名并挑选出候选指标后,待测指标X1、X2、X3被每个模型验证挑选中的次数如下表1所示。于此,各模型验证的平均特征数的计算方式例如是待测指标被挑选总次数/子数据组数。平均特征数的计算结果如下表1所示。

表1

而模型验证对应的平均特征数越少,代表此模型验证选出的特征就越重要。因此,可以使用平均特征数的倒数决定每个模型验证的平均次数权重。计算出每个模型验证的平均次数权重后,接着将待测指标被每个模型验证挑选中的次数分别乘以每个模型验证平均次数权重来获得待测指标的重要性。下表2以待测指标X1为例,待测指标X1的重要性为6*W1+7*W2+8*W3。若以待测指标X2为例,待测指标X2的重要性则为5*W1+6*W2+3*W3。通过计算出待测指标X1~X3的重要性,计算装置110可根据重要性结果从待测指标中挑选候选指标。挑选候选指标的方式例如是选择重要性最高或重要性在特定名次之前的待测指标X作为候选指标,本发明不在此限制。

表2

以下举实施例说明本发明上述方法的具体实施方式。图3示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图。以下实施例以研究肌少症的相关因子为例来举例说明本发明利用自动化机制挑选影响力指标的方法。需说明的是,本发明不限制用于挑选肌少症的相关因子,也可以用于挑选与其他特定生理现象(如,其他病症)的身体相关变数Y相关联的多个待测指标X。

首先,计算装置110取得原始数据,其中原始数据包括身体相关变数及身体相关变数Y对应的多个待测指标X(步骤S202)。并且设定身体相关变数Y为目标参数(步骤S204)。在本实施例中,身体相关变数Y可以是握力、除脂肪体重、四肢骨格肌质量或四肢骨胳肌质量指数,而待测指标X包括多种蛋白质。接着,计算装置110将原始数据分为训练数据及测试数据(步骤S205)。

之后,计算装置110将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据(步骤S206)。具体而言,在步骤S206中,计算装置110将训练数据分为原始数据部分(步骤S2061)和标准化原始数据的数据标准化部分(步骤S2061),并分别将原始数据和标准化数据输入至多个模型验证中以取得排名数据。在本实施例中,原始数据经模型验证Lasso、RF、SVR计算后如下表3所示,表3中呈现蛋白质X1~X7对各个模型验证的重要性数值。排名数据的产生方法可以是名次加总方式(如表4所示),或是计算次数方式(如表5所示)。详细的排名数据产生方法已如前述,在此不再赘述。

表3

表4

表5

在本实施例中,计算装置110可以通过从原始数据中重复随机取样K次来选取多组子数据(步骤S2063),并再次对多组子数据进行模型验证以取得多组排名数据。或者计算装置110也可以针对每个目标参数(即,不同的身体相关变数)重复执行步骤S204~步骤S2063,以取得多组排名数据(步骤S207)。在此,是否要随机取样或针对不同的身体相关变数重复执行取得多组排名数据的步骤,可由本领域技术的人设计与调整,本发明不在此限制。

接着,之后,计算装置110利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标(步骤S208)。步骤S208可参照图2中对应步骤的内容,在此不再赘述。在本实施例中,计算装置110挑选出蛋白质Q7为候选指标。

最后,计算装置110计算候选指标与身体相关变数的相关性以决定影响力指标(步骤S210)。具体而言,计算装置110利用测试数据来确定所选出的蛋白质Q7是否为对应至身体相关变数的影响力指标。在一实施例中,模型系数方向性例如是建立蛋白质Q7与特定生理现象(如,肌少症)之间的逻辑模型(logistic model)。模型建立结果以下表6为例。于此,蛋白质Q7的让步比(odds ratio)为正,则代表所选出的蛋白质Q7与特定生理现象为正向关系。在此状况下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。

表6

在另一实施例中,模型系数显着性例如是建立候选指标Q7(如,蛋白质)与特定生理现象(如,肌少症)相似的生理现象(如,衰弱症)之间的逻辑模型。模型建立结果以下表7为例。于此,蛋白质Q7的让步比为正且P值(p-value)<0.05,则表示所选出的蛋白质Q7与衰弱症为正向关系。由于衰弱症与肌少症有相似的肌肉量减少的情形,在此预测结果下也可以推定所选出的蛋白质Q7为肌少症的影响力指标。

表7

在另一实施例中,模型系数显着性例如是建立候选指标Q7(如,蛋白质)与受测者与肌肉量相关的数值(如,握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数等)之间的线性模型(linear model)。模型建立结果以下表8及表9为例,从表8及表9中可观察出蛋白质Q7与握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数的相关系数为负,且P值(p-value)<0.05。这样的预测结果表示与肌肉量相关的数值与蛋白质Q7为负向关系,换句话说,当蛋白质Q7的数值越大,则与肌肉量相关的数值越小。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。

表8

表9

在又一实施例中,模型分组显着性例如是将与肌肉量相关的数值(如,握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数等)分成高低两个组别,并检定两个组别的候选指标Q7(如,蛋白质)含量是否具有显着差异。

以四肢骨格肌质量并以男性受测者为例,图4A示出本发明一实施例的检定男性蛋白质Q7含量显着性的范例。请参照图4A的分组盒须图401。在本范例中,高肌肉量与低肌肉量之间的T检定结果的T值为3.1579,亦即,T检定结果具有显着差异。因此显示出高肌肉量的组别,其蛋白质Q7的含量较低。换句话说,此预测结果代表低肌肉量的组别的蛋白质Q7的含量较高。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。

以四肢骨格肌质量并以女性受测者为例,图4B示出本发明一实施例的检定女性蛋白质Q7含量显着性的范例。请参照图4B的分组盒须图402。在本范例中,高肌肉量与低肌肉量之间的T检定结果的T值为3.0243,亦即,T检定结果具有显着差异。因此显示出高肌肉量的组别,其蛋白质Q7的含量较低。换句话说,此预测结果代表低肌肉量的组别的蛋白质Q7的含量较高。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。

综上所述,于本发明实施例中,通过使用不同的验证模型及随机选取不同的样本,自动找出待测指标中对于预测身体相关变数据有影响力的主要待测指标。藉此,可从多个待测指标中挑选出对身体相关变数具关联性的影响力指标,以避免耗时费力的大量实验,达成自动化挑选影响力指标的目的。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号