首页> 中国专利> 骨密度与骨密度影响因素之间因果关系的确定方法及系统

骨密度与骨密度影响因素之间因果关系的确定方法及系统

摘要

本发明公开了一种骨密度与骨密度影响因素之间因果关系的确定方法及系统,获取临床医学数据,该临床医学数据中包含骨密度临床医学数据,对临床医学数据进行预处理,得到标准化临床医学数据,在局部阶段,查找标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构,全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。本发明通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需进行长期的医学数据统计实验。

著录项

  • 公开/公告号CN112998653A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202110200468.5

  • 申请日2021-02-23

  • 分类号A61B5/00(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人刘乐

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-06-19 11:34:14

说明书

技术领域

本发明涉及医学技术领域,更具体的说,涉及一种骨密度与骨密度影响因素之间因果关系的确定方法及系统。

背景技术

骨质疏松症是一种由多种原因导致骨密度(Bone Mineral Density,BMD)和骨质量下降,骨微结构破坏,造成骨脆性增加,从而容易发生骨折的全身性骨病。因此,检测骨密度影响因素并确定骨密度与各个骨密度影响因素之间的因果关系有重要的医学研究价值。

现有技术中的一种方案为:采用大型纵向前瞻性研究查找骨密度影响因素,虽然传统的大型纵向前瞻性研究可以查找骨密度影响因素,但是该研究方法不仅需要进行复杂的数据分析和数据处理,且无法确定骨密度与各个骨密度影响因素之间的因果关系,而且需要花费较高的研究成本。另一种方案为:采用机器学习以及贝叶斯网络结构学习算法,自动识别骨密度影响因素并确定骨密度与骨密度影响因素之间因果关系。虽然第二种方案可以有效降低研究成本,解决第一种方案中存在的问题,但是,第二种方案仍存在一些不足,主要问题包括:在医学领域,临床样本十分昂贵且数量有限,而骨密度影响因素又相对复杂,因此仅根据临床样本进行训练,通过贝叶斯网络结构化学习算法所确定骨密度与各个骨密度影响因素之间的因果关系的可靠性不高。

发明内容

有鉴于此,本发明公开一种骨密度与骨密度影响因素之间因果关系的确定方法及系统,以通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需长期的医学数据统计实验即可获取更可靠的骨密度与各个骨密度影响因素之间的因果关系。

一种骨密度与骨密度影响因素之间因果关系的确定方法,包括:

获取临床医学数据,所述临床医学数据中包含骨密度临床医学数据;

对所述临床医学数据进行预处理,得到标准化临床医学数据,所述预处理包括:缺失值补全、异常值修正以及数据离散化;

在局部阶段,查找所述标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,所述目标特征变量包括:所述骨密度临床医学数据中的骨密度数据和骨密度影响因素;

在全局阶段,根据所述马尔科夫毯集和医学先验知识得到全局有向无环图结构,所述全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。

可选的,对所述临床医学数据进行数据离散化的过程包括:

对所述临床医学数据进行进行归一化处理,得到目标临床医学数据;

将所述目标医学数据中各个特征变量中的骨密度特征变量确定为响应变量,非骨密度特征变量确定为非响应变量;

计算每个所述非响应变量和每个所述响应变量之间的关联关系值;

将所述关联关系值小于关联关系阈值的响应变量和非响应变量,采用第一离散方法进行数据化离散,所述第一离散方法为:将标准差小于-1的响应变量和非响应变量的数值设置为0;将标准差在-1和1之间的响应变量和非响应变量的数值设置为0;将标准差大于1的响应变量和非响应变量的数值设置为2;

将所述关联关系值不小于所述关联关系阈值的响应变量和非响应变量,采用第二离散方法进行数据化离散,所述第二离散方法为:基于卡方检验,使用滑动阈值或滑动窗口进行数据化离散。

可选的,在局部阶段,查找所述标准化临床医学数据中每个目标特征变量的马尔科夫毯的过程包括:

将所述标准化临床医学数据中的目标特征变量作为目标节点,从所有的特征变量中查找所述目标节点的邻节点;

基于所述邻接点,采用交叉验证方法修剪所述目标节点的父节点和子节点,得到修剪后的目标父节点和目标子节点;

基于所述邻节点,从所有的特征变量中查找所述目标节点的配偶节点;

将所述目标父节点、所述目标子节点和所述配偶节点的集合确定为所述目标特征变量的所述马尔科夫毯。

可选的,所述将所述标准化临床医学数据中的目标特征变量作为目标节点,从所有的特征变量中查找所述目标节点的邻节点,具体包括:

从所有的特征变量中查找所述目标节点所有的潜在邻节点;

计算每个所述潜在邻节点与所述目标邻节点之间的关联关系值;

从所有的所述潜在邻节点中筛选出关联关系值最大的作为所述目标节点的邻节点,并剔除所述潜在邻节点中错误的特征变量节点。

可选的,所述在全局阶段,根据所述马尔科夫毯集和医学先验知识得到全局有向无环图结构,具体包括:

在全局阶段,根据马尔科夫毯集和医学先验知识判断是否存在碰撞器;

如果是,则基于所述碰撞器构建所述全局有向无环图结构;

如果否,则采样启发式方法构造潜在贝叶斯网络的所述全局有向无环图结构。

一种骨密度与骨密度影响因素之间因果关系的确定系统,包括:

获取单元,用于获取临床医学数据,所述临床医学数据中包含骨密度临床医学数据;

预处理单元,用于对所述临床医学数据进行预处理,得到标准化临床医学数据,所述预处理包括:缺失值补全、异常值修正以及数据离散化;

查找单元,用于在局部阶段,查找所述标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,所述目标特征变量包括:所述骨密度临床医学数据中的骨密度数据和骨密度影响因素;

因果关系确定单元,用于在全局阶段,根据所述马尔科夫毯集和医学先验知识得到全局有向无环图结构,所述全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。

可选的,所述预处理单元具体用于:

对所述临床医学数据进行进行归一化处理,得到目标临床医学数据;

将所述目标医学数据中各个特征变量中的骨密度特征变量确定为响应变量,非骨密度特征变量确定为非响应变量;

计算每个所述非响应变量和每个所述响应变量之间的关联关系值;

将所述关联关系值小于关联关系阈值的响应变量和非响应变量,采用第一离散方法进行数据化离散,所述第一离散方法为:将标准差小于-1的响应变量和非响应变量的数值设置为0;将标准差在-1和1之间的响应变量和非响应变量的数值设置为0;将标准差大于1的响应变量和非响应变量的数值设置为2;

将所述关联关系值不小于所述关联关系阈值的响应变量和非响应变量,采用第二离散方法进行数据化离散,所述第二离散方法为:基于卡方检验,使用滑动阈值或滑动窗口进行数据化离散。

可选的,所述查找单元具体包括:

第一查找子单元,用于将所述标准化临床医学数据中的目标特征变量作为目标节点,从所有的特征变量中查找所述目标节点的邻节点;

修剪子单元,用于基于所述邻接点,采用交叉验证方法修剪所述目标节点的父节点和子节点,得到修剪后的目标父节点和目标子节点;

第二查找子单元,用于基于所述邻节点,从所有的特征变量中查找所述目标节点的配偶节点;

确定子单元,用于将所述目标父节点、所述目标子节点和所述配偶节点的集合确定为所述目标特征变量的所述马尔科夫毯。

可选的,所述第一查找子单元具体用于:

从所有的特征变量中查找所述目标节点所有的潜在邻节点;

计算每个所述潜在邻节点与所述目标邻节点之间的关联关系值;

从所有的所述潜在邻节点中筛选出关联关系值最大的作为所述目标节点的邻节点,并剔除所述潜在邻节点中错误的特征变量节点。

可选的,所述因果关系确定单元具体用于:

在全局阶段,根据马尔科夫毯集和医学先验知识判断是否存在碰撞器;

如果是,则基于所述碰撞器构建所述全局有向无环图结构;

如果否,则采样启发式方法构造潜在贝叶斯网络的所述全局有向无环图结构。

从上述的技术方案可知,本发明公开了一种骨密度与骨密度影响因素之间因果关系的确定方法及系统,获取临床医学数据,该临床医学数据中包含骨密度临床医学数据,对临床医学数据进行预处理,得到标准化临床医学数据,在局部阶段,查找标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,目标特征变量包括:骨密度临床医学数据中的骨密度数据和骨密度影响因素,在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构,全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。本发明通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需长期的医学数据统计实验即可获取更可靠的骨密度与各个骨密度影响因素之间的因果关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种骨密度与骨密度影响因素之间因果关系的确定方法流程图;

图2为本发明实施例公开的一种对临床医学数据进行数据离散化的方法流程图;

图3为本发明实施例公开的一种在局部阶段,查找标准化临床医学数据中每个目标特征变量的马尔科夫毯的方法流程图;

图4为本发明实施例公开的一种在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构的方法流程图;

图5为本发明实施例公开的一种骨密度与骨密度影响因素之间因果关系的确定系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种骨密度与骨密度影响因素之间因果关系的确定方法及系统,以通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需长期的医学数据统计实验即可获取更可靠的骨密度与各个骨密度影响因素之间的因果关系。

参见图1,本发明实施例公开的一种骨密度与骨密度影响因素之间因果关系的确定方法流程图,该方法包括:

步骤S101、获取临床医学数据;

其中,临床医学数据中包含骨密度临床医学数据。

本实施例中,临床医学数据具体可以为2型糖尿病患者的临床医学数据。2型糖尿病(T2DM)是一种常见的糖尿病,2型糖尿病患者体内产生胰岛素的能力并非完全丧失,有的患者体内胰岛素甚至产生过多,但胰岛素的作用效果较差,因此患者体内的胰岛素是一种相对缺乏。虽然2型糖尿病患者比正常人更容易患骨质疏松症,但是2型糖尿病患者的骨密度可能比正常人的高,这是因为很多因素都会影响2型糖尿病患者的骨密度,因此,查找到2型糖尿病患者的骨密度影响因素,并确定骨密度与骨密度影响因素之间因果关系有重要的医学研究价值。

当然,本实施例中的临床医学数据包括但不限于2型糖尿病患者的临床医学数据,还可以为其他患者的临床医学数据,比如骨质疏松患者的临床医学数据。

步骤S102、对所述临床医学数据进行预处理,得到标准化临床医学数据;

在实际应用中,临床医学数据中可能会存在缺失值和异常值,因此在对临床医学数据进行处理之前,需要对临床医学数据进行预处理,包括缺失值补全、异常值修正以及数据离散化处理,从而得到标准化临床医学数据。

因此,本实施例中临床医学数据的预处理过程包括:缺失值补全、异常值修正以及数据离散化。

步骤S103、在局部阶段,查找所述标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集;

所述目标特征变量包括:骨密度临床医学数据中的骨密度数据和骨密度影响因素。

马尔科夫毯(Markov Blanket,MB)是贝叶斯网络(Bayesian Network,BN)的最有特征子集,贝叶斯网络中一个节点T的马尔科夫毯是其父节点,子节点和配偶节点的集合。

步骤S104、在全局阶段,根据所述马尔科夫毯集和医学先验知识得到全局有向无环图结构。

全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。

具体的,结合约束方法和分数方法,学习特征变量和目标特征变量之间的因果方向。此外,在学习阶段,全局BN结构会根据医学先验知识自动添加因果方向。

在获得MB集之后,根据专家的医学先验知识指导,通过步骤S104集成局部信息得到全局有向无环图结构。

有向无环图结构(Directed Acyclic Graph,DAG)指的是一个无回路的有向图。

为便于理解图1所示实施例,下面举例说明:

假设,中国科学技术大学第一附属医院收集的T2DM患者的临床医学数据中,每个临床医学数据样本有34个特征变量(分别标号为1-34),包括患者血液样本测定的人体测量指数、生物化学指数、血脂谱、维生素水平和6个BMD值(BMD1,BMD2,BMD3,BMD4,BMD5,BMD6)等,通过图1所示实施例确定骨密度与骨密度影响因素之间的因果关系。

按照步骤S102对T2DM患者的临床医学数据(包括400个训练数据和100个测试数据)进行预处理,得到目标临床医学数据,目标临床医学数据为:所有临床医学数据中同一个特征变量的数值的平均值为0,且标准差为1,并根据非响应变量和响应变量的关联关系进行数据离散化。

按照步骤S103、确定各个目标节点的MB集。

按照步骤S104、根据临床医学先验知识确定特征变量3,5,6,7,8是6个BMD值的原因,然后利用步骤S103中学习的MB集,最终可以得到6个BMD值的相关因素以及它们之间的因果机制,如下:

特征变量1、2、3、5、6、7、8、11、12、15、28、29、33是所有6个BMD值的共同原因,这意味着这些特征对降低骨密度有潜在的影响。此外,特征9和特征30是BMD1的原因。特征16和特征30是BMD2的原因。特征9、10、20、34是导致BMD3的原因。特性16和特征17是导致BMD4的原因。BMD1会影响特征22。BMD2会影响特征7,8,26,BMD3会影响特征15,BMD4会影响特征6,23,25。BMD6不会对任何特征产生影响。

综上可知,本发明公开了一种骨密度与骨密度影响因素之间因果关系的确定方法,获取临床医学数据,该临床医学数据中包含骨密度临床医学数据,对临床医学数据进行预处理,得到标准化临床医学数据,在局部阶段,查找标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,目标特征变量包括:骨密度临床医学数据中的骨密度数据和骨密度影响因素,在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构,全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。本发明通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需长期的医学数据统计实验即可获取更可靠的骨密度与各个骨密度影响因素之间的因果关系。

为进一步优化上述实施例,参见图2,本发明实施例公开的一种对临床医学数据进行数据离散化的方法流程图,该方法包括:

步骤S201、对临床医学数据进行进行归一化处理,得到目标临床医学数据;

其中,每位患者的临床医学数据包括多个特征变量,比如,34个特征变量,假设采样n位患者的临床医学数据,则目标临床医学数据中n位患者的临床医学数据中的同一个特征变量的数值的平均值为0,且标准差为1。

因此,本实施例中目标临床医学数据为:所有临床医学数据中同一个特征变量的数值的平均值为0,且标准差为1。

步骤S202、将所述目标医学数据中各个特征变量中的骨密度特征变量确定为响应变量,非骨密度特征变量确定为非响应变量;

步骤S203、计算每个所述非响应变量和每个所述响应变量之间的关联关系值;

在实际应用中,可以使用Wilcoxon(威尔科克森)秩和检验或者使用Kruskal-Wallis(克鲁斯卡尔-沃利斯)非参数方差分析计算每个非响应变量和每个响应变量之间的关联关系值。

步骤S204、将关联关系值小于关联关系阈值的响应变量和非响应变量,采用第一离散方法进行数据化离散;

所述第一离散方法为:将标准差小于-1的响应变量和非响应变量的数值设置为0;将标准差在-1和1之间的响应变量和非响应变量的数值设置为0;将标准差大于1的响应变量和非响应变量的数值设置为2。

步骤S205、将关联关系值不小于所述关联关系阈值的响应变量和非响应变量,采用第二离散方法进行数据化离散。

所述第二离散方法为:基于卡方检验,使用滑动阈值或滑动窗口进行数据化离散。

本实施例中,使用滑动阈值将关联关系值不小于关联关系阈值的响应变量和非响应变量转换为二元;使用滑动窗口将关联关系值不小于关联关系阈值的响应变量和非响应变量转换为三元。

为进一步优化上述实施例,参见图3,本发明实施例公开的一种在局部阶段,查找标准化临床医学数据中每个目标特征变量的马尔科夫毯的方法流程图,该方法包括:

步骤S301、将所述标准化临床医学数据中的目标特征变量作为目标节点,从所有的特征变量中查找所述目标节点的邻节点;

本实施例中,步骤S301具体可以包括:

从所有的特征变量中查找目标节点所有的潜在邻节点;

计算每个所述潜在邻节点与所述目标邻节点之间的关联关系值;

从所有的所述潜在邻节点中筛选出关联关系值最大的作为所述目标节点的邻节点,并剔除所述潜在邻节点中错误的特征变量节点。

需要说明的是,在从所有的潜在邻节点中查找作为目标节点的最佳的邻节点时,可根据每个潜在邻节点与目标邻节点之间的关联关系值,按照关联关系值从大到小的顺序对各个潜在邻节点进行排序,从而筛选出作为目标节点的邻节点,该邻节点为目标节点的最佳邻节点。

步骤S302、基于所述邻接点,采用交叉验证方法修剪所述目标节点的父节点和子节点,得到修剪后的目标父节点和目标子节点;

其中,目标父节点和目标子节点以[T,X]的格式存储,T表示目标节点,X表示交叉验证变量节点。

可选的,如果目标节点T是交叉验证变量节点X的邻节点,而交叉验证变量节点X不是目标节点T的邻节点,则由于目标节点T和交叉验证变量节点X的不对称性,采用交叉验证方法时会将交叉验证变量节点X视作父节点,将目标节点T视作子节点。

步骤S303、基于所述邻节点,从所有的特征变量中查找所述目标节点的配偶节点;

假设变量节点Y为目标节点T的邻节点,交叉验证变量节点X是变量节点Y的邻节点,则在目标节点T独立于交叉验证变量节点X的条件下,可以查找到一个节点子集Z,该节点子集Z也即目标节点T的配偶节点。

步骤S304、将所述目标父节点、所述目标子节点和所述配偶节点的集合确定为所述目标特征变量的马尔科夫毯。

为进一步优化上述实施例,参见图4,本发明实施例公开的一种在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构的方法流程图,该方法包括:

步骤S401、在全局阶段,根据马尔科夫毯集和医学先验知识判断是否存在碰撞器,如果是,则执行步骤S402,如果否,则执行步骤S403;

本实施例中的碰撞器指的是:head-to-head的节点。

在有向无环图中,如果变量A有两条从特征变量M和特征变量N连进来的箭头,即M->A<-N,无论M和N是否相邻,则X即是一个碰撞器。

步骤S402、基于所述碰撞器构建全局有向无环图结构;

步骤S403、采样启发式方法构造潜在贝叶斯网络的全局有向无环图结构。

本实施例中,当存在碰撞器时,采用碰撞器来构建整体的DAG。如果没有发现碰撞器,则使用启发式方法,用MB集合的约束和先验规则来构造潜在贝叶斯网络的全局有向无环图结构。在这个过程中,所使用的启发式方法可以为最速上升爬山法。

与上述方法实施例相对应,本发明还公开了一种骨密度与骨密度影响因素之间因果关系的确定系统。

参见图5,本发明实施例公开的一种骨密度与骨密度影响因素之间因果关系的确定系统的结构示意图,该系统包括:

获取单元501,用于获取临床医学数据,所述临床医学数据中包含骨密度临床医学数据;

预处理单元502,用于对所述临床医学数据进行预处理,得到标准化临床医学数据,所述预处理包括:缺失值补全、异常值修正以及数据离散化;

在实际应用中,临床医学数据中可能会存在缺失值和异常值,因此在对临床医学数据进行处理之前,需要对临床医学数据进行预处理,包括缺失值补全、异常值修正以及数据离散化处理,从而得到标准化临床医学数据。

因此,本实施例中临床医学数据的预处理过程包括:缺失值补全、异常值修正以及数据离散化。

查找单元503,用于在局部阶段,查找所述标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,所述目标特征变量包括:所述骨密度临床医学数据中的骨密度数据和骨密度影响因素;

因果关系确定单元504,用于在全局阶段,根据所述马尔科夫毯集和医学先验知识得到全局有向无环图结构,所述全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。

综上可知,本发明公开了一种骨密度与骨密度影响因素之间因果关系的确定系统,获取临床医学数据,该临床医学数据中包含骨密度临床医学数据,对临床医学数据进行预处理,得到标准化临床医学数据,在局部阶段,查找标准化临床医学数据中各个目标特征变量的马尔科夫毯,得到一个马尔科夫毯集,目标特征变量包括:骨密度临床医学数据中的骨密度数据和骨密度影响因素,在全局阶段,根据马尔科夫毯集和医学先验知识得到全局有向无环图结构,全局有向无环图结构用于表征骨密度与骨密度影响因素之间的因果关系。本发明通过医学先验知识结合局部阶段确定的各个目标特征变量的马尔科夫毯,从临床医学数据中确定骨密度与骨密度影响因素之间的因果关系,由于医学先验知识是充分的,因此,本发明无需长期的医学数据统计实验即可获取更可靠的骨密度与各个骨密度影响因素之间的因果关系。

为进一步优化上述实施例,预处理单元502具体可以用于:

对所述临床医学数据进行进行归一化处理,得到目标临床医学数据;

将所述目标医学数据中各个特征变量中的骨密度特征变量确定为响应变量,非骨密度特征变量确定为非响应变量;

计算每个所述非响应变量和每个所述响应变量之间的关联关系值;

将所述关联关系值小于关联关系阈值的响应变量和非响应变量,采用第一离散方法进行数据化离散,所述第一离散方法为:将标准差小于-1的响应变量和非响应变量的数值设置为0;将标准差在-1和1之间的响应变量和非响应变量的数值设置为0;将标准差大于1的响应变量和非响应变量的数值设置为2;

将所述关联关系值不小于所述关联关系阈值的响应变量和非响应变量,采用第二离散方法进行数据化离散,所述第二离散方法为:基于卡方检验,使用滑动阈值或滑动窗口进行数据化离散。

本实施例中,使用滑动阈值将关联关系值不小于关联关系阈值的响应变量和非响应变量转换为二元;使用滑动窗口将关联关系值不小于关联关系阈值的响应变量和非响应变量转换为三元。

为进一步优化上述实施例,查找单元503具体可以包括:

第一查找子单元,用于将所述标准化临床医学数据中的目标特征变量作为目标节点,从所有的特征变量中查找所述目标节点的邻节点;

修剪子单元,用于基于所述邻接点,采用交叉验证方法修剪所述目标节点的父节点和子节点,得到修剪后的目标父节点和目标子节点;

第二查找子单元,用于基于所述邻节点,从所有的特征变量中查找所述目标节点的配偶节点;

确定子单元,用于将所述目标父节点、所述目标子节点和所述配偶节点的集合确定为所述目标特征变量的所述马尔科夫毯。

在实际应用中,第一查找子单元具体可以用于:

从所有的特征变量中查找所述目标节点所有的潜在邻节点;

计算每个所述潜在邻节点与所述目标邻节点之间的关联关系值;

从所有的所述潜在邻节点中筛选出关联关系值最大的作为所述目标节点的邻节点,并剔除所述潜在邻节点中错误的特征变量节点。

为进一步优化上述实施例,因果关系确定单元504具体可以用于:

在全局阶段,根据马尔科夫毯集和医学先验知识判断是否存在碰撞器;

如果是,则基于所述碰撞器构建所述全局有向无环图结构;

如果否,则采样启发式方法构造潜在贝叶斯网络的所述全局有向无环图结构。

本实施例中的碰撞器指的是:head-to-head的节点。

在有向无环图中,如果变量A有两条从特征变量M和特征变量N连进来的箭头,即M->A<-N,无论M和N是否相邻,则X即是一个碰撞器。

当存在碰撞器时,采用碰撞器来构建整体的DAG。如果没有发现碰撞器,则使用启发式方法,用MB集合的约束和先验规则来构造潜在贝叶斯网络的全局有向无环图结构。在这个过程中,所使用的启发式方法可以为最速上升爬山法。

需要说明的是,系统实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号