首页> 中国专利> 基于代谢组学数据的自杀倾向与自杀行为预测方法及系统

基于代谢组学数据的自杀倾向与自杀行为预测方法及系统

摘要

本发明涉及基于代谢组学数据的自杀倾向与自杀行为预测方法及系统,所述方法包括:S1、获取待检测用户血液中代谢产物数据或待检测用户的最终代谢生物标志物的数据;所述代谢产物数据中包括多个代谢物大类的数据;所述代谢物大类的数据中包括多种代谢物的数据;所述最终生物标志物的数据为预先设定的代谢物的数据;S2、采用最终的神经网络分类器模型对所述待检测用户的代谢产物数据或最终代谢生物标志物的数据进行辨识,确定相应的辨识结果;所述最终的神经网络分类器模型为预先设定的初始神经网络分类器模型经过预先设定的代谢物数据训练样本训练后得到的分类器模型。

著录项

  • 公开/公告号CN112906938A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 南京脑科医院;

    申请/专利号CN202110059787.9

  • 发明设计人 张锡哲;王菲;张然;

    申请日2021-01-18

  • 分类号G06Q10/04(20120101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11613 北京易捷胜知识产权代理事务所(普通合伙);

  • 代理人韩国胜

  • 地址 210029 江苏省南京市鼓楼区广州路264号

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及计算机应用技术领域,尤其涉及基于代谢组学数据的自杀倾向与自杀行为预测方法及系统。

背景技术

自杀是指个体蓄意或自愿采取各种手段结束自己生命的行为,是全球范围内青少年非意外死亡的主要原因之一,是一个全球关注的社会和公共卫生问题,在我国总自杀率是23.23/10万,每年导致28万人死亡,已成为我国居民第五位的死亡原因,是15岁至34岁人群第一位的死亡原因,为国家、社会及家庭带来了严重的社会和经济负担。

大量研究表明,重性抑郁障碍(major depressive disorder,MDD),双相情感障碍(bipolar disorder,BD)和精神分裂症(schizophrenia,SZ)是与自杀联系最密切的三种重性精神疾病。在21世纪初,全球非自然原因死亡率最高的是抑郁症,达到30%;BD的自杀研究表明:每年有约0.4%的BD患者自杀,比普通人群高20倍;精神分裂症患者的终生自杀率约为10%,自杀是导致精神分裂症患者预期寿命下降的最大原因。MDD,BD和SZ患者的自杀行为已经成为公共卫生领域、精神卫生领域、人类学领域等多领域的重要公共问题。

目前关于重性精神疾病自杀行为的科学研究和临床实践中存在的瓶颈问题是自杀行为产生的原因复杂,关于自杀意愿的表露基于个体的主观选择,缺乏客观、可靠、有指导意义的生物学标记帮助实现自杀风险的早期客观预测和评估;同时自杀风险是一个不断发展变化的过程,因此临床上很难把握个体的自杀风险程度。

目前自杀人群判断断中,主要依赖问卷诊断的方式,缺乏一个客观的判断指标,难以判断患者自杀倾向。传统上对自杀倾向的临床诊断还主要停留在定性与简单主观评价上,主要依赖于医生评估以及患者自评,具有很强的主观性,一方面对医生经验有极高的要求,另一方面需要被试的积极配合和主动应答,但是相当一部分精神疾病患者,特别是对于那些受到心理创伤之后往往隐藏自己的感受并拒绝寻求他人帮助的人来说,他们很难去说出自己的真实感受,导致这些方法无法发挥作用。这些因素将导致难以客观地反映患者的真实自杀倾向,因此,传统的问卷诊断的方式很难去客观的进行自杀倾向的诊断并做出精确的诊断。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足,本发明提供一种基于代谢组学数据的自杀倾向与自杀行为预测方法及系统,其解决了解决了传统方法中主观性过强的问题。

(二)技术方案

为了达到上述目的,本发明采用的主要技术方案包括:

第一方面,本发明实施例提供一种基于代谢组学数据的自杀倾向与自杀行为预测方法,所述方法包括:

S1、获取待检测用户的血液中代谢产物数据或待检测用户的最终代谢生物标志物的数据;

所述代谢产物数据中包括多种代谢物大类的数据;

所述代谢物大类的数据中包括多种代谢物的数据;

所述最终代谢生物标志物的数据为预先设定的代谢物的数据;

S2、采用最终的神经网络分类器模型对所述待检测用户的代谢产物数据或最终代谢生物标志物的数据进行辨识,确定相应的辨识结果;

所述辨识结果包括:具有自杀行为的结果和具有无自杀行为的结果;

所述最终的神经网络分类器模型为预先设定的初始神经网络分类器模型经过预先设定的代谢物数据训练样本进行训练后得到的分类器模型。

优选的,在所述S1之前还包括:

A1、根据预先获取的多个具有结果标签的用户代谢产物数据,获取所述代谢物数据训练样本;

自杀意念和自杀企图均属于自杀行为。自杀意念是指具有想要结束自己生命或者想到自杀的想法;自杀未遂被定义为一种非致命的、自我导向的、意图结束个体生命的伤害行为。经精神科医生咨询后,如果用户报告存在自杀意念或自杀企图史,判定其纳入具有自杀行为的数据,反之则纳入无自杀行为的数据。

所述结果标签包括:具有自杀行为的标签和具有无自杀行为的标签;

A2、基于预先获取的多个具有结果标签的用户代谢产物数据以及所述代谢物数据训练样本和预先设定的初始神经网络分类器模型,获取最终的神经网络分类器模型并确定最终代谢生物标志物。

优选的,

所述用户的代谢产物数据包括:采用预设的高分辨质谱仪进行血浆非靶向代谢组学数据采集得到的数据。

优选的,所述A1具体包括:

A11、针对预先获取的多个具有结果标签的用户代谢产物数据进行预处理,获取具有结果标签的预处理后的用户代谢产物数据;

其中所述预处理包括:缺失值填充处理、标准化处理、协变量消除处理;

A12、并将所述具有结果标签的预处理后的用户代谢产物数据,按照代谢物大类进行划分,获取具有结果标签的预处理后的用户代谢产物数据中每一代谢物大类所对应的数据,并将所述每一代谢物大类所对应的数据作为代谢物数据训练样本。

优选的,

所述初始神经网络分类器模型包括:输入层、第一隐藏层、第二隐藏层以及输出层;

其中所述第一隐藏层的神经元的数量为32;

所述第二隐藏层的神经元的数量为16;

其中,输入层、第一隐藏层、第二隐藏层以及输出层中的每一层均具有L1正则化项;

所述初始神经网络分类器模型还具有Adam模型优化器。

优选的,所述A2包括:

A21、采用每一代谢物大类所对应的代谢物数据训练样本对所述初始神经网络分类器模型进行训练,获取最终的神经网络分类器模型;

A22、根据预先获取的多个具有结果标签的用户代谢产物数据和所述最终的神经网络分类器模型,确定最终代谢生物标志物。

优选的,所述A22包括:

A221、将预先获取的多个具有结果标签的用户的代谢产物数据中的多个代谢物大类的数据分别输入到所述最终的神经网络分类器模型中,获得每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value;

A222、根据所述每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value,确定最终代谢生物标志物。

优选的,所述A222包括:

A2221、根据所述每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value,确定第一生物标志物;

其中,所述第一生物标志物为最终的神经网络分类器模型的准确率准确率大于0.75和p-value小于0.05所对应的代谢物大类;

A2222、基于所述第一生物标志物,确定最终代谢生物标志物。

优选的,所述A2222包括:

A22221、基于所述第一生物标志物,获取所述第一生物标志物中任意两个第一生物标志物之间的皮尔逊相关系数;

A22222、以代谢物种类作为节点,皮尔逊相关系数作为边的权重值构建代谢物相关图,并将所述代谢物相关图中权重值对应的皮尔逊相关系数小于0.7的边删除;

A22223、采用Louvain社团发现算法针对以代谢物种类的节点进行社团划分,获取多个社团;

其中,每一社团中包括多个节点;

A22224、针对每一社团,获取所述社团中任一节点的加权度值;

其中所述节点的加权度值为所述节点的所有皮尔逊相关系数大于或等于0.7的权重值的和;

A22225、基于每一社团中任一节点的加权度值,将加权度值最高的节点所对应的代谢物种类作为所述社团的代表生物标志物,并将每一社团的代表生物标志物作为最终代谢生物标志物。

第二方面,本发明实施例提供一种基于代谢组学数据的自杀倾向与自杀行为预测系统,包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一的基于代谢组学数据的自杀倾向与自杀行为预测方法。

(三)有益效果

本发明的有益效果是:本发明的一种基于代谢组学数据的自杀倾向与自杀行为预测方法及系统,由于通过检测待检测用户的代谢组学数据,基于代谢组学数据进行自杀风险的预测,可以有效地检测出待检测用户隐藏的自杀倾向或预期的自杀行为,是一种客观的检测方式,解决了传统的问卷谈话诊断方式主观性过强的缺点。并且,基于本发明发现的代谢组学客观最终生物学标志物,只需要检测相关的最终生物标志物即可,大大降低了检测成本。

附图说明

图1为本发明的一种基于代谢组学数据的自杀风险预测方法流程图;

图2为本发明实施例中各个大类代谢物分类预测准确率以及p-value示意图;

图3为本发明实施例中脂肪酸、维生素胺、磷脂酰胆碱以及甘油三酸酯的ROC曲线图;

图4为本发明实施例中的各个社团的示意图。

具体实施方式

为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。

为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

参见图1,本实施例提供一种基于代谢组学数据的自杀风险预测方法,所述方法包括:

S1、获取待检测用户的血液中代谢产物数据或待检测用户的最终代谢生物标志物的数据;

所述代谢产物数据中包括多个代谢物大类的数据;

所述代谢物大类的数据中包括多种代谢物的数据;

所述最终代谢生物标志物的数据为预先设定的代谢物的数据;

S2、采用最终的神经网络分类器模型对所述待检测用户的代谢产物数据或生物标志物的数据进行辨识,确定相应的辨识结果;

所述辨识结果包括:具有自杀行为的结果和具有无自杀行为的结果;

所述最终的神经网络分类器模型为预先设定的初始神经网络分类器模型经过预先设定的代谢物数据训练样本训练后得到的分类器模型。

本实施例中优选的,在所述S1之前还包括:

A1、根据预先获取的多个具有结果标签的用户代谢产物数据,获取所述代谢物数据训练样本;

所述结果标签包括:具有自杀行为的标签和具有无自杀行为的标签;

A2、基于预先获取的多个具有结果标签的用户代谢产物数据以及所述代谢物数据训练样本和预先设定的初始神经网络分类器模型,获取最终的神经网络分类器模型并确定最终生物标志物。

本实施例中优选的,

所述用户的代谢产物数据包括:采用预设的高分辨质谱仪进行血浆非靶向代谢组学数据采集得到的数据。

本实施例中获取用户的代谢产物数据,具体包括:

首先获取用户血浆样本,然后加入代谢组提取液进行样品预处理。非靶向代谢组学数据采集基于超高效液相色谱-四级杆-静电场轨道阱高分辨质谱仪UPLC-HRMS(ThermoScientific)进行。检测过程中加入质量控制(QC)样本的测定,每30个样本加入一个QC样本,以确定代谢组数据的可靠性和可重复性。原始数据预处理通过Compund Discovererversion 2.1和TraceFinder software version 4.1(Thermo Scientific,USA)软件完成,包括峰对齐,峰检测参数设定,峰面积提取和数据归一化。最后共采集包括氨基酸,脂肪酸等30大类代谢物共669个代谢物。

本实施例中优选的,所述A1具体包括:

A11、针对预先获取的多个具有结果标签的用户代谢产物数据进行预处理,获取具有结果标签的预处理后的用户代谢产物数据;

其中预处理包括:缺失值填充处理、标准化处理、协变量消除处理;

在本实施例的实际应用中,由于预先获取的多个具有结果标签的用户代谢产物数据中的某些数据存在着少量的缺失值,我们采用均值填充的方式来对缺失值进行处理,即使用缺失值所在列的平均值进行填充。

其次,不同评价指标往往具有不同的量纲,数值之间的差别可能很大,为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,使之落入一个特定的区域,便于进行综合分析。我们采用z-score对数据进行标准化处理,使得经过处理的数据是符合标准正态分布的。

最后,性别以及年龄可能会对具有结果标签的用户代谢产物数据产生影响,是协变量,我们采用协变量消除的方式来回归掉性别及年龄因素对于具有结果标签的用户代谢产物数据的影响。

A12、并将所述具有结果标签的预处理后的用户代谢产物数据,按照代谢物大类进行划分,获取具有结果标签的预处理后的用户代谢物数据中每一代谢物大类所对应的数据;并将所述每一代谢物大类所对应的数据作为代谢物数据训练样本。

本实施例中优选的,所述初始神经网络分类器模型包括:输入层、第一隐藏层、第二隐藏层以及输出层;其中所述第一隐藏层的神经元的数量为32;所述第二隐藏层的神经元的数量为16。

其中,输入层、第一隐藏层、第二隐藏层以及输出层中的每一层均具有L1正则化项。

所述初始神经网络分类器模型还具有Adam模型优化器。

在本实施例的实际应用中,初始神经网络分类器模型包含一个输入层,两个隐藏层,以及一个输出层,其中隐藏层神经元的数量分别为32,16。设定激活函数为relu,每一层均添加了l1正则化防止模型过拟合,采用Adam作为模型优化器,选取分类器准确率作为模型的优化指标;同时,设定模型最大训练次数epoch、每个训练批次样本数batch_size、L1正则化项等。

本实施例中,所述A2包括:

A21、采用每一代谢物大类所对应的代谢物数据训练样本对所述初始神经网络分类器模型进行训练,获取最终的神经网络分类器模型。

本实施例的实际应用中,采用K折交叉验证及每一代谢物大类所对应的代谢物数据训练样本对所述初始神经网络分类器模型进行训练,获取最终的神经网络分类器模型;具体包括:

将每一代谢物大类所对应的代谢物数据训练样本划分为相等的K部分。

从划分的每一代谢物大类所对应的代谢物数据训练样本相等的K部分中选取一部分作为测试集,其余部分作为训练集;使用训练集训练初始神经网络分类器模型。

A22、根据预先获取的多个具有结果标签的用户代谢产物数据和所述最终的神经网络分类器模型,确定最终生物标志物。

本实施例中,所述A22包括:

A221、将预先获取的多个具有结果标签的用户的代谢产物数据中的多个代谢物大类的数据分别输入到所述最终的神经网络分类器模型中,获得每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value。

本实施例中,利用置换检验求得最终的神经网络分类器模型p-value,作为衡量最终的神经网络分类器模型稳定性的指标。

置换检验主要是通过随机置换标签或者特征之后,重新训练分类器,计算测试集准确率,并与使用原始标签进行训练的分类器测试集准确率作比较。

假若该分类器性能显著的话,其标签置换之后训练的分类器测试集准确率高于原始标签训练的分类器准确率的百分比(p-value)必然较小,我们可以将p-value较小的分类器看作是显著性较高的分类器。

A222、根据所述每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value,确定最终生物标志物。

本实施例中,所述A222包括:

A2221、根据所述每一代谢物大类的数据所对应的最终的神经网络分类器模型的准确率以及p-value,确定第一生物标志物。

其中,所述第一生物标志物为最终的神经网络分类器模型的准确率准确率大于0.75和p-value小于0.05所对应的代谢物大类。

A2222、基于所述第一生物标志物,确定最终生物标志物。

本实施例中,所述A2222包括:

A22221、基于所述第一生物标志物,获取所述第一生物标志物中任意两个第一生物标志物之间的皮尔逊相关系数。

本实施例中对这些代谢物两两之间进行皮尔逊相关性的计算,得出各个代谢物种类之间的皮尔逊相关系数。

A22222、以代谢物种类作为节点,皮尔逊相关系数作为边的权重值构建代谢物相关图,并将所述代谢物相关图中权重值对应的皮尔逊相关系数小于0.7的边删除。这样图中将会形成多个强连通分支。

A22223、采用Louvain社团发现算法针对以代谢物种类的节点进行社团划分,获取多个社团。

其中,每一社团中包括多个节点。

A22224、针对每一社团,获取所述社团中任一节点的加权度值;

其中所述结点的加权度值为所述节点的所有皮尔逊相关系数大于或等于0.7的权重值的和。

A22225、基于每一社团中任一节点的加权度值,将加权度值最高的节点所对应的代谢物种类作为所述社团的代表生物标志物,并将每一社团的代表生物标志物作为最终代谢生物标志物。

在本实施例的实际应用中,虽然已经挑选确定出了多个第一生物标志物,但是这些第一生物标志物依然包含较多种代谢物,其代谢物数量依旧较大,而且这些代谢物中,有相当一部分的代谢物其相关性是很高的。因此,我们可以再以更小的粒度对代谢物进行筛选,挑出对自杀风险预测较为关键的代谢物。

采用皮尔逊相关+社团分析的方式来进行代谢物的进一步筛选,首先对这些代谢物两两之间进行皮尔逊相关性的计算,得出各个代谢物种类之间的皮尔逊相关系数。接着以代谢物种类作为节点,皮尔逊相关系数作为边的权重值构建图。在该图中,对权重较小的边(皮尔逊相关系数<0.7)进行删边的操作,这样图中将会形成多个强连通分支,形成多个社团,在每一个社团中随机挑选出一个代谢物作为该社团的代表,这些社团中的挑选出的代表代谢物即可看作是关键代谢物,即最终代谢生物标志物。

本实施例中的一种基于代谢组学数据的自杀风险预测方法,由于通过检测待检测用户的代谢组学数据,基于代谢组学数据进行自杀风险的预测,可以有效地检测出待检测用户隐藏的自杀企图心,是一种相当快速方便的检测方式,解决了传统的问卷谈话诊断方式主观性过强的缺点。并且,基于本发明发现的代谢组学客观最终代谢生物标志物,只需要检测相关的最终代谢生物标志物即可,大大降低了检测成本。

实验验证

本实施例中,采集205位精神疾病患者的代谢物数据,对本发明的一种基于代谢组学数据的自杀风险预测方法进行验证,主要包括氨基酸,脂肪酸等30大类代谢物共669个代谢物,在这205名患者中,其中具有自杀行为的94人,无自杀行为的111人。

我们将采集得到的30个代谢物大类的数据分别输入到最终的神经网络分类器模型中,该模型最大训练次数epoch=200、每个训练批次样本数batch_size=16、L1正则化项=0.01,获得各个代谢物大类数据训练的分类器测试集准确率以及p-value。参见图2,各个大类代谢物分类预测准确率以及p-value。

将分类器准确率>0.75以及p-value<0.05的代谢物大类挑选出,最终挑选出的类别包括脂肪酸(acc=0.78,p-value=0.019),维生素胺(acc=0.75,p-value=0.019),磷脂酰胆碱(acc=0.76,p-value=0.05)以及甘油三酸酯(acc=0.82,p-value=0.019)这四类。其各项评估指标结果如表格所示:

参见图3,脂肪酸、维生素胺、磷脂酰胆碱以及甘油三酸酯的ROC曲线图。

最后,我们通过社团分析加皮尔逊相关分析的方式,进行更细粒度的生物标志物的筛选。参见图4,构建的图以及挑选出的每个社团的代表生物标志物。

我们使用挑选出的各个社团代表代谢物进行分类预测,其分类器准确率=0.80,其p-value=0.019,结果显示,其预测性能依旧处于一个较优的程度。这样的话,在共669种代谢物中,我们挑选了少量的代谢物作为生物标志物,并且其预测性能依旧处于一个较优的结果。其各项指标如下:

因此,基于本发明发现的代谢组学客观最终代谢生物学标志物,只需要检测相关的最终代谢生物标志物即可,大大降低了检测成本。此种技术在未来可应用于自杀风险的评估,预测出有自杀或自伤风险的个人及群体,在对这些个人及群体进行心理辅导,从而有效降低自杀或自伤行为的发生。

由于本发明上述实施例所描述的系统,为实施本发明上述实施例的方法所采用的系统,故而基于本发明上述实施例所描述的方法,本领域所属技术人员能够了解该系统的具体结构及变形,因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统都属于本发明所欲保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号