首页> 中国专利> 一种基于深度学习的代谢质谱筛查方法及系统

一种基于深度学习的代谢质谱筛查方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开一种基于深度学习的代谢质谱筛查方法及系统。本发明以现有的代谢质谱数据库为基础，通过提取并整合特定种类(如疾病)的代谢质谱样本，用于训练深度学习网络，使其可同时判定多种类别状态。而后将此网络用于实际输入代谢质谱的筛查。

著录项

公开/公告号CN105718744A

专利类型发明专利
公开/公告日2016-06-29

原文格式PDF
申请/专利权人深圳大学;纪震;周家锐;殷夫;朱泽轩;
展开▼

申请/专利号CN201610049879.8
发明设计人纪震;周家锐;殷夫;朱泽轩;
展开▼

申请日2016-01-25
分类号G06F19/00(20110101);G06N3/08(20060101);
代理机构44268 深圳市君胜知识产权代理事务所;
代理人王永文;刘文求
地址 518060 广东省深圳市南山区南海大道3688号
入库时间 2023-12-18 15:49:54

法律信息

法律状态公告日

法律状态信息

法律状态
2020-01-10

未缴年费专利权终止 IPC(主分类):G06N3/08 授权公告日:20180529 终止日期:20190125 申请日:20160125

专利权的终止
2018-05-29

授权

授权
2016-07-27

实质审查的生效 IPC(主分类):G06F19/00 申请日:20160125

实质审查的生效
2016-06-29

公开

公开

说明书

技术领域

本发明涉及代谢质谱筛查领域，尤其涉及一种基于深度学习的代谢质谱筛查方法及系统。

背景技术

代谢物是生物体内完成代谢过程的小分子有机化合物总称，包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究，可有效揭示生理现象背后的真实机理，并更为全面地展示生命体的动态状态。因此获得了越来越多的重视，被广泛应用于诸多科研与实用领域中。质谱分析(MassSpectrometry,MS)是代谢组学最为重要的研究工具之一，可有效鉴别不同的代谢物质，并准确衡量其相对浓度，数据形式如图1和图2所示。疾病检测是代谢质谱主要的应用范畴之一。通过定量测定目标代谢物的存在与丰度变化，可获得较传统方法更为丰富、完整的生理数据，对疾病的存在与发展状态进行有效判定，并协助医生拟定针对性的治疗方案。

现有基于代谢质谱的检测算法(例如应用于疾病检测或预测)，其流程包含三个主要步骤：1).峰值检测，将原始质谱经预处理消除噪声干扰，获取有效峰值。常用的预处理算法包括正规化(Standardization)、PCA白化、ZCA白化等；2).峰值注释(Annotation)，判定目标峰值(群)所对应的具体代谢物质种类。这一过程往往由实验人员人工完成，但近年来也出现了基于机器学习与人工神经网络的自动注释算法，获得了较好的效果；3).疾病判定，以生物标志物数据库为基础，通过分析特定代谢物的出现、消失或浓度变化，预测可能发生的疾病类型与发展状态。常用的生物标志物数据库包括小分子代谢途径数据库(SMPDB)、人类代谢物数据库(HMDB)等，而常用的判定算法包括支持向量机分类器(SupportVectorMachineClassifier)等。

深度学习网络是目前机器学习与人工神经网络领域最前沿、性能最佳的分析方法之一。在复杂认知问题上具有远优于传统算法的预测能力，泛化性能良好，并可同时对多个目标状态进行判定。获得了学术与工业界的高度重视，已被成功应用于计算机视觉、音频识别等重要领域中。

现有基于代谢质谱的检测方法，其缺点在于：

第一，现有方法需对质谱峰值进行判定与注释，以确定其对应的代谢物种类。这一过程往往要求专业人员的深度参与，即使利用了机器学习等自动化算法，仍需要人工对注释结果进行最终判定与调整。从而增加了应用成本与难度。此外，由于当前代谢组学知识仍有着大量缺失，通常在质谱中仅有不到一半的峰值可被成功注释，其平均置信度也较低。从而对于许多状态并不能进行有效预测。

第二，现有方法需针对每种特定类别，分析与其关联的各代谢标志物变化情况，才能对状态作出大致判断。这一过程较为复杂，需大量人工干预。且若部分标志物未能被成功注释，或其注释的置信度较低，或噪声信号被错误注释为代谢标志物，都将严重影响预测准确度。

第三，现有方法在每次进行分析时，仅能判定单一的状态。而在实际应用中，往往需检测多种不同的状态。若对其进行逐一分析，所需时间及成本都较高。如何设计并行化算法，在单次运行中同时筛查多个状态，是当前亟需解决的重要问题。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于深度学习的代谢质谱筛查方法及系统，旨在解决现有的代谢质谱检测方法其过程复杂、准确度低、时间及成本高等问题。

本发明的技术方案如下：

一种基于深度学习的代谢质谱筛查方法，其中，包括步骤：

A、获得训练样本数据集S＝{S₁,S₂,…S_n,…,S_N}，其中任意质谱S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d和i_d分别为第d条谱线的质核比与强度值；所述训练样本数据集S对应的类标矢量为c＝{c₁,c₂,…,c_N}；

B、对S中的每个质谱进行预处理得到代谢质谱特征数据集T＝{T₁,T₂,…,T_N}；

C、构造类标集合为C＝[C₁,C₂,…,C_N]，设若原类标矢量c中的任意样本类标c_n＝k，则对应的C_n构造为除第k维数值为1外，其余数值均为0的K维矢量；

D、将预处理后的代谢质谱特征数据集T＝{T₁,T₂,…,T_N}与类标集合C用于深度学习网络的训练；

E、构造包含1个输入层，1个输出层，以及L个隐含层的深度学习网络结构，其中输入层具有2D个节点，输出层具有K个节点，对于任意第l∈L个隐含层，设其节点数为P_l，且具有递减关系P_l-1>P_l，D为从S_n中选择强度值最高的谱线数量；

F、使用栈式自编码器分别训练各隐含层；

G、使用逻辑回归作为输出层节点的激活函数，逐一训练输出层的节点；

H、在对各层分别进行训练后，依次栈式叠加，构成代谢质谱筛查深度学习网络；

I、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调；

J、在训练完成后，将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。

所述的基于深度学习的代谢质谱筛查方法，其中，在步骤J中，对于新输入的代谢质谱样本S，先进行预处理，获得特征矢量T，而后送入代谢质谱筛查深度学习网络进行并行预测，获得对应的输出状态矢量为O。

所述的基于深度学习的代谢质谱筛查方法，其中，所述步骤B具体包括：

B1、从S_n中选择强度值最高的D条谱线，形成具有相同维度的质谱矢量S^*_n＝[(m₁,i₁),(m₂,i₂),…,(m_D,i_D)]，若S_n原长度小于D，则添加(0,0)谱线补齐；

B2、提取S^*_n的强度矢量为I_n＝[i₁,i₂,…,i_D]，对其进行正规化，使其在每个维度上的数值都具有0均值及单位方差:

$> i_{d}^{*} = \frac{i_{d} - μ_{n}}{δ_{n}}, i_{d} \in I_{n}$ >

其中μ_n、δ_n分别为I_n的均值与方差；

B3、提取S^*_n的质核比矢量为M_n＝[m₁,m₂,…,m_D]，将其与预处理后的I_n拼接，构造质谱特征矢量为T_n＝[m₁,m₂,…,m_D,i^*₁,i^*₂,…,i^*_D]，其包含2D个特征值。

所述的基于深度学习的代谢质谱筛查方法，其中，所述步骤F具体包括：

F1、设若当前训练的为第l个隐含层，构造3层自编码训练网络；

F2、使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数，则当前隐含层节点输出为：

$> H_{l} = \tanh (W_{l}^{h} H_{l - 1} + B_{l}^{h})$ >

其中W^h_l为隐含层权值矩阵，B^h_l为隐含层偏置矢量，H_l-1为第l-1层的隐含节点输出，H_l-1＝[h_l-1,1,h_l-1,2,…,h_l-1,Pl-1]；

F3、自编码训练网络输出层的节点输出为：

$> O_{l} = \tanh (W_{l}^{o} H_{l} + B_{l}^{o})$ >

其中W^o_l为输出层权值矩阵，B^o_l为输出层偏置矢量。输出矢量O_l＝[o_l,1,o_l,2,…,o_l,Pl-1]同样包含P_l-1个数值；

F4、定义差异代价函数为：

$> Ψ_{l} = \frac{1}{2 P_{l - 1}} {(| | H_{l - 1} - o_{l} | |_{2})}^{2}$ >

其中‖·‖₂表示矢量差值的2范数，此外，基于l₁正则化定义稀疏因子为：

ρ_l＝‖H_l‖₁

F5、定义完整的代价函数为：

J_l＝Ψ_l+λρ_l

其中λ为拉格朗日乘数；

F6、基于此完整的代价函数，使用反向传播算法训练W^h_l、B^h_l、W^o_l及B^o_l的数值，获得最佳的隐含层训练结果；

F7、更新l＝l+1，若l<L则转至步骤F1。

所述的基于深度学习的代谢质谱筛查方法，其中，所述步骤G具体包括：

G1、设当前训练的为输出层第k个节点，定义其差异代价函数为：

$> Ψ_{k} = - \frac{1}{N} (Σ_{n = 1}^{N} Σ_{s = 1}^{S} 1_{s} (O_{k}^{n}) l o g \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})})$ >

其中θ^s_k为输出层节点k的参数矩阵θ_k在第s∈S行的行矢量；S＝2为该节点所表示的状态总个数；b_k为偏置值；函数1_s()为示性函数，其中Oⁿ_k为输出层节点k在输入为H_Lⁿ时的输出，其值计算方法如下：

$> O_{k}^{n} = {argmax}_{s \in S} \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})}$ >

其中H_Lⁿ为最后的隐含层在使用样本T_n训练时的输出；

G2、定义稀疏因子为参数矩阵的1范数：

$> ρ_{k} = Σ_{s = 1}^{S} | | θ_{k}^{s} | |_{1}$ >

G3、定义完整的代价函数为：

J_k＝Ψ_k+λρ_k

其中λ为拉格朗日乘数；

G4、更新更新k＝k+1，若k<K则转至步骤G1。

一种基于深度学习的代谢质谱筛查系统，其中，包括：

数据获取模块，用于获得训练样本数据集S＝{S₁,S₂,…S_n,…,S_N}，其中任意质谱S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d和i_d分别为第d条谱线的质核比与强度值；所述训练样本数据集S对应的类标矢量为c＝{c₁,c₂,…,c_N}；

预处理模块，用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T＝{T₁,T₂,…,T_N}；

类标集合构造模块，用于构造类标集合为C＝[C₁,C₂,…,C_N]，设若原类标矢量c中的任意样本类标c_n＝k，则对应的C_n构造为除第k维数值为1外，其余数值均为0的K维矢量；

学习模块，用于将预处理后的代谢质谱特征数据集T＝{T₁,T₂,…,T_N}与类标集合C用于深度学习网络的训练；

深度学习网络结构构造模块，用于构造包含1个输入层，1个输出层，以及L个隐含层的深度学习网络结构，其中输入层具有2D个节点，输出层具有K个节点，对于任意第l∈L个隐含层，设其节点数为P_l，且具有递减关系P_l-1>P_l，D为从S_n中选择强度值最高的谱线数量；

隐含层训练模块，用于使用栈式自编码器分别训练各隐含层；

输出层训练模块，用于使用逻辑回归作为输出层节点的激活函数，逐一训练输出层的节点；

代谢质谱筛查深度学习网络构造模块，用于在对各层分别进行训练后，依次栈式叠加，构成代谢质谱筛查深度学习网络；

微调模块，用于使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调；

检测模块，用于在训练完成后，将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。

所述的基于深度学习的代谢质谱筛查系统，其中，在检测模块中，对于新输入的代谢质谱样本S，先进行预处理，获得特征矢量T，而后送入代谢质谱筛查深度学习网络进行并行预测，获得对应的输出状态矢量为O。

所述的基于深度学习的代谢质谱筛查系统，其中，所述预处理模块具体包括：

选择单元，用于从S_n中选择强度值最高的D条谱线，形成具有相同维度的质谱矢量S^*_n＝[(m₁,i₁),(m₂,i₂),…,(m_D,i_D)]，若S_n原长度小于D，则添加(0,0)谱线补齐；

正规化单元，用于提取S^*_n的强度矢量为I_n＝[i₁,i₂,…,i_D]，对其进行正规化，使其在每个维度上的数值都具有0均值及单位方差:

$> i_{d}^{*} = \frac{i_{d} - μ_{n}}{δ_{n}}, i_{d} \in I_{n}$ >

其中μ_n、δ_n分别为I_n的均值与方差；

拼接单元，用于提取S^*_n的质核比矢量为M_n＝[m₁,m₂,…,m_D]，将其与预处理后的I_n拼接，构造质谱特征矢量为T_n＝[m₁,m₂,…,m_D,i^*₁,i^*₂,…,i^*_D]，其包含2D个特征值。

所述的基于深度学习的代谢质谱筛查系统，其中，所述隐含层训练模块具体包括：

训练网络构造单元，用于设若当前训练的为第l个隐含层，构造3层自编码训练网络；

隐含层节点输出单元，用于使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数，则当前隐含层节点输出为：

$> H_{l} = \tanh (W_{l}^{h} H_{l - 1} + B_{l}^{h})$ >

其中W^h_l为隐含层权值矩阵，B^h_l为隐含层偏置矢量，H_l-1为第l-1层的隐含节点输出，H_l-1＝[h_l-1,1,h_l-1,2,…,h_l-1,Pl-1]；

输出层节点输出单元，用于自编码训练网络输出层的节点输出为：

$> O_{l} = \tanh (W_{l}^{o} H_{l} + B_{l}^{o})$ >

其中W^o_l为输出层权值矩阵，B^o_l为输出层偏置矢量。输出矢量O_l＝[o_l,1,o_l,2,…,o_l,Pl-1]同样包含P_l-1个数值；

第一差异代价函数定义单元，用于定义差异代价函数为：

其中‖·‖₂表示矢量差值的2范数，此外，基于l₁正则化定义稀疏因子为：

ρ_l＝‖H_l‖₁

第一完整代价函数定义单元，用于定义完整的代价函数为：

J_l＝Ψ_l+λρ_l

其中λ为拉格朗日乘数；

隐含层训练单元，用于基于此完整的代价函数，使用反向传播算法训练W^h_l、B^h_l、W^o_l及B^o_l的数值，获得最佳的隐含层训练结果；

第一更新单元，用于更新l＝l+1，若l<L则转至训练网络构造单元。

所述的基于深度学习的代谢质谱筛查系统，其中，所述输出层训练模块具体包括：

第二差异代价函数定义单元，用于设当前训练的为输出层第k个节点，定义其差异代价函数为：

$> Ψ_{k} = - \frac{1}{N} (Σ_{n = 1}^{N} Σ_{s = 1}^{S} 1_{s} (O_{k}^{n}) l o g \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})})$ >

$> O_{k}^{n} = {argmax}_{s \in S} \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})}$ >

其中H_Lⁿ为最后的隐含层在使用样本T_n训练时的输出；

范数定义单元，用于定义稀疏因子为参数矩阵的1范数：

$> ρ_{k} = Σ_{s = 1}^{S} | | θ_{k}^{s} | |_{1}$ >

第二完整代价函数定义单元，用于定义完整的代价函数为：

J_k＝Ψ_k+λρ_k

其中λ为拉格朗日乘数；

第二更新单元，用于更新k＝k+1，若k<K则转至第二差异代价函数定义单元。

有益效果：第一，本发面无需复杂的质谱预处理与峰值检测，只需将强度最高的部分谱线数据正规化，直接送入深度学习网络的输入层节点即可。输入数据也不仅局限于传统的一级质谱，而可使用更为先进的二级质谱(MS/MS)或NMR谱等。有效拓展了本发明的应用范围，降低了处理难度与成本。第二，本发明不依赖于峰植注释与代谢标志物变化的具体判定。在训练完成后，将不再需要专业人员的深度干预，可直接交由深度学习网络对输入的质谱进行自动分析，并行筛查所有目标状态。从而降低了实际应用中对操作人员的要求。此外，深度学习网络具有良好的鲁棒性能，即使部分代谢标志物信号被严重干扰或缺失，或代谢混合物中各分子相互作用影响谱线分布，仍可获得较为准确的判定结果。第三，本发明中的深度学习网络训练难度较大，所需时间较长。但由于属于离线过程，亦即仅需在开发系统时进行一次即可。而在后续的多次重复使用中，其判定为确定性计算，执行速度较快。且单次运行即可对目标中的所有状态进行预测，显著提升了筛查速度。而输出节点的具体数值可视作置信度权重，描述该节点对应状态的可信程度。

附图说明

图1和图2为本发明中二级质谱的数据结构示意图。

图3为本发明一种基于深度学习的代谢质谱筛查方法的流程图。

图4为本发明中使用栈式自编码器构造并训练深度学习网络的流程图。

图5为本发明中自编码训练网络的架构图。

具体实施方式

本发明提供一种基于深度学习的代谢质谱筛查方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图3，图3为本发明一种基于深度学习的代谢质谱筛查方法较佳实施例的流程图，如图所示，其包括步骤：

1)、获得训练样本数据集S＝{S₁,S₂,…S_n,…,S_N}，其中任意质谱S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d和i_d分别为第d条谱线的质核比与强度值；所述训练样本数据集S对应的类标矢量为c＝{c₁,c₂,…,c_N}；

2)、对S中的每个质谱进行预处理得到代谢质谱特征数据集T＝{T₁,T₂,…,T_N}；

3)、构造类标集合为C＝[C₁,C₂,…,C_N]，设若原类标矢量c中的任意样本类标c_n＝k，则对应的C_n构造为除第k维数值为1外，其余数值均为0的K维矢量；

4)、将预处理后的代谢质谱特征数据集T＝{T₁,T₂,…,T_N}与类标集合C用于深度学习网络的训练；

5)、构造包含1个输入层，1个输出层，以及L个隐含层的深度学习网络结构，其中输入层具有2D个节点，输出层具有K个节点，对于任意第l∈L个隐含层，设其节点数为P_l，且具有递减关系P_l-1>P_l，D为从S_n中选择强度值最高的谱线数量；

6)、使用栈式自编码器分别训练各隐含层；

7)、使用逻辑回归作为输出层节点的激活函数，逐一训练输出层的节点；

8)、在对各层分别进行训练后，依次栈式叠加，构成代谢质谱筛查深度学习网络；

9)、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调；

10)、在训练完成后，将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。

本发明的方法可以用来对目标疾病群中的疾病状态进行预测，但显然，其不仅限于对此进行检测，还可以对其他的代谢质谱类别进行检测，其使用范围较广。

在所述步骤1)中，当本发明应用于疾病数据的检测时，假设针对目标疾病群中包含的多种疾病，通过查询现有的代谢质谱数据库，如MetaboLights、HMBD等，整合获得训练样本数据集S＝{S₁,S₂,…,S_N}，其中任意质谱S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d、i_d分别为第d条谱线的质核比(MasstoChargeRatio)与强度(Intensity)值。对应类标矢量为c＝{c₁,c₂,…,c_N}，其中包含K+1种类标，亦即K种目标疾病与1种无疾病的正常样本。

在所述步骤2)中，对S中的每个质谱S_n(即代谢质谱样本)进行预处理，其具体包括：

a)从S_n中选择强度值最高的D条谱线，形成具有相同维度的质谱矢量S^*_n＝[(m₁,i₁),(m₂,i₂),…,(m_D,i_D)]，若S_n原长度小于D，则添加(0,0)谱线补齐；

b)提取S^*_n的强度矢量为I_n＝[i₁,i₂,…,i_D]，对其进行正规化，使其在每个维度上的数值都具有0均值及单位方差:

$> i_{d}^{*} = \frac{i_{d} - μ_{n}}{δ_{n}}, i_{d} \in I_{n}$ >

其中μ_n、δ_n分别为I_n的均值与方差，注意a)中添加用于维数补齐的(0,0)谱线不参与本步骤的计算。

c)提取S^*_n的质核比矢量为M_n＝[m₁,m₂,…,m_D]，将其与预处理后的I_n拼接，构造质谱特征矢量为T_n＝[m₁,m₂,…,m_D,i^*₁,i^*₂,…,i^*_D]，其包含2D个特征值。

在所述步骤3)中，构造类标集合为C＝[C₁,C₂,…,C_N]。设若原类标矢量C中的任意样本类标c_n＝k(疾病)，则对应的C_n构造为除第k维数值为1外，其余数值均为0的K维矢量。特别的，对于无疾病的样本，其C_n为全0值K维矢量。

在所述步骤4)中，将预处理后的代谢质谱特征数据集T＝{T₁,T₂,…,T_N}与类标集合C用于深度学习网络的训练。

在所述步骤5)中，如图4所示，构造包含1个输入层，1个输出层，以及L个隐含层的深度学习网络结构。其中输入层具有2D个节点，输出层具有K个节点。对于任意第l∈L个隐含层，设其节点数为P_l，且具有递减关系P_l-1>P_l。

在所述步骤6)中，使用栈式自编码器(StackedAutoencoder)分别训练各隐含层，其具体包括：

a)设若当前训练的为第l个隐含层，构造3层自编码训练网络如图5所示。

b)使用双曲正切函数(tanh)作为隐含层与自编码训练网络输出层的激活函数，则当前隐含层节点输出为：

$> H_{l} = \tanh (W_{l}^{h} H_{l - 1} + B_{l}^{h})$ >

其中W^h_l为隐含层权值矩阵，B^h_l为隐含层偏置矢量，H_l-1为第l-1层的隐含节点输出，H_l-1＝[h_l-1,1,h_l-1,2,…,h_l-1,Pl-1]；若l＝1，则使用输入层的2D个节点代替，亦即代谢质谱特征数据集T中的质谱T_n。

c)自编码训练网络输出层的节点输出为：

$> O_{l} = \tanh (W_{l}^{o} H_{l} + B_{l}^{o})$ >

其中W^o_l为输出层权值矩阵，B^o_l为输出层偏置矢量。输出矢量O_l＝[o_l,1,o_l,2,…,o_l,Pl-1]同样包含P_l-1个数值；

d)定义差异代价函数为：

$> Ψ_{l} = \frac{1}{2 P_{l - 1}} {(| | H_{l - 1} - o_{l} | |_{2})}^{2}$ >

其中‖·‖₂表示矢量差值的2范数，此外，基于l₁正则化(l₁-Regularization)定义稀疏因子为：

ρ_l＝‖H_l‖₁

e)定义完整的代价函数为：

J_l＝Ψ_l+λρ_l

其中λ为拉格朗日乘数，可用于约束隐含层的抽象程度。

f)基于此完整代价函数，使用反向传播算法(BackpropagationAlgorithm,BP)训练W^h_l、B^h_l、W^o_l及B^o_l的数值，获得最佳的隐含层训练结果。

g)更新l＝l+1，若l<L则转至6).a)。

在所述步骤7)中，训练深度学习网络的输出层，使用逻辑回归(LogisticRegression)作为输出层节点的激活函数。逐一训练这些节点，其步骤为：

a)设当前训练的为输出层第k个节点，定义其差异代价函数为：

$> Ψ_{k} = - \frac{1}{N} (Σ_{n = 1}^{N} Σ_{s = 1}^{S} 1_{s} (O_{k}^{n}) l o g \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})})$ >

其中θ^s_k为输出层节点k的参数矩阵θ_k在第s∈S行的行矢量；S＝2为该节点所表示的状态总个数，如阳性或阴性；b_k为偏置值；函数1_s()为示性函数(IndicatorFunction)，其中Oⁿ_k为输出层节点k在输入为H_Lⁿ时的输出，其值计算方法如下：

$> O_{k}^{n} = {argmax}_{s \in S} \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})}$ >

其中H_Lⁿ为最后的隐含层(第L层)在使用样本T_n训练时的输出；

b)定义稀疏因子为参数矩阵的1范数：

$> ρ_{k} = Σ_{s = 1}^{S} | | θ_{k}^{s} | |_{1}$ >

c)定义完整的代价函数为：

J_k＝Ψ_k+λρ_k

其中λ为拉格朗日乘数。以此为基础，使用梯度下降法设计输出层各节点的最佳权值矩阵与偏置值。

d)更新k＝k+1，若k<K则转至7).a)

在所述步骤8)中，在对各层分别进行训练后，依次栈式叠加，构成代谢质谱筛查深度学习网络。

在所述步骤9)中，使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调，以进一步提升预测精度。

在所述步骤10)中，对于新输入的代谢质谱样本S，先采用2).a)-c)方法进行预处理，获得特征矢量T，而后送入代谢质谱筛查深度学习网络进行并行预测，获得对应的输出状态矢量为O，当用于疾病数据的检测时，其中任意o_k＝1表示疾病k呈阳性，否则为阴性。该信息可作为后续科研与临床诊疗的基础数据。

基于上述方法，本发明还提供一种基于深度学习的代谢质谱筛查系统，其包括：

预处理模块，用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T＝{T₁,T₂,…,T_N}；

学习模块，用于将预处理后的代谢质谱特征数据集T＝{T₁,T₂,…,T_N}与类标集合C用于深度学习网络的训练；

隐含层训练模块，用于使用栈式自编码器分别训练各隐含层；

输出层训练模块，用于使用逻辑回归作为输出层节点的激活函数，逐一训练输出层的节点；

代谢质谱筛查深度学习网络构造模块，用于在对各层分别进行训练后，依次栈式叠加，构成代谢质谱筛查深度学习网络；

微调模块，用于使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调；

检测模块，用于在训练完成后，将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。

其中，在检测模块中，对于新输入的代谢质谱样本S，先进行预处理，获得特征矢量T，而后送入代谢质谱筛查深度学习网络进行并行预测，获得对应的输出状态矢量为O。

其中，所述预处理模块具体包括：

正规化单元，用于提取S^*_n的强度矢量为I_n＝[i₁,i₂,…,i_D]，对其进行正规化，使其在每个维度上的数值都具有0均值及单位方差:

$> i_{d}^{*} = \frac{i_{d} - μ_{n}}{δ_{n}}, i_{d} \in I_{n}$ >

其中μ_n、δ_n分别为I_n的均值与方差；

其中，所述隐含层训练模块具体包括：

训练网络构造单元，用于设若当前训练的为第l个隐含层，构造3层自编码训练网络；

隐含层节点输出单元，用于使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数，则当前隐含层节点输出为：

$> H_{l} = \tanh (W_{l}^{h} H_{l - 1} + B_{l}^{h})$ >

其中W^h_l为隐含层权值矩阵，B^h_l为隐含层偏置矢量，H_l-1为第l-1层的隐含节点输出，H_l-1＝[h_l-1,1,h_l-1,2,…,h_l-1,Pl-1]；

输出层节点输出单元，用于自编码训练网络输出层的节点输出为：

$> O_{l} = \tanh (W_{l}^{o} H_{l} + B_{l}^{o})$ >

其中W^o_l为输出层权值矩阵，B^o_l为输出层偏置矢量。输出矢量O_l＝[o_l,1,o_l,2,…,o_l,Pl-1]同样包含P_l-1个数值；

第一差异代价函数定义单元，用于定义差异代价函数为：

$> Ψ_{l} = \frac{1}{2 P_{l - 1}} {(| | H_{l - 1} - o_{l} | |_{2})}^{2}$ >

其中‖·‖₂表示矢量差值的2范数，此外，基于l₁正则化定义稀疏因子为：

ρ_l＝‖H_l‖₁

第一完整代价函数定义单元，用于定义完整的代价函数为：

J_l＝Ψ_l+λρ_l

其中λ为拉格朗日乘数；

隐含层训练单元，用于基于此完整的代价函数，使用反向传播算法训练W^h_l、B^h_l、W^o_l及B^o_l的数值，获得最佳的隐含层训练结果；

第一更新单元，用于更新l＝l+1，若l<L则转至训练网络构造单元。

其中，所述输出层训练模块具体包括：

第二差异代价函数定义单元，用于设当前训练的为输出层第k个节点，定义其差异代价函数为：

$> Ψ_{k} = - \frac{1}{N} (Σ_{n = 1}^{N} Σ_{s = 1}^{S} 1_{s} (O_{k}^{n}) l o g \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})})$ >

$> O_{k}^{n} = {argmax}_{s \in S} \frac{\exp (θ_{k}^{s} H_{L}^{n} + b_{k})}{Σ_{s = 1}^{S} \exp (θ_{k}^{s} H_{L}^{n} + b_{k})}$ >

其中H_Lⁿ为最后的隐含层在使用样本T_n训练时的输出；

范数定义单元，用于定义稀疏因子为参数矩阵的1范数：

$> ρ_{k} = Σ_{s = 1}^{S} | | θ_{k}^{s} | |_{1}$ >

第二完整代价函数定义单元，用于定义完整的代价函数为：

J_k＝Ψ_k+λρ_k

其中λ为拉格朗日乘数；

第二更新单元，用于更新k＝k+1，若k<K则转至第二差异代价函数定义单元。

关于上述模块单元的技术细节在前面的方法中已有详述，故不再赘述。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度学习的代谢质谱筛查方法及系统 [P] . 中国专利： CN105718744B . 2018.05.29
2. 一种基于深度学习技术的肺结节筛查方法及筛查系统 [P] . 中国专利： CN113160153A . 2021-07-23
3. METABOLIC MASS SPECTROMETRY SCREENING METHOD FOR DISEASES BASED ON DEEP LEARNING AND THE SYSTEM THEREOF [P] . 美国专利： US2017213000A1 . 2017-07-27

机译：基于深度学习的疾病代谢质谱筛查方法及其系统
4. RNA- A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning [P] . 韩国专利： KR20190048926A . 2019-05-09

机译： RNA-一种基于深度学习的系统，用于通过深度学习评估RNA引导的核酸酶活性
5. RNA- A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning [P] . 韩国专利： KR102029197B1 . 2019-10-08

机译： RNA-一种基于深度学习的系统，用于通过深度学习评估RNA引导的核酸酶活性