首页> 中国专利> 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置

一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置

摘要

本发明涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置,其方法包括:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,训练所述多任务时域卷积神经网络;利用蛋白质的统计深度特征预测蛋白质结构。本发明将蛋白质的统计深度特征与多任务时域卷积神经网络结合,减少模型的复杂度,提高了泛化性、拟合度。

著录项

  • 公开/公告号CN112289370A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 武汉金开瑞生物工程有限公司;

    申请/专利号CN202011585063.X

  • 发明设计人 华权高;赵海义;舒芹;

    申请日2020-12-28

  • 分类号G16B15/00(20190101);G16B40/00(20190101);G06N3/04(20060101);

  • 代理机构42242 武汉蓝宝石专利代理事务所(特殊普通合伙);

  • 代理人刘璐

  • 地址 430000 湖北省武汉市东湖开发区高新大道666号武汉国家生物产业基地项目B、C、D区研发楼B1楼

  • 入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明涉及生物信息和深度学习领域,尤其涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置。

背景技术

目前生物学中公认的是:蛋白质的生物功能由蛋白质的三维结构所决定;蛋白质的三维结构是由其一级结构决定的;功能相似的蛋白质在结构上也是相似的。

研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有

而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。随着蛋白质测序工作的进展,越来越多的蛋白质的氨基酸序列(即蛋白质一级结构)被测定并存储于各种不同的生物数据库中。蛋白质一级结构的数量以指数级别增长,这为蛋白质空间结构的研究带来了更大的便利与挑战。这样,由一级结构预测二级结构成了蛋白质组学的重要研究方向。

目前的蛋白质结构的预测技术中,并没有与相关的基因序列进行绑定,导致模型生成或预测蛋白质结构准确率不高;另一方面现有预测方法中大都通过综合蛋白质的多个特征经过一系列的复杂运算,特征在提取中丢失信息,从而导致预测蛋白质结构的准确率低和鲁棒性差。

发明内容

本发明现有蛋白质结构预测的准确率低和鲁棒性差的问题,在本发明的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

在本发明的一些实施例中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:

在本发明的一些实施例中,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。

在本发明的一些实施例中,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。

进一步的,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。

在本发明的一些实施例中,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。

在本发明的第二方面,提供了基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,包括获取模块、提取模块、映射模块、训练模块、预测模块,所述获取模块,用于获取目的基因序列,以及蛋白质数据库;所述提取模块,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

进一步的,所述预测模块包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。

在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

有益效果:

1.本发明通过根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,减少特征向量的维度,进而减少模型输入的复杂度和模型拟合时间;

2.通过对氨基酸序列的聚类,得到具有一定时序性、变长的氨基酸序列集合,经过时域卷积神经网络的处理,相比于其他卷积神经网络,提高了模型生成的氨基酸序列的拟合度;

3.由于多维向量中带有同源信息、进化速率,使得输入的样本中带有一定量的负样本,从而提高了模型的泛化能力、鲁棒性和准确率。

附图说明

图1为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测方法的基本流程图;

图2为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测方法流程示意图;

图3为氨基酸的密码子表;

图4为氨基酸的物理化学性质与蛋白质的统计深度特征的相关性示意图;

图5为本发明的一些实施例中的时域卷积神经网络的残差模块结构示意图;

图6为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测装置的结构示意图;

图7为本发明的电子设备的基本结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

参考图1至图3,在本发明的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:S101.获取目的基因序列,以及蛋白质数据库;S102.根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;S103.将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;S104.将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;S105.将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

在本发明的一些实施例的步骤S102中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:

参考图4,具体地,图中的第一列为氨基酸的单字符表示,Cl列表示氨基酸在数据集中出现的频率;C2列表示氨基酸的带电性,1表示带正电,表示带负电,0为不带电;C3列为极性,+1表示有极性,而-1为无极性;C4列是氨基酸的化学分类,(1,1)表示脂肪羟基类,(1,1)表示含碱性基类,(1,1)表示含酸性基类,(0,0)表示含羟基和硫类,(1,1)表示含芳基和环类;C5-C9分别为下列标准的疏水值:KD(Kyte and Doolittle,1982),Eisenberg(Eisenberg et al,1984),Meek(Meek, 1980),F-P Hl Wolfenden(Wolfenden et al,1981)。C11为蛋白质统计深度特征,C10、C12为与C11的关联参数。

在本发明的一些实施例的步骤S104中,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。

参考图5,上述时域卷积神经网络(Temporal Convolutional Network)可以将一维卷积层改为膨胀系数d为2、内核大小k为3的层,两个卷积层的输出将被添加到残差模块(residual block)的输入中,从而产生下一个块的输入。对于网络的所有内部块,即除了第一个和最后一个之外的所有内部块,输入和输出通道宽度是相同的,即num_filters。由于第一个残差模块的第一卷积层和最后一个残差模块的第二卷积层可能有不同的输入和输出通道宽度。除此之外,可通过引入dropout、Relu等方式规范隐含层的输入、防止模型的过拟合。可选的,由上一个残差模块直接经过1×1卷积(optional 1×1 convolution)与最后一层输入叠加之后输出到下层残差模块中(input for next residual block )。

在本发明的一些实施例的步骤S105中,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。

进一步的,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。

在本发明的一些实施例中,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。

可以理解,核酸的替换速率(Substitution rate)是指在单位时间内在特定位置上的核酸发生替换的次数。一般来说,第三个密码子位置的核酸的替换率远远大于前两个位置,第一个密码子位置的核酸的替换率又大于第二个密码子位置。在密码子模型中,每一个密码子被看作一个突变单元。这样,密码子的替换可以分为两类,第一类为同义替换,即替换前和替换后的密码子表达同一种氨基酸(比如GAG->GAA,它们都翻译为Glu);第二类为非同义替换,即替换前和替换后的密码子表达不同的氨基酸(比如GAG->GAC,它们分别翻译为Glu和Asp;

2.转换/颠换率(transition/ transversion ratio)。转换(Transition)是由嘌呤置换嘌呤或嘧啶置换嘧啶(TC,A-G);颠换(Transversion)是指嘌呤置换嘧啶或嘧淀置换嘌呤(TA,TG,CA,CG),一般来说,在进化过程中,碱基的转换要远多于颠换;

3.核酸和密码子的平衡频率(Equilibrium frequency)。密码子的平衡频率是指在进化的平稳马尔可夫过程中,序列中各个核酸的含量(即组分百分比),密码子的平衡频率这样估计:把这个密码子中三个碱基在两个序列的中的含量相乘。

可以理解,在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系,是重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)。蛋白质和DNA的同源性常常通过它们序列的相似性(Sequencesimilarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percentidentity)来表示。相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确定其是否具有同源性。可选地,利用Phylip软件绘制进化树,通过Treeview对进化树处理软件,通过Genetree来比较基因与种系进化树。

参考图6,在本发明的第二方面,提供了基于多任务时域卷积神经网络的蛋白质结构预测装置1,包括获取模块11、提取模块12、映射模块13、训练模块14、预测模块15,所述获取模块11,用于获取目的基因序列,以及蛋白质数据库;所述提取模块12,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述映射模块13,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块14,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测模块15,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

进一步的,所述预测模块15包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。

参考图7,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号