首页> 中国专利> 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法

基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法

摘要

本发明公开了一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,引入蛋白质结构特性,将其与蛋白质原始序列、氨基酸理化属性相结合来构建位点特征空间;采用模块化密集卷积网络捕获不同层级的特征信息,在特征学习过程中减少信息丢失和信息串扰;并引入压缩‑激发层来评估不同特征的重要性,提高网络的抽象能力,以识别潜在的赖氨酸乙酰化位点。本发明能够有效地解决现有方法仅考虑蛋白质序列层面信息和特征学习效率低下的问题,更准确的预测了潜在的赖氨酸乙酰化位点,降低赖氨酸乙酰化位点的验证成本,提高了赖氨酸乙酰化修饰的研究效率。

著录项

  • 公开/公告号CN112447265A

    专利类型发明专利

  • 公开/公告日2021-03-05

    原文格式PDF

  • 申请/专利权人 太原理工大学;

    申请/专利号CN202011344614.3

  • 申请日2020-11-25

  • 分类号G16B20/30(20190101);G16B15/00(20190101);G16B5/00(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构51304 成都东恒知盛知识产权代理事务所(特殊普通合伙);

  • 代理人何健雄;廖祥文

  • 地址 030000 山西省太原市迎泽西大街79号

  • 入库时间 2023-06-19 10:06:57

说明书

技术领域

本发明涉及赖氨酸乙酰化位点预测研究与分析领域,尤其涉及一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法。

背景技术

赖氨酸乙酰化是一种保守的蛋白质翻译后修饰,与多种代谢疾病密切相关,因此,赖氨酸乙酰化位点的识别对于代谢疾病治疗的研究具有重要意义。蛋白质结构特性包含高度有用的结构信息,为蛋白质翻译后修饰的鉴定提供了有力的依据;特征学习过程中,不同层级特征间的信息存在互补,同时关注不同层级特征的信息能够有效提高特征质量。现有的深度学习方法采用蛋白质序列层面的信息作为输入,未考虑到蛋白质结构特性;特征提取时仅考虑了高层级特征,导致信息严重丢失,进而降低预测结果。

发明内容

本发明的目的在于避免现有技术的不足之处而提供一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法。

本发明的目的可以采用如下的技术措施来实现,设计一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,包括:

从蛋白质结构特性、蛋白质原始序列和氨基酸理化属性信息三个方面描述赖氨酸乙酰化位点,构建位点初始特征空间;

采用模块化密集卷积网络,从位点的初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,通过密集跳跃连接同时关注低层级特征和高层级特征;

引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,实现三类信息的自适应动态融合;

基于融合特征和softmax层构建赖氨酸乙酰化位点分类器,预测潜在的赖氨酸乙酰化位点;

训练基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型;

通过十折交叉验证、独立测试、模型泛化能力测试和对未知赖氨酸乙酰化位点的识别能力四种类型的实验来评估提出的模型。

其中,从蛋白质结构特性、蛋白质原始序列和氨基酸理化属性信息三个方面描述赖氨酸乙酰化位点,构建位点初始特征空间的步骤包括:

(1)赖氨酸乙酰化位点的实验数据收集和预处理;

(2)通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入。

其中,赖氨酸乙酰化位点的实验数据收集和预处理,包括步骤:

从蛋白质赖氨酸修饰数据库(PLMD)收集并下载了6078条、3645条和1860条经实验验证的人类、小家鼠和大肠杆菌赖氨酸乙酰化蛋白质数据。

考虑到SPIDER3服务器无法处理含有非标准氨基酸的蛋白质序列,本发明手动删除了这些蛋白质序列。以人类这一物种为例,利用CD-HIT工具进行序列去冗余避免序列同源性较大而造成模型的偏差,阈值设定为0.4,保留了4977条乙酰化蛋白质序列。本发明将过滤后的4977条乙酰化蛋白质序列随机选择10%(498条)构建独立测试数据集,剩余乙酰化蛋白质序列作为训练数据集,便于与其他赖氨酸乙酰化位点预测器进行比较。

其中,通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入,包括步骤:

(1)使用one-of-21编码位点的蛋白质原始序列信息,对于长度为L的基序,将得到L×21维的蛋白质原始序列信息的向量表示;

(2)采用Atchley因子编码位点的氨基酸理化属性信息,每个氨基酸残基由5个Atchley因子表示,对于长度为L的基序,将得到L×5维的氨基酸理化属性信息的向量表示;

(3)通过SPIDER3获取蛋白质结构特性信息,包括3种属性中的8个指数,即二级结构:α螺旋P(H)、β链P(C)、γ环P(E),局部骨干扭转角:

其中,采用模块化密集卷积网络,从位点的初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,通过密集跳跃连接同时关注低层级特征和高层级特征,包括步骤:

(1)引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块;

(2)采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补。

其中,引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块,包括步骤:

基于蛋白质结构特性、蛋白质原始序列和氨基酸理化属性分别构建了结构模块、序列模块和理化模块和三个特征提取子模块,各子模块间参数空间相互独立,有效避免了三类信息之间的串扰,提高特征的质量。

其中,采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补,包括步骤:

由于结构模块、序列模块和理化模块网络结构相同,这里仅对序列模块进行说明:

(1)首先,序列模块接收长度为L的位点基序的one-of-21编码作为输入,然后通过一维卷积层生成蛋白质原始序列信息的低级特征图,如公式(1)所示。

X

其中,I为one-of-21编码向量。

(2)采用密集卷积块提取蛋白质原始序列信息的高级特征表示,密集卷积过程如公式(2)所示。

X

其中,X

(3)采用过渡层将(2)得到的蛋白质原始序列信息的特征图再进行卷积运算和激活操作,过渡层过程如公式(3)所示。

X=σ([X

其中,

(4)重复(2)、(3)步骤,构成堆叠密集卷积块。第四次的(2)步骤后不进行(3)步骤,而是使用全局平均池化替代。

经过上述过程,序列模块提取到位点的蛋白质原始序列的高级特征X

类似,理化模块和结构模块也通过上述过程提取到位点的氨基酸理化性质和蛋白质结构特性的高级特征。

其中,引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,实现三类信息的自适应动态融合包括步骤:

(1)引入压缩-激发(SE)层评估特征的重要性,加权每个特征图;

(2)蛋白质结构特性、蛋白质原始序列和氨基酸理化属性三类信息的自适应动态融合。

其中,引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,包括步骤:

以序列模块为例进行说明:

(1)压缩(squeeze):采用全局平均池化将序列模块提取到的高级特征X

其中,z

(2)激发(excitation):采用两个全连接层(FC)捕获X

s=F

其中,

(3)特征缩放(scale):通过以下激活缩放X

其中,

类似,理化模块和结构模块也通过SE层得到加权后的高级特征。

其中,蛋白质结构特性、蛋白质原始序列和氨基酸理化属性三类信息的自适应动态融合,包括步骤:

SE层是基于全局平均池化和两个全连接层(FC)实现的,且结构模块、序列模块和理化模块的网络结构相同,都通过SE层得到加权后的高级特征。然后,串联每个子模块的输出,得到用于分类的融合特征

其中,基于融合特征和softmax层构建赖氨酸乙酰化位点分类器,预测潜在的赖氨酸乙酰化位点,包括步骤:

Softmax层接收高级特征

其中,

其中,训练基于模块化密集卷积网络赖氨酸乙酰化位点预测模型,包括步骤:

(1)采用交叉熵作为代价函数,以最小化训练误差:

其中,N为训练样本总数,y

(2)在训练中采用L2正则化,以减轻过拟合的影响,模型的最终目标函数为:

min

其中,λ为正则化系数,||W||

(3)采用Adam优化器对目标函数进行优化,学习率和批处理分别设置为0.0001和1000。采用early stopping策略和dropout技术进一步防止模型过度拟合。

(4)采用类重新加权的方法,增加阳性样本的影响,迫使模型学习占少数的阳性样本的抽象机制。

(5)本发明中,深度学习模型是基于Keras 2.1.6和TensorFlow 1.13.1实现的,模型训练和测试在具有Ubuntu 18.04.1LTS系统并配备GPU Nvidia Tesla V100-PCIE-32GB的工作站上进行。

其中,通过十折交叉验证、独立测试、模型泛化能力测试和对未知赖氨酸乙酰化位点的识别能力四种类型的实验来评估提出的模型,包括步骤:

(1)采用十折交叉验证在相同基准训练数据集下比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型和其他预测方法的性能;

(2)采用独立测试的方式,进一步比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型与其他模型的预测能力;

(3)采用泛化实验的方式进一步验证基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型具有较好的泛化能力;

(4)在独立测试集上,验证排名前20的候选位点,评估基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型识别未知的赖氨酸乙酰化位点的能力。

区别于现有技术,本发明所述的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,引入蛋白质结构特性,将其与蛋白质原始序列、氨基酸理化属性相结合以构建位点特征空间;采用模块化密集卷积网络捕获不同层级的特征信息,在特征学习过程中减少信息丢失和信息串扰;并引入压缩-激发层来评估不同特征的重要性,提高网络的抽象能力,以识别潜在的赖氨酸乙酰化位点。本发明能够有效地解决现有方法仅考虑蛋白质序列层面信息和特征学习效率低下的问题,更准确的预测了潜在的赖氨酸乙酰化位点,降低赖氨酸乙酰化位点的验证成本,提高了赖氨酸乙酰化修饰的研究效率。

附图说明

图1是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法的流程示意图;

图2是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,所收集的人类数据集信息,其中CD-HIT的阈值为0.4;

图3是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,密集卷积网络的示意图;

图4是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,压缩-激发模块的示意图;

图5是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,0.4去冗余阈值下,人类训练数据集上不同方法的十倍交叉验证性能,粗体为相应指标下最高值;

图6是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,不同预测方法在0.4去冗余阈值下,人类独立测试数据集上的预测性能;

图7是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,各模型在0.4去冗余阈值下,大肠杆菌独立测试数据集上预测性能,粗体为相应指标下最高值;

图8是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法中,0.4去冗余阈值下,人类独立测试乙酰化蛋白质的前20个候选位点的预测结果,粗体是实际发生乙酰化修饰的位点。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

参阅图1,图1是本发明提供的一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法的流程示意图。

该方法的步骤包括:

S110:从蛋白质结构特性、蛋白质原始序列和氨基酸理化属性信息三个方面描述赖氨酸乙酰化位点,构建位点初始特征空间。

所述步骤S110包括:

1、赖氨酸乙酰化位点的实验数据收集和预处理;

2、通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入。

赖氨酸乙酰化位点的实验数据收集和预处理,包括步骤:

从蛋白质赖氨酸修饰数据库(PLMD)收集并下载了6078条、3645条和1860条经实验验证的人类、小家鼠和大肠杆菌赖氨酸乙酰化蛋白质数据。

考虑到SPIDER3服务器无法处理含有非标准氨基酸的蛋白质序列,本发明手动删除了这些蛋白质序列。以人类这一物种为例,利用CD-HIT工具进行序列去冗余避免序列同源性较大而造成模型的偏差,阈值设定为0.4,保留了4977条乙酰化蛋白质序列。本发明将过滤后的4977条乙酰化蛋白质序列随机选择10%(498条)构建独立测试数据集,剩余乙酰化蛋白质序列作为训练数据集,便于与其他赖氨酸乙酰化位点预测器进行比较。

通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入,包括步骤:

(1)使用one-of-21编码位点的蛋白质原始序列信息,对于长度为L的基序,将得到L×21维的蛋白质原始序列信息的向量表示;

(2)采用Atchley因子编码位点的氨基酸理化属性信息,每个氨基酸残基由5个Atchley因子表示,对于长度为L的基序,将得到L×5维的氨基酸理化属性信息的向量表示;

(3)通过SPIDER3获取蛋白质结构特性信息,包括3种属性中的8个指数,即二级结构:α螺旋P(H)、β链P(C)、γ环P(E),局部骨干扭转角:

S120:采用模块化密集卷积网络,从位点的初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,通过密集跳跃连接同时关注低层级特征和高层级特征。

所属步骤S120包括:

1、引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块;

2、采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补。

引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块,包括步骤:

基于蛋白质结构特性、蛋白质原始序列和氨基酸理化属性分别构建了结构模块、序列模块和理化模块和三个特征提取子模块,各子模块间参数空间相互独立,有效避免了三类信息之间的串扰,提高特征的质量。

采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补,包括步骤:

由于结构模块、序列模块和理化模块网络结构相同,这里仅对序列模块进行说明:

(1)首先,序列模块接收长度为L的位点基序的one-of-21编码作为输入,然后通过一维卷积层生成蛋白质原始序列信息的低级特征图,如公式(1)所示。

X

其中,I为one-of-21编码向量。

(2)采用密集卷积块提取蛋白质原始序列信息的高级特征表示,密集卷积过程如公式(2)所示。

X

其中,X

(3)采用过渡层将(2)得到的蛋白质原始序列信息的特征图再进行卷积运算和激活操作,过渡层过程如公式(3)所示。

X=σ([X

其中,

(4)重复(2)、(3)步骤,构成堆叠密集卷积块。第四次的(2)步骤后不进行(3)步骤,而是使用全局平均池化替代。

经过上述过程,序列模块提取到位点的蛋白质原始序列的高级特征X

类似,理化模块和结构模块也通过上述过程提取到位点的氨基酸理化性质和蛋白质结构特性的高级特征。

S130:引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,实现三类信息的自适应动态融。

所属步骤S130包括:

1、引入压缩-激发(SE)层评估特征的重要性,加权每个特征图;

2、蛋白质结构特性、蛋白质原始序列和氨基酸理化属性三类信息的自适应动态融合。

引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,包括步骤:

以序列模块为例进行说明:

(1)压缩(squeeze):采用全局平均池化将序列模块提取到的高级特征X

其中,z

(2)激发(excitation):采用两个全连接层(FC)捕获X

s=F

其中,

(3)特征缩放(scale):通过以下激活缩放X

其中,

类似,理化模块和结构模块也通过SE层得到加权后的高级特征。

蛋白质结构特性、蛋白质原始序列和氨基酸理化属性三类信息的自适应动态融合,包括步骤:

SE层是基于全局平均池化和两个全连接层(FC)实现的,且结构模块、序列模块和理化模块的网络结构相同,都通过SE层得到加权后的高级特征。然后,串联每个子模块的输出,得到用于分类的融合特征

S140:基于融合特征和softmax层构建赖氨酸乙酰化位点分类器,预测潜在的赖氨酸乙酰化位点。

所属步骤S140包括:

Softmax层接收高级特征

其中,

S150:训练基于模块化密集卷积网络赖氨酸乙酰化位点预测模型。

所属步骤S150包括:

1、采用交叉熵作为代价函数,以最小化训练误差:

其中,N为训练样本总数,y

2、在训练中采用L2正则化,以减轻过拟合的影响,模型的最终目标函数为:

min

其中,λ为正则化系数,||W||

3、采用Adam优化器对目标函数进行优化,学习率和批处理分别设置为0.0001和1000。采用early stopping策略和dropout技术进一步防止模型过度拟合。

4、采用类重新加权的方法,增加阳性样本的影响,迫使模型学习占少数的阳性样本的抽象机制。

5、本发明中,深度学习模型是基于Keras 2.1.6和TensorFlow 1.13.1实现的,模型训练和测试在具有Ubuntu 18.04.1LTS系统并配备GPU Nvidia Tesla V100-PCIE-32GB的工作站上进行。

S160:通过十折交叉验证、独立测试、模型泛化能力测试和对未知赖氨酸乙酰化位点的识别能力四种类型的实验来评估提出的模型。

所属步骤S160包括:

1、采用十折交叉验证在相同基准训练数据集下比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型和其他预测方法的性能;

2、采用独立测试的方式,进一步比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型与其他模型的预测能力;

3、采用泛化实验的方式进一步验证基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型具有较好的泛化能力;

4、在独立测试集上,验证排名前20的候选位点,评估基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型识别未知的赖氨酸乙酰化位点的能力。

其中,采用十折交叉验证在相同基准训练数据集下比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型和其他预测方法的性能,包括步骤:

(1)采用了十折交叉验证的方式,将本发明的模型与其他现有的赖氨酸乙酰化位点预测模型:MusiteDeep、CapsNet、DeepAcet、PSKAcePred、EnsemblePail、GPS-PAIL2.0和ProAcePred进行比较。

(2)采用六种统计度量指标评估模型的性能,包括灵敏度(Sn)、特异性(Sp)、准确度(Acc)、精确率(Pre)、马修相关系数(MCC)和几何均值(G-mean),它们的定义如下:

其中,TP、TN、FP和FN分别为真阳性、真阴性、假阳性和假阴性。当阳性样本和阴性样本不平衡时,MCC和G-mean指标可以很好地反映模型质量。此外,我们还采用接收器工作特性(ROC)曲线下面积(AUC)和精确率召回率(PR)曲线下面积(AUPR)来衡量模型整体性能,AUC和AUPR值越高,表明模型整体表现越好。模型的比较结果见说明书附图。

其中,采用独立测试的方式,进一步比较基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型与其他方法的预测能力,包括步骤:

对于具有独立工具的模型,采用训练数据训练模型,然后在独立测试数据集上进行潜在的赖氨酸乙酰化位点预测,对于提供Web服务的模型,仅基于独立测试数据集测试其预测性能。结果表明基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型具有最高的MCC、G-mean、AUC和AUPR,在独立测试数据集上表现最优,相较于其他预测方法具有更好的赖氨酸乙酰化位点预测能力。独立测试的结果见说明书附图。

其中,采用泛化实验的方式进一步验证基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型具有较好的泛化能力,包括步骤:

采用了泛化实验的方式,在人类数据集0.3去冗余阈值下、小家鼠数据集0.4和0.3去冗余阈值下以及大肠杆菌数据集0.4和0.3去冗余阈值下对赖氨酸乙酰化位点进行预测。由结果得出基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型具有较好的泛化能力,能够适用于不同物种数据集,这为更多的其他物种的赖氨酸乙酰化修饰位点的预测提供了可用参考。泛化能力测试的结果见说明书附图。

其中,在独立测试集上,验证排名前20的候选位点,评估基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型识别未知的赖氨酸乙酰化位点的能力,包括步骤:

根据独立测试集的结果列出了本发明的模型预测为赖氨酸乙酰化的前20个候选位点,并在在赖氨酸修饰数据库PLMD和蛋白质数据库Uniprot(https://www.uniprot.org)中手动查验这20个候选位点。通过统计验证结果,发现20个候选位点中有13个是真正乙酰化的,占比为65%。人类独立测试乙酰化蛋白质的前20个候选位点结果见说明书附图。

以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号