首页> 中国专利> 基于AI技术绘制毒株蛋白质二维谱的方法

基于AI技术绘制毒株蛋白质二维谱的方法

摘要

本发明公开了一种基于AI技术绘制毒株蛋白质二维谱的方法,该方法针对毒株蛋白质序列、结构与音乐在表现形式上的特点,基于AI技术实现了由毒株蛋白质结构生成二维乐谱的方法,从而建立起毒株蛋白质序列与音乐的一一对应关系,以辅助毒株蛋白质的分析研究。该方法将毒株蛋白质以二维谱的方式进行表达后,在进行毒株蛋白质的研究时,既可通过二维谱从视觉上直观看到不同毒株蛋白质的区别之处,也可将二维谱演奏成音乐,从听觉上感知不同毒株蛋白质的不同,为毒株蛋白质的研究提供了一种新的方式方法。

著录项

  • 公开/公告号CN112397138A

    专利类型发明专利

  • 公开/公告日2021-02-23

    原文格式PDF

  • 申请/专利权人 内蒙古民族大学;

    申请/专利号CN202010995311.1

  • 发明设计人 张辉;王利;

    申请日2020-09-21

  • 分类号G16B15/00(20190101);G16B40/00(20190101);

  • 代理机构21229 沈阳维特专利商标事务所(普通合伙);

  • 代理人王翠

  • 地址 028000 内蒙古自治区通辽市科尔沁区霍林河大街22号

  • 入库时间 2023-06-19 09:58:59

说明书

技术领域

本发明公开涉及人工智能应用的技术领域,尤其涉及一种基于AI技术绘制毒株蛋白质二维谱的方法。

背景技术

在生命科学领域,AI技术也逐渐开启无法替代的数据分析地位。蛋白质作为生命体的重要组成,具有序列的多样性和功能结构的复杂性,以致蛋白质研究至今依然是科学家们难以彻底攻破的生命领域。

目前,进行蛋白质表征的方式主要由蛋白质的氨基酸序列以及空间结构等,是否可通过其他形式进行蛋白质的表征,以提升蛋白质的可视化效果,便于分析,成为人们研究的焦点。

发明内容

鉴于此,本发明提供了一种基于AI技术绘制毒株蛋白质二维谱的方法,通过AI技术将毒株蛋白质以二维谱的形式进行表征,在增加蛋白质可视化效果的同时,还将不同的毒株蛋白质与不同的音乐对应,以从视觉和听觉双方面辅助蛋白质的分析研究。

本发明提供的技术方案,具体为,一种基于AI技术绘制毒株蛋白质二维谱的方法,其特征在于,包括如下步骤:

S1:获取毒株蛋白质样本的一级结构以及二级结构;

S2:将所述毒株蛋白质样本的一级结构中的氨基酸序列视为线性排列,形成一维单通道数据;

S3:将所述毒株蛋白质样本的二级结构中四个主链原子在三维空间各坐标系的投影,形成主链骨架原子的三通道数据;

S4:基于生成式对抗网络构建蛋白质生成二维谱模型,采用多个毒株蛋白质样本,分别以音乐风格以及蛋白质序列作为约束条件,进行所述蛋白质生成二维谱模型的训练,获得模型参数;

S5:在步骤S4获得的模型参数下,利用蛋白质生成二维谱模型进行毒株蛋白质的二维谱绘制。

优选,步骤S2中,将所述毒株蛋白质样本的一级结构中的氨基酸序列视为线性排列,形成一维单通道数据,具体为:

依据图像灰度值0~255的取值范围,设置组成蛋白质的20种氨基酸的值为s

依据所述毒株蛋白质样本中氨基酸的序列以及所述氨基酸对应的数值,形成一维单通道数据。

进一步优选,步骤S3中,将所述毒株蛋白质样本的二级结构中四个主链原子在三维空间各坐标系的投影,形成主链骨架原子的三通道数据,具体为:

根据图像灰度值0~255的取值范围,设置主链氨基酸骨架原子C

将四个主链原子在三维空间各坐标系的投影形成主链骨架原子的三通道分布灰度图像,数据为三通道数据。

进一步优选,所述多个毒株蛋白质样本包括:自然毒株蛋白质样本以及采用生成式对抗网络增加的毒株蛋白质样本。

进一步优选,步骤S4中,基于生成式对抗网络构建的蛋白质生成二维谱模型,包括:

二维谱生成器、音乐生成判别器、音乐风格判别器、蛋白质逆生成器以及蛋白质判别器;

所述蛋白质生成二维谱模型的训练过程包括:

S401:将毒株蛋白质样本中一级结构的单通道数据、毒株蛋白质样本中二级结构的三通道数据以及音乐风格约束的单通道数据输入到二维谱生成器中,生成二维谱,输出音乐作品;

S402:通过所述音乐判别器判断所述二维谱生成器所生成的音乐与真实音乐的差距;

S403:通过所述音乐风格判别器判断所生成的音乐是否为符合指定风格约束;

S404:依据步骤S402和步骤403的判别结果,调整所述二维谱生成器和所述音乐判别器对应的模型参数,直至符合阈值要求;

S405:通过所述蛋白质逆向生成器,以所述二维谱生成器生成的二维谱以及蛋白质序列约束作为其输入,生成人造蛋白质序列;

S406:通过所述蛋白质判别器判别所述人造蛋白质序列与真实蛋白质序列的差距,如果差距超过阈值,调整所述二维谱生成器和所述音乐判别器对应的模型参数后,重复步骤S401~步骤S405,直至所述人造蛋白质序列与真实蛋白质序列的差距符合阈值要求。

进一步优选,所述二维谱生成器的第一层为由一通道和三通道构成的混合卷积层,采用不同线路进行输入数据的卷积处理,其中,对于输入的蛋白质一级结构数据,依据氨基酸分布特性,采用20种3×1卷积核,步长=3;对于输入的蛋白质二级结构数据,依据氨基酸三维分布特征,对应主骨架原子设置4种3×3×3卷积核,步长=3;对于音乐风格约束数据,根据音乐风格限制采用对应的m个3×1卷积核,步长=1;

中间层次,参照CycleGAN模型,但是,为最大程序保留各种特征,不采用池化层,各层激活函数采用LReLu函数;

输出层采用Softmax进行综合,并完成二维谱绘制。

进一步优选,所述蛋白质生成二维谱模型的目标函数为:

T=min(G+L

其中,G为二维谱生成器(G1)的目标函数:

G(X1,C)=max(E

L

L

L

L

F为蛋白质逆生成器(F1)的目标函数:

F(Y,L)=max(E

L

L

其中,X1是蛋白质一、二级结构混合通道数据、Z是由F1生成的人造蛋白质序列、X2是真实已有音乐数据、X3是对Z的判别结果、C音乐风格约束、L蛋白质序列特性约束、Y二维谱生成器G1生成的二维谱音乐数据。

进一步优选,所述毒株蛋白质为新冠状病毒蛋白质。

本发明提供的基于AI技术绘制毒株蛋白质二维谱的方法,该方法针对毒株蛋白质序列、结构与音乐在表现形式上的特点,基于AI技术实现了由毒株蛋白质结构生成二维乐谱的方法,从而建立起毒株蛋白质序列与音乐的一一对应关系,以辅助毒株蛋白质的分析研究。该方法将毒株蛋白质以二维谱的方式进行表达后,在进行毒株蛋白质的研究时,既可通过二维谱从视觉上直观看到不同毒株蛋白质的区别之处,也可将二维谱演奏成音乐,从听觉上感知不同毒株蛋白质的不同,为毒株蛋白质的研究提供了一种新的方式方法。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质二维谱的方法的框架流程图;

图2为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质二维谱的方法的具体流程示意图;

图3为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质二维谱的方法中基于生成式对抗网络构建的蛋白质生成二维谱模型图;

图4为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质二维谱的方法中对于蛋白质生成二维谱模型的训练流程图。

图5为本发明公开实施例提供的一种基于AI技术绘制毒株蛋白质二维谱的方法中二维谱生成器G1的模型结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的方法的例子。

为了实现从另一种角度进行毒株蛋白质的表征,以辅助蛋白质的分析研究,本实施方案提供了一种基于AI技术绘制毒株蛋白质二维谱的方法,通常毒株蛋白质的基本组成元素是20种氨基酸,音乐的基本组成单位是七种音阶,二者虽然基本元素数量不同,但仍可以通过设计映射方法进行基本元素之间的匹配。

蛋白质在20种氨基酸按照不同排列组合形成一级结构的基础上,还可以通过共价键、非共价键构建多种空间构象,形成形状、功能多变的生物大分子。音乐在不同音阶排列组合的基础上,形成基本曲调。再融入节奏、和声、力度、调式、曲式、织体以及音色的综合与调节,形成具有不同特色的风格和旋律,给人以不同的感官体验。

针对毒株蛋白质序列、结构与音乐在表现形式上的特点,基于AI技术可实现由毒株蛋白质结构生成二维乐谱的方法,从而建立起新冠病毒蛋白质序列与音乐的关系。

本实施方案提供的基于AI技术绘制毒株蛋白质二维谱的方法中,主要包括:建立病毒蛋白质生成二维乐谱的训练、检验数据集,针对毒株蛋白样本量不足,可采用生成式对抗网络增加病毒样本;设计基于氨基酸结构与音乐再构象的映射关系,建立不同的表达结果的关联性,基于生成式对抗网络技术建立二维谱音乐生成方法;蛋白质一级和二级结构、音乐风格作为约束,输入生成器;生成符合特定乐风的二维谱,该二维谱通过蛋白质生成器可以生成符合新冠病毒结构的蛋白质;以生成的音乐作为新的输入,分别送入音乐判别器和蛋白质生成器,音乐判别器用于判断所生成的音乐是否符合作曲规则,蛋白质生成器用于生成类蛋白质二、三级结构,并与原始蛋白质进行对比,确保音乐与蛋白质的关联性。

参见图1,为基于AI技术绘制毒株蛋白质二维谱的方法的整体框架流程,在该框架流程的指导下,参见图2,本实施方案提供的基于AI技术绘制毒株蛋白质二维谱的方法,具体包括如下步骤:

S1:获取毒株蛋白质样本的一级结构以及二级结构;

S2:将所述毒株蛋白质样本的一级结构中的氨基酸序列视为线性排列,形成一维单通道数据;

S3:将所述毒株蛋白质样本的二级结构中四个主链原子在三维空间各坐标系的投影,形成主链骨架原子的三通道数据;

S4:基于生成式对抗网络构建蛋白质生成二维谱模型,采用多个毒株蛋白质样本,分别以音乐风格以及蛋白质序列作为约束条件,进行所述蛋白质生成二维谱模型的训练,获得模型参数;

S5:在步骤S4获得的模型参数下,利用蛋白质生成二维谱模型进行毒株蛋白质的二维谱绘制。

在上述方法中,毒株蛋白质样本的一级结构、毒株蛋白质样本的二级结构、音乐风格约束以及蛋白质序列约束均作为输入数据。

其中,

毒株蛋白质样本的一级结构数据:以蛋白质数据氨基酸一级序列为输入,由于构成蛋白质一级结构是氨基酸脱水形成前后线形连接,本方法将蛋白质一级结构中的氨基酸序列视为线性排列,数据形成一维单通道数据,即一维数据。依据图像灰度值0~255的取值范围,设置组成蛋白质的20种氨基酸的值为s

毒株蛋白质样本的二级结构数据:蛋白质序列二级结构,由于存在α螺旋、β折叠,并且主链也连接有若干次链接氨基酸,二级结构成为三维空间分布。忽略对空间特征影响较小的次链接氨基酸,根据图像灰度值0~255的取值范围,设置主链氨基酸骨架原子C

音乐风格约束条件:是将不同特定音乐风格的音调、合弦、节奏以有音乐作品的类别、音乐创作的规则等形成音乐风格约束。

蛋白质序列约束条件:以新冠病毒一级、二级结构的氨基酸序列一维、三维特性抽象的综合特征作为模型的蛋白质序列约束。

由于在蛋白质生成二维谱模型的训练过程中,需要大量毒株蛋白质的样本数据,而对于一些病毒而言,由于样本量较少,无法满足训练的要求,例如:新冠病毒,此时可通过人造方式进行毒株蛋白样本的扩增,以满足模型的训练要求,对于毒株蛋白样本的扩增的方法可以选多种,本方案中采用生成式对抗网络的深度学习模式来增加的毒株蛋白质样本。

参见图3,为本实施方案提供的一种基于生成式对抗网络构建的蛋白质生成二维谱模型,该模型基于生成式对抗模型,以毒株蛋白生成二维乐谱、特定风格音乐为研究对像,设计蛋白质到音乐的生成模型,该模型包括:二维谱生成器G1、音乐生成判别器D1、音乐风格判别器D2、蛋白质逆生成器F1以及蛋白质判别器D3,输入输入蛋白质一级、二级结构X1,音乐风格约束C以及蛋白质序列约束L,即可生成二维谱,输出音乐作品。

对于上述蛋白质生成二维谱模型的训练过程,参见图4,包括:

S401:将毒株蛋白质样本中一级结构的单通道数据和毒株蛋白质样本中二级结构的三通道数据构成的混合通道数据X1以及音乐风格约束的单通道数据C输入到二维谱生成器G1中,生成二维谱,输出音乐作品;

S402:通过音乐判别器D1判断所述二维谱生成器G1所生成的音乐与真实音乐的差距;

S403:通过音乐风格判别器D2判断所生成的音乐是否为符合指定风格约束,控制G1生成的音乐风格与特定病毒病序列相一致;

S404:依据步骤S402和步骤403的判别结果,调整二维谱生成器G1和音乐判别器D1对应的模型参数,直至符合阈值要求;

S405:通过蛋白质逆向生成器F1,以二维谱生成器G1生成的二维谱以及蛋白质序列约束L作为其输入,生成人造蛋白质序列X3;

S406:通过蛋白质判别器D3判别所述人造蛋白质序列X3与真实蛋白质序列X1的差距,如果差距超过阈值,调整二维谱生成器G1和音乐判别器D1对应的模型参数后,重复步骤S401~步骤S405,直至所述人造蛋白质序列X3与真实蛋白质序列X1的差距符合阈值要求。

上述二维谱生成器G1的输入数据包括:由蛋白质一级结构单通道数据和二级结构生成的三通道数据所构成的混合通道数据X1、音乐风格约束C组成的单通道数据,即X1+C构成混合多通道数据。

参见图5,为二维谱生成器G1的模型结构示意图,该二维谱生成器G1的第一层为由一通道和三通道构成的混合卷积层,分别对应蛋白质一级结构、音乐风格约束和蛋白质空间二级结构,采集病毒蛋白质第一级特征,依据数据数据采用不同线路进行输入数据的卷积处理,其中,为提取蛋白质氨基酸特征,对于输入的蛋白质一级结构数据,依据氨基酸分布特性,采用20种3×1卷积核,步长=3;对于输入的蛋白质二级结构数据,依据氨基酸三维分布特征,对应主骨架原子设置4种3×3×3卷积核,步长=3;对于音乐风格约束数据,根据音乐风格限制采用对应的m个3×1卷积核,步长=1;

中间层次,参照CycleGAN模型,但是,为最大程序保留各种特征,不采用池化层,各层激活函数采用LReLu函数;

输出层采用Softmax进行综合,并完成二维谱绘制。

上述蛋白质生成二维谱模型的目标函数为:

T=min(G+L

其中,G为二维谱生成器(G1)的目标函数:

G(X1,C)=max(E

L

L

L

L

F为蛋白质逆生成器(F1)的目标函数:

F(Y,L)=max(E

L

L

其中,X1是蛋白质一、二级结构混合通道数据、Z是由F1生成的人造蛋白质序列、X2是真实已有音乐数据、X3是对Z的判别结果、C音乐风格约束、L蛋白质序列特性约束、Y二维谱生成器G1生成的二维谱音乐数据。

上述实施方案提供的基于AI技术绘制毒株蛋白质二维谱的方法,尤其适用于新冠状病毒蛋白质的研究使用。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述的内容,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号