首页> 中国专利> 基于网络药理学预测治疗COVID-19的中药主要成分及靶点的方法

基于网络药理学预测治疗COVID-19的中药主要成分及靶点的方法

摘要

本发明涉及一种基于网络药理学预测治疗COVID‑19的中药主要成分及靶点的方法。本发明通过在一般网络药理学流程中引入深度学习模型,通过图卷积神经网络,将药物的线性序列(SMILES序列)转换成图结构(分子图)进行特征表示;通过卷积神经网络,将药物的线性序列(SMILES序列)转换成摩根指纹进行特征表示,保留了更多的特征信息。本发明可以预测出先前研究已证明的有效成分和作用靶点,从而验证本方法的可行性;还可以获得新的有效成分和作用靶点,从而对治疗COVID‑19的潜在作用进行补充,为下一步的体内或体外实验提供数据基础。

著录项

  • 公开/公告号CN115620804A

    专利类型发明专利

  • 公开/公告日2023-01-17

    原文格式PDF

  • 申请/专利权人 杭州师范大学;

    申请/专利号CN202211260861.4

  • 发明设计人 黄剑平;付雨;薛涛;巩帅;谢天豪;

    申请日2022-10-14

  • 分类号G16B15/30(2019.01);

  • 代理机构杭州君度专利代理事务所(特殊普通合伙) 33240;

  • 代理人邬赵丹

  • 地址 311121 浙江省杭州市余杭区余杭塘路2318号

  • 入库时间 2023-06-19 18:21:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-06-30

    发明专利申请公布后的撤回 IPC(主分类):G16B15/30 专利申请号:2022112608614 申请公布日:20230117

    发明专利申请公布后的撤回

  • 2023-02-10

    实质审查的生效 IPC(主分类):G16B15/30 专利申请号:2022112608614 申请日:20221014

    实质审查的生效

  • 2023-01-17

    公开

    发明专利申请公布

说明书

技术领域

本发明属于生物信息技术领域,具体涉及一种基于网络药理学预测治疗COVID-19的中药主要成分及靶点的方法。

背景技术

新型冠状病毒2019(COVID-19),现有的包括常规治疗(如氧疗)、抗病毒剂在内治疗手段只能起到预防作用,如何快速研制出COVID-19的特效药和疫苗成为当前最大挑战。有研究表明,中药对COVID-19患者具有改善临床症状、延缓病情进展、降低死亡率及复发率的作用,因此中药的相关活性成分成为了潜在的开发候选药物。对现有的中草药治疗COVID-19的内服方剂、预防处方及治疗(确诊病例)处方进行总结时,发现有200多种的中药被用于治疗COVID-19。

甘草、麻黄、杏仁等草药是常用的治疗COVID-19的中药,它们的豆科或植物的根茎和干根是常用入药部位。通过网络药理学和体内或体外实验等方法发现了中药中的很多成分及其作用靶点在治疗COVID-19上具有核心作用:例如,在成分方面,槲皮素、山柰酚、柚皮素等活性成分可以分别与Mpro、ACE2和S蛋白结合,从而抑制COVID-19复制,阻断病毒结合位点;在靶点方面,MAPKs、NF-kB、ILs等靶点可以调控MAPK信号通路、NF-kB 信号通路、IL17等多条信号通路,发挥抗炎和免疫调节作用。

网络药理学(其常规步骤如图1所示)是一种目前可以通过不做实验预测出中草药治疗 COVID-19的有效成分及其作用靶点的有效方法,具有全面、系统、整体的优点,与中药方剂的多成分、多靶点、多途径的特性相一致,为中草药研究提供了新方法。从图1中可看出,现有的方法通过GO和KEGG富集分析获得核心成分及核心靶点:利用Metascape基因分析工具对关键靶点进行基因本体(gene ontology,GO)功能富集分析和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,物种设定为“Homosapiens”,然后运用GraphPad Prism绘图工具绘制GO分析图,再通过R语言和相关的R语言包将 KEGG富集程度较高的前20条通路绘制成气泡图,最后通过“中药-核心成分-核心靶点-通路”的关联网络的拓扑结构分析的度值找出核心靶点和核心成分;

基于DL的DTI预测方法是网络药理学中发现新靶点或新药物最直接和有效的方法之一。目前常见的建模方法包括基于配体、基于结构和基于关系(Relationship-Based)三种。在基于关系的方法中,主要是针对具有复杂网络关系的数据进行建模。相较于其他两种方法,该方法不仅提取了节点特征(如药物、靶点、疾病等),还提取了节点之间边缘特征(如药物之间的相似性、蛋白质之间的相似性等)。

本发明提出了一种网络药理学方法来探索治疗COVID-19的中药的有效成分和作用靶点,其中提出的模型还整合了基于DL的药物-靶点相互作用(DTI)方法。相较现有方法,本方法提出了两个改进方案:P1,由于一般的网络药理学流程没有考虑到药物分子结构的特征信息这一问题,本文通过将一般的网络药理学流程中的GO和KEGG富集分析替换成DTI预测方法,使用深度学习(DL)同时提取药物的分子图结构特征和摩根指纹序列特征,预测出新的作用成分和新的作用靶点;P2,由于现有的方法通过PPI分析会筛掉一部分成分及靶点,而这可能会导致某些重要成分及靶点的缺失,因此为了确保成分及靶点的完整性,P2不经过现有方法中的取交集靶点和PPI分析这两步直接对所有的活性成分及作用靶点进行DTI预测,目的是预测出更多的新作用成分及新作用靶点。基于此,本发明通过深度学习模型充分挖掘数据当中所包含的潜在丰富信息,以预测出更多治疗COVID-19的中药有效成分及其作用靶点,从而为治疗COVID-19提供新思路。

发明内容

本发明的目的就是提供一种基于网络药理学预测治疗COVID-19的中药主要成分及靶点的方法。在常规网络药理学流程中引入深度学习模型,不仅可以预测出许多先前研究已证明的有效成分和作用靶点,从而证明了引入深度学习模型起到了作用;还可以获得新的有效成分和作用靶点,从而对治疗COVID-19的潜在作用进行补充,为治疗COVID-19提供新思路。

本发明具体包括如下步骤:

(A)获取中药的化学成分及其对应的作用靶点;将收集到的所有已知的化学成分导入到PubChem(有机小分子生物活性数据)、TCMSP(中药系统药理学分析平台)等数据库中获得对应的Mol2结构文件和简化的分子输入系统(Simplified Molecular Input LineEntry System,SMILES)序列,将PubChem和TCMSP数据库中无法找到SMILES序列的化学成分所对应的Mol2结构文件导入OpenBabel软件中获得相应的SMILES序列,形成了 SMILES_1文件;结合口服生物利用度(Oral Bioavailability,OB≥30%)和类药性(Drug-Like, DL≥0.18)对收集所有已知的药物成分进行筛选,将符合条件的化学成分(即为活性成分) 也转换成对应的SMILES序列形成了SMILES_2文件。

(B)获取COVID-19及相关疾病(如:免疫抑制、急性呼吸系统综合征(SARS)和头痛等疾病)的作用靶点;将收集的所有COVID-19相关疾病的靶点通过R语言中的biomaRt 生物信息学库转换成氨基酸序列,未找到序列的基因通过NCBI数据库(国家生物技术信息中心)获得相应的氨基酸序列进行补充,将重复的、不完整的序列删除,获得的氨基酸序列构成了target_seq1文件;将COVID-19的所有靶点通过同样的操作转换成对应的氨基酸序列构成了target_seq2文件。

(C)基于步骤(A)的中药作用靶点和步骤(B)中的COVID-19作用靶点取交集,即为共同作用靶点;

(D)对共同作用靶点进行蛋白质-蛋白质相互作用PPI分析,依据度中心性(Degree)、介数中心性(Betweenness)及接近中心性(Closeness)三个参数值作为阈值筛选出关键靶点,然后通过关键靶点获得作用于这些靶点的关键成分;将获得的关键成分通过步骤(A)中的操作转换成SMILES序列形成了SMILES_3文件;将获得的关键靶点通过步骤(B)中的操作转换成对应的氨基酸序列构成了target_seq3文件。

(E)融入分子图信息和序列信息构建深度学习模型:通过图卷积神经网络GCN将药物的线性序列转换成图结构进行特征表示,通过卷积神经网络CNN将药物的线性序列转换成摩根指纹进行特征表示,以及获得疾病靶点蛋白的氨基酸序列的表示,然后将两个向量连接并放到全连接层,以回归层结束,输出为药物-靶点亲和力值;对SMILES_1和target_seq1 组成的数据集进行模型训练。

(F)使用经步骤(E)训练的深度学习模型补充核心成分及核心靶点,输入SMILES序列和蛋白质氨基酸序列,其中SMILES序列由成分转化和蛋白质氨基酸序列由靶点转化,输出表示成分和靶点之间相互作用的亲和力值,亲和力值的值越大表示成分与靶点之间结合倾向性就越大,最终每个SMILES序列与每个氨基酸序列逐一匹配。

对SMILES_2及target_seq2组成的数据集、和SMILES_3及target_seq3组成的数据集分别进行计算,生成相应的Affinity文件,取排名前三十的亲和力值成分-靶点对进行分析。将获得的成分和靶点汇总后进行去重,删除现有文献已经研究的成分及靶点(可通过一般网络药理学流程中的对关键成分及关键靶点使用基因本体(gene ontology,GO)和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析的方法,根据度值筛选出核心成分及核心靶点;也可以是其他任意方式筛选出的核心成分及核心靶点),对剩余的新成分及新靶点进行后续分析。

(G)使用ADMET(包括吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity))分析方法对步骤(F)中获得的新核心成分的理化性质和药代分子动力学特性进行分析,过滤掉可能有毒和难以吸收的成分;

(H)使用分子对接方法对步骤(G)获得的符合条件的核心成分和步骤(F)获得的核心靶点分别进行稳定性分析,最终根据结合能筛选出了最终的核心成分和核心靶点。

本发明与现有技术相比,主要优点包括:

(1)本发明通过深度学习等计算方法,不仅仅对公开数据进行筛选,能够充分挖掘公开数据(包括开放数据库和网络共享资源)当中所包含的潜在丰富信息,为发现更多的中药治疗相关疾病的有效成分及其作用靶点提供了必要的前提条件。

(2)本发明提出一种融入分子图信息和序列信息的全新深度学习模型,通过对药物的分子图结构和摩根指纹序列进行表征,提取更多的药物信息;提高了预测出治疗COVID-19 的新核心成分和新核心靶点的准确性。

(3)也可以用于预测治疗其他类似疾病(如动脉粥样硬化等)的中药有效成分及其作用靶点。

附图说明

图1为现有网络药理学的流程图;

图2为本方法的流程图;

图3为图2中深度学习模型结构图;

图4为分子对接图。

具体实施方式

下面结合附图,进一步阐述本发明。

如图2所示,一种基于网络药理学预测治疗COVID-19的中药主要成分及靶点的方法,具体包括如下步骤:

(A)中药的活性成分及作用靶点的获取:

通过中药系统药理学分析平台(TCMSP)、预测小分子蛋白质靶标数据库(SwissTargetPrediction)、药效团匹配与潜在识别靶标数据库(PharmMapper)等相关数据库收集中药的化学成分及作用靶点。结合口服生物利用度(Oral Bioavailability,OB≥30%) 和类药性(Drug-Like,DL≥0.18)对所收集到的数据进行筛选,整理得中药的有效成分及对应靶点数据信息。

(B)疾病靶点的获取:

免疫抑制是免疫系统疾病、急性呼吸系统综合征(SARS)是病毒性疾病且与COVID-19 高度相似、头痛是神经系统疾病。此外,COVID-19患者都或多或少的存在这些并发症,因此把这些疾病作为预训练的数据对COVID-19的研究具有重要作用。因此,从人类孟德尔遗传病数据库(OMIM)、生物信息学和化学信息学数据库(DrugBank)、人类基因的综合数据库(GeneCards)等数据库中以“COVID-19、免疫抑制、SARS、头痛”为关键词进行搜索获得相关靶点,合并、剔除重复,建立COVID-19及相关疾病靶点数据库。

(C)交集靶点的获取:利用Venny可视化工具获得中药与COVID-19的交集靶点。

(D)蛋白质-蛋白质相互作用(PPI)分析获得关键成分及关键靶点:

利用检索相互作用的基因/蛋白质的搜索工具(the Search Tool for theRetrieval of Interacting Genes/Proteins,STRING)数据库将交集靶点进行蛋白质-蛋白质相互作用 (Protein-protein Interaction,PPI)分析,并去除孤立靶点;将生成的PPI网络导入Cytoscape 软件中,之后使用软件中自带的Centiscape插件对该网络分别进行拓扑结构分析,依据度中心性(Degree)、介数中心性(Betweenness)及接近中心性(Closeness)三个参数值作为阈值筛选出关键靶点,再通过关键基因找到对应的关键成分。

(E)构建如图3所示的深度学习模型:使用图卷积神经网络(Graph ConvolutionalNetwork,GCN)和卷积神经网络(Convolutional Neural Network,CNN)两种深度学习算法。为了提取更多的药物分子结构的特征信息,通过GCN将药物的线性序列(SMILES序列) 转换成图结构(分子图)进行特征表示,通过CNN将药物的线性序列(SMILES序列)转换成摩根指纹进行特征表示,以及获得疾病靶点蛋白的氨基酸序列的表示,然后将两个向量连接并放到全连接层,以回归层结束,输出为药物-靶点亲和力值。

本实施例中模型的预训练数据集主要包括中药所有成分的SMILES序列、三种疾病(免疫抑制、SARS和头痛)靶点的氨基酸序列以及交互标签(已有数据集中获取)。为了保证泛化能力,将预训练数据集按照70%、10%和20%的比例分为训练集、验证集和测试集,采用五重交叉验证法训练模型,并重复100遍。采用一致性指数(CI)和均方误差(MSE)作为评价指标,其结果取多次训练的平均值。其他相关参数的设置如表1所示。

表1

(F)使用步骤(E)经训练的深度学习模型对成分-靶点对的亲和力值计算:

该深度学习模型需要两种数据输入即SMILES序列和蛋白质氨基酸序列,SMILES序列由成分转化和蛋白质氨基酸序列由靶点转化,最终每个SMILES序列与每个氨基酸序列逐一匹配,模型的输出是表示成分和靶点之间相互作用的亲和力值。

对预训练数据集进行训练后,该模型被用于计算两个方案的数据集的亲和力值。P1方案数据集主要由中药关键成分的SMILES序列(从步骤(D)中获得)和关键靶点的氨基酸序列(从步骤(D)中获得)组成;P2方案数据集主要由中药有效成分的SMILES序列(根据OB≥30%和DL≥0.18进行筛选)和靶点的氨基酸序列(COVID-19的靶点)组成。然后计算结果分别生成相应的Affinity文件,取排名前三十的亲和力值成分-靶点对进行分析。将获得的成分和靶点汇总后进行去重,删除现有文献已经研究的成分及靶点,对剩余的新成分及新靶点进行后续分析。

(G)ADMET分析筛选出符合的核心成分:

ADMET分析是对药物的吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄 (Excretion)和毒性(Toxicity)五方面进行评估,是药物开发中的重要组成部分。本实施例中通过SwissADME数据库预测三个流程获得的活性成分的理化性质,包括分子量(MW)、可旋转键数、H键受体和供体计数、拓扑极性表面积(TPSA)和铅相似性违规。将满足条件的活性成分再通过pkCSM数据库预测其药代动力学特性,其中包含吸收(Caco-2细胞通透性、HIA和皮肤通透性)、分布(VDss、未结合部分、血脑屏障和中枢神经系统通透性)、排泄(TC和OCT2)和毒性(AMES毒性,最大耐受剂量,hERG I抑制剂,hERG II抑制剂,口服大鼠急性毒性(LD50),肝毒性,皮肤过敏和鲦鱼毒性)。

(H)、分子对接验证最终的核心成分及核心靶点:

为了进一步验证上述主要化合物和目标,采用分子对接对它们的结合能进行打分。首先,从蛋白质序列与功能信息数据库(UniProt)和RCSB蛋白质数据库(PDB)中获得蛋白质目标的晶体结构和相关信息。然后,使用自动对接软件(AutoDockTools),进行了氢化、电荷添加、去除水分子和去除金属离子等操作,最终将文件转换为pdbqt格式。其次,从有机小分子生物活性(PubChem)数据库中获得活性化合物的三维结构。随后,使用qvina-w进行盲对接,同时使用AutoDockTools创建全局对接范围。结合能被用来评估天然化合物与目标结合的能力。最后,Python语言和其中的Pymol包被用来创建如图4所示对接结果的热图和三维对接图,结果显示结合能小于-7kj/mol,说明成分和靶点的结合稳定性很好。

此外应理解,在阅读了本发明的上述描述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号