公开/公告号CN113223607A
专利类型发明专利
公开/公告日2021-08-06
原文格式PDF
申请/专利权人 北京化工大学;
申请/专利号CN202110590305.2
申请日2021-05-28
分类号G16B15/00(20190101);G16B50/00(20190101);G06F40/186(20200101);G06F16/174(20190101);
代理机构11108 北京太兆天元知识产权代理有限责任公司;
代理人王宇
地址 100029 北京市朝阳区北三环东路15号北京化工大学
入库时间 2023-06-19 12:07:15
技术领域
本发明涉及生物信息技术领域,尤其涉及一种采用smiles算法随机批量生成肝素类似物结构坐标的方法。
背景技术
肝素(heparin)和硫酸乙酰肝素(heparan sulfate,HS)是一种线性糖胺聚糖,其中肝素分子结构磺酸化程度高于HS,主要存在于动物组织的肥大细胞中,HS分子结构多样化,在动物体内广泛表达,存在于所有哺乳动物细胞表面和细胞间质中,可与多个蛋白质分子结合,包括细胞因子和趋化因子、酶和酶抑制剂、细胞外基质蛋白和膜受体,参与细胞附着、迁移、分化、胚胎发育、器官形成、凝血、脂质代谢、炎症和损伤应答等多种复杂的生理和病理反应。特别是HS参与调控多个肿瘤生长因子和免疫因子的活性,从而影响肿瘤的发生和转移以及炎性反应。此外,HS在细胞表面也是多种病毒的辅助受体,包括单纯疱疹病毒,流感病毒,SARS-CoV-1和SARS-CoV-2等,参与调控病毒入侵进入宿主细胞的过程。同时HS也参与调控多个炎症调节因子的释放和活性,在病毒和细菌入侵宿主细胞后的免疫应答反应中起重要作用。
2020年的研究提示,用肝素或HS类似物介导病毒刺突蛋白S1亚基的受体结合域与体内细胞表面的HS的结合以及干扰炎症调节因子与内皮细胞表面的HS的结合,从而对病毒入侵进入宿主细胞以及病毒入侵宿主细胞后产生的炎症风暴过程起到抑制作用,这两方面研究内容已经成为研发新型抗病毒药物的热点。最新研究也证实,接受磺达肝素和超低分子肝素(小分子HS类似物)治疗的严重COVID-19住院患者,其血浆中炎症细胞因子明显下降并具有较好的预后,死亡率也明显下降,但是目前临床中常见的商品化的肝素结构数量有限,并不能用于筛选与相关受体蛋白结合后的抗冠状病毒抗炎类的寡糖类先导药物。
因此,目前亟待解决的问题就是需要构建肝素或HS类似物的寡糖结构库,用于后续筛选出与相关受体蛋白结合紧密的HS类似物和药效团,用于理性设计抗冠状病毒的寡糖类先导药物,并通过体外生物合成途径合成设计的HS类先导化合物。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种采用smiles算法随机批量生成肝素类似物结构坐标的方法,包括:
生成Label字符串;
生成数字模板;
利用去冗余算法对所述数字模板进行去冗余处理;
对所述数字模板进行扩展处理;
利用所述数字模板和所述Label字符串生成smiles字符串,所述肝素类似物结构上的原子编号与所述smiles字符串对应设置;
保存所述smiles字符串为csv文件;
利用pandas工具导入存储smiles字符串的csv文件;
利用RDKit工具将所述csv文件转换为mol结构;
对所述mol结构进行三维化处理,同时对所述mol结构进行力场优化;
将所述mol结构转换为坐标文件。
可选的,所述利用去冗余算法对所述数字模板进行去冗余处理的步骤包括:
将数字模板数组转换为英文字符串数组;
遍历去除英文字符串之中的冗余字符串;
将所述英文字符串转变为数字模板。
可选的,所述对所述数字模板进行扩展处理的步骤包括:
在所述肝素类似物结构的N上进行磺酸基、氨基或乙酰基取代处理,在所述肝素类似物结构的O上进行磺酸基取代处理,在所述肝素类似物结构的C上进行羧基手性变换处理。
可选的,还包括:
随机生成所述肝素类似物结构的坐标库范例,包括14112个坐标文件。
可选的,所述去冗余算法用于去除随机生成的肝素类似物寡糖单元上的重复结构。
可选的,还包括:
将获得的肝素类似物五糖结构坐标做成结构数据库,所述结构数据库用于筛选抗SARS-CoV-2病毒的先导化合物。
可选的,还包括:
将获得的肝素类似物五糖结构先导化合物进行体外合成,并与SARS-CoV-2病毒复制和入侵相关蛋白以及炎症因子蛋白做SPR分子互作亲和力分析实验。
本发明具有下述有益效果:
本发明提供一种采用smiles算法随机批量生成肝素类似物结构坐标的方法,通过该smiles字符串可以重新定义化合物结构上原子编号,结合去冗余算法可以去除随机生成的肝素类似物结构上的重复结构。本发明采用smiles字符串生成算法随机批量生成肝素类似物结构坐标,构建一个肝素或HS类似物的五个糖单元结构库,用于后续筛选出与相关受体蛋白结合紧密的HS类似物和药效团,用于理性设计抗冠状病毒的寡糖类先导药物,并通过体外生物合成途径合成设计的HS类先导化合物。该方法可以简单快速生成肝素类似物寡糖单元结构上某位点发生特定取代的所有可能性的结构坐标,能够广泛适用于小分子或者大分子化合物,实现特定位点特定修饰,继而批量随机生成大量特征化合物坐标。
附图说明
图1为转化为smiles字符串的肝素类似物五糖结构图。
图2为通过去冗余算法进行遍历判断肝素类似物五糖结构是否重复的流程图。
图3为通过smiles字符串生成算法随机批量肝素类似物结构坐标的整体流程图。
图4为使用RDKit将smiles文件转换为坐标文件的流程图。
图5为通过smiles字符串生成算法随机批量肝素类似物结构坐标的程序流程图。
图6为通过生物计算软件筛选获得的介导病毒复制和入侵过程相关蛋白分别排名第一位的肝素类似物五糖结构图。
图7为通过SPR分子互作亲和力分析实验得到的肝素和SARS-CoV-2病毒以及炎症因子相关蛋白亲和力结果图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的采用smiles算法随机批量生成肝素类似物结构坐标的方法进行详细描述。
实施例一
本实施例需要解决的技术问题是针对现有商品化的肝素类似物结构数量有限的缺点,提供一种可以随机批量生成肝素类似物结构坐标的smiles字符串和去冗余算法。在本实施例中,该方法可以简单、快速生成肝素类似物寡糖单元结构上某位点发生特定取代的所有可能性的结构坐标。
为此,本实施例提供一种可以重新定义化合物结构上任意原子编号的smiles字符串命令。根据本实施例的实施方式,所述定义肝素类似物结构smiles字符串可以快速批量生成。本实施例定义肝素类似物结构smiles字符串可以通过“模板”进行定义,从而保证需要进行结构修饰的位点原子编号不变。
在本实施例中,需采用去冗余算法去除肝素类似物五糖单元上的重复结构坐标。根据本实施例的实施方式,可通过肝素类似物结构smiles字符串的“模板”扩展,可以将其N上进行磺酸基、氨基或乙酰基取代,O上磺酸基取代以及C上的羧基手性变换的smiles字符串定义。
本实施例提供了Python调用RDKit,实现导入smiles字符串文件批量生成肝素类似物结构坐标。在本实施例的一些进一步具体的实施例中,通过代码实现smiles字符串生成算法随机批量肝素类似物结构坐标的全过程。在本实施例中,通过计算生物学软件将实施例中的生成的肝素类似物五糖结构坐标做成结构数据库用于筛选抗SARS-CoV-2病毒的先导化合物。
在本实施例中,将通过生物计算软件筛选到的肝素类似物五糖结构先导化合物进行体外合成,并与SARS-CoV-2病毒复制和入侵相关蛋白做SPR分子互作亲和力分析实验。
本实施例采用smiles字符串生成算法随机批量生成肝素类似物结构坐标,构建一个肝素或HS类似物的五个糖单元结构库,用于后续筛选出与相关受体蛋白结合紧密的HS类似物和药效团,用于理性设计抗冠状病毒的寡糖类先导药物,并通过体外生物合成途径合成设计的HS类先导化合物。该方法首次提出,并可以广泛适用于小分子或者大分子化合物,实现特定位点特定修饰,继而批量随机生成大量特征化合物坐标的作用。
本实施例所述用语“Smiles字符串”(Simplified molecular input line entryspecification)是简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。
本实施例所述用语“肝素和硫酸乙酰肝素”是一种线性糖胺聚糖(glycosaminoglycan,GAG),其基本结构是N位或者O位可发生磺酸化作用的D-葡萄糖醛酸(D-glucuronic acid,GlcA)或L-艾杜糖醛酸(L-iduronic acid,IdoA)和D-氨基葡萄糖(D-glucosamine,GlcN)以1,4糖苷键连接形成的重复的二糖单元。每个糖单元经过不同程度的磺酸化修饰,使得HS的分子结构具有多样化的特征。现在生物合成途径是通过微生物合成肝素前体,经乙酰转移酶、磺基转移酶以及差向异构化酶的处理,使得肝素前体的上的N-乙酰氨基葡萄糖(N-acetylglucosamine,GlcNAc)糖单元转换成磺酸化的N-氨基葡萄糖(N-sulfated glucosamine,GlcNS)糖单元;GlcA糖单元转化成IdoA糖单元;通过3'-磷酸腺苷-5'-磷酸硫酸(3'-phosphoadenosine-5'-phosphosulfate,PAPS)提供磺酸基,将磺酸基转移给IdoA糖单元或少数的GlcA糖单元C2位上形成IdoA2S和少数的GlcA2S糖单元;也可将磺酸基转移给GlcNS糖单元C6位上形成GlcNS6S糖单元;将磺酸基转移给GlcNS糖单元C3位上形成GlcNS3S糖单元。
本实施例所述用语“肝素类似物的五糖单元结构”是指基本结构是N位或者O位可发生磺酸化作用的D-氨基葡萄糖(D-glucosamine,GlcN与)D-葡萄糖醛酸(D-glucuronicacid,GlcA)或L-艾杜糖醛酸(L-iduronic acid,IdoA)以1,4糖苷键连接组成的五个糖单元。
本实施例所述用语“肿瘤生长因子和免疫因子”是指纤维母细胞生长因子(fibroblast growth factor,FGF)、血管内皮衍生生长因子(vascular endothelial-derived growth factor,VEGF)、血小板源生长因子(platelet-derived growth factor,PDGF)、肝细胞生长因子(hepatocyte growth factor,HGF)、转化生长因子-beta(transforming growth factor-beta,TGF-beta)、白介素、干扰素等。
本实施例所述用语“炎症调节因子”是指如白细胞介素1-10(interleukin-1to10,IL-1-10),单核细胞趋化蛋白1(monocyte chemoattractant protein 1,MCP-1),CC趋化因子家族配体8(CC chemokine family ligands 8,CCL8)等。
本实施例所述用语“RDKit”是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符生成,fingerprint生成,化合物结构相似性计算,2D和3D分子展示等。
本实施例所述用语“SPR”是表面等离子共振技术(surface plasmon resonancetechnology)的缩写,用于表征表面折射系数改变的光学专业技术,可以实时观测到分子结合、薄膜形成等表面现象,并能给出高灵敏度、高选择性的非特异结合的信号。
图1为转化为smiles字符串的肝素类似物五糖结构图。本实施例将肝素类似物结构分子式转化为smiles字符串。对于图1中的分子式可以将其转换为smiles字符串(可以通过KingDraw或ChemDraw等软件自行构建),上述smiles字符串如下所示。
O=C([O-])[C@@H]1O[C@H](O[C@H]2[C@H](COS(=O)(=O)[O-])O[C@H](O)[C@@H](NS(=O)(=O)[O-])[C@@H]2O)[C@@H](O)[C@H](O)[C@H]1O[C@H]1O[C@@H](COS(=O)(=O)[O-])[C@H](O[C@H]2O[C@@H](C(=O)[O-])[C@H](O[C@H]3O[C@@H](CO)[C@H](O)[C@@H](O)[C@@H]3NS(=O)(=O)[O-])[C@@H](O)[C@H]2OS(=O)(=O)[O-])[C@@H](OS(=O)(=O)[O-])[C@@H]1NS(=O)(=O)[O-]
本实施例将肝素类似物结构smiles字符串的批量生成。按照图1中标记下划线点位的是取代发生的位置共计有13个,将该点位在smiles字符串中使用下划线标记并且将替换的基团使用加粗和倾斜进行标记。
O=C([O-])
该分子由五个部分组成,标记为U W Z X Y;其中U Z Y是相同的结构的,W X是相同的结构。取X和Y为例,Y有3个可替换的点位,标记为Y
本实施例将肝素类似物结构smiles字符串的“模板”定义。首先将肝素类似物结构分子式进行“label”定义,将每个取代点位都用一个“label”来代替,定义一个骨架字符串如下,后续只需要用特定的官能团对label进行替换就行。
O=C([O-])
然后本实施例将肝素类似物结构分子式进行“模板”定义。由于该分子式是以第三个糖单元为中心的“轴对称”结构,直接用官能团对label进行遍历取代会产生重复的分子式,这种重复分子式在smiles字符串上呈现差异,但是实际是同一种结构(即同一种结构式存在多种smiles)。为了解决重复的问题,本实施例引入了一种“模板”的方法。
本实施例提供的“模板”定义具体操作如下:图1中U,Z,Y结构有12(3*2*2)种类型,W、X有4(2*2)种类型。将U,Z,Y的12种类型分别以数字(0-11)表示,W、X分别以数字(0-3)表示。模板可以表示为[U,W,Z,X,Y]。按照遍历总共会生成27648种模板(12*4*12*4*12)。这样就得到如下的“模板”表示方法“[0,0,0,0,0],……,[11,3,11,3,11]”。表示方法中存在重复表示,比如“[2,1,3,3,5],[5,3,3,1,2]”这两个模板是“轴对称”,也就是其表示的是同一种化合物,之后就可以将这类重复的“模板”通过去冗余的算法来进行去除重复结构。
图2为通过去冗余算法进行遍历判断肝素类似物五糖结构是否重复的流程图。本实施例提供肝素类似物结构smiles字符串去冗余算法,采用去冗余算法去除肝素类似物五糖单元上的重复结构坐标的过程如图2。本实施例将将模板转变为英文字符(对应关系0-A,1-B,11-L)“[0,0,0,0,0],……,[11,3,11,3,11]”转变为“[A,A,A,A,A],……,[L,A,L,A,L]”。本实施例在python中模板是用数组来表示的,可以转换为字符串来表示“AAAAA,……,LALAL”。本实施例进行遍历判断肝素类似物五糖单元结构是否重复,如果重复就进行删除。通过遍历产生所有模板总共有27648个种类,之后通过剔除剩余的模板种类有14112个。
本实施例提供肝素类似物结构smiles字符串的“模板”扩展。本实施例基于第一步中肝素类似物结构分子式,通过在N上磺酸基、氨基或乙酰基取代,O上磺酸基取代以及C上的羧基手性变换,实现smiles字符串随机定义肝素类似物结构,结构定义如下:
contain_N=[“”,“S(=O)(=O)[O-]”,“C(=O)C”]#N点位替换contain_O=[“”,“S(=O)(=O)[O-]”]#O点位替换contain_C=[“[C@@H]”,“[C@H]”]#C手性变换
本实施例中,具体点位上取代在smiles字符串定义如下:
U
X
U
这样就可以将第二步中的模板表示[U,W,Z,X,Y],这样模板可以表示为[[U
本实施例使用RDKit将smiles字符串文件转换为肝素类似物结构坐标文件。图4为使用RDKit将smiles文件转换为坐标文件的流程图。通过Python调用RDKit,并且导入smiles字符串文件进行肝素类似物结构坐标的批量生成,具体操作流程见图4,随机生成生成100个结构坐标文件共耗时76.820890146秒,生成全部14112个结构坐标文件,预计共耗时10840.96秒。
图5为通过smiles字符串生成算法随机批量肝素类似物结构坐标的程序流程图。本实施例通过代码实现smiles字符串生成算法随机批量肝素类似物结构坐标,通过smiles字符串生成算法随机批量肝素类似物结构坐标的程序流程如图5所示,代码编写流程如下:生成模板代码string_remove_symmetry.py;生成smiles代码creat_smiles.py;创建坐标文件creat_coordinate.py
图6为通过生物计算软件筛选获得的介导病毒复制和入侵过程相关蛋白分别排名第一位的肝素类似物五糖结构图。本实施例通过生物计算软件虚拟筛选抗SARS-CoV-2病毒的肝素类先导化合物,通过计算生物学软件将实施例中的生成的肝素类似物五糖结构坐标做成结构数据库用于筛选抗SARS-CoV-2病毒的先导化合物。其中我们以SARS-CoV-2病毒复制和转录以及入侵进入宿主细胞过程中起着至关重要的作用的糜蛋白酶样蛋白酶(3CL
图7为通过SPR分子互作亲和力分析实验得到的肝素和SARS-CoV-2病毒以及炎症因子相关蛋白亲和力结果图。本实施例通过SPR分子互作亲和力分析实验验证肝素和SARS-CoV-2病毒以及炎症因子相关蛋白亲和力,将生物素标记肝素并将其固载在芯片上。本实施例将生物素标记在肝素的还原端上,将10mg分子量大小约为15kDa的肝素和在NaAc缓冲液中(100mM,pH6.0,1.08mL)的11μL的苯胺与120μL的EZ-Link Alkoxyamine-PEG4-生物素在DMSO(50mM)中37℃反应48小时,产物用2mL-DEAE SEPHACEL(Cytiva)柱纯化。
链霉抗生物素蛋白(Streptavidin,SA)金传感器芯片固定肝素前用等离子体清洗,生物素标记的肝素(5μL,2mg/ml)溶解在200μL HBS-P缓冲液(10mM HEPES,150mM NaCl,0.005%(v/v)表面活性剂P20)中,响应信号到800单位,采用多通道SPR分析仪器(BiacoreS200,GE Healthcare)分析,通过HBS-P缓冲液连续流过芯片表面2至4小时来进行基线的平衡,在25℃下缓冲液流速为30μL/min的条件下收集实验数据。本实施例提供SARS-CoV-2病毒刺突蛋白以及几个炎症因子蛋白和肝素的SPR分子互作亲和力分析实验。SARS-CoV-2刺突蛋白S1亚基以及几个炎症因子蛋白(IL-1beta,IL-2,IL-6,CCL8其中FGF2作为对照)都溶解在10mM的HBS-P缓冲液中浓度依次稀释为10.000,3.333,1.111,0.370,0.123,0.041,0.014和0.005mM。稀释的样品注入检测通道60秒,之后用PBS流动缓冲液(2mM KH
本实施例提供一种采用smiles算法随机批量生成肝素类似物结构坐标的方法,通过该smiles字符串可以重新定义化合物结构上原子编号,结合去冗余算法可以去除随机生成的肝素类似物结构上的重复结构。本实施例采用smiles字符串生成算法随机批量生成肝素类似物结构坐标,构建一个肝素或HS类似物的五个糖单元结构库,用于后续筛选出与相关受体蛋白结合紧密的HS类似物,用于理性设计抗冠状病毒的寡糖类先导药物,并通过体外生物合成途径合成设计的HS类先导化合物。该方法可以简单快速生成肝素类似物寡糖单元结构上某位点发生特定取代的所有可能性的结构坐标,能够广泛适用于小分子或者大分子化合物,实现特定位点特定修饰,继而批量随机生成大量特征化合物坐标。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
机译: 模拟工业机器人运动的方法,包括为n个自由度定义坐标轴,将标准算法应用于坐标轴,生成函数以计算机器人图形学的运动学和动力学,以生成块集,并为每个块输入输入符号模块,实现单个模块,模块的仿真,选择路径以仿真机器人的运动,检测仿真中的异常
机译: 用于完全同态公钥加密的密钥算法生成方法,涉及执行两个素数的随机生成,其中两个代数结构元素的值小于素数
机译: 确定随机数据生成周期的方法,使用相同方法的随机数据生成器以及采用同一个单元的数据加扰器,特别是用于生成稳定的伺服信号并在调制中提供DC抑制的优势