首页> 中国专利> 基于综合毒性作用模式分类构建的有机化合物对大型蚤急性毒性QSAR模型

基于综合毒性作用模式分类构建的有机化合物对大型蚤急性毒性QSAR模型

摘要

本发明公开了一种基于综合毒性作用模式分类构建的有机化合物对大型蚤急性毒性QSAR模型。首先发展了一个综合的毒性作用模式分类方法,采用该方法基于结构特征对化合物进行分类。将化合物根据该方法进行分类后,在获得化合物分子结构描述符的基础上,通过多元线性回归方法,构建了EC

著录项

  • 公开/公告号CN105005641A

    专利类型发明专利

  • 公开/公告日2015-10-28

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN201510347479.0

  • 发明设计人 乔显亮;刘羽晨;李雪花;陈景文;

    申请日2015-06-18

  • 分类号

  • 代理机构大连理工大学专利中心;

  • 代理人李宝元

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-16

    授权

    授权

  • 2015-11-25

    实质审查的生效 IPC(主分类):G06F17/50 申请日:20150618

    实质审查的生效

  • 2015-10-28

    公开

    公开

说明书

技术领域

本发明涵盖一种综合毒性作用模式分类方法,以及基于这种分类方法建立 定量构效关系模型(QSAR)预测有机化合物对大型蚤急性毒性的方法,属于生态 风险评价测试策略领域。

背景技术

欧盟发布的REACH法规(Registration,Evaluation,Authorization and  Restriction of Chemicals)要求进入欧盟市场的所有化学品需要进行预防性管理, 并计划对进入欧盟市场每年超过1吨的化学品进行毒性评估。然而,这项任务 面临着巨大的挑战,一方面目前的化学品信息非常缺失,例如根据欧盟商品化 的化学品清单,既有化学品和新化学品总数已达132,119种,但仅有2198种化 学品具有实验测试的急性毒性数据。另一方面,传统的测试方法耗费大量的人 力物力,时间滞后,而且违反动物保护的“3R”原则。因此,欧盟和美国都提倡 采用一些预测技术来弥补化学品管理中的数据缺失。QSAR能够通过计算化学品 的特征参数对现有和尚未投入使用的化学品的毒理学效应进行预测和评价,有 助于化学品的管理和风险评价。经济合作与发展组织(OECD)于2007年提出了 QSAR模型发展和使用准则,符合该准则的QSAR模型可以应用于化学品风险 评价、筛选和优先控制等管理。

化合物的毒性取决于两个过程:一是污染物透过生物膜并到达作用靶点的 过程,二是污染物在作用靶点与生物大分子之间的相互作用过程。因此,认识 毒性作用模式(Mode of Action,MOA)是建立毒理学效应QSAR模型的基础和前 提。目前研究者提出了几种毒性作用模式,文献“Chemosphere.1992,25(4): 471-491”总结了化合物的毒性作用模式及其结构特征,将毒性作用模式分为四类, 并依据化合物的结构提出了较详细的分类规则。“Quantitative Structure-Activity  Relationships.2001,19(6):581-598”将化合物分为基线毒性和过量毒性,并结合了 化合物结构和一些理化性质提出了分类规则。“Chemical Research in Toxicology. 2005,18(3):536-555”基于大型蚤急性毒性数据,采用结构预警对化合物进行分 类,以区分基线毒性和过量毒性化合物,进而筛选优先测试的化合物。 “Environmental Toxicology and Chemistry.1997,16(5):948-967”使用大量的毒性 数据,从剂量-反应关系、联合毒性反应、鱼类急性毒性综合症(FATS)等方面研 究鱼的毒性作用模式,并将毒性作用模式分为八类。“Aquatic toxicology.2015, 161:102-107”基于MOA提出了一个涵盖6大类,31小类的分类规则。目前提出 的几种MOA分类方法各有优势和不足,因此本研究将几种MOA分类方法的优 势结合,从构建QSAR模型出发,发展了一个综合的毒性作用模式分类方法, 最终将化合物分为三类,分别为麻醉剂化合物,反应活性化合物,特殊反应活 性化合物。

具有相似结构的化合物一般具有相同的毒性作用机制,因此有研究者将结 构相似的同类化合物作为训练集构建模型,如文献“Journal of hazardous materials. 2013,258:50-60”使用Dragon描述符建立三唑类化合物对大型蚤急性毒性QSAR 模型,模型决定系数为0.77。文献“Chemosphere.2009,75(11):1531-1538”构建了 有机磷酸酯类化合物对大型蚤急性毒性QSAR模型,模型使用了亲水性以及电 子描述符,模型决定系数为0.82。这类模型主要包含一些毒性较大,受到广泛 关注的化合物,通常预测准确,简单透明,其不足是覆盖的化合物种类太少, 应用域都比较小。有研究者将多种类别化合物一起建模,如文献“Journal of  hazardous materials.2010,177(1):344-351”选取了297个化合物的大型蚤急性毒 性数据,使用了12个2D、3D描述符,决定系数R2仅为0.738。这类模型包含 的数据集较大,一定程度上解决了应用域问题,但由于化合物的毒性MOA差异 较大,模型拟合效果不好,有些需要使用较多的描述符。随着一些机器学习类 算法的引入,人工智能类模型被应用于QSAR建模。如文献“SAR and QSAR in  Environmental Research.2008,19(7-8):735-750”运用概率神经网络算法建立大型 蚤急性毒性的QSAR模型,模型的拟合能力较好,决定系数达0.85。基于机器 学习的方法构建的模型虽然具有较好的拟合度,但模型算法和形式不够透明, 机理解释性较差,会影响到结果的可信度和可接受程度。目前基于MOA分类构 建的模型主要针对麻醉类化合物,对具有反应活性的化合物研究较少,主要是 由于MOA分类复杂,限制了模型的发展。本发明发展了一种综合的毒性MOA 分类方法,可以根据化合物结构进行分类,分类规则明确,覆盖的化合物种类 多样。在分类基础建立了3类化合物的大型蚤急性毒性QSAR模型,并对模型 的预测能力和应用域进行了表征,所构建的模型可以用于大型蚤急性毒性的预 测,以支撑化学品的管理。

发明内容

本发明提供了一项以化合物结构为分类规则的综合毒性作用模式分类方法, 基于该综合分类方法构建QSAR模型,可以快捷、高效地预测有机化合物对大 型蚤急性毒性信息。该方法可直接根据有机化合物的分子结构预测化合物对大 型蚤的48小时半数效应浓度(–logEC50)值,进而了解目标化合物对水生生物 的急性毒性,为化合物的生态风险性评价和管理提供必要的基础数据。

本发明的技术方案如下:

一种基于综合毒性作用模式分类构建的有机化合物对大型蚤急性毒性QSAR模 型,其特征在于,根据综合毒性作用模式分类方法对化合物分类,分类规则如 下:

(1)根据化合物的结构判断该化合物是否属于有机磷酸酯类化合物、氨基甲酸 酯类化合物、DDT类杀虫剂、氯化脂环族杀虫剂或拟除虫菊酯类农药中的任意 一种,若符合,则该化合物属于特殊反应活性化合物class III,若不符合,继续 判断;

(2)再进行化合物的结构判断,该化合物是否属于以下各物质的任意一种:

a、苯酚,苯胺或吡啶类化合物且含有四个及以上卤素取代;

b、苯酚或苯胺类化合物且含有一个以上硝基取代;

c、苯酚与芳香环通过偶氮双键连接形成的化合物;

d、含有如下结构之一的化合物:

含此结构且logKow<1、含此结构且分子量<100 道尔顿、-s-s-脂肪胺且logKow<1;

其中:R1=H,CH3;R2=H,CH3,C2H5;X=卤素,Y=C,O,N;Z=O,N;L=离 去基团;所述的离去基团为能够固定孤立负电荷的结构;

若符合,则该化合物属于反应活性化合物class II,若不符合,继续判断; (3)继续判断,根据化合物的结构判断该化合物是否属于以下各物质的任意一 种:

a、只含C,H,O或卤素,当该物质为酯时,其logKow>2;

b、只C含C,H,N,当该物质为吡啶时,其logKow>1;当该物质为脂肪胺时, 其MW>100;

c、只含C,H,O,N;

d、含有如下结构之一的化合物:

且其取代基中只含C,H,O,S;

若符合,则该化合物属于麻醉剂化合物class I,若不符合,则该化合物不为 上述三类中的任何一类;

搜集到871个大型蚤毒性数据EC50,得到48h-logEC50值,根据上述综合毒 性作用模式分类方法,分类得到403个麻醉剂化合物class I,380个反应活性化 合物class II,88个特殊反应活性化合物class III;

按照4:1的比例将上述三类化合物的大型蚤毒性数据分别分成训练集和验 证集,训练集用于构建预测模型,验证集用于建模后的外部验证;对上述三类 化合物进行结构优化,基于优化的结构,计算化合物的Dragon描述符,采用逐 步多元线性回归方法构建模型;

模型如下:

Class I

-logEC50=1.783+0.543MLOGP+0.218X3sol-1.603nArCOOH-0.769O-056 +0.488GATS1s

其中MLOGP表示Moriguchi辛醇水分配系数,X3sol表示3阶溶剂连接性 指数,nArCOOH表示芳香环上羧基的个数,O-056表示化合物中醇结构信息, GATS1s是I-state加权的Geary自相关系数;

所得模型训练集化合物个数为n=322,每个描述符的变量膨胀因子均小于 10,自变量与因变量组成的矩阵MYX以及自变量矩阵MX的K相关指数KXY和 KXX满足KXX=0.230<KXY=0.358,表明模型不存在多重相关性;模型的拟合能力 由R2和均方根误差RMSE表征,R2=0.819,RMSE=0.623,表明该模型具有良 好的拟合能力;模型的稳健性由内部验证的交叉验证系数Q2LOO和Bootstrapping 方法所得Q2BOOT评价,Q2LOO=0.812,Q2BOOT=0.796,R2和Q2之差远小于0.3, 该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验 证集数据个数next=81,外部决定系数R2ext为0.752,外部验证系数Q2ext为0.750, 验证集的均方根误差RMSEext为0.657,表明该模型具有良好的外部预测能力;

Class II

-logEC50=4.709+0.075MLOGP2+0.022D/Dtr03+1.923Ks-1.637GATS1p +0.087F08[C-C]-0.012SAdon

其中MLOGP2表示Moriguchi辛醇-水分配系数的平方,D/Dtr03表示化合 物中三元环结构,Ks表示I-state加权的WHIM描述符,GATS1p表示极性加权 的Geary自相关系数,F08[C-C]表示表示拓扑距离8中的C-C键的出现频率, SAdon表示供体原子表面积;

所得模型训练集化合物个数为n=304,每个描述符的变量膨胀因子均小于 10,KXX=0.252<KXY=0.341,表明模型不存在多重相关性;模型的R2=0.746, RMSE=0.717,表明该模型具有良好的拟合能力;模型的Q2LOO和Q2BOOT分别为 0.729和0.797,R2和Q2之差远小于0.3,可认为该模型不存在过拟合现象,具 有良好的稳健性;在模型的外部验证过程中,验证集数据个数next=76,R2ext= 0.770,Q2ext=0.765,RMSEext=0.780,表面该模型具有良好的外部预测能力;

Class III

-logEC50=6.709+0.292RDF115m-1.01GATS5s+1.882GGI5 -0.59CATS2D_04_DA+141.812Psi_i_0d

其中RDF115m表示质量加权的径向分布函数,GATS5s表示I-state加权的 Geary自相关描述符,GGI5表示5阶拓扑电荷指数,CATS2D_04_DA表示lag 04 处的CATS2D供体受体,Psi_i_0d表示固有状态下的伪链接指数;

所得模型训练集化合物个数为n=71,每个描述符的变量膨胀因子均小于10, KXY和KXX分别为0.185和0.292,ΔK=KYX-KX=0.107>0,表明模型不存在多 重相关性;模型的R2为0.703,RMSE为0.369,说明模型具有较好的拟合能力; 模型的Q2LOO为0.637,Q2BOOT为0.771说明模型的稳健性较好;在模型的外部 验证过程中,验证集数据个数next=17,R2ext=0.667,Q2ext=0.638,RMSEext=0.821, 表面该模型具有良好的外部预测能力。

所述的化合物包括烷烃类化合物、烯烃类化合物、炔烃类化合物、芳香烃 类化合物、醇类化合物、醛类化合物、酮类化合物、醚类化合物、酸类化合物、 脂类化合物、卤代类化合物、含氮化合物、含硫化合物、含磷化合物;毒性作 用模式包括麻醉作用、氧化磷酸化解偶联作用、呼吸抑制作用、乙酰胆碱酶抑 制作用、中枢神经系统控制作用的多种毒性作用模式。

采用Williams图对模型的应用域进行表征。当化合物的Hat(hi)值大于警戒 值(h*)时,说明化合物不在模型应用域内。hi和h*由如下公式计算:

hi=xiT(XTX)-1xi(1)

h*=3(k+1)/n   (2)

其中xi是第i个化合物的描述符矩阵;xiT是xi的转置矩阵;X是所有化合物 的描述符矩阵;XT是X的转置矩阵;(XTX)-1是矩阵XTX的逆;k是模型中变量 的个数。三类化合物模型的h*分别为0.0559,0.0691和0.2500,因此,对hi小 于0.0559,0.0691和0.2500的化合物分别适用于class I,class II和class III三类 模型。

本发明的有益效果是采用本发明方法可以通过分子结构特征快速预测有机 化合物对大型蚤急性毒性值。该方法不仅简单快捷、成本低廉,而且节省了实 验测定所需的人力、物力和财力。本发明涉及的大型蚤急性毒性预测方法的建 立和验证严格依据OECD规定的QSAR模型发展和使用导则,因此,使用该发 明专利预测的大型蚤急性毒性值,可以为化学品监管提供数据支持,对化学品 的生态风险性评价具有重要意义。

本发明提供的方法具有如下特点:

1、本发明综合了鱼和大型蚤等水生生物毒性机制分类的研究,将不同毒性分类 方法整合,保留其共性和各自的优势,提出了适用于大型蚤的毒性作用模式分 类方法,最终将化合物分为三类,分别为麻醉剂化合物,反应活性化合物,特 殊反应活性化合物。涵盖麻醉作用、氧化磷酸化解偶联作用、呼吸抑制作用、 乙酰胆碱酶抑制作用、中枢神经系统控制作用等多种毒性作用模式,可用于识 别多种类化合物的毒性MOA。

2、根据本发明提出的MOA分类方法,对化合物分类并构建QSAR模型,建立 的模型具有良好的拟合度,稳健性和预测能力,建模过程中采用逐步多元线性 回归方法,模型简洁,易于解释,符合OECD关于QSAR模型构建和使用的导 则,能够为有机化学品生态风险评价提供基础数据。

附图说明

图1为三类化合物预测模型的训练集和验证集-logEC50的实测值与预测值的 拟合图。

图2为三类化合物预测模型的Williams图。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

实施例1

给定一个化合物1,2-二氯丙烷(CAS号78-87-5),预测其对大型蚤急性毒性 值。首先根据本发明提出的综合毒性作用模式分类规则进行分类,符合规则3, 属于class I。对化合物进行分子结构优化,基于优化的分子结构,使用Draogon 6.0软件计算MLOGP,X3sol,nArCOOH,O-056和GATS1s的值分别为2.226, 1.531,0,0,0.628。然后根据公式(1)计算的h值为0.0034(<0.0559),所以该化 合物在模型应用域内,可以运用class I模型进行预测。将以上描述符的值代入 class I模型公式得到-logEC50值为3.63,其中实验值为3.58,预测结果良好。

实施例2

给定一个化合物乙醛(CAS号75-07-0),预测其对大型蚤急性毒性值。首先 根据分类规则进行分类,符合规则2.2,属于class II。对化合物进行分子结构优 化,基于优化的分子结构,使用Draogon 6.0软件计算MLOGP2,D/Dtr03,Ks, GATS1p,F08[C-C],SAdon的值分别为0.101,0,0.701,1.74,0,0。然后根 据公式(1)计算的h值为0.0199(<0.0691),所以该化合物在模型应用域内,可以 运用class II模型进行预测。将以上描述符的值代入class II模型公式得到-logEC50值为3.22,其中实验值为3.17,预测结果良好。

实施例3

给定一个化合物敌百虫(CAS号52-68-6),预测其对大型蚤急性毒性值。首 先根据分类规则进行分类,符合规则1.1,属于class III。对化合物进行分子结 构优化,基于优化的分子结构,使用Draogon 6.0软件计算RDF115m,GATS5s, GGI5,CATS2D_04_DA,Psi_i_0d的值分别为0,0.829,0,0,0.003。然后根 据公式(1)计算的h值为0.0379(<0.2500),所以该化合物在模型应用域内,可以 运用class III模型进行预测。将以上描述符的值代入class III模型公式得到 -logEC50值为6.30,其中实验值为6.31,预测结果良好。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号