首页> 中文学位 >支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究
【6h】

支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究

代理获取

目录

文摘

英文文摘

原创性声明及关于学位论文使用授权的声明

本论文创新之处

第一章定量结构-性质/活性关系的基本理论及研究进展

第二章支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学中的应用研究

第三章支持向量机(SVM)和径向基神经网络(RBFNN)方法在环境化学中的应用研究

第四章支持向量机(SVM)和径向基神经网络(RBFNN)方法在药物化学中的应用研究

附录Ⅰ在读博士学位期间发表论文目录

附录Ⅱ作者简介

致 谢

展开▼

摘要

定量结构-性质/活性相关(QSPR/QSAR)研究是计算化学和化学信息学研究中的重要研究热点之一。它主要应用各种统计学方法和理论计算方法研究有机化合物的结构与其各种物理化学性质以及生物活性之间的定量关系。QSPR/QSAR的研究对象包括化合物的各种物理化学性质、生物活性、毒性、药物的各种代谢动力学参数等等,研究领域涉及化学、化工、环境化学、药物化学等诸多学科。建立准确的定量数学模型一直是QSPR/QSAR研究的追求目标之一,而建模方法又是决定模型好坏的一个关键因素,因此新方法的发展一直是QSPR/QSAR研究中的一个重要任务。本论文在研究小组过去10余年来对神经网络方法(ANN),包括BP网络和RBFNN网络的研究基础上,将支持向量机(SVM)方法应用到化学、环境化学和药物化学等领域中,进行了1100多种化学物质的性质、环境毒物的毒性和药物有关的性质的预测,建立了准确的定量结构性质/活性关系模型。论文第一章简述了定量结构性质/活性关系(QSPR/QSAR)的基本原理,研究过程以及研究现状,其中在研究过程中着重介绍了建模方法。在指出当前神经网络建模方法不足的基础上,详细介绍了一种新的机器学习算法一支持向量机方法,并概括和展望了其在QSPR/QSAR中的应用。 在第二章中,我们将SVM和RBFNN方法应用到化学领域中,主要包括以下几个方面的研究工作: (1)应用多元线性回归(MLR)和SVM方法建立了预测364个有机化合物的范德华常数的QSPR模型。MLR不仅用来建立线性回归模型,同时也作为选择SVM输入描述符的方法。SVM模型的训练集、交互检验集、测试集和整个数据集的均方误差(MeanSquareError,MSE)分别为:常数a:5.96,8.00,6.67和6.65;常数b:9.56×10-5,3.18×10-4,4.22×10-4和2.33×10-4。 (2)应用启发式(HM)和SVM方法分别建立了149个易挥发有机化合物的气相色谱保留时间和5个分子描述符之间的线性和非线性QSRR模型。非线性的SVM模型的结果优于线性HM模型的结果,对于测试集均方误差MSE分别为1.094和1.644。而且预测值与实验值是非常一致的。 (3)用HM和RBFNN方法建立了预测63个有机小分子化合物在低密度聚乙烯上的渗透系数的定量模型。它建立的模型与以往的模型相比,有同样的可靠性。这就说明本研究所用的方法是聚合物研究领域中可靠且实用的方法之一。 在第三章中,我们将SVM和RBFNN方法应用到环境化学领域,主要进行了以下几个方面的研究工作: (1)应用SVM方法对148个N-亚硝基化合物的致癌性进行了分类研究。模型中的7个描述符都是通过计算得到,且用前向性逐步线性判别分析(LDA)方法选出作为SVM的输入。SVM分类模型对训练集的准确率为97.4%,测试集是86.6%。通过分析,指出了立体和静电因素是影响此类化合物的致癌性的主要的分子结构因素。该模型对判别N-亚硝基化合物的致癌性提供了简便、有效的方法。 (2)用SVM和HM方法分别建立了93个多氯二联苯二噁英(PCDDs)、多氯二联苯呋喃(PCDFs)、多氯联苯(PCBs)和AhR(arylhydrocarbonreceptor)的结合力与它们结构描述符之间的定量结构活性相关模型。用HM方法建立了线性相关模型,然后用相同的描述符作为SVM的输入,建立了非线性的定量结构活性相关模型。HM模型的测试集的均方根误差(RootMeanSquareError,RMS)是0.667,相关系数是0.845。SVM模型对测试集的均方根误差RMS为0.324,相关系数是0.928。本工作证明一个单一的QSAR模型就可以用来预测不同类别的PCDFs、PCDDs和PCBs与AhR的结合力。 (3)应用多种统计方法(LDA,SVM,HM,RBFNN)研究了142个易挥发有机化合物的感官刺激性(1ogRD50)。分别建立了此类化合物的分类和回归模型。最好的分类模型是SVM模型,所得模型对训练集、测试集和整个数据集的准确率分别为96.5%,85.7%和94.4%。非线性的回归模型分别用SVM和RBFNN建立。所得的SVM模型的统计结果是:反应组的训练集、测试集和整个数据集的均方根误差RMS分别是0.4415,0.7430和0.514;相对应的相关系数是0.910,0.874和0759。对非反应组的训练集、测试集和整个数据集的均方根误差RMS分别是0.372,0.452和0.405;相对应的相关系数是0.900,0.859和0.888。所得RBFNN模型的统计结果是:(1)反应组的训练集、测试集和整个数据集的均方根误差RMS分别是0.4755,0.6342和0.5009;相对应的相关系数是0.8892,0.8805和0.8770。(2)非反应组训练集、测试集和整个数据集的均方根误差RMS分别是0.2430,0.4798和0.3064;相对应的相关系数是0.9580,0.8578和0.9340。所建立的模型可以用来估算化合物的不同的环境行为,不仅可以降低估算化合物环境行为的成本,节约时间,而且可以从宏观和微观两个方面增强对于有机污染物在自然界中分布机理的理解。 (4)用HM方法建立了100个易挥发有机化合物在大鼠血液和空气中分配系数的数学模型。在计算大量的分子描述符的基础上,首先用启发式方法筛选出5个能代表化合物分子结构的描述符,然后用多元线性回归方法建立了线性模型。所建模型具有较好的预测能力,相关系数的平方的平均值达到0.8832。本文提供了一个估计此类化合物分配系数的简单、快速、有效方法。 在第四章中,我们将SVM和RBFNN方法应用到药物化学领域,研究工作的内容包括以下两个方面: (1)用RBFNN和HM建立了预测74个中性和碱性药物pKa值的QSPR模型。所得HM模型的统计参数是:训练集R=0.884,RMS=0.482;测试集R=0.693,RMS=0.987。整个数据集的均方根误差RMS是0.619。而RBFNN模型的参数是:训练集,R=0.886,RMS=0.458;测试集R=0.737,RMS=0.613。整个数据集的均方根误差RMS是0.493。所建模型可以在药物发现过程中预测未知药物的pKa值。 (2)用HM、RBFNN和SVM方法分别建立了预测54个多肽阴离子从水相到硝基苯相的吉布斯自由能的QSPR模型。比较HM、RBFNN和SVM的结果可以看出:非线性模型好于线性模型。而非线性模型中的SVM方法又好于RBFNN方法。SVM模型的均方根误差RMS分别为:训练集1.562,测试集2.346,整个数据集1.756;相对应的相关系数是0.970,0.960和0.966。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号