首页> 中文学位 >QSPR/QSAR在药物、分析化学和环境科学中的应用
【6h】

QSPR/QSAR在药物、分析化学和环境科学中的应用

代理获取

目录

文摘

英文文摘

声明

论文创新之处

第一章定量结构-性质/活性关系综述

1.1数据收集

1.2化学结构的表示

1.3分子结构描述符

1.4模型的建立

1.4.1训练集和测试集的划分

1.4.2分子结构描述符的选择

1.4.3建模方法

1.5模型的检验

1.6模型的适用范围(Applicability Domain,AD)

1.6.1基于范围的(range based)

1.6.2基于距离的(distance based)

1.6.3基于几何的(geometrical based)

1.6.4基于概率密度分布的(probability density distribution based)

1.7模型的结果解释(mechanistic interpretation)

1.8 QSPR/QSAR研究领域最新进展和研究热点

1.8.1局部(local)QSPR/QSAR模型[153]

1.8.2反向(Reverse)QSPR/QSAR[154]

1.8.3高维(High-dimensional)QSAR模型

1.8.4建模新算法的探索

参考文献

第二章线性回归方法在QSPR/QSAR研究中的应用

2.1用启发式回归方法预测42种液晶分子的向列转变温度

2.1.1引言

2.1.2数据准备与方法

2.1.3结果与讨论

2.1.4结论

2.2最佳多元线性回归(BMLR)方法预测209种多氯联苯的GC×GC-TOFMS保留时间

2.2.1引言

2.2.2数据集

2.2.3最佳多元线性回归方法(BMLR)

2.2.4结果与讨论

2.2.5结论

2.3基于三维分子拓扑图形连接性指数预测C5-C8链烯在聚二甲基硅氧烷和角鲨烷固定相的Kováts保留指数

2.3.1引言

2.3.2数据

2.3.3描述符的计算和选择

2.3.4结果与讨论

2.3.5结论

参考文献

第三章SVM在QSPR/QSAR研究中的应用

3.1 SVM以及LDA用于皮肤敏感性化合物的分类研究

3.1.1引言

3.1.2数据

3.1.3分子结构描述符计算

3.1.4方法

3.1.5结果与讨论

3.1.6结论

3.2支持向量机对非离子表面活性剂浊点的定量预测

3.2.1引言

3.2.2数据来源以及分子描述符的计算

3.2.3分子描述符的选择

3.2.4支持向量机方法

3.2.5结果与讨论

3.2.6结论

3.3支持向量机对137种分子总氢键酸度的定量预测

3.3.1引言

3.3.2数据

3.3.3分子结构描述符计算以及选择

3.3.4方法

3.3.5结果和讨论

3.3.6结论

3.4支持向量机(SVM)用于大气对流层中有机物与NO3反应速率常数的预测

3.4.1引言

3.4.2数据准备

3.4.3分子描述符的计算和选择

3.4.4统计分析方法

3.4.5结果与讨论

3.4.6结论

参考文献

第四章投影寻踪回归在QSPR/QSAR中的应用

4.1投影寻踪回归(PPR)用于大气对流层中有机物与O3反应速率常数的预测

4.1.1引言

4.1.2数据准备

4.1.3分子描述符的计算和选择

4.1.4方法

4.1.5结果与讨论

4.1.6结论

4.2投影寻踪回归与遗传算法结合预测分子与β1型人体甲状腺激素受体的结合强度

4.2.1引言

4.2.2数据准备

4.2.3描述符的计算

4.2.4结果与讨论

4.2.5结论

4.3投影寻踪回归(PPR)用于288种离子液体熔点的预测

4.3.1引言

4.3.2数据准备

4.3.3结构描述符的计算以及选择

4.3.4投影寻踪回归(PPR)基本理论

4.3.5结果与讨论

4.3.6结论

参考文献

在读博士期间发表论文目录

致谢

作者简介

展开▼

摘要

化合物结构与性质/活性定量关系(quantitative structure-propcrty/activityrelationship,QSPR/QSAiR) 的研究最初应用在生物领域,是定量药物设计的一个研究分支领域,为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPP/QSAR的研究提高到了一个新的水平,日益成熟,其应用范围也迅速扩大,涉及到生物,药物科学,化学以及环境科学等诸多学科。人们期望用一个成功的运算模型,能从分子水平上理解分子的微观结构同其宏观性质/活性之间的关系,为设计,筛选或预测具有人们期望的性质的化合物提供信息,并据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素。 化合物结构与性质,性质与性质之间不仅有线性关系,而且还存在非线性关系。不同的问题需要用不同的方法来解决。对于线性问题,运用回归分析等方法即可解决。非线性问题的处理相对就要复杂的多。对于简单的非线性问题,通过恰当的数学转换将其转化为线性问题处理;不能转化为线性问题时,我们可以用一个恰当的非线性函数,通过拟合来解决问题;若问题更复杂时,即碰到那些因果关系不明了,推理规则不确定的非线性问题,可以采用多种机器学习方法来逼近,如神经网络(Artificial neural network,ANN),支持向量机(suLpport vectormachine,SVM)以及投影寻踪回归(Projeetion pursuit regression,PPR)等方法。 本论文第一章简述了定量结构性质/活性关系的基本原理和研究现状,详细描述了QSPR/QSAR实现步骤以及其中牵涉到的一些问题,并对这一研究领域的最新进展进行了总结和展望。本学位论文从分子结构的定量描述和结构与性质/活性定量关系的建立入手,探索了多种方法在QSPR/QSAR建模中的应用,主要进行了以下三方面的研究工作: ·线性回归方法在QSPR/QSAR研究中的应用具体研究内容包括: 1.用启发式回归方法(Heudstic Method,HNf)建立了42种热致液晶分子的向列转变温度和其结构之间的定量结构性质相关模型。所得的5参数线性方程对测试集的判定系数R<'2>=0.9216,预测的均方根误差RMSE=6.3654,绝对平均相对误差AARD=9.2017%,均优于文献结果。 2.用最佳多元线性回归(Best Multi-linear Regression,BMLR)方法建立了线性模型,研究了209种多氯联苯GCxGC-TOFMS保留时间与其结构之间的相关。所得模型用两种方法进行检验:测试集和6-fold交互检验集。测试集的判定系数R<'2>高达0.975,AARD则是3.08%,6-fold交互检验集的AARD平均数值为3.21%,两者结果很相似,说明所建的模型稳健且预测能力很好。 3.用启发式回归方法建立了线性模型,预测152种C<,5>-C<,8>链状单烯烃在聚二甲基硅氧烷(Polydimethysiloxane,PDMS)和角鲨烷(Squalane,SQ)固定相的Kováts保留指数。该研究中我们首次将一类新的结构描述符-3D拓扑图形连接性指数应用于色谱保留指数的预测。3D拓扑图形指数能对分子的三维电子结构特征作更准确地描述,它们与CODESSA软件计算的其他5类描述符相结合,对链状烯烃的色谱保留指数作关联分析。结果表明,3D拓扑图形指数在对色谱保留指数的关联方面比起传统的二维分子连接性指数更加敏感,所得模型不仅具有很好的预测能力,而且还能区分烯烃同分异构体。对两种固定相体系,所得模型中都有相同的三个参数,对测试集的判定系数R<'2>分别是 0.97 (PDMS)和 0.958 (SQ),AARD分别是1.37%(PDMS)和1.52%(SQ)。 ·支持向量机 (Support vector machine,SVM)在QSPR/QSAR研究中的应用 具体研究内容包括: 1.应用支持向量机(SVM)以及线性判别分析(Linear Discriminant Analysis,LDA)对131种皮肤敏感性化合物的分类研究。SVM模型对训练集和测试集的预测准确率分别是89.77%和72.09%,均优于LDA的79.55%和67.44%。另外考虑到样本的多样性,我们对整个数据集作了10-fold交互检验,其结果与SWl对测试集的预测结果基本一致,说明SVM模型是稳健的。 2.应用SVM建立了62个聚乙氧基型非离子表面活性剂浊点(cloud point,CP)的定量预测模型。计算了三类描述符:组成,拓扑和几何描述符,总计88个,用启发式回归搜索方法筛选出了对浊点具有最佳关联的4个参数的线性模型,对测试集样本预测的RMSE为8.0824,AARD为16.1955%,判定系数R<'2>为0.9318。用这4个参数作为输入向量,应用SVM建立了非线性模型,对测试集预测的RMSE为4.2727,AARD为9.5490%,判定系数R<'2>为0.9765。可以看出SVM模型预测的结果更加准确。 3.应用SVM建立了137种分子总氢键酸度与分子结构特征之间的定量结构性质相关模型。采用启发式回归方法筛选出包含5个描述符的最优组合,然后用这些描述符作为输入,分别建立了多元回归(Multiplier Linear Regression,MLR)模型,径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)模型以及SVM模型相比较。其中,SVM模型的预测结果最佳,对于测试集的R<'2>,RMSE以及AARD分别是0.8829,0.0650和5.748%,分别优于MLR模型的0.7845,0.0863和19.63%以及RBFNN模型的0.8655,0.0772和24.46%。 4.应用SVM建立模型预测了112个链烃和芳香烃在大气对流层中与NO<,3>自由基反应的速率常数。采用启发式回归方法筛选出最佳描述符组合,并用同样的描述符作为输入,分别建立了MLR模型,RBFNN模型以及SVM模型,对三种模型的预测性能做了对比。线性模型对于测试集的预测的判定系数R<'2>=0.882,RMSE=0.866,AARD=5.023%;RBFNN模型的结果稍好,为R<'2>=0.933,RMSE=0.687 和 AARD=3.850%;而SVM模型则最好,分别是R<'2>=0.950,RMSE=0.577以及AARD=3.343%。 ·投影寻踪回归(projection pursuit regression,PeR)在QSPR/QSAR中的应用 具体研究内容包括: 1.应用投影寻踪回归(PPR)方法建立了模型对116个有机物与O<,3>在大气对流层中反应速率常数作了预测。用启发式方法选取的描述符作为输入向量,我们分别用MLR,SVM和PPR方法建立了模型,并对它们的预测性能做了比较。启发式方法选择的参数为 7 个,相应建立的线性回归方程对于测试集的预测结果为R<'2>=0.824,RMSE=1.342,AARD(%)=5.895;采用SVM方法建模,对于测试集的预测结果比线性方程准确,分别是R<'2>=0.875,RMSE=1.165以及AARD=4.896%;相比较用PPR建模的结果最佳,该模型对于测试集的R<'2>增加到0.912,而RMSE和AARD(%)则分别减小为1.041和4.663。另外,PPR的训练过程简单,快速且占较少的内存,这是SVM无法比拟的。 2.PPR与遗传算法(Genotic Algorithm,GA)结合建立了模型预测了80个类药分子和β<,1>型人体甲状腺激素受体的结合强度,并对分子结构与结合强度作了相关分析讨论。GA最终选择了6个变量(既有线性的也有非线性的),用这六个变量分别建立了MLR方程和PPR模型。MLR 模型的结果很差,对于测试集预测的判定系数R<'2>仅为0.7233,AARD=8.28%,RMSE=0.7172,而PPR的预测结果则是R<'2>=0.8928,AARD=4.19%,RMSE=0.4498。很显然,PPR模型能更加准确地拟合这些变量与结合强度之间的关系。 3.应用PPR建立了288种离子液体熔点与其结构特征之间的定量结构性质相关模型,对熔点作了预测。我们采用启发式回归搜索方法来筛选最佳描述符组合,并用选取的描述符作为输入向量,分别建立了MLR模型和PPR模型,对两个模型的预测能力作了比较。结果表明,PeR模型的预测能力较MLR模型更为准确,预测的 R<'2>=0.810,AARD(%)=17.75,优于多元线性回归模型的 R<'2>=0.712和AARD(%)=24.33。此外,通过描述符与熔点之间的相关分析,我们还总结出了一些分子结构特征对于离子液体熔点影响的规律,从而为离子液体的功能化设计提供信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号