首页> 中文学位 >基于机器学习方法构建类天然产物性打分模型
【6h】

基于机器学习方法构建类天然产物性打分模型

代理获取

目录

声明

摘要

第一章 引言

第一节 选题背景

第二节 研究目的和策略

第三节 国外对于天然产物与合成分子之间的研究

第二章 天然产物及机器学习方法的理论背景研究

第一节 天然产物的定义

第二节 天然产物的主要结构特点

2.2.1 结构的复杂性

2.2.2 多含sp3杂化的碳原子,氮素和卤素含有量较少

2.2.3 多含有手性和立体因素

第三节 新药发现中天然产物的重要性

2.3.1 天然产物的来源

2.3.2 研究天然产物的衰落

2.3.3 对天然产物研究的重新兴起

2.3.4 依据新药的发现过程设计对天然产物研究的方法

2.3.5 获得生物材料

2.3.6 天然产物的筛选方法与活性物质的分离

2.3.7 天然产物的生物学评价与生理活性物质的大量获得

2.3.8 对天然产物构效关系的研究

第四节 我国对天然产物的研究

第五节 来源于天然产物及其衍生物的药物

2.5.1 吗啡生物碱

2.5.2 紫杉醇

2.5.3 喜树碱抗肿瘤药物

第六节 机器学习简介

2.6.1 机器学习的概念

2.6.2 机器学习的基本模型

2.6.3 机器学习的发展

2.6.4 机器学习的研究目标

第七节 对本文使用的三种机器学习方法的介绍

2.7.1 贝叶斯算法

2.7.2 决策树算法

2.7.3 随机森林算法

第三章 构建类天然产物性打分模型及其应用

第一节 对基于分子片段设计类天然产物性打分方法的研究

第二节 数据和分子描述符的准备

3.2.1 数据的预处理

3.2.2 计算分子描述符

3.2.3 分子描述符的选择

第三节 打分模型的建立并验证

3.3.1 训练集的设计

3.3.2 模型预测结果评价

3.3.3 实验结果与分析

第四节 类天然产物性打分模型的应用

第五节 本文中所用到的数据库和软件的介绍

3.5.1 ChEMBL数据库

3.5.2 DrugBank数据库

3.5.3 ZINC数据库

3.5.4 DRAGON软件

3.5.5 WEKA软件

第四章 全文总结

第一节 本论文研究工作的总结

第二节 后续的研究工作与展望

参考文献

致谢

个人简介

展开▼

摘要

随着药学的发展,人们逐渐发现通过化学合成的方式寻找新药具有研发成本高,研发周期很长,筛选命中率太低并且毒性很高等缺点,科学家们现在开始更多的从天然产物中寻找新药,天然产物成为药物发现的重要源泉。
  本课题首先研究了Etrl等人已发表的基于分子片段分离天然产物的方法,并通过实验证明该方法在预测分子量较大的天然产物时所存在的不足,之后本课题以多种机器学习算法为基础构建了化合物类天然产物性评价的打分方法,并对比了Etrl等人的方法。
  本文用14132个天然产物分子和42490个合成分子做训练集,用Dragon6.0软件计算得到了2514个分子描述符,并使用WEKA软件内设的CFS算法选出其中相关性最好的46个分子描述符进行模型的构建,构建好类天然产物性打分模型后,用测试集进行预测。结果显示决策树算法对天然产物的预测正确率为93.7%,对合成分子的预测正确率为97.7%,总预测正确率为96.7%;随机森林算法对天然产物的预测正确率为98.9%,对合成分子的预测正确率为99.8%,总预测正确率为99.6%;朴素贝叶斯算法对天然产物的预测正确率为97.6%,对合成分子的预测正确率为98.6%,总的预测正确率为98.3%。
  结果表明,本课题基于机器学习方法构建类天然产物性打分模型不仅对总样本的预测正确率较高,而且对正负样本都有很高的预测正确率,能对天然产物和合成分子进行很好的分离,与Etrl等人的方法相比有更好的准确率和普适性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号