首页> 中国专利> 基于逆向合成的有机小分子化合物可合成性评价方法

基于逆向合成的有机小分子化合物可合成性评价方法

摘要

基于逆向合成的有机小分子化合物可合成性评价方法涉及计算机辅助药物分子设计领域。建立原料数据库、转换规则数据库和固定路线数据库,应用这三个数据库对目标化合物进行逆向合成分析,自动生成有机小分子化合物的合成路线,在拆分过程中,对逆合成分析树的生成进行优化处理,预先删减逆合成分析树中的节点。合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价。程序流程包括识别输入分子;读取原料数据库、转换规则数据库和固定路线数据库数据;以优化逆合成分析树方式生成合成路线和对可合成性的评分4个步骤。本发明解决现有化合物从头设计方法发展的瓶颈问题,有效缩短了运算时间,提供了有效准确的化合物可合成性评价。

著录项

  • 公开/公告号CN101789047A

    专利类型发明专利

  • 公开/公告日2010-07-28

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN201010106648.9

  • 申请日2010-02-05

  • 分类号

  • 代理机构成都和睿达专利代理事务所(普通合伙);

  • 代理人潘育敏

  • 地址 610064 四川省成都市一环路南一段24号

  • 入库时间 2023-12-18 00:05:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-04-03

    未缴年费专利权终止 IPC(主分类):G06F17/50 授权公告日:20111026 终止日期:20120205 申请日:20100205

    专利权的终止

  • 2011-10-26

    授权

    授权

  • 2010-09-22

    实质审查的生效 IPC(主分类):G06F17/50 申请日:20100205

    实质审查的生效

  • 2010-07-28

    公开

    公开

说明书

所属技术领域

本发明涉及计算机辅助药物分子设计领域,特别涉及一种基于逆向合成的有机小分子化合物可合成性评价方法。

背景技术

自20世纪90年代以来,计算机技术、计算化学、分子生物学、生物信息学等学科的发展大大推动了计算机辅助药物分子设计技术的进步,许多新的计算机辅助药物分子设计方法大量涌现,目前计算机辅助药物分子设计已发展为一个相对完善的新兴研究领域。

计算机辅助药物分子设计方法主要包括分子对接、从头设计、构效关系和药效团模型等方法。在靶分子的三维结构已知的情况下,一般采用分子对接和从头设计方法,分子对接从已知的化合物数据库中寻找能够与靶分子具有最佳几何形状和物理化学性质匹配的有机小分子化合物,其缺点是找到的化合物均为已知,不具有新颖性或已受到专利保护。从头设计是在靶分子的活性位点中直接采用片段生长或组装的方法进行化合物分子的拼接,所设计的化合物具有新颖性。从头设计方法能产生全新的药物分子,但由于这些全新的分子都是不存在的,因此首先需要将其合成出来,然后才能进行后续的药理实验验证。由于分子的产生是不同片段组合的结果,最后得到的分子数目相当庞大。将这些分子全部合成出来进行实验是一个十分消耗人力、财力和时间的过程,几乎不能实现。因此在实际操作时,会从中选出小部分容易合成的分子进行合成。但要从成千上万个化合物中挑选出数十个容易合成的分子,也是一件非常困难且耗时很长的工作。如果能够借助计算机应用技术,解决化合物的可合成性的快速评价无疑具有不可估量的积极作用。

发明内容

本发明的目的是利用计算机辅助设计,提供一种基于逆向合成的准确快速的有机小分子化合物可合成评价方法,解决现有化合物从头设计方法发展的瓶颈问题。

本发明的基本思路是:通过分析目标分子结构,将其拆解为更简单、更容易得到的前体。然后,再将前体作为新的目标分子进行逐步拆解,直到最后一步的前体能够直接购买。其中,最后一步的前体叫做原料,中间的前体称为中间体。逆向合成分析结束后,反过来将拆分得到的前体或其等价物通过合成反应再结合起来。根据拆分的结果,逐步逆推,最终得到从原料到目标化合物的合成路线,并在此基础上对化合物的可合成性进行评价。本发明在计算机程序控制下自动生成化合物的合成路线。在逆向合成分析生成合成路线的过程中,同时对逆合成分析树进行优化,对无用的合成步骤尽早剔除,以避免无用合成步骤的原料作为目标化合物进行再拆分。在合成路线生成后,对化合物的拆分难度和合成路线的实现难度进行评价,以求准确评价化合物可合成性。

本发明的主要理论依据基于以下四点:(1)化学家评价化合物可合成性时,会对目标化合物进行拆分并设计合成路线,根据拆分的难易进行评分。同以往使用的基于分子复杂度或基于原料的方法相比,基于逆向合成的评价方法可以得到最准确的结果。(2)随着化学信息学的发展,大量的化合物数据库和有机反应数据库逐渐出现,这些数据库为计算机辅助设计奠定更加丰富、实用的基础。(3)在应用逆向合成方法自动生成合成路线时,能得到一个逆合成分析树,除了顶点,树中的其他节点表示逆向合成分析过程中得到的中间体或者原料。由于目标分子及中间产物可能会有多个拆分点,或者一个拆分点可以有多种转换规则适用,计算机自动拆分化合物时会产生组合爆炸,这也是逆向合成方法应用于可合成性评价时耗时过长的问题。但是,产生的这众多路线中,绝大部分是无用的。因此,在拆分过程中同时对逆合成分析树进行删减,以解决运算时间的问题。(4)化合物的合成难度不仅在于拆分的难度,还在于合成路线的实现难度。同时对这两部分进行评价,能得到更准确的评分结果。

本发明的目的是这样达到的:收集各种常见的化学试剂建立原料数据库,收集常用的有机合成反应和经典的有机人名反应建立转换规则数据库,收集已报道的化合物分子的合成路线建立固定路线数据库。应用这三个数据库,对目标化合物进行逆向合成分析,自动生成有机小分子化合物的合成路线,在拆分过程中,对逆合成分析树的生成进行优化处理,预先删减逆合成分析树中的节点。在合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价。程序流程包括以下4个步骤:1)识别输入分子;将分子的二维结构转换成唯一的计算机识别的一维的64位字长的哈希数字编码后程序识别;2)读取原料数据库、转换规则数据库和固定路线数据库数据;对于收集的化学试剂数据,用哈希数字编码表示;对于收集的有机反应数据,从反应的转换规则数据库提取出一个反应中心,对于已知化合物分子的合成路线数据,采取先简化再提取反应中心的步骤处理成程序能够使用的数据结构后后再行读取;3)以优化逆合成分析树方式生成合成路线;使用计算机的图匹配算法将化合物的化学结构当成图的数据结构来处理:4)对可合成性的评分;对有效合成路线的数目和路线实现难度的综合评分。

识别输入分子的具体步骤是:计算机首先读入需要评价的目标分子文件,分子文件用MOL2或者SD文件表示分子的基本信息,包括,原子数目、键的数目、每个原子的的元素类型和三维坐标、每个键的键类型和成键原子,读入基本信息后,判定每个原子是否处于价态的饱和结构,对未饱和的原子自动加氢,加氢后,通过上述基本信息,识别目标分子的拓扑结构、连接度、官能团和环的结构,最后,通过上述所有信息,将分子的二维结构转换成一维的64位字长的哈希数字编码,该编码唯一表示一个分子二维结构,同时一个二维结构也只能转换为一个唯一的数字编码。

读取原料数据库、转换规则数据库和固定路线数据库数据的具体步骤:计算机内预先存入收集的各种常见的化学试剂的原料数据库数据,收集的常用的有机合成反应和经典的有机人名反应数据的转换规则数据库数据,收集报道的已知化合物分子的合成路线建立固定路线数据数据,将这三个数据库数据分别按照以下方式转换成程序能够使用的数据结构后再行读取数据:

对于收集的化学试剂数据,对其中每个数据按照与识别输入分子相同的方法,转换成64位长的哈希数字编码,同时补充上原料的价格和CAS编号信息;

对于收集的有机反应数据,对其中每个数据,从反应的转换规则数据库提取出一个反应中心,反应中心提取步骤:

(1)识别反应位点:反应位点仅包含发生改变的化学键和这些化学键直接相连的原子,通过对比反应中产物和原料的化学结构,找到发生了改变的化学键以及这些化学键直接相连的原子;

(2)基本反应中心的延伸:将步骤(1)得到的基本反应中心延伸,延伸后的反应中心还包括上述提到的化学环境,即与基本反应中心中的原子相连的官能团;

(3)反应中心的抽象:将反应实质一样的反应抽象化,抽象化的标准包括:

(a)如果一个反应中心包含卤素,但与卤素原子的类型无关,则将该反应中的具体的卤素原子抽象卤素,

(b)如果反应中心表示的有机反应反应机理完全相同,则将这些反应用同一个反应中心表示,将反应中心抽象后,删除重复的反应中心;

对于已知化合物分子的合成路线数据,采取将合成路线简化成单步反应再提取反应中心的步骤处理。

在提取出反应中心后,以反应中心为主要信息,补充上反应的原料信息、反应条件信息和产率,作为逆向合成的一条转换规则,同时,对每条反应能否实现的难易程度进行人工打分,将得分信息保存于转换规则中,这些信息将用于后面的拆分过程和最后的可合成性评分。

以优化逆合成分析树方式生成合成路线的具体步骤是:使用计算机的图的匹配算法将化合物的化学结构当成图的数据结构来处理:首先,依次用反应中心去匹配目标分子,检测分子的哪些官能团或子结构能够成为拆分位点;如果匹配成功,则将这种子结构作为作为一种可能的合成步骤,完成一步从目标化合物到原料的转换;接下来,上一步转换得到的原料,又成为下一步拆分的目标化合物,继续进行拆分,直到拆分结束;最后,将每一步的拆分结果以树的形式连接起来得到一个逆合成分析树,树的顶点是待评价的目标化合物,树的底端是最终原料,到此拆分过程结束;反过来,从终结点到顶点,构成一条完整的合成路线。

对可合成性的评分是指在生成了目标化合物的合成路线后,在合成路线基础上进行有效合成路线的数目和路线的实现难度的评分,有效合成路线是指,在用户设定的拆分步数n步下,最终能拆分到原料的合成路线;路线的实现难度是指反应试验条件和产物分离难度的评分方法。

在以优化逆合成分析树方式生成合成路线中采用了即边拆分边优化的方法:即直接终止逆向合成分析的方法、逆向合成分析子树的简化方法和每条反应设定一个参数rate来表示该步骤实现的可能性的方法。

本发明的积极效果是:解决现有化合物从头设计方法发展的瓶颈问题,在计算机程序控制下自动生成化合物的合成路线。在逆向合成分析生成合成路线的过程中,同时对逆合成分析树进行优化,尽早剔除了无用的合成步骤,避免了无用合成步骤的原料作为目标化合物进行再拆分,有效解决了计算机自动拆分化合物时产生组合爆炸的问题从而有效缩短了运算时间。在合成路线生成后,对化合物的拆分难度和合成路线的实现难度同时进行评价,为化合物可合成性提供了有效准确的评价。

附图说明

图1是本基于逆向合成的有机小分子化合物可合成性评价方法的程序流程图。

图2是逆合成分析树示意图。

图3是固定合成路线示意图。

图4是简化后的单步反应示意图。

具体实施方式

参见附图。

在步骤1)识别输入分子中,分子文件用MOL2或者SD文件表示分子的基本信息,这两种文件格式是计算化学、分子生物学、生物信息学领域中表示分子结构最常用的文件格式。读取的基本信息包括原子数目、键的数目、每个原子的的元素类型和三维坐标、每个键的键类型和成键原子。读入基本信息后,判定每个原子是否处于价态的饱和结构,对未饱和的原子自动加氢。加氢后,通过上述基本信息,识别目标分子的拓扑结构、连接度、官能团和环的结构。最后,通过上述所有信息,将分子的二维结构转换成一维的64位字长的哈希数字编码,该编码唯一表示一个分子二维结构,同时一个二维结构也只能转换为一个唯一的数字编码。

在步骤2)读取原料数据库、转换规则数据库和固定路线数据库数据中,建立的原料数据库、转换规则和固定路线数据库数据先按照以下方式转换成程序能够使用的数据结构:

对于收集的化学试剂数据,对其中每个数据按照识别输入分子步骤的方法,转换成64位长的哈希数字编码,同时补充上原料的价格和公知的唯一数字识别号码CAS编号信息。

对于收集的有机反应数据,对其中每个数据,从反应的转换规则数据库提取出一个反应中心。每个有机反应可以用A→B的形式表示,但反应的实质是一个化学键的断裂、生成和改变的过程。这里提出的反应中心,是一个多个原子或官能团组成的子结构,它不仅包含了这个反应过程中化学键断裂、生成和改变的信息,还包含影响化学键断裂和生成的周围的化学环境的信息,可以有效的表达有机反应的实质。反应中心的提取步骤如下:

(1)识别反应位点。反应位点仅包含发生改变的化学键和这些化学键直接相连的原子,通过对比反应中产物和原料的化学结构,可以找到发生了改变的化学键以及这些化学键直接相连的原子。

(2)基本反应中心的延伸。将步骤(1)得到的基本反应中心延伸,延伸后的反应中心还包括上述提到的化学环境,即与基本反应中心中的原子相连的官能团。

(3)反应中心的抽象。通过(1)、(2)步骤,每一个反应都可以提取一个反应中心,但可能多个反应的反应实质是一样。在这一步将反应实质一样的反应抽象化,抽象化的标准包括:(a)如果一个反应中心包含卤素,但与卤素原子的类型无关,则将该反应中的具体的卤素原子抽象卤素。(b)如果反应中心表示的有机反应反应机理完全相同,则将这些反应用同一个反应中心表示。将反应中心抽象后,删除重复的反应中心。

在提取出反应中心后,以反应中心为主要信息,补充上反应的原料信息、反应条件信息和产率,作为逆向合成的一条转换规则。同时,对每条反应能否实现的难易程度进行人工打分,将得分信息保存于转换规则中,这些信息将用于后面的拆分过程和最后的可合成性评分。

参见附图3、4。对于已知药物分子的合成路线数据,采取先简化再提取反应中心的步骤处理。这部分数据,是一个多步反应的过程,可以由A→B→C→D的形式表示。其中D是要合成的目标药物分子,B和C是合成路线的中间体,A是原料。简化就是将这个合成路线简化为单步反应,即用A→D来表示。然后,提取这个反应的反应中心。

按上述方法预先建立了程序可以识别的数据库,就可以读取3个数据库的数据了。

在步骤3)以优化逆合成分析树方式生成合成路线中,利用原料数据库、转换规则和固定路线数据库数据,以优化逆向合成分析树方式对目标化合物进行逆向合成分析。在化学信息学和生物信息学中,将化合物的化学结构当成图的数据结构来处理。这样,使用计算机科学中基本的图的匹配算法,可以准确地判断目标化合物中是否含有某类子结构,本发明使用的图的匹配算法是匈牙利算法。首先,依次用反应中心去匹配目标分子,检测分子的哪些官能团或子结构能够成为拆分位点。如果匹配成功,则将这种子结构作为作为一种可能的合成步骤,完成一步从目标化合物到原料的转换。接下来,上一步转换得到的原料,又成为下一步拆分的目标化合物,继续进行拆分,直到拆分结束。将每一步的拆分结果以树的形式连接起来,就得到了一个逆合成分析树,树的顶点是待评价的目标化合物,树的底端是最终原料,到此拆分过程结束。反过来,从终结点到顶点,就构成一条完整的合成路线。

在上述过程中,本方法使用优化逆向合成树的方式进行,即边拆分边优化,具体如下:

逆向合成分析树的优化包括对直接终止逆向合成分析原则、逆向合成分析子树的简化和每条反应设定一个参数rate来表示该步骤实现的可能性的方法。关于这三个方法的描述如下:

1.直接终止逆向合成分析的原则:对目标化合物,若在它的多种拆分可能中,有一种拆分能得到的前体是原料,那这种拆分可能就是唯一的拆分。确定是不是原料的方法是将前体同原料数据库中的每个分子进行比较,运用图的匹配算法。确定后,对于该目标化合物的其他拆分可能,如果不是同这种拆分可能一样得到的前体是原料,那就直接剔除掉,将这种拆分可能作为目标化合物的唯一拆分方法,并终止这条树枝上的分析。

2.逆向合成分析子树的简化:对于一些特定的子结构,已经存在了相对固定的合成路线,即上述提到的已知药物分子的合成路线数据。这些路线是由多步反应构成。本方法在进行逆向合成分析时,其中一种可能是按照这种固定的多步反应组成的合成路线进行拆分。在化学家进行拆分时,会自动过滤掉中间体的拆分。但在计算机拆分目标化合物时,还会对这些多步反应的中间体再进行拆分,这造成了时间的大量浪费。因此,依据建立的固定路线数据库,使用图的匹配算法检测目标分子中是否含有这类子结构,如果有,则就按照这种转换规则直接拆分到原料。该方法与直接终止逆向合成分析的原则相比,它不具有唯一的排他性,即目标化合物的其他可能的转换规则仍然会被记录到逆向合成分析树中。

3.每条反应设定一个参数rate来表示该步骤实现的可能性:rate值的初始值与表示这个转换规则的有机反应的难易程度有关,该反应本身的难度的越大,则rate值越小;同时,rate值还与反应的原料分子有关。当rate值小于设定的数值,即该步反应步骤的实现难度太大,这条可能的路线就直接被抛弃不再继续拆分,即删除逆向合成分析树上的这条树枝。rate值的改变与原料的分子的关系如下:

(1)检测反应位点化学环境的电子效应与进行的拆分步骤要求的电子效应匹配的方法:根据有机化学的基本理论,电子效应会严重影响反应中心的活性,最终决定反应的难易程度。如果原料上反应位点化学环境的电子效应与进行的拆分步骤反应要求的电子效应匹配,则反应会更加容易;相反,反应难度增加。反应位点化学环境是指反应位点的α位置官能团,因此,化学环境的电子效应是由具体的官能团来表示的,如硝基、卤素表现为吸电子效应,而烷基一般表现为供电子效应。电子效应对活性影响最典型的例子就是Diels-Alder反应。对于每一个拆分步骤,都将自动检测该步反应原料商反应位点的化学环境。如果反应位点的α位置官能团表现出的电子效应与增加反应活性的电子效应相同,则rate值增加;相反,rate值减少。

(2)检测进行的拆分步骤的空间位阻的方法:同电子效应一样,空间效应同样影响着反应中心的活性,决定反应的难易程度。分子中靠近反应位点的原子或基团占有一定的空间位置,而影响分子反应活性的效应,降低分子反应活性的空间效应称即空间位阻。空间位阻同样是通过官能团来表示,体积大的官能团会产生一个空间位阻,如叔丁基。对于一些反应,反应的活性跟空间效应密切相关。如果反应中心周围存在空间位阻,那反应的难度会大大增加。对于每步转换,如果该步转换需要考虑空间位阻,则会自动检测转换得到的原料。若该原料反应位点附近官能团存在空间位阻,则rate值减少。

(3)检测影响反应选择性因素的方法:在有机反应中,可能存在反应的选择性。一个化学反应若同时可生多种产物,其中目标化合物是最希望获得的,因此这目标化合物产率的大小代表了这反应选择性的好坏。反应性的好坏虽然不会影响反应本身的难易程度,但它会影响到反应的产率,更会增加产物和副产物的分离纯化难度,而在实际操作中,分离纯化的难度远远可能大于反应本身。在本方法中,两类影响选择性的因素着重被考虑。第一类是原料分子上含有多个相同的官能团,这意味着按这种方式进行拆分时,或许反应中心那个位点可以按设想的过程进行,但还存在其他位点也能按同样方式进行,最终导致低产率和分离纯化难度。第二类是含有类似的反应位点,比如羧基和氨基上,虽然官能团不同但都含有活性氢,而对于某些反应,实际上是活性氢上的反应。对这类反应,羧基和氨基虽然从官能团上看不同,但仍然会相互影响,导致副反应产生与上面一样的结果。因此,对于这两类可能导致反应选择性降低的因素,如果在该步转换的原料中存在,则rate值降低。

(4)检测是否含有不稳定化学结构的方法:在有机化合物分子中,可能存在一些不稳定的化学结构,这些结构在室温含氧情况下,可以自动发生反应,转换成其他更为稳定的结构。因此,对于含这种结构的反应、纯化和转运,一般需要在低温无氧无水的情况下进行。而低温无氧无水是一个很苛刻的反应条件,这也意味着这类反应很难进行。我们收集了常见的不稳定的化学结构,在进行拆分后对原料进行判断,如果原料含有这类不稳定的化学结构,则意味着再拆分时的转换所代表的反应实际操作难度大,因此这类情况下该步转换的rate值减少。

(5)分子复杂度的评判方法:逆向合成的过程就是将复杂的目标分子逐步拆分到简单的复杂,这里的复杂和简单可以用分子复杂度来表示。分子复杂度也可以单独用来评价化合物的可合成性,但由于分子复杂度的定义和算法仍然模糊,因此准确度不高。本方法中,我们将分子复杂度作为一个辅助评价标准。对于每一步转换,如原料的复杂度还要高于目标分子,则它可能是一步不合理的转换,rate值减少。本方法中分子复杂度cpxtx是在隐氢图下进行,算法如下:

a).环:cpxtx=cpxtx+size(i)*k。size为每个环的成环重原子数,k是经验常数,本方法中k=6。

b).连接度:cpxtx=cpxtx+i,i随不同连接度而不同。连接度是指分子中每个原子相连的重原子数目。若以双键相连,则为2。若是三键,则为3。

如果连接度cnt(i)=4,则i=24;

如果连接度cnt(i)=3,则i=12;

如果连接度cnt(i)=2,则i=6;

如果连接度cnt(i)=1,则i=3;

c).原子类型:cpxtx=cpxtx+k。如果原子类型是C,则k=3;如果是其他原子,则k=6;

d).得到一个最后的cpxtx值。

在步骤4)对可合成性的评分中,对可合成性的评分是在生成了目标化合物的合成路线后,在合成路线基础上进行可合成性评分。最终的评分SA由两部分组成,一是有效合成路线的数目,二是实现合成路线的难度,即SA=Sa+Sr,具体如下:其中,SA表示最终的评分,Sa表示有效合成路线的数目,Sr表示实现合成路线的难度。

1.有效合成路线是指,在用户设定的拆分步数N步下,最终能拆分到原料的合成路线。因为拆分的最终目的是用能够购买到的原料来进行合成,因此能到原料的合成路线是最有效的。其他路线,虽然最终未拆分到原料,但经过N步拆分,已将复杂的目标化合物转换成简单的分子,具有参考意义。有效合成路线的数目n越大,具体合成时选择越大,最终合成目标化合物来说更容易。根据n的不同,Sa值如下:

(1)Sa=-4.25*n+38.25      1<<n<<S

(2)Sa=-0.95*In n+18.7    n>5

(3)Sa=0.87*In X+30       n=0

X是逆向合成分析树中节点的数目。

2.对于每一条合成路线,在实现上难度是不同的,简单容易的合成路线意味着化合物的合成难度更低,一般来说,常温常压、没有无水无氧、试剂催化剂稳定容易处理、产物之间容易分离的反应组成的合成路线,更容易实现。实现的难度是使用基于反应难度的评分方法,对于每一步反应,得分Sp如下:

(1)每步反应对应的反应规则,在建立转换规则数据库时,已经对该反应能否实现的难易程度进行人工打分d,首先Sp=d

(2)计算产物和反应分离难度的得分。分离难度以产物和原料的logP差值ΔlogP表示,Sp与ΔlogP的关系:Sp=Sp+InΔlogP。logP的计算方法按照公知的方式进行:这是一种基于原子加和的方法,对有机小分子化合物中的各类原子,按照其杂化状态、成键状况以及相连原子的状态划分为76种基本类型。另外氰基、异硫氰酸酯基、硝基和亚硝基这四种末端基团也当做一个整体来看待,定义为四种“假原子”类型,共80种原子类型。每种原子类型具有特定的贡献值,分子的logP值即为分子中各个原子贡献之和。

合成路线的实现Sy难度是单步反应难度得分的加和,即Sy=∑Sp

对于整个合成路线的得分Sr,取合成线路中得分最小的表示,即:Sr=minSy

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号