首页> 中国专利> 实现快速预测染料的最大吸收波长的方法及其系统

实现快速预测染料的最大吸收波长的方法及其系统

摘要

本发明公开了一种基于XGBoost算法快速预测染料的最大吸收波长的方法及系统,所述方法包括:建立数据集样本;生成描述符;随机划分训练集和测试集;自变量筛选;建立快速预测模型。本发明基于可靠的文献数据和建模方法,所建染料最大吸收波长预测模型具有高效便捷、成本低、绿色环保等优点。本发明方法和系统的优势在于无需合成样本、无需送样检测、成本低廉且可同时快速计算大量样本。对于预测染料的最大吸收波长,并为后续筛选符合特定颜色要求的染料提供有利参考,从而提高研发效率,缩短研发周期。

著录项

  • 公开/公告号CN113808682A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 上海大学;

    申请/专利号CN202111001864.1

  • 申请日2021-08-30

  • 分类号G16C20/30(20190101);G16C20/70(20190101);

  • 代理机构31205 上海上大专利事务所(普通合伙);

  • 代理人何文欣

  • 地址 200444 上海市宝山区上大路99号

  • 入库时间 2023-06-19 13:45:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-17

    实质审查的生效 IPC(主分类):G16C20/30 专利申请号:2021110018641 申请日:20210830

    实质审查的生效

说明书

技术领域

本发明涉及一种染料的吸收光谱研究领域,特别涉及一种基于XGBoost算法快速预测染料的最大吸收波长的方法及其系统。

背景技术

染料作为一种着色剂,大量用于纺织品的染色和印花上,油漆、塑料、纸张、皮革、光电通讯、食品、涂料、化妆品、摄影材料中也有广泛的使用。1856年,英国科学家伯琴合成了苯胺紫,开启了合成染料的时代。1862年P.Griess发现偶氮染料——卑斯麦棕(BismarckBrown),合成染料发展至今已有一百五十多年历史,偶氮染料已经成为品种最多的一类,占全世界所有染料的70%左右。

近年来,随着人们对于美好生活的向往和对时尚与美的追求,纺织行业中出现了许多新颖的染料制品,颜色种类繁多。为了满足人们对于色彩提出的更高要求,研究者们期望寻找一种快速得到与染料颜色直接相关的参数的方法。最大吸收波长是反映染料颜色的最重要参数之一。目前,得到染料的最大吸收波长的方法主要是先将合成后的染料配成一定浓度的溶液,再使用紫外-可见分光光度仪进行检测,虽然这种方法能够较为准确的检测出染料的最大吸收波长,但其耗费的时间较长,实验成本较高,在开发新型符合特定颜色要求的染料工作上会有一定的困难。

随着人工智能和大数据的发展,计算机技术用于化学领域的研发日益广泛,这使得将算法运用于染料的最大吸收波长进行预测,进一步地开发新型染料成为可能。ExtremeGradient Boosting(可译为极限梯度提升算法),简称XBGoost算法,是由华盛顿大学陈天奇博士于2014年提出,该算法是基于累加迭代的梯度提升决策树,为梯度增强回归树(GBRT)的改进与具体实现。XBGoost算法致力于让提升树突破自身的计算极限,以实现运算快速、性能优异的工程目标。它同时也支持并行计算,适用于小样本集以及大规模样本集,可训练百万级的样本。但如何将XBGoost算法应用于快速预测染料的参数还需要进一步地探索和研究。

发明内容

为了解决现有技术染料最大吸收波长的检测成本高、耗时长的问题,本发明的目的在于克服已有技术存在的不足,提供一种实现快速预测染料的最大吸收波长的方法及其系统,通过计算染料的二维描述符,利用最大相关最小冗余(mRMR)的变量筛选方法,同时借助XGBoost算法建立模型,快速预测染料的最大吸收波长值。通过以上方法,可以在数分钟内快速得到结果,大大降低时间成本及检测成本,整个过程无需实验和繁杂的计算。

为达到上述发明创造目的,本发明采用如下技术方案:

一种基于XGBoost算法快速预测染料的最大吸收波长的方法,包括如下步骤:

1)利用计算机系统,从文献中查找偶氮型染料分子结构以及对应的最大吸收波长实验值,进行数据预处理,整理样本的分子结构式、获取样本的最大吸收波长实验值,将预处理后的数据集样本作为后续建模的数据集样本;所述的步骤1)中的对数据样本进行预处理包括整理样本的分子结构式、获取样本的最大吸收波长实验值;

2)对所述数据集的样本使用化学绘图程序,绘得所收集的染料分子结构,利用描述符生成程序生成相应的描述符;

3)以所述数据集样本的最大吸收波长实验值为目标变量,使用产生的描述符为自变量,通过变量筛选方法删除冗余自变量,保留最佳自变量子集;

4)对所述数据集进行随机划分为训练集和测试集;

5)对最佳自变量子集进行自变量进行二次筛选,对筛选出的最佳自变量进行转换,获取新的自变量子集;

6)目标变量为以所述步骤1)的数据集为样本,自变量为所述步骤6)的自变量子集,以所述目标变量与自变量,使用XGBoost算法构建训练模型,建立偶氮型染料最大吸收波长的快速预测模型;

7)根据所建立的偶氮型染料最大吸收波长的快速预测模型和待测的偶氮型染料分子结构,快速预测待检测的偶氮型染料的最大吸收波长。

优选地,在所述步骤5)中,获取的新的自变量有22个,分别为:

P(1)=-0.1468x

P(2)=-0.3452x

P(3)=-0.04478x

P(4)=-0.009321x

P(5)=+0.1486x

P(6)=-0.06321x

P(7)=+0.01173x

P(8)=+0.1105x

P(9)=+0.02127x

P(10)=-0.1770x

P(11)=-0.05616x

P(12)=-0.3046x

P(13)=-0.04337x

P(14)=+0.02989x

P(15)=+0.1169x

P(16)=-0.1550x

P(17)=+0.08381x

P(18)=+0.07249x

P(19)=-0.1175x

P(20)=+0.08123x

P(21)=-0.02327x

P(22)=-0.04836x

其中,x

优选地,在所述的步骤3)中,变量筛选方法如下:

首先计算各个特征之间以及与目标值之间的相关系数,根据相关系数大小排序,选取特征或直接删除特征之间相关系数大于阈值的冗余特征,然后在特征集合中找到与类别相关性最大,但特征之间冗余性最小的一组特征,选为最佳自变量子集。

优选地,在所述的步骤2)中,使用Chemdraw软件,绘得所收集的染料分子结构,将其分子结构导出SMILES字符串形式,再用Dragon软件生成相应的描述符。

进一步优选地,在所述的步骤3)中,以实验的最大吸收波长值为目标变量,利用Dragon软件所生成的描述符作为自变量,删除变量间相关系数为0.99的变量对中的一个变量,保留其中与目标变量相关系数较大的那个自变量,获得初步筛选的自变量数据集和目标变量数据集。

优选地,在所述的步骤4)中,对所述数据集进行随机划分为训练集和测试集,按照数据量计算,测试集所占比例不超过整体数据集的20%。

优选地,在所述的步骤5)中,对最佳自变量子集进行自变量进行二次筛选,利用最大相关最小冗余(mRMR)方法结合XGBoost回归留一法,选出建模的最佳自变量子集。

一种实现快速预测染料的最大吸收波长的系统,执行本发明基于XGBoost算法快速预测染料的最大吸收波长的方法,其特征在于,包括:

输入模块:利用计算机系统,从文献中采集偶氮型染料的分子结构及其对应的最大吸收波长实验值并作为输入数据;

数据分析模块:利用输入模块获得的数据,执行基于XGBoost算法快速预测染料的最大吸收波长的方法,快速预测待检测的偶氮型染料的最大吸收波长;

输出模块:将快速预测待检测的偶氮型染料的最大吸收波长数据输出。

本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:

1.绿色环保:本发明避免了繁杂的实验合成过程,无需合成染料分子,无需采购药品试剂,无需购买实验仪器,符合绿色环保理念;

2.时效高:本发明使用的自变量均为分子二维结构得到的描述符,通过Dragon软件在一分钟内可生成数百个分子的描述符,时效性高,使用便捷,只需一人操作即可完成;

3.周期短:本发明经过变量筛选以及XGBoost的建模,可提前预测染料分子的最大吸收波长,为染料研发人员提供有利的参考,大大降低研发成本,有效地缩短研发周期,避免了盲目的“试错”实验;

4.成本低:本发明在Dragon软件生成的自变量基础上进行了一定的筛选和对变量进行转换,再以XGBoost建模,操作过程简单,仅仅利用计算机即可完成全部过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,可以根据本附图说明获得其它实施例的附图。

图1为本发明方法的主要流程图。

图2为本发明的偶氮染料的最大吸收波长的XGBoost回归建模结果图。

图3为本发明的偶氮染料的最大吸收波长的XGBoost回归留一法交叉验证结果图。

图4为本发明的偶氮染料的最大吸收波长的XGBoost回归独立测试集结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,机器学习或深度学习方法是目前使用较为广泛的数据挖掘方法,在多种算法中,XGBoost(Extreme Gradient Boosting)是一种既适用于小样本集,又适用于大规模样本集的并行计算方法,是基于累加迭代的梯度提升决策树,为梯度增强回归树(GBRT)的改进与具体实现。传统的GBRT算法只是利用了泰勒展开式的一阶导数,然而XGBoost算法对目标函数进行了改进,引入目标误差函数进行二阶导数的展开,从而提高了模型的预测精度,因此,该方法适用于对染料的最大吸收波长进行快速预测。

本发明提出一种基于XGBoost算法快速预测染料的最大吸收波长的方法。首先,立足于偶氮染料分子结构的本身特点,利用Dragon软件生成描述符,并探讨进一步筛选自变量的方式;其次,基于XGBoost的基本原理,研究基于XGBoost算法的快速预测染料最大吸收波长的具体框架流程。

以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:

实施例一:

在本实施例中,请参见图1和图2,一种基于XGBoost算法快速预测染料的最大吸收波长的方法,包括步骤:

1)利用计算机系统,从文献中查找偶氮型染料分子结构以及对应的最大吸收波长实验值,进行数据预处理,整理样本的分子结构式、获取样本的最大吸收波长实验值,将预处理后的数据集样本作为后续建模的数据集样本;

2)对所述数据集的样本使用化学绘图程序,绘得所收集的染料分子结构,利用描述符生成程序生成相应的描述符;

3)以所述数据集样本的最大吸收波长实验值为目标变量,使用产生的描述符为自变量,通过变量筛选方法删除冗余自变量,保留最佳自变量子集;

4)对所述数据集进行随机划分为训练集和测试集;

5)对最佳自变量子集进行自变量进行二次筛选,对筛选出的最佳自变量进行转换,获取新的自变量子集;

6)目标变量为以所述步骤1)的数据集为样本,自变量为所述步骤6)的自变量子集,以所述目标变量与自变量,使用XGBoost算法构建训练模型,建立偶氮型染料最大吸收波长的快速预测模型;

7)根据所建立的偶氮型染料最大吸收波长的快速预测模型和待测的偶氮型染料分子结构,快速预测待检测的偶氮型染料的最大吸收波长。

本实施例方法的优势在于无需合成样本、无需送样检测、成本低廉且可同时快速计算大量样本。对于预测染料的最大吸收波长,并为后续筛选符合特定颜色要求的染料提供有利参考,从而提高研发效率,缩短研发周期。

实施例二

本实施例与实施例一基本相同,特别之处在于:

在本实施例中,在所述的步骤2)中,使用Chemdraw软件,绘得所收集的染料分子结构,将其分子结构导出SMILES字符串形式,再用Dragon软件生成相应的描述符。

在本实施例中,在所述的步骤3)中,以实验的最大吸收波长值为目标变量,利用Dragon软件所生成的描述符作为自变量,删除变量间相关系数为0.99的变量对中的一个变量,保留其中与目标变量相关系数较大的那个自变量,获得初步筛选的自变量数据集和目标变量数据集。本实施例计算各个特征之间以及与目标值之间的相关系数,根据相关系数大小排序,选取特征或直接删除特征之间相关系数大于阈值的冗余特征,然后在特征集合中找到与类别相关性最大,但特征之间冗余性最小的一组特征,选为最佳自变量子集。

在本实施例中,在所述的步骤4)中,对所述数据集进行随机划分为训练集和测试集,按照数据量计算,测试集所占比例不超过整体数据集的20%。

在本实施例中,在所述的步骤5)中,对最佳自变量子集进行自变量进行二次筛选,利用最大相关最小冗余(mRMR)方法结合XGBoost回归留一法,选出建模的最佳自变量子集。

本实施例基于XGBoost算法快速预测染料的最大吸收波长的方法,建立数据集样本;生成描述符;随机划分训练集和测试集;自变量筛选;建立快速预测模型。本实施例基于可靠的文献数据和建模方法,所建染料最大吸收波长预测模型具有高效便捷、成本低、绿色环保等优点。

实施例三

本实施例与上述实施例基本相同,特别之处在于:

在本实施例中,在所述步骤5)中,获取的新的自变量为:

P(1)=-0.1468x

P(2)=-0.3452x

P(3)=-0.04478x

P(4)=-0.009321x

P(5)=+0.1486x

P(6)=-0.06321x

P(7)=+0.01173x

P(8)=+0.1105x

P(9)=+0.02127x

P(10)=-0.1770x

P(11)=-0.05616x

P(12)=-0.3046x

P(13)=-0.04337x

P(14)=+0.02989x

P(15)=+0.1169x

P(16)=-0.1550x

P(17)=+0.08381x

P(18)=+0.07249x

P(19)=-0.1175x

P(20)=+0.08123x

P(21)=-0.02327x

P(22)=-0.04836x

其中,x

本实施例对筛选出的最佳自变量进行转换,获得新的自变量,提供丰富的变量条件和变量资源。

实施例四

本实施例与上述实施例基本相同,特别之处在于:

在本实施例中,一种基于XGBoost算法快速预测染料的最大吸收波长的方法,包括以下步骤:

(1)利用计算机系统,在文献中查找单偶氮型染料分子结构以及对应的最大吸收波长实验值,共找到符合要求的单偶氮型染料分子212个,部分结构以及最大吸收波长值如表1所示:

表1.部分文献中单偶氮型染料分子结构及其最大吸收波长实验值表

(2)使用Dragon软件对Chemdraw软件绘出的偶氮染料二维结构生成的描述符共10540个,部分描述符如表2所示:

表2.Dragon生成的部分偶氮染料描述符表

(3)以最大吸收波长值为目标变量,Dragon生成的描述符为自变量,以变量自相关为0.99初步筛选自变量,获得2173个描述符;

(4)随机划分训练集和测试集,比例为4:1,训练集与测试集的样本量分别为169和43;

(5)以最大相关最小冗余(mRMR)结合XGBoost回归算法筛选描述符,选出了22个最佳描述符分别为x

表3.22个最佳描述符的部分数据表

(6)基于上述步骤(5)筛选出的描述符,根据以下公式进行转换,生成新的描述符,详细参见表4所示;

表4.转换后生成的部分新的描述符表

(7)在上述步骤(6)生成的新的描述符基础上,使用XGBoost回归建立偶氮染料的最大吸收波长的快速预测模型;

(8)根据建立的偶氮染料的最大吸收波长快速预测模型与待测的偶氮染料分子,快速预测待测的偶氮染料最大吸收波长值;

在本实施例中,基于169个XGBoost回归算法建立的偶氮染料的最大吸收波长预测模型的建模效果,如图2所示。利用XGBoost回归算法对169个偶氮染料的数据进行回归建模,建立单偶氮染料的最大吸收波长的XGBoost回归定量预测模型,模型预测值与文献报道的实验值的相关系数为0.99,平均绝对误差为0.04,均方根误差为0.23。

在本实施例中,基于169个XGBoost回归算法建立的偶氮染料的最大吸收波长预测模型的独立测试集预测结果,如图4所示。通过建立的偶氮染料的XGBoost回归算法预测模型对独立测试集的43个样本进行预测,预测结果良好,偶氮染料的预测值与文献报道的实验值的平均绝对误差为28.32。

实施例五

本实施例与上述实施例基本相同,特别之处在于:

在本实施例中,一种实现快速预测染料的最大吸收波长的系统,执行上述实施例所述基于XGBoost算法快速预测染料的最大吸收波长的方法,包括:

输入模块:利用计算机系统,从文献中采集偶氮型染料的分子结构及其对应的最大吸收波长实验值并作为输入数据;

数据分析模块:利用输入模块获得的数据,执行基于XGBoost算法快速预测染料的最大吸收波长的方法,快速预测待检测的偶氮型染料的最大吸收波长;

输出模块:将快速预测待检测的偶氮型染料的最大吸收波长数据输出。

本实施例系统的优势在于,运行程序时无需合成样本、无需送样检测、成本低廉且可同时快速计算大量样本。对于预测染料的最大吸收波长,并为后续筛选符合特定颜色要求的染料提供有利参考,从而提高研发效率,缩短研发周期。

上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号