首页> 中国专利> 一种高通量组合实验中的空间填补最优设计方法

一种高通量组合实验中的空间填补最优设计方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种高通量组合实验的空间填补最优设计方法，可有效解决现有技术对高通量组合实验优化设计时对初始值过于依赖的问题。首先确定实验数据空间维数(即实验因素的数目)，建立优化指标模型，求解最优指标(均方逼近误差)以得到实验元胞最优设计结构。然后对基本元胞进行扩展，把设计结果扩展到多个实验设计结构单元以便覆盖所需范围的实验数据。最后对基本元胞进行自适应精制设计，以得到明显的实验改进结果。本发明提供了一种高通量组合实验中数据空间的优化方法，降低了设计处理的重复性，提高了设计的科学性、可靠性，适用于高、低维数据空间优化设计，具有实质性特点，是材料科学和工程领域等高通量组合实验设计的重要环节。

著录项

公开/公告号CN101526968A

专利类型发明专利
公开/公告日2009-09-09

原文格式PDF
申请/专利权人江南大学;
展开▼

申请/专利号CN200910026224.9
发明设计人楼旭阳;崔宝同;
展开▼

申请日2009-03-17
分类号G06F17/50;G06N7/00;
代理机构无锡市大为专利商标事务所;
代理人殷红梅
地址 214122 江苏省无锡市滨湖区蠡湖大道1800号
入库时间 2023-12-17 22:36:00

法律信息

法律状态公告日

法律状态信息

法律状态
2017-05-03

未缴年费专利权终止 IPC(主分类):G06F17/50 授权公告日:20110413 终止日期:20160317 申请日:20090317

专利权的终止
2011-04-13

授权

授权
2009-11-04

实质审查的生效

实质审查的生效
2009-09-09

公开

公开

说明书

技术领域

本发明涉及一种最优设计方法，具体地说是一种适用于高通量组合实验系统，也可用于低通量组合实验中系统数据的分析的空间填补最优设计方法。

背景技术

近年来，高通量组合实验在材料科学中，尤其是新材料的发展中，应用日趋广泛。针对采样数据的准备及特特征，尽管实验设备和技术做了很大改进(有代表性的改进之一就是高端的自动化操作)，但对于实验设计和实验结果的分析关注仍然较少。许多用于传统实验设计和数据分析的方法仍然只是简单地移植用于高通量组合实验中。然而，值得注意的是，高通量组合实验方法特征往往与传统实验设计方法有一些显著不同：

(1)相比于传统实验设计，高通量组合实验往往涉及多因素，即因素空间维数大，而且每个考虑的因素变化范围也很宽。

(2)传统实验设计中，往往会考虑以最少的实验次数来获得所须信息。然而，在高通量组合实验设计中，保持实验次数最低并不是最重要的原则。对参数组合间进行上百次或上千次的实验循环是很正常。例如，一种多重高通量生物学和化学试验装置，采用重复性探针阵列的组分，其表面含有多个测定区来测定实验数据。

(3)高通量技术往往自动化程度高。因而，一般来说(至少相比于手动操作方法)，这也说明可获得更高的可重复性、更低的不可控变化以及更小的实验误差。

在高通量组合实验，为了进一步探究参数空间，传统的方法通常是开展一系列新的实验测试，并重复这一过程。但是，一个明显的问题是如何有效地选取下一批实验测试点。人们通常自然地会想到“完全探测”出参数空间，基于这种尽可能多地利用实验数据来进行“训练”的方法已经有了不少研究，比如：批量迭代法、神经网络法、遗传算法。但是，这些方法由于都不是通过参数空间严格数学推导建立的，所以都不是严格意义可靠的优化设计方法，并且这些设计方法中设计参数依赖比较严重。例如，神经网络系统网络初始权值对于学习是否达到局部最小、是否能够收敛以及训练时间的长短的关系很大；另外，若网络中间隐层的节点过少，则网络难以处理复杂的问题，但若中间隐层的节点过多，则将使网络学习时间急剧增加，而且还可能导致网络学习过度，使网络抗干扰能力下降。目前，还没有完善的理论来指导中间隐层节点数的选择而只是结合实际情况进行试探性选择再逐步优化。在遗传算法中，算法对初始种群的选择对有一定的依赖性。另外，这些设计方法对于新增数据情况下，不能在充分利用原有优化设计结构，只能对整套数据进行重新学习或训练。因此，有必要建立一种科学可靠的优化设计方法来分析高通量组合实验。

发明内容

本发明的目的在于克服上述不足之处，从而提供一种新的高通量组合实验空间填补最优设计方法，充分利用了新增实验前的优化设计结构，降低设计处理的重复性，提高设计的科学性、可靠性。

按照本发明提供的技术方案，一种高通量组合实验中的空间填补最优设计方法包括如下步骤：

(1)根据高通量组合实验数据，确定实验数据空间维数；所述实验数据空间维数，即实验因素的数目。

(2)计算最优指标均方逼近误差ε来衡量空间填补设计的效果，以获得基本元胞的最优设计结构。均方逼近误差ε的计算方法如下：

令q_ij(x)＝x_ix_j/h²，i，j＝1，2，L，n用以衡量实验元胞E内实际数据单位最大值，q_ij^％(x)为元胞E上q_ij(x)的线性插值；定义均方逼近误差为

$ϵ = \frac{2}{n (n + 1) {(2 h)}^{n}} {\underset{i, j = 1}{Σ}}_{i \leq j}^{n} \int_{{[- h, h]}^{n}} {(q_{ij} (x) - q_{ij}^{%} (x))}^{2} dx,$

其中，度量因子(2h)ⁿ说明了元胞E的“容积”，n(n+1)/2表示累和中项的总数。

(3)基本元胞的扩展：即把上述结果扩展到整个实验元胞E以便覆盖[-h，h]范围的实验数据。

(4)计算所需最少实验点数：

d为奇数时，所需最少实验点数 $N_{p 1} = p {(\frac{d + 1}{2})}^{n} = (n + 1) {(\frac{d + 1}{2})}^{n},$

d为偶数时，所需实验点数 $N_{p 2} = Σ_{i = 1}^{p} {(\frac{d}{2} + 1)}^{N_{i}^{(0)}} {(\frac{d}{2})}^{N_{i}^{(1)}},$

其中，N_i⁽⁰⁾是第i个点中所含0的个数，N_i⁽¹⁾是第i个点中所含1的个数，p＝n+1是n维设计中，一个基本元胞设计的点数，d是数据空间覆盖范围最小整数。

(5)根据上述最优设计在数据空间所需最少实验点数计算公式对基本元胞进行精制化设计，进一步优化设计效果，以得到明显的实验改进结果。

所述均方逼近误差ε的意义是基于采样点P_i线性插值二次逼近能力的一种度量。

本发明首先采集实验数据，再对所测量的数据综合评估，确定数据空间维数、数据范围，然后通过一系列的数据分析、指标计算、优化实验元胞结构的设计，并进一步地实施新实验数据的采集，在前一次优化设计基础上进行精制化设计。

本发明与已有技术相比具有以下优点：实现了一种基于自适应空间填补最优设计的高可靠性，并达到利用高通量组合实验中尽可能少的试验点来获得需要的信息，适用于高、低维数据空间优化设计，弥补了现有技术如神经网络法、遗传算法学习训练时对初始值过于依赖的缺点，充分利用原有优化设计结构从而大大提高了优化设计效率，是高通量组合实验设计中的重要环节。相比于用规则的立方格子来设计所需实验点数N＝dⁿ(n表示维数，d表示基本元胞数)，本发明设计方法所需实验点数 $N \approx {(\frac{d}{2})}^{n} (n + 1)$ 有着显著优点。

附图说明

图1是本发明总体流程图。

图2是三维空间中所有2种最佳元胞设计结构示意图。

图3是四维空间中一种最佳元胞设计结构示意图。

图4是三维空间第x₁维方向复制基本元胞效果示意图。

图5是应用实例中基本元胞区域示意图。

图6是几种低维数据空间n＝3，4，5，6，7的最优设计结构组合矩阵示意图。

图7是本发明所述高通量组合实验优化设计总流程图。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图作进一步的详细描述，并在最后给出一个应用实例。

本发明所要解决的是：如何设计一种科学性、数学严密性、可靠性及少随机依赖性的最优方法用于高通量组合实验。

如图1所示，本发明的技术方案是根据测量的实验数据先确定实验数据空间维数，计算均方逼近误差，再通过所得均方逼近误差最小的基本元胞的确定其组合矩阵，然后将该基本元胞设计扩展到整个实验数据空间中，评估整个实验元胞优化设计效果：如果满足预期目标，则结束设计；如果不满足，则在均方逼近误差较大的位置增加新的测量数据点，进一步精制化设计。

先给出几个概念词说明如下：

自适应最优空间填补：根据某一误差指标，通过优化设计能确定数据空间中误差指标大的位置，从而在该位置应填补或增加新的实验数据点。

实验元胞(结构)：在一个n维的实验数据空间中，每一维数据范围都包含在[-h，h](h＞0)中，则立体空间结构[-h，h]ⁿ即为实验元胞。

基本元胞：单元立体空间结构[-1，1]ⁿ。

最佳元胞设计结构：使得某一评估指标达到最优时的基本元胞。

精制化设计：通过基本元胞的设计、扩展，计算实验点数，再进一步对某些误差指标不够理想的基本元胞进行优化设计。

高通量组合实验：如图7所示，其优化设计总流程为

采集实验数据；

测试数据的综合；

评估数据特征；

数据分析、建模、优化；

新实验数据采集；如此循环。

本发明具体实施方式如下：

第一步：确定实验数据空间维数(即实验因素的数目)，再计算最优指标(均方逼近误差ε)以得到整个基本元胞的最优设计。

本发明提出了一种基于自适应空间填补最优设计的方法，主要是基于一种最优指标(均方逼近误差ε)来评估设计优劣，并针对实验或采样点来“填充”实验数据空间。其基本原理如下：

考虑n维实验数据空间中，定义：

a、E＝[-h，h]ⁿ为一个数据范围包含在[-h，h]，h＞0内的实验元胞；

b、y_i1，L，y_in(i＝1，L，n+1)第i组测量实验点数据组，比如说第1维(温度)属性第i次测量的实验点数据为y_i1，第2维(浓度)属性的第i次测量实验点数据为y_i2，依次类推；

c、P_i＝(y_i1，L，y_in)，i＝1，L，n+1为第i组测量实验数据向量，P为(n+1)×n的矩阵，其中：P_ij＝y_ij，i＝1，L，n+1，j＝1，L，n；

d、向量x_j＝(y_1j，L，y_(n+1)j)^T，即矩阵P的第j列向量，其中j＝1，L，n；

e、优化设计矩阵为z＝[1_(n+1)×1P]，其中，1_(n+1)×1表示所有元素为1的(n+1)×1向量。在优化试验中发现，当Z为非奇异矩阵(或等价于P的秩为n)时，才有可能获得最优设计结构。

于是，对任意一组测量实验数据 $y_{i}^{%} = (y_{i 1}, L, y_{in}) \in E,$ 它在实验元胞中针对以某一实际目标函数值(如f_i＝y_i1y_i2)的二次线性插值可以计算如下：

先选取n+1个基本元胞的顶点测量实验数据(即y_ij仅为-h或h的情况)，组成矩阵P，从而得到优化设计矩阵z＝[1_(n+1)×1P]；再分别计算这n+1次测量所对应的实际目标函数值f_i(i＝1，L，n+1)，得到F＝(f₁，f₂，L，f_n，f_n+1)^T；接着求出基本元胞二次线性插值函数矩阵A＝[a₀，a₁，L，a_n]^T＝Z^-1F；最后求出任意测量数据y_i^％在基本元胞内的二次线性插值 $f_{i}^{%} = (1, y_{i}^{%}) \cdot A .$ 上述几个向量和矩阵维数如下：

P：(n+1)×n，z：(n+1)×(n+1)，F：(n+1)×1，A：(n+1)×1。

现给出最优指标(均方逼近误差ε)的定义。令q_ij(x)＝x_ix_j/h²(相当于上述的f_i)，i，j＝1，2，L，n用以衡量实验元胞E内实际数据单位最大值；q_ij^％(x)(相当于上述的f_i^％)为元胞E上q_ij(x)的线性插值。定义均方逼近误差为

$ϵ = \frac{2}{n (n + 1) {(2 h)}^{n}} {\underset{i, j = 1}{Σ}}_{i \leq j}^{n} \int_{{[- h, h]}^{n}} {(q_{ij} (x) - q_{ij}^{%} (x))}^{2} dx,$

其中，度量因子(2h)ⁿ说明了元胞E的“容积”，n(n+1)/2表示累和中项的总数。ε的意义可以看成是基于采样点P_i线性插值二次逼近能力的一种度量。基于这一评估属性来衡量空间填补设计的效果，提炼最优设计结构，并针对进一步的实验数据精炼优化结构以满足实际需要。

以三维和四维数据空间为例，基本元胞最优设计如下：

三维空间：由于任意范围的实验数据都可以通过标准化转换到[-1，1]内，所以假定一个基本元胞的范围是[-1，1]。显然，一个维数等于3(n＝3)的元胞有2ⁿ＝8个实验点供选择，因此，从中选择4个测试共有 $C_{8}^{4} = 70$ 组合，计算出这70个组合情况的最优指标属性进行比较，得到2种等效最佳元胞设计结构(D₁，D₂)，其均方逼近误差值均为ε＝2.933。它们的基本元胞设计结构如图2所示，设计点组合矩阵如下，其中纵向表示维数，横向表示实验点。

$D_{1} = (\begin{matrix} - 1 & - 1 & - 1 \\ - 1 & 1 & 1 \\ 1 & - 1 & 1 \\ 1 & 1 & - 1 \end{matrix}), D_{2} = (\begin{matrix} - 1 & - 1 & 1 \\ - 1 & 1 & - 1 \\ 1 & - 1 & - 1 \\ 1 & 1 & 1 \end{matrix})$

四维空间：类似于三维空间分析，一个维数等于4(n＝4)的元胞有2ⁿ＝16实验点供选择。因此，从中选择5个测试共有 $C_{16}^{5} = 4368$ 组合，计算出这4368个组合情况的最优指标属性进行比较，得到8种等效最佳元胞设计结构，其均方逼近误差值均为ε＝5.689。图3所示为8种最佳元胞设计结构中的一种最佳元胞设计结构图，图3(a)中第四维坐标为-1，图3(b)中第四维坐标为1。该元胞设计点组合矩阵如下：

$D = (\begin{matrix} - 1 & - 1 & - 1 & - 1 \\ 1 & 1 & 1 & - 1 \\ 1 & - 1 & - 1 & 1 \\ - 1 & 1 & - 1 & 1 \\ - 1 & - 1 & 1 & 1 \end{matrix}) .$

第二步：基本元胞的扩展，即把上述结果扩展到整个实验元胞E以便覆盖范围[-h，h]的实验数据。例如，如果在三维空间中，可以把在[-1，1]范围内的元胞扩展以覆盖[-1，5]范围内的实验数据，图4所示为该元胞结构在第x₁维方向进行扩展后的设计效果示意图。

第三步：计算所需最少实验点数，对基本元胞进行精制化设计：在引入附加实验点的情况下，结合已得到的最优设计结构，进一步优化设计效果，以得到明显的实验改进结果。对于最少所需实验点数的计算，通过对实验数据空间分析、总结，提出精制化设计前所需最少实验点数计算公式如下：

符号说明：

N_i⁽⁰⁾：第i个点中所含0的个数，

N_i⁽¹⁾：第i个点中所含1的个数，

p＝n+1：n维设计中，一个基本元胞设计结构的点数，

d：数据空间覆盖范围最小整数，

情况I：d为奇数时，所需实验点数 $N_{p 1} = p {(\frac{d + 1}{2})}^{n} = (n + 1) {(\frac{d + 1}{2})}^{n},$

情况II：d为偶数时，所需实验点数 $N_{p 2} = Σ_{i = 1}^{p} {(\frac{d}{2} + 1)}^{N_{i}^{(0)}} {(\frac{d}{2})}^{N_{i}^{(1)}} .$

对于一个给定的实验元胞，如果基本元胞数为奇数时，所需最少实验数是一个固定不变的数，因为它不依赖于N_i⁽⁰⁾(第i个点中所含0的个数)和N_i⁽¹⁾(第i个点中所含1的个数)，而当基本元胞数为偶数时，所需最少实验数则可能变化，因为一个基本元胞设计和它的等效设计会有不同的0-1组合。

下面给出一个应用实例：环氧及其他热固(性)聚合物特性中固化剂混合物的效果组合实验。在这一实验中，由于变量是四维实验设计并且对每一维变量都有约束，即0≤x₁+x₂+x₃≤4，0≤x₄≤4。从而整个基本元胞结构是一个超四面体。对于0≤x₄≤4范围内的任一x₄，基本元胞区域示意于图5中粗线围成的超四面体区域。设计步骤如下：

第1步：任选一个四维空间中最优基本元胞设计结构：

$D^{%} = (\begin{matrix} 1 & 1 & 1 & 1 \\ - 1 & - 1 & - 1 & 1 \\ - 1 & 1 & 1 & - 1 \\ 1 & - 1 & 1 & - 1 \\ 1 & 1 & - 1 & - 1 \end{matrix}) .$

第2步：根据D^％，利用列的逆变换操作计算所有等效情况(通过计算只有15种情况)。

第3步：利用这15种等效设计，通过元胞扩展操作覆盖范围[0，4]。

第4步：对于每一种情况，找出那些被包含或部分被包含在区域

0≤x₄≤4，0≤x₁+x₂+x₃≤4

内的元胞。

第5步：对于这些元胞中含有少于5个实验点在区域内的情况，通过综合分析添加新的有效实验点。

第6步：对15种情况分别计算出最优指标(均方逼近误差ε)值，最后选定那些所需实验点数最少的设计。

通过上面的流程，我们得到下面这一最优设计模式：

$D_{\min} = (\begin{matrix} 1 & 1 & 1 & - 1 \\ - 1 & - 1 & - 1 & - 1 \\ 1 & 1 & - 1 & 1 \\ 1 & - 1 & 1 & 1 \\ - 1 & 1 & 1 & 1 \end{matrix}) .$

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种高通量组合实验中的空间填补最优设计方法 [P] . 中国专利： CN101526968B . 2011.04.13
2. 一种高通量组合实验中的空间填补最优设计方法 [P] . 中国专利： CN101526968A . 2009-09-09
3. Method for defining an experimental space and method and system for conducting combinatorial high throughput screening of mixtures [P] . 美国专利： US6826487B1 . 2004-11-30

机译：定义实验空间的方法以及进行混合物的组合高通量筛选的方法和系统
4. Method for defining an experimental space and method and system for conducting combinatorial high throughput screening of mixtures [P] . AU7346901A . 2002-05-06

机译：定义实验空间的方法以及进行混合物的组合高通量筛选的方法和系统
5. METHOD FOR DEFINING AN EXPERIMENTAL SPACE AND METHOD AND SYSTEM FOR CONDUCTING COMBINATORIAL HIGH THROUGHPUT SCREENING OF MIXTURES [P] . 世界知识产权组织专利： WO0235396A1 . 2002-05-02

机译：定义实验空间的方法以及进行混合物的组合高通量筛选的方法和系统