首页> 中国专利> 基于正态分布的动态分层区组随机算法的样本均衡方法

基于正态分布的动态分层区组随机算法的样本均衡方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种基于正态分布动态分层区组随机算法的样本均衡方法。所述方法包括：配置总样本数，协变量，权重，目标分配概率；配置试验组个数和样本数；根据试验组样本数比例以及总样本数生成区块；在分中心生成区块集合；分中心独占区块；从区块集合中选择样本入组，得到最终样本分组结果。所述协变量是根据样本特征，提取对试验结果有影响的因素；所述权重，根据不同的协变量配置权重；所述样本分布满足正态分布。本申请解决了相关技术中样本不能始终保持平衡的问题，平衡了混杂因素，提高了试验结果分析维度。

著录项

公开/公告号CN112365986A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人零氪科技(北京)有限公司;零氪信息技术(北京)有限公司;
展开▼

申请/专利号CN202011152107.X
发明设计人韩彦军;
展开▼

申请日2020-10-23
分类号G16H50/70(20180101);G16H70/40(20180101);
代理机构11541 北京知果之信知识产权代理有限公司;
代理人卜荣丽
地址 100089 北京市海淀区海淀大街8号A座11层B区
入库时间 2023-06-19 09:52:39

说明书

技术领域

本申请涉及医学和生物技术领域，具体而言，涉及一种基于正态分布的动态分层区组随机算法的样本均衡方法。

背景技术

目前，在医学，生物学等领域，随机对照试验(randomized controlled trial,RCT)是对某种疗法或药物效果进行检测的常用手段。然而样本的差异，样本分布是影响试验结果的重要因素。为了保证样本分布均衡，降低样本差异，防止人为干预，现在常用的随机算法有简单随机，分层随机，区组随机，分层区组随机，动态随机等5种算法。其中，简单随机，区组随机，无法解决时间等重要协变量不均衡的问题，比如年龄，性别，肿瘤病理等因素对试验的影响。分层随机在样本数量较少时，各种例数会出现不平衡现象。分层区组随机，动态随机只能保证所有样本整体分布均衡，无法保证各个参与中心内部均衡。

针对相关技术中样本不能始终保持平衡的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于正态分布的动态分层区组随机算法的样本均衡方法，以解决相关技术中样本不能始终保持平衡的问题。

为了实现上述目的，本申请提供了一种基于正态分布的动态分层区组随机算法的样本均衡方法，包括如下步骤：

配置总样本数，协变量，权重，目标分配概率；

配置试验组个数和样本数；

根据试验组样本数比例以及总样本数生成区块；

在分中心生成区块集合；

分中心独占区块；

从区块集合中选择样本入组，得到最终样本分组结果。

所述协变量是根据样本特征，提取对试验结果有影响的因素；所述权重，根据不同的协变量配置权重；所述样本，其分布满足正态分布。

所述生成区块包括：设定小区块长度以及大区块长度，确定小区块个数以及大区块个数；

所述生成区块过程如下：取试验组样本数比例为试验组样本数的2～3倍，在此范围内设定小区块长度minBlockSize、大区块长度maxBlockSize；总样本数量为sum，则sum＝m*minBlockSize+n*maxBlockSize，计算m和n的取值集合，并取m和n的中间值分别作为小区块个数和大区块个数。

所述生成区块集合过程如下：随机取布尔值，如果布尔值为真(true)，则取小区块，如果布尔值为假(false)，则取大区块，直到各个区块都取完，根据生成的顺序组成区块集合。

所述分中心独占区块过程如下：根据分中心入组样本的顺序，从区块集合中获取区块，已获取的区块，不允许其他分中心在该区块中入组；当该分中心入组达到该区块的上限，重新获取新的入组区块；直到所有区块获取完毕。

所述样本入组，得到最终样本分组结果过程如下：

计算样本协变量在各试验组间的加权平均数

其中，m代表共有多少个组，k代表样本在某组中当前协变量对应选项的样本总个数，i为协变量，j为每个写变量中的选项。

根据各试验组间的加权平均数，计算分配到各协变量上的差值D

根据各协变量上的差值，计算该样本分配到各试验组的不平衡函数sumD

其中，W代表协变量的权重。

比较各试验组的不平衡函数，获取值最小的不平衡函数对应的试验组，所述获取值最小的不平衡函数对应的试验组称为目标组；

根据目标分配概率获取目标组取值范围；

根据最小不平衡函数和目标分配概率获取目标组；

根据该分中心对应的区块，计算该区块中目标组数量是否已经达到上限；

针对随机结果生成随机号，得到最终样本分组结果。所述生成随机号是对分组结果生成随机号。

所述根据目标分配概率获取目标组取值范围过程如下：将目标分配概率扩大100倍为PI，使P为0到100之间的正整数，随机生成一个0到100之间的正整数；随机数小于等于PI的概率恰好为P，其中，P代表目标分配概率。

所述根据最小不平衡函数和目标分配概率获取目标组过程如下：若随机数小于等于PI，则将目标组进行入组；如果目标组个数大于1，则对目标组进行简单随机；如果目标组个数不大于1，则将目标组进行入组；若随机数大于PI，则将非最小不平衡函数对应的组继续进行以上步骤，直到获取到唯一的目标组；

在所述计算该区块中目标组数量是否已经达到上限之后，所述方法还包括：如果达到上限，则从区块未达到上限的组中，进行简单随机，获取目标组；如果未达到上限，则该组就是最终目标组。

所述简单随机过程如下：假设有A，B，C三组，取一个布尔值作为判断，如果为真(true)，则取A组，如果为假(false)，则从B、C两组继续进行简单随机判断排除，直到最后剩一个组，作为目标组。

有益技术效果：

本申请解决了相关技术中样本不能始终保持平衡的问题，所得到的最终样本分组结果使得样本可以保持平衡。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的一种基于正态分布的动态分层区组随机算法的样本均衡方法流程图；

图2是根据本申请实施例提供的样本入组流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请提供了一种基于正态分布的动态分层区组随机算法的样本均衡方法，平衡混杂因素，提高试验结果分析维度的算法，要求符合以下原则：

A.均衡样本差异，防止样本收集过程中，因为时间，年龄，地域等样本差异造成的影响，提取影响因素作为协变量，并设置对应协变量的权重，试验的目标分配概率。

B.样本总数固定，各实验组与对照组的总数固定，每次随机入组都是不可预测的。最终分配到各个组的样本数要达到要求；

C.入组不可预测，整体随机分成多个区块，区块长度不固定，每个区块中随机结果的顺序也不固定；

D.样本分布满足正态分布。

本申请包括如下步骤，如图1所示：

步骤S1：配置总样本数，协变量，权重，目标分配概率；协变量主要是根据样本特征，提取对试验结果有影响的因素，包含年龄，地域，肿瘤病理等因素，不同的特征作为选项，并根据不同的协变量配置权重。根据试验组的设置以及试验要求，设置合理的目标分配概率。在此概率内，最终目标组为标准差所选择的目标组。

步骤S2：配置试验组个数和样本数；试验组个数要求能满足试验结果对比分析使用。

步骤S3：根据试验组样本数比例以及总样本数生成区块；

步骤S4：在分中心生成区块集合；

步骤S5：分中心独占区块；

步骤S6：从区块集合中选择样本入组，得到最终样本分组结果。

所述协变量是根据样本特征，提取对试验结果有影响的因素；所述权重，根据不同的协变量配置权重；所述样本分布满足正态分布。

所述生成区块包括：设定小区块长度以及大区块长度，确定小区块个数以及大区块个数；

所述生成区块过程如下：区块不能太大，否则无法保证样本分布均衡。也不能太小，否则区块中入组的顺序可以人为预测。取试验组样本数比例为试验组样本数的2～3倍，假设组1:组2:…:组n＝X1:X2:…:Xn,则X1+和u法规，X2+…+Xn之和为最小区块长度。为了防止人为干预及样本分布均衡。将最小区块长度扩大2倍形成小区块长度minBlockSize，扩大3倍形成大区块长度maxBlockSize。总样本数量为sum，则sum＝m*minBlockSize+n*maxBlockSize，计算m和n的取值集合，并取m和n的中间值分别作为小区块个数和大区块个数。

所述生成区块集合过程如下：为保证随机的可回溯性，利用可回溯的随机数生成器随机取布尔值，如果布尔值为真(true)，则取小区块，如果布尔值为假(false)，则取大区块，直到各个区块都取完，根据生成生成的顺序组成区块集合。区块顺序不为研究者可见，防止研究者根据区块长度对样本入组造成干预。

区组随机：假设一个区块长度为6，包含两个A组，4个B组,第一次随机入组A，第二次随机入组也是A，因为A没有达到上限，则第二次可以随机入组A。第三次随机入组A，因为A在该区块中达到了上限，不能继续进行入组，因此剩下的四次入组，只能入组到B组。区组随机即在一定范围内，对试验组个数进行了限制，防止一段时间内，大量样本入组同一个试验组，造成样本分布不均衡。

所述样本入组，如图2所示，判断入组样本是否为第一个入组，如果是，将所有试验组作为目标组进行简单随机。如果不是，则根据最小化法进行动态随机，得到最终样本分组结果过程如下：

步骤S101：计算样本协变量在各试验组间的加权平均数

其中，m代表共有多少个组，k代表样本在某组中当前协变量对应选项的样本总个数，i为协变量，j为每个写变量中的选项。

步骤S102：根据各试验组间的加权平均数，计算分配到各协变量上的差值D

步骤S103：根据各协变量上的差值，计算该样本分配到各试验组的不平衡函数sumD

其中，W代表协变量的权重。

步骤S104：比较各试验组的不平衡函数，获取值最小的不平衡函数对应的试验组，所述获取值最小的不平衡函数对应的试验组称为目标组；

步骤S105：根据目标分配概率获取目标组取值范围；

步骤S106：根据最小不平衡函数和目标分配概率获取目标组；

步骤S107：根据该分中心对应的区块，计算该区块中目标组数量是否已经达到上限；

步骤S108：生成随机号，得到最终样本分组结果。所述生成随机号是对分组结果生成随机号。

所述根据目标分配概率获取目标组取值范围过程如下：将目标分配概率扩大100倍为PI，使P为0到100之间的正整数，随机生成一个0到100之间的正整数；随机数小于等于PI的概率恰好为P，其中，P代表目标分配概率。目标组取值范围为1％-100％。

所述根据最小不平衡函数和目标分配概率获取目标组过程如下：通过计算各实验组的不平衡函数，获取不平衡函数最小的组为目标组集合，如果随机数小于PI，则从目标组集合中进行简单随机，选取唯一的组为目标组。如果随机数大于PI，则从剩余组，即非目标组中继续计算不平衡函数，选择不平衡函数最小的组为目标组集合，继续进行上述步骤，获取随机数，判断是否大于PI，直至最终选取结果为唯一目标组。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于正态分布的动态分层区组随机算法的样本均衡方法 [P] . 中国专利： CN112365986A . 2021-02-12
2. 基于动态均衡点的电池组均衡控制系统及控制方法 [P] . 中国专利： CN103532189A . 2014-01-22
3. A SIGNAL PROCESSING ARRANGEMENT FOR PROVIDING A PLURALITY OF OUTPUT SAMPLES ON THE BASIS OF A SET OF INPUT SAMPLES AND A METHOD FOR PROVIDING A PLURALITY OF OUTPUT SAMPLES ON THE BASIS OF A SET OF INPUT SAMPLES [P] . WO2021129935A1 . 2021-07-01

机译：一种用于基于一组输入样本提供多个输出样本的信号处理装置，以及用于基于一组输入样本提供多个输出样本的方法
4. Encoder that calculates a set of prediction samples for a first partition included in a video and encodes the first partition using the set of prediction samples [P] . US11197019B2 . 2021-12-07

机译：编码器计算用于视频中包括的第一分区的一组预测样本，并使用一组预测样本对第一分区进行编码
5. methods for identifying a cancer stem cell zone, an adenoma-adenocarcinoma transition zone, a colon tumor, cancer stem cells, an individual with colorectal cancer likely to respond favorably to treatment with an nf-targeted therapy -kb, an individual with genomic loss of 18q / smad4 and 10q / pten, to diagnose an individual with a high degree of colon adenoma and early adenocarcinoma, and to determine the likelihood of a colon tumor in an individual undergoing a transformation. invasive if left untreated and the likelihood that an individual with colorectal cancer (CRC) will respond favorably to treatment with targeted tgf-beta therapy, and a kit to identify an adenoma-adenocarcinoma transition region in a tumor sample from colon [P] . BR112016017132A2 . 2018-01-30

机译：鉴定癌症干细胞区，腺瘤-腺癌过渡区，结肠肿瘤，癌症干细胞，可能对nf靶向疗法-kb进行治疗的结直肠癌患者，基因组丢失的个体的方法18q / smad4和10q / pten用于诊断患有高度结肠腺瘤和早期腺癌的个体，并确定个体发生结肠癌的可能性。如果不进行治疗，将具有侵袭性，并且结肠直肠癌（CRC）患者将对靶向tgf-β治疗产生良好反应的可能性，以及从结肠癌样本中鉴定出腺瘤-腺癌过渡区域的试剂盒