首页> 中国专利> 基于日志的生物基因测序的任务模型构建方法

基于日志的生物基因测序的任务模型构建方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于日志的生物基因测序的任务模型构建方法，首先分析并提取生物基因测序日志中任务在提交时间上具有的工作日周期性和节假日周期特性；任务并行度在分布上具有的重尾分布特征，任务并行度同任务运行时间之间的重尾分布特征；任务队列的队列使用率存在指数分布，正态分布，伽马分布，二项分布特征，同时队列使用率同队列的日任务到达数的期望值之间存在非线性关系的特征。本发明模拟了任务提交时间上的工作日周期性以及节假日周期性；然后生成了任务的并行度和任务的运行时间；最后到达数的期望之间存在的关系生成了任务的队列号。最终构建的任务模型可以用于更好地分析生物基因测序技术的优缺点，优化高性能环境的资源利用率。

著录项

公开/公告号CN103559333A

专利类型发明专利
公开/公告日2014-02-05

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201310477025.6
发明设计人董守斌;曹志波;李粤;张凌;
展开▼

申请日2013-10-12
分类号G06F17/50;
代理机构广州市华学知识产权代理有限公司;
代理人蔡茂略
地址 510640 广东省广州市天河区五山路381号
入库时间 2024-02-19 22:18:46

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-23

未缴年费专利权终止 IPC(主分类):G06F17/50 专利号:ZL2013104770256 申请日:20131012 授权公告日:20160622

专利权的终止
2016-06-22

授权

授权
2014-03-12

实质审查的生效 IPC(主分类):G06F17/50 申请日:20131012

实质审查的生效
2014-02-05

公开

公开

说明书

技术领域

本发明涉及高性能计算领域，特别涉及一种基于日志的生物基因测序的任务模型构建方法。

背景技术

自从watson和crick在1953年发现了DNA的双螺旋结构后，生命科学的发展便翻开了新的篇章。而针对DNA的生物基因测序技术则成为整个生命科学发展的基础。另一方面，生物基因测序技术需要海量的计算和存储资源进行快速的测序，因此如果计算资源和存储资源调度不合理的话，会导致资源的利用率低下，进而延迟基因测序的速度。而生物基因测序日志是生物基因测序技术在高性能计算环境下的使用记录，通过分析生物基因测序日志中任务的各项属性（任务的到达时间，任务的并行性，任务的运行时间等），可以很好地掌握生物基因测序使用计算资源的情况。而通过这些任务特性构建具有相同特性的任务模型，则有利于提出一种针对这些特性的集群调度策略，进而优化集群的资源使用率。高性能环境下利用任务日志中的任务特性分为两种：可塑性任务和刚性任务。可塑性任务是指任务的并行度和任务的运行时间是可变的，而刚性任务则指任务的并行度和任务的运行时间是固定不变的。本发明主要针对刚性任务的任务特性进行模型构建，因此以下主要介绍刚性任务方向的任务模型构建的研究情况。

早期针对刚性任务负载的进行建模主要有以下四个特征：任务的并行性 (任务使用的CPU数量)、任务的运行时间、用户重复提交的任务数量以及任务的到达时间间隔。首先利用指数分布来模拟任务的到达时间间隔，通过对日志分析模拟出任务的并行性，再通过任务的并行性产生概率p，然后利用这个概率和高阶指数分布模拟出任务的运行时间。需要指出的是这种方法在进行任务时间间隔模拟时，没有考虑任务到达的工作日周期性和休息日周期性。本发明则同时考虑这两种周期特性。而在最近的研究中，研究人员通过分析上述研究中未解决的问题，例如任务到达时间间隔的日周期特性等，然后分析了任务到达的工作日周期性，将一天分为48个时间槽，每个时间槽(1800s)根据其平均到达的任务数，获得正比于任务数的权重，然后采用伽马分布对任务的工作日周期性进行模拟。同时研究人员发现任务的并行性与任务运行时间具有正比关系，且这两个任务特征的对数呈伽马分布，于是，研究人员利用上述信息首先模拟出任务的并行性，然后通过任务的并行性模拟出任务的运行时间。但是并没有分析任务到达时间间隔的工作日周期性和节假日周期性，而是将这两种混合在一起分析了日周期特性。本发明同时考虑了这两种特性。

尽管现有的研究对刚性任务进行了很好的任务模型构建，但是仍然存在待解决的问题，例如任务的工作日周期特性和节假日周期特性的模型构建。因此，本发明在现有研究的基础上针对任务到达时间间隔的工作日周期性和节假日周期性，任务运行时间，任务的并行度以及任务的队列使用特性提出了一种基于日志的针对生物基因测序的任务模型构建方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，针对从实际环境中采集的生物基因测序日志的任务到达时间间隔，任务的运行时间，任务的并行性，以及任务的队列特性构建一种具有这些任务特性的任务模型。

本发明的目的通过下述技术方案实现：

一种基于日志的生物基因测序的任务模型构建方法，包括以下步骤：

（1）DCModel模块构建，主要利用指数分布和伽马分布来模拟任务的工作日周期性，通过指数分布模拟任务的节假日周期性，最后通过两个指数分布产生任务的时间间隔T；

（2）PRModel模块构建，首先利用伽马分布模拟出任务并行度P，然后利用生物基因测序日志中任务并行度与任务运行时间之间存在重尾分布的特征，利用伽马分布拟合这种特征，然后模拟出任务的运行时间R；

（3）QModel模块构建，首先利用一个伪随机函数发生器对所有要生成的队列进行分类，分为四类LOW,MIDDLE,SUBHIGH,HIGH，针对这四种不同的分类分别采用指数分布，正态分布，伽马分布以及二项分布来生成每个队列的使用率U_i，然后利用队列的使用率U_i同队列日任务到达数目期望之间存在的非线性关系，生成然后通过一个指数分布产生M_i，最后利用U_i，M_i以及一个伪随机函数发生器来产生队列号。

优选的，步骤(1)中的DCModel的模型构建，首先判断输入的开始时间S 是工作日还是节假日，如果是工作日则选择工作日周期性模块，生成一个符合工作日周期性的任务到达的时间间隔T；反之，则生成一个符合节假日周期性的任务到达时间间隔T，最后用(S+T)作为该任务的提交时间，并修正开始时间S=S+T。

优选的，DCModel模块实现的数学表达式如下：

$WorkDC \Rightarrow (\begin{matrix} x_{i} ~ E (\overline{x_{i}}) & 1 \leq i \leq 9 \\ x_{i} ~ Γ (α_{i}, β_{i}) & 10 \leq i \leq 24 \end{matrix})$

$WeekDC \Rightarrow y_{i} ~ E (\overline{y_{i}}), 1 \leq i \leq 24$

$t_{i} ~ (\begin{matrix} E (3600 / x_{i}) & 1 \leq i \leq 24 \\ E (3600 / y_{i}) & 1 \leq i \leq 24 \end{matrix})$

其中，公式中各个参数的意义为：x_i代表工作日的时间槽i到达的任务数目；y_i代表节假日的时间槽i到达的任务数目；表示工作日时间槽i到达的任务数目的期望值；代表节假日时间槽i到达的任务数目的期望值；E表示指数分布；Γ表示伽马分布；t_i表示第i个时间槽任务到达的时间间隔；α_i和β_i表示伽马分布的规模参数和形状参数；WorkDC表示工作日周期性，WeekDC表示节假日周期性。

优选的，步骤(2)中的PRModel的模型构建，接收由步骤(1)生成的提交时间(S+T)作为触发，通过伪随机函数发生器选择任务并行度P所在的区间，然后利用相应的伽马分布函数产生任务的并行度；然后再利用伪随机函数发生器选择任务运行时间R所在的区间，然后利用相应的伽马分布函数和任务并行度 P产生任务的运行时间R。

优选的，PRModel模块实现的数学表达式如下：

$P ~ (\begin{matrix} U (b_{1}, b_{1}) & P = b_{1} \\ Γ (α_{11}, β_{11}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{12}, β_{12}) & b_{3} < P \leq b_{4} \end{matrix})$

$R (\leq R_{low_th}) ~ (\begin{matrix} Γ (α_{21}, β_{21}) & P = b_{1} \\ Γ (α_{22}, β_{22}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{23}, β_{23}) & b_{3} < P \leq b_{4} \end{matrix})$

$R (> R_{mid_th}) ~ (\begin{matrix} Γ (α_{41}, β_{41}) & P = b_{1} \\ Γ (α_{42}, β_{42}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{43}, β_{43}) & b_{3} < P \leq b_{4} \end{matrix})$

其中，上述四个公式中各个参数的意义：b₁，b₂，b₃，b₄表示划分任务并行度的界限值，同生物基因测序日志中任务并行度的分布有关；α₁₁和β₁₁，α₁₂和 β₁₂表示任务并行度服从伽马分布的参数值；α₂₁和β₂₁，α₂₂和β₂₂，α₂₃和β₂₃，α₃₁和 β₃₁，α₃₂和β₃₂，α₃₃和β₃₃，α₄₁和β₄₁，α₄₂和β₄₂，α₄₃和β₄₃表示任务并行度同任务运行时间之间的伽马分布关系的参数值；R_{low_th}和R_{mid_th}表示任务运行时间的阈值； U表示一致性分布。

优选的，步骤(3)中的QModel的模型构建，接收步骤(1)和(2)中生成的 (S+T),P,R作为触发，根据生物基因测序日志中队列的分布特性模拟并生成该任务的队列号Q，最终完成整体任务模型的构建，生成的任务具有任务的提交时间，任务的并行度，任务的运行时间，任务的队列号。

优选的，QModel的数学表达式：

$U_{i} ~ (\begin{matrix} E ({\overline{U}}_{i}) & i \in LOW \\ N (μ_{i}, σ_{i}) & i \in MIDDLE \\ Γ (α_{i}, β_{i}) & i \in SUBHIGH \\ B (0.2, 1.0) & i \in HIGH \end{matrix})$

${\overline{M}}_{i} = (\begin{matrix} l_{i} {U_{i}}^{3} + l_{2} {U_{i}}^{2} + l_{3} U_{i} + l_{4} & i \in LOW \\ m_{1} {U_{i}}^{3} + m_{2} {U_{i}}^{2} + m_{3} U_{i} + m_{4} & i \in MIDDLE \\ s_{1} {U_{i}}^{3} + s_{2} {U_{i}}^{2} + s_{3} U_{i} + s_{4} & i \in SUBHIGH \end{matrix})$

${\overline{M}}_{i} = (\begin{matrix} C_{0.2} & U_{i} = 0.2, i \in HIGH \\ C_{1.0} & U_{i} = 1.0, i \in HIGH \end{matrix})$

$M_{i} ~ E ({\overline{M}}_{i}), i \in LOW \cup MIDDLE \cup SUBHIGH \cup HIGH$

其中，上述四个公式中各个参数的意义：LOW，MIDDLE，SUBHIGH，HIGH 是依据生物基因测序日志中每个队列的日任务到达数目的期望值的大小进行划分的区间；N表示正态分布，B是二项分布(不同于概率论里面的二项分布)，主要为了生成HIGH区间内的队列使用率；U_i表示队列i的队列使用率，队列使用率表示队列有任务到达的天数与总天数的比率；表示队列i的日任务到达数目的期望值；M_i表示队列i的日任务达到数目；C_0.2和C_1.0是针对生物基因中两个不同的队列使用率的日任务到达数目的期望值(由于这两个数值比较大，故进行单独的模拟)；μ_i，σ_i，α_i，β_i可以通过生物基因测序日志得出具体的数值。）

本发明相对于现有技术具有如下的优点及效果：

1.DCModel模拟了生物基因测序日志中任务的工作日周期性和节假日周期性，而以往的任务模型只是考虑的任务的日周期性，即不区分工作日和节假日。

2.PRModel将生物基因测序日志中任务的运行时间和任务的并行度联系起来，首先产生出任务的并行度，然后利用任务并行度同任务运行时间的关系，利用伽马分布生成任务的运行时间。

3.QModel首先模拟出生物基因测序日志中任务的和，然后利用这两个特性模拟出任务的队列号，而现有研究中并没有考虑任务的队列号的模拟。

4.与现有研究不同，本发明是针对生物基因测序日志进行的模型构建，因此可以更好地用于生物基因测序技术的分析。

附图说明

图1是为本发明基于生物基因测序日志构建的任务模型的框架图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，基于生物基因测序日志构建的任务模型的方法，包括以下步骤：

(1)DCModel的构建。在生物基因测序日志中任务的到达时间间隔存在工作日周期特性和节假日周期特性，因此DCModel需要同时能够产生具有工作日周期特性和节假日周期特性的任务日志。首先将一天分为24个时间槽，每个时间槽对应一个小时，生物基因测序日志的日周期特性显示：在时间槽1和时间槽9 之间每个时间槽任务到达的数目呈现逐渐降低然后升高的过程，而在时间槽10 到时间槽24之间每个时间槽任务到达的数目呈现逐渐升高然后降低的过程；同时在时间槽1到时间槽9内任务到达数目同时间槽存在指数分布关系，而时间槽10到时间槽24存在伽马分布关系。

$WorkDC \Rightarrow (\begin{matrix} x_{i} ~ E (\overline{x_{i}}) & 1 \leq i \leq 9 \\ x_{i} ~ Γ (α_{i}, β_{i}) & 10 \leq i \leq 24 \end{matrix})$

$WeekDC \Rightarrow y_{i} ~ E (\overline{y_{i}}), 1 \leq i \leq 24$

$t_{i} ~ (\begin{matrix} E (3600 / x_{i}) & 1 \leq i \leq 24 \\ E (3600 / y_{i}) & 1 \leq i \leq 24 \end{matrix})$

针对生物基因测序日志中日周期特性，本发明的DCModel的具体实现方案如上述三个公式。DCModel的构建步骤如下：

1)首先通过生物基因测序日志可以计算出工作日各个时间槽中的α_i和 β_i，然后计算出x_i；

2)同样可以从生物基因测序日志中计算出节假日各个时间槽的然后计算出y_i；

3)从现有的研究中易知集群中任务到达的时间间隔服从指数分布，同时一个时间槽的时间长度为3600s，因此可以利用上述最后一个公式，x_i和y_i产生工作日和节假日任务到达的时间间隔，从而完成DCModel的模型构建。

(2)PRModel的构建。生物基因测序日志中的任务的运行时间和任务的并行度之间存在重尾分布关系。但是重尾分布的数据生成误差比较大，因此本发明首先将任务的并行度按照不同大小划分成不同的任务并行度区间，然后利用伽马分布来拟合划分后区间内任务的并行度同任务运行时间之间的关系。下述四个公式是PRModel的数学关系表达式。

$P ~ (\begin{matrix} U (b_{1}, b_{1}) & P = b_{1} \\ Γ (α_{11}, β_{11}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{12}, β_{12}) & b_{3} < P \leq b_{4} \end{matrix})$

$R (\leq R_{low_th}) ~ (\begin{matrix} Γ (α_{21}, β_{21}) & P = b_{1} \\ Γ (α_{22}, β_{22}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{23}, β_{23}) & b_{3} < P \leq b_{4} \end{matrix})$

$R (> R_{mid_th}) ~ (\begin{matrix} Γ (α_{41}, β_{41}) & P = b_{1} \\ Γ (α_{42}, β_{42}) & b_{2} \leq P \leq b_{3} \\ Γ (α_{43}, β_{43}) & b_{3} < P \leq b_{4} \end{matrix})$

PRModel的构建步骤如下：

1)首先在上述第一个公式中，利用生物基因测序日志计算出不同并行度区间内任务所占的概率值，利用伪随机函数发生器产生一个概率，利用这个概率值选择对应的并行度区间，然后利用相应的分布函数产生出任务的并行度值P；

2)然后利用生物基因测序日志，计算出pdf(P,R)的概率值，其中pdf表示不同并行度P的区间和不同任务运行时间R的区间之间的概率值。其中P被b₁，b₂， b₃，b₄分为三个不同的并行度区间，而R被R_{low_th}，R_{mid_th}分为三个区间。同时，由步骤1)已经得出任务并行度所在的区间，而利用生物基因测序日志可以得出对应该任务并行度P区间的三个任务运行时间R区间的概率值，然后利用一个伪随机函数发生器可以来选择相应的任务运行时间R的区间。

3)最后利用步骤1)中得出的任务并行度的P的区间和任务运行时间R的区间，以及上述最后三个公式选择合适的伽马分布函数来产生任务的运行时间R。

(3)QModel的构建。生物基因测序日志中使用多队列任务调度模型，各个队列的使用率并不相同，且存在某种规律性，因此本发明通过研究和分析这种规律性构建了一种针对生物基因测序日志队列的QModel模型。下面四个公式是 QModel的数学关系式。

$U_{i} ~ (\begin{matrix} E ({\overline{U}}_{i}) & i \in LOW \\ N (μ_{i}, σ_{i}) & i \in MIDDLE \\ Γ (α_{i}, β_{i}) & i \in SUBHIGH \\ B (0.2, 1.0) & i \in HIGH \end{matrix})$

${\overline{M}}_{i} = (\begin{matrix} C_{0.2} & U_{i} = 0.2, i \in HIGH \\ C_{1.0} & U_{i} = 1.0, i \in HIGH \end{matrix})$

$M_{i} ~ E ({\overline{M}}_{i}), i \in LOW \cup MIDDLE \cup SUBHIGH \cup HIGH$

QModel的具体实现步骤如下：

1)首先从生物基因测序日志中计算出LOW，MIDDLE，SUBHIGH，HIGH四个区间所占的比率，然后利用一个伪随机函数将要生成的队列号随机地分布到这四个区间内。然后计算每个队列的U_i和最后计算出每个队列的M_i。

2)通过上述第一个公式计算出队列i所在的区间，并选出合适的分布函数，利用相应的分布函数产生出队列i的队列使用率U_i。在生物基因测序日志中的区间LOW，MIDDLE和SUBHIGH内，队列的U_i同队列的存在非线性关系，本发明利用三个三次二项式来拟合这三个区间内U_i和的关系；而在区间HIGH内，由于队列较少，因此队列使用率U_i和采用一一对应的关系如上述第三个公式所示。然后可以从上述第三个和第四个公式中选择队列i对应的U_i和的关系式求出队列的重复步骤2)，直到求出所有队列的U_i和

3)在生物基因测序日志中，队列的M_i的分布是服从期望值为的指数分布。因此可以通过上述第四个公式，同时利用队列i的求出队列的M_i。

4)最后利用各个队列的U_i和M_i生成队列号：首先利用一个伪随机数发生器生成一个介于0和1之间的数值，将所有U_i大于这个数值的队列放入一个临时列表中；然后将这个临时列表中所有队列按照它们M_i的大小标准化到区间[0,1] 内，即按照M_i的大小在区间[0,1]内对应一块同比率的区间；最后，再利用另一个伪随机数发生器产生一个介于0和1之间的数值，数值所在的区间对应的队列号即为最终生成的队列号。

最后综合步骤(1)(2)(3)生成拥有任务提交时间，任务的运行时间，任务的并行度以及任务的队列号的任务。重复这三个步骤即可生成多个任务记录，从而形成用于生物基因测序技术的性能评估。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于日志的生物基因测序的任务模型构建方法 [P] . 中国专利： CN103559333B . 2016.06.22
2. 基于日志的生物基因测序的任务模型构建方法 [P] . 中国专利： CN103559333A . 2014-02-05
3. Accelerated log building method, log building kits, and methods of producing log building kits [P] . 美国专利： US7318299B2 . 2008-01-15

机译：加速的日志构建方法，日志构建套件以及生产日志构建套件的方法
4. Accelerated log building method, log building kits, and methods of producing log building kits [P] . 美国专利： US2004182023A1 . 2004-09-23

机译：加速的日志构建方法，日志构建套件以及生产日志构建套件的方法
5. APPARATUS AND METHOD OF CONSTRUCTING USER BEHAVIOR PATTERN BASED ON THE EVENT LOG GENERATED FROM THE CONTEXT AWARE SYSTEM ENVIRONMENT [P] . 韩国专利： KR20090027000A . 2009-03-16

机译：基于从上下文预警系统环境中生成的事件日志构建用户行为模式的装置和方法