首页> 中国专利> 一种实时数据任务的验证的代理方法及装置

一种实时数据任务的验证的代理方法及装置

摘要

本申请公开了一种实时数据任务的验证方法及装置,该方法包括:生成测试数据,记录测试数据的预期结果集,实时数据任务处理所述测试数据,并输出测试结果集,将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。通过上述方法,可以确定设计出来的实时数据任务是否符合实时数据任务设计的需求,并且,该实时数据任务可以充分提高实时数据处理任务的测试覆盖率以及测试质量,同时提高结果数据的完整性与准确性,并能够生成测试报告以便实时数据处理任务的设计人员进行阅读,在必要的情况下,对实时数据处理任务进行改进,以提高实时数据任务的处理能力。

著录项

  • 公开/公告号CN106201886A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 合一网络技术(北京)有限公司;

    申请/专利号CN201610564996.8

  • 申请日2016-07-18

  • 分类号G06F11/36(20060101);

  • 代理机构北京市天玺沐泽专利代理事务所(普通合伙);

  • 代理人鲍晓

  • 地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-07

    专利权的转移 IPC(主分类):G06F11/36 登记生效日:20200720 变更前: 变更后: 申请日:20160718

    专利申请权、专利权的转移

  • 2019-04-09

    授权

    授权

  • 2018-07-31

    著录事项变更 IPC(主分类):G06F11/36 变更前: 变更后: 申请日:20160718

    著录事项变更

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F11/36 申请日:20160718

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本申请涉及计算机技术领域,尤其涉及一种实时数据任务的验证方法及装置。

背景技术

随着互联网技术的发展,为了对用户的行为进行分析并满足用户不断增多的需求,对互联网数据进行分析是互联网公司必须进行的工作之一。目前互联网数据分析主要基于实时数据处理系统,对于实时数据而言,实时数据处理系统可以根据已经预置的规则输出实时数据供互联网公司使用,但是其提供的实时数据的完整性和准确性可能无法满足互联网公司的需求,使得目前实时数据处理系统需要针对实时数据入库及计算进行全覆盖测试。

目前,由于互联网数据类型越来越多,数据量巨大,现有的进行全覆盖的测试技术以及测试方法没有针对多类型实时数据的处理逻辑,不能很好的满足测试实时数据的完整性和准确性的测试需求,从而有必要通过实时数据任务来完成实时数据的处理,但是在实时数据任务在正式上线之前,需要对其进行测试,以便确定其是否符合实时数据任务设计的需求。

发明内容

本申请实施例提供一种实时数据任务的验证方法及装置,用以解决实时数据任务进行测试,使得实时数据任务能够符合设计的需要。

本申请实施例提供的一种实时数据任务的验证方法,包括:

生成测试数据;

记录测试数据的预期结果集,其中,所述预期结果集中的各个预期结果各自具有相应的维度;

实时数据任务处理所述测试数据,并输出测试结果集,其中,所述测试结果集中的各个测试结果各自具有相应的维度;

将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。

本申请实施例提供的一种实时数据任务的验证装置,装置包括:

生成模块,用于生成测试数据;

记录模块,用于记录测试数据的预期结果集,其中,所述预期结果集中的各个预期结果各自具有相应的维度;

处理模块,用于实时数据任务处理所述测试数据,并输出测试结果集,其中,所述测试结果集中的各个测试结果各自具有相应的维度;

验证模块,用于将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。

本申请实施例提供一种实时数据任务的验证方法及装置,该方法生成测试数据,记录测试数据的预期结果集,其中,所述预期结果集中的各个预期结果各自具有相应的维度,实时数据任务处理所述测试数据,并输出测试结果集,其中,所述测试结果集中的各个测试结果各自具有相应的维度,将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。通过上述方法,可以确定设计出来的实时数据任务是否符合实时数据任务设计的需求,并且,该实时数据任务可以充分提高实时数据处理任务的测试覆盖率以及测试质量,同时提高结果数据的完整性与准确性,并能够生成测试报告以便实时数据处理任务的设计人员进行阅读,在必要的情况下,对实时数据处理任务进行改进,以提高实时数据任务的处理能力。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的实时数据任务的验证过程;

图2为本申请实施例提供的一种实时数据任务的验证装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的实时数据任务的验证过程,具体包括以下步骤:

S101:生成测试数据。

为了确定实时数据任务是否符合实时数据任务设计的需求,也就是说,确保其能够按照设计需求进行正常工作,因此,在实时数据任务在正式上线之前,需要对其进行充分测试。

本申请在整个测试过程中,首先需要生成测试数据,其中,测试数据可以为视频或页面广告的请求、曝光、点击、播放完成等等的日志记录,根据不同类型日志的格式与标准,生成的日志数据作为原始的测试数据;根据不同的广告投放形式所需记录信息的标准,模拟生成相关的测试数据;或者根据不同的产品业务系统(广告投放系统)所需记录信息的标准,模拟生成相关的测试数据。

进一步的,为了能够生成测试数据,需要预先知道在实时数据任务上线之后,被其处理的数据记录的数据标准。其中,数据记录可以为系统产生的业务日志、数据;日志可以是用户在产品系统中的行为动作的记录、数据可以是用户在产品系统中的行为所产生的数值。

生成测试数据时,本领域技术人员需要了解被入库数据(如:广告请求、播放等等日志)的规则,例如被入库数据的规则可以包括:一条记录需要哪些数据字段、每个数据字段需要记录哪些信息、以及记录信息的格式(如:数值、字符串等等)。日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每个日志文件由日志记录组成,每条日志记录描述了一次单独的系统事件。通常情况下,系统日志是用户可以直接阅读的文本文件,其中包含了一个时间戳和一个信息或者子系统所特有的其他信息。日志文件为服务器、工作站、防火墙和应用软件等IT资源相关活动记录必要的、有价值的信息,这对系统监控、查询、报表和安全审计是十分重要的。日志文件中的记录可提供以下用途:监控系统资源;审计用户行为;对可疑行为进行告警;确定入侵行为的范围;为恢复系统提供帮助;生成调查报告;为打击计算机犯罪提供证据来源。例如可以通过计算机随机生成符合上述要求的测试数据,或者可以根据已经存储的实际的数据生成符合上述要求的测试数据。

S102:记录测试数据的预期结果集。

在本申请中,在生成测试数据后,需要生成测试数据的预期结果集,其中,其中,该预期结果集中的各个预期结果各自具有相应的维度,用于后续给测试结果提供一个比对标准,也就是说,后续将生成的测试结果与预期结果集进行比对,来确定测试结果是否是正确的。

进一步的,由于数据的统计逻辑方法以及统计维度规则是生成数据预期结果的基准,因此,为了能够生成测试数据的预期结果集,还需要预先知道实时数据任务的逻辑方法,该逻辑方法可以帮助用户明白实时数据任务的处理流程,从而可以知道将测试数据输入实时数据任务之后,可以期望得到的测试结果,以便和实时数据任务实际的输出的测试结果进行比较,从而可以完成对实时数据任务的测试。本领域技术人员了解任务处理的逻辑方法,例如:针对日志数据格式校验(字段数、字段值记录的正确性、非法的数据校验过程、数据处理后的数据格式、存储位置等,是为更好的设计测试方法、测试用例。再者,还需要预先知道实时数据任务的统计维度规则,根据该统计维度规则,用户可以预先知道期望的数据维度,针对不同的数据可以具有不同的维度,而实时数据任务也按照相同的统计维度规则进行处理,从而可以将具有相同维度的预期结果和测试结果进行比对,从而可以对实时数据任务进行验证。维度统计规则致力于建立一个基于多方位统计(时间、地域、访问者)、全方位分析网站流量的统计标准,形成原始数据→数据视觉化→数据行为化→数据深入挖掘的数据分析模式。维度统计规则可以将数据分为三种类型:基础的统计数据、人口统计学数据和用户模型数据。如上所述,预期结果可以用来与实时数据任务输出的测试结果进行比对,从而完成对实时数据任务的验证。预期结果集可以根据实时数据任务的逻辑方法以及实时数据任务的统计维度规则预先确定。下面举例说明:例如预期结果集:日志类型A(日志规则为:字段数为n(2)个,字段名称B(int)、C(string)等等);处理日志A的逻辑方法为:判断日志长度是否为n,判断字段B数据类型是否为int等等;统计维度规则:如日志类型A,字段B作为维度,进行基础数据统计D(D的统计逻辑为行数求和),进行基础数据统计E(E的统计逻辑为系数乘积)等等。按照上述规则生成数据B-D-E的数据集合。

S103:实时数据任务处理所述测试数据,并输出测试结果集。

在本申请中,生成测试数据以及测试数据的预期结果集后,就需要对实时数据任务进行验证了。

在整个验证过程中,实时数据任务会读取该测试数据,并且按照其逻辑流程以及统计维度规则对测试数据进行处理,并输出测试数据集,其中,该测试结果集中的各个测试结果各自具有相应的维度,例如,有测试数据集N,N包括不同的测试类型的测试日志数据(A、B),假设被测的实时数据任务逻辑方法为先处理A的数据,然后根据A的结果匹配处理B的数据;统计维度规则为以A类型数据中的字段C作为统计维度,计算B中的某个字段生成数据F等等。实时数据任务根据所述规则处理测试数据集N等到C-F的数据集合,为测试结果集。

另外,在此需要说明的是,在执行完成步骤S102后,可将步骤S101中生成的测试数据推送给消息订阅系统,由于消息订阅系统中会包含多个不同类型的消息通道,而每个类型的消息通道都只会接收一种测试数据的类型,因此,针对测试数据的不同类型,测试数据具体会被推送到消息订阅系统中相应的消息通道中,后续,实时数据处理系统会根据需求读取特定的消息通道中的测试数据,并对测试数据进行处理。

另外,实时处理任务具体是在实时大数据处理系统上运行的。

S104:将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。

在本申请中,在执行完成步骤S103后,可获取步骤S102中记录的预期结果集,并将预期结果集中的预期结果与测试结果集中的测试结果进行比对,比较相同维度的预期结果集中的预期结果和测试数据集中的测试数据是否一致。例如,假设预期结果中所记录的某维度的基础数据为100,测试结果中该维度的基础数据为100,则说明该维度对应的数据结果是一致的,假设预期结果中所记录的某维度的基础数据为100,测试结果中该维度的基础数据为101,则说明该维度对应的数据结果是不一致的。

如果相同维度的预期结果集中的预期结果和测试数据集中的测试结果一致,则验证通过,也就是说,实时数据任务符合实时数据任务设计的需求,能够按照设计需求进行正常工作。

如果相同维度的的预期结果集中的预期结果和测试数据集中的测试结果不一致,则验证失败,也就是说,实时数据任务不符合实时数据任务设计的需求,不能够按照设计需求进行正常工作。

直到所有维度的预期结果和测试结果比对完成即可,如果所有维度的预期结果和测试结果比对未完成,则选择下一个维度的预期结果和测试结果进行比较,如果所有维度的预期结果和测试结果比对完成,则生成测试报告,其中,测试报告中可以包括验证的数据维度、验证的数据项、针对每个维度的验证结果等数据。

通过上述方法,可以确定设计出来的实时数据任务是否符合实时数据任务设计的需求,并且,该实时数据任务可以充分提高实时数据处理任务的测试覆盖率以及测试质量,同时提高结果数据的完整性与准确性,并能够生成测试报告以便实时数据处理任务的设计人员进行阅读,在必要的情况下,对实时数据处理任务进行改进,以提高实时数据任务的处理能力。

以上为本申请实施例提供的实时数据任务的验证方法,基于同样的思路,本申请实施例还提供一种实时数据任务的验证装置,如图2所示。

图2为本申请实施例提供的一种实时数据任务的验证装置结构示意图,包括:

生成模块201,用于生成测试数据;

记录模块202,用于记录测试数据的预期结果集,其中,所述预期结果集中的各个预期结果各自具有相应的维度;

处理模块203,用于实时数据任务处理所述测试数据,并输出测试结果集,其中,所述测试结果集中的各个测试结果各自具有相应的维度;

验证模块204,用于将具有相同维度的所述预期结果集中的所述预期结果和所述测试结果集中的所述测试结果进行比对以验证所述实时处理任务。

所述生成模块201具体用于,根据待测试的数据记录的数据标准生成所述测试数据。

所述记录模块202具体用于,根据实时数据任务处理的逻辑方法以及实时数据任务的统计维度规则,记录预期结果集。

所述装置还包括:

推送模块205,用于在所述记录模块202记录测试数据的预期结果集步骤与所述处理模块203实时数据任务处理所述测试数据步骤之间,根据所述测试数据的类型,将所述测试数据推送给消息订阅系统中对应的消息通道,使实时数据处理系统从所述消息通道中获取所述测试数据,其中,所述实时处理任务在所述实时大数据处理系统上运行。

所述处理模块203具体用于,实时数据任务读取所述测试数据,根据实时数据任务的逻辑方法以及实时数据任务的统计维度规则生成测试结果集。

所述装置还包括:

测试报告生成模块206,用于根据比对结果生成测试报告。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号