首页> 中国专利> 一种军事领域内可视化的多模态数据质量校验系统

一种军事领域内可视化的多模态数据质量校验系统

摘要

本发明涉及一种军事领域内可视化的多模态数据质量校验系统,属于数据融合治理领域。本发明的系统包括:校验规则管理模块、校验任务管理模块、质量问题修正模块、质量报告管理模块和质量问题分析模块。该系统以客户业务系统数据为数据来源,引接多种类型的数据,包含结构化数据、非结构化数据、半结构化数据和流式数据,将这些数据进行归集处理,统一存储后再进行数据治理。本发明能提供较好的数据质量,会改善客户体验、提高生产力、大大降低成本。

著录项

  • 公开/公告号CN116910663A

    专利类型发明专利

  • 公开/公告日2023-10-20

    原文格式PDF

  • 申请/专利权人 北京计算机技术及应用研究所;

    申请/专利号CN202310838184.8

  • 发明设计人 张倩;张宏;韩翠红;俞靓;

    申请日2023-07-10

  • 分类号G06F18/243(2023.01);G06F18/214(2023.01);G06F16/215(2019.01);G06F16/28(2019.01);

  • 代理机构中国兵器工业集团公司专利中心 11011;

  • 代理人辛海明

  • 地址 100854 北京市海淀区永定路51号

  • 入库时间 2024-04-18 19:48:15

说明书

技术领域

本发明属于数据融合治理领域,具体涉及一种军事领域内可视化的多模态数据质量校验系统。

背景技术

随着信息技术的不断发展,企业逐步进入数字化转型阶段,越来越多的单位、企业认识到了数据的重要性,开始研究与发展大数据技术,搭建大数据平台,构建数据仓库,建设数据中台。伴随着数据量越来越多,数据的质量就成为一个重要问题,比如数据在存储或抽取的过程中存在空值、不一致性、重复性等质量问题,这些质量问题将会导致数据统计分析不准确、监管业务难、上层领导难以决策等问题。从而,数据质量的校验工作成为重中之重,保证高质量高可靠的数据是企业获得成功的关键。

对于军事领域应用中,数据标准不统一是造成信息孤岛的主要原因。面对的不同业务系统、不同业务流程等多方面均存在数据标准不统一、数据不一致的问题。除此之外,数据的存储形态也是多种多样,有些采用达梦、神通、MySQL等关系型数据库,有的通过手工或非结构化的方式来进行数据的录入。因此,如何在多模态数据之间对数据质量进行有效管理,是目前需要解决的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种军事领域内可视化的多模态数据质量校验系统,以解决如何在多模态数据之间对数据质量进行有效管理的问题。

(二)技术方案

为了解决上述技术问题,本发明提出一种军事领域内可视化的多模态数据质量校验系统,该系统包括:校验规则管理模块、校验任务管理模块、质量问题修正模块、质量报告管理模块和质量问题分析模块;

校验规则管理模块,用于构建业务类型分类树,根据业务分类创建相应的校验规则;

校验任务管理模块,用于基于校验规则,设计任务流程,生成校验任务且运行任务,任务执行成功后生成质量报告;

质量问题修正模块,用于在校验任务执行后生成相应的问题数据,用于用户查看问题明细,并进行问题评估,通过不断的评估和改进,提高数据校验的质量和效率;

质量报告管理模块,用于提供质量报告的下载,且在下载质量报告后生成质量报告下载记录,用于质量报告的数据维护;

质量问题分析模块,用于记录任务执行总次数、任务执行成功次数、失败次数以及问题记录数,帮助用户快速地了解质量问题情况,更好地分析问题数据。

进一步地,所述校验规则管理模块中,在定义校验规则前,用户首先必须选择业务类型分类,如果没有选择,则提示用户进行选择,若业务类型分类不存在,用户需要根据业务需求创建业务类型分类,填写业务分类名称、业务分类排序信息,若业务分类名称为空,则不允许创建,不为空则保存业务类型分类;创建成功后以层级样式进行展示,形成业务类型分类树。

进一步地,所述校验规则管理模块中,根据业务分类创建相应的校验规则具体包括:选择好业务类型分类,在不同的业务类型分类下再创建相应的校验规则,填写校验规则信息,校验规则信息包括:规则名称、配置SQL语句和设置质量维度分类;填写配置完成后,需要检查这些规则信息是否正确,若规则信息均正确,则生成校验规则;校验规则的生成是通过配置SQL语句来实现,一个规则对应一条SQL语句,然后从数据准确性、完整性、一致性、时效性、冗余性五种质量维度分类上对规则进行划分。

进一步地,检查这些规则信息是否正确包括:名称是否合规、SQL语法是否正确、质量维度分类是否设置。

进一步地,所述校验任务管理模块,用于对校验任务的增删改查、任务启停、日志查看操作,提供可视化的拖拽形式进行任务流程的设计;流程设计组件包括基础组件和质量检查组件,基础组件有抓取、循环、注释、执行函数、执行SQL、输出和执行结束,质量检查组件有日期格式、图像、音频、视频和报表;校验任务包括:图像校验任务和结构化数据校验任务。

进一步地,对于图像校验任务,所述校验任务管理模块创建图像校验任务,进行校验任务流程设计,在可视化的流程设计页面中通过拖拽的方式将开始、执行SQL、图像、执行结束四个组件放置到设计面板中生成任务流程,需要配置执行SQL的相关属性,选择数据源,指定数据表,配置完成后保存图像校验任务;保存成功后执行图像校验任务,对人员图像的姓名、军衔,对装备图像的装备类型、装备型号信息进行校验。

进一步地,校验任务执行过程中,首先查询任务流程组件,是否包含执行SQL的组件;如果有执行SQL组件,获取其组件内关联的数据源进行数据库连接,以便查询人员媒体信息表,查询结果将返回图像的二进制数据,若二进制数据不为空,则通过图像分离、合并、过滤、文字识别函数对图像二进制数据进行解析,获取到人员、军衔图像数据,将这些图像数据与数据库中人员基础信息、装备信息进行校对,校验图像数据的一致性、准确性,校验完成后生成相应的质量报告。

进一步地,对于结构化数据校验任务,创建结构化数据校验任务,打开校验任务流程设计页面,将执行SQL组件拖拽到设计面板,然后配置执行SQL组件的相关属性,勾选校验规则,若已勾选,则打开校验规则列表,引用预定义的校验规则,如果不勾选校验规则,自定义SQL语句,SQL语句根据业务需求进行定义;定义完SQL语句,能预览SQL执行结果,然后保存校验任务;保存成功后执行校验任务,对校验任务进行定时执行或手动执行,执行后将输出执行日志,便于查看执行过程,执行结果会作为质量问题在质量问题修正模块中进行查看。

进一步地,SQL语句根据业务需求进行定义,包括:

校验部队人员的出生日期格式是否合法,使用isDate()函数来判断人员信息表中出生日期是否是合法的日期;

校验部队人员的年龄是否正确,使用算术比较运算符,或BETWEEN、AND比较运算符,限定一个值的范围,将年龄不正确或不符合条件的人员信息筛选出来以便进行质量问题修正;

校验部队人员的姓名和身份证号是否为空,人员信息表中姓名和身份证号是人员的基本信息,不允许为空,需对人员信息表数据进行校验,使用where条件判断姓名和身份证为空,将为空的记录筛选出来便于进行质量问题修正。

进一步地,该系统以客户业务系统数据为数据来源,引接多种类型的数据,包含结构化数据、非结构化数据、半结构化数据和流式数据,将这些数据进行归集处理,统一存储后再进行数据治理,结构化数据包括:达梦、金仓、MySQL、Oracle数据库数据,非结构化数据包括:文档、文本、HTML、报表、音频和视频。

(三)有益效果

本发明提出一种军事领域内可视化的多模态数据质量校验系统,主要优势体现在以下方面:

成本:低数据的质量不仅与用户预期大相径庭,还使得系统运维、数据运维的成本随时间的增长不断增加,工作量也逐年加大。本发明能提供较好的数据质量,会改善客户体验、提高生产力、大大降低成本。

决策:低质量的数据会误导业务做出错误的决定,致使行动方向发生偏离。本发明能够提供准确的、可用的高质量的数据,有助于领导层做出正确的决策和军事战略目标的实现。

附图说明

图1为本发明的架构图;

图2为数据质量校验方法的业务流程图;

图3为校验规则业务流程图;

图4为创建校验任务可视化流程设计示意图;

图5为执行图像校验任务的处理逻辑图;

图6为结构化数据校验任务的业务流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

本发明依托军事领域下的数据中台,基于数据中台数据治理领域,解决各类业务数据的质量问题,可以从数据准确性、完整性、一致性、时效性、冗余性五类质量维度上来解决数据质量问题。以下通过示例的方式来说明要解决的具体问题。

解决结构化数据的质量问题。结构化数据存储在关系型数据库中,对于数据库表中的数据,存在日期格式错误、数值范围不正确、数据为空等问题。比如数据修改时间小于创建时间、身份证号或手机号格式不正确,这些都是数据准确性较差的体现。人员的完整信息中,应包含姓名、性别、身份证号等信息,若身份证号为null,则说明不符合数据质量完整性标准。

解决非结构化数据的质量问题。非结构化数据包含图像、音频、视频等,可以对这类数据在数据准确性、一致性上进行质量的把控。比如校对从图像数据提取的人员姓名、军衔等属性信息,是否与部队人员信息表中的数据一致。

针对军事领域下数据中台的建设,以客户业务系统数据为数据来源,引接多种类型的数据,包含结构化数据(例如达梦、金仓、MySQL、Oracle数据库等)、非结构化数据(例如文档、文本、HTML、报表、音频、视频等)、半结构化数据和流式数据,将这些数据进行归集处理,统一存储后再进行数据治理。本发明是一种军事领域内可视化的多模态数据质量校验系统,它属于数据治理领域。

本发明的军事领域内可视化的多模态数据质量校验系统,包括:校验规则管理模块、校验任务管理模块、质量问题修正模块、质量报告管理模块和质量问题分析模块;

校验规则管理模块,用于构建业务类型分类树,根据业务分类创建相应的校验规则;

校验任务管理模块,用于基于校验规则,设计任务流程,生成校验任务且运行任务,任务执行成功后生成质量报告;

质量问题修正模块,用于在校验任务执行后生成相应的问题数据,用于用户查看问题明细,并进行问题评估,通过不断的评估和改进,提高数据校验的质量和效率;

质量报告管理模块,用于提供质量报告的下载,且在下载质量报告后生成质量报告下载记录,用于质量报告的数据维护;

质量问题分析模块,用于记录任务执行总次数、任务执行成功次数、失败次数以及问题记录数,帮助用户快速地了解质量问题情况,更好地分析问题数据。

数据质量校验方法的业务流程是:先定义校验规则,在校验规则管理模块中构建业务类型分类树,根据业务分类创建相应的校验规则。基于校验规则,在校验任务管理模块中设计任务流程,生成校验任务且运行任务,任务执行成功后生成质量报告,提供质量报告的下载,质量报告在质量报告管理模块中进行维护。用户可以在质量问题分析模块中查看统计数据,从而对质量问题进行深入分析。如图2所示:

1、校验规则管理模块

定义校验规则前,用户首先必须选择业务类型分类,如果没有选择,则提示用户进行选择。若业务类型分类不存在,用户需要根据业务需求创建业务类型分类,填写业务分类名称、业务分类排序等信息,若业务分类名称为空,则不允许创建,不为空则保存业务类型分类。创建成功后以层级样式进行展示,形成业务类型分类树。创建业务类型分类的目的是为了将校验规则按照不同业务或不同质量维度进行分类,便于用户更好的管理和使用校验规则。

选择好业务类型分类,在不同的业务类型分类下再创建相应的校验规则,填写规则名称、配置SQL语句,设置质量维度分类等校验规则信息。填写配置完成后,需要检查这些规则信息是否正确,比如名称是否合规、SQL语法是否正确、质量维度分类是否设置,若规则信息均正确,则生成校验规则。校验规则的生成实质是通过配置SQL语句来实现,可以说一个规则对应一条SQL语句,然后从数据准确性、完整性、一致性、时效性、冗余性五种质量维度分类上对规则进行划分。比如配置人员姓名非法字符的校验,这属于定义完整性校验规则。

定义校验规则的作用旨在校验任务中引用预定义的校验规则,进而提升校验效率,提高数据质量。校验规则业务流程,如图3所示:

2、校验任务管理模块

校验任务管理模块是数据质量管理中的重要模块,用于对校验任务的增删改查、任务启停、日志查看等操作,提供可视化的拖拽形式进行任务流程的设计。流程设计组件包括基础组件和质量检查组件,基础组件有抓取、循环、注释、执行函数、执行SQL、输出和执行结束,质量检查组件有日期格式、图像、音频、视频和报表;如图4所示,校验任务包括:图像校验任务、结构化数据校验任务等任务。

图像校验任务:

创建图像校验任务,进行校验任务流程设计,在可视化的流程设计页面中通过拖拽的方式将开始、执行SQL、图像、执行结束四个组件放置到设计面板中生成任务流程,需要配置执行SQL的相关属性,选择数据源,指定数据表,如人员媒体信息表,配置完成后保存图像校验任务。

保存成功后执行图像校验任务,对人员图像的姓名、军衔,对装备图像的装备类型、装备型号等信息进行校验。校验任务执行过程中,首先查询任务流程组件,是否包含执行SQL的组件。如果有执行SQL组件,获取其组件内关联的数据源进行数据库连接,以便查询人员媒体信息表,查询结果将返回图像的二进制数据(图片信息都是解析成二进制数据存储到数据库中),若二进制数据不为空,则通过图像分离、合并、过滤、文字识别等函数对图像二进制数据进行解析,获取到人员、军衔等图像数据,将这些图像数据与数据库中人员基础信息、装备信息进行校对,校验图像数据的一致性、准确性,校验完成后生成相应的质量报告。执行图像校验任务的处理逻辑,如图5所示。

结构化数据校验任务:

创建结构化数据校验任务,打开校验任务流程设计页面,将执行SQL组件拖拽到设计面板,然后配置执行SQL组件的相关属性,比如选择数据源,指定数据表,勾选校验规则,若已勾选,则打开校验规则列表(在校验规则管理中已经生成),引用预定义的校验规则,如果不勾选校验规则,可以自定义SQL语句,SQL语句需要根据业务需求进行定义,比如:

校验部队人员的出生日期格式是否合法。可以使用isDate()函数来判断人员信息表中出生日期是否是合法的日期。

校验部队人员的年龄是否正确。可以使用算术比较运算符(<,>,>=,<=,=,!=),也可以用BETWEEN...AND...比较运算符,限定一个值的范围,将年龄不正确或不符合条件的人员信息筛选出来以便进行质量问题修正。

校验部队人员的姓名和身份证号是否为空。人员信息表中姓名和身份证号是人员的基本信息,不允许为空,所以需要对人员信息表数据进行校验,可以使用where条件判断姓名和身份证为空,将为空的记录筛选出来便于进行质量问题修正。

定义完SQL语句,可以预览SQL执行结果,然后保存校验任务。保存成功后执行校验任务,可以对校验任务进行定时执行,也可以手动执行,执行后将输出执行日志,便于查看执行过程,执行结果会作为质量问题在质量问题修正模块中进行查看。结构化数据校验任务的业务流程,如图6所示。

3、质量问题修正模块

校验任务执行完成后在质量问题修正模块中会生成相应的问题数据,用户可查看问题明细,并进行问题评估,通过不断的评估和改进,可以提高数据校验的质量和效率,保证数据的可靠性。

4、质量报告管理模块

基于质量问题修正模块,下载质量报告后可生成质量报告下载记录,用于质量报告的数据维护。

5、质量问题分析模块

质量问题分析模块,记录任务执行总次数、任务执行成功次数、失败次数以及问题记录数等统计信息,帮助用户快速地了解质量问题情况,更好地分析问题数据。

本发明提供一种军事领域内可视化的多模态数据质量校验方法,主要优势体现在以下方面:

成本:低数据的质量不仅与用户预期大相径庭,还使得系统运维、数据运维的成本随时间的增长不断增加,工作量也逐年加大。本发明能提供较好的数据质量,会改善客户体验、提高生产力、大大降低成本。

决策:低质量的数据会误导业务做出错误的决定,致使行动方向发生偏离。特别是在军事领域ZZ数据中,本发明能够提供准确的、可用的高质量的数据,有助于领导层做出正确的决策和军事战略目标的实现。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号